Google представила TurboQuant для оптимізації великих мовних моделей

Час читання: 2 хв.

Google Research представила технологію TurboQuant — алгоритм квантизації, що дозволяє скоротити розрядність KV-кешу великих мовних моделей до 3 бітів без втрати точності та без додаткового навчання. На прискорювачах Nvidia H100 4-бітний варіант TurboQuant (з четвертим бітом для корекції помилок) забезпечив восьмиразове прискорення обчислення логітів уваги порівняно з неквантованими 32-бітними ключами, одночасно зменшивши обсяг KV-кешу у шість разів.

KV-кеш зберігає проміжні дані механізму уваги, щоб модель не обчислювала їх повторно на кожному кроці генерації токенів. При великих контекстних вікнах кеш стає значним, і традиційні методи квантування зменшують його розмір за рахунок додаткових бітів на значення для констант квантування, що нагадує словники у ZIP або RAR. TurboQuant усуває ці накладні витрати завдяки двоетапному процесу без словників.

На першому етапі застосовується PolarQuant — перетворення векторів з декартових координат у полярні. Кожен вектор отримує значення радіусу та кута. Оскільки кутові розподіли передбачувані, метод обходиться без ресурсомісткої нормалізації блоків, що необхідна у класичних квантизаторах. Результатом є високоякісне стиснення без потреби зберігати константи уваги.

Другий етап використовує 1-бітний шар корекції помилок на основі квантованого алгоритму Джонсона-Лінденштрауса. Залишкова похибка проєктується у простір меншої розмірності, де кожне значення кодується одним бітом, що усуває систематичну похибку оцінки уваги з мінімальними витратами.

Google протестувала обидва етапи TurboQuant окремо та разом на бенчмарках з довгим контекстом LongBench, Needle In A Haystack, ZeroSCROLLS, RULER і L-Eval на відкритих моделях Gemma і Mistral. Алгоритм показав ідеальне стиснення KV-кешу до шести разів та не поступався, а в деяких завданнях перевершував базовий метод KIVI у LongBench, включаючи генерацію коду, відповіді на питання та створення зведень.

TurboQuant виявився ефективним і у векторному пошуку — порівняно з Product Quantization та RabbiQ на наборі даних GloVe він дав кращі результати навіть без навчання чи оптимізації. Алгоритм не потребує тонкого налаштування, має мінімальні накладні витрати і готовий до розгортання навіть за підвищеного навантаження.

Запис Google представила TurboQuant для оптимізації великих мовних моделей спершу з’явиться на iTechua – Новини про смартфони, гаджети і різні девайси.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Увійти

Зареєструватися

Скинути пароль

Будь ласка, введіть ваше ім'я користувача або ел. адресу, ви отримаєте лист з посиланням для скидання пароля.