Google представила TurboQuant для оптимізації великих мовних моделей

Час читання: 2 хв.

Google Research представила технологію TurboQuant — алгоритм квантизації, що дозволяє скоротити розрядність KV-кешу великих мовних моделей до 3 бітів без втрати точності та без додаткового навчання. На прискорювачах Nvidia H100 4-бітний варіант TurboQuant (з четвертим бітом для корекції помилок) забезпечив восьмиразове прискорення обчислення логітів уваги порівняно з неквантованими 32-бітними ключами, одночасно зменшивши обсяг KV-кешу у шість разів.

KV-кеш зберігає проміжні дані механізму уваги, щоб модель не обчислювала їх повторно на кожному кроці генерації токенів. При великих контекстних вікнах кеш стає значним, і традиційні методи квантування зменшують його розмір за рахунок додаткових бітів на значення для констант квантування, що нагадує словники у ZIP або RAR. TurboQuant усуває ці накладні витрати завдяки двоетапному процесу без словників.

На першому етапі застосовується PolarQuant — перетворення векторів з декартових координат у полярні. Кожен вектор отримує значення радіусу та кута. Оскільки кутові розподіли передбачувані, метод обходиться без ресурсомісткої нормалізації блоків, що необхідна у класичних квантизаторах. Результатом є високоякісне стиснення без потреби зберігати константи уваги.

Другий етап використовує 1-бітний шар корекції помилок на основі квантованого алгоритму Джонсона-Лінденштрауса. Залишкова похибка проєктується у простір меншої розмірності, де кожне значення кодується одним бітом, що усуває систематичну похибку оцінки уваги з мінімальними витратами.

Google протестувала обидва етапи TurboQuant окремо та разом на бенчмарках з довгим контекстом LongBench, Needle In A Haystack, ZeroSCROLLS, RULER і L-Eval на відкритих моделях Gemma і Mistral. Алгоритм показав ідеальне стиснення KV-кешу до шести разів та не поступався, а в деяких завданнях перевершував базовий метод KIVI у LongBench, включаючи генерацію коду, відповіді на питання та створення зведень.

TurboQuant виявився ефективним і у векторному пошуку — порівняно з Product Quantization та RabbiQ на наборі даних GloVe він дав кращі результати навіть без навчання чи оптимізації. Алгоритм не потребує тонкого налаштування, має мінімальні накладні витрати і готовий до розгортання навіть за підвищеного навантаження.

Запис Google представила TurboQuant для оптимізації великих мовних моделей спершу з’явиться на iTechua – Новини про смартфони, гаджети і різні девайси.

Google представила TurboQuant для оптимізації великих мовних моделей

5 способів зберегти акумулятор Samsung і продовжити життя смартфона

Трамп пригрозив ЄС новими митами через штрафи для Apple, Google та Meta

Anthropic представила Claude Opus 5 яка перевершує попередню модель

Залишити відповідь Скасувати коментар

Tambourine розширює технології для готельного бізнесу

Galaxy S27 може вперше за багато років залишитися без камери ISOCELL

Qualcomm готує суттєве підвищення цін на свої чіпи

Anthropic представила Claude Opus 5 яка перевершує попередню модель

Трамп пригрозив ЄС новими митами через штрафи для Apple, Google та Meta

Недавні записи

Мета

Категорії

More Stories

Залишити відповідь Скасувати коментар

You may have missed

Недавні записи

Позначки

Мета

Категорії

Увійти

Зареєструватися

Скинути пароль