Google представила TurboQuant для оптимізації великих мовних моделей
Час читання: 2 хв.
Google Research представила технологію TurboQuant — алгоритм квантизації, що дозволяє скоротити розрядність KV-кешу великих мовних моделей до 3 бітів без втрати точності та без додаткового навчання. На прискорювачах Nvidia H100 4-бітний варіант TurboQuant (з четвертим бітом для корекції помилок) забезпечив восьмиразове прискорення обчислення логітів уваги порівняно з неквантованими 32-бітними ключами, одночасно зменшивши обсяг KV-кешу у шість разів.
KV-кеш зберігає проміжні дані механізму уваги, щоб модель не обчислювала їх повторно на кожному кроці генерації токенів. При великих контекстних вікнах кеш стає значним, і традиційні методи квантування зменшують його розмір за рахунок додаткових бітів на значення для констант квантування, що нагадує словники у ZIP або RAR. TurboQuant усуває ці накладні витрати завдяки двоетапному процесу без словників.
На першому етапі застосовується PolarQuant — перетворення векторів з декартових координат у полярні. Кожен вектор отримує значення радіусу та кута. Оскільки кутові розподіли передбачувані, метод обходиться без ресурсомісткої нормалізації блоків, що необхідна у класичних квантизаторах. Результатом є високоякісне стиснення без потреби зберігати константи уваги.
Другий етап використовує 1-бітний шар корекції помилок на основі квантованого алгоритму Джонсона-Лінденштрауса. Залишкова похибка проєктується у простір меншої розмірності, де кожне значення кодується одним бітом, що усуває систематичну похибку оцінки уваги з мінімальними витратами.
Google протестувала обидва етапи TurboQuant окремо та разом на бенчмарках з довгим контекстом LongBench, Needle In A Haystack, ZeroSCROLLS, RULER і L-Eval на відкритих моделях Gemma і Mistral. Алгоритм показав ідеальне стиснення KV-кешу до шести разів та не поступався, а в деяких завданнях перевершував базовий метод KIVI у LongBench, включаючи генерацію коду, відповіді на питання та створення зведень.
TurboQuant виявився ефективним і у векторному пошуку — порівняно з Product Quantization та RabbiQ на наборі даних GloVe він дав кращі результати навіть без навчання чи оптимізації. Алгоритм не потребує тонкого налаштування, має мінімальні накладні витрати і готовий до розгортання навіть за підвищеного навантаження.
Запис Google представила TurboQuant для оптимізації великих мовних моделей спершу з’явиться на iTechua – Новини про смартфони, гаджети і різні девайси.