Квантові обчислення стискають штучний інтелект: тензорні мережі підвищують ефективність

4

Штучний інтелект (ШІ) швидко розвивається, але його величезні потреби в енергії та витрати на обчислення стають непідйомними. Зараз у світі квантової фізики з’являється несподіване рішення: тензорні мережі. Спочатку розроблені для обробки складних взаємодій між частинками, ці математичні структури виявилися напрочуд ефективними для стиснення моделей штучного інтелекту, зменшення енергоспоживання та навіть підвищення доступності штучного інтелекту.

Вузьке місце: роздуті моделі ШІ

Великі мовні моделі (LLM), такі як ChatGPT, як відомо, потребують ресурсів. Їхній розмір і складність вимагають величезної кількості енергії для навчання та роботи, що спонукає деякі технологічні компанії до розгляду екстремальних рішень, таких як спеціальні міні-атомні електростанції для підтримки роботи центрів обробки даних. Це не лише екологічна проблема; це також обмежує застосування ШІ.

Основною проблемою є розмір. Коли моделі штучного інтелекту вирішують складніші проблеми, кількість змінних зростає, що унеможливлює зберігання та обробку. Фізики вирішили цю проблему десятиліття тому за допомогою тензорних мереж.

Тензорні мережі: рішення для стиснення на основі фізики

Тензорні мережі розбивають величезні набори даних на менші, керовані компоненти. Уявіть гігантську ковбасу, яка є надто великою, щоб приготувати її відразу; якщо розкачати хот-доги ідеальних порцій, їх буде легко смажити на грилі. Подібним чином тензорні мережі аналізують масивні тензори (високовимірні масиви чисел) на пов’язані менші тензори.

Ключова перевага? Вони зберігають точність, значно зменшуючи свій розмір. Multiverse Computing, стартап, заснований фізиком Романом Орусом, уже продемонстрував це на Llama 2 7B. Їхня техніка CompactifAI стискає модель більш ніж на 90%, з 27 ГБ до лише 2 ГБ, з мінімальною втратою точності.

За межами стиснення: нова архітектура ШІ

Довгострокове бачення є ще сміливішим: створення моделей штучного інтелекту з нуля за допомогою тензорних мереж, минаючи традиційні нейронні мережі. Нейронні мережі, хоча й потужні, енергоємні та непрозорі. Тензорні мережі пропонують потенціал для швидшого навчання та більш прозорої внутрішньої роботи.

Майлз Стоуденмайр з Інституту Флатарон вважає, що такий підхід може розкрити «приховану силу» ШІ, дозволяючи йому ефективно працювати на персональних пристроях без підключення до хмари. Уявіть собі холодильники або пральні машини з підтримкою ШІ, які працюють автономно.

Як це працює: Прокляття розмірності та лікування

«Прокляття розмірності» полягає в тому, що зі збільшенням складності даних зберігання стає неможливим. Таблиця є 2D матрицею; тензори узагальнюють це на кілька вимірів. Спробуйте відстежити вподобання піци для 100 000 людей (100 начинок, 100 соусів). Отриманий тензор міститиме один мільярд чисел, але ним можна керувати. Однак якщо додати більше змінних (корочка, сир), розмір зростатиме в геометричній прогресії.

Тензорні мережі вирішують цю проблему, представляючи гігантський тензор як мережу менших. Кореляції між точками даних є ключовими. Наприклад, люди, які люблять білі гриби, також люблять креміні. Усуваючи надмірність, тензорні мережі стискають модель без шкоди для продуктивності.

Реальні результати та перспективи

Переваги вже помітні на практиці. Сопра Стерія виявила, що стиснута версія Multiverse Llama 3.1 8B споживає на 30-40% менше енергії. Дослідники з Імперського коледжу Лондона показали, що стиснення за допомогою тензорних мереж може навіть підвищити точність порівняно з повнорозмірними моделями, оскільки великі набори даних часто містять нерелевантні дані, які видаляються за допомогою цієї техніки.

Кінцева мета — відійти від стиснення та створити абсолютно нові архітектури штучного інтелекту на основі тензорних мереж. Цей підхід може значно скоротити час навчання (одна продемонстрована модель навчається за 4 секунди, порівняно з 6 хвилинами для аналога нейронної мережі) і зробити моделі ШІ більш зрозумілими.

Тензорні мережі — це не просто трюк стиснення; вони представляють фундаментальну зміну в тому, як ми створюємо та розгортаємо ШІ. У разі успіху це може стати початком майбутнього, де потужний ШІ буде енергоефективним, доступним і прозорим.