Obliczenia kwantowe kompresują sztuczną inteligencję: sieci Tensor zwiększają wydajność

18

Sztuczna inteligencja (AI) rozwija się szybko, ale jej ogromne zapotrzebowanie na energię i koszty obliczeniowe stają się niezrównoważone. Teraz ze świata fizyki kwantowej wyłania się nieoczekiwane rozwiązanie: sieci tensorowe. Te struktury matematyczne, pierwotnie zaprojektowane do obsługi złożonych interakcji między cząsteczkami, okazują się zaskakująco skuteczne w kompresowaniu modeli sztucznej inteligencji, zmniejszaniu zużycia energii, a nawet zwiększaniu dostępności sztucznej inteligencji.

Wąskie gardło: rozdęte modele AI

Duże modele językowe (LLM), takie jak ChatGPT, pochłaniają dużo zasobów. Ich rozmiar i złożoność wymagają ogromnych ilości energii do szkolenia i działania, co skłania niektóre firmy technologiczne do rozważenia ekstremalnych rozwiązań, takich jak dedykowane minielektrownie jądrowe do utrzymania działania centrów danych. To nie tylko kwestia środowiskowa; ogranicza to również zastosowania sztucznej inteligencji.

Głównym problemem jest wymiar. W miarę jak modele sztucznej inteligencji rozwiązują bardziej złożone problemy, liczba zmiennych eksploduje, uniemożliwiając przechowywanie i przetwarzanie. Fizycy rozwiązali ten problem kilkadziesiąt lat temu, korzystając z sieci tensorowych.

Sieci Tensorowe: rozwiązanie kompresji oparte na fizyce

Sieci Tensor dzielą ogromne zbiory danych na mniejsze, łatwe w zarządzaniu elementy. Wyobraź sobie gigantyczną kiełbasę, która jest zbyt duża, aby ugotować ją na raz; zwinięty w idealnie porcjowane hot dogi będzie łatwy do grillowania. Podobnie sieci tensorowe rozkładają masywne tensory (wielowymiarowe tablice liczb) na powiązane, mniejsze tensory.

Kluczowa korzyść? Zachowują dokładność, jednocześnie znacznie zmniejszając swoje rozmiary. Multiverse Computing, startup założony przez fizyka Romana Orusa, zademonstrował to już w przypadku Llama 2 7B. Ich technika CompactifAI kompresuje model o ponad 90%, z 27 GB do zaledwie 2 GB, przy minimalnej utracie dokładności.

Poza kompresją: nowa architektura sztucznej inteligencji

Długoterminowa wizja jest jeszcze odważniejsza: budowanie modeli sztucznej inteligencji od podstaw przy użyciu sieci tensorowych z pominięciem tradycyjnych sieci neuronowych. Sieci neuronowe, choć potężne, są energochłonne i nieprzejrzyste. Sieci Tensor oferują potencjał szybszego uczenia się i bardziej przejrzystego działania wewnętrznego.

Miles Stoudenmire z Instytutu Flataron uważa, że ​​takie podejście może odblokować „ukrytą moc” sztucznej inteligencji, umożliwiając jej wydajne działanie na urządzeniach osobistych bez połączenia z chmurą. Wyobraź sobie lodówki lub pralki obsługujące sztuczną inteligencję, które działają autonomicznie.

Jak to działa: klątwa wymiarowości i jej lekarstwo

„Przekleństwo wymiarowości” to pogląd, że wraz ze wzrostem złożoności danych przechowywanie staje się niemożliwe. Tabela jest macierzą 2D; tensory uogólniają to na wiele wymiarów. Rozważ śledzenie preferencji pizzy dla 100 000 osób (100 dodatków, 100 sosów). Wynikowy tensor będzie zawierał miliard liczb, ale nadal będzie możliwy do zarządzania. Dodaj jednak więcej zmiennych (skórka, ser), a rozmiar wzrośnie wykładniczo.

Sieci tensorowe rozwiązują ten problem, przedstawiając gigantyczny tensor jako sieć mniejszych. Kluczowe znaczenie mają korelacje między punktami danych. Na przykład miłośnicy borowików uwielbiają także cremini. Eliminując redundancję, sieci tensorowe kompresują model bez utraty wydajności.

Prawdziwe wyniki i perspektywy na przyszłość

Korzyści są już widoczne w praktyce. Sopra Steria stwierdziła, że skompresowana wersja Multiverse Llama 3.1 8B zużywa 30-40% mniej energii. Naukowcy z Imperial College London wykazali, że kompresja przy użyciu sieci tensorowych może nawet poprawić dokładność w porównaniu z modelami pełnej długości, ponieważ duże zbiory danych często zawierają nieistotne elementy, które są usuwane przy użyciu tej techniki.

Ostatecznym celem jest odejście od kompresji i stworzenie całkowicie nowych architektur AI opartych na sieciach tensorowych. Takie podejście może radykalnie skrócić czas uczenia (jeden zademonstrowany model był szkolony w 4 sekundy w porównaniu do 6 minut w przypadku jego odpowiednika w sieci neuronowej) i sprawić, że modele AI będą bardziej zrozumiałe.

Sieci tensorowe to nie tylko sztuczka z kompresją; reprezentują zasadniczą zmianę w sposobie budowania i wdrażania sztucznej inteligencji. Jeśli się powiedzie, może to zapoczątkować przyszłość, w której potężna sztuczna inteligencja będzie energooszczędna, niedroga i przejrzysta.