L’informatique quantique réduit l’IA : les réseaux tenseurs améliorent l’efficacité

9

L’intelligence artificielle (IA) connaît une croissance rapide, mais ses énormes besoins énergétiques et ses coûts de calcul deviennent insoutenables. Aujourd’hui, une solution surprenante émerge du monde de la physique quantique : les réseaux tensoriels. Développées à l’origine pour gérer des interactions complexes entre particules, ces structures mathématiques se révèlent remarquablement efficaces pour compresser les modèles d’IA, réduire la consommation d’énergie et même rendre l’IA plus accessible.

Le goulot d’étranglement : les modèles d’IA gonflés

Les grands modèles de langage (LLM) comme ChatGPT sont notoirement gourmands en ressources. Leur taille et leur complexité nécessitent de grandes quantités d’énergie pour se former et fonctionner, ce qui pousse certaines entreprises technologiques à envisager des solutions extrêmes comme de petites centrales nucléaires dédiées pour maintenir les centres de données en ligne. Il ne s’agit pas seulement d’une préoccupation environnementale ; cela limite également les endroits où l’IA peut être déployée.

Le problème principal est la dimensionnalité. À mesure que les modèles d’IA s’attaquent à des tâches plus complexes, le nombre de variables explose, rendant le stockage et le traitement impossibles. Les physiciens ont résolu ce problème il y a plusieurs décennies grâce aux réseaux tensoriels.

Réseaux Tensoriels : une solution de compression basée sur la physique

Les réseaux Tensor décomposent des ensembles de données colossaux en composants plus petits et plus faciles à gérer. Imaginez une saucisse géante trop grosse pour être cuite en même temps ; le tordre en hot-dogs parfaitement portionnés le rend prêt à griller. De même, les réseaux de tenseurs disséquent des tenseurs massifs (des tableaux multidimensionnels de nombres) en tenseurs liés plus petits.

Le principal avantage ? Ils préservent la précision tout en réduisant considérablement la taille. Multiverse Computing, une startup cofondée par le physicien Román Orús, l’a déjà démontré avec le modèle Llama 2 7B. Leur technique CompactifAI compresse le modèle de plus de 90 %, de 27 Go à seulement 2 Go, avec une perte de précision minime.

Au-delà de la compression : une nouvelle architecture d’IA

La vision à long terme est encore plus audacieuse : créer des modèles d’IA à partir de zéro à l’aide de réseaux tenseurs, en contournant entièrement les réseaux de neurones traditionnels. Les réseaux de neurones, bien que puissants, sont gourmands en énergie et opaques. Les réseaux Tensor offrent le potentiel d’une formation plus rapide et d’un fonctionnement interne plus transparent.

Miles Stoudenmire du Flatiron Institute estime que cette approche pourrait libérer la « puissance latente » de l’IA, lui permettant de fonctionner efficacement sur des appareils personnels sans dépendre de connexions cloud. Imaginez des réfrigérateurs ou des machines à laver alimentés par l’IA fonctionnant hors ligne.

Comment ça marche : la malédiction de la dimensionnalité et son remède

La « malédiction de la dimensionnalité » est l’idée selon laquelle, à mesure que la complexité des données augmente, le stockage devient impossible. Une feuille de calcul est une matrice 2D ; les tenseurs généralisent cela à plusieurs dimensions. Envisagez de suivre les préférences de pizza de 100 000 personnes (100 garnitures, 100 sauces). Le tenseur résultant aurait un milliard de nombres, mais resterait gérable. Cependant, ajoutez plus de variables (croûte, fromage) et la taille des ballons de manière exponentielle.

Les réseaux tenseurs résolvent ce problème en représentant un tenseur géant comme un réseau de tenseurs plus petits. Les corrélations entre les points de données sont essentielles. Par exemple, ceux qui aiment les champignons blancs aiment aussi les cremini. En éliminant la redondance, les réseaux tensoriels compressent le modèle sans sacrifier les performances.

Résultats réels et perspectives d’avenir

Les avantages sont déjà visibles dans la pratique. Sopra Steria a constaté que la version compressée de Llama 3.1 8B de Multiverse utilisait 30 à 40 % d’énergie en moins. Des chercheurs de l’Imperial College de Londres ont montré que la compression du réseau tensoriel peut même améliorer la précision par rapport aux modèles grandeur nature, car les grands ensembles de données contiennent souvent des éléments non pertinents filtrés par la technique.

L’objectif ultime est d’aller au-delà de la compression et de créer de toutes nouvelles architectures d’IA basées sur des réseaux tenseurs. Cette approche pourrait réduire considérablement les temps de formation (un modèle présenté en démonstration s’est entraîné en 4 secondes contre 6 minutes pour son homologue de réseau neuronal) et rendre les modèles d’IA plus compréhensibles.

Les réseaux tenseurs ne sont pas seulement une astuce de compression ; ils représentent un changement fondamental dans la façon dont nous construisons et déployons l’IA. En cas de succès, cela pourrait ouvrir la voie à un avenir dans lequel une IA puissante est économe en énergie, accessible et transparente.