Pourquoi les algorithmes parlent-ils si bien ?

On t'explique en 6 anecdotes ce qui fait la force des IA douées de parole comme ChatGPT

2024-06-20

Il est difficile de passer à côté du raz-de-marée de l’intelligence artificielle qui a eu lieu après la mise en ligne de la première version de ChatGPT, basée sur l’algorithme GPT-3. En seulement quelques mois, plus de 100 millions d’utilisateurs mensuels ont été séduits. Mais alors, qu’est-ce qui s’est passé ? Comment se fait-il que tout ait changé en si peu de temps ? Comment est-on passé si rapidement de chatbots presque ridicules à des IA généralistes capables de se faire passer pour de réels humains ?

Pour mieux comprendre tout cela, nous vous proposons 6 anecdotes sur le fonctionnement de ces nouveaux algorithmes appelés LLM (Large Language Models), qui impactent de plus en plus les milieux créatifs.

Sam Altman, co-fondateur et CEO d’ OpenAI

‍

[1] 🎮 Ils tournent sur des cartes graphiques

À la base, les GPU (Graphics Processing Units, ou Cartes Graphiques) ont été conçus pour les jeux vidéo. Leur rôle principal était de gérer et d'accélérer le rendu des images en 3D, ce qui demande beaucoup de calculs pour chaque image affichée à l'écran.

Au fil du temps, les chercheurs et ingénieurs en informatique ont réalisé que cette capacité des GPU à effectuer de nombreux calculs en parallèle pouvait être utile pour d'autres types de tâches au-delà des jeux vidéo, notamment dans le domaine de l'intelligence artificielle. Le Deep Learning repose sur des manipulations de “tenseurs” qui sont des calculs hautement parallélisables. De nouvelles cartes spécialisées ont aussi progressivement vu le jour comme par exemple les TPU pour Tensor Process Unit ou NPU pour Neural Process Unit.

Une carte graphique A100 de chez Nvidia, une des meilleures du marché à $10k pièce

Une carte graphique permet de réduire de 10 à plus de 100 fois le temps de calcul par rapport à un processeur classique, réduisant drastiquement le temps à attendre pour l'entraîner, ou obtenir une réponse du modèle. Elles sont si essentielles aujourd'hui que Nvidia, l’entreprise leader en la matière est aujourd'hui la 3e entreprise mondiale en termes de capitalisation boursière, devant des géant comme Google ou Amazon.

‍

Les valorisations boursières des 5 plus grandes entreprises du monde

‍

[2] 🌍 Ils savent disséquer n’importe quelle langue

Pour qu’un texte soit interprété par un algorithme, il doit être découpé en petits morceaux, un processus appelé « tokenisation » (de l’anglais "tokenize"). Par exemple, on peut diviser le texte au niveau des espaces ou même à chaque lettre. Choisir comment diviser le texte en morceaux est crucial pour les performances de l’analyse. Et c’est souvent un casse-tête de définir les règles, tant il y a de cas particuliers. Doit-on diviser notre texte au niveau des apostrophes ? Au niveau des tirets ? Oui, mais pas toujours… Les LLM utilisent pour cela une technique surprenante et extrêmement efficace.

Prendre les lettres une par une ne capture assez de sens, et prendre les mots un par un fait exploser le nombre de token possibles. Leur technique consiste à diviser les textes en coupant les mots en sous-morceaux optimaux. Le tokenizer est d’abord entraîné pour détecter et regrouper les groupes de lettres fréquemment utilisés ensemble, permettant une meilleure dissection de la langue. Ils peuvent s'adapter à de nombreux langages, voir même des lignes de codes, ou des partitions de musiques...

Illustration d’une tokenization d’une phrase issue de Freeze Raël avec GPT3.5

‍

[3] 📚 Ils savent lire entre les lignes

Les LLM ne manipulent donc que des morceaux de mots (appelons-les maintenant « tokens »). Mais comment parviennent-ils à recréer des phrases cohérentes en assemblant tout cela ? En réalité, le principe est assez simple : le modèle va simplement choisir un des tokens les plus probables, en prenant en compte les précédents.

D’accord, mais ça parrait assez trivial comme problème. Ne pourrait-on pas juste générer le token le plus fréquent après une liste de tokens ? Bien tenté, mais non, cela ne fonctionnerait pas. La force de ces nouveaux modèles réside dans leur capacité à manipuler des données beaucoup plus élaborées que de simples morceaux de mots.

Schéma d’un transformer, architecture sur laquelle sont basées les LLM actuels

Lorsqu’un modèle fait une prédiction, il utilise en fait :

👉 Des représentations mathématiques des tokens, qui permettent de représenter leur fonction, leur genre, leur sens… tout ce qui se cache derrière l’étiquette d’un simple token. On peut dire qu’il les « comprend ». Sur le schéma “Embedding”.

👉 La position du tokens dans une fenêtre de contexte de plusieurs milliers selon les modèles (GPT-4, par exemple, a un contexte immense de 128k tokens). En d’autres termes, il connaît la disposition exacte de tous les tokens avec un immense historique possible. Sur le schéma “Positional Encoding”.

👉 Les relations de dépendance entre les tokens au sein d’une phrase. Il peut donc efficacement considérer des contextes très disparates dans le texte précédent et les utiliser pour faire son choix. Sur le schéma “Multi-Head Attention”.

👉 Tout cela est interprété dans de nombreux paramètres supplémentaires permettant de mener sa réflexion. Sur le schéma “MLPs” pour Multi Layer Perceptrons.

C’est avec toute cette matière implicite que le modèle sait trier avec soin les tokens pour créer une phrase cohérente. Ensuite, il suffit de choisir parmi les plus probables. On peut d’ailleurs jouer sur un paramètre appelé « température » pour forcer ou non le modèle à sortir des sentiers battus.

‍

[4] 🗿 Ils peuvent apprendre seuls à partir de données brutes

Ces modèles ont été entraînés sur des quantités phénoménales de données issues d’internet. GPT-3, la version précédente de l'actuel ChatGPT, a été entraîné, selon les rumeurs, à partir de plusieurs centaines de milliards de documents récoltés sur internet. L'entraînement aurait duré un mois, sur 1024 GPUs de modèle A100 (une des meilleurs du marché). Un coût estimé à près de 5 millions d’euros… rien que ça !

Logo d’une des base de données utilisée pour entraîner ChatGPT

La force de ces nouveaux modèles réside dans leur aptitude à apprendre sans "supervision", donc sans objectif clair. Ils se contentent de lire et de relire des textes pour entraîner leurs paramètres. Nous ne somme pas obligés de trouver labelliser chaque données avec une cible déterminée, ici le texte est sa propre cible.

Aujourd'hui, avec des méthodes comme les RAG (Retrieval Augmented Generation), ces modèles, une fois entraînés, sont même capables d'interagir directement avec des bases de données externes (ou même faire des recherche sur internet) pour vérifier eux-mêmes ce qu’ils disent. Cette méthode a permis de réduire drastiquement ce qu’on appelle les "hallucinations" : lorsque le modèle invente complètement un fait qui est factuellement faux.

‍

[5] ⛰️ Ils peuvent atteindre des tailles phénoménales

On mesure la taille d’un modèle par son nombre de paramètres. Cette mesure représente la capacité d’apprentissage du modèle, l’équivalent de la taille de cerveaux artificiels différents. C’est dans ces paramètres que sont encodées leurs manières de comprendre la langue. Plus ce cerveau est gros, plus le modèle sera précis et polyvalent dans sa génération, et ces nouveaux types de modèle se prête parfaitement au gigantisme.

Le premier modèle génératif qui a fait ses preuves, GPT-2, possédait dans sa version la plus petite 177 millions de paramètres et 1,5 milliard de paramètres pour sa plus grande version.‍

🤖 On avait d’ailleurs entrainé le plus petit des GPT-2 à rapper comme certains rappeurs ici : Rappeurs Artificiels

Aujourd’hui, il existe des modèles de multiples tailles, dont certaines restent proches de la plus grosse version de GPT-2. Des modèles comme Mistral-7B proposent aujourd’hui des modèles à 7 milliards de paramètres, par exemple. L’avantage de plus petits modèles est qu'ils tiennent facilement sur un seul GPU et peuvent donc être directement embarqués sur des appareils.

Les modèles les plus puissants sont quant à eux gigantesques. À votre avis, quelle taille fait GPT-4, le modèle servant aujourd'hui les versions payantes de ChatGPT ? Si les rumeurs sont vraies, ce modèle serait constitué d’une "Mixture of Experts", c'est-à-dire une combinaison de 8 modèles spécialisés de 222 milliards de paramètres, soit en tout 1 800 milliards de paramètres. Impressionnant, non ?

Visuel proposant une mise en perspective de plusieurs modèlespar Dr Alan D. Thompson – Life Architect

D’ailleurs, OpenAI, le leader sur ce marché, est une entreprise privée qui ne communique pas sur le fonctionnement de ses modèles. C’est pourquoi on parle uniquement de « rumeurs ». Une pratique qui peut sembler dangereuse, car laisser un tel pouvoir à une seule entreprise privée relève presque de la dystopie.

L’entreprise française Hugging Face a d’ailleurs mené une bataille importante pour promouvoir l'open source dans le domaine de l’IA. Ils proposent une plateforme en ligne permettant de facilement mettre à disposition des modèles ainsi que des datasets et d'interagir avec les créateurs comme sur un réseau social. Depuis, de nombreux modèles ont été mis en ligne par la communauté scientifique. On peut noter, par exemple, Meta qui a mis à disposition plusieurs modèles appelés LLama.

Screenshot de la plateforme HuggingFace proposant de modèles de génération de texte

‍

[6] 🏫 Il existe des techniques pour leur apprendre de nouvelles choses rapidement

Les modèles "bruts" comme GPT-3 ou GPT-4 ne sont pas utilisables directement. En fait, ces modèles dits de "Casual Language Modeling" ne font que prédire la suite d’un texte. C’est assez amusant à voir, c’est un peu comparable à une personne qui ne peut s'empêcher de parler. Mais on ne peut donc rien maîtriser, ce qui les rend peu utiles en l'état.

Comparaison de GPT3 / ChatGPT avec un diamant brut et taillé par le youtuber Shaw Talebi dans sa vidéo “Fine-tuning Large Language Models (LLMs) | w/ Example Code”

L’avantage de ces modèles, c’est qu’ils sont faits pour être ré-entraînés. Le but n’est pas d’oublier tout ce qui a été appris avant, mais plutôt d’ajouter de la connaissance supplémentaire. Ainsi, des modèles de chat, aussi appelés parfois "Instruct", sont des modèles bruts spécialisés ensuite sur des conversations. Cela permet au modèle de comprendre qu’il doit vous répondre et suivre le fil d'une discussion.

De la même manière, n’importe quelle entreprise peut spécialiser les modèles disponibles en open source pour les adapter à ses problématiques spécifiques. C’est une des plus grandes forces des modèles actuels.

‍

Ces algorithmes représentent une véritable révolution technologique. Grâce à des modèles gigantesques, des ensembles de données colossaux et des GPUs ultra-performants, l'intelligence artificielle a fait un bond en avant impressionnant. Ce bouleversement a surpris de nombreux secteurs, y compris celui de la musique où la protection des droits d'auteur des artistes reste une priorité. Il nous appartient désormais de tirer le meilleur parti de ces outils en les intégrant intelligemment aux processus créatifs des artistes.

‍