ChatGPT est un JPEG flou du Web
Le chatbot d'OpenAI propose des paraphrases, tandis que Google propose des citations. Lequel préférons-nous ?
Par Ted Chiang
le 9 fév. 2023
En 2013, les ouvriers d'une entreprise de construction allemande ont remarqué quelque chose d'étrange à propos de leur photocopieur Xerox : lorsqu'ils faisaient une copie du plan d'étage d'une maison, la copie différait de l'original de manière subtile mais significative. Dans le plan d'étage d'origine, chacune des trois pièces de la maison était accompagnée d'un rectangle spécifiant sa superficie : les pièces mesuraient respectivement 14,13, 21,11 et 17,42 mètres carrés. Cependant, sur la photocopie, les trois pièces étaient étiquetées comme ayant une superficie de 14,13 mètres carrés. L'entreprise a contacté l'informaticien David Kriesel pour enquêter sur ce résultat apparemment inconcevable. Ils avaient besoin d'un informaticien car un photocopieur Xerox moderne n'utilise pas le processus xérographique physique popularisé dans les années 1960. Au lieu de cela, il numérise le document numériquement, puis imprime le fichier image résultant. Combinez cela avec le fait que pratiquement chaque fichier d'image numérique est compressé pour économiser de l'espace, et une solution au mystère commence à se suggérer.
Compresser un fichier nécessite deux étapes : d'abord l'encodage, au cours duquel le fichier est converti dans un format plus compact, puis le décodage, au cours duquel le processus est inversé. Si le fichier restauré est identique à l'original, alors le processus de compression est décrit comme sans perte : aucune information n'a été rejetée. En revanche, si le fichier restauré n'est qu'une approximation de l'original, la compression est qualifiée de perte : certaines informations ont été supprimées et sont désormais irrécupérables. La compression sans perte est généralement utilisée pour les fichiers texte et les programmes informatiques, car ce sont des domaines dans lesquels même un seul caractère incorrect peut être désastreux. La compression avec perte est souvent utilisée pour les photos, l'audio et la vidéo dans des situations où une précision absolue n'est pas essentielle. La plupart du temps, nous ne remarquons pas si une image, une chanson ou un film n'est pas parfaitement reproduit. La perte de fidélité ne devient plus perceptible que lorsque les fichiers sont très serrés. Dans ces cas, nous remarquons ce que l'on appelle des artefacts de compression : le flou des plus petites images JPEG et MPEG, ou le son ténu des MP3 à faible débit.
Les photocopieurs Xerox utilisent un format de compression avec perte connu sous le nom de JBIG2, conçu pour être utilisé avec des images en noir et blanc. Pour économiser de l'espace, le copieur identifie les régions d'apparence similaire dans l'image et stocke une seule copie pour toutes ; lorsque le fichier est décompressé, il utilise cette copie à plusieurs reprises pour reconstruire l'image. Il s'est avéré que le photocopieur avait jugé les étiquettes spécifiant la superficie des pièces suffisamment similaires pour n'en stocker qu'une seule - 14.13 - et il a réutilisé celle-ci pour les trois pièces lors de l'impression du plan d'étage.
Le fait que les photocopieurs Xerox utilisent un format de compression avec perte au lieu d'un format sans perte n'est pas, en soi, un problème. Le problème est que les photocopieurs dégradaient l'image de manière subtile, dans laquelle les artefacts de compression n'étaient pas immédiatement reconnaissables. Si le photocopieur produisait simplement des impressions floues, tout le monde saurait qu'il ne s'agissait pas de reproductions fidèles des originaux. Ce qui a causé des problèmes était le fait que la photocopieuse produisait des chiffres lisibles mais incorrects; cela donnait l'impression que les copies étaient exactes alors qu'elles ne l'étaient pas. (En 2014, Xerox a publié un correctif pour corriger ce problème.)
Je pense que cet incident avec le photocopieur Xerox mérite d'être rappelé aujourd'hui, car nous nous intéressons à ChatGPT d'OpenAI, ainsi que d'autres programmes similaires, que les chercheurs en intelligence artificielle appellent les grands modèles de langage. La ressemblance entre un photocopieur et un grand modèle de langage peut ne pas être immédiatement apparente, mais considérez le scénario suivant. Imaginez que vous êtes sur le point de perdre votre accès à Internet pour toujours. En préparation, vous envisagez de créer une copie compressée de tout le texte sur le Web, afin de pouvoir le stocker sur un serveur privé. Malheureusement, votre serveur privé ne dispose que d'un pour cent de l'espace nécessaire ; vous ne pouvez pas utiliser un algorithme de compression sans perte si vous voulez que tout rentre. Au lieu de cela, vous écrivez un algorithme avec perte qui identifie les régularités statistiques dans le texte et les stocke dans un format de fichier spécialisé. Parce que vous disposez d'une puissance de calcul pratiquement illimitée pour cette tâche, votre algorithme peut identifier des régularités statistiques extraordinairement nuancées, ce qui vous permet d'atteindre le taux de compression souhaité de cent pour un.
Maintenant, perdre votre accès à Internet n'est pas si terrible ; vous avez toutes les informations sur le Web stockées sur votre serveur. Le seul hic est que, parce que le texte a été si fortement compressé, vous ne pouvez pas rechercher d'informations en recherchant une citation exacte ; vous n'obtiendrez jamais une correspondance exacte, car les mots ne sont pas ce qui est stocké. Pour résoudre ce problème, vous créez une interface qui accepte les requêtes sous forme de questions et répond avec des réponses qui transmettent l'essentiel de ce que vous avez sur votre serveur.
Ce que j'ai décrit ressemble beaucoup à ChatGPT, ou à la plupart des autres grands modèles de langage. Considérez ChatGPT comme un JPEG flou de tout le texte sur le Web. Il conserve une grande partie des informations sur le Web, de la même manière qu'un JPEG conserve une grande partie des informations d'une image à plus haute résolution, mais si vous recherchez une séquence exacte de bits, vous ne la trouverez pas. tout ce que vous obtiendrez est une approximation. Mais, parce que l'approximation est présentée sous la forme d'un texte grammatical, que ChatGPT excelle à créer, c'est généralement acceptable. Vous regardez toujours un JPEG flou, mais le flou se produit d'une manière qui ne rend pas l'image dans son ensemble moins nette.
Cette analogie avec la compression avec perte n'est pas seulement un moyen de comprendre la capacité de ChatGPT à reconditionner les informations trouvées sur le Web en utilisant des mots différents. C'est aussi un moyen de comprendre les "hallucinations", ou les réponses absurdes à des questions factuelles, auxquelles les grands modèles de langage tels que ChatGPT ne sont que trop sujets. Ces hallucinations sont des artefacts de compression, mais, comme les étiquettes incorrectes générées par le photocopieur Xerox, elles sont suffisamment plausibles pour que leur identification nécessite de les comparer aux originaux, ce qui signifie dans ce cas soit le Web, soit notre propre connaissance du monde. Quand on y pense ainsi, de telles hallucinations sont tout sauf surprenantes ; si un algorithme de compression est conçu pour reconstruire un texte après que quatre-vingt-dix-neuf pour cent de l'original ont été supprimés, nous devrions nous attendre à ce que des parties importantes de ce qu'il génère soient entièrement fabriquées.
Cette analogie prend encore plus de sens si l'on se souvient qu'une technique courante utilisée par les algorithmes de compression avec perte est l'interpolation, c'est-à-dire l'estimation de ce qui manque en regardant ce qui se trouve de chaque côté de l'écart. Lorsqu'un programme d'image affiche une photo et doit reconstruire un pixel qui a été perdu pendant le processus de compression, il regarde les pixels voisins et calcule la moyenne. C'est ce que fait ChatGPT lorsqu'il est invité à décrire, par exemple, la perte d'une chaussette dans la sécheuse en utilisant le style de la Déclaration d'indépendance : il prend deux points dans "l'espace lexical" et génère le texte qui occuperait l'emplacement entre eux. ("Lorsque dans le cours des événements humains, il devient nécessaire de séparer ses vêtements de leurs compagnons, afin d'en maintenir la propreté et l'ordre...") ChatGPT est si bon dans cette forme d'interpolation que les gens trouvent un amusement : ils ont découvert un outil de « floutage » pour paragraphes plutôt que pour photos, et s'amusent beaucoup avec.
Étant donné que les grands modèles de langage comme ChatGPT sont souvent vantés comme étant à la pointe de l'intelligence artificielle, il peut sembler dédaigneux - ou du moins dégonflant - de les décrire comme des algorithmes de compression de texte avec perte. Je pense que cette perspective offre un correctif utile à la tendance à anthropomorphiser les grands modèles de langage, mais il y a un autre aspect de l'analogie de la compression qui mérite d'être considéré. Depuis 2006, un chercheur en I.A. nommé Marcus Hutter a offert une récompense en espèces - connue sous le nom de Prix de la compression des connaissances humaines ou Prix Hutter - à quiconque peut compresser sans perte un instantané spécifique d'un gigaoctet de Wikipédia plus petit que le précédent lauréat. Vous avez probablement rencontré des fichiers compressés au format de fichier zip. Le format zip réduit le fichier d'un gigaoctet de Hutter à environ trois cents mégaoctets ; le dernier lauréat en date a réussi à le réduire à cent quinze mégaoctets. Ce n'est pas seulement un exercice de lissage. Hutter pense qu'une meilleure compression du texte contribuera à la création d'une intelligence artificielle au niveau humain, en partie parce que le plus haut degré de compression peut être atteint en comprenant le texte.
Pour saisir la relation entre la compression et la compréhension, imaginez que vous disposez d'un fichier texte contenant un million d'exemples d'addition, de soustraction, de multiplication et de division. Bien que n'importe quel algorithme de compression puisse réduire la taille de ce fichier, le moyen d'obtenir le meilleur taux de compression serait probablement de dériver les principes de l'arithmétique, puis d'écrire le code d'un programme de calculatrice. À l'aide d'une calculatrice, vous pouvez parfaitement reconstruire non seulement le million d'exemples du fichier, mais tout autre exemple d'arithmétique que vous pourriez rencontrer à l'avenir. La même logique s'applique au problème de la compression d'un extrait de Wikipédia. Si un programme de compression sait que la force est égale à la masse multipliée par l'accélération, il peut supprimer beaucoup de mots lors de la compression des pages sur la physique car il sera capable de les reconstruire. De même, plus le programme en sait sur l'offre et la demande, plus il peut supprimer de mots lors de la compression des pages sur l'économie, etc.
Les grands modèles linguistiques identifient les régularités statistiques dans le texte. Toute analyse du texte du Web révélera que des expressions telles que "l'offre est faible" apparaissent souvent à proximité d'expressions telles que "les prix augmentent". Un chatbot qui intègre cette corrélation pourrait, lorsqu'on lui pose une question sur l'effet des pénuries d'approvisionnement, répondre par une réponse sur l'augmentation des prix. Si un grand modèle de langage a compilé un grand nombre de corrélations entre termes économiques - si nombreux qu'il peut offrir des réponses plausibles à une grande variété de questions - doit-on dire qu'il comprend réellement la théorie économique ? Des modèles comme ChatGPT ne sont pas éligibles pour le prix Hutter pour diverses raisons, dont l'une est qu'ils ne reconstruisent pas le texte original avec précision, c'est-à-dire qu'ils n'effectuent pas de compression sans perte. Mais est-il possible que leur compression avec perte indique néanmoins une réelle compréhension du genre à laquelle les chercheurs en I.A. s'intéressent ?
Reprenons l'exemple de l'arithmétique. Si vous demandez à GPT-3 (le LLM à partir duquel ChatGPT a été construit) d'ajouter ou de soustraire une paire de nombres, il répond presque toujours avec la bonne réponse lorsque les nombres n'ont que deux chiffres. Mais sa précision se détériore considérablement avec des nombres plus grands, tombant à dix pour cent lorsque les nombres ont cinq chiffres. La plupart des réponses correctes fournies par GPT-3 ne se trouvent pas sur le Web - il n'y a pas beaucoup de pages Web contenant le texte "245 + 821", par exemple - il n'est donc pas engagé dans une simple mémorisation. Mais, malgré l'ingestion d'une grande quantité d'informations, il n'a pas non plus été en mesure de déduire les principes de l'arithmétique. Un examen attentif des réponses incorrectes de GPT-3 suggère qu'il ne pose pas la retenue du "1" lors de l'exécution du calcul. Le Web contient certainement des explications sur la retenue du "1", mais GPT-3 n'est pas en mesure d'intégrer ces explications. L'analyse statistique d'exemples d'arithmétique par GPT-3 lui permet de produire une approximation superficielle de la réalité, mais pas plus que cela.
Compte tenu de l'échec du GPT-3 dans une matière enseignée à l'école primaire, comment expliquer le fait qu'il semble parfois bien performant à la rédaction d'essais de niveau collégial ? Même si les grands modèles de langage hallucinent souvent, lorsqu'ils sont lucides, ils donnent l'impression qu'ils comprennent réellement des sujets comme la théorie économique. L'arithmétique est peut-être un cas particulier, pour lequel les grands modèles de langage sont mal adaptés. Est-il possible que, dans des domaines autres que l'addition et la soustraction, les régularités statistiques du texte correspondent effectivement à une véritable connaissance du monde réel ?
Je pense qu'il y a une explication plus simple. Imaginez à quoi cela ressemblerait si ChatGPT était un algorithme sans perte. Si tel était le cas, il répondrait toujours aux questions en fournissant une citation textuelle d'une page Web pertinente. Nous considérerions probablement le logiciel comme une légère amélioration par rapport à un moteur de recherche conventionnel et nous en serions moins impressionnés. Le fait que ChatGPT reformule le matériel du Web au lieu de le citer mot pour mot donne l'impression qu'un étudiant exprime des idées dans ses propres mots, plutôt que de simplement régurgiter ce qu'il a lu ; cela crée l'illusion que ChatGPT comprend la matière. Chez les étudiants humains, la mémorisation par cœur n'est pas un indicateur d'un véritable apprentissage, donc l'incapacité de ChatGPT à produire des citations exactes à partir de pages Web est précisément ce qui nous fait penser qu'il a appris quelque chose. Lorsque nous traitons des séquences de mots, la compression avec perte semble plus intelligente que la compression sans perte.
De nombreuses utilisations ont été proposées pour les grands modèles de langage. Les considérer comme des JPEG flous offre un moyen d'évaluer ce à quoi ils pourraient ou non convenir. Considérons quelques scénarios.
Les grands modèles linguistiques peuvent-ils remplacer les moteurs de recherche traditionnels ? Pour que nous ayons confiance en eux, nous aurions besoin de savoir qu'ils n'ont pas été nourris de propagande et de théories du complot - nous aurions besoin de savoir que le JPEG capture les bonnes sections du Web. Mais, même si un grand modèle de langage ne comprend que les informations que nous voulons, il y a toujours la question du flou. Il existe un type de flou acceptable, qui consiste à reformuler des informations dans des mots différents. Ensuite, il y a le flou de la fabrication pure et simple, que nous considérons comme inacceptable lorsque nous recherchons des faits. Il n'est pas clair qu'il soit techniquement possible de conserver le type de flou acceptable tout en éliminant le type inacceptable, mais je m'attends à ce que nous le découvrions dans un proche avenir.
Même s'il est possible d'empêcher les grands modèles de langage de s'engager dans l'invention, devrions-nous les utiliser pour générer du contenu Web ? Cela n'aurait de sens que si notre objectif est de reconditionner les informations déjà disponibles sur le Web. Certaines entreprises existent pour faire exactement cela - nous les appelons généralement des fermes de contenu. Peut-être que le flou des grands modèles de langage leur sera utile, comme moyen d'éviter la violation du droit d'auteur. De manière générale, cependant, je dirais que tout ce qui est bon pour les fermes de contenu n'est pas bon pour les personnes à la recherche d'informations. L'essor de ce type de reconditionnement est ce qui rend plus difficile pour nous de trouver ce que nous recherchons en ligne en ce moment ; plus le texte généré par les grands modèles de langage est publié sur le Web, plus le Web devient une version floue de lui-même.
Il y a très peu d'informations disponibles sur le prochain successeur d'OpenAI à ChatGPT, GPT-4. Mais je vais faire une prédiction : lors de l'assemblage de la grande quantité de texte utilisée pour former GPT-4, les gens d'OpenAI auront fait tout leur possible pour exclure le matériel généré par ChatGPT ou tout autre grand modèle de langage. Si cela s'avère être le cas, cela servira de confirmation involontaire que l'analogie entre les grands modèles de langage et la compression avec perte est utile. Le réenregistrement répété d'un fichier JPEG crée davantage d'artefacts de compression, car davantage d'informations sont perdues à chaque fois. C'est l'équivalent numérique de faire à plusieurs reprises des photocopies de photocopies dans l'ancien temps. La qualité de l'image ne fait qu'empirer.
En effet, un critère utile pour évaluer la qualité d'un grand modèle linguistique pourrait être la volonté d'une entreprise d'utiliser le texte qu'elle génère comme matériel de formation pour un nouveau modèle. Si la réponse de ChatGPT n'est pas assez bonne pour GPT-4, nous pourrions considérer cela comme un indicateur qu'elle n'est pas assez bonne pour nous non plus. Inversement, si un modèle commence à générer un texte si bon qu'il peut être utilisé pour former de nouveaux modèles, cela devrait nous donner confiance dans la qualité de ce texte. (Je soupçonne qu'un tel résultat nécessiterait une percée majeure dans les techniques utilisées pour construire ces modèles.) Si et quand nous commençons à voir des modèles produire une réponse aussi bonne que leur entrée, alors l'analogie de la compression avec perte ne sera plus applicable.
Les grands modèles de langage peuvent-ils aider les humains à créer un style d'écriture originale ? Pour répondre à cela, nous devons être précis sur ce que nous entendons par là. Il existe un genre d'art connu sous le nom d'art Xerox, ou art de la photocopie, dans lequel les artistes utilisent les propriétés spécifiques des photocopieurs comme outils de création. Quelque chose dans ce sens est sûrement possible avec le photocopieur qu'est ChatGPT, donc, dans ce sens, la réponse est oui. Mais je ne pense pas que quiconque puisse prétendre que les photocopieurs sont devenus un outil essentiel dans la création artistique ; la grande majorité des artistes ne les utilisent pas dans leur processus de création, et personne ne prétend qu'ils se désavantagent avec ce choix.
Supposons donc que nous ne parlons pas d'un nouveau genre d'écriture analogue à l'art de Xerox. Compte tenu de cette stipulation, le texte généré par de grands modèles de langage peut-il être un point de départ utile pour les écrivains à construire lorsqu'ils écrivent quelque chose d'original, qu'il s'agisse de fiction ou de non-fiction ? Laisser un grand modèle de langage gérer les plus simples besognes permettra-t-il aux écrivains de concentrer leur attention sur les parties vraiment créatives ?
Évidemment, personne ne peut parler pour tous les écrivains, mais permettez-moi de faire valoir que commencer par une copie floue d'un travail non original n'est pas un bon moyen de créer un travail original. Si vous êtes un écrivain, vous écrivez beaucoup de contenu non original avant d'écrire quelque chose d'original. Et le temps et les efforts consacrés à ce travail non original ne sont pas perdus ; au contraire, je dirais que c'est précisément ce qui permet de créer éventuellement quelque chose d'original. Les heures passées à choisir le bon mot et à réorganiser les phrases pour qu'elles s'enchaînent au mieux sont ce qui vous apprend comment le sens est transmis par la prose. Demander aux étudiants de rédiger des essais n'est pas simplement un moyen de tester leur compréhension de la matière; cela leur donne l'expérience d'articuler leurs pensées. Si les étudiants n'ont jamais à écrire des essais que nous avons tous lus auparavant, ils n'acquiéreront jamais les compétences nécessaires pour écrire quelque chose que nous n'avons jamais lu.
Et ce n'est pas seulement une fois que vous avez cessé d'être étudiant, vous pouvez utiliser en toute sécurité le modèle fourni par un LLM. La lutte pour exprimer vos pensées ne disparaît pas une fois que vous avez obtenu votre diplôme - elle peut avoir lieu chaque fois que vous commencez à rédiger une nouvelle œuvre. Parfois, ce n'est que dans le processus d'écriture que vous découvrez vos idées originales. Certains pourraient dire que la réponse de grands modèles de langage ne semble pas si différente du premier brouillon d'un écrivain humain, mais, encore une fois, je pense que c'est une ressemblance superficielle. Votre premier brouillon n'est pas une idée sans originalité exprimée clairement; c'est une idée originale mal exprimée, et elle s'accompagne de votre insatisfaction amorphe, de votre conscience de la distance entre ce qu'elle dit et ce que vous voulez qu'elle dise. C'est ce qui vous guide lors de la réécriture, et c'est une des choses qui manque quand vous commencez avec du texte généré par une I.A.
Il n'y a rien de magique ou de mystique dans l'écriture, mais cela implique plus que de placer un document existant sur un photocopieur peu fiable et d'appuyer sur le bouton Imprimer. Il est possible qu'à l'avenir, nous construisions une A.I. qui est capable d'écrire une bonne prose basée uniquement sur sa propre expérience du monde. Le jour où nous y parviendrons sera certes mémorable, mais ce jour se situe bien au-delà de notre horizon de prédiction. En attendant, il est raisonnable de se demander : à quoi cela sert-il d'avoir quelque chose qui reformule le Web ? Si nous perdions définitivement notre accès à Internet et devions stocker une copie sur un serveur privé avec un espace limité, un grand modèle de langage comme ChatGPT pourrait être une bonne solution, en supposant qu'il puisse être empêché d'inventer. Mais nous ne perdons pas notre accès à Internet. Alors, à quel point un JPEG flou est-il utile, alors que vous avez encore l'original ?
Ted Chiang is an award-winning author of science fiction. In 2016, the title story from his first collection, “Stories of Your Life and Others,” was adapted into the film “Arrival.” He lives in Bellevue, Washington, where he works as a freelance technical writer.