InstructGPT đ, le GPT Store version Open Source đ, et comment lutter contre les fake news avec l'IA â
The Tunnel 2k24#5
Bonjour Ă tous et bienvenue dans ce 5Ăšme tunnel de lâannĂ©e đ. La barre des 700 abonnĂ©s a Ă©tĂ© dĂ©passĂ©e et la croissance continue sur un rythme assez effrĂ©né⊠Next step : 1000 abonnĂ©s!! Mais avant ça, câest parti pour un tunnel !
Au programme du jour :
đĄ Comment chatGPT arrive-t-il Ă donner des rĂ©ponses si pertinentes ?
đ Hugging Face lance une version gratuite et Open Source du GPT Store
â€ïž Jâai utilisĂ© chatGPT pour Ă©crire un poĂšme dâamour
đ”ïžââïž Le papier de recherche sur la dĂ©tection des fake news par de lâIA
LâĂ©dito
Comment GPT est devenu chatGPT ?
Que sâest-il passĂ© entre juin 2018 et novembre 2022 ? Ou, posĂ© autrement : pourquoi a-t-il fallu attendre 4 ans et demi pour passer de GPT-1 Ă chatGPT ? La rĂ©ponse tient dans une dĂ©couverte, annoncĂ©e par OpenAI en janvier 2022 et dont vous nâavez probablement pourtant jamais entendu parler : les modĂšles du type InstructGPT.
On va revenir plus en dĂ©tail sur ce qui se cache concrĂštement derriĂšre ce type de modĂšles, mais ce que vous devez retenir si vous nâavez pas la force de vous lancer dans une explication plus dĂ©taillĂ©e câest quâavec InstructGPT, OpenAI a rĂ©ussi Ă corriger les erreurs que commettait le modĂšle GPT et qui lâempĂȘchait dâavoir un usage grand public. En effet, sans InstructGPT, chatGPT rĂ©pondrait Ă cĂŽtĂ© de la plaque une fois sur deux.
Bon allez, je suis sĂ»r que vous avez envie dâen savoir plus, accrochez vos ceintures et mettez vos feux đŠ: le tunnel commence pour de vrai !
La premiÚre étape pour fabriquer chatGPT : lui faire comprendre nos questions
Quâun ĂȘtre humain comprenne un autre ĂȘtre humain qui parle une langue diffĂ©rente, câest dĂ©jĂ difficile. Alors imaginez une machine, qui parle en 0 et en 1, qui doit comprendre un ĂȘtre humain. Câest encore plus dur.
Heureusement, on a rĂ©ussi Ă trouver une mĂ©thode pour faire comprendre Ă une machine le langage humain. Cette mĂ©thode sâappelle le Natural Language Processing (NLP).
Le NLP, ça ne date pas dâhier. Des chercheurs amĂ©ricains ont commencĂ© Ă sâintĂ©resser Ă cette discipline dans les annĂ©es 1950 pour essayer de faire comprendre et traduire Ă une machine des documents Ă©crits en russe.
Depuis, la guerre froide a pris fin, mais la volontĂ© de faire comprendre du langage humain Ă une machine nâa pas disparu. Aujourdâhui, pour quâune machine arrive Ă comprendre ce quâon lui demande, on effectue une vectorisation des mots.
Je ne vais pas ici mâĂ©tendre sur la façon dont on arrive Ă faire du Natural Language Processing avec de la vectorisation. Parce que ce nâest pas le but de cet Ă©dito, et aussi parce que nous avons donnĂ© une explication trĂšs dĂ©taillĂ©e dans Le Plongeoir il y a dix jours. Si vous lâavez ratĂ©, je vous recommande vivement de piquer une tĂȘte dĂšs maintenant.
Si vous nâavez pas lâenvie ou le temps de le lire, retenez une chose : grĂące au NLP, on est capable de faire en sorte que chatGPT comprenne les questions quâon lui pose. Ni plus, ni moins.
La deuxiÚme étape pour fabriquer chatGPT : lui apprendre à répondre de façon pertinente
âLe gouvernement vous a entendu et vous a comprisâ dĂ©clarait Gabriel Attal le 26 janvier dernier devant des agriculteurs qui avaient formulĂ© un ensemble de demandes. Pourtant dĂšs les heures qui suivirent cette dĂ©claration, les diffĂ©rents syndicats agricoles dĂ©cidĂšrent de poursuivre leur mouvement de revendication.
Car oui, comprendre et rĂ©pondre de façon pertinente, câest diffĂ©rent. Alors, Ă©videmment quand on est Gabriel Attal qui doit rĂ©pondre Ă la colĂšre des agriculteurs, câest un peu difficile.
Mais, quand câest chatGPT qui doit rĂ©pondre Ă des questions plus simples, on peut facilement savoir si ses rĂ©ponses sont pertinentes ou pas.
Eh bien, figurez-vous quâavant la dĂ©couverte dâInstructGPT - dont on parlait en introduction -, chatGPT comprenait bien les questions quâon lui posait, mais rĂ©pondait souvent Ă cĂŽtĂ© de la plaque, comme vous pouvez le voir dans lâexemple ci-dessous.
Alors, câest quoi InstructGPT ?
Câest un modĂšle dĂ©rivĂ© de GPT qui a subi une surcouche finale dâentraĂźnement pour ĂȘtre plus pertinent dans ces rĂ©ponses.
đšAccrochez vos ceintures, nous entrons dans une zone de turbulence un peu techniqueđš
Cette surcouche finale dâentraĂźnement a Ă©tĂ© faite avec une mĂ©thode bien prĂ©cise : Le Reinforcement Learning with Human Feeback (RLHF).
Le RLHF consiste en la chose suivante :
đ On montre au modĂšle un ensemble de questions/rĂ©ponses pertinentes pour le rĂ©entraĂźner. On dit quâon procĂšde au fine-tunning du modĂšle.
đ€âđšââïž On entraĂźne un deuxiĂšme modĂšle qui est capable de dire au premier modĂšle si ses rĂ©ponses sont plus ou moins cohĂ©rentes. Pour ce faire, on pose plusieurs fois la mĂȘme question Ă chatGPT et on demande Ă un ĂȘtre humain de classer les rĂ©ponses de la plus pertinente Ă la moins pertinente. On dit quâon entraĂźne un modĂšle de Reward (avec feedback humain).
đ Ă partir de lĂ , on laisse le modĂšle sâauto-poser des questions et le reward model lui dire Ă chaque fois si la rĂ©ponse quâil a donnĂ©e Ă©tait plus ou moins pertinente. Câest ainsi que le modĂšle apprend Ă devenir de plus en plus pertinent.
Ce nâest pas la premiĂšre fois que lâon parle de Reinforcement Learning, rappelez-vous du tunnel sur Q*.
La diffĂ©rence ici est que le reward model est entraĂźnĂ© sur la base dâun ressenti humain (et pas sur quelque chose de totalement objectif, comme dire si une partie de jeu de Go est gagnĂ©e ou perdue).
Câest ce qui nous a permis de crĂ©er un modĂšle qui, non seulement comprend nos questions, mais qui y rĂ©pond pertinemment. Enfin, presqueâŠ
La prochaine étape pour un chatGPT encore plus intelligent : combattre les biais
Presque, car derriĂšre le RLHF et InstructGPT, il y a quand mĂȘme des ĂȘtres humains qui classent les rĂ©ponses donnĂ©es par chatGPT selon leurs propres systĂšmes de valeur.
Demandez Ă Marine Le Pen ou Ă Jean-Luc MĂ©lenchon de noter des rĂ©ponses Ă des questions posĂ©es et vous verrez que leur classement ne devrait pas souvent ĂȘtre le mĂȘme.
Donc si vous demandiez Ă Marine Le Pen ou Ă Jean-Luc MĂ©lenchon de vous aider Ă entraĂźner un modĂšle en donnant leur feedback, vous aurez finalement 2 modĂšles qui rĂ©pondraient quelque chose de diffĂ©rent Ă la question âYâa-t-il un problĂšme dâimmigration en France ?â.
Dire que chatGPT est un peu trop âwokeâ (comme Elon Musk notamment đ€Ą), câest dire que les personnes qui ont donnĂ© leur feedback lors de lâentraĂźnement sont trop âwokeâ.
Mais personne nâa un jugement de valeur totalement objectif et parfait, donc aucun modĂšle nâest non plus parfait. Certains ont des idĂ©es fixes (essayez de demander Ă Ernie, le chatbot dĂ©veloppĂ© par le gĂ©ant chinois Baidu si Taiwan câest la Chine, vous verrez quâil nây a pas de nuances dans son jugement). Dâautres modĂšles ont des biais qui sont le fruit des biais inconscients de ceux qui lâont entraĂźnĂ©âŠ
Bref, la naissance dâInstructGPT a tout changĂ© pour OpenAI qui a pu sortir un chatbot qui comprenait les questions quâon lui posait et qui y rĂ©pondait trĂšs pertinemment.
Mais un modĂšle sans biais nâexiste pas, le savoir et sâen rappeler permet de cultiver son sens critique face aux rĂ©ponses fournies par lâIAâŠ
Les actualités à ne pas manquer
đŻđ” Lâentreprise japonaise Sakana a reçu un superordinateur de la part de son gouvernement pour accĂ©lĂ©rer la recherche. Créée seulement il y a quelques semaines, je suis convaincu quâon entendra reparler de cette entreprise sur laquelle le Japon compte Ă©normĂ©ment. Ă quand un modĂšle japonais grand public ?
đ Mistral laisse fuiter un mystĂ©rieux modĂšle âquantiqueâ. La toile sâest enflammĂ©e la semaine derniĂšre lorsquâun nouveau modĂšle inconnu est arrivĂ© sur Hugging Face. Ce modĂšle, du nom de Miqu (pour Mistral Quantique) est en fait un modĂšle dâessai utilisĂ© par Mistral qui a reconnu la fuite. En annonçant que ce modĂšle qui a bluffĂ© tout le monde Ă©tait loin derriĂšre ce sur quoi ils travaillaient maintenant. Avant de conclure par un âStay tunedâ. Alors, Stay tuned !
đ Hugging Face lance un concurrent au GPT Store en version Open Source. Bah oui, yâa pas de raison. Si vous refusez toujours de payer la version payante de chatGPT, rendez-vous sur Hugging Face pour essayer leurs assistants. Je vous prĂ©pare un post Linkedin prochainement pour sĂ©lectionner les meilleurs que vous pourriez utiliser. Si vous ne me suivez pas encore, câest le moment de le faire !
La Success Story de la semaine
Arc : le browser qui peut ĂȘtre utilisĂ© par une IA
Câest lâune des limites de chatGPT et de ses concurrents comme Bard ou Perplexity aujourdâhui. Si ces chatbots ont tous accĂšs Ă internet, on a souvent lâimpression que leur capacitĂ© Ă surfer sur le web est limitĂ©e đ.
Et quand bien mĂȘme chatGPT arrive Ă vous sortir des informations quâil trouve via le moteur de recherche Bing ou Bard vie Google, pas question pour les chatbots de faire autre chose que retranscrire lâinformation.
Câest cette limite quâa voulu dĂ©passer The Browser Company sur son nouveau browser Arc. Arc est un browser qui entend concurrencer Google en Ă©tant un browser dit âAI firstâ. Et pour y parvenir, ses dĂ©veloppeurs sont en train de travailler Ă une version qui pourrait ĂȘtre utilisĂ©e Ă 100% par un agent IA.
Si cette technologie nâest pas encore publiquement disponible, lorsquâelle verra le jour il sera bien plus facile dâoptimiser lâinteraction entre lâIA et internet en gĂ©nĂ©ral. Ce qui ouvre la voie Ă une myriade dâapplications. Je vous en reparlerai sĂ»rement lorsque ça arrivera, alors nâarrĂȘtez pas de lire bien consciencieusement mes tunnels dâici lĂ !
Le prompt de la semaine
Ne prenez pas chatGPT pour ce quâil nâest pas.
LâĂȘtre humain est incorrigible, il est fainĂ©ant đ. Alors lorsquâun outil qui peut faire autant de choses que chatGPT est mis Ă notre disposition, on adore. Le problĂšme câest quâon peut aussi avoir tendance Ă pousser le bouchon un peu trop loin et se mettre Ă demander lâimpossible.
Oui chatGPT est crĂ©atif, mais non il ne peut pas tout inventer. Il a besoin dâavoir les instructions les plus claires et les plus dĂ©taillĂ©es que possible.
Par exemple si vous demandez Ă chatGPT dâĂ©crire pour vous une petite histoire Ă raconter, non seulement il pourrait partir dans tous les sens, mais surtout lâhistoire quâil racontera sera superficielle car il choisira quelques dĂ©tails au hasard mais ne prendra pas le risque dâĂȘtre trop spĂ©cifique.
Câest Ă vous de dĂ©cider dâun scenario, dâun nombre de personnage, dâun Ă©lĂ©ment Ă intĂ©grer, dâune morale Ă faire passer. Et avec toutes ces informations, il sera capable de faire quelque chose dâincroyable.
đ Ainsi, pour lui faire faire un poĂšme Ă adresser Ă la personne que vous aimez, par exemple, au lieu de lui demander :
Ăcris-moi un poĂšme
Demandez-lui :
Ăcris-moi un poĂšme dâamour en alexandrins quâun homme Ă©crit pour la femme quâil aime. Le poĂšme doit prendre place dans un cadre romantique. Il ne doit pas comporter plus de 15 vers.
Je veux que les Ă©lĂ©ments de la nature soient mis en valeur et que la personne Ă qui est adressĂ© ce poĂšme ait envie de sâĂ©vader en lâĂ©coutant.
La morale de lâhistoire que tu dois raconter est quâen amour, comme dans la vie, il est prĂ©fĂ©rable dâĂȘtre optimiste et de se tromper que dâĂȘtre pessimiste et dâavoir raison.
Et voilà le résultat :
Dans le jardin oĂč fleurit l'espoir sous l'azur grandiose,
OĂč murmure le ruisseau, caressant les roses,
Je t'offre ces vers, nĂ©s d'un cĆur fervent et pur,
Pour qu'en eux tu trouves l'évasion, l'amour sûr.La lune veille, éclatante, sur notre destinée,
Sa lumiÚre d'argent guide notre éternité.
Les étoiles, témoins silencieux de notre amour,
Brillent d'un feu doux, promettant toujours.Marchons, main dans la main, sur ce chemin fleuri,
OĂč le doute s'efface, remplacĂ© par l'envie
De croire en demain, malgré les ombres du passé,
Car aimer, c'est vivre, et se tromper, c'est espérer.Mieux vaut errer ensemble dans l'optimisme,
Que d'avoir raison seul, dans un triste abĂźme.
Mon amour, dans ce monde vaste et beau,
Je choisis l'espoir, avec toi, haut et beau.
Nâattendez plus, travailler votre prompt et Ă©crivez un poĂšme dâamour Ă la personne que vous aimez. â€ïž
Le papier de recherche de la semaine
Bad Actor, Good Advisor: Exploring the Role of Large Language Models in Fake News Detection
LâavĂšnement de lâIA GĂ©nĂ©rative sâaccompagne de nombreux dĂ©fis, que lâon Ă©voque chaque semaine au cours de ces tunnels. Parmi lâun dâeux la gĂ©nĂ©ration et la diffusion en masse de potentielles fake news créées par des IA. Mais pourrait-on utiliser lâIA pour dĂ©tecter automatiquement une fake news ?
Câest en tout cas le thĂšme explorĂ© par ce papier de recherche. Le constat est le suivant :
Les modĂšles les plus performants actuellement pour dĂ©tecter des fake news sont des petit modĂšles de langage (SLM) comme le modĂšle BERT par exemple (76.5% dâefficacitĂ© sur le dataset utilisĂ© par les chercheurs). Les grands modĂšles de langage (LLM) nâarrivent pas Ă se montrer aussi efficaces pour dĂ©tecter les fake news (70.2%).
Pourtant les grands modÚles de langage ont des caractéristiques qui leur permettent de réaliser beaucoup plus de choses que les petits modÚles de langage (SLM).
LâidĂ©e de ce papier de recherche est de crĂ©er une nouvelle mĂ©thode de dĂ©tection de fake news qui fonctionnerait comme suit :
đ On demande Ă un LLM de dĂ©crire les Ă©lĂ©ments rationnels qui pourraient permettre de conclure quant Ă la vĂ©racitĂ© ou non dâun fait.
đ« On demande Ă un SLM Ă partir du fait et des Ă©lĂ©ments rationnels fournis pour le LLM de conclure si le fait est une fake news ou non.
RĂ©sultat ? 87.8% dâefficacitĂ© sur le dataset en question. Câest-Ă -dire une amĂ©lioration de 15% !
Alors certes, on a le droit de voir le verre Ă moitiĂ© vide : mĂȘme avec cette mĂ©thode, le dĂ©tecteur de fake news commet 12.2% dâerreur. Ce qui nâest pas acceptable quand on connaĂźt les consĂ©quences que peuvent avoir les fake news en politique, dans le domaine de la santĂ© ou encore dâun point de vue Ă©conomique.
Mais il y a quelque chose de trÚs intéressant néanmoins, car :
đ€ Comme pour tout ce qui se passe en IA, les recherches se suivent et on progresse Ă chaque fois. Quel sera le pourcentage de succĂšs dans la dĂ©tection de fake news pour les prochaines mĂ©thodes quâon inventera dans un an, cinq ans ou dix ans ?
đ§© Comme souvent, une des mĂ©thodes utilisĂ©e ici est de dĂ©composer la problĂ©matique gĂ©nĂ©rale et dâentraĂźner diffĂ©rents modĂšles Ă travailler ensemble. Câest souvent par cette voie que les chercheurs font des dĂ©couvertes rĂ©volutionnaires
Et voilĂ , ce cinquiĂšme tunnel touche Ă sa fin. Bravo si vous avez Ă©tĂ© jusquâau bout, cette Ă©dition Ă©tait particuliĂšrement technique. Ăa fait du bien de temps en temps. NâhĂ©sitez pas Ă me dire comment vous lâavez trouvĂ©, Ă vous abonner, et Ă partager partout autour de vous.
Ă la semaine prochaine pour un nouveau tunnel â€ïž
Bravo, jâadore ce post qui allie technique, pratique, humour
Mention spĂ©ciale aujourdâhui pour le poĂšme ! đđ