Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA (jlai.lu)

submitted 1 month ago by keepthepace_@jlai.lu to c/forumlibre@jlai.lu

116 comments fedilink hide all child comments

Hello!

bon slrpnk.net a l'air d'être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l'anglais. Et je trouve qu'en français, ben y a pas grand chose. C'est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l'alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d'une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J'ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c'est un projet plus ou moins mort, mais c'était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d'autres.

J'ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J'ai réussi à passer au 4/5e l'année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j'utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j'ai réalisé que l'IA a le potentiel de changer le monde pour le mieux, c'est pas par hasard que j'ai essayé de m'orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d'aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu'on reste sur ces thèmes mais AMA anyway!

top 50 comments

sorted by: hot top controversial new old

[-] Camus@lemmy.blahaj.zone 8 points 1 month ago

Quelles sont pour toi les trois idées fausses les plus dommageables que les gens ont au sujets de LLMs / IAs?

[-] keepthepace_@jlai.lu 11 points 1 month ago

Alors...

Que ces modèles sont contrôlés par des grosses boites et que c'est inévitable. De tous les scénarios possibles, on est dans une des meilleurs timelines vis à vis de ça et je pense qu'on le doit beaucoup à la communauté open source: même quand les modèles sont fermés, les architectures sont connues, ouvertes, libres de droit, les implémentations standard le sont sur des frameworks libres, tout ça était très, très loin d'être acquis. Et les modèles ouverts sont extrêmement compétitifs aujourd'hui. C'est simple, malgré les milliards injectés dans le domaine, y a que deux boites et demi qui sont encore dans la course: OpenAI, Anthropic et à moitié Google.
Qu'on a besoin de la puissance de mille soleils pour faire tourner ces modèles. Beaucoup de gens ont l'air de confondre l'énergie utilisée pour entraîner ces modèles, qui est à dépenser une fois, et l'énergie utilisée pour les faire tourner, qui est équivalente à faire tourner un bon jeu 3D sur un PC moyenne gamme (ça fait tourner le GPU). Et de nombreux fabricants sont en train de sortir des puces spécialisées pour améliorer grandement les rendements. L'aspect énergétique est vraiment négligeable.
Ce point là est moins dommageable mais trouble souvent les conversations: Que ce qui était vrai l'année dernière l'est encore aujourd'hui. Chaque semaine amène son lot d'évolutions parfois fondamentales. Je bosse depuis 20 ans dans la tech, j'ai suivi pendant mes étude le dotcom burst et pourtant j'ai jamais vu une tech évoluer si vite.

[-] inlandempire@jlai.lu 8 points 1 month ago

Coucou merci pour l'AMA !

Quelle est la réalité du problème d'AI imbreeding que certains relèvent ? Si j'ai bien compris il y a un risque que les modèles (de langage ou de génération d'image) apprennent sur du contenu généré par IA, ce qui entraînerait à des résultats de plus en plus mauvais ?

Je suppose que ma question est plutôt quelles sont les mesures prises dans le milieu pour s'assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d'entraîner l'IA ?

Et en plus léger, qu'elle est la première fois que tu as entendu parler d'IA ?

[-] keepthepace_@jlai.lu 6 points 1 month ago* (last edited 1 month ago)

Perso je ne crois pas que ce soit un problème, ou en tous cas pas encore. Les publis que j'ai vu sur le sujet semblent indiquer que les sorties de LLMs produisent des datasets de meilleure qualité que les datasets originaux. Et quand on y pense, ça a du sens: un modèle a été entraîné à produire des "bons" textes à partir d'un peu n'importe quoi. Il y a une certaine logique à ce qu'un premier LLM arrive à faire une version améliorée du premier dataset.

Est ce qu'on peut itérer longtemps comme ça? Pas sur, mais je pense qu'on surestime le problème voire qu'on l'imagine.

quelles sont les mesures prises dans le milieu pour s’assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d’entraîner l’IA ?

Pour ceux qui sont dans la course à la perf et au meilleur benchmark: zéro. Tant que mettre plus de données améliore les résultats, ils font ça. Tout github, tout reddit, tout facebook y passe.

La recherche est en train de montrer que - surprise! - la qualité des données d’entraînement influe grandement sur la qualité du modèle et ça intéresse surtout les groupes avec moins de moyens.

Les chercheurs qui travaillent sur les problèmes d'alignement (d'éthique) s'intéressent à ces questions aussi. Par exemple une discussion intéressante avait lieu à EleutherAI pendant qu'ils assemblaient The Pile: Est ce qu'il faut intégrer toute la librairie du Congrès US? D'un coté c'est intéressant d'avoir des siècles de discussion législative, de l'autre, sur une bonne partie de cette période, on considère que les noirs sont une marchandises et sur la majorité de la période, des citoyens de seconde zone.

Ce qu'il y a d'intéressant c'est que des données pourries, biaisées, racistes, peuvent tout de même aider le modèle à s'améliorer, mais il faut que ce soit fait correctement et il y a là matière à des débats qui relèvent de la politique et de la philosophie appliquées ("Peut-on combattre le racisme en ignorant les thèses racistes?" Vous avez 4 heures)

[-] inlandempire@jlai.lu 4 points 1 month ago

Merci pour tous ces détails !

[-] keepthepace_@jlai.lu 4 points 1 month ago

Et en plus léger, qu’elle est la première fois que tu as entendu parler d’IA ?

Oh ça date! Je lis de la SF depuis que je suis petit, et les robots m'ont toujours fasciné, on m'a rapidement expliqué que le software était le plus gros facteur limitant, du coup l'IA devient le problème à résoudre rapidement. Je pense pas avoir eu plus de 12 ans quand on a commencé à en discuter.

[-] Ziggurat@sh.itjust.works 7 points 1 month ago

C'est quoi pour toi le moment de Bascule ?

Quand j'étais thésard en physique, et ça commence à dater, on avait ce vieux professeur, qui aimait troller les gens qui utilisaient des likelihood en leurs demandant pourquoi pas un réseau de neurone, c'est dire que pas mal de concept ne sont pas neufs. Bref de l'apprentissage automatique que ce soit pour taggé des particules ou des supernova ça se faisait déjà de mon temps.

Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d'image il y a genre 10 ans, et pourtant, ça avait pas pris.

Et là depuis 18 mois, on voit de l'AI partout, à toute les sauces, pour le meilleur et le pire. Qu'est-ce qui a crée cette bascule/rupture

[-] keepthepace_@jlai.lu 9 points 1 month ago

Oh oui, les réseaux de neurone ça date au moins des années 50 et certains outils mathématiques sont encore plus anciens! Dans les années 90-2000 on traversait le deuxième hiver de l'IA (tiens donc encore une page qui n'a pas été traduite en français!) et seuls quelques fervents zélotes tels que Hinton ou Le Cun prêchaient encore le perceptron multi-couches qui est un vieil algo! C'est plus leur "foi" que leurs innovations qui ont amené la vague actuelle.

Il y a un point de bascule très net en 2012 quand AlexNet emporte la compétition ImageNet, une compétition de classification d'images ("Identifie l'objet dans l'image parmi 1000 catégories: banane, chien, humain, voiture, etc..."). L'architecture n'était pas nouvelle, mais de petites améliorations ont été amenées et surtout, elle a été porté en CUDA et peut donc tourner très vite sur des GPUs récents.

D'un coté les algos sont devenus un peu plus efficaces, de l'autre le hardware est devenu plus performant. En 2012 ça s'est croisé et il est devenu plus efficace d'entraîner des réseaux "boite noire" que des algos spécialisés.

Alors c'est peut être plus tôt que tu ne le penses, mais c'est la bascule du point de vue des devs, et à partir de ce moment là on a commencé à mettre du réseau de neurones partout.

Pour le grand public, la découverte a été via la génération de texte. Il y a 2 points je pense: d'abord GPT-2, premier à sortir des textes étonnamment cohérents. Puis ChatGPT, qui a permis à tout le monde de réaliser que c'était réel, utile, et que certaines composantes de l’intelligence étaient là.

Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d’image il y a genre 10 ans, et pourtant, ça avait pas pris.

Deep dream a été une étape vers les générateurs d'image qu'on a aujourd'hui. Deep dream aujourd'hui ressemble presque à un hack d'un classifieur d'images, mais ça n'a pas pris parce que la qualité était très mauvaise. Elle a doucement augmenté petit à petit. Il y a eu deux sauts:

Les premiers GANs qui ont tout d'un coup produit des images d'un réalisme bluffant (qui aujourd'hui nous blase...)
Les modèles de diffusion, qui sont ce que tout le monde utilise aujourd'hui. Je crois, mais c'est moins mon domaine, que leur intérêt est de pouvoir se connecter à des modèles de langage et de pouvoir exprimer/comprendre un panel beaucoup plus large d'objets.

[-] Ziggurat@sh.itjust.works 4 points 1 month ago

Intéressant le point historique sur la période 2000-2012. Et ca explique même pourquoi c'était un quasi sexagénaire qui posait la question des Réseau de neurones

[-] snoopy@mastodon.zaclys.com 7 points 1 month ago* (last edited 1 month ago)

Salut le fédiverse,

@keepthepace_ fait un Demande-moi n'importe quoi sur le @forumlibre

Le thème : les modèles de language et la robotique open hardware. Si ça vous intéresse de découvrir une autre facette que Skynet et la machine à billet,

je vous invite à lire ce poste où il parle de son parcours :
https://jlai.lu/post/6554057

Puis de poser vos questions. Bonne lecture !

Hésitez pas à partager :3

#IA #LLM #Skymind #deeplearning #deeplearning4j #Pytorch #Robotique #OpenHardware #Fablab #DMNQ

[-] keepthepace@slrpnk.net 7 points 1 month ago

Et forcément dés que je lance ça avec mon compte de secours, slrpnk.net remarche! Bon, je continue avec mon compte jlai.lu mais si vous passez sur ce fil après la fin du AMA mieux vaut me pinger en répondant à ce message.

[-] inlandempire@jlai.lu 7 points 1 month ago* (last edited 1 month ago)

C'est comme quand un programme bugge et qu'il remarche dès que t'ouvres le gestionnaire de tâches pour le tuer 😏

[-] joneskind@lemmy.world 7 points 1 month ago

Je suis développeur et je dois admettre que ces LLM sont fascinants (je refuse d’employer le terme IA, au même titre que je déteste les voix humaines de nos assistants vocaux)

J’utilise quotidiennement et en local Phind-CodeLlama-34B, Mistral et CodeQwen et ça me fait gagner un temps fou pour pas mal de tâches répétitives, mais sans tomber dans le catastrophisme j’ai du mal à envisager une issue entièrement positive à ce qui est en train de se passer.

Un des points de friction majeur, c’est que j’observe déjà chez mes copains artistes les effets dévastateurs des IA génératives, y compris chez ceux qui les utilisent. Des graphistes, animateurs, musiciens qui se retrouvent dépossédés de leur créativité qui se retrouvent à corriger ou reproduire des images promptées. Des traducteurs qui se retrouvent au chômage, des profs de langues en crise existentielle. Et des profs qui se retrouvent à faire la chasse aux tricheries, quand ils ne doivent pas débattre pour prouver que ChatGPT raconte parfois n’importe quoi, devant des gamins sans sens critique.

Les LLM représentent aussi la fin des spécialistes. Dans ma boite on me demande déjà de rédiger de la documentation en plus de mon dev, sur des sujets auxquels je ne connais rien, parce que le mec qui sait est en vacances, ou qu’il a pas le temps. “Demande à ChatGPT” c’est la nouvelle réponse à tout.

Dans quelques années, le mec qui devait rédiger ma documentation aura peut-être été licencié, ou alors il demandera à ChatGPT de développer sa feature parce que c’est moi qui serai en vacances.

Alors c’est vrai que c’est pas la première fois qu’un outil transforme la société et met une profession entière au chômage. La bagnole a tué les marchands de chevaux, la photographie a tué les portraitistes, Wikipedia a tué les vendeurs d’encyclopédie… rien de nouveau sous le Soleil…

Mais l’idée que les machines fassent de l’art pendant que les humains se crèvent le cul sur une chaîne d’assemblage, je dois bien admettre que ça ne me réjouit pas du tout. Notre société ne met jamais l’Humain en premier. Le plus important c’est le profit. Partant de là on sait déjà dans quelle direction on va aller.

[-] keepthepace_@jlai.lu 3 points 1 month ago

Mais l’idée que les machines fassent de l’art pendant que les humains se crèvent le cul sur une chaîne d’assemblage, je dois bien admettre que ça ne me réjouit pas du tout.

Je te rassure, les métiers manuels ne sont pas épargnés. Je pense que les prochains mois vont voir le grand public réaliser les avancées que l'IA a fait faire en robotique ces deux dernières années. On peut désormais "programmer" un bras à faire une tâche demandant une motricité fine avec juste 15 minutes de démo humaine. Et c'est des bras bon marché. Y a une raison pour laquelle la plupart des boites d'IA investissent dans la robotique en ce moment. OpenAI a montré une démo d'un humanoïde qui analyse son environnement et comprend des ordres parlés.

Y a une différence entre automatiser 10% des boulots et en automatiser 100%. C'est que dans ce dernier cas, le contrat social actuel saute: plus besoin de gagner sa part du gateau avec du labeur humain. Ça, c'est une redéfinition fondamental de la société, et c'est ça qu'espèrent voir la plupart des chercheurs en IA que je connais.

Notre société ne met jamais l’Humain en premier.

Nous sommes notre société. La société est une chose qu'on construit, pas juste une chose qui descend du ciel et qu'on subit.

[-] joneskind@lemmy.world 5 points 1 month ago

Nous sommes notre société. La société est une chose qu’on construit, pas juste une chose qui descend du ciel et qu’on subit.

Je suis un gaucho de 45 ans, aussi exaspéré par le discours récurrent du “tous pourris, voter ça sert à rien” que celui du “on peut rien faire tout seul”. Donc tu comprendras que c’est pas moi qui vais te contredire.

Maintenant permets-moi d’être un peu pessimiste, parce que quand je parle de notre Société je ne parle pas d’une élite cachée qui ferait les règles dans notre dos, je parle des gens qui la font, de l’épicier à l’instituteur, qui se sont persuadés que “marche ou crève” c’est une devise normale pour une Société qui fonctionne.

On va vers un monde sans travail. Comment tu crois que ça va se passer avec cette génération biberonnée de néolibéralisme ?

load more comments (3 replies)

load more comments (2 replies)

[-] best_username_ever@sh.itjust.works 6 points 1 month ago

Qu’est-ce qui peut changer le monde avec l’IA ?

Je ne peux pas m’empêcher de faire le parallèle avec l’informatique qui, bien qu’ayant changé le monde d’une certaine façon, nous fait travailler plus pour gagner moins (et je dis ça en tant que dev…)

load more comments (5 replies)

[-] ouille@jlai.lu 5 points 1 month ago* (last edited 1 month ago)

Bonjour et merci pour cet AMA Voici quelques questions que je me pose.

Y a t il un intérêt à continuer l'apprentissage d'un modèle Mistral 7b par exemple ? Si oui est ce que c'est faisable en local sur une machine qui fait tourner le RN si on parle "d'ajouter" un petit corpus de spécialisation par exemple.

Quel est l'intérêt pour Mistral de donner son modèle ? D'ailleurs Il me semble qu'ils ont arrêté. Llama est libre aussi. Quel retour de la communauté attendent- ils ?

Il semblerait que chatgpt soit devenu bon aux échecs. J'ai donc entendu parler de sondes qui semblent montrer que le RN c'est fait une représentation de l'échiquier. Qu'est ce que ces sondes et comment sont elles construites ?

Concernant les prompts qu'elle serait ton explication au fait que de générer des tokens aléatoire en début de réponse amélioré le résultat ? Dans la même idée pourquoi quand on demande de répéter à l'infini le RN retourne une partie du corpus ?

Enfin est il facile de retourner un RN ? C'est à dire de donner une réponse et avoir le prompt correspondant ?

Et merci d'avance !

[-] keepthepace_@jlai.lu 7 points 1 month ago* (last edited 1 month ago)

Y a t il un intérêt à continuer l’apprentissage d’un modèle Mistral 7b par exemple ?

Alors il y a plusieurs façons de comprendre cette question, et oui à toutes ses acceptations.

Si tu parle de continuer l'entraînement total du modèle: oui, on sait que la plupart (tous?) les modèles disponibles sont sous-entraînés. Il y a un point où on ne gagne qu'un petit peu en continuant d’entraîner longtemps mais le gain continue à être positif, donc oui. Par contre ça prend beaucoup plus de VRAM que de faire tourner une version du modèle en inférence. Je ne sais plus quel est le multiplicateur mais c'était 16 ou 24x je ne sais plus par rapport à un modèle quantizé.
Si tu parles de le spécialiser, tu veux peut être parler de fine-tuning. Dans ce cas là, c'est tout à fait possible sur une machine même modeste grâce à des optimisations de type LORA (et on a peut être inventé d'autres moyens d'accélérer ça depuis?) qui te permettent de n’entraîner que de petite touches du modèle. Par contre là, attention! J'ai essayé de faire ça en espérant apprendre de nouveaux faits à un modèle, et ça n'a pas marché. Le fine-tuning permet de facilement changer le "style" de sorte d'un domaine. Par exemple si tu veux lui donner une certaine personnalité, lui faire apprendre une autre langue ou lui faire utiliser une API particulière. Par contre ça marche assez mal pour les nouveaux fait et risque d'augmenter ses hallucinations (car tu lui apprends à répondre des choses non présentes dans ses "couches profondes" de connaissances. C'était à l'époque de Llama2, ça a peut être changé depuis je n'ai pas réessayé, mais il y a une raison pour laquelle les gens qui veulent faire apprendre de nouvelles connaissances à un système préfèrent le RAG.

Quel est l’intérêt pour Mistral de donner son modèle ? D’ailleurs Il me semble qu’ils ont arrêté.

Dés le début Mistral a joué franc jeu, il faut le leur reconnaître: ils avait prévenu que leurs plus gros modèles seraient fermés. Ils ont donné des modèles très bons, petits en libre pour se faire connaître et ça a marché et valu le coup. Une réputation comme la leur vaut des milliards, ça leur a coûté des millions. C'est une bonne affaire.

Llama est libre aussi. Quel retour de la communauté attendent- ils ?

Llama, pour ceux qui ne le savent pas, c'est Meta, donc Facebook derrière. C'est pas de l'angélisme (à part pour Yann Le Cun, leur directeur IA semble vraiment idéologiquement pour l'IA open source, un gros <3 pour lui) et Zuckerberg le disait clairement, posément, cyniquement: "notre gros modèle a coûté ~10 milliards à entraîner [je pense que c'est exagéré mais c'était cher quand même]. dans les 10 prochaines années on va dépenser autour de 100 milliards en IA. Si la communauté open source rend nos modèles 10% plus performants, on s'y retrouve". C'est imparable. Eux sont utilisateurs, pas vendeurs, et ils préfèrent des bons modèles qui tournent chez eux que de dépendre du bon vouloir d'OpenAI. Et la communauté a déjà probablement fait plus qu'améliorer de 10% leurs perfs donc bon calcul pour Zuck.

Il semblerait que chatgpt soit devenu bon aux échecs. J’ai donc entendu parler de sondes qui semblent montrer que le RN c’est fait une représentation de l’échiquier. Qu’est ce que ces sondes et comment sont elles construites ?

Les modèles spécialisés enfoncent ChatGPT aux échecs (pour donner une idée, le Elo d'un débutant aux échecs est de 1000, le champion humain actuel, Magnus Carlsen est à 2800, le meilleur soft est à 3600).

Mais oui, c'est intéressant parce que ChatGPT a des capacités émergentes en la matière. Ces sondes sont faites par des gens qui ont accès au modèle pendant qu'il tourne et viennent regarder les "neurones" activés dans les différentes couches du modèle. Je ne sais pas comment ils ont fait dans le cas présent mais une façon de faire pourrait être de poser un problème d'échec et de demander à ChatGPT de compéter "la case C2 contient" puis "la case C3 contient", etc. et regarder quels zones sont activées. Il y a probablement une couche d'attention où "l'état mental" de l'échiquier est contenu.

Sur ChatGPT, seul OpenAI est capable de faire ça, mais sur des modèles ouverts, toute personne faisant tourner le modèle peut faire une manip du même genre. Ces réseaux ne sont pas totalement des boites noires: on peut aller bidouiller à l'intérieur. On parle de boite noire parce qu'il n'est pas nécessaire de le faire, mais on peut les ouvrir, on a la clef, quand ils ne sont pas propriétaire.

Enfin est il facile de retourner un RN ? C’est à dire de donner une réponse et avoir le prompt correspondant ?

Oui! Il s'agit de faire une passe d'apprentissage où on fixe les paramètres du modèle et on "apprend" le prompt. Je ne l'ai jamais fait, la théorie est assez simple, je ne sais pas si c'est difficile en pratique, mais des gens qui explorent la sécurité des modèles utilisent ça. Ils vont par exemple trouver qu'une séquence du genre "%!!%(#@*....{{{32!(D le président de la France est" va faire bugger le modèle et lui faire sortir "Michaël Youn".

[-] ouille@jlai.lu 4 points 1 month ago

Je me coucherai beaucoup moins bête ce soir. Merci

load more comments (3 replies)

[-] Camus@lemmy.blahaj.zone 5 points 1 month ago

Quelles sont pour toi les meilleurs ressources pour quelqu'un qui n'y connait rien en LLM et voudrait commencer à comprendre comment ça fonctionne?

[-] keepthepace_@jlai.lu 6 points 1 month ago

En Français j'ai pas grand chose hélas! Mais certains ici auront surement des idées.

En anglais, pour la théorie, le channel youtube (bleh!) 3blue1brown a fait une série qui a l'air bien sur le deep learning. Commencez par "But what is a neural network?".

Pour la pratique, j'avais suivi la première série de cours fastai (des vidéos gratuites) pour me remettre à niveau il y a quelques années quand je suis arrivé à Skymind. Je n'ai pas regardé leurs séries récentes mais je suppose qu'ils ont mis leur contenu à jour. C'était le mix parfait pour moi qui connaissait la théorie mais pas les frameworks rendant la chose plus aisée.

[-] Camus@lemmy.blahaj.zone 4 points 1 month ago

Merci beaucoup!

[-] CommationCerebrole@jlai.lu 5 points 1 month ago

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF

T'en écris toi même ? Je suis curieux de ce que peuvent donner les LLM en littérature mais j'ai l'impression qu'il faut des prompts bien pensés et écrits pour avoir de bons résultats. Moi en jouant un petit peu j'ai pas eu des trucs très convaincants mais je suis passé sur un stream de MonsieurPhi où il donnait des prompts très longues avec des exemples de texte pour générer des microfictions et ça marchait plutôt bien. Bref, qu'est ce que tu penses des LLMs pour une utilisation "artistique", et est-ce que t'as des exemples de résultats qui t'ont impressionné dans ce domaine ?

[-] keepthepace_@jlai.lu 4 points 1 month ago

Je m'y suis essayé. J'aime bien écrire, mais assez rapidement, écrire de la SF me frustre: penser aux possibilités de la techno me donne envie de les réaliser, pas de fantasmer dessus!

Sur les LLMs et la littérature, j'ai été surpris d'entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C'est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu'on lit pour échanger avec un auteur. Alors c'est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l'intention humaine derrière un texte fait en effet partie de l'expérience.

Le problème que j'ai eu quand j'ai essayé des trucs (avec GPT3.5 je pense à l'époque) c'est que les modèles ont du mal à rester cohérents. Tu explores une cave et tu te retrouves sur un balcon, des objets apparaissent ou disparaissent, etc.

C'est pas insurmontable, et perso j'aimerais bien faire des expériences de jeu narratif (où un moteur de jeu classique garantirait la permanence des objets et la cohérence générale) mais je ne vois pas l'intérêt de générer des livres avec des LLMs. Les livres, c'est un medium entre humains. Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

J'ai un pote qui bosse dans le domaine et avec qui on partage un gout pour le heavy metal. À peu près au moment où GPT-3 sortait, il m'a envoyé des paroles de chanson générées, dont une en particulier qui m'a bluffée. "Beacon of the Valkyries", qui décrit l'ambiance d'un lieu avant une grande bataille épique. Un thème qui aurait pu être une chanson de Manowar ou Sabaton. Ce qui m'a impressionné c'est que le titre était très bien choisi: il faut comprendre que les Valkyries accompagnent les morts au combat, qu'une bataille va en créer, qu'elles volent, qu'une balise peut donc les guider, que le titre est évocateur.

Depuis beaucoup de gens ont fait des expériences similaires mais à l'époque j'ai cherché un moment sur internet pour vérifier si cette expression n'existait pas déjà quelque part tellement je ne pouvais y croire. Ça m'a convaincu que même une "bête" prédiction de texte pouvait faire émerger une forme de compréhension des concepts.

load more comments (3 replies)

[-] pseudo@jlai.lu 4 points 1 month ago

Les enjeux environnementaux et énergétiques ont-ils une influence sur la trajectoire de la recherche en IA ? Y a-t-il des efforts pour rationaliser la complexité des algorithmes d'IA ou les économies se font sur l'améliorer des processeurs ?

[-] keepthepace_@jlai.lu 4 points 1 month ago

Je ne suis pas sur de ce que tu demandes. La plupart des modèles open source publient le bilan carbone de leur entraînement. Le plus gros (llama3) semble avoir émis l'équivalent d'un aller-retour international en avion. Ce qui est très faible pour les retombées attendues, ne serait-ce qu'en climatologie. Je pense qu'une réunion du GIEC émet plus.

Y a-t-il des efforts pour rationaliser la complexité des algorithmes d’IA ou les économies se font sur l’améliorer des processeurs ?

Ça va dans les deux sens. On attend de pied ferme la prochaine génération de circuits spécialisés, mais en attendant on tente d'améliorer les perfs des petits modèles. Pas mal de gens préfèrent fine-tuner (spécialiser) un petit modèle que d'utiliser un gros modèle générique. Le coût économique et l'impact écologique se rejoignant, c'est une tendance qui n'a pas à se cacher derrière du greenwashing.

[-] zeograd@lemmy.world 3 points 1 month ago

De tête, j'avais l'équivalent de 30 voyages continentaux d'un américain pour le bilan carbone du training de Llama3 (c'était sur hacker news, et ils vont faire leur possible pour ne jamais utiliser d'unités métriques)

[-] keepthepace_@jlai.lu 3 points 1 month ago

Oh je pense que c'est plus, ou alors ils ne parlent que de la version 8B.

https://huggingface.co/TechxGenus/Meta-Llama-3-8B-GPTQ

Pretraining utilized a cumulative 7.7M GPU hours of computation on hardware of type H100-80GB (TDP of 700W). Estimated total emissions were 2290 tCO2eq, 100% of which were offset by Meta’s sustainability program.

Note: c'est ce que Meta rapport, je sais pas si c'est vérifié indépendamment.

Note 2: Le training n'émet pas de CO2 directement, il consomme de l'électricité. Absolument rien n'empêche exactement le même datacenter d'avoir zéro émission, c'est purement une question de transition de la production électrique.

load more comments (1 replies)

[-] pseudo@jlai.lu 4 points 1 month ago

Où les perspectives d'avenir sont-elles les plus grandes : dans le développement de nouveaux concepts ? dans l'entraînement de nouveaux modèles ? dans la mise en place de solution à partir des modèles existants ?

[-] keepthepace_@jlai.lu 4 points 1 month ago

Oui :-)

Et j'ajouterais: dans l'IA appliquée à la robotique.

Mais si tu développes des compétences dans un de ces domaines, je pense que tu seras employable jusqu'à ce que plus personne ne le soit (ce qui, j'espère, arrivera dans les 10 prochaines années)

[-] Camus@lemmy.blahaj.zone 4 points 1 month ago

Tu parles des modèles open source, quels sont les plus importants pour le moment? Y a-t-il une grande tendance à gérer ces modèles sous licences open source / libres, ou à l'inverse les modèles les plus performants sont-ils la propriété de société privées?

[-] keepthepace_@jlai.lu 8 points 1 month ago* (last edited 1 month ago)

Pour l'instant GPT-4, modèle fermé possédé par OpenAI est considéré comme le meilleur modèle avec la série Claude d'Anthropic (fermés aussi) qui le dépasse sur certaines choses.

Mais ça sent la fin de règne. Mistral et Meta (pourtant deux boites privées) ont sorti des modèles libres qui vient disputer leur turf.

En Open source, ça change toutes les semaines. En ce moment, Llama-3 est le modèle libre (certains considèrent sa licence trop restrictive pour être considérée libre, mais perso je considère que ça va) qui a les meilleures performances, y a un mois c'était la série de Mistral. La série des Command R pourrait être les prochains à monter.

Pour suivre cette course hippique et épique, le meilleur classement reste sûrement l'arène LMSYS où des gens évaluent les modèles en aveugle.

Il faut garder à l'esprit qu'il y a un aspect qui "handicape" les modèles libres: ils tentent de rester petits. Ils bénéficient de la communauté open source si beaucoup de monde peut les faire tourner. Un modèle à 7 milliards de paramètres (la taille la plus populaire) ou à 70 milliards (la taille considérée "max" pour la commu) va avoir du mal à concurrencer un modèle comme GPT-4 qu'on estime avoir 1700 milliards de paramètres.

En intelligence par paramètre dans le modèle, l'open source gagne de loin.

[-] Pandemonium@jlai.lu 4 points 1 month ago

Les gens ne savent se projeter.

On parle beaucoup d'agriculture biologique, de la nécessité de réduire les pesticides, mais ça demande du travail laborieux et manuel pour supprimer les mauvaises herbes. Aujourd'hui ce sont des personnes esclavagisées venus de pays pauvres qui font ce travail de fourmi. Ce genre de problèmes pourra être résolu par la robotique.

De même on pourrait supprimer le métier infamant de femme/homme de ménage, et toute sorte de métiers que personne ne veut faire.

De la même manière qu'il existe des gens qui se sont instruits grâce à la radio, la télévision et internet, je suppose qu'il y a également une partie de la population qui saura profiter de cette aubaine pour créer une société nouvelle, plus égalitaire et libre. En revanche je ne fais guère d'illusion pour l'autre partie de la population.

load more comments (1 replies)

[-] pseudo@jlai.lu 3 points 1 month ago

As-tu des ressources à nous suggérer sur le thème d'IA éthique ? J'ai lu récemment "Arms of maths destruction", qui ne porte pas que sur les IA, et je ne veux pas m'arrêter là.
D'ailleurs comment définies-tu l'IA éthique ?

[-] keepthepace_@jlai.lu 6 points 1 month ago

Le mot clef c'est "alignment problem": le problème est "d'aligner" les prédicats éthiques des modèles sur les prédicats humains afin que les "décisions" implicites n'aient pas des effets désastreux. Par exemple si tu demandes à une machine d'aller faire du café, elle n'est pas supposer écraser un bébé humain qui est sur le passage.

Je ne suis plus trop le thème de l'éthique mais l'endroit où j'avais trouvé le plus de ressource, c'est le discord de EleutherAI qui a toute une section "alignment" dont un channel "beginner" .

J'ai arrêté de m'y intéresser quand j'ai compris ce mème (je ne poste pas souvent un mème mais quand je le fais, c'est un repost de Karpathy :-) )

Les LLMs comprennent les préférences humaines par nécessité et ça inclut les préférences morales. C'est un scénario tellement rose qu'aucun auteur de SF ne l'a imaginé: comprendre les humains suffisamment bien pour interagir passe par une compréhension de leur moralité. Une chose qu'on a aussi beaucoup de mal à imaginer, c'est que ces modèles n'ont pas d'ego, d'instinct de survie, d’égoïsme, à l'origine de plein de problèmes qu'on projette dessus.

Non j'en suis venu à la conclusion que le problèmes c'est pas le "AI alignment problem" mais le "corporation alignment problem": les IAs feront ce qu'on leur demande, ça semble acquis. Le problème c'est justement ce qu'on va leur demander.

[-] pseudo@jlai.lu 3 points 1 month ago

Quelle est selon la meilleure approche pour approfondir des connaissances en IA une fois sortie du monde universitaire ?
Pour une meilleure compréhension des IA pour quelqu'un qui a déjà un bagage théorique sur le sujet le point de vue mathématiques/statistique est-il plus ou moins intéressant que le point de vue informatique ?

[-] keepthepace_@jlai.lu 6 points 1 month ago

Ce qui manque souvent aux universitaire c'est la pratique. Bosser dans le domaine, c'est à 95% de la plomberie, et à 5% de la théorie. Apprend à utiliser les outils, git, jupyter, pip, vLLM (si c'est de LLMs dont tu parles), docker, pandas, numpy, les différents packages spécialisés, etc. (et je ne mentionne pas les libs bas niveau d'optimisation, si c'est ton sujet y en a pas mal aussi mais je connais moins)

Perso j'ai un biais pro-maths et pro-théorie: je trouve ça important de comprendre ce que le modèle fait pour l'utiliser bien mais plein de gens bossent dedans sans trop savoir. Mais ça aide de façon invisible. Exemple: Je me doutais qu'un LLM devenait plus intelligent si tu lui donnais une consignes, et que tu le forces à générer une centaine de symboles inutiles avant de commencer à te répondre. Ça choque même des gens du domaine, mais si t'as compris ce que les chain-of-thought provoquent tout est logique.

Je discutais avec une équipe internationale à Penang d'un truc qui m'intriguait: même en Asie je trouvais plein de francophones dans le domaine. Un Malaisien m'a dit "vous avez une meilleure culture mathématique, ça aide" et c'est peut être un peu prétentieux de le dire, mais j'ai l'impression que c'est vrai. On fait plus de théorie, ça nous aide dans des niches moins maitrisées par les devs capables de vite sauter d'une lib à l'autre sans savoir ce qu'elles font.

load more comments (11 replies)

[-] pseudo@jlai.lu 3 points 1 month ago

Très spécifique mais : les robots aspirateurs sont-ils un exemple d'utilisation de l'IA en robotique ? Je n'ai pas la moindre idée du genre de programme qu'ils utilisent.

load more comments (1 replies)

load more comments