[-] keepthepace_@jlai.lu 4 points 2 months ago

J'ai eu peur qu'on ne me parle que d'environnement (tl;dr: l'impact de ces techs est pas énorme et indirect) j'ai été déçu, mais je m'y attendais, qu'on ne parle pas beaucoup de la société post-travail.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Alors dans un sens pas vraiment, parce que ça reste un sujet principalement technique mais perso j'aimerais bien trouver un moyen parce que c'est un sujet qui dépasse la technique et qui a une composante politique à laquelle les utilisateurs doivent être associés. Je pense que faire de la traduction ou de la vulgarisation sous un angle qui promeut plus l'open source que les solutions des boites privées, ça ne demande pas un bagage technique super important, mais c'est une mission cruciale aussi!

Il faut quand même comprendre au moins superficiellement ce que ces modèles font et comment on les utilise, mais ça demande pas une thèse de math.

En open source on appelle ça un rôle d'évangélisateur: une sorte de power user qui sait faire le lien entre devs et utilisateurs.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Alors la théorie je l'ai beaucoup faite via des articles de blog de type explained. "Layer normalization explained", "BERT explained". Il y a quelques publis qui sont intéressantes à lire mais sur les technos qui ont plus d'un an, une bonne explication sur un blog aidera à aller au but et ajoutera en plus des infos sur l'utilisation actuelle de cette tech.

Les choses à comprendre:

  • La descente de gradient, c'est la base de tout
  • Le perceptron multicouche, le layer le plus simple
  • Le rôle des optimizers
  • Les différentes "couches":
    • Full connected layer (c'est la même chose qu'un perceptron)
    • Convolution
    • Softmax (techniquement une fonction d'activation mais elle est importante)
    • Normalisation
    • Dropout
    • Attention
    • Maxpool (ça s'utilise encore ça?)
  • Dans les LLMs, comprendre les tokenizers
  • Dans la génération de media, comprendre les modèles de diffusion et les GAN

Ah, et tu croiseras probablement des bayesiens à un moment dans cette exploration. Ils vont te parler de "priors" de fonction de distribution, tout exprimer sous forme de proba... Je blague un peu en disant que c'est une secte à part, mais c'est principalement une différence de vocabulaire: ils voient tout sous le prisme de la théorie bayesienne que (personnellement) je trouve qu'il font rentrer au chausse-pied en compliquant des notions simples. Mais je le dis pas trop fort, ça vire souvent à la guerre de religion sinon :-)

[-] keepthepace_@jlai.lu 3 points 2 months ago

Ce qui t'intéresse le plus! Tu peux assembler un petit classifier et l'entrainer from scratch, fine-tuner un petit modèle existant ou bien juste utiliser des modèles.

MNIST, un classifieur d'images 24x24 de chiffres écrits à la main, est un bon exercice de départ.

Charger un modèle pré-entrainé et aller examiner ses représentations latentes est aussi rigolo.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Alors il y a sûrement plus de réponses techniques que tu imagines! Mais déjà parlons de l'aspect humain, il y a 2 problèmes humains à mon sens qu'on aura du mal à résoudre purement techniquement:

  1. Reconnaître qu'il y a un biais à corriger dans le dataset et vouloir le corriger. Si on a un dataset de décisions RH qui écarte les femmes par sexisme, et qu'on reçoit l'instruction "entraîne un modèle qui nous remplace le plus précisément possible", la mission est d’entraîner un modèle sexiste. À nous de le refuser ou de prouver que le boulot en question ne requiert pas une bite pour être fait correctement.

  2. Arriver à articuler clairement nos buts. Un effet pervers intéressant avait été montré via un algo qui aidait les étudiants et les étudiantes à s'orienter vers la filière qui avait le plus de chance de déboucher sur un diplôme. Une université avait un taux de réussite plus faible chez les femmes, probablement par sexisme, du coup l'algo n'a proposé que des hommes pour cette université. C'est en effet dans l'intérêt des étudiantes. Et c'est un biais sexiste. Est-ce ce qu'on veut?

Une fois ces problèmes passés, le problème posé est comment créer un modèle non-baisé à partir d'un dataset biaisé.

Une des présentations les plus intéressantes que j'ai vu sur ce thème, et qui tenait de la discussion technique autant que de la philosophie appliquée démontait quelques approches naïves sur un cas d'école: prédire la peine d'accusés dans des tribunaux US. Il est bien documenté que la justice US a un biais raciste auquel s'ajoute un racisme systémique.

  1. Impossible de cacher la "race" de la personne concernée, de trop nombreux proxys existent: lieu d'habitation, d'étude, lieu d'arrestation, etc.
  2. Impossible de forcer un quota de décisions: la police est raciste aussi et arrête plus de noirs, forcer le même taux de condamnation serait tout aussi injuste voir amplifierait les injustices!
  3. Impossible d'ajuster avec une constante manuelle, le biais raciste n'est pas constant.

La solution proposée consistait à expliciter les variables sur lesquelles un biais existait, c'est à dire un déséquilibre dans le dataset, et forcer une décorrélation entre le jugement et ces variables. Le système apprend alors tout ce qui est corrélé à la "race" et le différencie de ce qui amène à une condamnation. Il y a des noirs innocentés, il y a des blancs condamnés, apprendre les critères qui permettent ça donne un système qui a pu retirer le biais de son dataset, à condition qu'on le lui ait pointé du doigt.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Oh je pense que c'est plus, ou alors ils ne parlent que de la version 8B.

https://huggingface.co/TechxGenus/Meta-Llama-3-8B-GPTQ

Pretraining utilized a cumulative 7.7M GPU hours of computation on hardware of type H100-80GB (TDP of 700W). Estimated total emissions were 2290 tCO2eq, 100% of which were offset by Meta’s sustainability program.

Note: c'est ce que Meta rapport, je sais pas si c'est vérifié indépendamment.

Note 2: Le training n'émet pas de CO2 directement, il consomme de l'électricité. Absolument rien n'empêche exactement le même datacenter d'avoir zéro émission, c'est purement une question de transition de la production électrique.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Ce que je veux dire par travail physique c'est un travail où ce qu'on embauche, c'est la force, où ta capacité à porter 80 kilos au lieu de 50 te rend 60% plus précieux. Il y a peu de boulots où la pure force physique est demandée.

Et tu le dis toi même: le patron peut acheter la machine. Des machines pour forcer à notre place, on en a partout.

l’insuffisance du software

Curieux de savoir ce qui te semble manquer parce que tu en parles beaucoup.

Maintenant? Plus rien. Mais ça ne fait que un an ou deux que le contrôle de bipèdes ou même de quadrupèdes dans un environnement inconnu est possible et que des robots savent utiliser intelligemment leurs membres.

On a eu plein de propagande sur la révolution d’internet pendant au moins 10 ans. Ça n’est jamais arrivé car approprié par les grandes entreprises.

Wikipedia, le projet le plus important d'internet, n'est pas possédé par une entreprise. Je partage ton cynisme sur certaines choses, mais l'amélioration de la communication à tous les niveaux que promettait internet est effectivement venue. J'ai payé 10 francs/minutes pour des appels internationaux, maintenant je discute de tout et de rien avec des amis au Japon ou au Québec sans dépenser un sou. Ça a donné une force au mouvement open source d'ailleurs. Et je travaille maintenant avec des Américains, Grecs et Canadiens à distance, sans bouger de chez moi. Vous imaginez pas à quel point c'était de la SF juste même y a 15 ans quand j'ai commencé.

Tout ce que les entreprises "se sont approprié" c'est par pure paresse et commodité qu'on les laisse faire. De Peer Tube à NextCloud, de Matrix à Lemmy, on peut faire sans avec une aisance que tous les écrivains de cyperpunk pensaient complètement utopiste.

Je pense que, comme internet, il faudra attendre une bonne dizaine d’années avant de voir comment les entreprises vont se l’approprier.

Ce qui m'intéresse surtout c'est comment nous, on va se l'approprier. Les outils sont là, gratuits, avec une communauté super active pour les améliorer et les utiliser. Le seul obstacle à cette appropriation de l'outil ce n'est pas la rapacité, la corruption, le lobbyisme, mais bien le peu d'information et l'ignorance de ces solutions, ça c'est facile à combattre, mais surtout le défaitisme et la croyance que non, vraiment, l'open-source c'est trop beau pour être vrai, ça ne droit pas être possible, et ce préjugé là, il est dur à combattre.

Finalement, pour que l’IA soit utile et ne nous rende pas tous chômeurs, il faudrait qu’on vote en masse pour un président communiste technophile, et je doute que ça arrive.

Ah oui, un·e anarcho-communiste technophile aurait mon vote tout de suite. Mais la gauche molle peut faire l'affaire: Hamon avait le revenu universel dans son programme, un candidat démocrate aux US aussi. Et si le revenu universel est difficile à vendre, l'abaissement de l'âge de la retraite est une façon de se rapprocher simplement de ce but.

[-] keepthepace_@jlai.lu 4 points 2 months ago

Alors attention, l'argument c'est pas qu'une machine ne peut pas le faire! Je m'attendais de façon un peu blasée à ça quand la question est arrivée et j'ai été surpris par la réponse. Il dit pas qu'une machine ne peut pas le faire, mais que c'est inintéressant si elle le fait, car il lui manque l'intention, le vécu. Quand j'ai lu le Problème à Trois Corps, que j'ai pas trouvé fantastique d'un point vue SF, les passages qui m'ont le plus intéressé étaient ceux qui parlaient des déboires des protagonistes sous Mao, sachant que l'auteur est chinois. Les mêmes passages écrits par un Américain m'auraient moins intéressé. Savoir que La Vie des Autres a été réalisé par quelqu'un qui n'a jamais habité à Berlin Est a rendu le film plus mauvais pour moi.

Un auteur pourrait faire passer une intentionnalité évocatrice ou un style via un LLM, mais je trouve qu'à ce moment le medium est moins intéressant et que ça brouille le canal entre le lecteur et l'auteur.

Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

Ça fait longtemps que ça se fait! Depuis que quelqu'un a fine-tune je sais plus quel modèle sur Harry Potter et fait générer la suite d'un dialogue imaginaire avec les persos, il y a énormément de gens qui s'amusent à ça (80% d'entre eux pour du roleplay érotique mais bon...). Je crois que koboldAI est ce qu'ils utilisent le plus et ils ont des modèles spécialisés pour ça.

[-] keepthepace_@jlai.lu 4 points 2 months ago

Oui :-)

Et j'ajouterais: dans l'IA appliquée à la robotique.

Mais si tu développes des compétences dans un de ces domaines, je pense que tu seras employable jusqu'à ce que plus personne ne le soit (ce qui, j'espère, arrivera dans les 10 prochaines années)

[-] keepthepace_@jlai.lu 4 points 2 months ago

Je ne suis pas sur de ce que tu demandes. La plupart des modèles open source publient le bilan carbone de leur entraînement. Le plus gros (llama3) semble avoir émis l'équivalent d'un aller-retour international en avion. Ce qui est très faible pour les retombées attendues, ne serait-ce qu'en climatologie. Je pense qu'une réunion du GIEC émet plus.

Y a-t-il des efforts pour rationaliser la complexité des algorithmes d’IA ou les économies se font sur l’améliorer des processeurs ?

Ça va dans les deux sens. On attend de pied ferme la prochaine génération de circuits spécialisés, mais en attendant on tente d'améliorer les perfs des petits modèles. Pas mal de gens préfèrent fine-tuner (spécialiser) un petit modèle que d'utiliser un gros modèle générique. Le coût économique et l'impact écologique se rejoignant, c'est une tendance qui n'a pas à se cacher derrière du greenwashing.

[-] keepthepace_@jlai.lu 3 points 2 months ago

Mais l’idée que les machines fassent de l’art pendant que les humains se crèvent le cul sur une chaîne d’assemblage, je dois bien admettre que ça ne me réjouit pas du tout.

Je te rassure, les métiers manuels ne sont pas épargnés. Je pense que les prochains mois vont voir le grand public réaliser les avancées que l'IA a fait faire en robotique ces deux dernières années. On peut désormais "programmer" un bras à faire une tâche demandant une motricité fine avec juste 15 minutes de démo humaine. Et c'est des bras bon marché. Y a une raison pour laquelle la plupart des boites d'IA investissent dans la robotique en ce moment. OpenAI a montré une démo d'un humanoïde qui analyse son environnement et comprend des ordres parlés.

Y a une différence entre automatiser 10% des boulots et en automatiser 100%. C'est que dans ce dernier cas, le contrat social actuel saute: plus besoin de gagner sa part du gateau avec du labeur humain. Ça, c'est une redéfinition fondamental de la société, et c'est ça qu'espèrent voir la plupart des chercheurs en IA que je connais.

Notre société ne met jamais l’Humain en premier.

Nous sommes notre société. La société est une chose qu'on construit, pas juste une chose qui descend du ciel et qu'on subit.

[-] keepthepace_@jlai.lu 4 points 2 months ago

Et en plus léger, qu’elle est la première fois que tu as entendu parler d’IA ?

Oh ça date! Je lis de la SF depuis que je suis petit, et les robots m'ont toujours fasciné, on m'a rapidement expliqué que le software était le plus gros facteur limitant, du coup l'IA devient le problème à résoudre rapidement. Je pense pas avoir eu plus de 12 ans quand on a commencé à en discuter.

view more: ‹ prev next ›

keepthepace_

joined 1 year ago