Hello!

bon slrpnk.net a l’air d’être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l’anglais. Et je trouve qu’en français, ben y a pas grand chose. C’est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l’alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d’une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J’ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c’est un projet plus ou moins mort, mais c’était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d’autres.

J’ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J’ai réussi à passer au 4/5e l’année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j’utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j’ai réalisé que l’IA a le potentiel de changer le monde pour le mieux, c’est pas par hasard que j’ai essayé de m’orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d’aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu’on reste sur ces thèmes mais AMA anyway!

  • Camus [il/lui]@lemmy.blahaj.zone
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Quelles sont pour toi les meilleurs ressources pour quelqu’un qui n’y connait rien en LLM et voudrait commencer à comprendre comment ça fonctionne?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      En Français j’ai pas grand chose hélas! Mais certains ici auront surement des idées.

      En anglais, pour la théorie, le channel youtube (bleh!) 3blue1brown a fait une série qui a l’air bien sur le deep learning. Commencez par “But what is a neural network?”.

      Pour la pratique, j’avais suivi la première série de cours fastai (des vidéos gratuites) pour me remettre à niveau il y a quelques années quand je suis arrivé à Skymind. Je n’ai pas regardé leurs séries récentes mais je suppose qu’ils ont mis leur contenu à jour. C’était le mix parfait pour moi qui connaissait la théorie mais pas les frameworks rendant la chose plus aisée.

  • Snoopy@mastodon.zaclys.com
    link
    fedilink
    arrow-up
    0
    ·
    edit-2
    7 months ago

    Coucou le fédiverse !

    @keepthepace_ fait un Demande-moi n’importe quoi sur le @forumlibre

    Le thème est les modèles de language et la robotique open hardware. Si ça vous intéresse de découvrir une autre facette que Skynet et la machine à billet,

    je vous invite à lire ce poste où il parle de son parcours :
    https://jlai.lu/post/6554057

    Puis de poser vos questions. Bonne lecture !

    Hésitez pas à partager :3

    #IA #LLM #Skymind #deeplearning #deeplearning4j #Pytorch #Robotique #OpenHardware #Fablab

  • pseudo@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Y a-t-il des possibilités d’implication dans la communauté de l’IA open-source pour une personne sans bagage sur le sujet et ne souhaitant pas s’impliquer dans la technique ?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Alors dans un sens pas vraiment, parce que ça reste un sujet principalement technique mais perso j’aimerais bien trouver un moyen parce que c’est un sujet qui dépasse la technique et qui a une composante politique à laquelle les utilisateurs doivent être associés. Je pense que faire de la traduction ou de la vulgarisation sous un angle qui promeut plus l’open source que les solutions des boites privées, ça ne demande pas un bagage technique super important, mais c’est une mission cruciale aussi!

      Il faut quand même comprendre au moins superficiellement ce que ces modèles font et comment on les utilise, mais ça demande pas une thèse de math.

      En open source on appelle ça un rôle d’évangélisateur: une sorte de power user qui sait faire le lien entre devs et utilisateurs.

      • pseudo@jlai.lu
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        C’est important oui. Par contre, qu’est-ce que je désteste cette manie de balancer des termes religieux dans les noms de métiers ! On ne peut pas appeler ça un lobbyiste tout simplement ?

        • keepthepace_@jlai.luOP
          link
          fedilink
          Français
          arrow-up
          0
          ·
          7 months ago

          C’est une manie américaine :-)

          Ah mais un lobbyiste fait ça pour l’argent, là on parle de quelqu’un qui fait ça pour la bonne cause et par foi! Mais si tu préfères on peut appeler ça de l’agit-prop!

  • pseudo@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Très spécifique mais : les robots aspirateurs sont-ils un exemple d’utilisation de l’IA en robotique ? Je n’ai pas la moindre idée du genre de programme qu’ils utilisent.

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      “IA” est un terme vague qui peut englober presque n’importe quel algorithme, donc un vendeur va tout le temps te dire qu’il y a de l’IA dans son aspirateur dés qu’il y a le moindre capteur.

      Les aspirateurs automatiques vont du truc très simple qui fait de la spirale et tourne à gauche en cas de collision à des choses plus élaborées qui font une carte de leur environnement. Je ne pense pas qu’ils aient besoin de deep learning pour ça, j’imagine qu’il y a déjà suffisamment à faire en piochant juste dans les algos connus de SLAM

  • pseudo@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Quelles les sources de news techniques que tu recommandes ?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Je suis pas bon à ça… /r/machinelearning pour la théorie, /r/locallama pour la pratique, malheureusement les équivalents Lemmy sont déserts et j’ai pas la motivation de les faire vivre. Suivre des chercheurs IAs et robotique est la seule raison pour laquelle je suis encore sur Twitter, j’ai nettoyé ma tweet list de tout le reste. Pas très complet, mais si ça t’intéresse voila les gens que je suis: https://twitter.com/ktp_programming/following

  • pseudo@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Un neurone au sens d’une IA est une représentation assez abstraite d’une programme qui est implémentée sous une forme qui ne rappelle pas vraiment l’architecture du neurone. Y a-t-il un choix possible dans la représentation abstraite de l’IA ? Je veux dire est-ce qu’une IA qui est réseau de neurone peut être plutôt décrite comme un [insérer ici une autre architecture de l’IA (transformer peut-être… Je connais pas bien ces choses-là) ] ?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Les modèles utilisés sont contraints par deux choses: les GPUs sont très optimisés pour les multiplications matricielles, et la fonction produite par ton modèle doit être dérivable vis à vis de tous ses paramètres.

      En fait dans les modèles actuels, on ne pense pas en terme de neurones, mais plutôt de couches. Tu as une couche de neurones suivie d’une couche d’attention, suivie d’une couche de convolution, à laquelle tu ajoutes les entrées, etc.

      On est très influencés par les opérations optimisées pour GPU, donc on va plutôt penser en terme de matrices. Deux couches de N neurones se suivant et où chaque neurone est connectée à tous ceux de la couche de N neurones suivante, c’est un “fully-connected layer” ou un perceptron. Ça s’exprime sous forme d’une matrice de poids: tu mets tes entrées sous forme de vecteur, tu multiplies par la matrice de poids et tu as généralement une “non linéarité”, c’est à dire une fonction de type RELU ajoutée après la multiplication.

      L’autre façon de voir un modèle est de dire que ce que tu veux est une fonction continue prenant un vecteur de dimension N_i en entrée et N_o en sortie et dérivable selon chacun de ses millions de paramètres (typiquement, les paramètres sont les poids des synapses du réseau de neurones).

      On parle vraiment peu de neurones. Les devs proches de l’optimisation parlent en terme de matrices, ceux proches de la théorie mathématique en terme de fonction, et un bon modèle doit prendre les deux points de vue en considération.

      Tu peux tout à fait imaginer un modèle plus proche des neurones biologiques, mais avec ces deux contraintes: fonction continue et dérivable par rapport à chaque paramètre, et si tu veux que ce soit rapide, maximum de calcul parallèle sous forme de matrices (de tenseurs en fait, qui est le petit nom des matrices de dimension supérieure à 2)

      • pseudo@jlai.lu
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        AJA qu’on ne disait pas hyper-matrice.

        AJA tout ce que tu as dit d’autres c’est vachement intéressant. Encore merci.

        • keepthepace_@jlai.luOP
          link
          fedilink
          Français
          arrow-up
          0
          ·
          7 months ago

          Alors à vérifier avec un mathématicien si je ne fais pas un anglicisme. Comme à son habitude sur les sujets mathématiques la wikipédia française est inutilement pédante et alambiquée, et dit que c’est un usage abusif du terme sans dire comment ça devrait s’appeler.

  • ouille@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    edit-2
    7 months ago

    Bonjour et merci pour cet AMA Voici quelques questions que je me pose.

    Y a t il un intérêt à continuer l’apprentissage d’un modèle Mistral 7b par exemple ? Si oui est ce que c’est faisable en local sur une machine qui fait tourner le RN si on parle “d’ajouter” un petit corpus de spécialisation par exemple.

    Quel est l’intérêt pour Mistral de donner son modèle ? D’ailleurs Il me semble qu’ils ont arrêté. Llama est libre aussi. Quel retour de la communauté attendent- ils ?

    Il semblerait que chatgpt soit devenu bon aux échecs. J’ai donc entendu parler de sondes qui semblent montrer que le RN c’est fait une représentation de l’échiquier. Qu’est ce que ces sondes et comment sont elles construites ?

    Concernant les prompts qu’elle serait ton explication au fait que de générer des tokens aléatoire en début de réponse amélioré le résultat ? Dans la même idée pourquoi quand on demande de répéter à l’infini le RN retourne une partie du corpus ?

    Enfin est il facile de retourner un RN ? C’est à dire de donner une réponse et avoir le prompt correspondant ?

    Et merci d’avance !

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Y a t il un intérêt à continuer l’apprentissage d’un modèle Mistral 7b par exemple ?

      Alors il y a plusieurs façons de comprendre cette question, et oui à toutes ses acceptations.

      1. Si tu parle de continuer l’entraînement total du modèle: oui, on sait que la plupart (tous?) les modèles disponibles sont sous-entraînés. Il y a un point où on ne gagne qu’un petit peu en continuant d’entraîner longtemps mais le gain continue à être positif, donc oui. Par contre ça prend beaucoup plus de VRAM que de faire tourner une version du modèle en inférence. Je ne sais plus quel est le multiplicateur mais c’était 16 ou 24x je ne sais plus par rapport à un modèle quantizé.

      2. Si tu parles de le spécialiser, tu veus peut être parler de fine-tuning. Dans ce cas là, c’est tout à fait possible sur une machine même modeste grâce à des optimisations de type LORA (et on a peut être inventé d’autres moyens d’accélérer ça depuis?) qui te permettent de n’entraîner que de petite touches du modèle. Par contre là, attention! J’ai essayé de faire ça en espérant apprendre de nouveaux faits à un modèle, et ça n’a pas marché. Le fine-tuning permet de facilement changer le “style” de sorte d’un domaine. Par exemple si tu veux lui donner une certaine personnalité, lui faire apprendre une autre langue ou lui faire utiliser une API particulière. Par contre ça marche assez mal pour les nouveaux fait et risque d’augmenter ses hallucinations (car tu lui apprends à répondre des choses non présentes dans ses “couches profondes” de connaissances. C’était à l’époque de Llama2, ça a peut être changé depuis je n’ai pas réessayé, mais il y a une raison pour laquelle les gens qui veulent faire apprendre de nouvelles connaissances à un système préfèrent le RAG.

      Quel est l’intérêt pour Mistral de donner son modèle ? D’ailleurs Il me semble qu’ils ont arrêté.

      Dés le début Mistral a joué franc jeu, il faut le leur reconnaître: ils avait prévenu que leurs plus gros modèles seraient fermés. Ils ont donné des modèles très bons, petits en libre pour se faire connaître et ça a marché et valu le coup. Une réputation comme la leur vaut des milliards, ça leur a coûté des millions. C’est une bonne affaire.

      Llama est libre aussi. Quel retour de la communauté attendent- ils ?

      Llama, pour ceux qui ne le savent pas, c’est Meta, donc Facebook derrière. C’est pas de l’angélisme (à part pour Yann Le Cun, leur directeur IA semble vraiment idéologiquement pour l’IA open source, un gros <3 pour lui) et Zuckerberg le disait clairement, posément, cyniquement: “notre gros modèle a coûté ~10 milliards à entraîner [je pense que c’est exagéré mais c’était cher quand même]. dans les 10 prochaines années on va dépenser autour de 100 milliards en IA. Si la communauté open source rend nos modèles 10% plus performants, on s’y retrouve”. C’est imparable. Eux sont utilisateurs, pas vendeurs, et ils préfèrent des bons modèles qui tournent chez eux que de dépendre du bon vouloir d’OpenAI. Et la communauté a déjà probablement fait plus qu’améliorer de 10% leurs perfs donc bon calcul pour Zuck.

      Il semblerait que chatgpt soit devenu bon aux échecs. J’ai donc entendu parler de sondes qui semblent montrer que le RN c’est fait une représentation de l’échiquier. Qu’est ce que ces sondes et comment sont elles construites ?

      Les modèles spécialisés enfoncent ChatGPT aux échecs (pour donner une idée, le Elo d’un débutant aux échecs est de 1000, le champion humain actuel, Magnus Carlsen est à 2800, le meilleur soft est à 3600).

      Mais oui, c’est intéressant parce que ChatGPT a des capacités émergentes en la matière. Ces sondes sont faites par des gens qui ont accès au modèle pendant qu’il tourne et viennent regarder les “neurones” activés dans les différentes couches du modèle. Je ne sais pas comment ils ont fait dans le cas présent mais une façon de faire pourrait être de poser un problème d’échec et de demander à ChatGPT de compéter “la case C2 contient” puis “la case C3 contient”, etc. et regarder quels zones sont activées. Il y a probablement une couche d’attention où “l’état mental” de l’échiquier est contenu.

      Sur ChatGPT, seul OpenAI est capable de faire ça, mais sur des modèles ouverts, toute personne faisant tourner le modèle peut faire une manip du même genre. Ces réseaux ne sont pas totalement des boites noires: on peut aller bidouiller à l’intérieur. On parle de boite noire parce qu’il n’est pas nécessaire de le faire, mais on peut les ouvrir, on a la clef, quand ils ne sont pas propriétaire.

      Enfin est il facile de retourner un RN ? C’est à dire de donner une réponse et avoir le prompt correspondant ?

      Oui! Il s’agit de faire une passe d’apprentissage où on fixe les paramètres du modèle et on “apprend” le prompt. Je ne l’ai jamais fait, la théorie est assez simple, je ne sais pas si c’est difficile en pratique, mais des gens qui explorent la sécurité des modèles utilisent ça. Ils vont par exemple trouver qu’une séquence du genre “%!!%(#@*…{{{32!(D le président de la France est” va faire bugger le modèle et lui faire sortir “Michaël Youn”.

      • flyos@jlai.lu
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        Sur les échecs, apparemment le secret c’était surtout de lui faire compléter un fichier descriptif d’une partie d’échec (y a un espèce de standard j’ai perdu le nom).

        Mr Phi avait fait une vidéo intéressante là-dessus.

        • keepthepace_@jlai.luOP
          link
          fedilink
          Français
          arrow-up
          0
          ·
          7 months ago

          Ça a du sens mais comme ça ma première impression c’est que c’est une mauvaise idée de forcer à générer tout l’échiquier en une prompt. Arrivé à la dernière ligne, tu ne sais pas s’il avait en tête toutes les cases ou s’il se base sur ce qui a été généré pour déduire le reste.

          • flyos@jlai.lu
            link
            fedilink
            Français
            arrow-up
            0
            ·
            7 months ago

            Tu peux lui faire coup par coup, c’est juste que tu le mets mieux en condition avant un prompt d’en-tête de ce type de fichier qu’avec un prompt verbeux type “tu es un grand champion d’échec, on joue une partie, je commence: pion en B2”. C’est ce que j’en ai compris du moins.

            Si tu as pas vu la vidéo de Mr Phi, elle peut t’intéresser, elle est vraiment pas mal. Il parle notamment de ton dernier point avec des expériences qui ont été faites en générant un début de partie au hasard.

            Après, c’est sûr qu’un LLM, c’est pas Deep Blue…

  • pseudo@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Quelle(s) question as-tu espéré ou craint qu’on te pose sans qu’elle ne soit venue ?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      J’ai eu peur qu’on ne me parle que d’environnement (tl;dr: l’impact de ces techs est pas énorme et indirect) j’ai été déçu, mais je m’y attendais, qu’on ne parle pas beaucoup de la société post-travail.

  • Camus [il/lui]@lemmy.blahaj.zone
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Tu parles des modèles open source, quels sont les plus importants pour le moment? Y a-t-il une grande tendance à gérer ces modèles sous licences open source / libres, ou à l’inverse les modèles les plus performants sont-ils la propriété de société privées?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Pour l’instant GPT-4, modèle fermé possédé par OpenAI est considéré comme le meilleur modèle avec la série Claude d’Anthropic (fermés aussi) qui le dépasse sur certaines choses.

      Mais ça sent la fin de règne. Mistral et Meta (pourtant deux boites privées) ont sorti des modèles libres qui vient disputer leur turf.

      En Open source, ça change toutes les semaines. En ce moment, Llama-3 est le modèle libre (certains considèrent sa licence trop restrictive pour être considérée libre, mais perso je considère que ça va) qui a les meilleures performances, y a un mois c’était la série de Mistral. La série des Command R pourrait être les prochains à monter.

      Pour suivre cette course hippique et épique, le meilleur classement reste sûrement l’arène LMSYS où des gens évaluent les modèles en aveugle.

      Il faut garder à l’esprit qu’il y a un aspect qui “handicape” les modèles libres: ils tentent de rester petits. Ils bénéficient de la communauté open source si beaucoup de monde peut les faire tourner. Un modèle à 7 milliards de paramètres (la taille la plus populaire) ou à 70 milliards (la taille considérée “max” pour la commu) va avoir du mal à concurrencer un modèle comme GPT-4 qu’on estime avoir 1700 milliards de paramètres.

      En intelligence par paramètre dans le modèle, l’open source gagne de loi.

  • best_username_ever@sh.itjust.works
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Qu’est-ce qui peut changer le monde avec l’IA ?

    Je ne peux pas m’empêcher de faire le parallèle avec l’informatique qui, bien qu’ayant changé le monde d’une certaine façon, nous fait travailler plus pour gagner moins (et je dis ça en tant que dev…)

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      L’IA a le potentiel de remplacer TOUS les boulots. 100%. Robotique + IA veut dire que nous pouvons repenser la société autrement qu’autour de l’organisation de la production via le labeur humain. La fin du travail humain, je trouve que c’est un gros changement.

      Et c’est probablement pas le plus gros que cette explosion d’intelligence va nous amener. Au niveau de la recherche, de la démocratie et de la culture, ça va avoir des implications très profondes.

      • best_username_ever@sh.itjust.works
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        Comme l’ère industrielle nous promettait qu’il n’y aurais plus de travail manuel, l’informatique plus de travail intellectuel, et qu’avec internet on serait tous intelligents et curieux.

        Qu’est-ce qui est vraiment différent avec une IA qui sera contrôlée par des entreprises ou gouvernement, et des milliardaires qui refuseront de donner tout leur argent ?

        • keepthepace_@jlai.luOP
          link
          fedilink
          Français
          arrow-up
          0
          ·
          7 months ago

          Le travail physique, où la force est un pré-requis, a effectivement disparu. La raison pour laquelle beaucoup de travail manuel existe encore alors qu’on a des machines plus rapides, plus fiables et plus précise que des humains est l’insuffisance du software. Cette insuffisance est en train de disparaître.

          avec internet on serait tous intelligents et curieux.

          Avec internet on a tous à disposition un savoir encyclopédique. J’ai jamais vu de promesse sur la curiosité, mais on a en effet, de fait, accès à une quantité d’information phénoménale grâce à cet outil.

          une IA qui sera contrôlée par des entreprises ou gouvernement

          Et c’est cette vision que je voudrais combattre le plus. Les gouvernements, déjà, ils sont à la ramasse, aucun n’a un programme d’IA compétent. Les entreprises, elles ont du mal à rester au niveau des modèles ouverts, libres, que chacun peut faire tourner comme il veut.

          Personne ne veut qu’une entreprise ait un monopole sur cette tech, pas même les autres entreprises de high-tech, c’est pour ça qu’elles collaborent à des projets open source et à des modèles ouverts. C’est pour ça que plein de chercheurs quand ils se font recruter par les grands groupes insistent pour pouvoir continuer à publier.

          On peut faire tourner un LLM décent sur un PC avec une bonne carte graphique. Tu as raison de ne pas vouloir d’un futur où ce sont des entreprises riches qui controlent cette tech, mais on a de la chance d’avoir évité cette timeline.

          Tu peux maintenant utiliser cette tech, soit localement sur une bonne machine, soit en louant des serveurs, soit en utilisant la charité générale de la Horde IA faire tourner les modèles que tu veux sur les tâches que tu veux sans demander leur permission à personne.

          • best_username_ever@sh.itjust.works
            link
            fedilink
            Français
            arrow-up
            0
            ·
            7 months ago

            Le travail physique, où la force est un pré-requis, a effectivement disparu

            Les ouvriers qui se détruisent le dos s’en souviendront. C’est possible mais si le patron n’achète pas de machine, ça reste un pré-requis.

            l’insuffisance du software

            Curieux de savoir ce qui te semble manquer parce que tu en parles beaucoup.

            J’ai jamais vu de promesse sur la curiosité

            On a eu plein de propagande sur la révolution d’internet pendant au moins 10 ans. Ça n’est jamais arrivé car approprié par les grandes entreprises.

            on a de la chance d’avoir évité cette timeline

            L’IA moderne façon ChatGPT vient a peine de se dévoiler il y a un an ou deux, la plupart des gens savent à peine que ça existe. Je pense que, comme internet, il faudra attendre une bonne dizaine d’années avant de voir comment les entreprises vont se l’approprier.

            Finalement, pour que l’IA soit utile et ne nous rende pas tous chômeurs, il faudrait qu’on vote en masse pour un président communiste technophile, et je doute que ça arrive.

            • keepthepace_@jlai.luOP
              link
              fedilink
              Français
              arrow-up
              0
              ·
              7 months ago

              Ce que je veux dire par travail physique c’est un travail où ce qu’on embauche, c’est la force, où ta capacité à porter 80 kilos au lieu de 50 te rend 60% plus précieux. Il y a peu de boulots où la pure force physique est demandée.

              Et tu le dis toi même: le patron peut acheter la machine. Des machines pour forcer à notre place, on en a partout.

              l’insuffisance du software

              Curieux de savoir ce qui te semble manquer parce que tu en parles beaucoup.

              Maintenant? Plus rien. Mais ça ne fait que un an ou deux que le contrôle de bipèdes ou même de quadrupèdes dans un environnement inconnu est possible et que des robots savent utiliser intelligemment leurs membres.

              On a eu plein de propagande sur la révolution d’internet pendant au moins 10 ans. Ça n’est jamais arrivé car approprié par les grandes entreprises.

              Wikipedia, le projet le plus important d’internet, n’est pas possédé par une entreprise. Je partage ton cynisme sur certaines choses, mais l’amélioration de la communication à tous les niveaux que promettait internet est effectivement venue. J’ai payé 10 francs/minutes pour des appels internationaux, maintenant je discute de tout et de rien avec des amis au Japon ou au Québec sans dépenser un sou. Ça a donné une force au mouvement open source d’ailleurs. Et je travaille maintenant avec des Américains, Grecs et Canadiens à distance, sans bouger de chez moi. Vous imaginez pas à quel point c’était de la SF juste même y a 15 ans quand j’ai commencé.

              Tout ce que les entreprises “se sont approprié” c’est par pure paresse et commodité qu’on les laisse faire. De Peer Tube à NextCloud, de Matrix à Lemmy, on peut faire sans avec une aisance que tous les écrivains de cyperpunk pensaient complètement utopiste.

              Je pense que, comme internet, il faudra attendre une bonne dizaine d’années avant de voir comment les entreprises vont se l’approprier.

              Ce qui m’intéresse surtout c’est comment nous, on va se l’approprier. Les outils sont là, gratuits, avec une communauté super active pour les améliorer et les utiliser. Le seul obstacle à cette appropriation de l’outil ce n’est pas la rapacité, la corruption, le lobbyisme, mais bien le peu d’information et l’ignorance de ces solutions, ça c’est facile à combattre, mais surtout le défaitisme et la croyance que non, vraiment, l’open-source c’est trop beau pour être vrai, ça ne droit pas être possible, et ce préjugé là, il est dur à combattre.

              Finalement, pour que l’IA soit utile et ne nous rende pas tous chômeurs, il faudrait qu’on vote en masse pour un président communiste technophile, et je doute que ça arrive.

              Ah oui, un·e anarcho-communiste technophile aurait mon vote tout de suite. Mais la gauche molle peut faire l’affaire: Hamon avait le revenu universel dans son programme, un candidat démocrate aux US aussi. Et si le revenu universel est difficile à vendre, l’abaissement de l’âge de la retraite est une façon de se rapprocher simplement de ce but.

  • keepthepace@slrpnk.net
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    Et forcément dés que je lance ça avec mon compte de secours, slrpnk.net remarche! Bon, je continue avec mon compte jlai.lu mais si vous passez sur ce fil après la fin du AMA mieux vaut me pinger en répondant à ce message.

    • inlandempire@jlai.luM
      link
      fedilink
      Français
      arrow-up
      0
      ·
      edit-2
      7 months ago

      C’est comme quand un programme bugge et qu’il remarche dès que t’ouvres le gestionnaire de tâches pour le tuer 😏

  • Ziggurat@sh.itjust.works
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    C’est quoi pour toi le moment de Bascule ?

    Quand j’étais thésard en physique, et ça commence à dater, on avait ce vieux professeur, qui aimait troller les gens qui utilisaient des likelihood en leurs demandant pourquoi pas un réseau de neurone, c’est dire que pas mal de concept ne sont pas neufs. Bref de l’apprentissage automatique que ce soit pour taggé des particules ou des supernova ça se faisait déjà de mon temps.

    Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d’image il y a genre 10 ans, et pourtant, ça avait pas pris.

    Et là depuis 18 mois, on voit de l’AI partout, à toute les sauces, pour le meilleur et le pire. Qu’est-ce qui a crée cette bascule/rupture

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Oh oui, les réseaux de neurone ça date au moins des années 50 et certains outils mathématiques sont encore plus anciens! Dans les années 90-2000 on traversait le deuxième hiver de l’IA (tiens donc encore une page qui n’a pas été traduite en français!) et seuls quelques fervents zélotes tels que Hinton ou Le Cun prêchaient encore le perceptron multi-couches qui est un vieil algo! C’est plus leur “foi” que leurs innovations qui ont amené la vague actuelle.

      Il y a un point de bascule très net en 2012 quand AlexNet emporte la compétition ImageNet, une compétition de classification d’images (“Identifie l’objet dans l’image parmi 1000 catégories: banane, chien, humain, voiture, etc…”). L’architecture n’était pas nouvelle, mais de petites améliorations ont été amenées et surtout, elle a été porté en CUDA et peut donc tourner très vite sur des GPUs récents.

      D’un coté les algos sont devenus un peu plus efficaces, de l’autre le hardware est devenu plus performant. En 2012 ça s’est croisé et il est devenu plus efficace d’entraîner des réseaux “boite noire” que des algos spécialisés.

      Alors c’est peut être plus tôt que tu ne le penses, mais c’est la bascule du point de vue des devs, et à partir de ce moment là on a commencé à mettre du réseau de neurones partout.

      Pour le grand public, la découverte a été via la génération de texte. Il y a 2 points je pense: d’abord GPT-2, premier à sortir des textes étonnamment cohérents. Puis ChatGPT, qui a permis à tout le monde de réaliser que c’était réel, utile, et que certaines composantes de l’intelligence étaient là.

      Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d’image il y a genre 10 ans, et pourtant, ça avait pas pris.

      Deep dream a été une étape vers les générateurs d’image qu’on a aujourd’hui. Deep dream aujourd’hui ressemble presque à un hack d’un classifieur d’images, mais ça n’a pas pris parce que la qualité était très mauvaise. Elle a doucement augmenté petit à petit. Il y a eu deux sauts:

      • Les premiers GANs qui ont tout d’un coup produit des images d’un réalisme bluffant (qui aujourd’hui nous blase…)
      • Les modèles de diffusion, qui sont ce que tout le monde utilise aujourd’hui. Je crois, mais c’est moins mon domaine, que leur intérêt est de pouvoir se connecter à des modèles de langage et de pouvoir exprimer/comprendre un panel beaucoup plus large d’objets.
      • Ziggurat@sh.itjust.works
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        Intéressant le point historique sur la période 2000-2012. Et ca explique même pourquoi c’était un quasi sexagénaire qui posait la question des Réseau de neurones

  • CommationCerebrole@jlai.lu
    link
    fedilink
    Français
    arrow-up
    0
    ·
    7 months ago

    J’ai déjà donné quelques avis en anglais pour éviter le “doomism” dans des romans de SF

    T’en écris toi même ? Je suis curieux de ce que peuvent donner les LLM en littérature mais j’ai l’impression qu’il faut des prompts bien pensés et écrits pour avoir de bons résultats. Moi en jouant un petit peu j’ai pas eu des trucs très convaincants mais je suis passé sur un stream de MonsieurPhi où il donnait des prompts très longues avec des exemples de texte pour générer des microfictions et ça marchait plutôt bien. Bref, qu’est ce que tu penses des LLMs pour une utilisation “artistique”, et est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Je m’y suis essayé. J’aime bien écrire, mais assez rapidement, écrire de la SF me frustre: penser aux possibilités de la techno me donne envie de les réaliser, pas de fantasmer dessus!

      Sur les LLMs et la littérature, j’ai été surpris d’entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C’est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu’on lit pour échanger avec un auteur. Alors c’est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l’intention humaine derrière un texte fait en effet partie de l’expérience.

      Le problème que j’ai eu quand j’ai essayé des trucs (avec GPT3.5 je pense à l’époque) c’est que les modèles ont du mal à rester cohérents. Tu explores une cave et tu te retrouves sur un balcon, des objets apparaissent ou disparaissent, etc.

      C’est pas insurmontable, et perso j’aimerais bien faire des expériences de jeu narratif (où un moteur de jeu classique garantirait la permanence des objets et la cohérence générale) mais je ne vois pas l’intérêt de générer des livres avec des LLMs. Les livres, c’est un medium entre humains. Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

      est-ce que t’as des exemples de résultats qui t’ont impressionné dans ce domaine ?

      J’ai un pote qui bosse dans le domaine et avec qui on partage un gout pour le heavy metal. À peu près au moment où GPT-3 sortait, il m’a envoyé des paroles de chanson générées, dont une en particulier qui m’a bluffée. “Beacon of the Valkyries”, qui décrit l’ambiance d’un lieu avant une grande bataille épique. Un thème qui aurait pu être une chanson de Manowar ou Sabaton. Ce qui m’a impressionné c’est que le titre était très bien choisi: il faut comprendre que les Valkyries accompagnent les morts au combat, qu’une bataille va en créer, qu’elles volent, qu’une balise peut donc les guider, que le titre est évocateur.

      Depuis beaucoup de gens ont fait des expériences similaires mais à l’époque j’ai cherché un moment sur internet pour vérifier si cette expression n’existait pas déjà quelque part tellement je ne pouvais y croire. Ça m’a convaincu que même une “bête” prédiction de texte pouvait faire émerger une forme de compréhension des concepts.

      • CommationCerebrole@jlai.lu
        link
        fedilink
        Français
        arrow-up
        0
        ·
        7 months ago

        Sur les LLMs et la littérature, j’ai été surpris d’entendre Astier dire un truc qui a mis le doigt sur ce qui me gêne. C’est que la question est pas de savoir si les LLMs peuvent sortir de la bonne littérature, mais de réaliser qu’on lit pour échanger avec un auteur. Alors c’est peut être pas vrai pour tous les lecteurs et tous les livres, mais percevoir l’intention humaine derrière un texte fait en effet partie de l’expérience

        Ouais j’ai vu passé cet extrait aussi, mais je suis pas convaincu par l’argument. Ou alors j’ai du mal à comprendre ce qu’il entend par “intention humaine”, et pourquoi une machine en serait incapable. Certains parlent d’âme aussi, mais sans pouvoir le définir clairement, comme si il y avait quelque chose de magique que seul l’être humain peut transmettre à ses créations. J’ai l’impression que c’est un argument qu’on avance parce que l’orgueil en prendrait un trop gros coup si on admettait le contraire, mais depuis la révolution scientifique ce serait pas la première leçon d’humilité qu’on se prendrait dans la face. Et puis de toute façon dans le cas des LLMs il y a toujours un être humain derrière, et donc probablement une “intention”.

        Avec un LLM, je trouve plus intéressant de faire un bot pour discuter avec un personnage ou interagir profondément avec un univers.

        Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

        • keepthepace_@jlai.luOP
          link
          fedilink
          Français
          arrow-up
          0
          ·
          7 months ago

          Alors attention, l’argument c’est pas qu’une machine ne peut pas le faire! Je m’attendais de façon un peu blasée à ça quand la question est arrivée et j’ai été surpris par la réponse. Il dit pas qu’une machine ne peut pas le faire, mais que c’est inintéressant si elle le fait, car il lui manque l’intention, le vécu. Quand j’ai lu le Problème à Trois Corps, que j’ai pas trouvé fantastique d’un point vue SF, les passages qui m’ont le plus intéressé étaient ceux qui parlaient des déboires des protagonistes sous Mao, sachant que l’auteur est chinois. Les mêmes passages écrits par un Américain m’auraient moins intéressé. Savoir que La Vie des Autres a été réalisé par quelqu’un qui n’a jamais habité à Berlin Est a rendu le film plus mauvais pour moi.

          Un auteur pourrait faire passer une intentionnalité évocatrice ou un style via un LLM, mais je trouve qu’à ce moment le medium est moins intéressant et que ça brouille le canal entre le lecteur et l’auteur.

          Tout à fait ! (d’ailleurs pour moi ça fait aussi partie de la littérature). Une fiction interactive avec un LLM ce serait ouf. Est ce que tu connais des articles/blogs/communautés qui font des tentatives dans ce sens ou est ce que tu t’y essayes toi même ?

          Ça fait longtemps que ça se fait! Depuis que quelqu’un a fine-tune je sais plus quel modèle sur Harry Potter et fait générer la suite d’un dialogue imaginaire avec les persos, il y a énormément de gens qui s’amusent à ça (80% d’entre eux pour du roleplay érotique mais bon…). Je crois que koboldAI est ce qu’ils utilisent le plus et ils ont des modèles spécialisés pour ça.

    • keepthepace_@jlai.luOP
      link
      fedilink
      Français
      arrow-up
      0
      ·
      7 months ago

      Alors…

      1. Que ces modèles sont contrôlés par des grosses boites et que c’est inévitable. De tous les scénarios possibles, on est dans une des meilleurs timelines vis à vis de ça et je pense qu’on le doit beaucoup à la communauté open source: même quand les modèles sont fermés, les architectures sont connues, ouvertes, libres de droit, les implémentations standard le sont sur des frameworks libres, tout ça était très, très loin d’être acquis. Et les modèles ouverts sont extrêmement compétitifs aujourd’hui. C’est simple, malgré les milliards injectés dans le domaine, y a que deux boites et demi qui sont encore dans la course: OpenAI, Anthropic et à moitié Google.

      2. Qu’on a besoin de la puissance de mille soleils pour faire tourner ces modèles. Beaucoup de gens ont l’air de confondre l’énergie utilisée pour entraîner ces modèles, qui est à dépenser une fois, et l’énergie utilisée pour les faire tourner, qui est équivalente à faire tourner un bon jeu 3D sur un PC moyenne gamme (ça fait tourner le GPU). Et de nombreux fabricants sont en train de sortir des puces spécialisées pour améliorer grandement les rendements. L’aspect énergétique est vraiment négligeable.

      3. Ce point là est moins dommageable mais trouble souvent les conversations: Que ce qui était vrai l’année dernière l’est encore aujourd’hui. Chaque semaine amène son lot d’évolutions parfois fondamentales. Je bosse depuis 20 ans dans la tech, j’ai suivi pendant mes étude le dotcom burst et pourtant j’ai jamais vu une tech évoluer si vite.