Passer au playerPasser au contenu principal
  • il y a 3 mois
Mardi 21 octobre 2025, retrouvez Guillaume Avrin (Directeur du développement et des partenariats, Arlequin AI), Jean-Baptiste Manenti (Fondateur, viam inveniam) et Pierre-Carl Langlais (CTO, Pleias) dans SMART TECH, une émission présentée par Delphine Sabattier.

Catégorie

🗞
News
Transcription
00:00Bonjour à tous, bienvenue dans Smartech, c'est le moment des interviews de l'IA.
00:13Aujourd'hui, notre grand rendez-vous de 28 minutes où on parle avec les acteurs de l'intelligence artificielle, de ces nouveaux progrès.
00:19Je vous présente les invités et les sujets juste après.
00:22C'est parti pour les interviews de l'IA.
00:29C'est notre grand nouveau rendez-vous de Smartech dans cette nouvelle saison.
00:33On en parle avec ceux qui font l'actu véritablement dans ce domaine.
00:36Aujourd'hui, autour de la table, Jean-Baptiste Manenti, un ancien du Conseil national du numérique.
00:42Je vous avais d'ailleurs interviewé sur ces enjeux de médiation numérique.
00:46Vous êtes toujours très impliqués sur ce sujet de l'inclusion algorithmique.
00:49On va expliquer ce que c'est d'ailleurs cette inclusion algorithmique.
00:52Vous allez nous parler plus particulièrement d'une note que vous avez publiée avec d'autres experts sur les effets de l'IA.
00:59J'ai résumé ça, mais pour moi, c'est le lien social qui est perturbé aujourd'hui avec l'IA et puis aussi toutes ces politiques sociales et de solidarité.
01:09À côté de vous, Pierre-Carles Langlais, bonjour.
01:11Bonjour.
01:11Vous êtes chercheur en IA, militant de longue date pour la science ouverte.
01:16Vous nous ferez découvrir, vous, le projet PLEIAS que vous avez cofondé.
01:21Pour le dire vite, c'est un laboratoire français spécialisé dans l'entraînement des modèles de raisonnement à partir d'un ensemble de données multilingues absolument unique par son ampleur, mais aussi par son ouverture.
01:34Vous allez nous expliquer ça également juste après Guillaume Avrin, notre autre invité.
01:38Bonjour Guillaume.
01:39Bonjour.
01:39On va commencer ensemble. Ancien coordonnateur national pour l'intelligence artificielle de la France.
01:45Vous avez piloté cette stratégie de la France dans le domaine de l'IA, dans le cadre de France 2030, qui a mobilisé 1,5 milliard d'euros, quand même, il faut le rappeler,
01:56d'investissements publics pour accélérer ce développement de l'intelligence artificielle en France et en Europe.
02:00Aujourd'hui, vous êtes le directeur du développement et des partenariats stratégiques chez Arlequin AI, startup d'IA française, qui a été fondée très récemment, 2024,
02:10et qui développe une plateforme d'intelligence informationnelle, attention à ne pas confondre, qui est donc capable de cartographier, d'analyser, de comprendre tous ces flux d'informations qui nous entourent à une très grande échelle,
02:22au service d'administration publique, mais aussi de grandes organisations privées.
02:26Dites-moi, Guillaume, c'est de la cette intelligence que fait Arlequin AI ?
02:29Oui, je pense que le sujet, c'est aujourd'hui, on parle énormément des risques associés au modèle d'IA les plus avancés, ce qu'on appelle les risques NRBC,
02:41de construction automatique de virus informatique ou biologique avec l'IA, mais le constat initial, et c'est un constat que je sais déjà quand j'étais à la coordination nationale pour l'IA,
02:51c'est qu'en fait, il y a des risques qui sont déjà beaucoup plus immédiats, beaucoup plus présents, qui sont des risques associés à la désinformation,
02:58et la désinformation qui est accélérée par l'intelligence artificielle.
03:02Et quand on fait le lien entre, d'une part, cette réalité technologique et du risque associé à la désinformation par l'IA ou augmentée par l'IA,
03:11et d'autre part, je ne sais pas si vous avez lu le livre de Giuliano Dampoli sur les ingénieurs du chaos,
03:17il y a aussi ce constat qu'en fait, on a des ingénieurs du chaos qui utilisent ces nouvelles technologies pour finalement déstabiliser les démocraties,
03:24on fait assez rapidement le constat qu'il faut absolument qu'on s'équipe d'IA au service de la contre-influence,
03:30au service du contre-terrorisme, au service de la protection des intérêts nationaux et européens,
03:35et c'est vraiment l'ADN d'Arlequin, de ses cofondateurs, et pour moi c'était la continuité de la mission par rapport à la coordination nationale pour l'IA.
03:43Aujourd'hui, on a au niveau justement public, au niveau de l'État, on a Viginum qui travaille au repérage de certaines pratiques,
03:52de campagnes en fait, de désinformation.
03:54Du côté des organisations, il y a de plus en plus d'acteurs aussi qui travaillent sur cette straight intelligence,
03:59mais pour vous, les enjeux sont tellement importants qu'on n'a pas encore mesuré la criticité au niveau des organisations pour s'emparer des bons outils ?
04:07Oui, je pense que Viginum s'intéresse énormément dans ses missions à l'identification de qui,
04:14qui c'est qui pousse des narratifs qui impactent négativement les intérêts nationaux,
04:21et Arlequin AI avec ses technologies va plutôt dans l'analyse sémantique,
04:26c'est-à-dire quels sont ces narratifs, d'où viennent ces narratifs,
04:30est-ce que ces narratifs qui sont finalement poussés contre les intérêts de nos entreprises ou de nos administrations,
04:36est-ce que c'est les mêmes au Canada et au Mozambique,
04:39est-ce qu'il y a un croisement possible entre ces narratifs,
04:42et du coup finalement est-ce que ce n'est pas des groupes de personnes qui travaillent entre elles
04:44pour essayer d'attaquer ces relais, pour attaquer les intérêts nationaux.
04:49Donc on a énormément d'échanges avec Viginum.
04:52Donc Viginum s'intéresse au qui, vous vous intéressez au quoi ?
04:56Au quoi, exactement, et finalement la combinaison des deux,
04:58ça permet d'avoir une bonne analyse de l'espace informationnel, de pouvoir naviguer efficacement.
05:03Viginum est très orienté, bien sûr, public,
05:06on travaille aussi pour des acteurs privés,
05:09on a un certain nombre de partenariats avec des grands groupes du CAC 40,
05:12avec aussi des fonds d'investissement, y compris en dehors de la France, au niveau européen.
05:17Donc finalement, les sujets de la maîtrise du risque associé à l'influence négative sur les réseaux sociaux,
05:25la gestion de crise, l'anticipation des ruptures de chaînes logistiques,
05:28tout ça, c'est des sujets, et bien sûr l'intelligence économique,
05:30c'est des sujets pour lesquels on a besoin d'analyser des données en très grande dimension
05:33qui sont disponibles sur les réseaux sociaux, sur le web, dans la presse.
05:37Et finalement, l'outil permet de récupérer ces données,
05:41et je sais qu'il ne faut pas que je rentre trop dans le détail technique et technologique.
05:45Mais quand même, ça m'intéresse, parce que j'imagine que l'IA est un outil utilisé pour brasser toutes ces données,
05:53mais quoi spécifiquement comme technologie d'IA ?
05:56En fait, on a le pipeline Arlequin, c'est d'abord une IA non supervisée,
06:00qui va structurer cette donnée en très grande dimension,
06:03pour finalement faire un scan informationnel,
06:05une représentation de l'information telle qu'elle existe naturellement dans cet espace.
06:09Ensuite, il y a un savoir-faire unique d'Arlequin, scientifique, sur cette partie IA non supervisée.
06:15Ensuite, il y a plutôt un savoir-faire d'ingénierie,
06:16qui est comment on connecte les sorties de cet IA non supervisée avec des LLM,
06:21pour finalement traduire en langage naturel, pour l'analyste humain, pour le décideur humain,
06:25cette information, pour lui permettre de naviguer efficacement dans ces différentes données informationnelles.
06:31Et ensuite, on a une IA agentique qui va aller envoyer la bonne information à la bonne personne au bon moment,
06:37de manière à accélérer les chaînes de décision.
06:38C'est vraiment un pipeline complet sur cette...
06:42Il y a des responsables aujourd'hui de ces menaces au sein des grandes organisations ?
06:47Oui.
06:47Vous dites à la bonne personne, mais quelle est cette personne ?
06:49Nos contacts dans les entités que j'évoquais tout à l'heure,
06:55ça va être typiquement la direction de la sécurité,
06:57la direction du marketing pour les enjeux d'intelligence économique,
07:00la compétitive intelligence, la direction de la stratégie,
07:03parce qu'en fait, finalement, quand on est capable d'analyser des données en très grande dimension,
07:06on est aussi capable d'aller faire des recommandations extrêmement efficaces
07:09sur les orientations stratégiques à prendre pour le développement de l'activité,
07:14les directions de la communication, bien sûr, parce qu'il faut protéger l'image de marque.
07:18Je pense à l'industrie du luxe.
07:20La marque, l'image de la marque, ça représente plus de 60% de la valeur boursière de l'entreprise.
07:26Donc, dès que la marque est attaquée par des narratifs hostiles,
07:29ça fait chuter en bourse ces valeurs, et donc, il faut absolument les protéger et les équiper.
07:35Et ça reprend la forme d'un dashboard, d'un tableau de bord ?
07:38Il y a plusieurs parties.
07:39Il y a d'abord, effectivement, la partie en sortie de l'IA non supervisée.
07:42Donc, c'est, en gros, une représentation de l'espace informationnel
07:45sous forme de poupées russes, de dendrogrammes, de dashboards,
07:49où on a un certain nombre de visuels disponibles.
07:51Là, c'est pour que l'analyse puisse, très efficacement, de manière visuelle,
07:55avoir une idée de comment est organisé l'espace informationnel sur le sujet qui l'intéresse.
07:59Ensuite, il y a la partie langage naturel, qui est générée par le LLM,
08:03qui est sous forme de rapport.
08:04Il y a aussi un exécutif summary de deux pages,
08:07de manière à aller très, très vite dans l'accès à l'information.
08:09Il y a ce qu'on appelle Ascar Lequin.
08:10C'est une fonctionnalité plutôt de chatbot, mais qui va faire du RAG,
08:14pardon pour les expressions.
08:15Donc, le RAG, ça va être une technologie qui permet d'aller récupérer
08:19dans une base de connaissances l'information qui nous intéresse.
08:21En l'occurrence, la base de connaissances de l'organisation.
08:24Voilà, pour s'ouvrir uniquement d'informations validées.
08:27Tout à fait.
08:27Et la force, c'est d'être capable de croiser les informations internes de l'entreprise
08:30avec, justement, les informations disponibles en ligne.
08:34Et ce qui est très important, c'est que le RAG, on ne le fait pas sur la donnée brute,
08:38ce ne serait pas très intéressant, c'est le RAG classique.
08:41On le fait plutôt sur la sortie de l'IA non-supervisé,
08:44c'est-à-dire une fois que les croisements, une fois que l'analyse est faite.
08:48Et donc là, on est hyper pertinent, parce qu'on est capable de dire,
08:50de poser des questions du type, dis-moi, si les narratifs qui sont poussés par Trump
08:55sur l'AGI, par exemple, l'IA qui aurait un niveau d'intelligence
09:00qui serait égal à celui de l'être humain, finalement, c'est aligné
09:02avec les narratifs qui sont poussés par OpenAI en Europe.
09:08Et ce type de croisement d'informations, elle n'existe pas dans la donnée brute.
09:12Elle ne peut être obtenue que par le croisement de ces différentes bases de données,
09:15et donc en sortie de l'IA non-supervisé.
09:17Et peut-être un peu, pour donner une image de ce qu'on fait,
09:22sans vouloir être trop long, c'est que l'IA non-supervisé,
09:25c'est un peu la différence entre entendre et écouter.
09:28C'est-à-dire, on ne se contente pas d'entendre, on écoute ce qui est dit,
09:31on le comprend, et on arrive à en avoir une représentation pertinente.
09:36Et ensuite, la partie LLM, si on met justement de la donnée non comprise en entrée,
09:43en sortie, on a du bruit. Et la différence, c'est que si on a l'IA non-supervisé
09:47qui est plugé au LLM, au lieu d'avoir du bruit, on a du sens.
09:50Et c'est un peu ça, la philosophie. C'est écouter et générer du sens
09:53à partir de cet espace informationnel.
09:55Vous avez des questions ? Vous découvrez le projet ?
09:58Absolument. Je pense que ça entre en résonance avec beaucoup de choses
10:02qui se font à l'échelle territoriale sur le besoin justement de saisir
10:06ces enjeux informationnels, que ce soit au sein des entreprises,
10:08des collectivités ou du grand public.
10:10Oui, elles ont besoin, mais est-ce qu'elles ont conscience aujourd'hui
10:13que ça fait partie des menaces, en fait ?
10:15Cette menace informationnelle, je ne sais pas si elle est vraiment
10:19très bien prise en compte. Moi, je participais à un événement
10:22de la Villa Numéris, justement, sur ce sujet, en sensibilisant
10:27le secteur privé et donc les collectivités, en tout cas des organisations
10:32qui, a priori, ne se sentent pas forcément directement concernées
10:35par la menace informationnelle et qui, pourtant, le sont indirectement
10:39avec des dégâts qui peuvent être très importants. Je ne sais pas,
10:41les collectivités, ça fait partie des contacts que vous avez ?
10:44Eh bien, on a bien sûr des contacts, mais pas encore de clients,
10:48il me semble, à l'échelle régionale ou locale.
10:52Par contre, le gouvernement, c'est très clair.
10:55On a déjà comme client le gouvernement du Royaume-Uni,
10:58bien sûr le gouvernement français avec deux ministères,
11:01et également on est en discussion très avancée avec l'Autriche,
11:04la Roumanie en particulier. Donc, on voit qu'au niveau gouvernement,
11:08indépendamment, justement, des frontières ou des compétitions
11:10qui pourraient exister entre les acteurs de l'IA,
11:12le sujet de la désinformation, de la contre-influence est tellement important
11:16qu'en fait, ça dépasse les frontières des différents États membres de l'UE
11:20et on arrive à bien collaborer ensemble.
11:23Et dans les ministères français, oui, ces ministères des Affaires étrangères,
11:26par exemple ?
11:27Eh bien, c'est ça qui est extraordinaire. Je me rappelle,
11:29quand j'étais à la Coordination nationale pour l'IA, qu'on disait,
11:32oui, les administrations publiques ne vont pas assez vite
11:35dans l'intégration, dans l'expérimentation des technologies
11:38d'intelligence artificielle. Maintenant, je suis passé de l'autre côté
11:40de la barrière. Et c'est incroyable la rapidité
11:44et la compréhension technologique du ministère des Affaires étrangères
11:47et du ministère de l'Intérieur en particulier sur ces sujets.
11:50Ils sont exactement dans la démarche dont on a besoin pour innover.
11:55C'est-à-dire qu'on va discuter, on va exprimer des besoins,
11:58on va tester des technologies innovantes sur des cas d'usage
12:02et ça va hyper rapidement.
12:04Donc, les deux que j'ai mentionnés, c'est bien sûr
12:05ceux avec lesquels on travaille déjà.
12:07Mais en tout cas, c'est impressionnant et c'est super.
12:10Bon, bonne nouvelle.
12:11Jean-Baptiste Mananti, fondateur de Viam Iveniam,
12:15qui est un cabinet de conseil en stratégie territoriale,
12:17spécialiste de ces enjeux territoriaux du numérique.
12:20Vous publiez avec Aurélie Jean et l'Institut Terram,
12:23l'étude IA, inclusion algorithmique, un enjeu de cohésion sociale,
12:27économique et territoriale.
12:30Alors, juste un mot sur l'Institut Terram,
12:31c'est un groupe de réflexion multidisciplinaire
12:35qui est dédié à l'étude des territoires.
12:36Je voulais avoir une petite explication sur inclusion numérique.
12:40Qu'est-ce que ça veut dire ?
12:40Inclusion algorithmique, vous voulez dire ?
12:42Pardon, parce que numérique, on en a déjà parlé, j'ai bien compris.
12:45Algorithmique.
12:46Alors, cette notion d'algorithmique,
12:48elle vise à déjà s'inscrire dans le prolongement
12:51de l'inclusion numérique, donc il n'y a pas vraiment de confusion,
12:54mais elle vise à essayer de, on va dire,
12:59comprendre un ensemble de dynamiques et de politiques
13:01qui pourront venir permettre à chacun un usage éclairé
13:04et capacitant, on va dire, des technologies algorithmiques
13:07et de l'intelligence artificielle.
13:11Donc, on le structure autour de quatre dimensions.
13:12Donc, capacitant, ça veut dire comprendre comment ça marche
13:14pour pouvoir s'en servir ?
13:16C'est ça.
13:16L'idée, c'est en gros de réfléchir,
13:18en l'occurrence dans le cadre de cette étude à l'échelle territoriale,
13:21comment est-ce qu'on va pouvoir venir mettre l'intelligence artificielle
13:24au service de son territoire, de ses habitants, de son quotidien,
13:28plutôt que d'avoir un territoire et des habitants
13:29qui sont au service de l'intelligence artificielle ?
13:31Parce qu'il y a ce risque.
13:32Parce qu'il y a ce risque.
13:33Comment il se manifeste ?
13:34Vous avez des exemples en tête ?
13:36Oui, absolument.
13:37En fait, le développement des systèmes d'intelligence artificielle
13:41fait naître, renforce le risque d'une France à deux vitesses
13:45quand on parle de technologie.
13:47Pourquoi ? Parce que, vous le savez,
13:52l'intelligence artificielle s'entraîne, fonctionne sur de grands ensembles de données.
13:56Et quand ces grands ensembles de données sont, on va dire,
14:00essentiellement centraux, urbains,
14:03on va avoir un risque de marginalisation de tous ces espaces,
14:07ruraux, périphériques, ultramarins, périurbains,
14:10qui ne rentrent pas dans cette norme et dans cette centralité.
14:13C'est un biais, en fait, inhérent ?
14:15C'est exactement ça.
14:17C'est des biais d'entraînement, c'est des biais algorithmiques
14:19qui vont avoir des conséquences très concrètes
14:22en termes, par exemple, de maintien des stéréotypes à l'échelle territoriale.
14:26Pour vous donner un exemple,
14:27si vous allez sur un des grands modèles disponibles pour le public aujourd'hui
14:30et que vous lui demandez de créer une photo d'une femme bretonne,
14:33il y a très forte chance qu'il vous sorte une photo d'une personne âgée
14:35avec un costume traditionnel, la bigoudenne, etc.
14:38Ça, c'est une image stéréotypée.
14:39Donc, ça va être renforcé par tout ça.
14:41Et puis, il y a aussi un autre impact très concret
14:44qui est, je le disais, cette espèce d'invisibilisation
14:47de tout ce qui n'est pas au centre,
14:50de tout ce qui a la marge au sens premier
14:53et donc de ce qui fait la spécificité de ces territoires.
14:56Et le résultat concret, c'est que localement,
14:58on va avoir des outils qui ne sont pas adaptés aux réalités territoriales.
15:02Et en plus de ça, on a une espèce de double peine qui se met en place
15:05puisque ces systèmes d'intelligence artificielle
15:08vont s'entraîner sur les données des utilisateurs
15:12qui s'en servent aussi quotidiennement.
15:14Et il se trouve que ces territoires, en particulier les territoires ruraux,
15:16sont parmi ceux qui ont les usages du numérique
15:19les moins développés, les moins fréquents.
15:22Et donc, on va avoir cette espèce d'auto-renforcement,
15:24de double peine qui va contribuer à continuer à marginaliser,
15:28à fragiliser des territoires qui sont déjà fragilisées.
15:29En fait, on continue de parler de cette fracture numérique.
15:32Exactement.
15:33Il y a quand même, on entend beaucoup de projets dans les collectivités
15:37sur l'intelligence artificielle.
15:38Est-ce que vous dites, oulala, il faut qu'elles aillent doucement
15:41ou alors, c'est super, ça progresse ?
15:44Comment est-ce que vous réagissez par rapport à ça ?
15:46Alors, on ne dit pas du tout qu'il ne faut pas y aller, au contraire.
15:49Parce que justement, comme vous le dites,
15:51il y a des perspectives qui sont assez riches
15:53et hyper enthousiasmantes de développement de l'IA
15:55à l'échelle territoriale sur un nombre très important de sujets.
16:00Mais justement, ça nécessite de mettre en place, on va dire,
16:04ce cadre pour nous assurer que ces services et ces outils
16:08et ces systèmes d'IA qui sont déployés localement
16:10servent réellement le local.
16:12Et c'est là qu'intervient cette notion d'inclusion algorithmique
16:15qui donc recouvre quatre grandes focales, on va dire.
16:19Une focale sur l'accès, le fait de pouvoir accéder au matériel
16:22à une connexion de qualité, à des outils spécifiques.
16:26L'usage, le fait de savoir manipuler au final ces outils
16:28et les mettre au service de son quotidien.
16:31La compréhension, comprendre comment fonctionnent ces outils d'accord,
16:34mais aussi comprendre leurs impacts.
16:35On parlait par exemple des impacts informationnels.
16:37Ça fait partie de cette culture numérique,
16:39de cette culture algorithmique qu'il faut développer.
16:41Et puis le dernier point, c'est la conception.
16:43C'est-à-dire comment est-ce qu'on va réussir à intégrer
16:46dès la création de ces outils,
16:48cette visée émancipatrice et inclusive.
16:51Une question, une remarque ?
16:52Oui, une remarque et question.
16:54La remarque, c'est que ce qui est hyper intéressant,
16:58c'est effectivement de faire ce constat
17:00qu'on ne peut pas séparer le sujet du développement
17:03et du déploiement de l'IA.
17:04On pourrait avoir tendance, d'un point de vue stratégique,
17:06se dire, d'une part, il faut que je trouve une manière
17:08d'accélérer l'adoption de l'intelligence artificielle
17:10dans mes entreprises, dans ma société, etc.
17:12Et d'autre part, il faut que j'ai une politique industrielle
17:16pour développer des systèmes d'IA et on sépare les deux.
17:19Et en fait, les deux sujets sont liés.
17:20Parce que pour que l'IA soit adoptée et adoptée efficacement
17:23et qu'elle serve effectivement les intérêts des populations
17:26au niveau local, il faut que finalement ces IA soient adaptées
17:29à leurs besoins, leur manière de parler, leurs valeurs,
17:33tout un ensemble de critères, de caractéristiques
17:37qui fera qu'effectivement, cette IA va apporter toute sa plus-value.
17:42Et d'ailleurs, ce qui est aussi intéressant, c'est que finalement,
17:45ces communes qui sont marginalisées sur l'IA,
17:50c'est un peu ce que la France et l'Europe ont vécu il n'y a même pas deux ans
17:55sur les LLM, où en fait, tous les LLM qui existaient sur le marché
18:00étaient des LLM entraînés par des entreprises américaines,
18:02qui finalement ne correspondaient pas du tout aux valeurs françaises et européennes.
18:06Et il était nécessaire, du coup, pour apporter de la création de valeur
18:10dans nos entreprises, il fallait avoir des nouveaux LLM
18:14qui répondaient davantage à nos besoins.
18:16Déjà, à commencer par dire des LLM qui fonctionnent bien en français,
18:19parce qu'ils étaient très bons en anglais,
18:20mais clairement moins bons sur les benchmarks qu'en français.
18:22Donc, c'était la première étape.
18:24Et donc, c'est intéressant de voir cette continuité jusqu'au niveau de la commune.
18:27Mais les communes n'ont pas les mêmes moyens que la France et l'Europe
18:30en sont ensemble.
18:31Tout à fait. Et la question, c'est du coup, au niveau européen,
18:34une des options qui a été trouvée pour travailler sur le sujet,
18:37c'était de créer l'Altedix, une entité européenne
18:39qui a vocation à regrouper des langues,
18:42en particulier des langues rares au niveau de l'UE,
18:45pour pouvoir aider le développement de systèmes d'IA.
18:48Est-ce qu'on pourrait imaginer la même chose au niveau des communes ?
18:52Le sujet de la mutualisation, de toute façon, il est central aujourd'hui.
18:56Parce que, comme vous le disiez, si on regarde un peu
18:59quelles sont les communes qui, aujourd'hui, développent vraiment
19:01des grands projets d'IA, évidemment, c'est plutôt les métropoles,
19:04c'est plutôt les régions, c'est plutôt certains départements.
19:07Mais plus on a une commune qui est petite,
19:09évidemment, moins on aura les moyens et les ressources en interne pour le faire.
19:11Ceci dit, il y a des espaces et des démarches de multidialisation
19:15qui existent, que ce soit pilotés à l'échelle nationale,
19:18au sein de structures comme les interconnectés,
19:19ou que ce soit à l'échelle locale, avec des structures comme les OPSN,
19:22les opérateurs publics de services numériques,
19:24qui peuvent aller accompagner, justement, des collectivités
19:26qui n'ont pas forcément en interne cette ressource numérique,
19:29à mettre en place des projets et donc à mutualiser à la fois
19:32des outils, des réflexions, des sessions de formation, d'appropriation.
19:36Mais ça veut dire aussi qu'en interne, dans les collectivités,
19:38il faut qu'ils soient bien conscients du cadre,
19:40qu'ils puissent faire une commande éclairée par tout ce que...
19:43Donc, il faut qu'ils lisent votre note, pour résumer.
19:46Pierre-Carles Langlais,
19:48je disais que vous étiez un chercheur en IA,
19:51le cofondateur de Playaz,
19:52dont vous allez nous expliquer de quoi il s'agit.
19:54Vous êtes aussi administrateur sur Wikipédia,
19:58puisqu'on parle de données ouvertes et de sciences ouvertes,
20:00donc je pense que c'est pertinent de le préciser.
20:03Vous avez co-rédigé un rapport pour la Commission européenne
20:06sur l'édition en accès libre non commercial,
20:09coordonné la publication du Common Corpus,
20:12donc un jeu de données,
20:14le plus grand jeu de données ouvert,
20:15disponible pour l'entraînement des modèles de langage.
20:17Donc, Playaz, c'est un laboratoire aujourd'hui,
20:20spécialisé dans l'entraînement de petits modèles de raisonnement,
20:24d'environnement synthétique,
20:25vous dites aussi pour les industries réglementées,
20:28qui est vraiment pionnier dans l'entraînement
20:29à partir de données ouvertes.
20:32Ça, j'ai bien tout noté,
20:33mais ma question, c'est,
20:35les autres LLM, par exemple,
20:37ils ne vous ont pas attendu
20:39pour aller chercher toutes les informations dans Wikipédia.
20:42Les données ouvertes sont déjà,
20:43font partie aujourd'hui des données ouvertes ?
20:45Non, pas vraiment.
20:46Le problème principal, vraiment,
20:47c'est de définir ce qu'on entend par ouvert,
20:49et la question, en fait,
20:51elle est au cœur,
20:51enfin, c'est vraiment la question des droits d'auteurs,
20:53en fait, aujourd'hui,
20:53qui est au cœur, en fait,
20:54des problématiques d'IA.
20:55Donc, tout récemment,
20:56Anthropique a dû payer 1,5 milliard de dollars
20:59à des auteurs
21:00dont ils avaient récupéré leurs œuvres.
21:02Et, en fait, aujourd'hui,
21:03le cœur de ce qui est utilisé pour entraîner les IA,
21:05c'est, alors, Wikipédia est dedans, bien sûr,
21:07mais surtout,
21:08c'est ce qu'on appelle le crawling du web, en fait.
21:10Et là, ça rejoint aussi ce que disait, justement,
21:12Jean-Baptiste, juste avant,
21:13c'est qu'en fait,
21:13on est sur une démarche de collecte générale,
21:15mais pas très pensée,
21:16parce qu'elle a été pensée pour l'archivage,
21:17qui est faite par une toute petite organisation
21:19qui s'appelle Common Crawl,
21:20ils sont quatre,
21:21et ils n'ont pas les structures
21:23pour notamment récupérer
21:24tout ce qui est document PDF.
21:26Et là, c'est au cœur,
21:26notamment, du problème
21:27qu'on a aujourd'hui
21:28dans le domaine industriel, en réalité.
21:30Parce qu'aujourd'hui, du coup,
21:31toutes les données qu'on récupère,
21:32en fait, c'est vraiment une donnée web,
21:33mais qui est très décorrélée, finalement,
21:35des usages.
21:36Ce n'est pas dans ces données, notamment,
21:37qu'on va trouver aussi,
21:37notamment,
21:38toutes les noms régionales,
21:39typiquement,
21:39c'est beaucoup plus de documents,
21:40des choses comme ça,
21:41dans lesquels on va trouver ça.
21:42Et aujourd'hui,
21:43l'exemple que j'aime bien citer
21:44pour montrer ce décalage,
21:45en fait,
21:46c'est celui des montres.
21:47Parce qu'aujourd'hui,
21:48si vous demandez à un modèle de vision
21:50de lire l'heure,
21:51il aura beaucoup de mal.
21:52Et pourquoi ?
21:53Simplement parce que
21:53si vous tapez montres sur le web,
21:56vous n'avez que des montres,
21:57arrêtez !
21:58Qui ne sont pas dans le monde vivant.
22:00Et ça, aujourd'hui,
22:01c'est un vrai problème,
22:02aujourd'hui, aussi.
22:03Donc, ce qu'on a voulu créer
22:04avec Common Corpus,
22:08sur LinkedIn,
22:08on peut télécharger.
22:09Alors, je ne vous conseille pas
22:10de le faire
22:10parce qu'il est très, très grand.
22:11Ça fait 2 000 milliards de mots.
22:13C'est parce qu'on en ferait ?
22:14Alors, voilà.
22:14Donc, c'est beaucoup de lecture,
22:15j'avoue.
22:16Et beaucoup de choses à transporter
22:17pour l'avoir fait.
22:18Mais, donc, c'est beaucoup.
22:20C'est multilingue.
22:21C'est en plusieurs langues européennes,
22:22notamment.
22:23Le français est très bien représenté
22:24avec 300 milliards de mots.
22:25Mais dedans,
22:26on trouve, par exemple,
22:26les e-pubs ?
22:27Non, justement pas.
22:29On trouve très peu de livres,
22:30malheureusement,
22:30parce qu'il y a très peu de livres
22:31en libre accès.
22:32Ce qu'on trouve,
22:33c'est principalement
22:34quatre grands ensembles.
22:35Donc, d'abord, effectivement,
22:36tout ce qui va être
22:37science ouverte,
22:38notamment les publications scientifiques.
22:39Il y en a énormément maintenant
22:40qui sont en accès libre.
22:41Tout ce qui va être
22:41logiciel libre.
22:42Et là aussi,
22:43il faut savoir que les modèles
22:43sont très utilisés
22:44pour générer du logiciel.
22:46Tout ce qui va être patrimonial aussi,
22:48parce qu'en fait,
22:49on a plein de textes
22:50dans le domaine public
22:51qui n'ont plus le droit d'auteur
22:51et qui sont pour le coup des livres.
22:53Là, il y a beaucoup de livres,
22:54en réalité.
22:55Et là,
22:55les textes sont un peu anciens,
22:56évidemment,
22:56mais qui ont quand même
22:57une forte qualité de raisonnement,
22:58de rédaction par derrière.
22:59Et puis, dernièrement,
23:00le plus important
23:01est là aussi
23:02où on participe justement
23:02au lieu de mentionner Altédic,
23:04on participe justement
23:04à la coordination
23:05des collectes d'Altédic
23:06pour tout ce qui va être
23:07données gouvernementales ouvertes.
23:09Tout ce qui est rapport,
23:10etc.
23:10Aussi, c'est un ensemble
23:11qui est très riche.
23:12Mais juste,
23:12on parle là de français ou de...
23:14Langues,
23:15toutes langues confondues.
23:16Combien ?
23:17Au total.
23:18Donc,
23:18de langues représentées,
23:19il y en a environ 30
23:20en Common Corpus.
23:22Et il en faudrait plus.
23:23Et là,
23:23aujourd'hui,
23:24on travaille notamment
23:24à des projets de déploiement
23:25en Afrique.
23:26Et là,
23:26on voit tout le monde
23:27le constat qui était mentionné
23:28juste avant.
23:29Dès qu'on commence à toucher
23:29à des langues,
23:30tout se débine.
23:31C'est-à-dire que les modèles,
23:33même pour faire le RAC,
23:34typiquement,
23:34les modèles de recherche,
23:35Jean Bédin,
23:35ne fonctionnent plus.
23:37La génération ne fonctionne plus.
23:38Donc,
23:39tout le monde fonctionne.
23:40Et aujourd'hui,
23:41c'est là où...
23:41La modération de Facebook
23:42ne fonctionne plus
23:43sur certaines langues.
23:45Oui, tout de fait.
23:45Mais c'est général, en fait.
23:46Et donc,
23:47c'est vrai qu'aujourd'hui,
23:47on a besoin d'un outillage.
23:54Aujourd'hui,
23:54les banques,
23:55l'assurance...
23:56Expliquez-nous ça.
23:56En fait,
23:57c'est très réticent
23:58à utiliser l'IA
23:58pour plusieurs raisons.
23:59D'une part,
24:00parce qu'aujourd'hui,
24:00c'est une question d'hébergement.
24:02Il y a plein de données personnelles.
24:03Ils sont responsables.
24:04Et aujourd'hui,
24:04les déployeurs d'IA
24:05sont complètement responsables
24:06de ce que génèrent
24:06les modèles en Europe.
24:07Donc, concrètement,
24:08si votre modèle a été entraîné
24:09sur des corpus,
24:11avec beaucoup de données
24:11sur le rade d'auteur,
24:12beaucoup de données
24:13sur les données personnelles,
24:14etc.
24:15Et on sait que les gros modèles,
24:16notamment,
24:16on mémorise très bien.
24:18Ben, vous êtes responsables.
24:19Aujourd'hui,
24:20il y a un peu de réticence.
24:21Donc, en fait,
24:21ça freine l'écosystème
24:23de l'IA en France.
24:23Ça freine l'écosystème
24:25et ça freine aussi
24:26sur un autre plan
24:27qui est la question des montres,
24:28en fait,
24:28ce que je disais juste avant,
24:29c'est-à-dire le fait
24:29qu'aujourd'hui,
24:30les modèles ne sont pas entraînés
24:31aujourd'hui pour les environnements,
24:32pour les tâches,
24:33en réalité,
24:34de ces entreprises.
24:36Donc,
24:36on avait créé
24:37le Common Core Plus
24:37l'année dernière.
24:38Donc, c'est vraiment
24:38une collecte
24:39au sens très large.
24:40Alors, ce qu'on est en train
24:40de faire dans la version 2
24:42qui va sortir,
24:42qui s'appelle Racint
24:43et qu'on fait en partenariat
24:44avec iAlliance et IBM,
24:46c'est, en fait,
24:47une version synthétique
24:49de Common Core Plus.
24:50Et l'idée,
24:51c'est de prendre
24:52un petit ensemble.
24:53Donc, on a pris
24:53ce que j'ai mis en train
24:54de l'équiper hier du coup.
24:55Je savais qu'il y avait
24:55cette ressource qui existait.
24:56On a une sélection
24:57par la communauté
24:58de 50 000 articles
24:59qui sont au cœur
25:00de ce qu'on va savoir.
25:01Et ma réflexion depuis longtemps,
25:02c'était le fait
25:02que ces modèles,
25:03en fait, aujourd'hui,
25:04c'est vrai qu'on leur met
25:05tout le web dedans.
25:06Est-ce que c'est vraiment utile,
25:07en fait ?
25:08Combien de livres
25:08vous avez eu dans votre vie ?
25:09De centaines.
25:10Oui, mais c'est ça,
25:11l'intérêt d'avoir une IA,
25:12c'est qu'elle en a lu
25:12plus que moi.
25:13Oui, mais en réalité,
25:15si on vise...
25:16Et là, ce qui est intéressant,
25:17c'est est-ce qu'elle a lu
25:17les bons livres ?
25:18Oui.
25:19Et en fait,
25:19il y a plein de livres
25:20qui ne vont pas être là
25:20ou qui ne vont pas être
25:21bien assimilés.
25:22Il y a plein de règles
25:23lorsqu'on voit en entreprise.
25:24En fait, on a plein de guidelines,
25:26de règles, de normes,
25:27etc.
25:28En banque, très simplement,
25:29on a plein aujourd'hui
25:30de représentations de données,
25:32en fait, pour les transateurs
25:32bancaires, par exemple.
25:33Il n'y a pas de données ouvertes
25:34pour ça.
25:34Tout est de données personnelles.
25:36Donc, en fait,
25:36il faut les inventer,
25:37ces données,
25:37il faut les écrire.
25:38Donc, on va utiliser
25:39des modèles de langue
25:39avec des contraintes
25:41pour générer, en fait,
25:42ce corpus à l'échelle,
25:43l'amplifier,
25:44faciliter sa mémorisation
25:45dans le modèle lui-même,
25:46ce qu'on appelle
25:47un environnement synthétique.
25:48Et ça, aujourd'hui,
25:49c'est de plus en plus utilisé
25:50par les grands labs américains,
25:51par les grands labs chinois aussi
25:52qui émergent très fortement
25:53depuis quelques mois,
25:54et pour les usages industriels.
25:56Donc, là,
25:56on est vraiment
25:57sur le cœur de l'idée.
25:58Vous êtes dans un domaine
25:58qui est l'assurancière.
25:59Et là, vous, vous le faites
26:01pour rejouer des clients
26:02à l'international
26:03ou vraiment vous travaillez
26:04sur le marché français ?
26:05Principalement européen.
26:06Européen.
26:06Européen, en fait.
26:07Une partie de PLEGAS
26:08est en Allemagne,
26:09donc on a un laboratoire
26:09de recherche privée.
26:10On a une partie en Allemagne
26:11à l'Université de Wurzburg.
26:12Et donc, on travaille
26:13avec des acteurs
26:14principalement, effectivement,
26:15en Europe.
26:15D'accord.
26:16Donc, principalement
26:16sur des langues européennes.
26:17Sur des langues européennes,
26:18secteur régulier.
26:19Donc, on est principalement
26:20en médecine, beaucoup.
26:21On est en transport.
26:22On est dans la banque.
26:23C'est super, ça.
26:24Et il y a un problème
26:25qu'aujourd'hui, en fait.
26:26OpenLine n'est pas suffisant.
26:27Oui.
26:28Et c'est hyper curieux
26:29comment les 50 000 articles,
26:31c'est quoi les critères
26:32que vous utilisez
26:33pour les sélectionnés ?
26:34Alors, c'est une sélection
26:34par la communauté, en fait.
26:36Ils ont décidé
26:37à un moment donné.
26:37C'est un Wikipédien qui parle.
26:38Ça a duré 20 ans,
26:39évidemment, la Wikipédia
26:40a plein de discussions,
26:42plein de gens qui s'engueulent.
26:43C'est très bien, c'est vivant.
26:44Et donc, ces 50 000 articles,
26:46du coup, c'est une bonne image,
26:47je trouve,
26:47de ce qu'une personne
26:48très cultivée connaîtrait,
26:49en réalité.
26:50Donc, c'est plein de choses.
26:50Ils ont plein de domaines.
26:51Mathématiques, chimie,
26:52littérature, etc.
26:53Et est-ce que vous partez,
26:56par exemple,
26:56d'un corpus en français
26:58que ensuite vous traduisez
26:59pour l'avoir dans toutes les langues
27:01ou vous allez chercher
27:02chaque version originale ?
27:03Exactement, en fait.
27:04On va chercher
27:05les différentes versions originales.
27:06Donc, on est peut-être
27:06à partir de l'anglais,
27:07en fait, à l'origine.
27:07Et ensuite, après,
27:08on est allé dupliquer ça
27:10et l'étendre.
27:10Ce qui est très intéressant.
27:11Donc, ce n'est pas de traduction,
27:12c'est vraiment des VO ?
27:13Alors, c'est un peu des deux,
27:15en fait.
27:15Ce qui est très intéressant
27:16avec la génération synthétique,
27:17du coup,
27:18c'est qu'on est dans une logique
27:19où on ne part de rien
27:19et après, on élargit.
27:21C'est-à-dire, soudainement,
27:22si je décide qu'un modèle
27:23n'est pas assez bon
27:23en Provençal, par exemple,
27:25et si j'arrive à développer
27:26une bonne pipeline pour générer,
27:27du coup, je voudrais pas
27:28qu'on peut se donner
27:28et le modèle sera bien meilleur.
27:29Et Pierre-Carles, vous avez...
27:31Eh bien, oui,
27:31mais ce sera la dernière question
27:32et très rapide, oui.
27:33Oui, si on entraîne le LLM
27:35sur cette base de données,
27:36un LLM de faible taille,
27:38sur cette base de données synthétique,
27:40vous avez fait les benchmarks.
27:41Est-ce qu'on arrive à avoir des...
27:41On est à l'étendre.
27:42On est à l'article.
27:43Exactement.
27:44En fait, on a entraîné un modèle
27:45qui s'appelle Baguette au tronc.
27:47Est-ce qu'il est...
27:48Et vous nous ferez une démonstration
27:50la prochaine fois ?
27:51Exactement.
27:51Plus de temps, je suis désolée.
27:53C'était passionnant.
27:54Merci.
27:54Mon modèle me remplacera.
27:55À tous les trois,
27:59co-auteur de l'étude IA Inclusion Algorithmique,
28:02un enjeu de cohésion sociale,
28:03économique et territoriale
28:04pour l'Institut Terram.
28:06Pierre-Carles Langlais,
28:07CTO de PLEIA.
28:08C'est Guillaume Avrin,
28:09directeur de développement
28:10et des partenariats stratégiques
28:11chez Arlequin AI.
28:12Merci encore.
28:13Merci à vous de nous avoir suivis
28:14sur la chaîne Bsmart.
28:15C'était Smartech.
28:16À très bientôt.
28:16Sous-titrage Société Radio-Canada
Écris le tout premier commentaire
Ajoute ton commentaire

Recommandations