Où les chatbots d'IA puisent-ils leurs connaissances ?

Contrairement à la perception que l'on pourrait avoir, les chatbots (ou robots conversationnels) d'IA actuellement disponibles, comme ChatGPT d'OpenAI ou Bard de Google (dont l'intégration dans les services Google a été annoncée à la conférence I/O 2023), ne sont pas à proprement parler intelligents et ne possèdent pas de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s'appuient sont entraînés à partir d'informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.). Le graphique, basé sur une étude publiée par le Washington Post, montre les sources d'informations qui sont les plus utilisées.

Le journal américain a analysé, en collaboration avec l'Allen Institute for AI, le corpus C4 publié par Google, une immense base de données regroupant 15 millions de sites web qui ont été utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des "tokens" par source, c'est-à-dire la provenance des éléments de texte contenus dans le corpus. Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, "patents.google.com", représente de loin la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd'hui plus de 120 millions.

En deuxième position, on trouve "wikipedia.org" avec une part de 0,19 % du contenu, suivi de "scribd.com" avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d'auteur pour les textes générés par l'IA. Alors que les contenus de Wikipédia sont placés sous licences Creative Commons et sont diffusables librement, Scribd est un site de partage de documents en ligne sur lequel de nombreuses œuvres protégées ont été téléchargées. Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 8. Il est important de souligner que l'analyse du Washington Post ne prétend pas à l'exhaustivité ou à une exacte représentativité, car aucun modèle d'IA n'est entraîné sur la base d'un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d'IA est plutôt à la traîne jusqu'à présent, certaines autorités nationales et internationales ont commencé à s'activer dans cette direction. L'Italie a été la première à agir : estimant qu'OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu'à ce que la société se remette en règle. Dans l'Union européenne, les États membres discutent actuellement de l'introduction de l'AI Act, qui doit créer un cadre juridique transnational pour l'utilisation de l'IA dans l'UE.


0 COMMENTAIRE(S)

Aucun commentaire pour le moment








ACHETER
un exemplaire
version papier ou PDF
Dernières infos en ligne

24.09.2025 | Maurice

Une nouvelle extension pour un campus universitaire à Maurice



Lire
commentaires Réagir
24.09.2025 | Maurice

Yousouf Joomun sacré au DaVinci Gourmet Mixology Championship 2025



Lire
commentaires Réagir
24.09.2025 | Maurice

Des lycéens mauriciens récompensés pour leur projet innovant sur la qualité de l'air



Lire
commentaires Réagir
23.09.2025 | Maurice

Recyclage : transformer l'huile alimentaire usagée en ressource à Maurice



Lire
commentaires Réagir
20.09.2025 | Guyane

Guyane : un conseiller municipal de Kourou en détention provisoire pour assassinat



Lire
commentaires Réagir
12.09.2025 | Réunion

Citroën dévoile son nouveau C3 Aircross à La Réunion



Lire
commentaires Réagir
12.09.2025 | Réunion

Ford dévoile à La Réunion son Puma Gen-E, un SUV 100 % électrique



Lire
commentaires Réagir
05.09.2025 | Nouvelle Calédonie

Nouvelle-Calédonie Tourisme lance un site B2B dédié aux professionnels



Lire
commentaires Réagir
31.08.2025 | Maurice

Groupe Currimjee : Dhiren Ponnusamy nommé Directeur Général Désigné à compter de janvier 2026



Lire
commentaires Réagir
30.08.2025 | Réunion

Le CTICS lance la construction d'un laboratoire d'analyse de canne à sucre au Gol



Lire
commentaires Réagir
30.08.2025 | Océan Indien

Pêche à la légine australe : huit candidats retenus pour la période 2025-2028



Lire
commentaires Réagir
29.08.2025 | Océan Indien

Vers un Centre régional pour pérenniser la surveillance des pêches



Lire
commentaires Réagir
29.08.2025 | Océan Indien

Mort suspecte d'une Française aux Seychelles : un juge enquête sur les causes de la mort



Lire
commentaires Réagir
28.08.2025 | Réunion

La Fondation pour le Logement appelle les maires à expérimenter l'encadrement des loyers à La Réunion



Lire
commentaires Réagir
28.08.2025 | Réunion

La chambre régionale des comptes évalue la politique de gestion des déchets à La Réunion



Lire
commentaires Réagir