Où les chatbots d'IA puisent-ils leurs connaissances ?

Contrairement à la perception que l'on pourrait avoir, les chatbots (ou robots conversationnels) d'IA actuellement disponibles, comme ChatGPT d'OpenAI ou Bard de Google (dont l'intégration dans les services Google a été annoncée à la conférence I/O 2023), ne sont pas à proprement parler intelligents et ne possèdent pas de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s'appuient sont entraînés à partir d'informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.). Le graphique, basé sur une étude publiée par le Washington Post, montre les sources d'informations qui sont les plus utilisées.

Le journal américain a analysé, en collaboration avec l'Allen Institute for AI, le corpus C4 publié par Google, une immense base de données regroupant 15 millions de sites web qui ont été utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des "tokens" par source, c'est-à-dire la provenance des éléments de texte contenus dans le corpus. Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, "patents.google.com", représente de loin la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd'hui plus de 120 millions.

En deuxième position, on trouve "wikipedia.org" avec une part de 0,19 % du contenu, suivi de "scribd.com" avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d'auteur pour les textes générés par l'IA. Alors que les contenus de Wikipédia sont placés sous licences Creative Commons et sont diffusables librement, Scribd est un site de partage de documents en ligne sur lequel de nombreuses œuvres protégées ont été téléchargées. Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 8. Il est important de souligner que l'analyse du Washington Post ne prétend pas à l'exhaustivité ou à une exacte représentativité, car aucun modèle d'IA n'est entraîné sur la base d'un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d'IA est plutôt à la traîne jusqu'à présent, certaines autorités nationales et internationales ont commencé à s'activer dans cette direction. L'Italie a été la première à agir : estimant qu'OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu'à ce que la société se remette en règle. Dans l'Union européenne, les États membres discutent actuellement de l'introduction de l'AI Act, qui doit créer un cadre juridique transnational pour l'utilisation de l'IA dans l'UE.


0 COMMENTAIRE(S)

Aucun commentaire pour le moment


ACHETER
un exemplaire
version papier ou PDF
Dernières infos en ligne

17.02.2026 | Maurice

ER Group intègre le SEM Sustainability Index avec un score de 78,91 %



Lire
commentaires Réagir
16.02.2026 | Réunion

La Chambre régionale des comptes pointe des dysfonctionnements au sein du CNARM



Lire
commentaires Réagir
16.02.2026 | Réunion

L'ANDRH La Réunion renouvelle sa gouvernance lors de son assemblée générale 2026



Lire
commentaires Réagir
15.02.2026 | Madagascar

Chamsouddine Ahmed, Président de Cap Business océan Indien



Lire
commentaires Réagir
15.02.2026 | Réunion

Géothermie dans les hauts de La Réunion : la CASUD définitivement écartée au profit d'Engie



Lire
commentaires Réagir
15.02.2026 | Guadeloupe

Crédit à la consommation : la cour rétablit les intérêts de Cofidis mais réduit la pénalité



Lire
commentaires Réagir
15.02.2026 | Martinique

Le Village de la Pointe débouté face au fisc martiniquais



Lire
commentaires Réagir
15.02.2026 | France

Une startup éducative atteint la rentabilité tout en franchissant le cap des 1 000 collaborateurs



Lire
commentaires Réagir
14.02.2026 | Réunion

Temps de travail des internes : le CHU sommé d'instaurer un comptage horaire sous astreinte



Lire
commentaires Réagir
14.02.2026 | Madagascar

Lilia Randriamifi dimanana, Présidente du Jeune Patronat de Madagascar



Lire
commentaires Réagir
14.02.2026 | Martinique

Projet " TRL9 Bambou Protec " : l'État refuse de signer, le juge des référés balaie la procédure d'urgence



Lire
commentaires Réagir
14.02.2026 | Réunion

Rondavelle de l'Hermitage : la contestation s'éteint, les exploitants déboutés et condamnés aux frais



Lire
commentaires Réagir
14.02.2026 | Martinique

Marché public à Case-Pilote le solde du chantier tranché en faveur de Caraib Moter



Lire
commentaires Réagir
14.02.2026 | Guyane

Préavis non respecté à Cayenne l'hôpital condamné



Lire
commentaires Réagir
13.02.2026 | Maurice

La Banque mondiale échange avec le ministère des Services financiers sur le Growth & Jobs Report



Lire
commentaires Réagir