Où les chatbots d'IA puisent-ils leurs connaissances ?

Contrairement à la perception que l'on pourrait avoir, les chatbots (ou robots conversationnels) d'IA actuellement disponibles, comme ChatGPT d'OpenAI ou Bard de Google (dont l'intégration dans les services Google a été annoncée à la conférence I/O 2023), ne sont pas à proprement parler intelligents et ne possèdent pas de conscience propre. Les grands modèles de langage (LLM) sur lesquels ils s'appuient sont entraînés à partir d'informations déjà disponibles sur Internet. Ces connaissances sont ensuite restituées de façon à ce que le résultat résiste à un test de probabilité considérant tous les codes du langage naturel (orthographe, syntaxe, grammaire, etc.). Le graphique, basé sur une étude publiée par le Washington Post, montre les sources d'informations qui sont les plus utilisées.

Le journal américain a analysé, en collaboration avec l'Allen Institute for AI, le corpus C4 publié par Google, une immense base de données regroupant 15 millions de sites web qui ont été utilisés pour entraîner des IA. Ils ont ensuite pu déterminer la répartition des "tokens" par source, c'est-à-dire la provenance des éléments de texte contenus dans le corpus. Avec 0,46 % du contenu, le moteur de recherche de brevets de Google, "patents.google.com", représente de loin la plus grande part. Cette plateforme indexe les brevets et demandes de brevet provenant du monde entier depuis 2006 et en regroupe aujourd'hui plus de 120 millions.

En deuxième position, on trouve "wikipedia.org" avec une part de 0,19 % du contenu, suivi de "scribd.com" avec 0,07 %. Ce dernier interpelle notamment en ce qui concerne le respect des droits d'auteur pour les textes générés par l'IA. Alors que les contenus de Wikipédia sont placés sous licences Creative Commons et sont diffusables librement, Scribd est un site de partage de documents en ligne sur lequel de nombreuses œuvres protégées ont été téléchargées. Plusieurs organes de presse tels que le New York Times, le Guardian et Forbes figurent également dans le top 8. Il est important de souligner que l'analyse du Washington Post ne prétend pas à l'exhaustivité ou à une exacte représentativité, car aucun modèle d'IA n'est entraîné sur la base d'un seul et unique corpus de données.

Alors que la réglementation et la législation en matière d'IA est plutôt à la traîne jusqu'à présent, certaines autorités nationales et internationales ont commencé à s'activer dans cette direction. L'Italie a été la première à agir : estimant qu'OpenAI avait enfreint le RGPD avec ChatGPT, le pays a décidé de bloquer son accès fin mars jusqu'à ce que la société se remette en règle. Dans l'Union européenne, les États membres discutent actuellement de l'introduction de l'AI Act, qui doit créer un cadre juridique transnational pour l'utilisation de l'IA dans l'UE.


0 COMMENTAIRE(S)

Aucun commentaire pour le moment


ACHETER
un exemplaire
version papier ou PDF
Dernières infos en ligne

12.12.2025 | Réunion

GHER : la nouvelle Commission médicale d'établissement élit sa présidence pour un mandat de quatre ans



Lire
commentaires Réagir
11.12.2025 | Réunion

Le crédit hypothécaire de trésorerie devient accessible pour la première fois à La Réunion



Lire
commentaires Réagir
10.12.2025 | Réunion

TransakAuto : les agences réunionnaises enregistrent une progression depuis début 2025



Lire
commentaires Réagir
10.12.2025 | Mayotte

À Mayotte, la peur du cyclone revient avec la saison des pluies



Lire
commentaires Réagir
10.12.2025 | Martinique

Extension de la réserve naturelle de la Caravelle : un renforcement majeur de la protection environnementale en Martinique



Lire
commentaires Réagir
10.12.2025 | Réunion

La mairie annexe de Saint-Gilles-les-Bains entièrement réhabilitée



Lire
commentaires Réagir
09.12.2025 | Réunion

Sogecore célèbre le départ à la retraite de sept salariés et remet trois médailles du travail



Lire
commentaires Réagir
09.12.2025 | Océan Indien

Sécurité maritime : une coordination régionale renforcée grâce au soutien de l'Union européenne



Lire
commentaires Réagir
08.12.2025 | Réunion

Résultat comptable 2024 : la SHLMR précise ses comptes et corrige les interprétations erronées



Lire
commentaires 1 Réagir
08.12.2025 | Maurice

SALT of Palmar célèbre son 7eme anniversaire avec une journée dédiée aux expériences authentiques et au bien-être



Lire
commentaires Réagir
07.12.2025 | Océan Indien

The Lux Collective célèbre l'excellence et l'innovation lors de la première édition des TLC Excellence Awards



Lire
commentaires Réagir
04.12.2025 | Océan Indien

Fregate Island rouvrira à l'automne 2026 après quatre années de fermeture



Lire
commentaires Réagir
04.12.2025 | Maurice

Constance Hotels & Resorts marque son jubilé d'or avec une soirée de célébration



Lire
commentaires Réagir
03.12.2025 | Réunion

La Poste et SIVA Industries reconduisent leur partenariat pour faciliter l'envoi de fruits tropicaux vers la métropole



Lire
commentaires Réagir
02.12.2025 | Réunion

Le Festival du Film au Féminin revient pour une 6eme édition engagée et ouverte au public



Lire
commentaires Réagir