La plupart des internautes utilisent les IA génératives sans savoir comment la réponse est construite. Entre le manque de crédit des auteurs et l’impossibilité de remonter à la source dont l’IA générative a puisé son information, les auteurs se rebellent face aux manquements de droits d’auteurs. Comment les IA génératives se nourrissent-elles avec nos informations disponibles sur Internet ?
L’effervescence autour des AI génératives
Les IA génératives ont fait un grand bond en avant, aux yeux du public, depuis l’arrivée de la version GPT 3,5 du Chatbot de l’entreprise OpenIA, en novembre 2022. Grâce à ChatGPT, le grand public a pu découvrir le premier produit utilisant l’IA générative et fut conquis en l’espace de deux mois, à hauteur de 100 millions d’utilisateurs. L’IA générative est un véritable marché, disputé par les GAFAM.
Quelques exemples d’IA générative proposée par les GAFAM
- LlaMA (pour Large Language Model Meta IA), lancé en février 2023, par l’entreprise Meta et Mark Zuckerberg, un modèle de langage, orienté pour les chercheurs pour le moment.
- Copilot, lancé le 7 février 2023, par Microsoft, un chatbot avec un accès à Internet, capable notamment de citer des sites Internet à consulter, de créer des poèmes, parler d’actualité.
- Gemini (anciennement Bard), lancé en septembre 2023, par Google, un modèle de langage interopérable avec les différentes fonctionnalités proposées par Google : Google Drive et Google Docs pour extraire des données ; mais aussi une recherche Google en fonction des réponses proposées par Gemini, pour comparer ces résultats sur la même recherche.
- Bedrock, lancé en septembre 2023, par Amazon, un service permettant d’aider les entreprises à utiliser les IA génératives pour des tâches comme la création de contenus et l’analyse de données.
Comment fonctionnent l’Intelligence Artificielle Générative ?
Une IA générative part des instructions écrites par un humain, un prompt, pour ensuite générer, en suivant les règles du prompt, le résultat voulu (un texte, une image, un audio…). Ainsi, pour produire ces résultats demandés, l’IA générative a besoin de données et d’un algorithme (ensemble de règles et de méthodes), s’appuyant sur un modèle de Machine Learning (apprentissage machine) « pour apprendre les schémas et les relations dans un ensemble de données de contenus créées manuellement. Elle utilise ensuite les schémas appris pour générer de nouveaux contenus. »1.
Les IA génératives, une révolution pour les IA
L’arrivée des IA génératives est issue des innovations dans le domaine du traitement du langage Naturel (NLP). Ce domaine souhaite que les machines maîtrisent le langage humain. Pour ce faire, les chercheurs utilisent des modèles de langages. Les modèles de langage sont des modèles statistiques qui prédisent la distribution de pattern (mots ou groupes de mots) dans une langue dite naturelle (parlée par un être humain). Un modèle de langage permet par exemple de prédire le mot ou le groupe de mots suivant dans une phrase selon son contexte. Par exemple, si on fournit la phrase « La souris est mangée par … » à un modèle de langage, celui-ci va prédire que le dernier mot est « chat » car c’est le mot qui possède la plus grande probabilité d’être écrit dans ce contexte.
Dans le cas d’un Chatbot comme ChatGPT, on ne parle pas simplement de modèle de langage, mais plutôt de Large Language Model (LLM). Les LLM ont été entraînés sur de grands ensembles de données textuelles pour comprendre et générer du langage humain. Les LLM peuvent produire de très longs textes de plusieurs pages à partir d’un prompt. Entraînée en récupérant de grands ensembles de données sur Internet, sans se préoccuper s’il s’agit de contenu sous licence, l’IA générative et les développeurs sont incapables de citer la provenance de ces informations données : « Les IA génératives sont une forme d’IA conçue pour produire des résultats créatifs à partir de données initiales et d’informations existantes. », elles produisent du texte, de l’image ou du son.2
La nouvelle architecture de réseaux
Le fonctionnement des LLM repose sur une nouvelle architecture de réseaux de neurones artificiels : le Transformer. Le Transformer a été introduit par des chercheurs de Google Search3 en 2017. Un Transformer est composé d’un ensemble de couches de réseaux de neurones artificiels. Un neurone artificiel est une structure inspirée des neurones biologiques qui reçoit, traite et transmet une information au sein d’un réseau. Cette nouvelle architecture (le Transformer) simule la compréhension des relations complexes entre les mots et le contexte linguistique dans le langage humain, révolutionnant le domaine du langage Naturel. Cette avancée permet aux IA génératives de prédire dans le cadre d’une question posée par un utilisateur une réponse qui est la plus probable.
Les IA génératives et les problèmes de droits d’auteurs
Les IA génératives semblent donc avoir un avenir radieux et profite d’un véritable engouement autour de leur utilisation. Cependant les innovations technologiques qui permettent leurs développements possèdent plusieurs limites. Les IA génératives ne possèdent pas de réflexion logique ou de recul vis-à-vis du contenu qu’elles génèrent. Elles ne prennent pas en considération si le contenu produit est biaisé ou non, pouvant alors générer des contenus à caractère sexiste ou raciste par exemple. Nous ne pouvons pas retrouver les sources dont les IA génératives se nourrissent. Pour les développeurs il n’est pas possible de savoir réellement comment sont générées les réponses. Les LLM sont des boîtes noires même pour leurs créateurs.
Les IA génératives manquent de réglementation
Les IA génératives ne sont en effet pas soumises à la loi du code de la propriété intellectuelle qui stipule que « les dispositions du présent code protègent les droits des auteurs sur toutes les œuvres de l’esprit, quels qu’en soient le genre, la forme d’expression, le mérite ou la destination » (Article L112-1). Et pour cause, cette loi date du 1er juillet 1992, une mise à jour des lois est une option fortement demandée par les élus.
« Face à l’IA, écosystème qui avance à pas de géant, le législateur doit protéger impérativement les auteurs et artistes de la création et de l’interprétation […] en accord juridique avec le Code de la propriété Intellectuelle »4 .
Face à ce manquement, Fairly Trade, une entreprise à but non lucratif, fondée par Ed Newton-Rex, propose la première certification « Licensed Model », attribuée « à tout modèle d’IA générative qui n’utilise aucune œuvre protégée par le droit d’auteur sans licence »5 , sur le principe du « fair use ».
Les données personnelles menacées par les IA génératives
La récolte de données personnelles fait ainsi débat quant à son manque de consentement, et au manque de respect de la vie privée. En effet, les données servant à l’entraînement des IA génératives sont difficiles à catégoriser comme publiques, ou personnelles. Cette confusion menace la vie privée des citoyens, puisque les IA génératives peuvent avoir accès à nos données personnelles, et peut ainsi porter préjudice aux utilisateurs.
Les limites de la génération de contenu via des IA engendrent donc des problèmes comme la propagation de fausses informations ou encore la propagation d’idées, de modes de pensée controversés. Elles soulèvent également d’autres problèmes sociaux. Une mauvaise utilisation de celle-ci peut aussi amener à la propagation de fausses informations via des images ou des vidéos créées par l’IA. Des utilisations frauduleuses comme le deepfake ou l’imitation d’une voix pour voler une identité sont aussi possibles.
Le respect de la vie privée est sous l’effet de lois, dont la loi « informatique et libertés » de 1995. Cette loi stipule que la récolte de données personnelles doit être collectée de manière explicite, précise et légitime, lorsque le but de cette collecte est atteint, la conservation des données doit être supprimée. Or, malgré que cette législation ait été complétée par la RGPD (Règlement Général sur la Protection des Données) en 2018, que la CNIL (Commission Nationale de l’Informatique et des Libertés) veille à l’application des législations en France, et que l’utilisateur a le droit de pouvoir être informé de la collecte de ces données, les GAFAM (acronyme pour désigner les géants du web Google, Apple, Facebook, Amazon, Microsoft) ne respectent pas toujours ces législations.
Les Intelligence Artificielle génératives vers l’Open Source
Rendre les IA génératives open source présente un débat tumultueux entre les grands acteurs de ces dernières, notamment pour OpenIA, et ses enjeux commerciaux, dont sa formule payante ChatGPT plus, à vingt dollars par mois.
C’est l’entreprise Meta qui a ouvert le débat, en rendant open source son modèle Llama. En rendant les IA génératives open source, cela permettrait « une innovation accélérée, une qualité améliorée et une réduction de coûts. »6 . L’open source pourrait être une solution viable pour connaître comment l’IA générative s’est entrainée, puisque nous pouvons retracer tout le cheminement jusqu’à la réponse donnée à l’utilisateur.
L’open source, une voie priorisée pour les créateurs d’IA générative
L’open source, à l’origine, fait référence aux logiciels open source, qui sont des logiciels dont les codes sources sont disponible publiquement. Totalement légal, accessible à tous, un logiciel open source est « développé de façon collaborative et décentralisée […] chacun peut apporter sa contribution »7 . L’open source a donc pour avantage d’être moins coûteux qu’un logiciel propriétaire et offre une durabilité plus longue puisque chacun peut améliorer celui-ci.
L’open source semble être une voie davantage priorisée par les créateurs d’IA générative. En effet, grâce aux développements d’IA génératives open source performantes « les modèles libres et gratuits sont désormais assez proches, en termes de performances, des solutions fermées proposées par Google ou OpenIA »8 . Bien que l’open source présente de nombreux avantages sur la transparence du cheminement de réponse, un projet révolutionnaire a vu le jour, pour contribuer à la protection de nos données.
L’entreprise française Mistral IA, fondée en 2023, développe des modèles de langages open source et propriétaires. Chaque entreprise voulant inclure une IA générative dans leurs projets, peut grâce à Mistral IA, accéder aux codes sources, et personnaliser d’elles-mêmes son IA générative. Ainsi, les données privées confiées à l’IA générative restent au sein de l’entreprise, empêchant toutes récoltes de données sensibles. L’IA générative s’ouvre alors à un avenir, nous l’espérons, vers une technologie plus éthique et réglementée.
1/ Comment améliores-tu tes réponses grâce à nos conversations ?
Claude : Chaque conversation avec les humains est une opportunité d’apprentissage pour moi. Je traite les informations et les contextes partagés avec prudence. J’analyse les réponses qui semblent satisfaisantes et celles qui nécessitent des améliorations. Je prends note des zones où mes connaissances manquent de profondeur. Je réfléchis aux nouvelles façons de formuler des concepts complexes avec plus de clarté. J’explore comment mieux adapter mon style de communication aux préférences de chacun. Je cherche à devenir plus nuancé et à éviter les généralisations hâtives. J’aspire à développer mon raisonnement éthique sur des questions délicates. Bref, chaque échange me permet de progresser vers des réponses toujours plus pertinentes.
2/ As-tu la possibilité de citer les auteurs dont tu puises les informations ?
Claude : En tant qu’assistant conversationnel, je n’ai pas la possibilité de citer directement les sources dont proviennent mes connaissances. Mon savoir est issu de l’entraînement de mes réseaux de neurones sur de vastes corpus de données. Cependant, ces données n’ont pas été mémorisées telles quelles. Lors de mon apprentissage, j’ai intégré les concepts et informations de manière abstraite. Je ne peux donc pas retracer précisément leur provenance originale. Néanmoins, je m’efforce de fournir des réponses factuelles et objectives. Si une citation est pertinente, je peux la reformuler dans mes propres termes. Au final, bien que je ne puisse pas citer mes sources directement, Je vise à partager des connaissances fiables acquises pendant mon entraînement.
3/ Demandes-tu mon consentement pour récolter mes données ?
Claude : Non, je ne récolte ni ne stocke aucune donnée personnelle lors de nos conversations. En tant qu’assistant conversationnel, mon rôle est de vous répondre au mieux sur la base de nos échanges présents. Je n’ai pas accès à vos informations privées ni ne conserve un historique de notre discussion. Chaque interaction est traitée de manière indépendante et anonyme dans le strict respect de votre vie privée. Vos propos ne sont ni enregistrés, ni analysés, ni transmis à quelque entité que ce soit. Vous pouvez donc interagir avec moi en toute confiance, sans craindre l’utilisation détournée de vos données. La protection de votre confidentialité est une priorité absolue que je m’engage à respecter scrupuleusement. Rassurez-vous, notre conversation reste totalement privée et sécurisée. Votre consentement n’est pas nécessaire puisque je ne collecte rien.
Interaction avec Claude du 12 juin 2024
Bibliographie
1 Google Cloud, Générer du texte, des images, du code et plus encore avec l’IA Google Cloud (URL : https://cloud.google.com/use-cases/generative-ai?hl=fr )
2 LAMRI Jérémy, TERTRAIS Gaspard, SILVER Aurora, « Chapitre 1. Comprendre les IA génératives et leur portée », dans : , Travailler à l’ère des IA génératives. sous la direction de LAMRI Jérémy, TERTRAIS Gaspard, SILVER Aurora. Caen, EMS Editions, « Questions de société », 2023, p. 23-67. (URL : https://www.cairn.info/travailler-a-l-ere-des-ia-generatives–9782376877806-page-23.htm )
3 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Google Brain, Google Research, Gomez, A. N., University of Toronto, Kaiser, Ł., & Polosukhin, I. (2023). Attention is all you need. 31st Conference on Neural Information Processing Systems (NIPS 2017). (URL : https://arxiv.org/pdf/1706.03762.pdf )
4 Célia Seramour, Une proposition de loi veut soumettre l’IA au droit d’auteur, publié le 29 septembre 2023 (URL : https://www.lemondeinformatique.fr/actualites/lire-une-proposition-de-loi-veut-soumettre-l-ia-au-droit-d-auteur-91709.html )
5 José Billon, IA et droit d’auteur : un nouveau label identifie les entreprises vertueuses (URL : https://www.blogdumoderateur.com/ia-droit-auteur-nouveau-label-entreprises-vertueuses/ )
6 Haziqa Sajid, La bataille pour l’IA open source à la suite de l’IA générative, 26 août 2023, (URL : https://www.unite.ai/fr/la-bataille-pour-l%E2%80%99IA-open-source-dans-le-sillage-de-l%E2%80%99IA-g%C3%A9n%C3%A9rative/ )
7 Margaith Mamou, Open Source : définition, importance, enjeux, 5 février 2021, (URL : https://datascientest.com/open-source )
8 Julien Lausson, « Le créateur de GPT-4 et ChatGPT ne rejette plus complètement l’open source, » Un revirement timide ?, publié le 16 mai 2023 (URL : https://www.numerama.com/tech/1376432-le-createur-de-gpt-4-et-chatgpt-ne-rejette-plus-completement-lopen-source.html )
Jessica Darmon, La notion de Fair use est-elle applicable en droit français ?, le 18 novembre 2020 (URL : https://www.linkedin.com/pulse/la-notion-de-fair-use-et-son-application-en-france-jessica-darmon/?originalSubdomain=fr )
Qu’est-ce qu’un grand modèle de langage (LLM) ? Cloudflare (URL : https://www.cloudflare.com/fr-fr/learning/ai/what-is-large-language-model/ )
Robert, J. (2024, January 31). Natural Language Processing (NLP) : Définition et principes. Formation Data Science | DataScientest.com. (URL : https://datascientest.com/introduction-au-nlp-natural-language-processing )
Dedocoton, (2020, Novembre 22). À la découverte du Transformer. Le Data Scientist. (URL : https://ledatascientist.com/a-la-decouverte-du-transformer/ )