Les modèles d’intelligence artificielle exploitent le contenu gratuit disponible sur Internet, et une crise se profile à l’horizon : que se passera-t-il lorsqu’il ne restera plus de données à utiliser pour l’entraînement?
Un rapport récent de Copyleaks a mis en lumière que Deepseek, un modèle d’IA provenant de Chine, génère souvent des réponses très proches de celles de ChatGPT, alimentant des inquiétudes quant à une formation basée sur les sorties d’OpenAI.
Ce constat laisse penser que la période où les modèles pouvaient facilement accéder à des données de qualité est en train de s’achever.
En décembre dernier, Sundar Pichai, le PDG de Google, a reconnu cette problématique, avertissant que les développeurs d’IA sont en train d’épuiser les ressources de données d’entraînement disponibles et de qualité.
« Dans cette génération de modèles de langage, quelques entreprises ont atteint un sommet, mais je pense que nous travaillons tous sur nos prochaines versions », a déclaré Pichai lors du sommet annuel de l’accord du New York Times en décembre. « Les progrès vont devenir plus difficiles. »
Face à la diminution de l’offre de données d’un bon niveau, de nombreux chercheurs en IA se tournent vers des données synthétiques créées par d’autres intelligences artificielles.
Les données synthétiques ne sont pas un concept nouveau – elles datent des années 1960 et sont utilisées dans les statistiques ainsi que l’apprentissage automatique, en s’appuyant sur des algorithmes et des simulations pour produire des ensembles de données artificiels qui imitent des informations réelles. Cependant, leur rôle croissant dans le développement de l’IA suscite de nouvelles préoccupations, surtout lorsque les systèmes d’IA s’intègrent dans des technologies décentralisées.
Bootstrap Ai
« Les données synthétiques existent depuis longtemps dans le domaine des statistiques – ce que l’on appelle le bootstrap », a déclaré Muriel Médard, professeur d’ingénierie logicielle au MIT, dans une interview avec décrypté lors de l’ETH Denver 2025. « Vous commencez avec des données réelles et pensez : “Je veux plus, mais je ne veux pas payer pour cela. Je vais rattraper cela sur la base de ce que j’ai.” »
Medard, cofondatrice de la plateforme d’infrastructure de mémoire décentralisée Optimum, a déclaré que le principal défi en matière de formation de modèles d’IA ne réside pas dans le manque de données, mais plutôt dans leur accessibilité.
« Vous recherchez davantage ou ajustez ce que vous avez », a-t-elle ajouté. « L’accès aux données, en particulier sur la chaîne, où la recherche et les mises à jour sont essentielles – ajoute une couche de complexité supplémentaire. »
Les développeurs d’IA font face à des restrictions de confidentialité croissantes et à un accès limité aux ensembles de données réelles, rendant les données synthétiques une alternative indispensable pour la formation des modèles.
« Comme les restrictions de confidentialité et les politiques générales de contenu deviennent de plus en plus rigoureuses, l’utilisation de données synthétiques va devenir une nécessité, tant par commodité que par crainte de responsabilités légales », a précisé Nick Sanchez, architecte senior des solutions chez Druid AI.
« Pour l’instant, ce n’est pas une solution idéale, car les données synthétiques peuvent contenir des biais similaires à ceux que l’on trouve dans les données réelles, mais leur rôle dans la gestion du consentement, du droit d’auteur et des problèmes de confidentialité ne cessera d’augmenter dans le temps », a-t-il ajouté.
Risques et récompenses
Alors que l’utilisation des données synthétiques se développe, les inquiétudes concernant leur potentiel de manipulation et d’abus se renforcent.
« Les données synthétiques peuvent être utilisées pour incorporer de fausses informations dans les ensembles de formation, trompant intentionnellement les modèles d’IA », a souligné Sanchez, « ce qui est particulièrement préoccupant dans des applications sensibles telles que la détection de fraude, où des acteurs malveillants peuvent utiliser des données synthétiques pour créer des modèles qui n’identifient pas certains comportements frauduleux. »
La technologie blockchain pourrait aider à atténuer les risques liés aux données synthétiques, a expliqué Medard, en soulignant que l’objectif est de rendre les données adaptables plutôt qu’inaltérables.
« Lorsque vous mettez à jour les données, ce n’est pas une annulation – vous opérez des ajustements et observez », a-t-elle ajouté. « Lorsque les gens parlent d’immuabilité, ils évoquent en réalité la durabilité, mais le cadre d’ensemble compte énormément. »
Écrit par Crypto Edu
Newsletter généralement intelligent
Un voyage hebdomadaire d’IA raconté par Gen, un modèle générateur d’IA.
Source: https://decrypt.co/308876/ai-developers-turn-to-synthetic-data-as-original-content-dries-up