Il y a environ une semaine, Bloomberg a annoncé que Reddit avait conclu un important accord de licence en amont de son introduction en bourse, permettant à une entreprise anonyme de former ses modèles d’IA sur leurs données.
Est-ce que Google est cette mystérieuse entreprise?
Un nouveau rapport indique que l’entreprise concernée est Google, bien que ni l’une ni l’autre des parties n’aient confirmé cette information. Si cela s’avère être vrai, ce serait le premier accord de contenu de Reddit.
Pourquoi toutes les entreprises d’IA tente de conclure des accords de licence?
Depuis le début de la course à l’IA, l’accès à de grandes quantités de données de qualité est devenu une priorité. Les modèles d’IA sont formés sur des données – plus les données sur lesquelles ils se forment sont nombreuses, meilleure est la sortie. En plus de la quantité, il y a aussi une perspective de qualité. Les modèles d’IA veulent avoir accès à des données de haute qualité auxquelles leurs concurrents n’ont idéalement pas accès.
Le rôle des éditeurs comme Reddit
C’est ici qu’interviennent des éditeurs comme Reddit. Pendant longtemps, OpenAI et d’autres entreprises d’IA se promenaient librement à travers les données des éditeurs. C’était jusqu’à ce que des éditeurs comme The New York Times et Reddit s’en rendent compte.
En avril dernier, Reddit a déclaré : “Si vous voulez accéder à un puits de données profond de 18 ans, vous allez devoir payer.” Le NYT, quant à lui, a simplement dit “non” (et ils poursuivent OpenAI pour avoir prétendument continué à le faire).
Les gros acteurs signent des accords de licence avec d’énormes éditeurs
Près d’un an plus tard, Google, Apple et OpenAI ont tous signé des accords de licence avec d’énormes éditeurs pour plus de 100 millions de dollars. Le dernier en date est Reddit, qui aurait signé avec Google un accord valant 60 millions de dollars par an. Cet accord a probablement une clause d’exclusivité, garantissant que seule Google a accès à ces données, bien que cela n’ait pas été confirmé.
Dans la perspective de son introduction en bourse, le PDG de Reddit, Steve Huffman, a révélé que l’entreprise avait réalisé plus de 200 millions de dollars grâce à des accords de licence.
Faut-il des garde-fous pour les accords de licence d’IA ?
Certains voient les accords de licence comme une situation gagnant-gagnant : les éditeurs sont payés pour leurs données tandis que les entreprises d’IA ont accès à de grandes quantités de données de qualité.
Cependant, cela vient aussi avec quelques inconvénients. Les plateformes de médias sociaux comme Reddit sont des forums communautaires où les gens peuvent écrire à peu près n’importe quoi. Théories du complot, désinformation, discours haineux.
La qualité de la modération de contenu sur Reddit.
Bien que Reddit dispose de modérateurs de contenu et de politiques, ils n’ont introduit une interdiction du discours haineux que 15 ans après la création du site. Est-ce sur ce genre de contenu que les modèles d’IA doivent être formés ?
Les entreprises d’IA peuvent nettoyer leurs données pour filtrer ce type de contenu, mais il n’y a pas de norme claire sur laquelle chaque modèle est construit. Donc, en tant que consommateur, je ne saurais pas sur quelles données les modèles ont été formés et comment ils ont été “nettoyés”.
Devrait-on refuser certains sites pour la formation des modèles d’IA ?
Cela pose donc la question : certains sites web devraient-ils être interdits lorsqu’il s’agit de former des modèles d’IA ? Et quelles sont les protections en place pour garantir que leurs modèles ne régurgitent pas le contenu le plus sombre de l’internet ?
Ces réponses restent encore en suspens.
€