Intelligence artificielle

Tactiques d’entraînement d’IA douteuses : une préoccupation croissante

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.
AI Training Tactics

Les tactiques d’entraînement d’IA continuent d’être scrutées en raison de leur manque de supervision. Il est courant que les écrivains contemporains s’inspirent et même empruntent des aspects d’histoires antérieures. Bien que cette pratique fasse partie de l’évolution de l’écriture, il arrive que les œuvres et le style d’un auteur soient dupliqués sans consentement.

Tactiques d’entraînement d’IA douteuses

Une rafale de procès affirme désormais qu’OpenAI et META (META ) ont délibérément recherché des solutions de contournement lors de l’acquisition de données de bibliothèques pour l’entraînement de leurs modèles. Les plaignants du procès soutiennent que l’entreprise était consciente et se fichait de voler potentiellement des millions aux auteurs sans compensation, voire même sans mention.

De telles allégations ne surprennent pas beaucoup ceux qui estiment que la course à l’IA a engendré un mépris fondamental des lois sur le droit d’auteur. Ainsi, les auteurs continuent de s’opposer aux développeurs d’IA, réclamant davantage de transparence sur la façon dont les données sont acquises et traitées par ces systèmes.

Bien qu’aucune voie claire n’ait encore été communiquée au public, les preuves commencent à s’accumuler contre les entreprises d’IA. Ces preuves pourraient entraîner des changements radicaux dans les tactiques d’entraînement utilisées par les développeurs d’IA à l’avenir.

Tactiques d’entraînement utilisées par les entreprises pour créer des modèles

L’entraînement d’un système d’IA est un processus complexe qui peut impliquer la collecte et le traitement d’énormes quantités de données provenant de diverses sources. Ces données sont celles que le système d’IA utilise lorsqu’il tente de répondre à des questions ou de résoudre de nouveaux scénarios. Par conséquent, la plupart des systèmes d’IA fonctionnent mieux lorsqu’ils disposent de davantage de données de référence.

Création d’IA

La principale méthode pour créer un modèle d’IA implique la collecte de données. Par le passé, la collecte de données était un processus chronophage qui obligeait les ingénieurs à rechercher des bases de données déjà existantes plutôt qu’à construire à partir de zéro. Par exemple, les prestataires de soins de santé peuvent développer une IA qui exploite les statistiques sanitaires nationales afin de fournir des réponses médicales plus pertinentes.

À partir de là, les développeurs décident quel algorithme choisir. Les principales options sont l’apprentissage supervisé, non supervisé, semi‑supervisé, l’apprentissage par renforcement, la régression linéaire, l’apprentissage profond, la forêt aléatoire, le naïf Bayes et les réseaux neuronaux. Chacun de ces algorithmes offre des avantages et des inconvénients uniques, ce qui les rend plus adaptés à des tâches particulières.

Enfin, le processus d’entraînement itératif commence. À cette étape, le modèle est interrogé et évalué sur la précision et les performances fournies. Cette étape permet aux ingénieurs d’affiner et de valider le modèle, améliorant ainsi ses capacités. Elle aide également les ingénieurs à s’assurer que le modèle continue d’apprendre à partir des données d’entraînement, plutôt que de simplement les mémoriser.

Source - Uptech.team

Source – Uptech.team

Les tactiques d’entraînement d’IA actuelles sont coûteuses

Le processus d’entraînement d’un modèle d’IA est long et coûteux et peut être divisé en deux catégories principales: l’entraînement et l’exécution. L’entraînement fait référence au coût unique de création d’un modèle particulier. Par exemple, ChatGPT a dépensé environ 100 M$ pour son modèle 4o, selon le PDG de l’entreprise, Sam Altman.

Il convient de noter que ces coûts dépassent largement les dépenses des modèles précédents. Par exemple, entraîner ChatGPT‑3 coûte environ 4 M$. L’augmentation des coûts d’entraînement de l’IA résulte directement de besoins informatiques plus importants. Les modèles les plus récents fonctionnent sur les dernières puces NVIDIA, ce qui augmente leurs coûts.

De plus, l’IA a fait grimper les prix du cloud computing. La majorité des applications d’IA ne s’exécutent pas nativement sur les PC des utilisateurs. Elles s’appuient plutôt sur des centres de données de pointe et des algorithmes de cloud computing pour soutenir les exigences de calcul massives. Tous ces facteurs ont rendu la programmation d’IA coûteuse.

Places de marché d’IA

Une récente augmentation du nombre de places de marché d’entraînement d’IA indique qu’il existe désormais davantage de développements dans ce domaine cherchant à réduire les coûts. Les places de marché d’IA permettent aux développeurs, créateurs de contenu et à ceux qui recherchent une intégration d’IA de se rencontrer. Les développeurs peuvent trouver des modèles déjà construits qu’ils peuvent améliorer ou affiner selon leurs besoins, économisant ainsi beaucoup de temps et de financement.

Coût d’exécution

Les coûts d’exécution ou d’inférence des systèmes d’IA constituent une autre dépense que les développeurs doivent prendre en compte. Le coût d’inférence correspond au montant dépensé pour chaque interaction avec l’IA. Le coût d’exécution de nombreux systèmes d’IA actuels est plus élevé car le système doit accéder à toutes les données de son modèle pour fournir une réponse précise et utile. Cette étape implique que l’IA devra utiliser beaucoup de puissance de calcul, provenant fréquemment de machines haute performance. Cette exigence ajoute des coûts significatifs au système.

Les tactiques d’entraînement d’IA d’aujourd’hui sont-elles éthiques ?

Lorsque l’on examine les tactiques et stratégies d’entraînement employées par les gigantesques entreprises d’IA d’aujourd’hui, il est facile de constater que des positions éthiquement et moralement difficiles existent au sein de l’industrie. Oui, pour créer les meilleurs systèmes d’IA, les développeurs doivent fournir des données précieuses et précises au modèle. Cependant, certains développeurs soutiennent que le coût d’obtention des autorisations de droits d’auteur pour l’ensemble des données utilisées serait astronomique, étouffant ainsi l’innovation.

Le droit d’auteur international protège les auteurs contre l’utilisation non autorisée de leurs œuvres, de leur style et de leur image. Les systèmes d’IA semblent avoir trouvé une faille juridique leur permettant d’utiliser des répliques presque exactes de personnes, de lieux, d’informations et d’histoires, avec peu de réactions juridiques signalées jusqu’à présent.

Cependant, un sentiment croissant parmi les créateurs de contenu indique que ces systèmes ont obtenu illégalement leurs œuvres puis les ont utilisées pour entraîner des modèles d’IA afin de dupliquer le format, le ton et le style. Des preuves de l’utilisation illégale de livres protégés par le droit d’auteur dans les modèles d’entraînement d’OpenAI ont été révélées récemment.

Procès OpenAI

Dans le procès contre OpenAI, les plaignants allèguent que les développeurs ont sciemment utilisé des bibliothèques fantômes pour éviter de payer de grandes collections de livres. Les bibliothèques fantômes sont des plateformes en ligne qui offrent un accès gratuit à des œuvres protégées par le droit d’auteur. Celles répertoriées dans le procès contre OpenAI incluent LibGen, Bok, Sci‑Hub et Bibliotik.

Le procès vise à prouver qu’OpenAI et META savaient qu’ils contournèrent les lois sur le droit d’auteur. Il montre comment les entreprises ont utilisé des bibliothèques fantômes et d’autres sources gratuites pour réduire considérablement leurs coûts d’entraînement tout en privant les auteurs de leurs paiements légitimes.

En réponse aux allégations, META a d’abord agi comme si elle n’était pas au courant de telles actions. Cependant, après la diffusion d’e‑mails qui, selon les croyances, révèlent la compréhension complète de l’entreprise de ses actions, et expliquent qu’elle a téléchargé en torrent plus de 81,7 téraoctets de données provenant de bibliothèques fantômes, équivalant à des millions d’œuvres.

Emails non censurés de META

Ironiquement, ce sont des e‑mails internes qui ont révélé que l’entreprise était bien consciente de la nature douteuse de sa décision d’utiliser des bibliothèques fantômes. Dans les e‑mails non censurés, un ingénieur inquiet nommé Nikolay Bashlykov remet en question la moralité du projet, avant de plaisanter sur la légalité du plan.

Dans des e‑mails ultérieurs, l’employé a déclaré qu’il était inquiet d’utiliser les adresses IP de META pour charger du contenu piraté en torrent. Reconnaissant que cela pouvait poser problème, META a demandé aux ingénieurs de télécharger les données depuis des serveurs externes non connectés à Facebook ou à META.

Ordres du sommet

Lorsqu’on l’a initialement interrogé sur l’implication de META dans le torrent, Mark Zuckerberg a déclaré qu’il n’avait aucune idée du processus. Les e‑mails non censurés ont prouvé le contraire. On pense que ces e‑mails montrent que la décision d’utiliser des serveurs non‑FB est intervenue uniquement après l’approbation directe de Zuckerberg.

Les développeurs d’IA utilisent-ils du contenu volé ?

Compte tenu des preuves fournies et de l’augmentation soudaine des capacités de l’IA, il semble évident que de nombreux systèmes d’IA se sont tournés vers les bibliothèques fantômes et d’autres moyens pour créer des modèles d’entraînement plus efficaces. Ces ensembles de données contiennent des matériaux protégés par le droit d’auteur qui n’ont jamais reçu le consentement des auteurs ou des éditeurs pour être utilisés dans l’entraînement de modèles d’IA.

Est‑ce illégal ?

Bien qu’il devienne de plus en plus difficile de nier l’utilisation de matériel piraté dans les modèles d’IA les plus avancés d’aujourd’hui, la légalité de cette pratique reste incertaine. Aucune entreprise d’IA n’a encore été soumise aux lois sur la violation du droit d’auteur. De plus, la course à l’IA est en plein essor et de nombreux politiciens peuvent considérer que limiter l’accès des systèmes d’IA locaux aux données constitue un frein à l’innovation. Ainsi, ils pourraient ne pas agir pour rendre la lutte contre la violation du droit d’auteur par l’IA aussi simple que les vols traditionnels.

Des poursuites affluent

Les régulateurs ne sont peut-être pas prêts à mettre la pression sur les entreprises d’IA, mais les créateurs de contenu en ont assez. Les poursuites continuent d’affluer de la part d’auteurs désillusionnés qui affirment que leur contenu a été acquis illégalement, distribué et dupliqué sans aucune compensation.

Récemment, le cabinet d’avocats Joseph Saveri a déposé des recours collectifs fédéraux américains directement à ce sujet. Le recours, déposé au nom de Sarah Silverman et d’autres auteurs contre OpenAI et META, cherche à obtenir des réparations pour les pertes causées par la capacité du produit à dupliquer son format et son style.

Le recours collectif procès allègue de multiples violations du Digital Millennium Copyright Act, de négligence criminelle et de lois sur la concurrence déloyale. L’objectif du procès est d’obtenir une injonction permanente sur ces tactiques d’entraînement jusqu’à ce qu’une stratégie de compensation et de protection équitable puisse être mise en place pour les auteurs.

DeepSeek est-il entraîné par ChatGPT ?

Ironiquement, ChatGPT a allégué être la victime d’un vol intellectuel de la part d’un système d’IA après que la startup chinoise d’IA, DeepSeek a fait des vagues sur le marché, ait émergé. DeepSeek a suscité un engouement après que l’entreprise a dévoilé le mois dernier ses performances impressionnantes, ses faibles coûts et ses capacités avancées au public.

Les développeurs d’OpenAI ont accusé DeepSeek d’utiliser les données de ChatGPT pour programmer son modèle, ce qui lui a permis de créer un modèle surpassant la concurrence à un coût bien moindre. En comparaison, DeepSeek a atteint des performances équivalentes à celles de ChatGPT pour un coût de 6 M$, contre plus de 100 M$ dépensés par ChatGPT.

De plus, DeepSeek parvient à utiliser beaucoup moins de puissance de calcul grâce à sa configuration unique. Les coûts d’inférence de DeepSeek sont bien inférieurs à ceux de ChatGPT en raison de l’utilisation de plusieurs modèles spécialisés plutôt qu’un seul modèle massif.

Ainsi, DeepSeek n’a besoin d’activer le modèle que lorsqu’il fait référence à la question, ce qui lui permet d’utiliser des puces NVIDIA beaucoup moins chères et puissantes. Plus précisément, DeepSeek utilise 1/50 du coût d’exécution du dernier modèle Claude 3.5 Sonnet, ce qui en fait une solution plus rentable pour les entreprises à long terme.

Il emprunte

Il est intéressant de noter que DeepSeek ne nie pas l’utilisation de ChatGPT pour développer des scripts « pensants ». Il décrit même le processus dans le livre blanc original de DeepSeek. Les ingénieurs ont estimé que cette approche fournirait à DeepSeek des informations plus précises, accélérant ainsi son processus de distillation.

De plus, cela a garanti que les données utilisées pour programmer les modèles d’IA des concurrents n’étaient pas utilisées pour programmer DeepSeek. Le résultat est un système plus efficace qui surpasse son prédécesseur et ne coûte qu’une fraction à exploiter. Bien sûr, beaucoup soutiennent que les coûts de ChatGPT devraient être inclus dans le budget de DeepSeek s’ils ont exploité le système pour créer le leur.

Crise d’identité de DeepSeek

Dans un article récent, un chercheur en IA s’est rendu à la source pour vérifier si DeepSeek avait beaucoup emprunté à ChatGPT. Il a commencé par demander au LLM s’il pensait que DeepSeek était plus intelligent que Gemini, le concurrent de Google. Ironiquement, le LLM a répondu qu’il pensait « c’était ChatGPT ». Cette révélation a été perçue par beaucoup comme la preuve nécessaire pour démontrer la quantité massive de données que DeepSeek a récupérées de ChatGPT.

Les créateurs de contenu devraient-ils être compensés pour l’utilisation de l’IA ?

Il y a une préoccupation croissante pour les créateurs de contenu sur le marché. À mesure que les systèmes d’IA évoluent, ils absorberont sans aucun doute encore plus de matériaux protégés par le droit d’auteur. Par le passé, les ingénieurs ont vu des entreprises désactiver les informations de gestion des droits d’auteur afin de réduire le risque que leurs actions soient détectées. Cependant, la tendance s’inverse.

En juillet 2023, un groupe de plus de 8 000 écrivains a signé une lettre adressée au PDG de META Mark Zuckerberg, au PDG d’OpenAI Sam Altman, au PDG d’Alphabet Sundar Pichai, au PDG de Stability AI Emad Mostaque, au PDG d’IBM Arvind Krishna et au PDG de Microsoft Satya Nadella. La lettre indique que l’IA « imite et régurgite notre langue, nos histoires, notre style et nos idées ». Elle exige une compensation et une reconnaissance.

La Writers Guild of America et la Screen Actors Guild se sont également exprimées à propos de l’utilisation de leurs œuvres dans le secteur de l’IA. Elles cherchent à garantir certains droits et une compensation pour les écrivains chaque fois que leurs œuvres sont utilisées pour créer des modèles d’IA.

Des options de tactiques d’entraînement émergent

Reconnaissant les limites de la configuration actuelle et son manque de voie légitime, BookCorpus a cherché à offrir une meilleure solution. L’entreprise a été fondée en 2015 avec l’objectif spécifique de soutenir les chercheurs en IA dans l’entraînement des LLM. Ainsi, elle comprend des milliers d’œuvres et de modèles conçus pour améliorer les performances, sans franchir les limites éthiques.

Déjà, plusieurs fournisseurs de services axés sur l’IA entrent sur le marché. Ces entreprises combinent l’accès à des données précieuses, des modèles et plus encore. Elles sont adaptées aux exigences computationnelles de l’IA et s’accompagnent souvent d’une forme d’option de cloud computing afin de réduire davantage les coûts de développement.

Entreprises leaders de la révolution des LLM d’IA

L’essor des LLM a rendu plus facile que jamais l’interaction avec ces systèmes. À partir d’une simple invite de chat, vous pouvez mener des recherches approfondies, créer des images et des histoires, et bien plus encore. Par conséquent, les LLM sont considérés comme l’une des plus grandes percées technologiques en interaction informatique de notre époque. Voici une entreprise qui continue d’impulser l’innovation sur le marché des LLM.

Alphabet Inc

Alphabet Inc. (GOOG ) est la société mère de Google et de ses nombreuses filiales. C’est l’une des entreprises les plus reconnaissables et réussies du secteur de l’IA. Fait intéressant, les ingénieurs ont choisi d’utiliser l’autre modèle de la société, Google DeepMind, pour créer le LLM Gemini de Google. Gemini est un LLM avancé qui traduit, comprend le contenu, répond aux questions et bien plus encore.

Il convient de noter que Google DeepMind travaille d’arrache-pied à la création de LLM et de nouvelles fonctionnalités pour l’entreprise. Par exemple, la nouvelle fonctionnalité SELF‑DISCOVER crée une architecture spécifique à la tâche au sein des modèles, réduisant le temps global nécessaire pour répondre avec précision aux questions.

(GOOG )

Compte tenu de la domination de Google sur le marché, de son accès direct à d’énormes quantités de données et de son expansion continue vers des modèles conçus sur mesure, GOOG est une action intelligente à détenir. L’entreprise est l’un des fournisseurs d’IA les plus performants au monde et possède le réseau ainsi que les finances nécessaires pour intégrer sa technologie et l’étendre efficacement au public.

Comment les tactiques d’entraînement évolueront-elles à l’avenir

On peut s’attendre à ce que les tactiques d’entraînement d’IA s’appuient sur des systèmes d’IA plus raffinés pour les données à mesure que l’industrie se développe. DeepSeek a démontré que son approche réduisait considérablement les coûts. De plus, il sera plus difficile de revendiquer une violation du droit d’auteur si l’entreprise utilise simplement des données créées par une autre IA plutôt que directement.

Tous ces facteurs et la demande croissante des gouvernements pour mener la course à l’IA ont placé les créateurs de contenu dans une situation très dangereuse. Espérons que, dans les mois à venir, les développeurs d’IA créeront des tactiques d’entraînement plus efficaces qui respecteront et compenseront ceux dont les données sont exploitées pour le succès.

Découvrez d’autres projets d’IA sympas maintenant.

David Hamilton est un journaliste à plein temps et un bitcoiniste de longue date. Il se spécialise dans la rédaction d'articles sur la blockchain. Ses articles ont été publiés dans plusieurs publications bitcoin, notamment Bitcoinlightning.com