Connect with us

Kunstmatige intelligentie

Betwiste AI-trainings tactieken een groeiende zorg

mm
Securities.io maintains rigorous editorial standards and may receive compensation from reviewed links. We are not a registered investment adviser and this is not investment advice. Please view our affiliate disclosure.
AI Training Tactics

AI-trainings tactieken blijven onder vuur liggen vanwege het gebrek aan toezicht. Het is gebruikelijk voor hedendaagse schrijvers om inspiratie en zelfs aspecten te lenen van eerdere verhalen. Hoewel deze praktijk deel uitmaakt van de evolutie van schrijven, zijn er momenten waarop een auteur zijn werken en stijl zonder toestemming worden gedupliceerd.

Wanneer deze situatie zich voordoet, staan hedendaagse auteursrechwetten de oorspronkelijke content creator toe om verlies te claimen. Echter, hetzelfde kan niet gezegd worden over het groeiende aantal AI-systemen dat is aangetroffen om illegaal verkregen werken te gebruiken om hun modellen te ontwikkelen. Nu staat de industrie op een kruispunt in termen van trainings tactieken en vergoeding voor hen die verlies hebben geleden. Hier is wat u moet weten.

Twijfelachtige AI-trainings tactieken

Een reeks rechtszaken claimen nu dat OpenAI en META (META ) bewust werkzaamheden hebben uitgevoerd om werk rond te komen bij het verwerven van bibliotheekgegevens voor hun modeltraining. De eisers van de rechtszaak claimen dat het bedrijf zich ervan bewust was en het niet kon schelen dat ze mogelijk miljoenen van auteurs zonder compensatie of vermelding stalen.

Dergelijke claims zijn geen grote verrassing voor velen die geloven dat de AI-race heeft geleid tot een basisgebrek aan respect voor auteursrechten. Als zodanig blijven auteurs tegen AI-ontwikkelaars pushen, waarin ze meer transparantie eisen over hoe gegevens worden verworven en verwerkt door deze systemen.

Hoewel er nog geen duidelijke paden met het publiek zijn gedeeld, is het bewijs begonnen te accumuleren tegen de AI-bedrijven. Dit bewijs kan resulteren in ingrijpende veranderingen in de trainings tactieken die door AI-ontwikkelaars in de toekomst worden gebruikt.

Trainings tactieken gebruikt door bedrijven om modellen te creëren

Het trainen van een AI-systeem is een complex proces dat het verzamelen en verwerken van enorme hoeveelheden gegevens van verschillende bronnen kan omvatten. Deze gegevens zijn wat het AI-systeem raadpleegt wanneer het probeert vragen te beantwoorden of nieuwe scenario’s uit te werken. Derhalve presteren de meeste AI-systemen beter wanneer ze meer gegevens hebben om naar te verwijzen.

AI creëren

De primaire manier om een AI-model te creëren, omvat gegevensverzameling. In het verleden was gegevensverzameling een tijdrovend proces dat vereiste dat ingenieurs bestaande databases zochten in plaats van van scratch te bouwen. Bijvoorbeeld, zorgverleners kunnen een AI ontwikkelen die nationale gezondheidsstatistieken gebruikt om meer relevante medische antwoorden te geven.

Van daaruit beslissen de ontwikkelaars welk algoritme ze zullen kiezen. De belangrijkste opties zijn supervised learning, unsupervised, semi-supervised, reinforced learning, linear regression, deep learning, random forest, naïeve Bayes en neurale netwerken. Elk van deze algoritmes biedt unieke voor- en nadelen, die ze beter geschikt maken voor specifieke taken.

Ten slotte begint het iteratieve trainingsproces. In deze fase wordt het model ondervraagd en beoordeeld op de nauwkeurigheid en prestaties die het levert. Deze stap stelt ingenieurs in staat om het model te fine-tunen en te valideren, waardoor de mogelijkheden worden verbeterd. Deze fase helpt ingenieurs er ook voor te zorgen dat het model blijft leren van de trainingsgegevens, in plaats van ze alleen te memoriseren.

Source - Uptech.team

Source – Uptech.team

Huidige AI-trainings tactieken zijn duur

Het AI-model trainingsproces is tijdrovend en duur en kan worden onderverdeeld in twee hoofdcategorieën: training en uitvoering. Training verwijst naar de eenmalige kosten van het creëren van een specifiek model. Bijvoorbeeld, ChatGPT heeft ongeveer $100M uitgegeven aan zijn 4o-model, volgens de CEO van het bedrijf, Sam Altman.

Opvallend genoeg verbleekten deze kosten eerder modeluitgaven. Bijvoorbeeld, ChatGPT-3 kostte ongeveer $4M om te trainen. De stijgende kosten van AI-training zijn het directe resultaat van meer computationele vereisten. De nieuwste modellen draaien op de nieuwste NVIDIA-chips, waardoor de kosten toenemen.

Bovendien heeft AI de prijzen van cloud computing verhoogd. De meeste AI-toepassingen draaien niet native op gebruikers-PC’s. In plaats daarvan vertrouwen ze op state-of-the-art datacenters en cloud computing-algoritmes om de enorme computationele vereisten te ondersteunen. Al deze factoren hebben het programmeren van AI duur gemaakt.

AI-markten

Een recente sprong in het aantal AI-trainingsmarkten geeft aan dat er nu meer ontwikkelingen in de ruimte zijn die proberen om op kosten te besparen. AI-markten stellen ontwikkelaars, content creators en hen die AI-integratie zoeken in staat om samen te komen. Ontwikkelaars kunnen al gebouwde modellen vinden die ze kunnen verbeteren of fine-tunen voor hun behoeften, waardoor ze veel tijd en middelen besparen.

Uitvoeringskosten

De uitvoerings- of inferentiekosten van AI-systemen zijn een andere uitgave die ontwikkelaars moeten overwegen. De inferentiekosten verwijzen naar hoeveel geld elke interactie met de AI kost. De kosten van het uitvoeren van veel van de huidige AI-systemen zijn hoger omdat het systeem alle gegevens in zijn model moet raadplegen om een nauwkeurig en nuttig antwoord te geven. Deze stap betekent dat de AI veel rekenkracht nodig heeft, van hoge prestatieuitgeruste machines, frequent. Deze vereiste voegt aanzienlijke kosten toe aan het systeem.

Zijn de huidige AI-trainings tactieken ethisch?

Wanneer u naar de trainings tactieken en strategieën kijkt die door de grote AI-bedrijven worden gebruikt, is het gemakkelijk om ethisch en moreel uitdagende standpunten in de industrie te zien. Ja, om de beste AI-systemen te maken, moeten ontwikkelaars waardevolle en nauwkeurige gegevens aan het model bieden. Echter, sommige ontwikkelaars beweren dat de kosten van het verkrijgen van auteursrechtelijke goedkeuring voor alle gegevens die in de set worden gebruikt, astronomisch zouden zijn, waardoor innovatie zou worden belemmerd.

Internationale auteursrechten beschermen auteurs tegen ongeautoriseerd gebruik van hun werken, stijl en gelijkenis. AI-systemen lijken een juridische lacune te hebben gevonden in die ze bijna exacte replica’s van personen, plaatsen, informatie en verhalen kunnen gebruiken, met weinig juridische tegenstand tot nu toe.

Echter, er is een groeiende sentiment onder content creators dat deze systemen hun werken illegaal hebben verkregen en vervolgens hebben gebruikt om AI-modellen te trainen om het formaat, de toon en de stijl te dupliceren. Bewijs van het illegale gebruik van auteursrechtelijk beschermde boeken binnen OpenAI’s trainingsmodellen is onthuld door recente onthullingen.

OpenAI-rechtszaak

In de OpenAI rechtszaak, beweren de eisers dat de ontwikkelaars bewust schaduw bibliotheken hebben gebruikt om te voorkomen dat ze voor grote collecties boeken moesten betalen. Schaduw bibliotheken zijn online platforms die toegang bieden tot auteursrechtelijk beschermde werken zonder kosten. Degenen die in de OpenAI-rechtszaak worden genoemd, zijn LibGen, Bok, Sci-Hub en Bibliotik.

De rechtszaak probeert aan te tonen dat OpenAI en META wisten dat ze auteursrechtenwetten omzeilden. Het toont aan hoe de bedrijven schaduw bibliotheken en andere gratis bronnen hebben gebruikt om hun trainingskosten aanzienlijk te verlagen, terwijl ze auteurs van hun rechtmatige betalingen beroven.

Als reactie op de beschuldigingen, deed META alsof het niet op de hoogte was van dergelijke acties. Echter, nadat e-mails naar boven kwamen die geloofd worden te onthullen dat het bedrijf volledig op de hoogte was van zijn acties, en uitleggen dat het 81,7 terabyte aan gegevens van schaduw bibliotheken heeft getorrent, wat miljoenen werken vertegenwoordigt.

META ongecensureerde e-mails

Ironisch genoeg waren het interne e-mails die onthulden dat het bedrijf zich ervan bewust was van de twijfelachtige aard van zijn beslissing om schaduw bibliotheken te gebruiken. In de ongecensureerde e-mails, vraagt een bezorgde ingenieur genaamd Nikolay Bashlykov de moraliteit van het project, voordat hij een grap maakt over de legaliteit van het plan.

In latere e-mails, verklaarde de werknemer dat hij zich zorgen maakte over het gebruik van META IP-adressen om gepirateerde inhoud te downloaden. Het erkennen dat dit een probleem kon zijn, instrueerde META ingenieurs om de gegevens van buiten servers te downloaden die niet verbonden waren met Facebook of META.

Orders van boven

Toen oorspronkelijk gevraagd naar META’s betrokkenheid bij het torrenten, verklaarde Mark Zuckerberg dat hij geen idee had van het proces. De ongecensureerde e-mails bewezen het tegenovergestelde. De e-mails worden geloofd te laten zien dat de beslissing om niet-FB-servers te gebruiken, kwam na Zuckerberg’s directe goedkeuring.

Gebruiken AI-ontwikkelaars gestolen inhoud?

Gezien het bewijs en de plotselinge verbetering van AI-mogelijkheden, lijkt het overduidelijk dat veel AI-systemen zijn overgestapt op schaduw bibliotheken en andere middelen om effectievere trainingsmodellen te bouwen. Deze datasets bevatten auteursrechtelijk beschermde materialen die nooit de toestemming van auteurs of uitgevers hebben gekregen om te worden gebruikt voor het trainen van AI-modellen.

Is het illegaal?

Hoewel het moeilijker wordt om het gebruik van gepirateerde materialen in de meest geavanceerde AI-modellen te ontkennen, blijft de legaliteit van de praktijk in twijfel. Geen enkel AI-bedrijf is onderworpen aan auteursrechtelijke wetten. Bovendien is de AI-race in volle gang en veel politici kunnen het beperken van de toegang van hun lokale AI-systemen tot gegevens zien als een belemmering voor innovatie. Als zodanig kunnen ze niet overgaan tot het maken van het bestrijden van AI-auteursrechtelijke inbreuken zo gemakkelijk als traditionele diefstal.

Rechtszaken stromen binnen

Regulators kunnen niet klaar zijn om de hitte op AI-bedrijven te zetten, maar de content creators hebben er genoeg van. Rechtszaken blijven binnenkomen van ontgoochelde auteurs die beweren dat hun inhoud illegaal is verkregen, gedistribueerd en gedupliceerd zonder enige compensatie.

Onlangs heeft Joseph Saveri Law Firm een Amerikaanse federale collectieve rechtszaak ingediend over deze kwestie. De rechtszaak, die werd ingediend namens Sarah Silverman en andere auteurs tegen OpenAI en META, zoekt compensatie voor verliezen veroorzaakt door het vermogen van het product om het formaat en de stijl te dupliceren.

De collectieve rechtszaak beweert meerdere schendingen van de Digital Millennium Copyright Act, criminele nalatigheid en oneerlijke concurrentie wetten. Het doel van de rechtszaak is om een permanente injunction te krijgen op deze trainings tactieken totdat een eerlijke compensatie- en beschermingsstrategie kan worden ingesteld voor auteurs.

Moeten content creators worden gecompenseerd voor AI-gebruik?

Er is een groeiende zorg voor content creators op de markt. Naarmate AI-systemen evolueren, zullen ze nog meer auteursrechtelijk beschermde materialen consumeren. In het verleden hebben ingenieurs gezien dat bedrijven copyright management informatie uitschakelen om het risico van hun acties te verlagen. Echter, de tijden veranderen.

Terug in juli 2023, hebben een groep van +8000 schrijvers een brief geschreven aan META CEO Mark Zuckerberg, OpenAI CEO Sam Altman, Alphabet CEO Sundar Pichai, Stability AI CEO Emad Mostaque, IBM CEO Arvind Krishna en Microsoft CEO Satya Nadella. De brief verklaart dat AI “onze taal, verhalen, stijl en ideeën imiteert en herhaalt.” Het eist compensatie en erkenning.

De Writers Guild of America en de Screen Actors Guild hebben ook hun stem laten horen over het gebruik van hun werken binnen de AI-sector. Ze zoeken naar garanties voor bepaalde rechten en compensatie voor schrijvers wanneer hun werken worden gebruikt om AI-modellen te creëren.

Trainings tactieken opties verschijnen

Het erkennen van de beperkingen van de huidige setup en hoe het ontbreekt aan een echte legitieme manier vooruit, heeft BookCorpus een betere oplossing geboden. Het bedrijf werd opgericht in 2015 met het specifieke doel om AI-onderzoekers te ondersteunen bij het trainen van LLM’s. Als zodanig, bevat het duizenden werken en modellen die zijn ontworpen om prestaties te verbeteren, zonder ethische grenzen te overschrijden.

Al zijn er meerdere AI-gerichte dienstverleners die de markt betreden. Deze bedrijven combineren toegang tot waardevolle gegevens, modellen en meer. Ze zijn ontworpen om AI-computationele vereisten te ondersteunen en komen vaak met een vorm van cloud computing-optie om ontwikkelingskosten verder te verlagen.

Bedrijven die de AI LLM’s revolutie leiden

De opkomst van LLM’s heeft het gemakkelijker gemaakt dan ooit voor iedereen om met deze systemen te interacteren. Van een eenvoudige chat-prompt, kunt u diepgaand onderzoek uitvoeren, afbeeldingen en verhalen creëren en veel meer. Derhalve worden LLM’s gezien als een van de grootste doorbraken in computerinteractie technologie in een leven. Hier is een bedrijf dat blijft innoveren in de LLM-markt.

Alphabet Inc

Alphabet Inc. (GOOG ) is het moederbedrijf van Google en zijn vele dochterondernemingen. Het is een van de meest herkenbare en succesvolle bedrijven in de AI-sector. Het is interessant dat de ingenieurs ervoor kiezen om het bedrijfs andere model, Google DeepMind, te gebruiken om Google’s Gemini LLM te creëren. Gemini is een geavanceerd LLM dat vertaalt, inhoud begrijpt, vragen beantwoordt en veel meer.

Opvallend genoeg is Google DeepMind hard aan het werk om LLM’s en nieuwe functies voor het bedrijf te creëren. Bijvoorbeeld, de nieuwe SELF-DISCOVER functie creëert taak-specifieke architectuur binnen de modellen, waardoor de totale tijd die nodig is om vragen nauwkeurig te beantwoorden, wordt verlaagd.

(GOOG )

Gezien Google’s dominantie in de markt, directe toegang tot enorme gegevens en voortdurende expansie in purpose-built modellen, is GOOG een slim aandeel om te houden. Het bedrijf is een van de top-presterende AI-aanbieders wereldwijd en heeft het netwerk en de financiën om zijn technologie te integreren en effectief naar het publiek uit te breiden.

Hoe zullen trainings tactieken in de toekomst veranderen

U kunt verwachten dat AI-trainings tactieken meer verfijnde AI-systemen voor gegevens zullen gebruiken naarmate de industrie zich uitbreidt. DeepSeek heeft aangetoond dat zijn aanpak de kosten aanzienlijk verlaagde. Bovendien zal het moeilijker worden om auteursrechtelijke inbreuken te claimen als het bedrijf alleen gegevens gebruikt die zijn gegenereerd door een andere AI, in plaats van rechtstreeks.

Al deze factoren en de groeiende vraag van regeringen om de AI-race te leiden, hebben content creators naar een gevaarlijke plek gebracht. Hopelijk zullen AI-ontwikkelaars in de komende maanden meer effectieve trainings tactieken creëren die respect en compensatie bieden aan hen wiens gegevens ze gebruiken voor succes.

Leer over andere cool AI-projecten Nu.

David Hamilton is een full-time journalist en een lange tijd bitcoinist. Hij specialiseert zich in het schrijven van artikelen over de blockchain. Zijn artikelen zijn gepubliceerd in meerdere bitcoin publicaties, waaronder Bitcoinlightning.com

Advertiser Disclosure: Securities.io is committed to rigorous editorial standards to provide our readers with accurate reviews and ratings. We may receive compensation when you click on links to products we reviewed. ESMA: CFDs are complex instruments and come with a high risk of losing money rapidly due to leverage. Between 74-89% of retail investor accounts lose money when trading CFDs. You should consider whether you understand how CFDs work and whether you can afford to take the high risk of losing your money. Investment advice disclaimer: The information contained on this website is provided for educational purposes, and does not constitute investment advice. Trading Risk Disclaimer: There is a very high degree of risk involved in trading securities. Trading in any type of financial product including forex, CFDs, stocks, and cryptocurrencies. This risk is higher with Cryptocurrencies due to markets being decentralized and non-regulated. You should be aware that you may lose a significant portion of your portfolio. Securities.io is not a registered broker, analyst, or investment advisor.