De AI-industrie is gebouwd op gegevens en die gegevens komen van het internet, dat uiteindelijk van ons, de gebruikers, afkomstig is. Van persoonlijke blogs tot webpagina’s en Reddit-threads, elk woord dat we delen heeft bijgedragen aan de opleiding van AI-chatbots wereldwijd. De analyse van The Washington Post van een openbaar dataset die veel wordt gebruikt voor het trainen van AI, laat zien hoe breed de industrie het 30-jarige treasury van webpublicatie heeft bemonsterd om hun neurale netwerken te onderwijzen.
Terwijl deze enorme verbale hergebruik een belangrijke juridische strijd uitlokt over de vraag of het als eerlijk gebruik of diefstal moet worden behandeld, inspireert het ook een persoonlijke afrekening voor miljoenen mensen die hebben bijgedragen aan het bouwen van de online wereld die we vandaag kennen. We dachten dat we ons hart en onze geest deelden, en dat deden we natuurlijk ook. Maar zonder het te beseffen, creëerden we ook een database, onvolledig maar rijk, van menselijke expressie die de ongelooflijk vaardige zinsvoltooiingsoefeningen van ChatGPT en zijn concurrenten mogelijk maakt.
Deze realisatie heeft echter al invloed gehad op visuele makers, zoals fotografen en illustratoren, die worstelen met het gebruik van hun werk in door AI gegenereerde inhoud. Muzikanten staan voor dezelfde soort epifanie, naarmate door AI opgewekte facsimiles van hun werken vaker voorkomen. Maar veel meer mensen hebben op internet geschreven dan liedjes opgenomen of visuele kunstwerken gemaakt.
Het onderzoek van The Washington Post stelt gebruikers in staat om elke internetdomeinnaam in te voeren om te zien hoeveel het heeft bijgedragen aan een AI-trainingsdatabase. De geanalyseerde dataset bevatte meer dan een half miljoen persoonlijke blogs, wat 3,8% van de totale taalbrokken vertegenwoordigt. Hoewel trainingsdatabases enorm zijn, zijn ze nauwelijks representatief, met sommige culturen, groepen en onderwerpen die oververtegenwoordigd zijn en andere oneerlijk verwaarloosd zijn. Bovendien komen alle vooroordelen, beperkingen en giftige aspecten van de internetcultuur voor in de AI-trainingsgegevens.
Nu de honger van AI naar trainingsgegevens blijft groeien, staat het onbedoelde gevolg van de 30-jarige geschiedenis van het internet als een database van menselijke expressie nu in de schijnwerpers. De digitale voorraden en vuilstortplaatsen van informatie, ideeën en gevoelens die we voor elkaar hebben gecreëerd, zijn brandstof geworden voor AI-doorbraken. Dit roept echter vragen op over de toekomstige impact van AI op de productie van origineel werk en het risico dat toekomstige AI-modellen vastzitten aan verouderde informatie.
Als we een overstroming van simulacra op onze openbare netwerken loslaten, lopen we het risico dat mensen ontmoedigd worden om hun eigen originele werk te blijven delen of zelfs te maken. Dat zou ertoe kunnen leiden dat toekomstige AI-modellen voor altijd vastzitten aan de bevroren output van de mensheid uit de periode 2000-2020, zonder iets nieuwers om van te leren. Naarmate we AI blijven vormgeven, zal het op zijn beurt onze toekomst op manieren vormgeven die we niet kunnen voorzien. Dit is een belangrijke herinnering dat alles wat we met AI doen gevolgen zal hebben die ver in de toekomst zullen doorklinken.