december 2, 2023

Afbeelding door TY Lim | Shutterstock

Het AI-bedrijf heeft een zoektocht aangekondigd naar partnerschappen met organisaties om publieke en private datasets te produceren voor het trainen van AI-modellen. Het doel is om het algehele inzicht van AI in alle onderwerpen te vergroten.

Volgens OpenAI heeft AI een zo breed mogelijke trainingsdataset nodig om alle sectoren, culturen en talen diepgaand te kunnen begrijpen.

“Moderne AI-technologie leert vaardigheden en aspecten van onze wereld – van mensen, onze motivaties, interacties en de manier waarop we communiceren – door betekenis te geven aan de gegevens waarop het is getraind”, schrijft het bedrijf.

OpenAI nodigt organisaties of andere geïnteresseerde partijen uit om grootschalige datasets te delen die de menselijke samenleving weerspiegelen en die vandaag de dag nog niet gemakkelijk online toegankelijk zijn voor het publiek. De datasets zullen worden gebruikt in een open-sourcearchief, publiekelijk beschikbaar voor AI-modeltraining, en privédatasets voor het trainen van eigen AI-modellen.

De ingediende gegevens kunnen de vorm hebben van tekst, afbeeldingen, audio of video. Het bedrijf stelt dat het over de tools beschikt om PDF’s of andere manieren om ruwe gegevens te verwerken te transcriberen en digitaliseren.

OpenAI beweerde dat ze niet zoeken naar datasets met gevoelige of persoonlijke informatie of informatie van een derde partij en kunnen helpen deze informatie uit de ingediende gegevens te verwijderen.

Het uitbreiden van de data waarop AI is getraind, zou het inzicht van de modellen in het specifieke domein of onderwerp moeten vergroten.

“We werken al met veel partners samen die graag gegevens uit hun land of branche willen vertegenwoordigen”, zegt het bedrijf.

OpenAI heeft samengewerkt met de IJslandse regering en Miðeind ehf om de vaardigheid van GPT-4 in het IJslands te verbeteren door hun samengestelde datasets op te nemen. Daarnaast heeft OpenAI de krachten gebundeld met de non-profitorganisatie Free Law Project, die zich inzet voor het democratiseren van de toegang tot juridische kennis, en heeft het hun uitgebreide verzameling juridische documenten opgenomen in AI-training.