Waag | Participatieve methoden voor alignment van taalmodellen

Future Internet Lab

Samen met TNO onderzoekt Waag Futurelab welke participatieve methoden voor value alignment er zijn in de ontwikkeling en het gebruik van taalmodellen. In samenwerking met maatschappelijke organisaties testen we een methode voor het in kaart brengen en borgen van waarden in GPT-NL.

Hoe weten we dat generatieve AI handelt in overeenstemming met de waarden en belangen van haar gebruikers? Met wiens belangen en waarden moet rekening worden gehouden bij het ontwerpen van grote taalmodellen? En hoe kan het publiek bijdragen aan en zeggenschap uitoefenen over de ontwikkeling van LLM’s? Deze vragen maken deel uit van het zogenaamde ‘value-alignment’-debat rond AI. Het doel van alignment is dat een AI-systeem zich gedraagt in overeenstemming met een gedeelde set waarden. Maar er is nog geen consensus over hoe goede afstemming eruitziet en welke participatiemethoden geschikt zijn om het publiek een stem te geven bij het vormgeven van generatieve AI.

In opdracht van TNO onderzoekt Waag Futurelab welke participatieve en co-creatieve alignment methoden er zijn in de ontwikkeling en het gebruik van taalmodellen. Het is namelijk van groot belang dat de participatie verschillende perspectieven en ervaringen van groepen die te maken hebben met uitsluiting reflecteert. Door maatschappelijke stakeholders te betrekken, wordt er in co-creatie bijgedragen aan het voorkomen van ongewenste output van taalmodellen.

Het door TNO, SURF en NFI ontwikkelde GPT-NL biedt een verantwoord alternatief op bestaande taalmodellen. Het taalmodel is gebaseerd op rechtmatig verkregen, kwalitatieve, Nederlandse data. De makers zijn transparant over welke trainingsdata is gebruikt en laten een deel van de opbrengsten terugvloeien naar de auteursrechthebbenden. Op die manier draagt GPT-NL bij aan versterking van de digitale positie van Europa en krijgen auteursrechthebbenden een eerlijke plek in de ontwikkeling van technologie.

In de ontwikkeling van GPT-NL wordt er door de makers gezocht naar manieren om representatiebias in het taalmodel te identificeren, evalueren en mitigeren. Eén van de manieren waarop bias gemitigeerd kan worden, is door middel van alignment. Het doel van alignment is dat een taalmodel antwoorden genereert in lijn met onze publieke waarden. Er bestaan verschillende methoden voor alignment, die op verschillende momenten in de ontwikkeling en het gebruik van taalmodellen kan plaatsvinden.

In samenwerking met enkele maatschappelijke organisaties testen we een van de methoden voor het in kaart brengen en borgen van waarden in GPT-NL. Het project levert concrete aanbevelingen en handvatten die in de verdere ontwikkeling en het gebruik van GPT-NL gebruikt kunnen worden.

Project duration

1 jan 2026 - 30 jun 2026

Team

Participatieve methoden voor alignment van taalmodellen

Project duration

Links

Team

Jikke van den Ende

Danny Lämmerhirt

Pourya Omidi

Financiers

Partners

Deel

Metadata

Project duration

Links

Team

Jikke van den Ende

Danny Lämmerhirt

Pourya Omidi

Financiers

Partners