GEMA vs. OpenAI: grenzen aan gebruik van songteksten in AI-taalmodellen

Gepubliceerd op 17 november 2025 categorieën Auteursrecht, Data, IT-recht

De Duitse rechter zette afgelopen week een duidelijke streep in het zand voor generatieve AI. In de zaak GEMA tegen OpenAI oordeelde de rechtbank dat OpenAI inbreuk heeft gemaakt op auteursrechten van Duitse muzikanten en tekstschrijvers door hun liedteksten te gebruiken in haar taalmodellen. In Europa is dit de eerste uitspraak waarin wordt vastgesteld dat de training van generatieve AI een auteursrechtelijke reproductie kan vormen die niet kan worden gerechtvaardigd door een beperking.

Waar draaide het om?

GEMA had OpenAI aangeklaagd omdat ChatGPT en andere modellen van het bedrijf herkenbare fragmenten van Duitse sqongteksten konden reproduceren, waaronder Atemlos van Kristina Bach en Wie schön, dass du geboren bist van Rolf Zuckowski. Volgens GEMA was dit reproduceren simpelweg kopiëren zonder toestemming, hetgeen auteursrechtinbreuk zou opleveren.

OpenAI verweerde zich met het bekende argument: AI-modellen “leren” enkel taalkundige patronen, ze slaan geen teksten op, ze reproduceren de teksten niet. Bovendien, zo stelde het bedrijf, viel het trainingsproces onder de wettelijke uitzondering voor text- en datamining. Deze uitzondering stelt dat het reproduceren van teksten en data voor wetenschappelijk onderzoek is toegestaan, zolang dat gebeurt met rechtmatige toegang en de reproducties enkel mogen bewaard voor zolang dat nodig is.

Reproductie

De kern van het oordeel ligt in het begrip reproductie. Volgens de rechter zaten de songteksten niet alleen als abstracte data in het model, maar waren ze technisch reproduceerbaar en factueel aanwezig in de modelparameters. Dit betekent dat de betwiste liedteksten reproduceerbaar in de modellen van OpenAI zijn vastgelegd. Dit verschijnsel noemt de rechter “memoriseren”. Dit valt volgens de rechter onder het begrip reproductie in de zin van artikel 2 van de InfoSoc-richtlijn.

De rechter past het begrip reproductie ruim toe: ook numerieke opslag (zoals gewichten of waarschijnlijkheden) valt hieronder, zolang de oorspronkelijke tekst kan worden opgeroepen. Met die redenering krijgt de stelling dat AI-modellen geen teksten één op één ‘onthouden’, een flinke deuk. Memorisatie is volgens de rechter dan ook geen technisch bijverschijnsel, maar een vastlegging van beschermde werken. Zonder toestemming van de maker kan dit een auteursrechtinbreuk opleveren.

Geen vrijbrief voor tekst- en datamining

De uitzondering voor text- en datamining uit de DSM-richtlijn (in Nederland omgezet in artikel 15n en 15o Auteurswet) bood OpenAI geen soelaas. Die uitzondering dekt volgens de rechter reproducties voor wetenschappelijk onderzoek die voorbereidend zijn en die dienen om statistische relaties of patronen te analyseren. Ze raken het economische belang van de auteur niet, omdat het werk zelf niet wordt overgenomen. Volgens de rechter is dat bij ChatGPT anders: de teksten zijn blijvend in de modelparameters aanwezig en daarmee onderdeel van het model. De uitzondering kan daarom niet worden toegepast. Ook een “analoge toepassing” – de wet ruim interpreteren in het voordeel van technologische innovatie – wijst de rechter af. De wettelijke tekst is duidelijk, en uitbreiding zou ten nadele van de auteurs uitpakken.

OpenAI beriep zich ook op de regel uit de Duitse auteurswet voor onbeduidend bijwerk: wanneer een auteursrechtelijk beschermd werk slechts een ondergeschikte, onbelangrijke rol speelt binnen een groter werk, mag het zonder toestemming worden gebruikt. De rechter vindt dat die regel hier niet van toepassing was. De liedteksten waren niet een klein detail binnen een groter auteursrechtelijk geheel, maar specifieke onderdelen van het trainingscorpus. Om iets als “onbeduidend bijwerk” te kunnen zien, zou het totale trainingscorpus zélf als een auteursrechtelijk werk moeten tellen. Dit is volgens de rechter niet het geval.

Verantwoordelijkheid voor output

Interessant is dat de rechtbank ook OpenAI en niet de gebruikers aansprakelijk houdt voor wat de chatbot reproduceert. De output is volgens de rechter haar geen resultaat de input van de gebruiker, maar van de keuzes van OpenAI bij het ontwerp, de datasets en het outputmechanisme. De outputs worden gegenereerd door eenvoudige prompts. Omdat de chatbot op eenvoudige prompts herkenbare delen van de liedteksten kan weergeven, vindt de rechtbank dat OpenAI de werken daarmee opnieuw openbaar maakt zonder toestemming van de maker, en dat levert een auteursrechtinbreuk op.

Conclusie

De Duitse rechter ziet memorisatie in taalmodellen als een echte, blijvende kopie van auteursrechtelijk beschermd materiaal. Zowel het trainen met beschermde teksten als het reproduceren van die teksten via een chatbot kan inbreuk maken op de auteursrechten van de maker. De tekst- en datamining-uitzondering biedt hier geen bescherming, omdat het model niet alleen informatie analyseert, maar letterlijke teksten in zijn systeem vastlegt.

Voor techbedrijven betekent deze uitspraak dat AI-training op auteursrechtelijk beschermde content zonder toestemming een groot risico op inbreuk inhoudt, ook wanneer de opslag indirect of statistisch van aard lijkt. Dit beperkt de reikwijdte van de datamining-uitzondering in commerciële AI-toepassingen aanzienlijk, mogelijk zelfs zodanig dat deze onvoldoende ruimte laat voor het trainingsproces van hedendaagse taalmodellen. Voor makers betekent dit dat hun auteursrechtelijke belangen sterker worden beschermd en dat zij een stevigere positie krijgen om vergoeding en controle te eisen over het gebruik van hun werken door AI-aanbieders.

GEMA vs. OpenAI: grenzen aan gebruik van songteksten in AI-taalmodellen

auteur

Berend van Unnik

publicaties

HvJEU Mio/Konektra: game-changer voor auteursrecht op toegepaste kunst?

Birkenstocks niet auteursrechtelijk beschermd, of toch wel?

One Size Connects All: Interoperabiliteit onder de DMA