News

Eines aus sechs Milliarden – LG Hamburg entschei­det zu urheber­recht­lichem Schutz von in KI-Trainings­daten­sätzen verwendeten Inhalten

01.10.2024

Die Entscheidung zum Verfahren am LG Hamburg, in dem es auch um die Grenzen der zulässigen Verwendung von urheberrechtlich geschützten Inhalten für das KI-Training ging, wurde mit Spannung erwartet - am vergangenen Freitag war es so weit. In seiner Entscheidungsfindung stellte das Gericht jedoch nicht auf das Trainieren für KI-Anwendungen als Verletzungshandlung ab, sondern knüpfte an die dem Training vorgelagerte Datenaufbereitung an. Damit bleibt die Frage, inwiefern ein Eingriff in Urheberrechte im Rahmen des KI-Trainings von der Schrankenregelung des § 44b UrhG zum Text und Data Mining erfasst ist, weiterhin offen. Nichtsdestotrotz hat das Urteil Potenzial, maßgeblichen Einfluss auf die zukünftige Rechtsprechung sowie die technische Ausgestaltung im KI-Trainingsbereich zu nehmen.

Die Entscheidung, die das LG Hamburg am vergangenen Freitag gefällt hat, ist in Deutschland und – soweit ersichtlich – Europa, die erste gerichtliche Auseinandersetzung, in der auch die Frage der Zulässigkeit der Verwendung von urheberrechtlich geschützten Inhalten für KI-Training thematisiert wurde. Dabei trainiert der Beklagte die KI nicht selbst, sodass das Gericht einzig auf die vorgelagerte Handlung der Datenanalyse zur Erstellung von KI-Trainingsdatensätzen abstellen konnte, die von dem Beklagten betrieben worden war. Im Ergebnis bejaht das Landgericht zwar einen Eingriff in die Nutzungsrechte des Klägers. Dieser sei jedoch im vorliegenden Fall von der Schrankenregelung des § 60d UrhG erfasst, wonach Text und Data Mining für Zwecke der wissenschaftlichen Forschung unter bestimmten Voraussetzungen zulässig ist. Daneben äußerte sich das Gericht auch – in Form eines obiter dictums – zu Fragen des § 44b, insbesondere zu den Anforderungen an die Maschinenlesbarkeit eines Vorbehalts des Rechteinhabers, und legt argumentativ damit die Weichen für weitere Entscheidungen in diesem aktuell höchst kontrovers diskutierten Bereich.

Dem Urteil liegt – kurz zusammengefasst – folgender Fall zugrunde:

Der Kläger ist Berufsfotograf. Der Beklagte, LAION e.V, ein gemeinnütziger Verein, stellt Datensätze und Open-Source-Modelle zum Training von KI-Anwendungen frei zur Verfügung. Der Kläger nimmt den Beklagten auf Unterlassen der Vervielfältigung seiner Fotografie im Rahmen der Erstellung von KI-Trainingssätzen in Anspruch. Hintergrund war, dass der Beklagte auf Grundlage eines bereits verfügbaren Datensatzes einen Abgleich von Bildbeschreibungen (ALT-Text) mit den entsprechenden im Internet verfügbaren Bildern vorgenommen und im Zuge dessen die Bilder von ihrem jeweiligen Speicherort heruntergeladen hatte. Die Verwertungsrechte an einem der von dem Beklagten erfassten und analysierten Bilder stehen dem Kläger zu (jedenfalls gem. § 72 Abs. 2 UrhG). Er selbst hatte das streitgegenständliche Bild auf einer Website für Stock-Bilder hochgeladen.

Das Ergebnis des von dem Beklagten vorgenommenen Abgleich-Prozesses ist der Trainingsdatensatz LAION 5B, der nach Angaben von LAION die Beschreibung von 5,85 Milliarden KI-trainingsgeeigneten Bild-Text-Paaren enthält – allerdings ohne, dass die Bilder selbst in ihm vorhanden sind; vielmehr enthält der Trainingsdatensatz lediglich Verweise auf deren jeweiligen Speicherort. Anknüpfungspunkt für die Verletzungshandlung war demnach weder das Trainieren künstlicher neuronaler Netze mit dem erstellten Datensatz, noch dessen Bereitstellung durch den Beklagten, sondern einzig die jedenfalls vorübergehende Vervielfältigung (§ 16 II UrhG) im Rahmen der Datenaufbereitung, die dazu diente, die Eignung der Bild-Text-Paare für das KI-Training festzustellen und somit einen KI-trainingsgeeigneten Datensatz zu erstellen.

Die für die unstrittige Vervielfältigung erforderliche Autorisierung des Rechteinhabers lag nicht vor, sodass der Beklagte in jedem Fall in die Verwertungsrechte des Klägers eingegriffen hatte. Das Gericht hatte nunmehr unter anderem die Frage zu beantworten, ob eine Ausnahme für diese grundsätzlich nur dem Rechteinhaber zustehende Form der Nutzung urheberrechtlich geschützter Inhalte nach dem UrhG einschlägig war, etwa nach §§ 44a, 44b oder 60d UrhG.

§ 44a UrhG lehnte das Gericht vor dem Hintergrund, dass die Vervielfältigung im Rahmen des vorgenommenen CLIP-Tests weder flüchtig noch begleitend war, sondern einen bewussten und aktiven Beschaffungsprozess darstellte, zügig ab.

Deutlich kontroverser war die Frage nach der Anwendbarkeit von § 44b oder § 60d UrhG auf die Verwendung von im Internet zugängigen Inhalten für KI-Trainings. Zunächst erkannte das Gericht die Anwendbarkeit der „Text und Data Mining-Schranke“ (TDM-Schranke) für die vorliegend einschlägige Art der Nutzungshandlung an. Entgegen einigen gegenläufigen Stimmen in der Literatur kam das Gericht zu dem Schluss, dass die Vervielfältigung von urheberrechtlich geschützten Bildern zum Abgleich mit der Bildbeschreibung und damit die Überprüfung ihrer Eignung für KI-Trainingssätze durchaus eine Form des Text und Data Minings i.S.d. §§ 44b, 60d UrhG darstellen kann. So wurde im vorliegenden Fall eine automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken angestellt, um daraus Informationen über Korrelationen zwischen Bildinhalt und Bildbeschreibung zu gewinnen. Dem stehe auch nicht die ursprüngliche Gesetzesbegründung bei Einführung der TDM-Schranke entgegen (Art. 3 DSM-RL, vgl. auch Erwgr. 18 UAbs. 1 S. 2 DSM-RL), zumal sich aus aktueller europäischer Gesetzgebung ein eindeutiger Wille des Gesetzgebers erkennen lasse, wonach auch die Erstellung von Datensätzen zum KI-Training der relevanten Schrankenregelung der DSM-RL unterfällt (Art. 53 I lit. c KI-VO).

Der Ausnahme vom Zustimmungsvorbehalt für Text und Data Mining würde jedoch ein etwaiger Vorbehalt des Rechteinhabers entgegenstehen, wenn dieser in maschinenlesbarer Form erfolgt (§ 44b UrhG). Vorliegend hatte nicht der Kläger selbst, sondern die von ihm berechtigte Bildagentur einen Vorbehalt in den eigenen Nutzungsbedingungen erklärt. Darin hieß es unter ‘Restrictions’:

„[You may not] [u]se automated programs, applets, bots or the like to access the Bigstock.com website or any content thereon for any purpose, including, by way of example only, downloading Content [sic], indexing, scraping or caching any content on the website.“

Die Erläuterungen des LG Hamburg sind dahingehend zu verstehen, dass auch ein solcher Nutzungsvorbehalt eines Dritten dem Rechteinhaber infolge des bestehenden Vertragsverhältnisses zurechenbar sein kann.

Das Gericht deutet in seinem Urteil an, dass der oben zitierte Nutzungsvorbehalt im Sinne von § 44b Abs. 3 UrhG ausreichend sein könnte, die Anwendbarkeit der TDM-Schranke auszuschließen. Insbesondere wird diskutiert, ob der auf der Webseite des Rechteinhabers erklärte Vorbehalt maschinenlesbar im Sinne des § 44b Abs. 3 S. 2 UrhG ist. Das Gericht legt nach eigener Aussage seiner Auslegung ein „weiteres Verständnis“ der Maschinenlesbarkeit zugrunde, indem es sich offen gegenüber der Möglichkeit zeigt, dass ein lediglich in „natürlicher Sprache“ verfasster Vorbehalt genügen könne, lässt diese Frage jedoch im Ergebnis offen, da jedenfalls die Voraussetzungen des § 60d UrhG erfüllt sind.

LAION sei eine gemeinnützige Forschungsorganisation, die den Datensatz öffentlich und kostenfrei zur Verfügung stellt und somit keine kommerziellen Zwecke verfolge. Auch die Zusammenarbeit des Beklagten mit kommerziellen KI-Anbietern, wie sie die Klägerseite behauptet hatte, führe nicht dazu, dass der Beklagte von der Anwendung der Schranke ausgeschlossen werde, zumal es dem Kläger nicht gelungen sei, darzulegen, dass diese privaten Unternehmen einen bestimmenden Einfluss auf den Beklagten als Forschungsorganisation oder bevorzugten Zugang zu den Ergebnissen der wissenschaftlichen Forschung haben. Hier hätte die Darlegungs- und Beweislastregelung des § 60d UrhG weitere Nachweise vom Kläger verlangt, die dieser nicht erbracht hat.

Das Urteil überzeugt nicht nur aufgrund der EU-rechtlichen und rechtshistorischen Einbettung der Argumente, sondern auch aufgrund des darin zum Ausdruck kommenden technischen Verständnisses der entscheidenden Richterinnen und Richter. Zwar ist damit der Verwertbarkeit urheberrechtlich geschützter Inhalte für KI-Trainings ein weites Tor eröffnet – insbesondere auch solcher, die der Rechteinhaber unter einen Vorbehalt gem. § 44b UrhG gestellt hat –; hierbei handelt es sich jedoch um eine Entscheidung des Gesetzgebers, der zugunsten der Innovation insbesondere im digitalen Bereich eine Abwägung vorgenommen hat, wonach Entwicklungen und Forschungen eine privilegierte Position zukommt. Zwingende Voraussetzung für die Verwendung von Inhalten, die urheberrechtlich geschützt sind und einem TDM-Vorbehalt unterliegen, ist jedoch, dass die urheberrechtlich relevanten Handlungen durch unabhängige Forschungsorganisationen durchgeführt werden, da hier keine „Opt-out“-Option für Rechteinhaber besteht. Für sie besteht die einzige Alternative, sofern eine Verwertung im Rahmen von KI-Trainings generell ausgeschlossen sein soll, darin, Inhalte nicht online allgemein zugänglich einzustellen.

Es wird sich zeigen, ob die vorgelegte Rechtsfrage im weiteren Verlauf noch höhere Instanzen beschäftigen wird. Spannend bleibt auch die Frage, welche europarechtliche Dimension diese Entscheidung (§ 44b UrhG hat seinen Ursprung in Art. 4 DSM-RL iVm. ErwGr. 18; § 60d UrhG in Art. 3 DSM-RL iVm. ErwGr. 8–17) in der weiteren Entwicklung annehmen wird.

Autorinnen/Autoren: Antonia von Appen und Linus Hundt