Der Text und Data Mining Vorbehalt: Technische Umsetzung der Maschinenlesbarkeit

Autor
Dr. Kerstin Bäcker
Dr. Kerstin Bäcker Rechtsanwältin, Partnerin
Fachanwältin für Urheber- und Medienrecht
Profil ansehen

Blogeintrag teilen via

Nach § 44b Absatz 3 Satz 1 UrhG kommt die gesetzliche Ausnahme des Text- und Data-Mining („TDM“) für die Vervielfältigung rechtmäßig zugänglicher Werke nur dann zur Anwendung, wenn der Rechtsinhaber sich diese nicht ausdrücklich vorbehalten hat (Text- und Data-Mining für nicht-kommerzielle Forschung nach § 60d UrhG lässt sich dagegen nicht verhindern). Bei online zugänglichen Werken hat dieser Nutzungsvorbehalt in maschinenlesbarer Form zu erfolgen, um Wirksamkeit zu erlangen (§ 44b Absatz 3 Satz 2 UrhG). Seitens der Rechtsinhaber besteht daher dringend Handlungsbedarf, um unerwünschtes kommerzielles KI-Training zu unterbinden (Hinweis: Die Frage, ob vor allem das Training generativer KI überhaupt unter die gesetzliche Ausnahmeregelung des Text- und Data-Mining nach § 44b UrhG fällt, ist umstritten und höchstrichterlich nicht entschieden. Insbesondere unter dem Aspekt des sog. „3-Stufen-Tests“ ist dies sehr fraglich).

TDM-Vorbehalt und Maschinenlesbarkeit

Konkretisierungen zur Maschinenlesbarkeit enthalten weder die amtliche Begründung des Gesetzes zur Anpassung des Urheberrechts aus dem Jahre 2021, noch die Erwägungsgründe der DSM-Richtlinie („Richtlinie (EU) 2019/790 des Europäischen Parlaments und des Rates vom 17. April 2019 über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt und zur Änderung der Richtlinien 96/9/EG und 2001/29/EG“) selbst, welche in Artikel 4 die TDM-Schrankenbestimmung auf EU-Ebene etabliert hatte.

Ganz grundlegend kommen zwei verschiedene Ansätze für die Umsetzung des TDM-Vorbehalts in Betracht: Der „location-based“-Ansatz und der „asset-based“-Ansatz. Der location-based-Ansatz betrifft alle Inhalte/Dateien, die in dem Hauptverzeichnis oder bestimmen Unterverzeichnissen einer Website liegen.  Der asset-based-Ansatz hingegen bezieht sich auf konkrete einzelne Werke/Dateien.

Location-based- und asset-based-Ansatz

Beispiele für den „location-based“-TDM-Vorbehalt sind etwa die Verwendung von robots.txt-Dateien (dazu im Einzelnen unten), das „TDM Reservation Protocol“ (https://www.w3.org/community/reports/tdmrep/CG-FINAL-tdmrep-20240510/) des Word Wide Web Consortiums W3C (https://www.w3.org) und DeviantArt’s „noai“-Meta-Tags (https://www.deviantart.com/team/journal/UPDATE-All-Deviations-Are-Opted-Out-of-AI-Datasets-934500371).

„Asset-based“-TDMs sind direkt mit der konkreten Werkkopie/Datei verbunden, sei es als sog. „Soft-Binding“, bei welchem Provenienzdaten, Zertifikate und Produkt-Metadaten als überprüfbare und öffentliche Angaben in Form einer externen Datei („Sidecar-File“) künftig zum International Standard Content Code („ISCC“) abgelegt werden sollen und von den KI-Anbietern durch Konsultation in einem öffentlichen Register mit diesem abgeglichen werden können (weitere Einzelheiten, siehe https://docs.tdmai.org/benefits). Oder als „Hard-Binding“, bei welcher diese Daten und der TDM-Vorbehalt in die Metadaten der Datei eingebettet werden.

Bewertung der Ansätze

Vorteil eines „location-based“-TDM-Vorbehalts ist die einfache und kostengünstige Umsetzung, da er alle Inhalte einer Domain oder eines Unterverzeichnisses gleichermaßen erfasst. Dieser Ansatz ermöglicht durch seine breite und übergreifende Wirkung, den TDM-Vorbehalt effizient und in gestraffter Form zu erklären. In Gestalt der robots.txt-Dateien ist er zugleich ein weit etablierter Ansatz, um das Auslesen und Einsammeln von Inhalten durch Crawler zu kontrollieren. Der „location-based“-Ansatz setzt jedoch voraus, dass der Rechtsinhaber die Website in technischer Hinsicht kontrolliert, weil er deren Inhalte selbst verwaltet (auch wenn diese bei einem Webhosting-Anbieter gespeichert sind). Dieser Ansatz eignet sich daher beispielsweise gut für textbasierte Werke, die original und vorrangig in einer Quelle veröffentlicht werden, etwa einer Online-Zeitung/Zeitschrift. Für Inhalte wie etwa Musikaufnahmen oder andere Audiodateien, Bilder, Videos, E-Papers und E-Books, die vorrangig als unabhängige Inhalte zirkulieren sollen, ist der „location-based“-Ansatz hingegen weniger geeignet, da der maschinenlesbare Vorbehalt verloren geht, sobald der entsprechende Inhalt außerhalb des Kontextes der (ursprünglichen) Website ausgewertet wird. Je nach Art der Inhalte eignet sich mithin eher der eine oder der andere Ansatz besser, wobei selbstverständlich auch eine Kombination beider Ansätze möglich ist.

Location-based Ansatz: robots-text-Dateien

Der Robots Exclusion Standard ist ein Gentlemen’s Agreement zwischen dem Webmaster und den etablierten Betreibern von Suchmaschinen und Crawlern. In den Haupt- oder Unterverzeichnissen des Webservers wird eine Textdatei hinterlegt, die robots.txt-Datei. In dieser Textdatei kann durch Anweisungen festgelegt werden, welche Bereiche einer Domain von Webcrawlern („Bots“) gecrawlt werden dürfen und welche nicht. Die robots.txt-Datei ist das erste Dokument, das ein Bot aufruft, wenn er eine Website besucht. Die robots.txt-Datei fungiert somit bildlich gesprochen als Türsteher der Website. Mit der robots.txt-Datei können komplette Verzeichnisse oder ganze Websites vom Crawling ausgeschlossen werden.

Jede Anweisung besteht dabei aus zwei Teilen:

1. Zunächst benennt sie den Namen des Crawlers.
2. Danach folgen eine oder mehrere Zeilen, die ihm den Zugriff auf bestimmte Bereiche der Website verbieten.

Soll zum Beispiel der Webcrawler „GPTBot“ von OpenAI vom Hauptverzeichnis und sämtlichen Unterverzeichnissen eines Webservers (also der gesamten Website) ausgesperrt werden, lautet die Anweisung in robots.txt wie folgt:

In dem nachfolgenden Bespiel wird das Crawlen im Unterverzeichnis 1 des Webservers gestattet, im Unterverzeichnis 2 hingegen untersagt.

Abgesehen von der notwendigen technischen Kontrolle der Website obliegt es den Rechtsinhaber bei Verwendung der robots.txt-Datei daher derzeit auch, den Überblick zu behalten, welche Bots von KI-Anbietern aktuell existieren und daher alle relevanten Bots in der robots.txt-Datei zu adressieren.

Gut veranschaulicht dies ein Auszug aus der robots.txt-Datei der New York Times (https://www.nytimes.com/robots.txt,  Stand 16. Juli 2024):

User-agent: *
User-agent: Googlebot
Disallow: /ads/
Disallow: /adx/bin/
Disallow: /athletic/wp/wp-admin/
Allow: /athletic/wp/wp-admin/admin-ajax.php
Disallow: /athletic/async-*
Disallow: /athletic/search/*
Allow: /athletic/search/$
Disallow: /athletic/checkout/
Disallow: /athletic/checkout?plan_id*
Allow: /athletic/checkout/$
Disallow: /athletic/checkout2*
Disallow: /athletic/login/
Disallow: /athletic/login?login_source*
Disallow: /athletic/login?ref_page*
Allow: /athletic/login/$
Disallow: /athletic/login2/
Disallow: /athletic/login2?login_source*
Disallow: /athletic/login2?ref_page*
Allow: /athletic/login2/$
Disallow: /athletic/report/
Disallow: /athletic/*/discuss/*
Disallow: /athletic/register/
Disallow: /athletic/register?welcome_redirect*
Disallow: /athletic/register2/
Disallow: /athletic/register2?welcome_redirect*
Disallow: /athletic/betmgm-redirect*
Disallow: /athletic/cdn-cgi/
Disallow: /athletic/verizon/*
Disallow: /athletic/forgot-password/*
Allow: /athletic/forgot-password/$
Disallow: /athletic/forgot-password2/*
Allow: /athletic/forgot-password2/$
Disallow: /athletic/amp-social-login*
Disallow: /athletic/track-analytics/
Disallow: /athletic/amp-auth/
Disallow: /athletic/rss-feed/
Disallow: /athletic/global-color-test.php
Disallow: /athletic/global-font-test.php
Disallow: /athletic/graphql*
Disallow: /athletic/api*
Disallow: /athletic/ip*
Disallow: /athletic/call-set-cookie-with-context/*
Disallow: /athletic/get-current-user/
Disallow: /athletic/pv.json
Disallow: /athletic/following-feed-test/*
Disallow: /athletic*/boxscore/*
Disallow: /athletic/feed-test/
Disallow: /card/panel/
Disallow: /puzzles/leaderboards/invite/*
Disallow: /svc
Allow: /svc/crosswords
Allow: /svc/games
Allow: /svc/letter-boxed
Allow: /svc/spelling-bee
Allow: /svc/vertex
Allow: /svc/wordle
Disallow: /video/embedded/*
Disallow: /search
Disallow: /multiproduct/
Disallow: /hd/
Disallow: /inyt/
Disallow: /*?*query=
Disallow: /*.pdf$
Disallow: /*?*login=
Disallow: /*?*searchResultPosition=
Disallow: /*?*campaignId=
Disallow: /*?*mcubz=
Disallow: /*?*smprod=
Disallow: /*?*ProfileID=
Disallow: /*?*ListingID=
Disallow: /*?*campaign_id=
Disallow: /*?*hybrid=
Disallow: /*?*entry=
Disallow: /*?*embed=
Disallow: /*?ls=
Disallow: /*?*&ls=
Disallow: /wirecutter/wp-admin/
Disallow: /wirecutter/*.zip$
Disallow: /wirecutter/*.csv$
Disallow: /wirecutter/deals/beta
Disallow: /wirecutter/data-requests
Disallow: /wirecutter/search
Disallow: /wirecutter/*?s=
Disallow: /wirecutter/*&xid=
Disallow: /wirecutter/*?q=
Disallow: /wirecutter/*?l=
Disallow: /search
Disallow: /*?*smid=
Disallow: /*?*partner=
Disallow: /*?*utm_source=
Allow: /wirecutter/*?*utm_source=
Allow: /ads/public/
Allow: /svc/news/v3/all/pshb.rss

Fazit und Handlungsempfehlung

Die maschinenlesbare Umsetzung des TDM-Vorbehalts ist unerlässlich, um künftig die Kontrolle über kommerzielles KI-Training erlangen zu können. Der am 2. August 2024 in Kraft tretende AI-Act sieht vor, dass Anbieter von „General Purpose AI“ (auf Deutsch: „KI-Modelle mit allgemeinem Verwendungszweck“) ab 2. August 2025 verbindlich eine Strategie zur Ermittlung und Einhaltung des TDM-Vorbehalts, auch durch modernste Technologien, auf den Weg bringen müssen, Artikel 53 Absatz 1 Buchstabe c AI-Act. Dies betrifft auch Anbieter außerhalb der EU, deren Modelle in der EU zum Einsatz gelangen, siehe Artikel 2 Absatz 1 Buchstabe a AI-Act. Je nach Art des Inhalts sind verschiedene Weisen der Umsetzung denkbar. Ergänzend sollte in Vertriebsverträgen der Auswerter verpflichtet werden, maschinenlesbare TDM-Vorbehalte anzubringen bzw. diese Verpflichtung in der Vertriebskette weiterzugeben.

 

Weitere Blogeinträge

Reeperbahnfestival – Panel „The State of the AI Dilemma – Protection vs. Music Licensing“

Reeperbahnfestival – Panel „The State of the AI Dilemma – Protection vs. Music Licensing“

Marco Erler, Fachanwalt für Urheber- und Medienrecht bei LAUSEN, diskutiert auf diesem Panel im Rahmen des Reeperbahn Festivals eines der drängendsten Themen der Musikindustrie: Wie gehen wir mit der Nutzung von Musik im Rahmen von KI um? Freitag, 19. September 2025 13:30 – 14:30 Uhr East Hotel / Amber / HH Im Panel „The State …

Mehr erfahren
Reeperbahn Festival: Das Legal Update 2025 – Was die Musikwirtschaft jetzt wissen muss

Reeperbahn Festival: Das Legal Update 2025 – Was die Musikwirtschaft jetzt wissen muss

Beim Legal Update 2025 gibt Dr. Kerstin Bäcker, Fachanwältin für Urheber- und Medienrecht bei LAUSEN, einen Überblick über die neuesten, relevanten rechtlichen Entwicklungen mit Schwerpunkt auf KI und deren Auswirkungen. Donnerstag, 18. September 2025, 10:30 – 11:30 Uhr East Hotel / Ginger / HH Im Fokus stehen: ▶️ Update zum Stand der wichtigsten Gerichtsverfahren gegen …

Mehr erfahren
Neuer Tarifvertrag zur betrieblichen Altersversorgung für Film- und Fernsehschaffende

Neuer Tarifvertrag zur betrieblichen Altersversorgung für Film- und Fernsehschaffende

Bereits bei der Einigung über den TV FFS wurde bekannt gegeben, dass es zusätzlich einen neuen Tarifvertrag für eine betriebliche Altersversorgung für Film- und Fernsehschaffende geben soll (siehe unseren Blogbeitrag hierzu). Dieser tritt nun zum 1. Juli 2025 in Kraft. Darauf haben sich die Produktionsallianz, ver.di und BFFS geeinigt. Die neuen Regelungen sollen eine branchenweit …

Mehr erfahren