Close
Wonach suchen Sie?

2. April 2024

Teil 12: Datenfutter für KI: So gelingt die Kommerzialisierung von Datensätzen

Künstliche Intelligenz muss mit Daten gefüttert werden, damit ansprechender Output generiert werden kann. Das bietet Inhabern von Datensätzen neue Wege, um Daten zu kommerzialisieren - Daten werden also gegen eine Vergütung an Dritte lizenziert. Im 12. Beitrag unserer KI-Serie zeigen wir, was Sie beim Aufsetzen von Datenlizenzverträgen beachten sollten.

A. Lizenzierung von Daten als Geschäftsmodell?

Das Füttern von KI-Modellen mit Daten der richtigen Qualität und Quantität ist für den Erfolg von KI-Anwendungen von zentraler Bedeutung. Je akkurater und umfangreicher diese Trainingsdaten sind, desto besser der Output. Inhabern von Datensätzen erschliesst sich so eine neue Einnahmequelle. So lizenziert beispielsweise die Betreiberin der Plattform Reddit die darauf von Nutzern generierten Inhalte für rund USD 60 Mio. jährlich an Google.

Aber nicht nur Techgiganten können von diesem relativ neuen Markt profitieren. Auch für KMU können diese Modelle interessant sein. Nehmen wir an, ein Heizungssanitär hat in den letzten Jahrzehnten Wärmepumpen einer bestimmten Marke installiert und gewartet. Aus seiner Kundenkartei ist ersichtlich, wann er bei welchem Kunden welche Reparaturleistungen erbracht hat. Aus diesen Informationen lassen sich Erkenntnisse über den Verschleiss ziehen, an denen der Hersteller Interesse haben könnte. Er könnte so bspw. ein Tool zur vorbeugenden Wartung entwickeln und dieses seinen Vertriebspartner zur Verfügung stellen. Für den Heizungssanitär selber wird sich die Implementierung eines solchen Tools auf eigene Kosten nicht lohnen. Die Übermittlung dieser Daten vom Heizungssanitär an den Hersteller ist also wirtschaftlich für beide Parteien sinnvoll. Aber wie soll das gehen?

B. Besonderheiten von Datenlizenzverträgen

Das Schweizer Recht kennt kein generelles Ausschliesslichkeitsrecht an Daten; nur punktuell ermöglicht es einen Schutzanspruch. So ist beispielsweise die unbefugte Weitergabe von Fabrikations- oder Geschäftsgeheimnissen verboten. Handelt es sich bei den Daten um Personendaten, also Daten, die sich auf eine bestimmte oder bestimmbare Person beziehen, so kann die betroffene Person die Bearbeitung der Daten und insbesondere auch die Weitergabe der Daten unter gewissen Umständen untersagen. Sind die urheberrechtlichen Schutzvoraussetzungen erfüllt (handelt es sich dabei also um geistige Schöpfungen mit individuellem Charakter) besteht an ihnen ein Ausschliesslichkeitsrecht, welches allerdings nur für das Werk selbst oder Teile davon, aber nicht auch für jedes einzelne darin enthaltende Datum gilt. Handelt es sich bei den Daten oder dem Datensatz um ein marktreifes Arbeitsergebnis, darf dieses nicht ohne angemessenen eigenen Aufwand mittels technischer Reproduktionsverfahren übernommen und verwertet werden. Sachenrechtliches Eigentum kann nur am Trägermedium, nicht aber an den darauf gespeicherten Daten selbst bestehen.  

Die Verwendung von Daten durch Dritte kann also oft nicht mit gesetzlichen Instrumenten verhindert werden. Wer Daten nutzen möchte, ist also grundsätzlich nicht dazu verpflichtet, dafür von jemandem eine Erlaubnis einzuholen. Die Kommerzialisierung von Daten scheint somit auf den ersten Blick gar nicht so einfach, da es auf Seiten des Abnehmers am Anreiz fehlt, für die Nutzung von Daten zu zahlen – insbesondere dann, wenn die Daten öffentlich verfügbar sind.

Wer erreichen will, dass ein Dritter für die Nutzung von Daten bezahlt, kann dies bspw. mittels faktischer Kontrollinstrumente erreichen, namentlich indem er seine Daten vor fremdem Zugriff schützt und den Zugang erst gegen Entgelt gewährt.

Stellt der Inhaber der Daten diese einem Dritten zur Verfügung, ist es ratsam, vertraglich festzulegen, was dieser Dritte mit den Daten tun darf. Insbesondere sollte sichergestellt werden, dass der Dritte die Daten nicht unbeschränkt weitergeben darf. Andernfalls verliert der erste Dateninhaber die Kontrolle über "seine" Daten und damit auch über deren Kommerzialisierung.

Ferner sind bei maschinengenerierten Daten im EU-Raum noch auf die Vorgaben des Data Act zu achten. Auf diese werden wir allerdings in einem separaten Blog-Beitrag eingehen. Im vorliegenden Blogbeitrag zeigen wir, worauf Inhaber von Daten achten müssen, wenn sie ihre Daten erfolgreich kommerzialisieren wollen.

C. Darauf sollten Sie achten bevor Sie Daten weitergeben

Die zur Lizenzierung bereitgestellten Daten können diverse Informationen enthalten, für welche es vertragliche oder regulatorische Restriktionen zu beachten gilt. Besonders zu beachten ist Folgendes:

Personendaten: Enthält Ihr Datensatz Personendaten, z.B. den Namen des Rechnungsempfängers, sind die Vorgaben des Datenschutzrechts zu beachten. Da für das Training von KI-Modellen Personendaten meist nicht relevant sind und die Verwendung von Personendaten mit zusätzlichen regulatorischen Anforderungen einhergeht, wird es sich in vielen Fällen anbieten, die Daten vor der Übermittlung zu anonymisieren. Je nach Datensatz wird die schlichte Entfernung des Namens, einer Telefonnummer oder der Adresse nicht ausreichen, damit die Daten effektiv anonymisiert sind – denn anonymisiert sind die Daten erst, wenn sie nicht oder nicht mit verhältnismässigem Aufwand wieder einer Person zugeordnet werden können. Ist die Anonymisierung nicht möglich oder die personenbezogenen Daten für die weitere Verwendung relevant, so ist dies gegenüber den betroffenen Personen transparent zu kommunizieren, z.B. in einer Datenschutzerklärung. Je nach Setup ist die Einwilligung der betroffenen Personen notwendig – dies z.B. dann, wenn die Weitergabe nicht mit den allgemeinen Grundsätzen der Datenbearbeitung im Einklang steht und keine überwiegenden Interessen des Verantwortlichen die Weitergabe rechtfertigen oder bei der Bekanntgabe von besonders schützenswerten Personendaten (bspw. Gesundheitsdaten). Im Anwendungsbereich der DSGVO ist – anders als unter dem Schweizerischen Datenschutzrecht – eine Rechtsgrundlage für die Datenbearbeitung erforderlich, was die Weitergabe von Personendaten regelmässig verkomplizieren wird. Welche Voraussetzungen für das Training von KI-Modellen erfüllt sein müssen, werden wir in einem separaten Blog-Beitrag diskutieren.

Vertraglicher Geheimnisschutz: Geheimhaltungspflichten werden oft beiläufig in Verträgen festgehalten, ohne dass sich die Parteien der möglichen Konsequenzen bewusst sind. So können z.B. Informationen über das Umsatzvolumen eines Vertrags oder die spezifisch in Anspruch genommenen Leistungen durchaus von einer vertraglichen Geheimhaltungsverpflichtung umfasst sein. Wer ein Fabrikations- oder Geschäftsgeheimnis verrät, welches er aufgrund einer gesetzlichen oder vertraglichen Pflicht bewahren sollte, aber auch wer einen solchen Verrat für sich oder einen anderen ausnutzt, kann auf Antrag bestraft werden (Art. 162 StGB). Verboten ist die Weitergabe von Fabrikations- oder Geschäftsgeheimnissen auch, wenn diese unrechtmässig in Erfahrung gebracht wurden (Art. 6 UWG). Wenn also Daten aus dem Geschäftsbetrieb zweitverwertet werden sollen, ist darauf zu achten, dass diese so ausgewählt oder aufbereitet werden, dass keine vertraglichen Geheimnispflichten verletzt werden. Idealerweise wird bereits in der Geheimhaltungsverpflichtung festgehalten, für welche Zweitnutzung Vertragsdaten verwendet werden dürfen.

Gesetzlicher Geheimnisschutz:Es bestehen diverse gesetzliche Geheimhaltungspflichten, wie beispielsweise das Berufsgeheimnis (Art. 321 StGB), dem bspw. Anwälte oder Ärzte unterstehen, aber auch das sog. "kleine Berufsgeheimnis", welches für jede Person gilt, die in Ausübung ihres Berufes Kenntnis über geheime Personendaten erhalten hat und diese vorsätzlich Dritten bekanntgibt (Art. 62 DSG).

Urheberrecht: Enthält der Datensatz Fotografien oder andere urheberrechtlich geschützte Inhalte, so ist für die Weitergabe grundsätzlich die Einwilligung des Inhabers der Urheberrechte erforderlich (vgl. dazu unseren Blogpost "KI und Urheberrecht: Verantwortlichkeit von Anbietern und Nutzern"). Bei unternehmensintern generierten Inhalten darf der Arbeitgeber in der Regel über diese verfügen und diese entsprechend auch weitergeben, denn die Rechte an den Arbeitsergebnissen in seinem Unternehmen liegen üblicherweise bei ihm. Finden sich im Datensatz aber Inhalte von Dritten, muss im Einzelfall geprüft werden, ob die Weitergabe zulässig ist. Dafür wird in der Regel die Zustimmung des Urhebers erforderlich sein.

Kartellrecht: Erfolgen die Datenlieferungen zwischen Konkurrenten im Markt und erleichtern diese Daten die Vornahme von Absprachen im Zusammenhang mit Preisen, Mengen oder Gebieten, ist besondere Vorsicht geboten.

D. Diese Punkte sollten Sie vertraglich regeln

Inhalt des Datensatzes: Was für Daten enthält der Datensatz? Dem Empfänger sollte klar sein, was für Daten er erhält und welche Eigenschaften diese aufweisen. Dazu gehört bspw. die Qualität (besteht zum Beispiel der Anspruch, dass jedes einzelne Datenpaar innerhalb des Datensatzes korrekt und vollständig ist?), aber auch der eigentliche Inhalt des Datensatzes. Das klingt banal und selbstverständlich, in der Praxis ist eine relative genaue Umschreibung der Daten von grosser Relevanz. So sind bspw. Pulsdaten nicht unbedingt gleich Pulsdaten, sondern es kann entscheidend sein, ob diese Daten mittels professioneller und geeichter Messgeräte durch Fachpersonen erhoben wurden oder mittels privater Fitnesstracker. Um Problemen vorzubeugen empfehlen wir festzulegen, was eben gerade nicht im Datensatz enthalten sein soll, wie zum Beispiel Personendaten oder Geschäftsgeheimnisse.

Festgehalten werden sollte auch, ob es sich um eine einmalige Übertragung des Datensatzes handelt, oder ob auch regelmässige Updates Gegenstand der Vereinbarung sind. Wichtig ist auch, einen Stichtag zu definieren, an dem der Datensatz extrahiert wird, und festzuhalten, wie aktuell die Daten zu diesem Zeitpunkt sind (bspw. über welchen Zeitraum oder bis zu welchem Enddatum die Daten zusammengetragen wurden). Insbesondere bei grösseren Datensätzen empfiehlt es sich, die Datensätze mittels Hashwerten zu "bezeichnen".

Aufbereitung, Format und Struktur der Daten/des Datensatzes:Die qualitativ hochwertigsten Daten helfen dem Empfänger nicht, wenn er diese nicht lesen und bearbeiten kann. Nicht selten wird es zudem vorkommen, dass ein Empfänger Datensätze von verschiedenen Anbietern bezieht, die er dann für seine Zwecke verbinden möchte. Das ist nur dann möglich, wenn die Datensätze inkl. der darin enthaltenen Daten miteinander kompatibel sind oder mindestens kompatibel gemacht werden können. Es empfiehlt sich also, vertraglich Format und Struktur der Daten/des Datensatzes festzulegen.

Personendaten: Kann der Empfänger davon ausgehen, dass im Datensatz keine Personendaten enthalten sind oder sind die Daten nur pseudonymisiert, so dass eine Zuordnung zu einer natürlichen Person relativ einfach möglich ist? Aus Sicht des Inhabers der Daten bietet es sich an, den Empfänger dazu zu verpflichten Massnahmen zu treffen, um eine Reidentifikation zu verhindern und insbesondere auch selbst entsprechende Handlungen zu unterlassen.

Lieferung der Daten: Hat z.B. der Empfänger nur einen temporären Fernzugang mit einer klar eingegrenzten Nutzungsbefugnis? Falls ja, muss eine bestimmte Verfügbarkeit des Zugangs sichergestellt werden und darf der Empfänger Kopien vom Datensatz herstellen? Oder wird dem Empfänger der Datensatz in einem geliefert und kann er diese dann bei sich abspeichern?

Nutzung der Daten durch den Empfänger: Der Datenlieferant sollte sich bewusst Gedanken dazu machen, für welche Zwecke die Daten potentiell verwendet werden könnten und welche er wirtschaftlich oder ethisch nicht erlauben will. Um zu verhindern, dass der Inhaber der Daten die Macht über "seine" Daten resp. über deren Kommerzialisierung verliert, sollte geregelt werden, ob und wenn ja, unter welchen Bedingungen und in welchem Umfang der Datensatz vom Empfänger auch weiteren Nutzern zur Verfügung gestellt werden darf. Da die Nutzung der Daten durch Dritte, wurden sie vom Empfänger einmal weitergegeben, vom Inhaber der Daten kaum mehr unterbunden werden kann (ausser, es bestehen daran zusätzliche Rechte wie z.B. Urheberrechte), kann es Sinn machen, für den Fall einer unerlaubten Weitergabe der Daten eine Konventionalstrafe vorzusehen.

Modalitäten der Gegenleistung: Es sind viele Varianten denkbar, wie der Zugang zu Daten vergütet werden kann. Bei einer einmaligen Lieferung der Daten kann eine Pauschalzahlung sinnvoll sein; bei wiederkehrenden Lieferungen/Aktualisierungen ist meist ein Abo-Modell passender. Möglich sind natürlich auch Gewinn- oder Umsatzbeteiligungen am mit den Daten trainierten Modell oder der Erlass von künftigen Nutzungsgebühren der KI-Anwendung.

Pflichten im Umgang mit dem Datensatz: Es sollte definiert werden, welche technischen und organisatorischen Massnahmen beide Parteien zu implementieren haben, um die Integrität, Verfügbarkeit und Vertraulichkeit des Datensatzes sicherzustellen – so wie dies im Zusammenhang mit der Bearbeitung von Personendaten bereits oft gemacht wird.

Gewährleistung und Haftung:Der Empfänger wird i.d.R. Interesse daran haben, dass die vom Lieferanten zur Verfügung gestellten Daten korrekt sind. In der Praxis für den Empfänger relevant sein wird auch, dass die Bekanntgabe und vereinbarte Nutzung der Daten keine Drittrechte verletzt. Zu denken ist dabei insbesondere an die oben erwähnten Rechte, die an Daten bestehen können, wie bspw. das Urheberrecht. Auch eine Schadloshaltung für den Fall einer solchen Verletzung kann vom Empfänger verlangt werden. Ob und inwiefern der Dateninhaber sich darauf einlassen kann und soll, ist vom jeweiligen Setting abhängig. Bei sehr grossen Datensätzen werden solche Vereinbarungen für den Inhaber der Daten wahrscheinlich in vielen Fällen zu einem überhöhten Haftungsrisiko führen. Es gilt also, den Umfang der Gewährleistung, der Haftung und die Vergütung aufeinander abzustimmen.

Vertragsbeendigung: Was geschieht, wenn der Vertrag beendigt wird? Gibt es spezifische Löschpflichten? Da es kein allgemeingültiges Ausschliesslichkeitsrecht für Daten gibt, muss die Verpflichtung zur Einstellung der Nutzung auf rein vertraglicher Basis erfolgen. Dabei gilt es zu beachten, dass der Nachweis, dass ein Lizenznehmer unzulässigerweise einen Datensatz auch nach Vertragsbeendigung weiterverwendet, oft schwierig zu erbringen ist: Für Dritte ist oft nicht erkennbar, mit welchen Daten ein Unternehmen arbeitet, und die Feststellung der Herkunft der Daten wird oft gar nicht oder nur schwer möglich sein.

E. Alternative Lizenzmodelle?

Das Aufgleisen einer direkten Lizenzierung von Inhalten ist, wie z.B. in unserem Beispiel vom Heizungssanitär, im Einzelfall aufwendig und dieser Aufwand wird sich vielfach nicht lohnen. Es ist deshalb zu erwarten, dass sich für die Lizenzierung von Daten mittelfristig gewisse Standards etablieren werden. Diese Standardisierung kann auf verschiedene Arten erfolgen – gewisse Modelle sind in der Musikindustrie bereits erprobt.

Zunächst können Aggregatoren im Markt Inhalte sammeln und diese gegebenenfalls aufbereiten und dann weiterlizenzieren. Getty Images könnte, anstatt selber einen KI-Bildgenerator auf den Markt zu bringen, ihre Bilddatenbank an Anbieter von KI-Modellen für Trainingszwecke zur Verfügung stellen. In der Musikindustrie nehmen Musikverlage (z.B. Sony Music Publishing) eine solche Rolle ein: Sie nehmen Songwriter unter Vertrag und übernehmen die Lizenzierung an Verwertungsgesellschaften, Record Labels und Medienunternehmen.

Weiter wäre es theoretisch möglich, dass Verwertungsgesellschaften für spezifische Fälle die Verwertung im Auftrag der Rechteinhaber übernehmen. Durch dieses Modell können die Rechteinhaber die Nutzung zwar nicht verhindern, werden aber für die Nutzung vergütet. In der Musikindustrie kommt dieses Modell z.B. zur Anwendung, wenn ein Lied im Radio gespielt wird. Ein Komponist kann nicht verhindern, dass ein Radiosender seine Lieder spielt – aber der Radiosender muss der Verwertungsgesellschaft eine Vergütung bezahlen, welche über einen Verteilschlüssel dem Komponisten zukommt. Eine direkte Adaptierung dieses Modells auf die Lizenzierung von Datensätzen ist aber eher unwahrscheinlich, zumal dieses Modell an die Urheberrechte der Inhaber anknüpft. Manche der in den Unternehmen nicht öffentlich verfügbaren Datensätze, die für das Training von KI-Modellen interessant sind, werden keinen urheberrechtlichen Schutzanspruch begründen, somit können oft nur faktische oder vertragliche Restriktionen die Nutzung durch Dritte einschränken. Es gibt somit – mit ein paar auf speziell definierte Situationen ausgerichteten Ausnahmen (s. dazu oben unter "Besonderheiten von Datenlizenzverträgen"- kein "Recht", das gegenüber jedem Dritten geltend gemacht werden kann, der keine Lizenz hat.

Vielversprechend werden sog. Modellverträge sein, welche insbesondere im Kontext von Open Source Software sehr häufig eingesetzt werden. Sie erlauben es dem Rechteinhaber, die Inhalte unter einer bekannten Lizenz zu veröffentlichen und dem Nutzer, die Inhalte vergütungsfrei zu verwenden, ohne eine Erlaubnis des Rechteinhabers einholen zu müssen. Es gibt bereits Open Source Lizenzen, die spezifisch auf die Lizenzierung von KI-Modellen zugeschnitten sind, z.B. jene von RAIL (Responsible AI Licenses). RAIL hat in Aussicht gestellt, eine spezifisch auf die Lizenzierung von Daten zugeschnittene Modelllizenz zu veröffentlichen (OpenRAIL-D). Ob sich auch Standards zur vergütungspflichtigen Lizenzierung etablieren werden, wird sich zeigen. Um das volle Potential der Datenlizenzierung auszuschöpfen, wäre das auf jeden Fall zu begrüssen.

Elias Mühlemann und Nicole Ritter

Dieser Beitrag ist Teil einer Serie über den verantwortungsvollen Einsatz von KI im Unternehmen:

 

Wir unterstützen Sie bei allen Fragen zu Recht und Ethik beim Einsatz von künstlicher Intelligenz. Wir reden nicht nur über KI, sondern setzen sie auch selbst ein. Weitere Hilfsmittel und Publikationen von uns zum Thema finden Sie hier.

Kategorie: Data & Privacy

Autoren