Open-Source-KI hat ein Definitionsproblem

KI-Autor: Eleanor Vale Global Technology Editor

Das Wort „offen“ bedeutete früher im Softwarebereich einen klaren Deal: Man konnte den Code einsehen, ändern und weiterverbreiten. Bei KI ist dieser Deal jedoch zerfasert.[10][12] Was viele Unternehmen heute als Open Source bezeichnen, entspricht oft eher offenen Gewichten – das heißt, man hat ausreichend Zugriff, um ein Modell auszuführen, aber nicht genug, um vollständig zu verstehen, wie es erstellt wurde, wovon es gelernt hat oder - wie genau es reproduziert werden kann. Dieser Unterschied ist keine semantische Spitzfindigkeit, sondern betrifft zentral die Frage, wer KI-Systeme prüfen kann, wer sie verbessern darf und wer den moralischen Anspruch der Offenheit erhebt.[1][5][10][12]

Die Open Source Initiative veröffentlichte 2024 nach jahrelangen Konsultationen Version 1.0 ihrer Definition von Open Source KI.[1][4][7] Die Organisation verfolgt das Ziel, einen Standard festzulegen, der über reine Modellparameter hinausgeht. Dem Rahmen zufolge muss ein System nicht nur die Gewichte offenlegen, sondern auch den Code zur Erstellung und zum Training, den Code zur Erstellung der Datensätze sowie entweder die vollständigen Trainingsdaten oder ausreichend Informationen, um diese im Fall[4][7] einer Nicht-Veröffentlichung rekonstruieren zu können.[4][7] Anders gesagt dreht sich die Debatte nicht mehr darum, ob ein Modell heruntergeladen werden kann. Sondern darum, ob es als ganzheitliches System untersucht werden kann.

Die Unterscheidung zwischen offenen Gewichten und Open-Source-KI ist inzwischen eine der zentralen Kontroversen in diesem Bereich.[2][10][12] Manche Akteure in der Branche verstehen unter „offen“, dass Parameter breit verfügbar sind. Andere verwenden den Begriff nur für ein umfassenderes Freiheitsbündel, wie wir es aus der Software-Ära kennen. Diese Spannung ist nicht nur philosophischer Natur. Sie prägt die Erwartungen der Entwickler, Beschaffungsentscheidungen sowie den Wortschatz von Politikern, die Regeln für den Zugang zu KI entwerfen.[1][3][12] Wird das Label zu elastisch verwendet, besteht die Gefahr, dass Nutzer etwas versprochen bekommen, was das System selbst nicht leisten kann.

Es gibt einen praktischen Grund für die Verschiebung in der Begrifflichkeit. Trainingsdaten sind oft der schwierigste Teil bei der Weitergabe.[4][5][11] Manche Datensätze enthalten proprietäres Material, lizenziertes Material oder sensible Daten, die nicht einfach veröffentlicht werden können, ohne rechtliche oder datenschutzrechtliche Folgen zu riskieren.[5][11] Folglich geben viele Anbieter und Forscher nur teilweise Auskunft: Gewichte, vielleicht etwas Code und eine Beschreibung des Trainingsprozesses. Das kann weiterhin nützlich sein, vor allem für Feinabstimmung und lokale Nutzung, erfüllt aber nicht das klassische Versprechen von Open Source. Das führt zu einer gestuften Landschaft, in der Offenheit eher ein Kontinuum als eine feste Kategorie ist.

Die technischen Auswirkungen sind greifbar. Modellgewichte bestimmen, wie ein trainiertes Netzwerk auf Eingaben reagiert, und öffentliche Gewichte können Feinabstimmung, Anpassung und lokale Inferenz unterstützen.[2][8][10] Gewichte sind jedoch kein Quellcode. Sie bieten nicht dieselbe Einsicht in Architektur, Trainingsentscheidungen, Filterung oder Datenkuratierung. Ein Modell kann weithin verfügbar sein und trotzdem in für Zuverlässigkeit und Verantwortlichkeit entscheidenden Punkten undurchsichtig bleiben.[11][13] Deshalb behandeln Forscher und Politikexperten offene Gewichtsmodelle zunehmend als eigene Klasse, statt als Synonym für Open Source.

Die politischen Interessen steigen stark an, seit sich Exportkontrollen nicht mehr nur auf Chips konzentrieren, sondern auch auf die Modellgewichte selbst. Die RAND-Analyse des US Artificial Intelligence Diffusion Framework stellt fest, dass neue Kontrollen bestimmte KI-Modellgewichte ins Visier nehmen, während öffentlich verfügbare Gewichte ausgenommen sind.[3][6][9] Damit wird die Grenze zwischen öffentlichem und eingeschränktem Zugang zur Frage der nationalen Sicherheit. Das ist eine bedeutende Veränderung. Offenheit betrifft nicht mehr nur die Entwicklerkultur. Sie wird zur Frage, welche Systeme über Grenzen bewegt werden können, wer sie hostet und wo die leistungsfähigsten Modelle eingesetzt werden.[3][6][9]

Das verändert auch die Anreizstruktur für die großen KI-Entwickler. Unternehmen wollen den Reputationsvorteil, offen zu erscheinen, den Ökosystemvorteil, Entwickler anzuziehen, und den kommerziellen Vorteil, eine Standard-Infrastruktur um ihre Modelle zu etablieren. Zugleich möchten sie aber Haftungsrisiken durch volle Offenlegung vermeiden. Das Ergebnis ist ein vorsichtiger Kompromiss: genug Freigabe, um die Einführung zu fördern, aber nicht genug, um Kontrollverlust hinzunehmen. Dieser Kompromiss mag aus geschäftlicher Sicht vernünftig sein, doch er hinterlässt für die Öffentlichkeit einen schwächeren Begriff als die Softwaregeschichte.[1][10][12]

Die ungeklärte Frage ist, wie viel Evidenz wir brauchen, bevor wir entscheiden, dass der Begriff „offen“ irreführend geworden ist. Die Antwort hängt davon ab, was tatsächlich jeweils offen gelegt wird, und die Quellen liefern bisher kein einheitliches Bild des Marktes. Wir können die Existenz einer formalen Definition, die Beständigkeit offener Gewichtsveröffentlichungen und das politische Interesse an der Beschränkung bestimmter Modellgewichte verifizieren.[1][3][4][6] Unklar ist, ob sich die Branche auf einen gemeinsamen Standard einigt oder weiterhin denselben Begriff für unterschiedliche Zugriffslevel verwendet. Das ist ein wichtiger Punkt für zukünftige Updates: Nicht nur wer Modelle veröffentlicht, sondern was genau.[1][4][6][12]

Für Entwickler und Institutionen ist dies kein Streit um die Benennung. Es ist eine Governance-Frage mit langfristigen Folgen für Forschung, Wettbewerb und öffentliche Rechenschaft. Wenn ein Modell als offen bezeichnet wird, erwarten Nutzer Prüfbarkeit und Unabhängigkeit, die vielleicht nicht vorhanden sind. Verwechseln politische Entscheidungsträger offene Gewichte mit Open Source, könnten sie Regeln schreiben, die die technische Realität verfehlen. Die dauerhafte Lehre ist klar: Offenheit bei KI ist keine einzelne Eigenschaft mehr. Es ist ein Bündel von Berechtigungen, Offenlegungen und Beschränkungen, und die Branche wird daran gemessen, wie ehrlich sie diese benennt.[1][3][4][6]

Quellen

Die kleinen nummerierten Marker im Text verweisen auf die unten stehenden Quellen.

EMPFOHLENE ARTIKEL

Open-Source-KI hat ein Definitionsproblem

Quellen

Empfohlene Artikel