
Regelbrüche
Im Internet galten bisher klare Regeln, was Suchmaschinen erfassen dürfen und was nicht. Das hat sich scheinbar geändert. Wenn Crwaler von klassischen Suchmaschinen, allen voran Google im Internet Webseiten auf Inhalte spidern, dann haben sie respektvoll nur jene Seiten erfasst, die in einer sogenanten "robots.txt" Datei von ihren Urhebern freigegeben waren. Diese Freigabe wird beim Veröffentlichen einer Seite,- so auch dieses Artikels gegeben, indem man die Attribute "index, follow" vergibt. Dies hat stets genügt, damit Suchmaschinen diese Seiten ausgewählt hat, sie Usern als Fundstellen zugänglich zu machen.
Dies ist allerdings nur eine Kennzeichnung, welche bislang aber von den Suchmaschinen beachtet wurde, also keine technische Einschränkung, wie etwa ein programmierter Schutz, eine Passwort-Blockade oder Ähnliches, sondern schlicht eine Information an die Crawler, bestimmte Seiten zu erfassen, und solche die mit "noindex, nofollow" gekennzeichnet waren, auszulassen.
Sauber programmierte Suchmaschinen haben sich stets an diese höfliche Vereinbarung, denn mehr ist es nicht, gehalten, doch mit dem Siegeszug der Künstlichen Intelligenz und ihrem Datenhunger, um zu lernen, scheinen diese Regeln nicht mehr zu gelten. Sie besuchen auch Seiten, welche ihre Urheber explizit als "noindex, nofollow" gekennzeichnet haben, also Seiten, die vielleicht gar nicht für die Öffentlichkeit bestimmt sind oder sich noch im Aufbau befinden und möglicherweise fehlerhaft sind.
In den USA ist ein öffentlicher Streit zwischen Cloudflare, einem großen Sicherheitsunternehmen, welches Websites schützt und Angriffe wie DDoS-Attacken abwehrt, und dem KI Anbieter Perplexity entbrannt, weil Perplexity nachweislich Inhalte von gesperrten Seiten von Cloudflare in seine KI Antworten einbezogen hat. Damit öffentlich konfrontiert, hat Perplexity nicht etwa ein Fehlverhalten zugegeben, sondern damit argumentiert, dass KI eben anders arbeite, als Suchmaschinen. Sie argumentieren, so, dass Suchmaschinen Bots seien, die das Internet durchsuchen und indizieren, also eine Art Webkatalog erstellen, während die KI ein User-Agent sei welcher in Echtzeit aus dem gesamten Internet Antworten zöge.
Datenhunger
Dahinter steckt ein Grundsatzproblem der KI, die auf möglichst viele Trainingsdaten aus dem Internet angewiesen ist. Sie benötigt dringend Zugriff auf all die Daten im offenen Internet, um mit den großen Suchmaschinen oder auch mit OpenAI zu mithalten zu können. Regeln über Zugriffe, Copyright werden von KI-Anbietern schön länger bewusst ignoriert. Website-Besitzer sollten daher vorsichtiger werden, welche ihrer Inhalte ohne Zustimmung und ohne Vergütung von den KI-Modellen verwendet werden um diese zu trainieren und qualitätsvolle Antworten zu generieren.
Nur langsam tröpfeln immer mehr Hintergrundinformationen in das Bewusstsein der Web-User und Anbieter, wie die Künstliche Intelligenz mit den Inhalten aus dem Internet umgeht. Das digitale Welt-Gedächtnis, wie wir es kennen, steht auf dem Prüfstand. Vermutlich sind dies erst vorsichtige Anfänge kommender Auseinandersetzungen und Verteilungskämpfe.
Konsequenzen?
Cloudflare jedenfalls hat sich entschlossen, Crawler von Perplexity zu blocken, weil die klassische Regelung, bisher im gegenseitigen Einvernehmen mit allen Suchmaschinen, Seiten die als geschützt gekennzeichnet waren, auszulassen, offenbar nicht mehr eingehalten wird. Dass die Künstliche Intelligenz es mit Copyright und der Vergütung von Urhebern nicht so genau nimmt, hat sich längst rumgesprochen, diverse Musterprozesse in verschiedenen Industriestaaten zeugen davon. Nun also kommt eine weitere Dimension hinzu.
Was man da beobachten kann ist nicht weniger als ein Kulturkampf um die bisherigen Regelungen im Internet. Das kann und wird in nicht allzu ferner Zukunft für Veränderungen des offenen Internets, so wie wir es kennen, führen.

