MC18 NOV17x2

Social Media Icons Shop 55

Noindex 4000

Die bisherigen Regeln des Internets scheinen für die Künstliche Intelligenz nicht mehr viel zu bedeuten...

 

 

Regelbrüche

Im Internet galten bisher klare Regeln, was Suchmaschinen erfassen dürfen und was nicht. Das hat sich scheinbar geändert. Wenn Crwaler von klassischen Suchmaschinen, allen voran Google im Internet Webseiten auf Inhalte spidern, dann haben sie respektvoll nur jene Seiten erfasst, die in einer sogenanten "robots.txt" Datei von ihren Urhebern freigegeben waren. Diese Freigabe wird beim Veröffentlichen einer Seite,- so auch dieses Artikels gegeben, indem man die Attribute "index, follow" vergibt. Dies hat stets genügt, damit Suchmaschinen diese Seiten ausgewählt hat, sie Usern als Fundstellen zugänglich zu machen.

Dies ist allerdings nur eine Kennzeichnung, welche bislang aber von den Suchmaschinen beachtet wurde, also keine technische Einschränkung, wie etwa ein programmierter Schutz, eine Passwort-Blockade oder Ähnliches, sondern schlicht eine Information an die Crawler, bestimmte Seiten zu erfassen, und solche die mit "noindex, nofollow" gekennzeichnet waren, auszulassen.

Sauber programmierte Suchmaschinen haben sich stets an diese höfliche Vereinbarung, denn mehr ist es nicht, gehalten, doch mit dem Siegeszug der Künstlichen Intelligenz und ihrem Datenhunger, um zu lernen, scheinen diese Regeln nicht mehr zu gelten. Sie besuchen auch Seiten, welche ihre Urheber explizit als "noindex, nofollow" gekennzeichnet haben, also Seiten, die vielleicht gar nicht für die Öffentlichkeit bestimmt sind oder sich noch im Aufbau befinden und möglicherweise fehlerhaft sind.

In den USA ist ein öffentlicher Streit zwischen Cloudflare, einem großen Sicherheitsunternehmen, welches Websites schützt und Angriffe wie DDoS-Attacken abwehrt, und dem KI Anbieter Perplexity entbrannt, weil Perplexity nachweislich Inhalte von gesperrten Seiten von Cloudflare in seine KI Antworten einbezogen hat. Damit öffentlich konfrontiert, hat Perplexity nicht etwa ein Fehlverhalten zugegeben, sondern damit argumentiert, dass KI eben anders arbeite, als Suchmaschinen. Sie argumentieren, so, dass Suchmaschinen Bots seien, die das Internet durchsuchen und indizieren, also eine Art Webkatalog erstellen, während die KI ein User-Agent sei welcher in Echtzeit aus dem gesamten Internet Antworten zöge.

 

Datenhunger

Dahinter steckt ein Grundsatzproblem der KI, die auf möglichst viele Trainingsdaten aus dem Internet angewiesen ist. Sie benötigt dringend Zugriff auf all die Daten im offenen Internet, um mit den großen Suchmaschinen oder auch mit OpenAI zu mithalten zu können. Regeln über Zugriffe, Copyright werden von KI-Anbietern schön länger bewusst ignoriert. Website-Besitzer sollten daher vorsichtiger werden, welche ihrer Inhalte ohne Zustimmung und ohne Vergütung von den KI-Modellen verwendet werden um diese zu trainieren und qualitätsvolle Antworten zu generieren.

Nur langsam tröpfeln immer mehr Hintergrundinformationen in das Bewusstsein der Web-User und Anbieter, wie die Künstliche Intelligenz mit den Inhalten aus dem Internet umgeht. Das digitale Welt-Gedächtnis, wie wir es kennen, steht auf dem Prüfstand. Vermutlich sind dies erst vorsichtige Anfänge kommender Auseinandersetzungen und Verteilungskämpfe.

 

Konsequenzen?

Cloudflare jedenfalls hat sich entschlossen, Crawler von Perplexity zu blocken, weil die klassische Regelung, bisher im gegenseitigen Einvernehmen mit allen Suchmaschinen, Seiten die als geschützt gekennzeichnet waren, auszulassen, offenbar nicht mehr eingehalten wird. Dass die Künstliche Intelligenz es mit Copyright und der Vergütung von Urhebern nicht so genau nimmt, hat sich längst rumgesprochen, diverse Musterprozesse in verschiedenen Industriestaaten zeugen davon. Nun also kommt eine weitere Dimension hinzu.

Was man da beobachten kann ist nicht weniger als ein Kulturkampf um die bisherigen Regelungen im Internet. Das kann und wird in nicht allzu ferner Zukunft für Veränderungen des offenen Internets, so wie wir es kennen, führen.

 

Weitere neue Artikel

Carice van Houten und Pieter Embrechts spielten die Eltern der beiden Kinder in "A Family". Im Interview spricht Pieter Embrechts über seine Arbeit in dem Film

Im Interview spricht die Regisseurin, Autorin und Produzentin über "Ghost School", der auf der Berlinale in der Sektion Generation Kplus gezeigt wurde.

Hollywood sieht sich derzeit mit zahlreichen Herausforderungen konfrontiert - und steckt in einer seiner größten Krisen.

Sie ist die Trophäe, die keiner haben will, der Anti-Oscar, der für die schlechtesten Filme vergeben wird: Die Goldene Himbeere.

Sie kommen daher im Deckmäntelchen des Dokumentarischen, sind aber schlichte Werbefilme für ihre Protagonisten

Früchte sind nicht nur ein beliebter Lieferant für Vitamine, sondern auch für Filmtitel. Wir haben zugebissen...

Warum die kleinen Plastiksteinchen aus Skandinavien so viele Stop-Motion Filme hervorgebracht haben...

Wie man vor CGI und Computeranimationen mit Modelltricks und Einzelbildern Fantasiewelten erschuf

Historische Verbrechen und deren Aufklärung sind zentraler Plot in einigen spannenden Kinofilmen und Serien

Weshalb Kunsträuber im KIno schon immer eine wichtige Rolle eingenommen haben

Wer im Web nach bestimmten Themen sucht, kann höchst unterschiedliche Ergebnisse erzielen. Die besten  Rechercheprompts...

In den 50er und 60er Jahren stürzte sich das US-Kino geradezu auf Italien, das Sehnsuchtsland nicht nur der Amerikaner...