TechTok #13: Nutzt die KI Ihre Daten zum Trainieren?
Künstliche Intelligenz scheint heute in fast jeden Bereich unseres Lebens Einzug gehalten zu haben. Die Einsatzmöglichkeiten reichen von offensichtlichen Feldern wie dem Programmieren oder der Bildbearbeitung bis hin zu weniger sichtbaren Aufgaben wie der medizinischen Diagnostik oder juristischen Analysen. Und selbst wenn man sich nur wenig damit beschäftigt, wie diese Technik eigentlich funktioniert, hat man vermutlich schon einmal gehört, dass jede KI riesige Mengen an Daten zum Lernen benötigt, bevor sie sinnvoll eingesetzt werden kann.
Diese Daten müssen irgendwo herkommen — und das führt uns direkt zur ersten Frage unseres heutigen TechToks:
Nutzen Apps und Websites meine Daten ohne mein Wissen, um damit KI zu trainieren?
Eine kurze, eindeutige Antwort auf diese Frage gibt es leider nicht. Am ehesten lässt sie sich so zusammenfassen: „Ja, das passiert — aber nicht unbedingt so, wie Sie vielleicht denken.“ Wir wissen natürlich, dass Sie sich nicht mit einer so vagen Aussage zufriedengeben möchten.
Doch bevor wir tiefer in die Materie eintauchen, sollten wir eines klären: „KI-Training“ und „Datensammlung“ sind keine Synonyme, auch wenn sie eng miteinander verknüpft sind. Einfach gesagt: Um eine KI zu trainieren, braucht man Daten. Die Beschaffung dieser Informationen ist eine der größten Herausforderungen bei der Entwicklung solcher Systeme. Dennoch gibt es unzählige andere Gründe, warum Unternehmen an Ihre Daten gelangen wollen.
Der Punkt ist: Das Konzept der Online-Datenerfassung existiert schon seit Jahrzehnten — lange bevor die KI überhaupt am digitalen Horizont auftauchte. Über viele Jahre hinweg war vor allem die Werbebranche die treibende Kraft hinter dem Sammeln von Informationen. Es wurden wahnsinnig komplexe Systeme entwickelt, um Profile zu erstellen und Menschen über verschiedene Apps und Webseiten hinweg zu verfolgen. Alles mit dem Ziel, genau zu wissen, wem man wann welche Anzeige zeigt, um die Chance auf einen Klick zu erhöhen.
Der digitale Werbemarkt wird auf jährlich etwa 600 bis 700 Milliarden US-Dollar geschätzt, und das Fundament dieses Marktes sind Daten. Das macht deutlich, warum Informationen so oft als „das neue Öl“ bezeichnet werden.
Natürlich gab es auch andere Gründe, warum Unternehmen digitale Daten begehren: Personalisierung, Empfehlungen, Betrugserkennung, Abrechnungen oder Produktanalysen — was besonders in Branchen wie dem Finanzwesen, dem Einzelhandel oder der Telekommunikation eine große Rolle spielt. Doch die genauen Gründe sind hier gar nicht der entscheidende Punkt.
Was wir hervorheben möchten: Die weltweite und massive Datenerfassung wurde nicht erst durch den Aufstieg der KI ins Leben gerufen. Tatsächlich sind die Methoden, mit denen heute Daten für das KI-Training gewonnen werden, oft dieselben, die seit Jahren für andere Zwecke im Einsatz sind. Die KI-Unternehmen mussten das Rad also nicht neu erfinden — sie konnten auf einem sehr soliden Fundament aufbauen.
Interessanterweise überschneiden sich die Datenarten, die für Werbe-Tracking und KI-Training benötigt werden, massiv — was für viele überraschend sein mag. In den Köpfen vieler Menschen sind die Begriffe „KI“ und „LLM“ (Large Language Model) mittlerweile fast dasselbe.
Tatsächlich sind Chatbots (im Grunde eine Benutzeroberfläche mit einem LLM im Hintergrund) für die meisten wohl der am häufigsten genutzte Berührungspunkt mit Künstlicher Intelligenz. Es leuchtet ein, dass das Training einer generativen KI, wie sie in Chatbots steckt, riesige Mengen an Texten erfordert, die von Menschen verfasst wurden: Beiträge und Kommentare auf Plattformen wie Reddit oder X, Chat-Eingaben oder Rezensionen. Das ist absolut richtig, denn diese Modelle müssen lernen, wie Menschen wirklich sprechen, wie man Fragen beantwortet und wie Gespräche im echten Leben fließen — inklusive Humor, Slang und Tonfall.
Allerdings gibt es abseits dieser generativen Modelle noch eine Vielzahl anderer KI-Systeme, die ganz unterschiedliche Aufgaben übernehmen — etwa für Empfehlungen, Suchergebnisse oder gezielte Werbeplatzierungen. In diesen Fällen steht oft nicht der konkrete Inhalt im Vordergrund, sondern das reine Nutzungsverhalten. Viele moderne Plattformen kombinieren heute beide Ansätze und verwerten sowohl die erstellten Inhalte als auch das Wissen darüber, was Sie wann anklicken.
Damit lässt sich die eingangs gestellte Frage klarer beantworten: Ja, einige KI-Unternehmen nutzen Ihre Daten tatsächlich für das Training ihrer Systeme. Meist geschieht dies jedoch auf genau dieselbe Weise, wie diese Firmen Ihre Informationen bereits vor der KI-Ära für ganz andere Zwecke gesammelt haben.
Rein rechtlich gesehen erfassen die meisten Unternehmen Daten nicht heimlich — egal ob für das KI-Training oder andere Belange —, denn ein solches Vorgehen ist in vielen Ländern schlicht illegal. Einige gehen sogar so weit, ihre Absicht zur Datennutzung für das KI-Training öffentlich anzukündigen, wobei manche Unternehmen die Pläne deutlich stärker beschönigen als andere. Gleichzeitig ist es eine gängige Praxis, die laufende Erfassung hinter seitenlangen Datenschutzbestimmungen, mühsamen Nutzungsbedingungen und anderen ermüdenden juristischen Texten zu verstecken. Wer einen Hang zu schwarzem Humor hat, findet es vielleicht sogar ironisch, dass in diesen Dokumenten oft genau die gleichen vagen und weit gefassten Formulierungen verwendet werden, die man auch aus den Texten zum klassischen Werbe-Tracking kennt.
Doch selbst wer sich die Mühe macht, jedes Detail der Datenschutzrichtlinien gewissenhaft zu studieren, hat keine absolute Garantie. Es kommt immer wieder vor, dass solche Details schlichtweg „vergessen“ werden. Erst kürzlich wurde bekannt, dass die Dating-App OkCupid drei Millionen Fotos ungefragt an ein KI-Unternehmen weitergegeben hat. Solche Praktiken sind leider kein neues Phänomen der KI-Ära, sondern die Fortführung bekannter Verhaltensweisen: Wo hohe Gewinne locken, wird das Gesetz gelegentlich zum eigenen Vorteil sehr frei ausgelegt.
Wie finden Ihre Daten überhaupt den Weg ins KI-Training?
Betrachten wir das Ganze einmal aus einer größeren Distanz. Wir haben bereits kurz angerissen, welche Arten von Daten verwendet werden — von Inhalten wie Texten und Fotos bis hin zum reinen Verhalten wie Klicks und Interaktionen. Viele stellen sich jedoch völlig zurecht die Frage: „Welche meiner Daten landen eigentlich genau in einer KI und auf welchem Weg passiert das?“ Tatsächlich wird nicht alles auf die gleiche Weise verarbeitet. Je nach Herkunft fließen die Daten sehr unterschiedlich in die Systeme ein. Um die unzähligen Quellen ein wenig zu ordnen, lassen sie sich in vier Kategorien unterteilen:
- Soziale Medien (öffentlich zugängliche Informationen)
- Unterhaltungen mit Chatbots (direkte Eingaben)
- Interaktionen auf Plattformen (Nutzungsverhalten)
- Apps und Websites von Drittanbietern
Wer öffentlich etwas postet oder kommentiert — sei es auf Reddit, YouTube, X oder Facebook —, gibt damit nicht automatisch die Erlaubnis, dass diese Inhalte uneingeschränkt für das KI-Training verwendet werden dürfen. In der Praxis fehlen jedoch oft die Mittel, um den Plattformen das Training oder die Weitergabe an Dritte wirksam zu untersagen. Die Regeln unterscheiden sich zwar von Fall zu Fall, aber im Grunde gilt die Faustregel: Was einmal öffentlich ist, entzieht sich weitgehend der eigenen Kontrolle. Plattformen, die die Daten nicht selbst verwerten, verkaufen oder teilen sie oft in irgendeiner Form weiter.
Einen entscheidenden Vorteil haben hier Menschen innerhalb der EU. Dank strenger Gesetze wie der DSGVO und dem EU AI Act genießen sie einen deutlich besseren Schutz als in vielen anderen Regionen. Diese Regelungen geben den Menschen das Recht, über die Datenverarbeitung informiert zu werden, ihr zu widersprechen oder in bestimmten Fällen sogar die Löschung der eigenen Informationen zu verlangen. So lässt sich die Nutzung persönlicher Daten für das Training von KI-Modellen zumindest einschränken oder gezielt hinterfragen.
Wie sieht es aber aus, wenn man direkt mit einem Chatbot spricht? Wie hoch ist die Wahrscheinlichkeit, dass die eigenen Eingaben für das KI-Training verwendet werden? Das hängt natürlich stark vom jeweiligen Dienst ab. Bei den meisten Angeboten für Privatpersonen muss man jedoch davon ausgehen, dass fast alles, was man eintippt oder hochlädt, zur Verbesserung des Dienstes genutzt wird. Interessanterweise gilt das oft sogar für kostenpflichtige Abonnements, sofern es sich um Einzelverträge und nicht um spezielle Tarife für Unternehmen handelt.
Immerhin bieten viele Chatbots inzwischen eine Opt-out-Funktion an, auch wenn diese oft tief in den Einstellungen versteckt ist. Da die Frage „Wie kann ich der Datennutzung widersprechen?“ für viele im Mittelpunkt steht, schauen wir uns die praktischen Schritte bei den bekanntesten Anbietern für den privaten Gebrauch einmal genauer an:
ChatGPT. Öffnen Sie ChatGPT und gehen Sie über Ihr Profil zu den Einstellungen → Datenkontrolle. Dort können Sie die Option „Das Modell für alle verbessern“ deaktivieren. Laut OpenAI werden Ihre Chats ab diesem Zeitpunkt nicht mehr für das Training verwendet, wobei bestimmte Aufbewahrungsfristen für die Daten bestehen bleiben können. Früher war ein Widerspruch auch per Nachricht an den Support möglich; OpenAI gibt an, solche alten Anfragen weiterhin zu berücksichtigen, bietet diesen Weg für Neuanmeldungen jedoch nicht mehr an.
Perplexity. In den Kontoeinstellungen finden Sie unter Präferenzen den Punkt „KI-Datenspeicherung“, den Sie ausschalten können. Bitte beachten Sie, dass dies nur künftige Daten betrifft. Informationen, die vor diesem Zeitpunkt gesammelt wurden, können weiterhin für das Training genutzt werden und lassen sich nachträglich nicht mehr löschen oder entfernen.
Gemini. Navigieren Sie in Ihrem Google-Konto zu Daten & Datenschutz und suchen Sie den Bereich „Gemini Apps-Aktivität“. Dort können Sie die Funktion deaktivieren oder den Verlauf löschen. Dies verhindert jedoch nur künftige Stichproben durch Google und hat keinen Einfluss auf vergangene Interaktionen. Da Gemini in viele verschiedene Google-Produkte integriert ist, kann das genaue Datenschutzverhalten je nach Anwendung variieren.
Claude. Dieser Dienst bildet eine positive Ausnahme, da Claude die Modelle standardmäßig nicht mit Ihren Unterhaltungen trainiert. Eine Nutzung Ihrer Daten erfolgt nur, wenn Sie dem explizit zustimmen (Opt-in). Wenn Sie eine Unterhaltung löschen, wird diese laut Anthropic innerhalb von etwa 30 Tagen aus den Systemen entfernt.
Was die Erfassung des Nutzungsverhaltens betrifft, gibt es eine einfache und meist zutreffende Faustregel: Je größer die Plattform, desto stärker ist sie auf diese Daten angewiesen. Kleinere Apps mit einem sehr spezifischen Funktionsumfang verzichten hingegen oft auf ein umfassendes Tracking. Bei den Branchenriesen wie YouTube, TikTok oder Netflix, aber auch bei Suchmaschinen und E-Commerce-Plattformen wie Amazon oder eBay, können Sie sich jedoch sicher sein: Hier wird alles gesammelt, was nur möglich ist, um die Empfehlungs- und Ranking-Algorithmen immer weiter zu verfeinern. Das bedeutet nicht, dass kleinere Anwendungen gar kein Tracking betreiben, aber für sie ist diese Art der Datenauswertung meist deutlich weniger relevant.
Doch wie steht es um die „ganz normalen“, kleineren Apps und Websites, die wir täglich nutzen? Nicht alles ist ein Chatbot oder eine riesige Plattform. Was passiert, wenn Sie einfach ein kleines Spiel installieren oder eine weniger bekannte Website besuchen? Auch hier lässt sich nicht pauschal für Millionen von Apps antworten. Generell lässt sich aber sagen, dass diese Anbieter meist kein Interesse daran haben, eigene KI-Modelle mit Ihren Daten zu trainieren. Auch ein direkter Verkauf Ihrer Informationen an Dritte findet eher selten statt.
Allerdings ist es absolut üblich, dass die Teams hinter solchen Apps und Websites Tools zur Analyse oder Werbenetzwerke einbinden, um ihr Angebot zu finanzieren. Diese Tools erfassen sehr wohl Daten wie Ihr Nutzungsverhalten, Geräteinformationen oder Verhaltensmuster. Sobald diese Informationen bei Werbenetzwerken, Datenhändlern oder Analysefirmen landen, werden sie zusammengeführt. Auf diesem Weg können sie — unter anderem — eben auch indirekt zum Training von KI-Systemen beitragen.
Wenn man sich vor Augen führt, auf wie vielen Wegen persönliche Informationen in den Datensätzen einer KI landen können, mag man schnell denken: „Das ist ganz schön viel, worüber man sich Sorgen machen muss.“ Das stimmt bis zu einem gewissen Grad, aber man sollte auch bedenken, dass nicht jedes kleinste Detail auch wirklich verwertet wird und nicht alle Unternehmen gleich vorgehen. Und das Wichtigste: Es gibt Möglichkeiten, die Menge der gesammelten Daten deutlich zu reduzieren. Das bringt uns zur zweiten Frage unseres heutigen TechToks:
Kann ein Werbeblocker oder ein VPN das KI-Tracking und die Datenerfassung stoppen?
Wie Sie eben gesehen haben, nimmt KI-Tracking so viele verschiedene Formen an, dass es unmöglich ist, diese Frage mit einem einfachen „Ja“ oder „Nein“ zu beantworten. Sowohl ein Werbeblocker als auch ein VPN können zwar helfen, aber sie sind kein Allheilmittel gegen jede Form der Datenerfassung.
Zunächst einmal hilft keines dieser Tools, wenn Sie selbst aktiv Daten preisgeben — also mit einem Chatbot kommunizieren, Beiträge in sozialen Medien posten oder Kommentare hinterlassen. Werbeblocker und VPNs können Plattformen nicht auf magische Weise untersagen, Informationen zu nutzen, die Sie ihnen bereits direkt oder indirekt übermittelt haben. Gegen diese Art der Datensammlung sind Privatsphäre-Einstellungen, Opt-out-Optionen und Gesetze zum Schutz der Privatsphäre die beste Verteidigung. Es lohnt sich daher, die Datenschutzrichtlinien und verfügbaren Einstellungen der genutzten Plattformen und Apps genau unter die Lupe zu nehmen. Falls Ihnen nicht gefällt, was Sie dort finden, ist der Wechsel zu einer Alternative oft die sinnvollste Wahl.
Die große Stärke von Werbeblockern liegt darin, Tracker von Drittanbietern zu stoppen, die Informationen über Sie für eine spätere Verwendung sammeln. Das Verhindern dieser Analysen durch Externe ist ohne Frage die effektivste Methode, mit der Werbeblocker Datenlecks verhindern können. Tools wie AdGuard können die meisten, wenn nicht sogar fast alle Tracker von Drittanbietern auf Webseiten blockieren. Innerhalb von Apps gestaltet sich dies meist schwieriger — das liegt jedoch an den strikten Einschränkungen von Android und iOS, wenn es darum geht, in den Datenverkehr anderer Apps einzugreifen.
Werbeblocker können auch dazu beitragen, die Erfassung von Verhaltensdaten einzuschränken, allerdings nicht lückenlos. Viele große Plattformen verlassen sich stark auf sogenanntes Erstanbieter-Tracking — sie brauchen also keine externen Firmen, um Empfehlungen zu erstellen, Modelle zu trainieren oder das Verhalten zu analysieren. Oft ist dieses interne Tracking so tief in die Funktionen integriert, dass ein Blockieren den eigentlichen Dienst unbrauchbar machen würde. Stellen Sie sich vor, Sie würden das Tracking direkt bei YouTube unterbinden und plötzlich ließen sich keine Videos mehr laden. Auch hier gilt: In mobilen Apps sind diese Probleme meist deutlicher ausgeprägt als auf Websites.
Dennoch bleibt ein Werbeblocker eines der besten Tools, um den Trainings-Algorithmen der KI die Grundlage zu entziehen. Doch wie sieht es mit VPNs aus?
Ein VPN ist ein hervorragendes — für viele sogar unverzichtbares — Tool zum Schutz der Privatsphäre. Wenn es jedoch gezielt darum geht, die Nutzung der eigenen Daten für das KI-Training zu verhindern, sind die Möglichkeiten eher begrenzt. Dennoch kann ein VPN einen wertvollen Beitrag leisten, wenn auch auf eine eher indirekte Weise.
Da ein VPN die IP-Adresse verbirgt und den Standort verschleiert, wird es für Websites und externe Tracker schwieriger, Aktivitäten über verschiedene Seiten hinweg miteinander zu verknüpfen oder ein Profil basierend auf der Netzwerkidentität zu erstellen.
Allerdings hindert ein VPN die jeweils genutzten Plattformen nicht daran, zu sehen, was man dort tut. Wer in einem Konto angemeldet ist oder auch nur mit einer Website oder App interagiert, muss damit rechnen, dass Klicks, Suchanfragen und Eingaben weiterhin direkt von diesem Dienst aufgezeichnet werden. Auch externe Tracker werden durch ein VPN allein nicht gestoppt — diese Aufgabe bleibt das Spezialgebiet von Werbeblockern, auch wenn ein VPN das Tracking insgesamt ungenauer machen kann.
Fassen wir zusammen: Werbeblocker und VPNs sind zwei der besten Instrumente, die man für den Schutz der Privatsphäre einsetzen kann. Sie sind definitiv hilfreich, wenn man verhindern möchte, dass die eigenen Daten als „Futter“ für künftige KI-Modelle enden — das gilt ganz besonders für den Einsatz von Werbeblockern.
Letztlich hängt die Sicherheit Ihrer Daten jedoch in erster Linie von Ihrer eigenen Aufmerksamkeit und Sorgfalt ab. Wenn Sie Datenschutzrichtlinien kurz prüfen, bevor Sie eine neue App nutzen, und wenn Sie achtsam damit umgehen, was Sie online posten oder einem Chatbot anvertrauen, senken Sie das Risiko deutlich. Es ist gut, starke technische Helfer an der Seite zu haben, aber am Ende ist eine gesunde Portion Vorsicht durch nichts zu ersetzen.








