Praktisches & Grundsätzliches zur Informatik


LLM-basierte KI verträgt keine KI-generierten Trainingsdaten

Forscher fanden heraus, dass sich KI-Modelle selbst sabotieren, wenn sie KI-generierte Daten zum Training verwenden. Sie produzieren dann immer mehr Müll.

|

Was also, wenn sich in durch Menschen produzierten Texten zunehmend mehr Abschnitte finden, die zunächst KI-generiert waren und dann nur leicht editiert wurden?

Mit anderen Worten: Wie will man dann noch Trainingsdaten finden, welche auf die KI nicht wie Gift wirken?

|

Man hat das Problem untersucht anhand von Bildgeneratoren:

Vergleicht man aufeinanderfolgenden Generationen von Bilddatensätzen, erkennt man darin fortschreitende Verarmung, sich ständig reduzierende Qualität: Bilder von Gesichtern werden zunehmend von gitterartigen Narben durchzogen – was die Autoren der Studie als "generative Artefakte" bezeichnen – oder sie sehen immer mehr aus wie Bilder ein und dieselbe Person. Datensätze, die aus Zahlen bestehen, verwandeln sich in unentzifferbare Kritzeleien.

|

Tierzüchtern ist ein dazu analoger Effekt bekannt, genannt "Rinderwahnsinn": Er ist eine für Kühe tödliche neurodegenerative Krankheit, die ein menschliches Äquivalent hat, das durch den Verzehr von infiziertem Fleisch verursacht wird. Die Krankheit bekam in den Achtzigern große Aufmerksamkeit, als sich herausstellte, dass erkrankte Kühe mit verarbeiteten Überresten geschlachteten Artgenossen gefüttert wurden.

|

Wie das US-Magazin „Futurism“ schreibt, passieren seltsame Dinge, wenn man Künstliche Intelligenz mit Daten füttert, die von KI-Systemen erzeugt wurden. In Experimenten von Datenforschern dauerte es nur fünf Durchgänge bis die KI „verrückt“ wurde. Sowohl Bild- als auch Sprachmodule lieferten groteske Ergebnisse, wenn sie mit ihren eigenen Erzeugnissen gefüttert werden. US-Forscher haben für diese Art der Dateninzucht den Begriff „Model Autophagy Disorder“, kurz „MAD“, geprägt. Ein weiterer Effekt kann sein, dass bestimmte Charakteristika und Vorurteile weiter verstärkt werden.



stw3404grLLM . KI . TrainingsdatenNews?

Mehr + B G E + S H A + More

KI verliert Verstand, wenn sie nur mit KI-generierten Daten trainiert wird

Large Language Models (LLM)