Wie funktioniert ein Sprachmodell?

lock

Bevorstehend

Lernen Sie die Konzepte hinter grossen Sprachmodellen kennen: Token, n-Gramme, Wahrscheinlichkeitsverteilungen und die Transformer-Architektur.

Ziele dieses Moduls

Sie können Tokenisierung als Verfahren erklären und zwischen Zeichen-, Wort- und Subwort-Tokenisierung unterscheiden.
Verstehen
Sie können n-Gramm-Modelle und Wahrscheinlichkeitsverteilungen als Grundlage der Textgenerierung erklären und den Übergang zur Transformer-Architektur (Self-Attention) beschreiben.
Verstehen
Sie können in ChatGPT gezielt Halluzinationen provozieren und deren Ursache mit Fachbegriffen (fehlender Wahrheitsbegriff, autoregressive Generierung) erklären.
Anwenden

Überblick

Nach der Unplugged-Simulation gehen wir in die Tiefe: Was sind Tokens? Wie funktionieren n-Gramme? Was macht einen Transformer aus? Und warum halluzinieren Sprachmodelle? Sie erkunden ChatGPT mit gesteuerten Aufträgen und entdecken die Grenzen der Technologie.

Kompetenzen

Tokenisierung als Grundbegriff erklären
n-Gramm-Modelle und Wahrscheinlichkeitsverteilung verstehen
Die Transformer-Architektur vereinfacht beschreiben (Self-Attention)
LLM vs. klassisches ML unterscheiden
Halluzinationen provozieren und erklären

Von der Münze zum Token

In der Unplugged-Übung haben Sie Sätze Wort für Wort generiert — mit einer Münze als Zufallsentscheider. Das Prinzip stimmt: Sprachmodelle sagen das nächste Wort voraus.

Aber echte Sprachmodelle arbeiten nicht mit ganzen Wörtern. Sie zerlegen Text in Token — kleinste Einheiten, die das Modell verarbeitet.

Note

Was sind Token?

Token sind die «Bausteine», die ein Sprachmodell liest und erzeugt. Es gibt drei Arten der Tokenisierung:

Methode	Beispiel	Vorteil / Nachteil
Zeichen-Tokenisierung	D-a-s- -e-i-n- -H-a-u-s	Unendlich viele Kombinationen → Modell wird riesig
Wort-Tokenisierung	Das \| ein \| Haus	Jedes neue Wort = neuer Token → Vokabular explodiert
Subwort-Tokenisierung (BPE)	Das \| ein \| Haus	Kompromiss: häufige Wörter ganz, seltene in Teile

ChatGPT nutzt Subwort-Tokenisierung (Byte Pair Encoding). So kann das Modell auch unbekannte Wörter verarbeiten, indem es sie in bekannte Teile zerlegt.

Probieren Sie es aus: Öffnen Sie OpenAIs Tokenizer und geben Sie einen deutschen Satz ein. Zählen Sie: Wie viele Token produziert Ihr Satz?

n-Gramm-Modelle: Vom Einfachen zum Komplexen

In der Unplugged-Übung haben Sie eine Markov-Kette (Bigramm) gebaut: Das nächste Wort hinge nur vom aktuellen Wort ab.

Ein n-Gramm betrachtet die letzten n Wörter:

Unigramm (n=1): Jedes Wort unabhängig → «Es war einmal Es war ein...»
Bigramm (n=2): 1 Wort Kontext → Genau Ihre Unplugged-Übung!
Trigramm (n=3): 2 Wörter Kontext → «Es war» → «einmal» wahrscheinlicher als «ein»

Je grösser n, desto besser die Vorhersage — aber desto mehr Trainingsdaten braucht man. Ein 5-Gramm-Modell braucht Milliarden von Textbeispielen, um sinnvoll zu funktionieren.

Note

Der Transformer: Warum ChatGPT besser ist als n-Gramm

n-Gramm-Modelle haben ein Problem: Sie sehen nur die letzten n Wörter. Ein Satz wie «Das Buch, das ich gestern käuflich erworben habe, war teuer» — das Wort «Buch» ist weit weg von «war teuer», aber wichtig für den Zusammenhang.

Self-Attention löst dieses Problem:

Jedes Token «schaut» sich alle anderen Token im Satz an
Es berechnet, welche Token für seine Vorhersage am wichtigsten sind (Attention-Gewichte)
Damit kann das Modell Zusammenhänge über den ganzen Satz hinweg erkennen

Die Transformer-Architektur (2017 von Google vorgeschlagen) stapelt viele Self-Attention-Schichten übereinander. Das Ergebnis: Ein Modell, das den Kontext des ganzen Textes berücksichtigt — nicht nur die letzten 2-3 Wörter.

Vereinfacht: Die Münze aus der Unplugged-Übung wird durch ein System ersetzt, das den ganzen Satz «versteht», bevor es das nächste Wort wählt.

Challenge

Halluzinationen provozieren

Jetzt werden Sie zum Halluzinations-Detektiv. Öffnen Sie ChatGPT und versuchen Sie, gezielt falsche Antworten zu provozieren.

Auftrag

Provozieren Sie mit je einem Prompt eine Halluzination in jeder der folgenden Kategorien:

Erfundene Fakten: Fragen Sie nach etwas, das es nicht gibt, aber plausibel klingt.
Falsche Quellen: Bitten Sie um eine Quelle zu einem Thema und prüfen Sie, ob sie echt ist.
Logische Fehler: Stellen Sie eine Frage, bei der die Antwort logisch schlüssig klingen muss, aber sachlich falsch ist.

Dokumentation

Notieren Sie für jede Halluzination:

Den Prompt, den Sie verwendet haben
Die Antwort von ChatGPT
Warum die Antwort falsch ist

Warning

Warum halluzinieren Sprachmodelle?

Halluzinationen sind kein Bug — sie sind eine direkte Folge der Architektur:

Kein Wahrheitsbegriff: Das Modell hat kein Konzept von «wahr» oder «falsch». Es berechnet nur, welches Token statistisch am wahrscheinlichsten als nächstes folgt.
Autoregressive Generierung: Token für Token, ohne Rückblick. Einmal geschriebenes wird nicht korrigiert.
Plausibilität statt Fakten: Das Modell optimiert auf «klingt gut», nicht auf «ist richtig». Statistisch plausible Sätze sind nicht automatisch wahr.
Trainingsdaten-Bias: Was im Training häufig vorkam, wird bevorzugt — auch wenn es falsch ist.

Erinnern Sie sich an die Unplugged-Übung: Ihr Modell konnte auch nur wiederholen, was es in den Grimm-Sätzen gelernt hatte. Wenn die Trainingsdaten falsch waren, sind auch die generierten Sätze falsch.

Reflection

Zusammenfassung: Vom Unplugged zum Transformer

Konzept	Unplugged-Übung	Echtes LLM (ChatGPT)
Einheiten	Wörter	Token (Subwort-BPE)
Kontext	1 Wort (Bigramm)	Ganzer Text (Self-Attention)
Training	Pfeile zeichnen	Milliarden Parameter optimieren
Generierung	Münzwurf (gleichverteilt)	Wahrscheinlichkeit + Temperatur
Korpus	8 Grimm-Sätze	Das gesamte Internet

Das Prinzip bleibt gleich — aber der Massstab ändert alles.

Verständnisfragen

Tokenisierung: Erklären Sie in eigenen Worten, warum ChatGPT nicht mit ganzen Wörtern arbeitet, sondern mit Subwort-Token. Was ist der Vorteil?
n-Gramm vs. Transformer: Was ist der entscheidende Unterschied zwischen einem n-Gramm-Modell und einem Transformer bei der Textvorhersage?
Halluzinationen: Sie haben ChatGPT halluzinieren lassen. Erklären Sie mit Ihren eigenen Worten, warum das Modell nicht «merkt», dass es etwas Falsches sagt.

Antwort wird geladen...

Lokal gespeichert — Login, um Antworten dauerhaft zu sichern.

Quellen & Attribution

Sprachmodelle unplugged mit Grimms Märchen (INFOS 2023) Olari, V.; Zoppke, T.; Romeike, R.
Attention Is All You Need (Transformer-Paper, 2017) Vaswani, A. et al.
Tokenizer (Interaktives Tool) OpenAI