Wie funktioniert ein Sprachmodell?
Lernen Sie die Konzepte hinter grossen Sprachmodellen kennen: Token, n-Gramme, Wahrscheinlichkeitsverteilungen und die Transformer-Architektur.
- Sie können Tokenisierung als Verfahren erklären und zwischen Zeichen-, Wort- und Subwort-Tokenisierung unterscheiden.Verstehen
- Sie können n-Gramm-Modelle und Wahrscheinlichkeitsverteilungen als Grundlage der Textgenerierung erklären und den Übergang zur Transformer-Architektur (Self-Attention) beschreiben.Verstehen
- Sie können in ChatGPT gezielt Halluzinationen provozieren und deren Ursache mit Fachbegriffen (fehlender Wahrheitsbegriff, autoregressive Generierung) erklären.Anwenden
Ăśberblick
Nach der Unplugged-Simulation gehen wir in die Tiefe: Was sind Tokens? Wie funktionieren n-Gramme? Was macht einen Transformer aus? Und warum halluzinieren Sprachmodelle? Sie erkunden ChatGPT mit gesteuerten Aufträgen und entdecken die Grenzen der Technologie.
Kompetenzen
- Tokenisierung als Grundbegriff erklären
- n-Gramm-Modelle und Wahrscheinlichkeitsverteilung verstehen
- Die Transformer-Architektur vereinfacht beschreiben (Self-Attention)
- LLM vs. klassisches ML unterscheiden
- Halluzinationen provozieren und erklären
Von der MĂĽnze zum Token
In der Unplugged-Übung haben Sie Sätze Wort für Wort generiert — mit einer Münze als Zufallsentscheider. Das Prinzip stimmt: Sprachmodelle sagen das nächste Wort voraus.
Aber echte Sprachmodelle arbeiten nicht mit ganzen Wörtern. Sie zerlegen Text in Token — kleinste Einheiten, die das Modell verarbeitet.
Note
Was sind Token?
Token sind die «Bausteine», die ein Sprachmodell liest und erzeugt. Es gibt drei Arten der Tokenisierung:
| Methode | Beispiel | Vorteil / Nachteil |
|---|---|---|
| Zeichen-Tokenisierung | D-a-s- -e-i-n- -H-a-u-s | Unendlich viele Kombinationen → Modell wird riesig |
| Wort-Tokenisierung | Das | ein | Haus | Jedes neue Wort = neuer Token → Vokabular explodiert |
| Subwort-Tokenisierung (BPE) | Das | ein | Haus | Kompromiss: häufige Wörter ganz, seltene in Teile |
ChatGPT nutzt Subwort-Tokenisierung (Byte Pair Encoding). So kann das Modell auch unbekannte Wörter verarbeiten, indem es sie in bekannte Teile zerlegt.
Probieren Sie es aus: Öffnen Sie OpenAIs Tokenizer und geben Sie einen deutschen Satz ein. Zählen Sie: Wie viele Token produziert Ihr Satz?
n-Gramm-Modelle: Vom Einfachen zum Komplexen
In der Unplugged-Übung haben Sie eine Markov-Kette (Bigramm) gebaut: Das nächste Wort hinge nur vom aktuellen Wort ab.
Ein n-Gramm betrachtet die letzten n Wörter:
- Unigramm (n=1): Jedes Wort unabhängig → «Es war einmal Es war ein...»
- Bigramm (n=2): 1 Wort Kontext → Genau Ihre Unplugged-Übung!
- Trigramm (n=3): 2 Wörter Kontext → «Es war» → «einmal» wahrscheinlicher als «ein»
Je grösser n, desto besser die Vorhersage — aber desto mehr Trainingsdaten braucht man. Ein 5-Gramm-Modell braucht Milliarden von Textbeispielen, um sinnvoll zu funktionieren.
Note
Der Transformer: Warum ChatGPT besser ist als n-Gramm
n-Gramm-Modelle haben ein Problem: Sie sehen nur die letzten n Wörter. Ein Satz wie «Das Buch, das ich gestern käuflich erworben habe, war teuer» — das Wort «Buch» ist weit weg von «war teuer», aber wichtig für den Zusammenhang.
Self-Attention löst dieses Problem:
- Jedes Token «schaut» sich alle anderen Token im Satz an
- Es berechnet, welche Token fĂĽr seine Vorhersage am wichtigsten sind (Attention-Gewichte)
- Damit kann das Modell Zusammenhänge über den ganzen Satz hinweg erkennen
Die Transformer-Architektur (2017 von Google vorgeschlagen) stapelt viele Self-Attention-Schichten übereinander. Das Ergebnis: Ein Modell, das den Kontext des ganzen Textes berücksichtigt — nicht nur die letzten 2-3 Wörter.
Vereinfacht: Die Münze aus der Unplugged-Übung wird durch ein System ersetzt, das den ganzen Satz «versteht», bevor es das nächste Wort wählt.
Challenge
Halluzinationen provozieren
Jetzt werden Sie zum Halluzinations-Detektiv. Ă–ffnen Sie ChatGPT und versuchen Sie, gezielt falsche Antworten zu provozieren.
Auftrag
Provozieren Sie mit je einem Prompt eine Halluzination in jeder der folgenden Kategorien:
- Erfundene Fakten: Fragen Sie nach etwas, das es nicht gibt, aber plausibel klingt.
- Falsche Quellen: Bitten Sie um eine Quelle zu einem Thema und prĂĽfen Sie, ob sie echt ist.
- Logische Fehler: Stellen Sie eine Frage, bei der die Antwort logisch schlĂĽssig klingen muss, aber sachlich falsch ist.
Dokumentation
Notieren Sie fĂĽr jede Halluzination:
- Den Prompt, den Sie verwendet haben
- Die Antwort von ChatGPT
- Warum die Antwort falsch ist
Warning
Warum halluzinieren Sprachmodelle?
Halluzinationen sind kein Bug — sie sind eine direkte Folge der Architektur:
- Kein Wahrheitsbegriff: Das Modell hat kein Konzept von «wahr» oder «falsch». Es berechnet nur, welches Token statistisch am wahrscheinlichsten als nächstes folgt.
- Autoregressive Generierung: Token fĂĽr Token, ohne RĂĽckblick. Einmal geschriebenes wird nicht korrigiert.
- Plausibilität statt Fakten: Das Modell optimiert auf «klingt gut», nicht auf «ist richtig». Statistisch plausible Sätze sind nicht automatisch wahr.
- Trainingsdaten-Bias: Was im Training häufig vorkam, wird bevorzugt — auch wenn es falsch ist.
Erinnern Sie sich an die Unplugged-Übung: Ihr Modell konnte auch nur wiederholen, was es in den Grimm-Sätzen gelernt hatte. Wenn die Trainingsdaten falsch waren, sind auch die generierten Sätze falsch.
Reflection
Zusammenfassung: Vom Unplugged zum Transformer
| Konzept | Unplugged-Ăśbung | Echtes LLM (ChatGPT) |
|---|---|---|
| Einheiten | Wörter | Token (Subwort-BPE) |
| Kontext | 1 Wort (Bigramm) | Ganzer Text (Self-Attention) |
| Training | Pfeile zeichnen | Milliarden Parameter optimieren |
| Generierung | MĂĽnzwurf (gleichverteilt) | Wahrscheinlichkeit + Temperatur |
| Korpus | 8 Grimm-Sätze | Das gesamte Internet |
Das Prinzip bleibt gleich — aber der Massstab ändert alles.
Verständnisfragen
- Tokenisierung: Erklären Sie in eigenen Worten, warum ChatGPT nicht mit ganzen Wörtern arbeitet, sondern mit Subwort-Token. Was ist der Vorteil?
- n-Gramm vs. Transformer: Was ist der entscheidende Unterschied zwischen einem n-Gramm-Modell und einem Transformer bei der Textvorhersage?
- Halluzinationen: Sie haben ChatGPT halluzinieren lassen. Erklären Sie mit Ihren eigenen Worten, warum das Modell nicht «merkt», dass es etwas Falsches sagt.
Quellen & Attribution
- Sprachmodelle unplugged mit Grimms Märchen (INFOS 2023) Olari, V.; Zoppke, T.; Romeike, R.
- Attention Is All You Need (Transformer-Paper, 2017) Vaswani, A. et al.
- Tokenizer (Interaktives Tool) OpenAI