Fortschritt im Lernpfad

0 von 3 abgeschlossen (0%)

Wie funktioniert ein Sprachmodell?

lock
Bevorstehend

Lernen Sie die Konzepte hinter grossen Sprachmodellen kennen: Token, n-Gramme, Wahrscheinlichkeitsverteilungen und die Transformer-Architektur.

Ziele dieses Moduls
  • Sie können Tokenisierung als Verfahren erklären und zwischen Zeichen-, Wort- und Subwort-Tokenisierung unterscheiden.
    Verstehen
  • Sie können n-Gramm-Modelle und Wahrscheinlichkeitsverteilungen als Grundlage der Textgenerierung erklären und den Ăśbergang zur Transformer-Architektur (Self-Attention) beschreiben.
    Verstehen
  • Sie können in ChatGPT gezielt Halluzinationen provozieren und deren Ursache mit Fachbegriffen (fehlender Wahrheitsbegriff, autoregressive Generierung) erklären.
    Anwenden

Ăśberblick

Nach der Unplugged-Simulation gehen wir in die Tiefe: Was sind Tokens? Wie funktionieren n-Gramme? Was macht einen Transformer aus? Und warum halluzinieren Sprachmodelle? Sie erkunden ChatGPT mit gesteuerten Aufträgen und entdecken die Grenzen der Technologie.

Kompetenzen

  • Tokenisierung als Grundbegriff erklären
  • n-Gramm-Modelle und Wahrscheinlichkeitsverteilung verstehen
  • Die Transformer-Architektur vereinfacht beschreiben (Self-Attention)
  • LLM vs. klassisches ML unterscheiden
  • Halluzinationen provozieren und erklären

Von der MĂĽnze zum Token

In der Unplugged-Übung haben Sie Sätze Wort für Wort generiert — mit einer Münze als Zufallsentscheider. Das Prinzip stimmt: Sprachmodelle sagen das nächste Wort voraus.

Aber echte Sprachmodelle arbeiten nicht mit ganzen Wörtern. Sie zerlegen Text in Token — kleinste Einheiten, die das Modell verarbeitet.

Note

Was sind Token?

Token sind die «Bausteine», die ein Sprachmodell liest und erzeugt. Es gibt drei Arten der Tokenisierung:

MethodeBeispielVorteil / Nachteil
Zeichen-TokenisierungD-a-s- -e-i-n- -H-a-u-sUnendlich viele Kombinationen → Modell wird riesig
Wort-TokenisierungDas | ein | HausJedes neue Wort = neuer Token → Vokabular explodiert
Subwort-Tokenisierung (BPE)Das | ein | HausKompromiss: häufige Wörter ganz, seltene in Teile

ChatGPT nutzt Subwort-Tokenisierung (Byte Pair Encoding). So kann das Modell auch unbekannte Wörter verarbeiten, indem es sie in bekannte Teile zerlegt.

Probieren Sie es aus: Öffnen Sie OpenAIs Tokenizer und geben Sie einen deutschen Satz ein. Zählen Sie: Wie viele Token produziert Ihr Satz?

n-Gramm-Modelle: Vom Einfachen zum Komplexen

In der Unplugged-Übung haben Sie eine Markov-Kette (Bigramm) gebaut: Das nächste Wort hinge nur vom aktuellen Wort ab.

Ein n-Gramm betrachtet die letzten n Wörter:

  • Unigramm (n=1): Jedes Wort unabhängig → «Es war einmal Es war ein...»
  • Bigramm (n=2): 1 Wort Kontext → Genau Ihre Unplugged-Ăśbung!
  • Trigramm (n=3): 2 Wörter Kontext → «Es war» → «einmal» wahrscheinlicher als «ein»

Je grösser n, desto besser die Vorhersage — aber desto mehr Trainingsdaten braucht man. Ein 5-Gramm-Modell braucht Milliarden von Textbeispielen, um sinnvoll zu funktionieren.

Note

Der Transformer: Warum ChatGPT besser ist als n-Gramm

n-Gramm-Modelle haben ein Problem: Sie sehen nur die letzten n Wörter. Ein Satz wie «Das Buch, das ich gestern käuflich erworben habe, war teuer» — das Wort «Buch» ist weit weg von «war teuer», aber wichtig für den Zusammenhang.

Self-Attention löst dieses Problem:

  • Jedes Token «schaut» sich alle anderen Token im Satz an
  • Es berechnet, welche Token fĂĽr seine Vorhersage am wichtigsten sind (Attention-Gewichte)
  • Damit kann das Modell Zusammenhänge ĂĽber den ganzen Satz hinweg erkennen

Die Transformer-Architektur (2017 von Google vorgeschlagen) stapelt viele Self-Attention-Schichten übereinander. Das Ergebnis: Ein Modell, das den Kontext des ganzen Textes berücksichtigt — nicht nur die letzten 2-3 Wörter.

Vereinfacht: Die Münze aus der Unplugged-Übung wird durch ein System ersetzt, das den ganzen Satz «versteht», bevor es das nächste Wort wählt.

Challenge

Halluzinationen provozieren

Jetzt werden Sie zum Halluzinations-Detektiv. Ă–ffnen Sie ChatGPT und versuchen Sie, gezielt falsche Antworten zu provozieren.

Auftrag

Provozieren Sie mit je einem Prompt eine Halluzination in jeder der folgenden Kategorien:

  1. Erfundene Fakten: Fragen Sie nach etwas, das es nicht gibt, aber plausibel klingt.
  2. Falsche Quellen: Bitten Sie um eine Quelle zu einem Thema und prĂĽfen Sie, ob sie echt ist.
  3. Logische Fehler: Stellen Sie eine Frage, bei der die Antwort logisch schlĂĽssig klingen muss, aber sachlich falsch ist.

Dokumentation

Notieren Sie fĂĽr jede Halluzination:

  • Den Prompt, den Sie verwendet haben
  • Die Antwort von ChatGPT
  • Warum die Antwort falsch ist

Warning

Warum halluzinieren Sprachmodelle?

Halluzinationen sind kein Bug — sie sind eine direkte Folge der Architektur:

  • Kein Wahrheitsbegriff: Das Modell hat kein Konzept von «wahr» oder «falsch». Es berechnet nur, welches Token statistisch am wahrscheinlichsten als nächstes folgt.
  • Autoregressive Generierung: Token fĂĽr Token, ohne RĂĽckblick. Einmal geschriebenes wird nicht korrigiert.
  • Plausibilität statt Fakten: Das Modell optimiert auf «klingt gut», nicht auf «ist richtig». Statistisch plausible Sätze sind nicht automatisch wahr.
  • Trainingsdaten-Bias: Was im Training häufig vorkam, wird bevorzugt — auch wenn es falsch ist.

Erinnern Sie sich an die Unplugged-Übung: Ihr Modell konnte auch nur wiederholen, was es in den Grimm-Sätzen gelernt hatte. Wenn die Trainingsdaten falsch waren, sind auch die generierten Sätze falsch.

Reflection

Zusammenfassung: Vom Unplugged zum Transformer

KonzeptUnplugged-ĂśbungEchtes LLM (ChatGPT)
EinheitenWörterToken (Subwort-BPE)
Kontext1 Wort (Bigramm)Ganzer Text (Self-Attention)
TrainingPfeile zeichnenMilliarden Parameter optimieren
GenerierungMĂĽnzwurf (gleichverteilt)Wahrscheinlichkeit + Temperatur
Korpus8 Grimm-SätzeDas gesamte Internet

Das Prinzip bleibt gleich — aber der Massstab ändert alles.

Verständnisfragen

  1. Tokenisierung: Erklären Sie in eigenen Worten, warum ChatGPT nicht mit ganzen Wörtern arbeitet, sondern mit Subwort-Token. Was ist der Vorteil?
  2. n-Gramm vs. Transformer: Was ist der entscheidende Unterschied zwischen einem n-Gramm-Modell und einem Transformer bei der Textvorhersage?
  3. Halluzinationen: Sie haben ChatGPT halluzinieren lassen. Erklären Sie mit Ihren eigenen Worten, warum das Modell nicht «merkt», dass es etwas Falsches sagt.
Antwort wird geladen...
Lokal gespeichert — Login, um Antworten dauerhaft zu sichern.

Quellen & Attribution