SoekiaGPT — Sprachmodelle durchschauen
Experimentieren Sie mit SoekiaGPT — einem didaktischen Textgenerator, der zeigt, wie Sprachmodelle funktionieren. Blicken Sie hinter die Kulissen von ChatGPT.
- Sie können erklären, wie SoekiaGPT Texte generiert: Statistische Wortfolge auf Basis der letzten 5 Wörter aus Trainingsdaten.Verstehen
- Sie können mit «Schau hinein» die Generierung Wort für Wort verfolgen und den Einfluss von Trainingsdaten auf den Output experimentell nachweisen.Anwenden
- Sie können den Zusammenhang zwischen Trainingsdaten, Halluzinationen und Bias bei Sprachmodellen kritisch beurteilen.Evaluieren
SoekiaGPT ist ein didaktischer Textgenerator, der hinter die Kulissen von Sprachmodellen wie ChatGPT blicken lässt. Es nutzt klassische Statistik statt neuronaler Netze — und man kann mitverfolgen, wie es Wort für Wort entscheidet. Experimentieren Sie mit Trainingsdaten, Halluzinationen und Bias.
Was ist SoekiaGPT?
SoekiaGPT ist ein Textgenerator, der speziell für den Unterricht entwickelt wurde — von Michael Hielscher (PH Schwyz) auf Basis von Ideen von Werner Hartmann. Es ist kostenlos, webbasiert und braucht kein Login.
Anders als ChatGPT nutzt SoekiaGPT keine neuronalen Netze. Es arbeitet mit klassischen statistischen Methoden: Es schaut auf die letzten 5 Wörter und berechnet, welches Wort als Nächstes am wahrscheinlichsten ist. Genau dieses Prinzip — nur extrem vereinfacht — liegt auch ChatGPT zugrunde.
Das Besondere: Man kann mit «Schau hinein» die Blackbox öffnen und Schritt für Schritt verfolgen, wie der Text entsteht. Bei ChatGPT ist das nicht möglich.
Website: soekia.ch/gpt.html
Note
Wie funktioniert SoekiaGPT?
SoekiaGPT zeigt auf einfache Weise, wie auch grosse Sprachmodelle funktionieren:
- Trainingsdaten: Das Programm analysiert eine Sammlung von Texten (z.B. Märchen, Wetterberichte). Es zählt, welche Wörter häufig aufeinanderfolgen.
- Statistik statt KI: Beim Schreiben schaut es auf die letzten 5 Wörter und wählt das nächste Wort aufgrund der statistischen Wahrscheinlichkeit aus — kein maschinelles Lernen, kein neuronales Netz.
- Generierung: Wort fĂĽr Wort entsteht ein neuer Text. Weil Zufall mitspielt, ist jedes Ergebnis anders.
| ELIZA | Akinator | SoekiaGPT | ChatGPT | |
|---|---|---|---|---|
| Prinzip | Schlüsselwort → feste Antwort | Entscheidungsbaum | Statistik der letzten 5 Wörter | Neuronales Netz, Milliarden Parameter |
| Trainingsdaten | Keine (fest einprogrammiert) | Wächst durch Spielen | 25 Dokumente à max. 20'000 Zeichen | Millionen Dokumente |
| Kontext | Aktuelle Eingabe | J/N-Fragen | Letzte 5 Wörter | Tausende Wörter |
| Kann man reinschauen? | Ja (Quellcode) | Ja (Quellcode) | Ja! («Schau hinein») | Nein |
Mit «Schau hinein» öffnet sich ein vierteiliger Bildschirm: Eingabemaske, Dokumentensammlung als Quelle und Analyse-Bereiche. Sie können das Modell Wort für Wort stoppen und selbst auswählen, was als Nächstes kommen soll.
Challenge
Dein Auftrag: Sprachmodelle durchschauen!
Ă–ffnen Sie soekia.ch/gpt.html und fĂĽhren Sie die folgenden Experimente durch.
Teil 1 — Basis (alle)
- Experiment 1 — Text generieren: Wählen Sie eine vorgefertigte Kollektion (z.B. Märchen). Generieren Sie einen Text. Lesen Sie ihn durch — macht er Sinn? Wo hakt es?
- Experiment 2 — «Schau hinein»: Öffnen Sie die Vier-Felder-Ansicht. Generieren Sie einen Text und beobachten Sie: Wie wählt das Programm das nächste Wort? Was zeigt die Dokumentensammlung?
- Experiment 3 — Manuell steuern: Stoppen Sie die Generierung und wählen Sie selbst das nächste Wort aus. Wie verändert das den Text?
Teil 2 — Mittel
- Trainingsdaten manipulieren: Erstellen Sie eine eigene Kollektion mit Texten, die bewusst Falschaussagen enthalten (z.B. «Die Erde ist eine Scheibe», «Wasser brennt»). Generieren Sie damit einen Text. Was passiert?
- Beobachtung dokumentieren: Wie beeinflussen die Trainingsdaten den Output? Schreiben Sie 3–4 Sätze zum Zusammenhang zwischen Trainingsdaten und «Halluzinationen».
Teil 3 — Fortgeschritten (optional)
- Suchmaschine vs. Sprachmodell: Vergleichen Sie: Was liefert eine Google-Suche fĂĽr eine Frage, was liefert SoekiaGPT? Wo sind die fundamentalen Unterschiede?
- Vergleichsprotokoll: Erstellen Sie eine systematische GegenĂĽberstellung von ELIZA, Akinator, SoekiaGPT und ChatGPT mit dem Dagstuhl-Dreieck: Anwendung (Wie nutze ich das?), Gesellschaft (Wie wirkt das?), Technologie (Wie funktioniert das?).
Warning
Hinweise
- SoekiaGPT ist kein ChatGPT: Es gibt keine freie Prompt-Eingabe. Der Text ergibt sich rein aus der statistischen Methode und den Trainingsdaten.
- Kontext ist klein: SoekiaGPT schaut nur auf die letzten 5 Wörter — ChatGPT auf Tausende. Deshalb sind die Texte oft weniger zusammenhängend.
- Kollaborative Kollektion: Lehrpersonen können eine «Gemeinsame Kollektion» erstellen, die über einen Code von allen SuS bearbeitet werden kann.
- Verfügbarkeit: SoekiaGPT ist ein Forschungsprojekt der PH Schwyz. Es kann sein, dass es zeitweise nicht erreichbar ist. Handreichung und Erklärvideo finden Sie direkt auf der Website.
Sie haben drei Systeme kennengelernt: ELIZA (antwortet mit festen Regeln), Akinator (lernt durch Entscheidungsbaum) und SoekiaGPT (generiert Text durch Statistik). Erklären Sie in eigenen Worten: Was passiert, wenn man bei SoekiaGPT die Trainingsdaten ändert? Was sagt das über grosse Sprachmodelle wie ChatGPT aus?
Mindestens 50 Zeichen, Maximal 1000 Zeichen (Aktuell: 0)