Die Grundidee: Wahrscheinlichkeiten für das nächste Wort
Ein Large Language Model (LLM) ist ein KI-System, das mit enormen Mengen an Text trainiert wurde. Die Grundaufgabe ist einfach formuliert: Gegeben einem bestimmten Text, was kommt als Nächstes?
Aus dieser simplen Idee entsteht ein System, das Texte verfassen, Fragen beantworten, Code schreiben, übersetzen und vieles mehr kann – weil all diese Fähigkeiten letztlich aus Mustern in menschlicher Sprache ableitbar sind.
Wie ein LLM trainiert wird
Das Training eines LLMs verläuft grob in drei Phasen:
- Pre-Training: Das Modell liest riesige Textmengen aus dem Internet, Büchern und anderen Quellen – oft Hunderte Milliarden Wörter. Es lernt dabei, Wortfolgen zu verstehen und vorherzusagen.
- Fine-Tuning: Das vortrainierte Modell wird auf spezifischere Aufgaben angepasst, etwa menschliche Konversation oder das Befolgen von Anweisungen.
- RLHF (Reinforcement Learning from Human Feedback): Menschen bewerten die Ausgaben des Modells, und das Modell wird daraufhin weiterentwickelt, nützlichere und sicherere Antworten zu geben.
Transformer: Die Architektur dahinter
Fast alle modernen LLMs basieren auf einer Architektur namens Transformer, die 2017 von Google-Forschern vorgestellt wurde. Ihr Herzstück ist der sogenannte Attention-Mechanismus: Das Modell kann beim Verarbeiten eines Wortes gleichzeitig alle anderen Wörter im Kontext „im Blick behalten" und gewichten, welche davon gerade wichtig sind.
Das ermöglicht es, auch über lange Textabschnitte hinweg Zusammenhänge herzustellen – etwas, womit frühere Modelle große Probleme hatten.
„Transformer haben das Feld der KI genauso verändert wie das iPhone die Mobilkommunikation – sie haben ein ganzes Ökosystem neu definiert." — Yann LeCun (sinngemäß)
Was LLMs können – und was nicht
LLMs sind beeindruckend vielseitig, aber sie haben klare Grenzen:
Stärken
- Texte verfassen und zusammenfassen
- Code schreiben und erklären
- Übersetzungen und Stil-Anpassungen
- Fragen aus dem Training beantworten
- Kreative Inhalte erzeugen
Grenzen
- Kein echtes „Verstehen" oder Bewusstsein
- Können selbstbewusst falsch liegen (Halluzinationen)
- Kein Zugriff auf aktuelle Infos (ohne Tools)
- Keine verlässliche Logik bei komplexen Rechnungen
- Spiegel des Trainings – inklusive Verzerrungen
Bekannte LLMs im Überblick
Mittlerweile gibt es viele große Sprachmodelle – von verschiedenen Unternehmen und auch als Open-Source-Varianten:
- GPT-4o / GPT-4.5 (OpenAI) – eines der bekanntesten Modelle, Grundlage von ChatGPT
- Claude (Anthropic) – mit Fokus auf Sicherheit und langen Kontextfenstern
- Gemini (Google DeepMind) – multimodal, tief in Google-Dienste integriert
- Llama (Meta) – Open-Source-Modell, das auch lokal betrieben werden kann
- Mistral (Mistral AI) – effizientes europäisches Open-Source-Modell
Fazit
Large Language Models sind kein „Denken" im menschlichen Sinne – aber sie sind eine der mächtigsten Technologien, die je entwickelt wurden, um mit menschlicher Sprache zu arbeiten. Wer verstehen möchte, wie virtuelle KI funktioniert, kommt an LLMs nicht vorbei.
In weiteren Artikeln auf Kay-EI werden wir einzelne Aspekte vertiefen: von der Ethik über praktische Einsatzszenarien bis hin zu den gesellschaftlichen Folgen.