Was ist ein LLM?

Die Grundidee: Wahrscheinlichkeiten für das nächste Wort

Ein Large Language Model (LLM) ist ein KI-System, das mit enormen Mengen an Text trainiert wurde. Die Grundaufgabe ist einfach formuliert: Gegeben einem bestimmten Text, was kommt als Nächstes?

Aus dieser simplen Idee entsteht ein System, das Texte verfassen, Fragen beantworten, Code schreiben, übersetzen und vieles mehr kann – weil all diese Fähigkeiten letztlich aus Mustern in menschlicher Sprache ableitbar sind.

Wie ein LLM trainiert wird

Das Training eines LLMs verläuft grob in drei Phasen:

Pre-Training: Das Modell liest riesige Textmengen aus dem Internet, Büchern und anderen Quellen – oft Hunderte Milliarden Wörter. Es lernt dabei, Wortfolgen zu verstehen und vorherzusagen.
Fine-Tuning: Das vortrainierte Modell wird auf spezifischere Aufgaben angepasst, etwa menschliche Konversation oder das Befolgen von Anweisungen.
RLHF (Reinforcement Learning from Human Feedback): Menschen bewerten die Ausgaben des Modells, und das Modell wird daraufhin weiterentwickelt, nützlichere und sicherere Antworten zu geben.

Transformer: Die Architektur dahinter

Fast alle modernen LLMs basieren auf einer Architektur namens Transformer, die 2017 von Google-Forschern vorgestellt wurde. Ihr Herzstück ist der sogenannte Attention-Mechanismus: Das Modell kann beim Verarbeiten eines Wortes gleichzeitig alle anderen Wörter im Kontext „im Blick behalten" und gewichten, welche davon gerade wichtig sind.

Das ermöglicht es, auch über lange Textabschnitte hinweg Zusammenhänge herzustellen – etwas, womit frühere Modelle große Probleme hatten.

„Transformer haben das Feld der KI genauso verändert wie das iPhone die Mobilkommunikation – sie haben ein ganzes Ökosystem neu definiert." — Yann LeCun (sinngemäß)

Was LLMs können – und was nicht

LLMs sind beeindruckend vielseitig, aber sie haben klare Grenzen:

Stärken

Texte verfassen und zusammenfassen
Code schreiben und erklären
Übersetzungen und Stil-Anpassungen
Fragen aus dem Training beantworten
Kreative Inhalte erzeugen

Grenzen

Kein echtes „Verstehen" oder Bewusstsein
Können selbstbewusst falsch liegen (Halluzinationen)
Kein Zugriff auf aktuelle Infos (ohne Tools)
Keine verlässliche Logik bei komplexen Rechnungen
Spiegel des Trainings – inklusive Verzerrungen

Bekannte LLMs im Überblick

Mittlerweile gibt es viele große Sprachmodelle – von verschiedenen Unternehmen und auch als Open-Source-Varianten:

GPT-4o / GPT-4.5 (OpenAI) – eines der bekanntesten Modelle, Grundlage von ChatGPT
Claude (Anthropic) – mit Fokus auf Sicherheit und langen Kontextfenstern
Gemini (Google DeepMind) – multimodal, tief in Google-Dienste integriert
Llama (Meta) – Open-Source-Modell, das auch lokal betrieben werden kann
Mistral (Mistral AI) – effizientes europäisches Open-Source-Modell

Fazit

Large Language Models sind kein „Denken" im menschlichen Sinne – aber sie sind eine der mächtigsten Technologien, die je entwickelt wurden, um mit menschlicher Sprache zu arbeiten. Wer verstehen möchte, wie virtuelle KI funktioniert, kommt an LLMs nicht vorbei.

In weiteren Artikeln auf Kay-EI werden wir einzelne Aspekte vertiefen: von der Ethik über praktische Einsatzszenarien bis hin zu den gesellschaftlichen Folgen.