Was ist ein großes Sprachmodell (LLM)?

Große Sprachmodelle wie GPT oder Gemini stecken hinter ChatGPT und vielen KI-Werkzeugen. Was ein LLM ist, wie es trainiert wird und wo seine Schwächen liegen, erklären wir hier Schritt für Schritt.

Teilen

Hinter Chatbots wie ChatGPT, hinter automatischen Übersetzungen und hinter vielen modernen KI-Werkzeugen steckt eine bestimmte Art von künstlicher Intelligenz: das große Sprachmodell, auf Englisch Large Language Model oder kurz LLM. Diese Modelle haben in den letzten Jahren enorm an Bedeutung gewonnen, weil sie erstaunlich flüssige und oft hilfreiche Texte erzeugen können. Doch was genau verbirgt sich dahinter? In diesem Artikel erklären wir verständlich, was ein LLM ist, wie es funktioniert, wie es trainiert wird und wo seine Stärken und Grenzen liegen.

Was ein großes Sprachmodell ausmacht

Ein großes Sprachmodell ist ein Computerprogramm, das auf riesigen Mengen an Texten trainiert wurde, um menschliche Sprache zu verarbeiten und selbst zu erzeugen. Im Kern berechnet ein LLM Wahrscheinlichkeiten: Es schätzt, welches Wort beziehungsweise welcher Wortbestandteil als Nächstes am wahrscheinlichsten passt. Aus dieser scheinbar einfachen Aufgabe – das jeweils nächste Stück Text vorherzusagen – entsteht in der Summe die Fähigkeit, Fragen zu beantworten, Texte zusammenzufassen, zu übersetzen oder Programmcode zu schreiben.

Das Wort "groß" bezieht sich dabei auf zwei Dinge: die gewaltige Menge an Trainingsdaten und die enorme Zahl der sogenannten Parameter. Parameter sind die internen Werte des Modells, die während des Trainings angepasst werden. Moderne Modelle besitzen Milliarden solcher Parameter. Je mehr es davon gibt und je besser sie eingestellt sind, desto leistungsfähiger ist das Modell in der Regel.

Wie ein LLM funktioniert

Damit ein Modell mit Sprache rechnen kann, muss Text zunächst in Zahlen übersetzt werden. Dieser Schritt heißt Tokenisierung. Dabei wird Text in kleine Einheiten zerlegt, sogenannte Tokens. Ein Token kann ein ganzes Wort, ein Wortteil oder ein einzelnes Zeichen sein. Der Satz "Künstliche Intelligenz ist spannend" könnte beispielsweise in mehrere Tokens aufgeteilt werden.

Die meisten heutigen LLMs basieren auf einer Architektur namens Transformer, die 2017 vorgestellt wurde. Das Besondere an Transformern ist der sogenannte Aufmerksamkeitsmechanismus (Attention). Damit kann das Modell beim Verarbeiten eines Wortes berücksichtigen, welche anderen Wörter im Text wichtig dafür sind. So erkennt es etwa Zusammenhänge über längere Sätze hinweg und versteht, worauf sich ein Pronomen wie "er" oder "sie" bezieht.

Vom Eingabetext zur Antwort

Wenn Sie eine Frage eingeben, läuft vereinfacht Folgendes ab:

  • Ihr Text wird in Tokens zerlegt und in Zahlen umgewandelt.
  • Das Modell verarbeitet diese Tokens und berechnet, welches Token als Nächstes am wahrscheinlichsten folgt.
  • Dieses Token wird ausgegeben und an die bisherige Eingabe angehängt.
  • Der Vorgang wiederholt sich Token für Token, bis die Antwort vollständig ist.

Die Antwort entsteht also nicht auf einen Schlag, sondern Stück für Stück. Genau deshalb sieht man bei vielen Chatbots, wie der Text nach und nach erscheint.

Wie ein LLM trainiert wird

Das Training eines großen Sprachmodells erfolgt in mehreren Phasen. In der ersten und aufwendigsten Phase, dem sogenannten Vortraining (Pre-Training), liest das Modell riesige Textmengen aus dem Internet, aus Büchern und anderen Quellen. Dabei lernt es, das jeweils nächste Token vorherzusagen. Niemand muss diese Daten von Hand beschriften, denn der nächste tatsächlich vorkommende Textbaustein dient automatisch als Lösung. Man spricht von selbstüberwachtem Lernen.

In einer zweiten Phase wird das Modell oft verfeinert. Beim sogenannten Feintuning lernt es anhand ausgewählter Beispiele, hilfreicher und sicherer zu antworten. Häufig kommt dabei auch Verstärkungslernen mit menschlichem Feedback (RLHF) zum Einsatz. Dabei bewerten Menschen verschiedene Antworten, und das Modell lernt, welche Art von Antwort bevorzugt wird. So wird ein reines Textvorhersage-System zu einem nützlichen Assistenten.

Wofür LLMs eingesetzt werden

Große Sprachmodelle sind erstaunlich vielseitig. Zu den typischen Anwendungen gehören:

  • Texterstellung: Entwürfe für E-Mails, Artikel, Zusammenfassungen oder Ideenlisten.
  • Übersetzung: Übertragung von Texten zwischen vielen Sprachen.
  • Programmierung: Erklären, Schreiben und Korrigieren von Programmcode.
  • Wissensfragen: Beantworten von Fragen in natürlicher Sprache.
  • Analyse: Zusammenfassen langer Dokumente oder Herausfiltern wichtiger Informationen.

Bekannte Beispiele für LLMs sind die GPT-Modelle von OpenAI, Gemini von Google, Claude von Anthropic sowie offene Modelle wie Llama von Meta.

Grenzen und Risiken

So beeindruckend LLMs sind, sie haben deutliche Schwächen. Da sie auf Wahrscheinlichkeiten beruhen, "verstehen" sie Inhalte nicht im menschlichen Sinne. Sie können überzeugend klingende, aber falsche Aussagen erzeugen. Dieses Phänomen nennt man Halluzination. Gerade bei Fakten, Zahlen oder Quellenangaben ist deshalb eine kritische Prüfung wichtig.

Weitere Punkte, die man beachten sollte:

  • Aktualität: Das Wissen eines Modells endet meist beim Stichtag seiner Trainingsdaten, sofern es keinen Zugriff auf aktuelle Quellen hat.
  • Verzerrungen: Weil die Trainingsdaten aus menschlichen Texten stammen, können auch Vorurteile und Fehler übernommen werden.
  • Datenschutz: Bei der Eingabe sensibler Informationen ist Vorsicht geboten, je nach Dienst und dessen Datenschutzregeln.

Fazit

Ein großes Sprachmodell ist im Kern ein leistungsfähiges System zur Vorhersage von Text, das durch das Training auf gewaltigen Datenmengen erstaunlich vielseitige Sprachfähigkeiten entwickelt. LLMs können enorm produktiv unterstützen, ersetzen aber kein eigenes Urteilsvermögen. Wer ihre Funktionsweise und Grenzen kennt, kann sie als hilfreiches Werkzeug nutzen und die Ergebnisse zugleich kritisch einordnen.

Mehr zum Thema findest du in unserer Übersicht: Künstliche Intelligenz: Alle Artikel im Überblick.

Verwandte Artikel