Wie funktioniert das Training eines Sprachmodells wie ChatGPT?
Ein Sprachmodell wie ChatGPT entsteht in mehreren Phasen: Vortraining auf riesigen Textmengen, Feinabstimmung und Optimierung mit menschlichem Feedback.
Ein Sprachmodell wie ChatGPT fällt nicht fertig vom Himmel – es durchläuft mehrere Trainingsphasen. Jede macht aus einem reinen Wortvorhersager schrittweise einen brauchbaren Assistenten.
1. Vortraining (Pre-Training)
Im ersten Schritt liest das Modell gewaltige Textmengen und lernt dabei nur eine Aufgabe: das jeweils nächste Wort vorherzusagen. Durch Milliarden solcher Vorhersagen baut es ein statistisches Verständnis von Grammatik, Zusammenhängen und Weltwissen auf. Das Ergebnis ist ein Basismodell, das Sprache beherrscht, aber noch nicht gezielt hilfreich antwortet.
2. Feinabstimmung (Fine-Tuning)
Anschließend wird das Basismodell mit kuratierten Beispiel-Dialogen weitertrainiert, in denen gezeigt wird, wie gute Antworten aussehen. So lernt es, Anweisungen zu folgen statt nur Text fortzusetzen.
3. Optimierung mit menschlichem Feedback (RLHF)
Im letzten Schritt bewerten Menschen verschiedene Antworten des Modells nach Qualität. Aus diesen Bewertungen wird ein Belohnungssignal, mit dem das Modell weiter optimiert wird – Reinforcement Learning from Human Feedback. Das macht Antworten hilfreicher, höflicher und sicherer.
Warum das so aufwendig ist
Vortraining erfordert enorme Rechenleistung auf Tausenden spezialisierten Chips über Wochen. Hinzu kommt, dass die Datenqualität und die menschlichen Bewertungen stark beeinflussen, wie verlässlich und unvoreingenommen das Modell am Ende antwortet.
Fazit
Das Training eines Sprachmodells ist eine Kette aus Vortraining, Feinabstimmung und Feedback-Optimierung. Erst dieses Zusammenspiel verwandelt rohe Wortstatistik in einen Assistenten, der Anweisungen sinnvoll umsetzt.
Mehr zum Thema findest du in unserer Übersicht: Künstliche Intelligenz: Alle Artikel im Überblick.