Fine-Tuning bedeutet, ein bereits vortrainiertes LLM mit zusätzlichen, domänenspezifischen Daten weiter zu trainieren. Statt von Null zu starten, baust du auf einem starken Basismodell auf und passt es so an, dass es zum Beispiel deine Produktdokumentation, deinen Schreibstil oder eine bestimmte Aufgabenklasse besonders gut beherrscht. Fine-Tuning ist eine Alternative zu RAG und Prompt Engineering, eignet sich aber für andere Anwendungsfälle.
Wie funktioniert Fine-Tuning?
Du sammelst Trainingsdaten, typischerweise Paare aus Eingabe und gewünschter Ausgabe. Diese Daten gibst du dem Anbieter (zum Beispiel OpenAI, Anthropic, Mistral) oder einem eigenen Trainings-Setup. Während des Trainings werden die Gewichte des Modells leicht angepasst, sodass es auf Eingaben aus deiner Domain mit dem von dir gewünschten Stil oder Format antwortet.
Es gibt unterschiedliche Methoden:
- Full Fine-Tuning: Alle Parameter werden angepasst, teuer und aufwendig
- LoRA / Adapter: Nur kleine Zusatzschichten werden trainiert, deutlich günstiger
- Reinforcement Fine-Tuning: Modell wird mit Feedback weiter verbessert
- Instruction Tuning: Spezielle Form, um Modelle gehorsamer und anweisbarer zu machen
Wofür wird Fine-Tuning genutzt?
- Stil: Marken-konsistente Texte, eigener Tonfall
- Domain-Wissen: Medizin, Recht, Finanzen mit spezifischer Terminologie
- Strukturierte Outputs: Sehr genaue JSON-Formate, die das Basismodell nicht zuverlässig liefert
- Klassifikation: Spezielle Kategorien, die ein generisches Modell nicht kennt
- Effizienz: Kleinere Modelle für eine konkrete Aufgabe, ohne lange Prompts
- Privates Wissen: Wenn RAG nicht reicht, weil Antworten tief integriert sein sollen
Fine-Tuning oder RAG?
Eine häufige Frage. Faustregel: RAG ist gut, wenn sich Wissen ändert oder du Quellen verlinken willst. Fine-Tuning ist gut, wenn das Verhalten oder Stil des Modells anders sein soll, oder wenn die Aufgabe sehr eng definiert ist.
In vielen modernen Stacks kombinierst du beides: ein leicht gefinetuntes Modell mit RAG-Pipeline. Anfänger fangen aber meist mit Prompt Engineering und ggf. RAG an, weil das ohne eigenes Training auskommt.
Fine-Tuning und VibeCoding
Im klassischen VibeCoding-Workflow brauchst du selten Fine-Tuning. Die Top-Modelle sind so stark, dass guter Prompt + RAG meist reicht. Spannend wird Fine-Tuning, wenn du eigene Produkte mit sehr spezifischen Anforderungen baust, zum Beispiel ein Bot, der genau wie deine Marke spricht, oder ein Klassifikator, der hochpräzise Tickets sortiert.
Mit der API von OpenAI oder Anthropic lässt sich Fine-Tuning ohne tiefes ML-Wissen aufsetzen. Du lieferst eine JSON-Datei mit Trainingsbeispielen, der Anbieter trainiert, du nutzt das resultierende Modell wie jedes andere.
Beispiel
Du baust einen Customer-Support-Bot für dein SaaS-Produkt. Mit Prompt Engineering und RAG bekommst du gute Antworten, aber der Tonfall passt noch nicht ganz und das Modell vergisst manchmal Formatregeln. Du sammelst 200 ideale Frage-Antwort-Paare aus echten Tickets und finetuned damit ein kleineres Modell. Das Ergebnis: Schnellere, günstigere und stilistisch perfekte Antworten.
Hinweise
Fine-Tuning kostet Zeit und Geld. Du musst Daten sauber kuratieren, Privacy bedenken und anschliessend regelmässig nachschärfen, wenn sich Anforderungen ändern. Für viele Use-Cases ist es Overkill. Bevor du finetunest, probiere unbedingt zuerst gute Prompts und RAG.