KIAktualisiert

Fine-Tuning

Fine-Tuning ist das gezielte Nachtrainieren eines vortrainierten KI-Modells auf eigene Daten, um es auf spezielle Aufgaben oder Stile zu spezialisieren.

Fine-Tuning bedeutet, ein bereits vortrainiertes LLM mit zusätzlichen, domänenspezifischen Daten weiter zu trainieren. Statt von Null zu starten, baust du auf einem starken Basismodell auf und passt es so an, dass es zum Beispiel deine Produktdokumentation, deinen Schreibstil oder eine bestimmte Aufgabenklasse besonders gut beherrscht. Fine-Tuning ist eine Alternative zu RAG und Prompt Engineering, eignet sich aber für andere Anwendungsfälle.

Wie funktioniert Fine-Tuning?

Du sammelst Trainingsdaten, typischerweise Paare aus Eingabe und gewünschter Ausgabe. Diese Daten gibst du dem Anbieter (zum Beispiel OpenAI, Anthropic, Mistral) oder einem eigenen Trainings-Setup. Während des Trainings werden die Gewichte des Modells leicht angepasst, sodass es auf Eingaben aus deiner Domain mit dem von dir gewünschten Stil oder Format antwortet.

Es gibt unterschiedliche Methoden:

  • Full Fine-Tuning: Alle Parameter werden angepasst, teuer und aufwendig
  • LoRA / Adapter: Nur kleine Zusatzschichten werden trainiert, deutlich günstiger
  • Reinforcement Fine-Tuning: Modell wird mit Feedback weiter verbessert
  • Instruction Tuning: Spezielle Form, um Modelle gehorsamer und anweisbarer zu machen

Wofür wird Fine-Tuning genutzt?

  • Stil: Marken-konsistente Texte, eigener Tonfall
  • Domain-Wissen: Medizin, Recht, Finanzen mit spezifischer Terminologie
  • Strukturierte Outputs: Sehr genaue JSON-Formate, die das Basismodell nicht zuverlässig liefert
  • Klassifikation: Spezielle Kategorien, die ein generisches Modell nicht kennt
  • Effizienz: Kleinere Modelle für eine konkrete Aufgabe, ohne lange Prompts
  • Privates Wissen: Wenn RAG nicht reicht, weil Antworten tief integriert sein sollen

Fine-Tuning oder RAG?

Eine häufige Frage. Faustregel: RAG ist gut, wenn sich Wissen ändert oder du Quellen verlinken willst. Fine-Tuning ist gut, wenn das Verhalten oder Stil des Modells anders sein soll, oder wenn die Aufgabe sehr eng definiert ist.

In vielen modernen Stacks kombinierst du beides: ein leicht gefinetuntes Modell mit RAG-Pipeline. Anfänger fangen aber meist mit Prompt Engineering und ggf. RAG an, weil das ohne eigenes Training auskommt.

Fine-Tuning und VibeCoding

Im klassischen VibeCoding-Workflow brauchst du selten Fine-Tuning. Die Top-Modelle sind so stark, dass guter Prompt + RAG meist reicht. Spannend wird Fine-Tuning, wenn du eigene Produkte mit sehr spezifischen Anforderungen baust, zum Beispiel ein Bot, der genau wie deine Marke spricht, oder ein Klassifikator, der hochpräzise Tickets sortiert.

Mit der API von OpenAI oder Anthropic lässt sich Fine-Tuning ohne tiefes ML-Wissen aufsetzen. Du lieferst eine JSON-Datei mit Trainingsbeispielen, der Anbieter trainiert, du nutzt das resultierende Modell wie jedes andere.

Beispiel

Du baust einen Customer-Support-Bot für dein SaaS-Produkt. Mit Prompt Engineering und RAG bekommst du gute Antworten, aber der Tonfall passt noch nicht ganz und das Modell vergisst manchmal Formatregeln. Du sammelst 200 ideale Frage-Antwort-Paare aus echten Tickets und finetuned damit ein kleineres Modell. Das Ergebnis: Schnellere, günstigere und stilistisch perfekte Antworten.

Hinweise

Fine-Tuning kostet Zeit und Geld. Du musst Daten sauber kuratieren, Privacy bedenken und anschliessend regelmässig nachschärfen, wenn sich Anforderungen ändern. Für viele Use-Cases ist es Overkill. Bevor du finetunest, probiere unbedingt zuerst gute Prompts und RAG.

Häufige Fragen

Wann lohnt sich Fine-Tuning?

Wenn Stil, Format oder eine sehr enge Aufgabe konstant gefordert sind und Prompt Engineering oder RAG das nicht zuverlässig liefern. Nicht für klassisches Wissens-Update, dafür ist RAG besser.

Brauche ich ML-Skills für Fine-Tuning?

Mit den APIs von OpenAI oder Anthropic geht es ohne tiefes ML-Wissen. Wer auf Open-Source-Modelle setzt (zum Beispiel Llama mit LoRA), braucht etwas mehr technisches Verständnis.

Wie viele Daten brauche ich?

Häufig zwischen 100 und 1.000 hochwertige Beispiele. Qualität schlägt Quantität. Schlechte Daten verschlechtern das Modell, also lieber sauber kuratieren als viel füllen.

VibeCoding Masterclass

Alles davon lernst du in der VibeCoding Masterclass.

Statt nur nachzuschlagen — anwenden. Bau Schritt für Schritt deine eigenen KI-Produkte, geführt von echten Projekten und einer aktiven Community.

Auf die Warteliste