RAG steht für Retrieval-Augmented Generation und ist eine der wichtigsten Techniken, um KI-Modelle mit eigenem Wissen zu versorgen. Statt sich nur auf das Training des Modells zu verlassen, durchsucht ein RAG-System erst eine Datenquelle (etwa deine Firmendokumente) und gibt die gefundenen Stellen dem Modell als Kontext mit. Das Modell antwortet dann auf Basis dieser Information. RAG ist die Standardmethode, um Chatbots oder Assistenten zu bauen, die Antworten zu deinen eigenen Daten geben.
Wie funktioniert RAG?
Ein RAG-System hat zwei Hauptphasen. Erstens Retrieval: Eine Suche findet die relevantesten Texte zur Frage des Nutzers. Diese Suche basiert meist auf Embeddings, also Vektorrepräsentationen von Text, gespeichert in einer Vector Database wie Pinecone, Weaviate oder Supabase pgvector.
Zweitens Generation: Die gefundenen Textausschnitte werden zusammen mit der Originalfrage als Prompt an ein LLM wie GPT oder Claude geschickt. Das Modell generiert dann eine Antwort, die diese Quellen einbezieht.
Im Vergleich zu reinem Frage-an-LLM hat RAG zwei grosse Vorteile: Antworten basieren auf konkreten Quellen (weniger Halluzinationen) und das Wissen lässt sich aktualisieren, ohne das Modell neu zu trainieren.
Wofür wird RAG genutzt?
- Internes Wissensmanagement: Mitarbeitende fragen, KI antwortet aus Confluence, Notion, SharePoint
- Kunden-Support: Bot antwortet auf Basis von Produkthandbüchern und FAQ
- Recht und Compliance: Antworten mit Verweis auf Gesetzestexte oder interne Richtlinien
- Akademische Forschung: Suche und Zusammenfassung über grosse Paper-Bibliotheken
- Business Intelligence: Antworten zu Verkaufszahlen, Reports und KPIs
- Personalisierte Assistenten: KI, die deine Notizen, E-Mails und Dokumente kennt
RAG und VibeCoding
Im VibeCoding-Kontext ist RAG ein häufiges Feature, das du in eigenen Apps einbaust. Beispiel: Du baust einen Lernassistenten für Studierende. Sie laden ihre Vorlesungsunterlagen hoch, du erstellst Embeddings, speicherst sie in Supabase mit pgvector und stellst eine Chat-Oberfläche bereit. Wenn ein Student eine Frage stellt, sucht dein System die relevantesten Skript-Stellen und schickt sie zusammen mit der Frage an Claude oder GPT.
Tools wie LangChain, LlamaIndex oder einfache eigene Implementierungen helfen beim Bauen. Mit Claude Code lässt sich ein RAG-System in wenigen Sessions aufsetzen, vor allem wenn du Supabase als All-in-One-Plattform für Auth, Storage und Vector-Search nutzt.
Beispiel
Eine Coachin auf KIWorld baut einen Bot, der Fragen zu ihren Coaching-Inhalten beantwortet. Schritte: Sie zerteilt ihre PDFs in kleine Abschnitte, erzeugt für jeden ein Embedding (über die OpenAI-API), speichert sie in einer Vector-Datenbank. Bei einer Nutzerfrage erzeugt der Bot ein Embedding der Frage, sucht die ähnlichsten Abschnitte in der Datenbank und schickt diese zusammen mit der Frage an Claude. Antwort: präzise, mit Quellenangabe, ohne Halluzinationen über erfundene Inhalte.
Grenzen und Tipps
RAG ist nur so gut wie die Suche. Schlechte Embeddings, zu grosse Chunks oder fehlende Filter führen zu schlechten Antworten. Wichtige Stellschrauben sind die Chunk-Grösse, die Wahl des Embedding-Modells und die Re-Ranking-Strategie. Für sensible Daten musst du zudem auf Datenschutz achten: Embeddings selbst können in manchen Fällen Rückschlüsse auf den Originaltext erlauben.