Brauche ich eine Vector-Datenbank für RAG?

In den meisten Fällen ja. Sie speichert die Embeddings effizient und ermöglicht schnelle Ähnlichkeitssuche. Für kleine Datenmengen reicht aber auch eine simple Liste im Speicher.

Welches Modell empfiehlt sich für die Generation?

Für hochwertige Antworten Claude Opus oder GPT-5. Für schnelle, günstige Antworten reichen Sonnet oder GPT-Mini-Varianten. Wichtig ist immer ein klarer System-Prompt mit Anweisung, nur basierend auf den gefundenen Stellen zu antworten.

Kann ich RAG ohne Programmierung aufsetzen?

Mit VibeCoding-Tools wie Claude Code geht das gut. Es gibt zudem No-Code-Plattformen, die RAG anbieten, etwa über Make oder Zapier-Integrationen mit Pinecone und OpenAI.

RAG erklart: Retrieval-Augmented Generation

RAG steht für Retrieval-Augmented Generation und ist eine der wichtigsten Techniken, um KI-Modelle mit eigenem Wissen zu versorgen. Statt sich nur auf das Training des Modells zu verlassen, durchsucht ein RAG-System erst eine Datenquelle (etwa deine Firmendokumente) und gibt die gefundenen Stellen dem Modell als Kontext mit. Das Modell antwortet dann auf Basis dieser Information. RAG ist die Standardmethode, um Chatbots oder Assistenten zu bauen, die Antworten zu deinen eigenen Daten geben.

Wie funktioniert RAG?

Ein RAG-System hat zwei Hauptphasen. Erstens Retrieval: Eine Suche findet die relevantesten Texte zur Frage des Nutzers. Diese Suche basiert meist auf Embeddings, also Vektorrepräsentationen von Text, gespeichert in einer Vector Database wie Pinecone, Weaviate oder Supabase pgvector.

Zweitens Generation: Die gefundenen Textausschnitte werden zusammen mit der Originalfrage als Prompt an ein LLM wie GPT oder Claude geschickt. Das Modell generiert dann eine Antwort, die diese Quellen einbezieht.

Im Vergleich zu reinem Frage-an-LLM hat RAG zwei grosse Vorteile: Antworten basieren auf konkreten Quellen (weniger Halluzinationen) und das Wissen lässt sich aktualisieren, ohne das Modell neu zu trainieren.

Wofür wird RAG genutzt?

Internes Wissensmanagement: Mitarbeitende fragen, KI antwortet aus Confluence, Notion, SharePoint
Kunden-Support: Bot antwortet auf Basis von Produkthandbüchern und FAQ
Recht und Compliance: Antworten mit Verweis auf Gesetzestexte oder interne Richtlinien
Akademische Forschung: Suche und Zusammenfassung über grosse Paper-Bibliotheken
Business Intelligence: Antworten zu Verkaufszahlen, Reports und KPIs
Personalisierte Assistenten: KI, die deine Notizen, E-Mails und Dokumente kennt

RAG und VibeCoding

Im VibeCoding-Kontext ist RAG ein häufiges Feature, das du in eigenen Apps einbaust. Beispiel: Du baust einen Lernassistenten für Studierende. Sie laden ihre Vorlesungsunterlagen hoch, du erstellst Embeddings, speicherst sie in Supabase mit pgvector und stellst eine Chat-Oberfläche bereit. Wenn ein Student eine Frage stellt, sucht dein System die relevantesten Skript-Stellen und schickt sie zusammen mit der Frage an Claude oder GPT.

Tools wie LangChain, LlamaIndex oder einfache eigene Implementierungen helfen beim Bauen. Mit Claude Code lässt sich ein RAG-System in wenigen Sessions aufsetzen, vor allem wenn du Supabase als All-in-One-Plattform für Auth, Storage und Vector-Search nutzt.

Beispiel

Eine Coachin auf KIWorld baut einen Bot, der Fragen zu ihren Coaching-Inhalten beantwortet. Schritte: Sie zerteilt ihre PDFs in kleine Abschnitte, erzeugt für jeden ein Embedding (über die OpenAI-API), speichert sie in einer Vector-Datenbank. Bei einer Nutzerfrage erzeugt der Bot ein Embedding der Frage, sucht die ähnlichsten Abschnitte in der Datenbank und schickt diese zusammen mit der Frage an Claude. Antwort: präzise, mit Quellenangabe, ohne Halluzinationen über erfundene Inhalte.

Grenzen und Tipps

RAG ist nur so gut wie die Suche. Schlechte Embeddings, zu grosse Chunks oder fehlende Filter führen zu schlechten Antworten. Wichtige Stellschrauben sind die Chunk-Grösse, die Wahl des Embedding-Modells und die Re-Ranking-Strategie. Für sensible Daten musst du zudem auf Datenschutz achten: Embeddings selbst können in manchen Fällen Rückschlüsse auf den Originaltext erlauben.

RAG / Retrieval-Augmented Generation

Wie funktioniert RAG?

Wofür wird RAG genutzt?

RAG und VibeCoding

Beispiel

Grenzen und Tipps

Häufige Fragen

Embeddings

Vector Database

LLM / Large Language Model

ChatGPT

Datenbank

Alles davon lernst du in der VibeCoding Masterclass.

Wie funktioniert RAG?

Wofür wird RAG genutzt?

RAG und VibeCoding

Beispiel

Grenzen und Tipps

Häufige Fragen

Verwandte Begriffe

Embeddings

Vector Database

LLM / Large Language Model

ChatGPT

Datenbank

Alles davon lernst du in der VibeCoding Masterclass.