RAG (Retrieval Augmented Generation)

RAG (Retrieval Augmented Generation) — Définition 2026

Définition rapide : Le RAG (Retrieval Augmented Generation) est une architecture qui combine la récupération de documents par dense retrieval et la génération de texte par un LLM, pour produire des réponses ancrées dans des sources réelles plutôt qu'extraites de la seule mémoire interne du modèle.

Définition détaillée

Avant le RAG, les LLMs comme GPT-3.5 ou Claude 2 répondaient uniquement à partir de leur mémoire d'entraînement — figée à une date donnée. Cela posait deux problèmes :

1. Information obsolète : un modèle entraîné en 2022 ne sait rien des événements de 2024.

2. Hallucinations : en l'absence d'ancrage factuel, le modèle peut inventer des informations plausibles mais fausses.

Le RAG résout ces deux problèmes en ajoutant une étape de récupération avant la génération :

1. La requête utilisateur est convertie en vecteur sémantique.

2. Le moteur effectue un dense retrieval sur un corpus externe (web, base de connaissances propriétaire, documentation technique).

3. Les documents les plus pertinents sont injectés dans le contexte du LLM.

4. Le LLM génère une réponse en s'appuyant explicitement sur ces sources, qu'il peut citer.

C'est cette architecture qui sous-tend ChatGPT Search, Perplexity, Google AI Overviews, Bing Copilot et l'ensemble des moteurs d'IA dits *« search-grounded »*.

À quoi sert de comprendre le RAG

La connaissance du RAG est centrale pour le GEO :

Être cité comme source par un LLM passe par le RAG. Si votre site n'est pas dans le corpus récupéré, il ne sera pas cité — quelle que soit la qualité de votre contenu.
Les sources préférées varient selon les moteurs : ChatGPT Search privilégie certains domaines (Wikipédia, médias d'autorité), Perplexity en privilégie d'autres (Reddit, Quora, YouTube, sites comparatifs).
L'accessibilité technique (crawlabilité, schemas, llms.txt) influence directement si votre contenu est récupéré.

Exemple d'application

Quand vous demandez à ChatGPT Search *« Quels sont les meilleurs outils GEO en 2026 »*, voici ce qui se passe :

1. La requête est éclatée en sous-requêtes (cf. query fan-out).

2. Chaque sous-requête déclenche un dense retrieval sur le web indexé par OAI-Searchbot.

3. Une dizaine de pages sont sélectionnées et injectées dans le contexte du modèle.

4. Le LLM produit une synthèse en citant explicitement 3 à 5 de ces pages.

Si votre site n'est pas dans la dizaine récupérée, vous n'existez pas pour cette réponse. C'est exactement le problème que résout une stratégie GEO bien menée.

Termes liés

Dense retrieval — la mécanique de récupération.
Query fan-out — la mécanique d'éclatement.
Embeddings — les vecteurs utilisés.
LLMO (Large Language Model Optimization) — discipline qui s'applique au RAG.

Pour aller plus loin

Notre guide complet : Fan-out queries et Dense Retrieval — comprendre le moteur des LLMs.

---

Index