Dense retrieval — Définition mécanique LLM 2026

Définition rapide : Le dense retrieval est une méthode de récupération de documents qui s'appuie sur la similarité sémantique vectorielle plutôt que sur la correspondance lexicale exacte. C'est la méthode dominante des moteurs d'IA modernes (ChatGPT Search, Perplexity, AI Overviews, Gemini).

Définition détaillée

Le dense retrieval s'oppose au sparse retrieval, qui caractérise les algorithmes de recherche classiques comme TF-IDF (Term Frequency-Inverse Document Frequency) et BM25. Le sparse retrieval classe les documents en fonction de l'occurrence des mots-clés exacts. C'est la mécanique qui a porté Google pendant deux décennies.

Le dense retrieval, lui, fonctionne en trois étapes :

1. Encodage : chaque document du corpus est transformé en un vecteur dense de plusieurs centaines de dimensions, capturé via un modèle de langage (BERT, modèle d'embedding spécialisé, etc.). Ce vecteur encode la signification sémantique du document, pas ses mots.

2. Indexation vectorielle : tous les vecteurs sont stockés dans une base de vecteurs indexée pour la recherche par similarité (FAISS, Pinecone, Weaviate, etc.).

3. Requête : la requête de l'utilisateur est elle-même encodée en vecteur, puis comparée aux vecteurs du corpus par similarité cosinus. Les documents les plus proches sémantiquement sont retournés, même s'ils ne partagent aucun mot avec la requête.

Cette mécanique permet aux moteurs d'IA de comprendre des reformulations, des synonymes et des concepts implicites — ce qui était structurellement impossible avec le sparse retrieval.

À quoi sert de comprendre le dense retrieval

La connaissance du dense retrieval change la stratégie d'optimisation :

Le keyword stuffing devient contre-productif : ce qui compte est la densité conceptuelle du contenu, pas la répétition du mot-clé. L'étude Princeton/KDD 2024 démontre que le keyword stuffing fait baisser la visibilité dans les LLMs.
La synonymie et la richesse lexicale deviennent stratégiques : couvrir un concept avec ses synonymes, ses formulations alternatives, ses entités liées renforce le signal vectoriel.
Les entités sémantiques prennent le pas sur les mots-clés : ce qui compte est l'association vectorielle entre la marque et le concept, pas la coexistence textuelle.

Exemple d'application

Une page intitulée *« Sécurité informatique en entreprise »* sera également retournée pour la requête *« comment protéger les données de mon entreprise »* — même si la page ne contient pas le mot *« protéger »* — parce que les vecteurs sémantiques des deux termes sont très proches.

Inversement, un contenu sur-optimisé qui répète 50 fois *« agence GEO Paris »* sera rétrogradé par le moteur, car son vecteur sémantique devient bruité par cette répétition non naturelle.

Termes liés

Query fan-out — mécanique en amont du dense retrieval.
Embeddings — les vecteurs eux-mêmes.
RAG (Retrieval Augmented Generation) — architecture qui combine dense retrieval et génération.

Pour aller plus loin

Notre guide complet : Fan-out queries et Dense Retrieval — comprendre le moteur des LLMs.

---

Index