Sous le capot de narratheque.io :
pourquoi nous combinons RAG vectoriel et LLM Wiki
Sur narratheque.io, nous avons fait le choix d’intégrer deux approches complémentaires : le RAG vectoriel classique et un mécanisme inspiré du LLM Wiki récemment formalisé par Andrej Karpathy. Cette page explique ce que chacune apporte, leurs limites, et pourquoi leur combinaison change concrètement la qualité des réponses que vous obtenez de votre cerveau collaboratif.
RAG vectoriel et LLM Wiki : qu’est-ce que c’est en deux phrases ?
RAG signifie Retrieval-Augmented Generation — Génération Augmentée par la Récupération. Au lieu de demander à un modèle de langage (LLM) de répondre uniquement avec ce qu’il a appris pendant son entraînement, vous fournissez en temps réel les bons extraits de vos documents pour qu’il s’appuie dessus.
Le concept a été formalisé en 2020 par Patrick Lewis et son équipe chez Facebook AI Research. C’est ce mécanisme, amélioré par nos ingénieurs, qui permet à narratheque.io de répondre à partir de vos PDF, vidéos YouTube, transcriptions audio et pages web, sans hallucination, et sans que vos données ne sortent de l’environnement souverain.
RAG vectoriel et LLM Wiki : deux philosophies, deux moteurs
La différence centrale tient au moment où le travail intellectuel se déploie : à chaque requête pour le RAG, ou une fois pour toutes (puis enrichi en continu) pour le LLM Wiki.
RAG VECTORIEL
La fondation : chercher vite dans tout
Le LLM redécouvre vos documents à chaque question.
COMMENT ÇA MARCHE ?
Vos documents sont découpés en chunks, transformés en vecteurs par un modèle d’embedding, et stockés dans une base vectorielle. À la question, on retrouve les chunks les plus proches sémantiquement et on les passe au LLM.
FORCES
- Couverture massive : dizaines de milliers de pages, des heures de vidéo
- Tolérance aux reformulations grâce aux embeddings sémantiques
- Mise à jour incrémentale, peu coûteuse par document
LIMITES
- Aucune mémoire entre les questions
- Synthèse multi-sources refaite à zéro à chaque requête
- Contradictions entre sources jamais détectées
- Le contexte global d’un long document peut se perdre
LLM WIKI
La couche qui fait grandir le savoir
Le LLM construit et maintient un wiki structuré qui s’enrichit.
COMMENT ÇA MARCHE ?
Pattern formalisé par Andrej Karpathy en avril 2026. Pour chaque source, le LLM crée ou met à jour des fiches d’entités, de concepts, et les relie. Une seule source peut toucher 10 à 15 pages du wiki.
FORCES
- Connaissance qui s’accumule (effet « compounding »)
- Synthèses, comparaisons et chronologies pré-construites
- Détection automatique des contradictions
- Lisible et navigable par un humain (markdown)
LIMITES
- Coût d’ingestion plus élevé (le LLM travaille à chaque ajout)
- Mise à l’échelle difficile au-delà de centaines de sources
- Sensibilité à la qualité du modèle qui rédige
Schéma comparatif RAG vectoriel vs LLM Wiki
Côté RAG vectoriel, le LLM ne fait rien à l’indexation et tout au moment de la question. Côté LLM Wiki, c’est l’inverse : le travail se fait à l’ingestion, et la requête s’appuie sur un savoir déjà structuré. Cette différence d’architecture explique les avantages et limites de chaque approche.
Aucune des deux approches n’est complètement isolées
C’est leur combinaison qui produit les résultats que nos utilisateurs constatent. Voici comment chaque besoin est servi par la bonne brique.
Comment les deux briques fonctionnent ensemble ?
L’orchestration se fait en trois temps : un import qui alimente les deux pipelines en parallèle, une requête qui choisit la bonne source, et une boucle de capitalisation qui rend le système plus intelligent à chaque utilisation.
À l'import, tout est fait en parallèle
À la question, le moteur choisit
Au fil du temps, le wiki s'enrichit
Pourquoi narratheque.io est techniquement intéressant ?
L’architecture RAG + LLM Wiki est une fondation. Elle est combinée à plusieurs partis pris qui distinguent la plateforme dans le paysage des solutions IA d’entreprise.
Multi-LLM dans la même base
Souveraineté réelle
Ingestion universelle
Pas d'enfermement technique
Conçu pour la dark data
Réponses traçables, sans hallucinations
Ressources et lectures complémentaires
Articles et publications cités
- llm-wiki.md — le texte original d’Andrej Karpathy qui formalise le pattern (avril 2026)
- Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — Lewis et al. (2020), l’article fondateur du RAG
- What Is Retrieval-Augmented Generation? — NVIDIA Blog, vulgarisation accessible avec interview de Patrick Lewis
- A Survey on Knowledge-Oriented Retrieval-Augmented Generation (2025), panorama académique des évolutions du RAG
- Le blog narratheque.io pour explorer les cas d’usage : veille stratégique, ADN de marque, frise chronologique, dark data
Prêt à transformer vos archives en cerveau collaboratif ?
Dix minutes suffisent pour activer un compte d’essai et voir votre premier corpus se transformer en base interrogeable, alimentée par le RAG vectoriel ET le LLM Wiki.

