Technologies

Sous le capot de narratheque.io :
pourquoi nous combinons RAG vectoriel et LLM Wiki

Sur narratheque.io, nous avons fait le choix d’intégrer deux approches complémentaires : le RAG vectoriel classique et un mécanisme inspiré du LLM Wiki récemment formalisé par Andrej Karpathy. Cette page explique ce que chacune apporte, leurs limites, et pourquoi leur combinaison change concrètement la qualité des réponses que vous obtenez de votre cerveau collaboratif.

RAG vectoriel et LLM Wiki : qu’est-ce que c’est en deux phrases ?

RAG signifie Retrieval-Augmented Generation — Génération Augmentée par la Récupération. Au lieu de demander à un modèle de langage (LLM) de répondre uniquement avec ce qu’il a appris pendant son entraînement, vous fournissez en temps réel les bons extraits de vos documents pour qu’il s’appuie dessus.

Le concept a été formalisé en 2020 par Patrick Lewis et son équipe chez Facebook AI Research. C’est ce mécanisme, amélioré par nos ingénieurs, qui permet à narratheque.io de répondre à partir de vos PDF, vidéos YouTube, transcriptions audio et pages web, sans hallucination, et sans que vos données ne sortent de l’environnement souverain.

RAG vectoriel et LLM Wiki : deux philosophies, deux moteurs

La différence centrale tient au moment où le travail intellectuel se déploie : à chaque requête pour le RAG, ou une fois pour toutes (puis enrichi en continu) pour le LLM Wiki.

RAG VECTORIEL

La fondation : chercher vite dans tout

Le LLM redécouvre vos documents à chaque question.

 

COMMENT ÇA MARCHE ?

Vos documents sont découpés en chunks, transformés en vecteurs par un modèle d’embedding, et stockés dans une base vectorielle. À la question, on retrouve les chunks les plus proches sémantiquement et on les passe au LLM.

FORCES
  • Couverture massive : dizaines de milliers de pages, des heures de vidéo
  • Tolérance aux reformulations grâce aux embeddings sémantiques
  • Mise à jour incrémentale, peu coûteuse par document
LIMITES
  • Aucune mémoire entre les questions
  • Synthèse multi-sources refaite à zéro à chaque requête
  • Contradictions entre sources jamais détectées
  • Le contexte global d’un long document peut se perdre

LLM WIKI

La couche qui fait grandir le savoir

Le LLM construit et maintient un wiki structuré qui s’enrichit.

 

COMMENT ÇA MARCHE ?

Pattern formalisé par Andrej Karpathy en avril 2026. Pour chaque source, le LLM crée ou met à jour des fiches d’entités, de concepts, et les relie. Une seule source peut toucher 10 à 15 pages du wiki.

 

FORCES
  • Connaissance qui s’accumule (effet « compounding »)
  • Synthèses, comparaisons et chronologies pré-construites
  • Détection automatique des contradictions
  • Lisible et navigable par un humain (markdown)
LIMITES
  • Coût d’ingestion plus élevé (le LLM travaille à chaque ajout)
  • Mise à l’échelle difficile au-delà de centaines de sources
  • Sensibilité à la qualité du modèle qui rédige

Schéma comparatif RAG vectoriel vs LLM Wiki

Côté RAG vectoriel, le LLM ne fait rien à l’indexation et tout au moment de la question. Côté LLM Wiki, c’est l’inverse : le travail se fait à l’ingestion, et la requête s’appuie sur un savoir déjà structuré. Cette différence d’architecture explique les avantages et limites de chaque approche.

Schéma détaillé montrant la comparaison entre RAG classique et LLM Wiki (pattern Karpathy) : à gauche l'indexation vectorielle hors ligne avec sources, chunks et vectorisation, à droite l'ingestion supervisée avec LLM agent créant un wiki markdown vivant avec entités, concepts et interconnexions. Le schéma inclut les processus d'interrogation, les limites et les bénéfices de chaque approche, ainsi qu'une synthèse comparative des critères de stockage, travail du LLM, synthèse multi-sources, lisibilité et idéal pour chacun.
Pourquoi les deux

Aucune des deux approches n’est complètement isolées

C’est leur combinaison qui produit les résultats que nos utilisateurs constatent. Voici comment chaque besoin est servi par la bonne brique.

Retrouver un passage précis dans 200 heures de vidéo transcrite
RAG VECTORIEL
Savoir « qui est Sarah » et tout ce qu’on a dit d’elle dans le corpus
LLM WIKI
Synthèse rapide sur un sujet déjà bien documenté
LLM WIKI
Question pointue sur un détail technique ou un chiffre exact
RAG VECTORIEL
Comparer deux positions, deux périodes, deux acteurs
LLM WIKI
Audit de cohérence sur l’ensemble du corpus
LLM WIKI
Couverture exhaustive d’un fonds documentaire massif
RAG VECTORIEL
Concrètement sur narratheque.io

Comment les deux briques fonctionnent ensemble ?

L’orchestration se fait en trois temps : un import qui alimente les deux pipelines en parallèle, une requête qui choisit la bonne source, et une boucle de capitalisation qui rend le système plus intelligent à chaque utilisation.

À l'import, tout est fait en parallèle

Chaque fichier (PDF, Word, vidéo YouTube, audio, URL) déclenche une chaîne automatisée : OCR sur les images, transcription des médias, extraction du texte. Puis les deux pipelines s’activent en parallèle : vectorisation pour le RAG, et alimentation du wiki structuré.

À la question, le moteur choisit

Selon la nature de la requête — factuelle pointue, transversale, comparative, chronologique — l’orchestration interroge soit le RAG vectoriel, soit le LLM Wiki, soit les deux en combinant leurs sorties pour la réponse finale.

Au fil du temps, le wiki s'enrichit

Le wiki s’enrichit automatiquement à chaque ingestion, et les bonnes réponses produites peuvent être réinjectées comme nouvelles pages. C’est l’effet de capitalisation décrit par Karpathy : la base devient plus intelligente, pas juste plus grosse.
Au-delà du RAG

Pourquoi narratheque.io est techniquement intéressant ?

L’architecture RAG + LLM Wiki est une fondation. Elle est combinée à plusieurs partis pris qui distinguent la plateforme dans le paysage des solutions IA d’entreprise.

Multi-LLM dans la même base

Interrogez la même base avec OpenAI, Anthropic, Google Gemini, Mistral ou un modèle local Ollama, dans la même session, et comparez les réponses. La plupart des solutions vous enferment dans un seul fournisseur.

Souveraineté réelle

Les données sont hébergées sur des serveurs dédiés en Europe ou au Canada selon votre choix, et ne sont jamais utilisées pour entraîner les modèles publics. Le wiki structuré reste une copie maîtrisée de votre savoir, exportable.

Ingestion universelle

PDF, Word, sites web, YouTube, audio, images : la chaîne d’analyse reconnaît les formats et applique automatiquement OCR, transcription, indexation. L’utilisateur dépose, le système s’occupe du reste.

Pas d'enfermement technique

Le cœur applicatif KDBCore by Jolifish Europe peut être déployé en environnement dédié pour les besoins entreprise. Le chatbot s’intègre par snippet HTML dans WordPress, Shopify, Webflow.

Conçu pour la dark data

80 % des données d’entreprise sont sous-exploitées parce qu’elles ne sont ni cherchables ni interrogeables. La combinaison RAG + LLM Wiki est précisément ce qu’il faut pour transformer ces archives muettes en cerveau actif.

Réponses traçables, sans hallucinations

Le LLM s’appuie strictement sur votre base. S’il ne sait pas, il le dit, et vous le signale pour que vous puissiez compléter. Toutes les réponses peuvent être tracées vers les sources et les pages du wiki.
Pour aller plus loin

Ressources et lectures complémentaires

Articles et publications cités

Prêt à transformer vos archives en cerveau collaboratif ?

Dix minutes suffisent pour activer un compte d’essai et voir votre premier corpus se transformer en base interrogeable, alimentée par le RAG vectoriel ET le LLM Wiki.