Indexation & recherche RAG
Indexation & recherche RAG
Page 3 — Indexez, synchronisez et interrogez vos sources
Indexez l’intégralité d’un repository, synchronisez les vecteurs vers Milvus, lancez des synchronisations RAG manuelles et interrogez par texte via les agents.
Ce que vous allez apprendre
Dans cette page vous verrez, pas à pas et sans jargon technique, comment :
- indexer un repository (récupération + génération d’embeddings),
- re-indexer automatiquement les fichiers modifiés après un push,
- synchroniser et interroger les vecteurs dans Milvus (RAG),
- lancer manuellement un RAG sync et suivre la progression des jobs,
- gérer collections/index et supprimer des sources,
- uploader des fichiers ou scraper des sites et visualiser l’avancement.
Capacités clés
Indexation complète
Ajoutez un repository — la file de workers récupère les fichiers, génère des embeddings et insère les vecteurs dans Milvus (insertSource).
Re-indexation automatique
Les pushes Git déclenchent un webhook qui appelle updateFileIndexAndMilvus pour mettre à jour FileIndex et Milvus avec les fichiers modifiés.
Recherche vectorielle (RAG)
Les agents construisent une embedding de votre requête (queryVectorFromString) et recherchent les meilleurs documents dans Milvus.
Contrôle des jobs & progression
Visualisez la progression des jobs, recevez des updates en temps réel via sockets et annulez des jobs si nécessaire.
Gestion des collections
Créez ou supprimez des collections et index (createIndex / dropCollection), ou supprimez des sources spécifiques.
Uploads & scraping
Importez des fichiers ou scrapez des sites; la plateforme enfile le job et montre une barre de progression jusqu’à l’insertion dans Milvus.
1 — Indexer un repository (fetch + embeddings + insertion Milvus)
Ajouter le repository
Dans l’interface, cliquez sur “Ajouter repository” ou “Connecter repository”. Choisissez le dépôt et donnez les autorisations nécessaires.
Le job est enqueued
La plateforme place le travail dans la file (projectSourceQueue). Un worker commence la récupération des fichiers du repo.
Génération d'embeddings
Les fichiers récupérés sont transformés en embeddings (représentation vectorielle).
Insertion dans Milvus
Les vecteurs et métadonnées sont insérés via insertSource dans la collection Milvus dédiée. Suivez la progression dans la UI.
2 — Re-indexer les fichiers modifiés (push automatique)
Push vers le dépôt
À chaque push, le webhook Git appelle votre endpoint sur la plateforme.
Traitement du webhook
Le backend déclenche updateFileIndexAndMilvus pour ne re-indexer que les fichiers modifiés.
Mise à jour FileIndex & Milvus
Les anciens vecteurs correspondants sont mis à jour ou remplacés dans Milvus — pas besoin de ré-indexer tout le repo.
3 — Lancer manuellement un RAG sync (quand vous en avez besoin)
Ouvrir le repository
Dans la page du repo, utilisez le bouton “RAG sync” ou “Synchroniser RAG”.
Le backend récupère les commits récents
Le service compare les commits récents et met à jour l’index (similaire à updateFileIndexAndMilvus).
Confirmer et surveiller
La UI vous montre un job avec progression. Attendez la fin ou annulez si nécessaire.
4 — Interroger Milvus par texte via les agents (recherche RAG)
Envoyer une requête textuelle
Dans le chat ou via un agent, tapez votre question en langage naturel.
Création de l'embedding de la requête
L’agent convertit la requête en embedding (queryVectorFromString) et l’envoie à Milvus.
Récupération des meilleurs résultats
Milvus renvoie les topK documents (les plus proches) avec leurs métadonnées — l’agent utilise ces résultats pour construire la réponse contextualisée.
5 — Gérer collections, index et suppression de sources
Voir les collections
Allez dans la section d’administration des vecteurs pour voir les collections Milvus actives.
Créer ou supprimer un index
Utilisez createIndex pour optimiser les recherches ou dropCollection pour supprimer une collection entière (opération destructrice).
Supprimer des sources spécifiques
Vous pouvez supprimer des documents/sources individuels de la collection si vous retirez un fichier ou une branche.
6 — Uploads de fichiers & scraping de sites (avec progression)
Uploader ou ajouter un site
Dans l’interface, choisissez “Uploader fichier” ou “Scraper un site”.
Job enqueued et visualisation
Le job apparaît dans la file ; la UI affiche une barre de progression et des messages en temps réel (grâce aux sockets).
Fin du traitement
Une fois les documents traités et les embeddings insérés dans Milvus, le job passe en état terminé.
7 — Suivi en temps réel et annulation de jobs
Voir les jobs en cours
Ouvrez la page Projet > Jobs pour voir l’état (enqueued, running, failed).
Annuler un job
Dans le menu projet, cliquez sur “Cancel jobs” pour vider la file et arrêter les tâches associées.
Recevoir des updates live
Les sockets poussent les updates : vous verrez les barres de progression évoluer en temps réel sans rafraîchir la page.
Pro tip — Optimisez vos recherches RAG
- Lancez un RAG sync après un gros commit ou une refonte de docs pour garantir des réponses à jour.
- Choisissez un topK adapté : 5–10 pour des réponses concises, 20+ pour couvrir plus de contexte.
- Pour uploads massifs, laissez le job finir ou annulez proprement via “Cancel jobs” si vous devez re-prioriser.
Erreur courante à éviter
- Ne supprimez pas une collection Milvus sans garder une sauvegarde : dropCollection est irréversible.
- Évitez de relancer manuellement un full-indexing trop fréquemment : cela peut créer des doublons ou saturer la file. Utilisez la re-indexation des fichiers modifiés (updateFileIndexAndMilvus) quand c’est possible.
Next steps
- Si vous êtes prêt, passez à la page suivante pour apprendre le “Flux de génération, revue & publication” où l’on voit comment utiliser les contenus indexés dans vos workflows de revue.
Aller à la page suivante
Passez à l’étape suivante pour intégrer l’indexation dans vos workflows de publication.