Indexation & recherche RAG

Indexation & recherche RAG

Page 3 — Indexez, synchronisez et interrogez vos sources

Indexez l’intégralité d’un repository, synchronisez les vecteurs vers Milvus, lancez des synchronisations RAG manuelles et interrogez par texte via les agents.

Ce que vous allez apprendre

Dans cette page vous verrez, pas à pas et sans jargon technique, comment :

  • indexer un repository (récupération + génération d’embeddings),
  • re-indexer automatiquement les fichiers modifiés après un push,
  • synchroniser et interroger les vecteurs dans Milvus (RAG),
  • lancer manuellement un RAG sync et suivre la progression des jobs,
  • gérer collections/index et supprimer des sources,
  • uploader des fichiers ou scraper des sites et visualiser l’avancement.

Capacités clés

Indexation complète

Ajoutez un repository — la file de workers récupère les fichiers, génère des embeddings et insère les vecteurs dans Milvus (insertSource).

Re-indexation automatique

Les pushes Git déclenchent un webhook qui appelle updateFileIndexAndMilvus pour mettre à jour FileIndex et Milvus avec les fichiers modifiés.

Recherche vectorielle (RAG)

Les agents construisent une embedding de votre requête (queryVectorFromString) et recherchent les meilleurs documents dans Milvus.

Contrôle des jobs & progression

Visualisez la progression des jobs, recevez des updates en temps réel via sockets et annulez des jobs si nécessaire.

Gestion des collections

Créez ou supprimez des collections et index (createIndex / dropCollection), ou supprimez des sources spécifiques.

Uploads & scraping

Importez des fichiers ou scrapez des sites; la plateforme enfile le job et montre une barre de progression jusqu’à l’insertion dans Milvus.

1 — Indexer un repository (fetch + embeddings + insertion Milvus)

1

Ajouter le repository

Dans l’interface, cliquez sur “Ajouter repository” ou “Connecter repository”. Choisissez le dépôt et donnez les autorisations nécessaires.

2

Le job est enqueued

La plateforme place le travail dans la file (projectSourceQueue). Un worker commence la récupération des fichiers du repo.

3

Génération d'embeddings

Les fichiers récupérés sont transformés en embeddings (représentation vectorielle).

4

Insertion dans Milvus

Les vecteurs et métadonnées sont insérés via insertSource dans la collection Milvus dédiée. Suivez la progression dans la UI.

2 — Re-indexer les fichiers modifiés (push automatique)

1

Push vers le dépôt

À chaque push, le webhook Git appelle votre endpoint sur la plateforme.

2

Traitement du webhook

Le backend déclenche updateFileIndexAndMilvus pour ne re-indexer que les fichiers modifiés.

3

Mise à jour FileIndex & Milvus

Les anciens vecteurs correspondants sont mis à jour ou remplacés dans Milvus — pas besoin de ré-indexer tout le repo.

3 — Lancer manuellement un RAG sync (quand vous en avez besoin)

1

Ouvrir le repository

Dans la page du repo, utilisez le bouton “RAG sync” ou “Synchroniser RAG”.

2

Le backend récupère les commits récents

Le service compare les commits récents et met à jour l’index (similaire à updateFileIndexAndMilvus).

3

Confirmer et surveiller

La UI vous montre un job avec progression. Attendez la fin ou annulez si nécessaire.

4 — Interroger Milvus par texte via les agents (recherche RAG)

1

Envoyer une requête textuelle

Dans le chat ou via un agent, tapez votre question en langage naturel.

2

Création de l'embedding de la requête

L’agent convertit la requête en embedding (queryVectorFromString) et l’envoie à Milvus.

3

Récupération des meilleurs résultats

Milvus renvoie les topK documents (les plus proches) avec leurs métadonnées — l’agent utilise ces résultats pour construire la réponse contextualisée.

5 — Gérer collections, index et suppression de sources

1

Voir les collections

Allez dans la section d’administration des vecteurs pour voir les collections Milvus actives.

2

Créer ou supprimer un index

Utilisez createIndex pour optimiser les recherches ou dropCollection pour supprimer une collection entière (opération destructrice).

3

Supprimer des sources spécifiques

Vous pouvez supprimer des documents/sources individuels de la collection si vous retirez un fichier ou une branche.

6 — Uploads de fichiers & scraping de sites (avec progression)

1

Uploader ou ajouter un site

Dans l’interface, choisissez “Uploader fichier” ou “Scraper un site”.

2

Job enqueued et visualisation

Le job apparaît dans la file ; la UI affiche une barre de progression et des messages en temps réel (grâce aux sockets).

3

Fin du traitement

Une fois les documents traités et les embeddings insérés dans Milvus, le job passe en état terminé.

7 — Suivi en temps réel et annulation de jobs

1

Voir les jobs en cours

Ouvrez la page Projet > Jobs pour voir l’état (enqueued, running, failed).

2

Annuler un job

Dans le menu projet, cliquez sur “Cancel jobs” pour vider la file et arrêter les tâches associées.

3

Recevoir des updates live

Les sockets poussent les updates : vous verrez les barres de progression évoluer en temps réel sans rafraîchir la page.

Pro tip — Optimisez vos recherches RAG

  • Lancez un RAG sync après un gros commit ou une refonte de docs pour garantir des réponses à jour.
  • Choisissez un topK adapté : 5–10 pour des réponses concises, 20+ pour couvrir plus de contexte.
  • Pour uploads massifs, laissez le job finir ou annulez proprement via “Cancel jobs” si vous devez re-prioriser.

Erreur courante à éviter

  • Ne supprimez pas une collection Milvus sans garder une sauvegarde : dropCollection est irréversible.
  • Évitez de relancer manuellement un full-indexing trop fréquemment : cela peut créer des doublons ou saturer la file. Utilisez la re-indexation des fichiers modifiés (updateFileIndexAndMilvus) quand c’est possible.

Next steps

  • Si vous êtes prêt, passez à la page suivante pour apprendre le “Flux de génération, revue & publication” où l’on voit comment utiliser les contenus indexés dans vos workflows de revue.

Aller à la page suivante

Passez à l’étape suivante pour intégrer l’indexation dans vos workflows de publication.