Indexation et insertion de vecteurs

Procédure et bonnes pratiques pour insérer vecteurs et métadonnées dans Milvus lors du traitement d’un dépôt

Optimisez la pertinence RAG en garantissant des insertions cohérentes, résilientes et contrôlées.

Ce que couvre cette page

Insertion de vecteurs

Comment et quand insérer des vecteurs et métadonnées dans une collection Milvus via insertSource.

Cohérence avec FileIndex

Vérifications et étapes pour que le FileIndex reflète l’état réel des vecteurs (ajouts, mises à jour, suppressions).

Retry & Rate limiting

Stratégies opérationnelles : backoffs, limites de débit et bonnes pratiques pour éviter les erreurs et la perte de pertinence.

Flux complet

Procédures pas-à-pas pour indexation initiale, sync incrémentale et réparations.

Surveillance & récupération

Conseils pour détecter les désynchronisations et actions correctives.

Bonnes pratiques

Taille des lots, dimension des vecteurs, metadata utiles et validations post-insertion.

Intro Ce guide détaille la procédure opérationnelle pour insérer des vecteurs et leurs métadonnées dans une collection Milvus lorsqu’un dépôt est traité. Il couvre les flux d’indexation (initiale et incrémentale), les contrôles de cohérence avec le FileIndex, les comportements attendus du rate limiter et des politiques de retry, ainsi que les bonnes pratiques et scénarios d’erreur courants. Public cible : personnes responsables de l’indexation RAG, administrateurs de projet et ingénieurs opérationnels non techniques souhaitant comprendre et suivre les étapes à réaliser.

Rappel important

Les insertions et suppressions affectent directement la pertinence RAG : chaque opération doit être suivie d’une vérification du FileIndex pour garantir que les documents récupérés par les agents correspondent à l’état réel du dépôt.

Workflow principal — Indexation lors du traitement d’un dépôt (flux complet)

Étape 1 — Détecter les sources à indexer

Identifier les fichiers/modifications à traiter (nouveaux fichiers, fichiers modifiés, suppressions). Pour une indexation initiale, listez l’ensemble des fichiers éligibles ; pour une sync incrémentale, ne retenez que les fichiers modifiés ou ajoutés depuis la dernière passe.

Étape 2 — Découper en chunks et enrichir les métadonnées

Découper chaque fichier en segments cohérents (chunks) adaptés au modèle d’embeddings. Pour chaque chunk, préparer les métadonnées à stocker : source (chemin/URL), type (ex. sourcecode, markdown), chunkIndex, modèle d’embedding utilisé, éventuel modèle associé (nom + id) et contenu textuel (ou son résumé).

Étape 3 — Générer les vecteurs (embeddings)

Pour chaque chunk, calculer l’embedding vectoriel via le service d’embeddings. Vérifier que chaque vecteur est bien numérique, de la dimension attendue, et exempt de NaN ou valeurs manquantes.

Étape 4 — Préparer les lots d’insertion

Assembler les chunks en lots (batchs) de taille raisonnable (voir section bonnes pratiques). Chaque élément du lot doit contenir : identifiant local, metadata (source/type/chunkIndex), vecteur et contenu. Marquer le lot avec un identifiant de traitement pour faciliter les audits et retours.

Étape 5 — Appeler l’action d’insertion (insertSource)

Lancer l’opération d’insertion en envoyant le lot vers la collection Milvus via la méthode d’insertion prévue (insertSource). S’assurer d’inclure toutes les métadonnées et de préférer des lots atomiques plutôt qu’une multitude d’inserts 1 à 1.

Étape 6 — Attendre la confirmation & gérer les retours

Le processus d’insertion peut répondre par succès total, succès partiel ou erreur. Vérifier le statut retourné, consigner toute erreur et réessayer selon la stratégie définie (voir avecRetry). En cas de succès partiel, identifier les éléments manquants et relancer uniquement ceux-ci.

Étape 7 — Mettre à jour le FileIndex

Après confirmation d’insertion, mettre à jour le FileIndex afin qu’il reflète la présence des vecteurs pour chaque chunk (statut : indexé, horodatage, id d’insertion). Cela permet aux composants RAG d’ignorer les éléments non indexés.

Étape 8 — Validation post-insertion

Effectuer une requête de vérification sur la collection (ex. compter les chunks par source) et comparer avec le FileIndex. Tout écart doit déclencher une action corrective : nouvelle tentative d’insertion, marquage en erreur, ou régénération du chunk.

Étape 9 — Journaux et observabilité

Journaliser chaque lot (identifiant, nombre d’objets, durée, erreurs). Conserver ces logs pour diagnostiquer des ratés et alimenter des alertes lorsque le taux d’erreur dépasse un seuil.

Tip : Toujours associer chunkIndex

Conserver le chunkIndex et le champ source sur chaque vecteur facilite les reconstructions partielles et les suppressions ciblées sans ambiguïté.

Contrôle de cohérence avec le FileIndex (détecter et corriger les désynchronisations)

Étape 1 — Comparaison rapide après traitement

Immédiatement après un traitement (indexation ou suppression), comparer le nombre de chunks attendus (d’après les sources traitées) et le nombre de vecteurs réellement présents en interrogeant la collection.

Étape 2 — Vérifier les métadonnées clés

Vérifier que les métadonnées critiques (source, type, chunkIndex) sont présentes et cohérentes entre FileIndex et Milvus pour un échantillon représentatif.

Étape 3 — Identifier les écarts

Si vous constatez des différences (chunks manquants, doublons ou vecteurs orphelins), répertoriez les sources affectées et le type d’anomalie (manquant / en double / contenu incorrect).

Étape 4 — Rectifications ciblées

Pour les chunks manquants : relancer l’insertion ciblée (lot réduit) ; pour les doublons : lancer une suppression ciblée des entrées en excès puis réinsérer proprement ; pour les orphelins (vecteurs sans source) : marquer et supprimer après vérification.

Étape 5 — Re-vérification et clôture

Après corrections, refaire la comparaison. Clore l’incident seulement lorsque FileIndex et collection Milvus concordent.

Étape 6 — Prévenir les régressions

Documenter la cause racine (ex. timeout, lot partiel, erreurs de format) et ajuster la configuration du retry/rate limiter ou la taille des lots pour éviter la répétition.

Warning — Ne pas ignorer les divergences

Une petite divergence entre FileIndex et Milvus peut dégrader fortement la qualité des réponses RAG : supprimes manquantes, doublons ou vecteurs obsolètes conduisent à des résultats incohérents pour les agents. Traitez toute anomalie immédiatement.

Suppression et remplacement de vecteurs (procédure opérationnelle)

Étape 1 — Détecter suppression/modification dans le dépôt

Sur une suppression de fichier ou un changement majeur, détecter précisément quelles sources/chunks sont affectées.

Étape 2 — Supprimer les vecteurs obsolètes

Supprimer les vecteurs correspondants en utilisant une suppression filtrée par source et type. Attendre confirmation de suppression puis mettre à jour le FileIndex (statut supprimé).

Étape 3 — Réindexer les nouvelles versions

Pour un fichier modifié, regénérer les chunks et embeddings puis réinsérer via la procédure normale d’insertion.

Étape 4 — Validation

Vérifier que le nombre de chunks et la correspondance des metadatas sont corrects après suppression/réinsertion.

Étape 5 — Nettoyage des doublons

Si des doublons persistent (mêmes source+chunkIndex), supprimer les entrées anciennes ou incohérentes, en conservant celles avec un horodatage le plus récent ou un identifiant de lot validé.

Avant : flux naïf

Insertions individuelles pour chaque chunk.
Pas de suivi d’état.
Risque élevé de partial success et doublons.

Après : flux recommandé

Insertions en lots atomiques.
Mise à jour systématique du FileIndex.
Vérifications post-insertion et retry ciblés.

:::

Stratégies de retry et de rate limiting (résilience et stabilité)

Étape 1 — Comprendre le rate limiter

Toutes les opérations sur la collection passent par un limiteur de débit partagé. Cela évite de surcharger le service vectoriel et réduit les erreurs de contention. Attendez-vous à un enchaînement contrôlé des appels : ils peuvent être mis en file et exécutés progressivement.

Étape 2 — Politique de retry (backoff exponentiel)

En cas d’erreur transitoire (timeout, surcharge), les opérations sont automatiquement réessayées avec un délai croissant. Le nombre maximal de tentatives est limité : prévoir des mécanismes de reprise manuelle si l’erreur persiste.

Étape 3 — Prévoir et configurer la taille des lots

Réduire la taille des lots si vous observez des timeouts ou des échecs répétés. Taille recommandée : commencer par lot de 50–200 vecteurs selon trafic et ressources, puis ajuster.

Étape 4 — Gérer les erreurs partielles

Si un lot retourne un succès partiel, extraire la liste des éléments échoués et réessayer uniquement ceux-ci, plutôt que de réinsérer l’intégralité du lot.

Étape 5 — Détecter les échecs persistants

Après N tentatives échouées (définir un seuil opérationnel), alerter les équipes et inscrire les éléments dans une file d’erreurs pour reprise manuelle. Documenter l’erreur et stocker le contexte (métadonnées, vecteur, message).

Étape 6 — Conseils de déploiement

Planifier les indexations lourdes (re-index complet) sur des créneaux hors-pic ou en mode contrôlé pour limiter l’impact sur la plateforme et éviter d’atteindre les quotas.

Tip : Logs structurés et id de lot

Incluez un identifiant de lot unique et des métadonnées de traitement dans vos logs. Cela facilite la réplication des erreurs, le reprocessing ciblé et la réconciliation entre FileIndex et la collection.

Tip : Tester en environnement contrôlé

Avant un re-index complet, faites une passe sur un sous-ensemble représentatif (ex. 5–10% des fichiers) pour valider les tailles de lot, latences et stratégies de retry.

Objectif : construire la base vectorielle complète à partir du dépôt.
Approche : lots plus grands, planifié hors des heures de pointe, surveiller la consommation.
Actions clés : prévalidation des données, test de lots, suivi rapproché et validation FileIndex complète.

Bonnes pratiques détaillées (checklist opérationnelle)

Toujours associer à chaque vecteur : source (chemin), type, chunkIndex, modèle et id de traitement.
Valider la dimension et la composition numérique des vecteurs avant toute insertion.
Favoriser les insertions par lots atomiques plutôt que des milliers d’inserts individuels.
Prévoir des métriques : taux d’échec par lot, latence moyenne d’insertion, nombre de retries par heure.
Automatiser des vérifications post-insertion (compte par source, contrôle d’échantillons).
Pour modifications fréquentes, privilégier la sync incrémentale pour réduire les coûts et la fenêtre d’incohérence.
Conserver une fenêtre temporelle d’horodatage dans le FileIndex pour résoudre conflits et choisir version la plus récente.
Mettre en place des seuils d’alerte : ex. si >5% des lots échouent sur une période de 1h.

Warning — Risques d’un mauvais dimensionnement

Trop gros lots ou taux d’appels trop élevés provoquent des timeouts et des retries massifs, ce qui peut empirer la charge. À l’inverse, trop petits lots augmentent l’overhead opérationnel. Trouver l’équilibre par essais progressifs.

Frequently Asked Questions

Ressource recommandée

Avant toute opération à large échelle, effectuez un run pilote sur un échantillon représentatif : cela permet d’ajuster taille de lots, délais de retry et seuils d’alerte sans impacter la production.

Prêt pour la mise en place ?

Lancez une passe pilote sur un sous-ensemble de votre dépôt pour valider paramètres et monitoring avant un re-index complet.

Introduction à la recherche vectorielle avec Milvus

Recherche vectorielle depuis une requête texte