Téléversement et indexation de fichiers

Téléversement et indexation de fichiers

Guide pas à pas pour téléverser depuis l’interface, préparer vos documents et suivre l’indexation asynchrone

Téléversez des fichiers pour les rendre consultables et exploitables par vos agents et recherches.

Ce guide profond explique comment téléverser des fichiers depuis l’interface utilisateur, quelles préparations effectuer avant l’envoi, et comment fonctionne l’indexation asynchrone (ce que vous verrez dans l’UI et comment agir en cas de problème). Il couvre les bons réflexes avant l’upload, le flux d’envoi, le suivi des jobs et les scénarios courants (gros fichiers, documents scannés, archives).

Ce que vous pouvez faire ici

Téléverser un fichier

Ouvrir la fenêtre d’ajout, sélectionner un fichier et envoyer pour démarrer l’indexation.

Suivre l'indexation

Visualiser la progression, recevoir des notifications et vérifier quand le document est disponible en recherche.

Préparer & optimiser

Conseils pour préparer vos documents (format, découpage, métadonnées, suppression de données sensibles).

Gérer erreurs & relances

Que faire si un traitement échoue : annuler, retéléverser, ou demander une réindexation.

Scénarios avancés

Flux pour fichiers volumineux, archives, documents scannés (OCR) et multi-fichiers.

Sécurité & bonnes pratiques

Éviter d’indexer des secrets et contrôler la qualité du contenu indexé.

1 — Téléverser un fichier depuis l’UI

Le flux typique d’ajout d’un fichier est simple. Suivez ces étapes pas à pas.

Workflow : Téléverser un fichier

1

Ouvrir le modal d'ajout

Dans la page du projet, cliquez sur le bouton “Ajouter une source” ou “Téléverser un fichier”. Une fenêtre/modale s’ouvre avec le formulaire d’ajout.

2

Sélectionner le(s) fichier(s)

Cliquez sur le champ de sélection ou glissez-déposez le fichier. Vous pouvez sélectionner un seul fichier ou plusieurs selon l’UI. Vérifiez le nom affiché et la taille indiquée.

3

Compléter les champs facultatifs

Si l’interface propose un titre, une description ou une étiquette/langue, remplissez-les : cela facilite la recherche et améliore la qualité de l’indexation.

4

Lancer l'envoi

Cliquez sur “Envoyer” ou “Téléverser”. L’UI affiche une confirmation immédiate que l’envoi a démarré et que le fichier est en file d’attente.

5

Vérifier le démarrage du job

Ouvrez la section de progression du projet (barres de progression / jobs en cours). Le fichier apparaît comme job : l’indexation est traitée de façon asynchrone.

6

Recevoir la notification de fin

Lorsque le job est terminé, vous recevez une notification et l’entrée devient disponible dans les résultats de recherche ou l’index du projet.

Astuce : nommage utile

Donnez un nom explicite au fichier et remplissez la description : “Guide produit — V2 — 2026-03”. Cela facilite la validation après indexation et la recherche par vos agents.

2 — Préparer vos fichiers : bonnes pratiques

Une bonne préparation réduit les erreurs, accélère l’indexation et améliore la qualité des résultats.

Préparation recommandée avant téléversement

1

1. Nettoyer le contenu

Retirez informations sensibles (clés API, mots de passe, données personnelles inutiles). Si besoin, remplacez-les par placeholders.

2

2. Choisir le bon format

Privilégiez des formats textuels ou convertissez les documents (PDF scanné -> OCR, DOCX -> texte). Les formats textuels limitent les pertes d’information.

3

3. Diviser les très grands documents

Pour les fichiers très volumineux, scindez en chapitres ou sections (ex. Chapitre1.pdf, Chapitre2.pdf). Cela réduit la latence et améliore la granularité des résultats.

4

4. Ajouter des métadonnées

Langue, version, auteur et résumé permettent d’affiner le comportement des agents et la pertinence lors des recherches.

5

5. Vérifier l'encoding

Assurez-vous que le texte est en UTF-8 ou un encodage compatible pour éviter des caractères illisibles après indexation.

6

6. Préparer les documents scannés

Si vous avez des scans/images contenant du texte, appliquez une OCR de qualité avant d’envoyer, ou utilisez la fonctionnalité d’OCR si disponible.

7

7. Eviter les doublons

Supprimez copies identiques ou renommez pour indiquer la version : doublons augmentent le temps de traitement et polluent l’index.

Astuce : inclure un README ou sommaire

Pour les ensembles de documents (ex. livrables d’un projet), ajoutez un fichier sommaire/README qui donne la vision d’ensemble ; l’indexation s’en servira souvent pour établir le contexte global.

Astuce : langue et version

Spécifiez la langue principale du document et la version (ex. FR / v1.2) pour améliorer l’analyse sémantique et le tri des résultats.

3 — Scénarios et approches (Cas d’usage)

Différentes situations demandent des approches distinctes. Sélectionnez la vignette qui correspond à votre cas.

  • Idéal : envoyer tel quel après vérification.
  • Étapes rapides : nommer, ajouter description, envoyer.
  • Résultat attendu : indexation rapide, accessible en quelques minutes.
  • Prétraitement recommandé : découper par sections, réduire images non nécessaires, compresser si l’UI le permet.
  • Envoyer les morceaux un par un pour obtenir une progression granulaire.
  • Surveiller la progression : plusieurs jobs peuvent apparaître.
  • Si l’UI accepte les archives, vérifiez que l’archive contient une structure claire et un fichier README.
  • Sinon, décompressez localement et téléversez par lots pour mieux contrôler la granularité.
  • Appliquer une OCR de qualité avant d’envoyer ou utiliser l’option OCR si fournie.
  • Vérifier le texte extrait (erreurs OCR fréquentes sur documents flous).

4 — Suivi et validation de l’indexation

L’indexation est asynchrone : elle passe par la même file de traitement que les autres sources. Voici comment la suivre et valider les résultats.

Suivre un job d'indexation et valider la disponibilité

1

Regarder la section Progrès du projet

Ouvrez la zone qui affiche les jobs en cours : vous verrez l’entrée correspondant à votre upload avec une barre de progression et des messages d’état (ex. “En cours”, “Traitement OCR”, “Génération du contexte”).

2

Lire les messages associés

Les messages de progression décrivent les étapes (ex. récupération du texte, génération du contexte, insertion dans l’index). Ils aident à identifier où en est le traitement.

3

Attendre la notification de fin

Une notification (UI / toast) indique la fin du job. Une fois terminé, le document devient consultable via la recherche du projet.

4

Valider le contenu indexé

Effectuez des recherches ou requêtes sur des passages clés du document pour vérifier la qualité des extraits et la localisation correcte du contenu.

5

Relancer ou corriger si nécessaire

Si le contenu est incomplet ou mal indexé, éditez le fichier source (corrigez OCR, nettoyez le texte) puis retéléversez pour une nouvelle indexation.

Asynchronisme et délais

L’indexation est traitée de manière asynchrone via une file de traitement partagée : les délais varient selon la charge. Un démarrage immédiat ne garantit pas une fin instantanée.

5 — Annuler, relancer et nettoyer

Procédez avec prudence si vous devez stopper ou annuler un traitement en cours.

Annuler ou relancer un traitement

1

Annuler depuis la vue Progrès

Dans la section des jobs, utilisez le bouton “Annuler” si disponible. Cela stoppe le traitement en cours pour ce fichier.

2

Supprimer la source si nécessaire

Si l’annulation est suivie d’une suppression du document du projet, utilisez l’action “Supprimer” dans la liste des sources pour éviter toute ré-indexation automatique.

3

Corriger et retéléverser

Apportez les corrections locales (OCR, découpage, suppression de données sensibles), puis relancez un nouvel envoi. Traitez chaque morceau comme un job séparé pour plus de contrôle.

4

Vérifier la complétude après relance

Après la relance, suivez à nouveau la progression et validez la qualité en effectuant des recherches ciblées.

Attention aux doublons

Si vous relancez sans supprimer l’ancienne version, vous risquez d’avoir des doublons dans l’index. Supprimez l’ancienne entrée si la nouvelle remplace la précédente.

6 — Dépannage : erreurs & cas fréquents

Si un job échoue ou produit des résultats inattendus, procédez ainsi.

Résolution des problèmes courants

1

Fichier refusé (format/poids)

Message typique : “Format non supporté” ou “Taille dépassée”. Action : convertir en un format recommandé (texte, PDF textuel) ou fractionner le document.

2

Contenu tronqué ou illisible après indexation

Probable cause : encodage incorrect ou OCR défectueuse. Action : convertir en UTF-8, relancer OCR localement, puis retéléverser.

3

Progression stagnante

Cause possible : forte charge de traitement. Action : attendre, vérifier les notifications et retenter plus tard. Si le job reste bloqué, annulez et relancez.

4

Résultats non pertinents

Souvent dû à contenu bruité (images, tables mal converties). Action : nettoyer le texte source, fournir métadonnées, ou segmenter le document.

5

Je ne trouve pas le document en recherche

Vérifiez que le job est terminé (100%) et que vous recherchez dans le bon projet / collection. Rafraîchissez la page et retentez la recherche.

Astuce pour support

Si vous rencontrez un problème persistant, capturez la notification d’erreur affichée et le nom du job, puis contactez le support avec ces informations pour accélérer l’investigation.

7 — Comparaison : document préparé vs non préparé

Utilisez ce tableau mental pour voir les avantages de la préparation avant l’upload.

Avant (non préparé)

  • Contenu souvent bruité (images non-OCRées).
  • Plus d’erreurs d’encodage.
  • Risque accru de doublons ou de données sensibles indexées.
  • Temps de traitement et de correction plus longs.

Après (préparé correctement)

  • Texte propre, recherche plus pertinente.
  • Indexation plus rapide et moins d’erreurs.
  • Facilité de validation (métadonnées claires).
  • Meilleure granularité des réponses des agents.

Limites côté serveur

Les formats et les tailles acceptés peuvent être limités par la configuration du serveur. Si un fichier dépasse la limite, il faut le fractionner ou le compresser avant d’envoyer.

FAQ — Questions fréquentes

Frequently Asked Questions

Prêt à téléverser vos fichiers ?

Suivez les étapes ci-dessus et commencez par un petit fichier de test pour valider le flux avant d’envoyer des lots volumineux.

Petit workflow de validation rapide

Téléversez d’abord un document court (1 page), vérifiez la recherche et la qualité d’extrait, puis adaptez votre préparation pour les documents plus longs.

Fin du guide — si vous souhaitez, je peux générer une checklist imprimable pour vos équipes ou un modèle de README à inclure dans vos archives avant téléversement. Voulez-vous cela ?