Interface et supervision des jobs

Interface et supervision des jobs

Gérez, suivez et diagnostiquez les traitements d’uploads et de scraping depuis l’interface

Initialiser la pipeline de processing depuis l’UI, suivre la progression en temps réel des uploads et scrapes, et résoudre les échecs ou goulots d’étranglement.

Ce que couvre cette page

Initialiser la pipeline depuis l'UI

Ajouter des sources (dépôts, sites, fichiers) depuis l’interface et lancer leur traitement sans configuration technique.

Suivi en temps réel

Voir l’avancement de chaque job (progression, messages, statut) et visualiser l’ensemble des tâches en cours.

Diagnostiquer et réparer

Comprendre les messages d’erreur, relancer ou annuler des jobs, et appliquer les bonnes pratiques pour éviter les blocages.

Gestion des uploads asynchrones

Les fichiers sont traités en arrière-plan : connaître l’impact des lots volumineux et gérer les priorités.

Annulation et reprise

Annuler proprement un traitement en cours et relancer seulement les sources nécessaires pour gagner du temps.

Persistances d'état et reprise

Si vous perdez la connexion au navigateur, le traitement continue : comment récupérer l’état et vérifier les jobs restants.

Intro En un coup d’œil : cette page explique comment lancer le traitement d’un projet depuis l’interface, où regarder la progression des jobs d’upload et de scraping, comment interpréter les messages affichés, et quelles actions effectuer pour résoudre les erreurs ou accélérer le traitement. Les instructions ci-dessous sont orientées utilisateur (UI) : pas besoin de connaissances techniques.

À savoir avant de commencer

Les uploads et autres sources sont traités en arrière-plan de façon asynchrone. L’interface vous montre l’état réel des jobs, mais le traitement continue même si vous fermez la page — vous perdrez simplement l’affichage en temps réel jusqu’à votre retour.

Workflow : Initialiser la pipeline de processing depuis l'UI

1

Étape 1 — Ouvrir le projet

Allez sur la page du projet concerné via le tableau de bord. Vérifiez le nom du projet et que vous êtes bien sur l’onglet principal (généralement “Sources” ou “Repos / Sources”).

2

Étape 2 — Préparer vos sources

Choisissez les sources à ajouter : dépôt Git, URL de site, ou fichier(s) à uploader. Pour chaque source, renseignez clairement le nom ou l’URL afin de faciliter l’identification lors du suivi.

3

Étape 3 — Ajouter les sources depuis le panneau dédié

Utilisez le bouton “Ajouter une source” / “Upload” / “Ajouter un dépôt” présent dans l’interface. Pour un upload, sélectionnez les fichiers ou glissez-les dans la zone prévue.

4

Étape 4 — Confirmer et lancer

Validez la liste des sources puis lancez le traitement. L’interface créera immédiatement des entrées “pending” visibles dans la section de suivi pour vous informer que les jobs sont en file d’attente.

5

Étape 5 — Vérifier l'enregistrement des tâches

Dès le lancement, regardez la section “Progression” / “Jobs en cours” : chaque source devrait apparaitre avec une barre ou un indicateur initial (0–5%) indiquant qu’elle a été prise en compte.

6

Étape 6 — Rester ou revenir plus tard

Vous pouvez quitter la page : le traitement continuera en arrière-plan. À votre retour, l’interface rechargera l’état des jobs et affichera la progression actuelle.

Tip — Préparez des noms explicites pour vos uploads

Donnez des noms courts et descriptifs à vos fichiers et dépôts lors de l’ajout : cela facilite l’identification des jobs dans la liste et accélère le diagnostic en cas d’erreur.

Workflow : Suivre la progression des jobs d'upload et de scraping

1

Étape 1 — Localiser le panneau de progression

Sur la page projet, repérez la section dédiée au suivi (souvent en haut ou dans un panneau latéral). Elle affiche les jobs en cours, leur progression (%) et un message résumé.

2

Étape 2 — Lire la barre et les messages

Pour chaque job, consultez : nom de la source, pourcentage d’avancement, message d’état (ex. “Téléchargement”, “Extraction”, “Indexation”, “Échec : accès refusé”).

3

Étape 3 — Consulter les détails d’un job

Cliquez sur un job pour voir l’historique des messages et les étapes parcourues. Les messages indiquent souvent l’étape qui bloque (par ex. problème d’accès, taille du contenu, erreur du fournisseur).

4

Étape 4 — Suivi en temps réel

Gardez la page ouverte si vous voulez voir des mises à jour en direct. Si la connexion est interrompue, vous retrouverez l’état actuel lors de la reconnexion.

5

Étape 5 — Vérifier l'ordre de traitement

Rappelez-vous que les traitements sont exécutés en file : si vous avez beaucoup de jobs simultanés, certains resteront en attente (pending) jusqu’à ce que les précédents finissent.

6

Étape 6 — Notifications et statut final

À la fin d’un job, l’interface mettra à jour le statut (terminé / échoué). Si configuré, vous pouvez aussi recevoir une notification. Vérifiez les résultats publiés (documents générés, site mis à jour) selon votre flux.

Tip — Préférez des lots de petite taille pour le monitoring

Pour des projets volumineux, envoyez les sources par lots de 5–10 pour conserver une visibilité claire sur chaque job et réduire la file d’attente. Cela simplifie aussi la relance sélective en cas d’échec.

Workflow : Diagnostiquer un échec ou un job lent

1

Étape 1 — Identifier le message d’erreur

Affichez le détail du job échoué : le message affiché est votre première piste (ex. “Permission refusée”, “Timeout”, “Taille trop importante”, “Rate limit fournisseur”).

2

Étape 2 — Vérifications rapides

  • Pour un dépôt : vérifiez que les identifiants d’accès ou autorisations sont valides et que le service distant accepte les requêtes.
  • Pour un site : confirmez que l’URL répond et n’oppose pas de blocage (robots.txt, firewall).
  • Pour un upload : contrôlez la taille du fichier et le type accepté.
3

Étape 3 — Relancer l'étape impactée

Si l’interface propose un bouton “Réessayer” ou “Relancer”, utilisez-le pour retenter uniquement la source fautive. Évitez de relancer massivement si vous n’êtes pas certain de la cause.

4

Étape 4 — Isoler et retester

Testez la source isolément (par ex. re-uploader un petit extrait du fichier, ou lancer le scraping d’une page unique) pour confirmer si l’erreur persiste.

5

Étape 5 — Actions courantes selon la cause

  • Permission : rafraîchir les autorisations / reconnecter le fournisseur.
  • Rate limit / timeout : attendre puis relancer par petits lots.
  • Fichier trop volumineux : scinder le fichier ou compresser.
  • Blocage de scraping : vérifier les règles du site (robots, captchas) et adapter la fréquence/délai.
6

Étape 6 — Si tout échoue, annuler et ré-importer proprement

Annulez le job problématique et ré-importez la source corrigée (nouveau fichier, URL différente, autorisations mises à jour).

Warning — Évitez les relances massives sans diagnostic

Relancer en masse tous les jobs peut aggraver une situation liée à des quotas ou à un blocage fournisseur. Identifiez la cause avant de déclencher des réexécutions multiples.

Workflow : Annuler un traitement en cours et reprendre proprement

1

Étape 1 — Confirmer la nécessité d’annulation

Avant d’annuler, vérifiez s’il suffit de relancer une seule source ou si le travail global doit être stoppé (erreur de configuration, mauvais lot uploadé).

2

Étape 2 — Utiliser l’action d’annulation

Dans le panneau projet, utilisez l’option “Annuler le traitement” / “Cancel jobs” pour stopper les jobs en attente et marquer les jobs actifs à ignorer. L’interface vous confirmera le nombre de jobs annulés.

3

Étape 3 — Nettoyer l'état local

Après annulation, vérifiez que la liste des jobs en cours est vide et supprimez les sources non désirées de la file. Cela évite une reprise involontaire.

4

Étape 4 — Corriger et relancer

Appliquez les corrections nécessaires (taille de fichier, autorisations, URL corrigée), puis re-soumettez uniquement les sources qui doivent être retraitées.

5

Étape 5 — Surveiller les premières étapes

Surveillez les premiers pourcentages ou messages pour confirmer que la reprise se déroule correctement ; annulez rapidement si le même problème réapparaît.

Workflow : Gérer des uploads asynchrones et files d’attente (bonnes pratiques)

1

Étape 1 — Connaître l’impact des lots

Les uploads sont traités par la même file que les autres sources : envoyer beaucoup de fichiers simultanément ajoute de la latence pour tous les jobs. Planifiez par lots.

2

Étape 2 — Prioriser manuellement

Si une source est prioritaire (ex. publication urgente), téléversez-la séparément et surveillez sa progression avant d’envoyer le reste.

3

Étape 3 — Fractionner les gros fichiers

Pour des fichiers très volumineux, découpez-les en parties logiques (chapitres, sections) afin d’améliorer la résilience et la vitesse de traitement.

4

Étape 4 — Vérifier les dépendances externes

Les traitements peuvent bloquer à cause de services externes (limitations d’API, timeouts). Si vous suspectez ce cas, testez la source hors de l’UI (ex. accès simple via navigateur) pour isoler le problème.

5

Étape 5 — Garder un œil sur l’ordre d’exécution

En cas de beaucoup d’ajouts, l’interface listera d’abord des jobs “pending” puis les vrais jobs au fur et à mesure de leur exécution : soyez patient pour les lots volumineux.

Tip — Fermez la page en toute sécurité

Fermer l’interface n’arrête pas le traitement : les jobs continueront. Cependant, pour voir le suivi en temps réel vous devez rouvrir la page ; conservez les informations du projet pour revenir rapidement.

Traitement rapide. Recommandations :

  • Envoyer 1–5 sources à la fois.
  • Surveiller en direct depuis l’interface.
  • Réessayer individuellement en cas d’échec.

Traitement long. Recommandations :

  • Fractionner (si possible) en modules/sous-dépôts.
  • Lancer par lots et prioriser les parties critiques.
  • Anticiper des délais supplémentaires dus aux limites du fournisseur (API rate-limits).

Traitement asynchrone prolongé. Recommandations :

  • Téléverser par paquets de taille raisonnable.
  • Étiqueter chaque fichier pour identification.
  • Utiliser l’annulation pour interrompre un lot mal préparé, puis réimporter correctement.

Avant (flux non optimisé)

  • Envoi massif non étiqueté
  • Beaucoup de jobs “pending” bloqués derrière quelques gros jobs
  • Difficulté à isoler erreurs

Après (bonne pratique)

  • Uploads en petits lots et étiquetés
  • Priorisation des sources critiques
  • Relance ciblée des jobs fautifs, diagnostics simples

Workflow avancé : Reprise après interruption de session ou déconnexion

1

Étape 1 — Rouvrir l'interface et accéder au projet

Reconnectez-vous et ouvrez la page projet ; l’interface rechargera l’état connu des jobs et récupérera les mises à jour disponibles.

2

Étape 2 — Vérifier l'état consolidé

Regardez la vue globale : si des jobs apparaissent terminés ou échoués pendant votre absence, notez lesquels nécessitent action.

3

Étape 3 — Request de réconciliation (si disponible)

Si l’interface propose une option de “Vérifier l’état des jobs” ou “Re-synchroniser”, lancez-la pour demander un état actualisé des tâches.

4

Étape 4 — Reprendre le monitoring

Ouvrez les jobs ciblés et suivez les messages. Utilisez les boutons “Réessayer” ou “Annuler” selon le diagnostic réalisé.

5

Étape 5 — Prévenir les interruptions futures

Pour les traitements longs, évitez de lancer de très gros lots avant une période d’absence prolongée afin de faciliter le contrôle en cas d’incident.

Warning — Coûts et ressources consommées

Les traitements volumineux (gros dépôts, nombreux fichiers) peuvent consommer des ressources et du temps. Planifiez les grandes opérations hors des périodes de forte activité et surveillez les messages d’usage si votre projet est soumis à des quotas.

Frequently Asked Questions

Récapitulatif

  • Lancez les traitements depuis l’onglet Sources ; surveillez la progression dans la section Jobs.
  • En cas d’échec, lisez le message, corrigez la source (permissions, taille, URL) et relancez de façon ciblée.
  • Pour des volumes importants, fractionnez et priorisez afin d’éviter les goulots d’étranglement.

Besoin d’aide supplémentaire ?

Si vous rencontrez un problème reproductible malgré ces étapes, rapprochez-vous du support avec un exemple de source et les messages d’erreur observés : cela accélère le diagnostic.