Ajout de sites et scraping

Ajout de sites et scraping

Comment ajouter une URL pour scraping, configurer le crawl, et intégrer les résultats au branding ou à l’indexation

Ajoutez un site à votre projet, extrayez son contenu et intégrez-le soit au formulaire de branding (détection automatique) soit à l’index de recherche (RAG). Ce guide couvre les étapes pas à pas, les options de crawl, la surveillance des tâches et la gestion des erreurs.

Introduction Ce guide explique, pas à pas, comment :

  • ajouter une URL pour scraping depuis l’interface projet ;
  • choisir si le contenu va alimenter la détection de branding (couleurs, logo, méta) ou l’indexation (RAG/recherche) ;
  • configurer les options de crawl (profondeur, pages, exclusions) ;
  • suivre l’état des traitements asynchrones et résoudre les erreurs courantes.

Note importante : les uploads et les scrapes sont traités en arrière‑plan de façon asynchrone (file de traitement). Le scraping peut échouer suivant la disponibilité du site cible ou ses protections anti‑scraping (CAPTCHA, Cloudflare, pages protégées).

Workflow : Ajouter une URL pour détection automatique de branding (Auto‑Detect)

1

1. Ouvrir la page Site / Branding

Dans votre projet, allez dans l’onglet Website (Site web) puis la section « Détection automatique depuis le site web ».

2

2. Coller l’URL

Collez l’URL racine du site (ex. https://monsite.exemple) dans le champ prévu. Préférez la page d’accueil ou la page présentant l’identité du site.

3

3. Lancer la détection

Cliquez sur « Détecter » / « Analyser ». Le système lance un scraping ciblé pour repérer logo, favicon, couleurs, typographie, et méta (titre, description, OG image).

4

4. Attendre la fin et vérifier les champs

Le traitement se fait en arrière‑plan. Une fois terminé, les champs du formulaire de branding se préremplissent : nom du site, slogan, URLs d’images, couleurs, police, méta. Vérifiez chaque champ.

5

5. Ajuster et enregistrer

Ajustez manuellement ce qui ne convient pas (couleurs proches, logo recadré) puis cliquez sur « Enregistrer ». Vous pouvez revenir modifier ces valeurs à tout moment.

6

6. Si la détection est incomplète

Si des éléments manquent, essayez d’analyser une page interne plus pertinente (ex. /about, /company) ou importez manuellement les URLs des images/og.

7

7. Bonnes pratiques

Commencez par la page d’accueil, limitez la profondeur initiale, et sauvegardez fréquemment après corrections.

8

Astuce : commencer petit

Si le site est volumineux, lancez d’abord la détection sur la page d’accueil ou sur la page « À propos » : les éléments de branding s’y trouvent souvent et vous évitez un traitement inutile.

9

Astuce : vérifier les images récupérées

Pour le logo et les images OG, copiez l’URL détectée dans un nouvel onglet pour confirmer la qualité (taille, fond transparent). Remplacez par une version haute résolution si nécessaire.

10

Limites de la détection automatique

La détection automatique n’est pas parfaite : sites fortement dynamiques, contenus chargés après interaction, ou protections anti‑robot peuvent empêcher l’extraction complète. Préparez une alternative (saisie manuelle).

Workflow : Ajouter une URL pour indexation (RAG / recherche)

1

1. Ouvrir la zone Sources / Ajouter un site

Dans la vue de gestion des sources du projet, choisissez « Ajouter un site » ou « Ajouter une URL ». Sélectionnez si l’objectif est l’indexation / RAG.

2

2. Fournir l’URL et nommer la source

Entrez l’URL racine ou l’URL précise, puis donnez un nom reconnaissable à la source (ex. « Site produit »).

3

3. Choisir le mode de scrape

Options courantes :

  • Scraper le site entier (crawl interne).
  • Scraper une seule page.
  • Scraper un sous‑domaine spécifique.
    Sélectionnez selon l’usage (indexation complète ou ajout d’une page précise).
4

4. Configurer les paramètres de crawl

Définissez : profondeur de crawl (ex. 1–3), nombre max de pages, types de fichiers exclus (.pdf, .jpg), et règles d’exclusion (chemins à ignorer).

5

5. Lancer le scraping et l’indexation

Démarrez le processus. Le traitement est asynchrone : vous recevrez un statut (en cours, terminé, erreur) et des messages de progression dans la section des tâches en cours.

6

6. Surveiller la progression

Ouvrez la vue des jobs / progress pour voir le pourcentage, les pages actuellement traitées et les messages (ex. « Génération de résumés pour /docs »).

7

7. Vérifier les résultats indexés

Une fois terminé, lancez quelques recherches pour valider que le contenu est disponible. Vérifiez la pertinence et les extraits afin d’ajuster le crawl si nécessaire.

8

8. Itérer et re‑scraper si besoin

Si des pages manquent, ajustez les exclusions, la profondeur, ou lancez un nouveau scrape ciblé (page par page) et ré‑indexez.

9

Astuce : tester en mode restreint d’abord

Pour de grands sites, commencez par un petit nombre de pages (ex. 50) et augmentez progressivement. Cela vous évite des traitements longs et facilite l’identification d’échecs.

10

Astuce : exclure les gros fichiers

Ajoutez les extensions lourdes (.zip, .mp4, .png haute résolution) dans la liste d’exclusions pour réduire le temps et le coût du traitement.

11

Respectez l’accès et la robotique du site

Ne scrapez pas de pages protégées, privées ou soumises à des conditions légales sans autorisation. Respectez les directives de robots.txt et les conditions d’utilisation du site cible.

Workflow : Options avancées de crawl et filtres (choisir la stratégie)

1

1. Définir l’étendue du crawl

Décidez si vous voulez : uniquement le domaine racine, sous‑domaines autorisés, ou suivre les liens externes. Par défaut, privilégiez uniquement le domaine d’origine.

2

2. Profondeur et nombre maximal de pages

  • Profondeur 1 : page d’accueil + liens directs.
  • Profondeur 2–3 : inclut pages internes.
    Choisissez un maximum de pages pour limiter la durée.
3

3. Filtres d’exclusion

Ajoutez patterns à exclure (/admin, /login, /user, /cart) et types de fichiers à ignorer (.pdf/.zip/.jpg). Les patterns peuvent être basiques (commençant par /admin) ou par extension.

4

4. Pages prioritaires

Spécifiez des pages prioritaires à traiter en premier (ex. /docs, /guides). Elles seront analysées avant les pages secondaires.

5

5. Comportement vis‑à‑vis des liens externes

Choisissez d’ignorer les liens externes par défaut. Activez le suivi externe uniquement si vous souhaitez indexer des ressources tierces.

6

6. Planifier ou exécuter immédiatement

Selon l’interface, vous pouvez planifier des scrapes hors‑heure (heures creuses) ou lancer immédiatement. Pour gros sites, privilégiez une planification.

7

7. Enregistrer la configuration

Sauvegardez la configuration du source pour la réutiliser (re‑scraping périodique, monitoring).

8

Configurer par défaut des règles d’exclusion

Créez des templates d’exclusions (par exemple pour les e‑commerces, docs, blogs) afin d’appliquer rapidement une configuration adaptée à chaque site.

Workflow : Suivi, annulation et relance d’un job de scraping

1

1. Accéder à la liste des tâches en cours

Dans la section de monitoring / jobs, repérez la tâche liée à votre source. Vous verrez le progrès en pourcentage et les messages associés.

2

2. Lire les messages de progression

Ouvrez le détail du job pour lire les étapes (ex. “Récupération pages 1/50”, “Génération de résumés”). Ces messages aident à diagnostiquer les blocages.

3

3. Annuler une tâche

Si besoin, utilisez le bouton « Annuler » pour stopper le traitement. L’annulation peut prendre quelques secondes à être effective.

4

4. Relancer une tâche partielle

Après correction (ajout d’exclusions, changement de profondeur), relancez un nouveau job en ciblant uniquement les pages manquantes pour gagner du temps.

5

5. Vérifier l’intégration finale

Une fois la tâche terminée, vérifiez les éléments intégrés au formulaire de branding ou à l’index (selon l’objectif), puis validez en production si tout est correct.

Workflow : Gestion des erreurs de scraping et plans de secours

1

1. Identifier le type d’erreur

Consultez le message d’erreur dans le détail du job : timeout, accès refusé, page introuvable, CAPTCHA ou erreurs réseau. Notez l’URL concernée.

2

2. Vérifications rapides

  • Ouvrez l’URL dans votre navigateur : la page s’affiche‑t‑elle sans connexion ?
  • La page nécessite‑t‑elle une authentification ?
  • Le site présente‑t‑il un CAPTCHA ou une protection Cloudflare ?
3

3. Modifier la stratégie de scraping

Si la protection bloque : réduisez la vitesse, limitez la profondeur, scrapez page par page, ou excluez les pages protégées. Retentez avec une portée plus limitée.

4

4. Utiliser des pages publiques alternatives

Si la page principale est protégée, essayez de scraper des pages publiques (ex. documentation, blog) qui contiennent l’essentiel de l’information.

5

5. Recourir à un upload manuel en dernier recours

Si le scraping automatique échoue, exportez ou copiez le contenu pertinent et utilisez l’upload manuel pour l’ajouter au projet.

6

6. Relancer après correction

Après avoir ajusté les exclusions ou choisi d’autres pages, relancez le job et surveillez les messages de progression.

7

7. Contacter le support si problème persistant

Si vous suspectez un blocage côté plateforme (erreurs répétées sans raison), contactez l’assistance en fournissant l’URL en question et les messages d’erreur détaillés.

8

Cas fréquents d’échec

Les scrapers échouent souvent à cause de pages nécessitant une authentification, protections anti‑bot (CAPTCHA, services CDN) ou contenu chargé dynamiquement après interactions. Dans ces cas, privilégiez l’upload manuel ou la collaboration avec le propriétaire du site pour accéder aux données.

  • Objectif : extraire logo, favicon, couleurs, police, titre, meta.
  • Approche : analyser la page d’accueil / page « À propos ».
  • Quand l’utiliser : pour préremplir le formulaire de site et accélérer la configuration visuelle.
  • Objectif : récupérer pages, sections et créer vecteurs / résumés utilisables pour recherche.
  • Approche : crawl contrôlé, exclusions, priorisation des sections docs/guides.
  • Quand l’utiliser : pour alimenter l’assistant ou la recherche interne avec le contenu complet du site.
  • Objectif : obtenir le meilleur des deux mondes.
  • Approche : d’abord détection du branding sur la page d’accueil, puis crawl ciblé des docs pour indexation.

Branding (détection automatique)

  • Rapide à configurer
  • Met à jour le formulaire visuel
  • Idéal pour personnaliser l’interface publique

Indexation (RAG)

  • Nécessite plus de temps et ressources
  • Permet recherche fine et réponses contextuelles
  • Adapté aux documentations et guides

Conseil opérationnel

Si vous préparez plusieurs projets similaires, conservez une configuration type (profond, exclusions, pages prioritaires) pour la réutiliser et gagner du temps.

Optimisation de coûts et temps

Pour minimiser la durée et le coût : ciblez d’abord les pages essentielles (docs, guides), évitez les médias volumineux et limitez la profondeur lors des premiers tests.

Risque légal et de conformité

Assurez‑vous d’avoir le droit de scraper le site visé. Ne tentez pas d’extraire des contenus privés ou protégés sans autorisation explicite. Le non‑respect peut entraîner des conséquences légales.

Frequently Asked Questions

Prêt à ajouter un site ?

Ajoutez l’URL de votre site, commencez par une détection de branding, puis lancez un crawl ciblé pour l’indexation si besoin. Consultez les tâches en cours pour suivre l’avancement.

Conclusion

  • Commencez toujours par un test limité (quelques pages) pour valider la stratégie.
  • Utilisez la détection de branding pour gagner du temps sur l’apparence du site, puis lancez un crawl ciblé pour alimenter l’index.
  • En cas d’erreurs répétées, privilégiez des pages publiques ou l’upload manuel et respectez toujours les règles d’accès du site cible.

Si vous souhaitez, je peux fournir une checklist imprimable à suivre avant chaque scraping (préparation URL, exclusions, pages prioritaires, actions en cas d’échec).