Nos formations innovantes
Quand un métier bouge, la formation doit évoluer
[À DISTANCE] Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web
Les secrets du data scraping pour automatiser la récupération de données

Le scraping permet de récolter sans effort des masses considérables de données sur le web. Avec quelques notions de programmation et des connaissances de base sur l’architecture d’Internet, vous pourrez créer rapidement des robots qui travailleront sans relâche pour vous.
Cette formation est disponible à distance
Vous êtes
Professionnel de l’information en rédaction, ONG, organisme public ou privé
A l'issue de la formation, vous pourrez
- Programmer sur votre ordinateur un robot simple pour faire du web scraping et collecter automatiquement des données en ligne
Méthode pédagogique
Les concepts sont expliqués dans des présentations et mis en pratique sur des cas concrets, du plus simple au plus compliqué. Théorie et revue des bonnes pratiques: environ 20%. Exercices pratiques: environ 80%.
Matériel nécessaire
Vous pouvez apporter votre ordinateur, c’est mieux pour installer tout ce qu’il faut dessus. Veillez à avoir les droits d’administration sur votre machine. Si vous n’en avez pas, on vous en fournira un pour la formation.
Programme
JOUR 1
- Qu’est-ce que le scraping? Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports (depuis le web, depuis du papier, depuis des PDF).
- Exemples de projets réalisés grâce au scraping : passage en revue d’utilisation du scraping dans des projets pour bien comprendre l’intérêt d’une telle pratique ainsi que ses limites.
- L’environnement légal : dans chaque pays et sur chaque site internet, le scraping s’inscrit dans un cadre légal différent. Découverte de ce qu’il est autorisé de scrapper et de ce qui ne l’est pas.
- L’architecture d’internet : pour scraper des sites, il faut avant tout savoir comment Internet fonctionne.
- Qu’est ce qu’un « client » ? Qu’est qu’un « serveur » ? Pourquoi est-ce important ?
- Sur Internet, les échanges utilisent HTTP et HTML. Comment impactent-t-ils nos scrapers ?
- Sur Internet, certaines données sont déjà structurées. Comment les utiliser au travers d’APIs ?
- Comprendre comment fonctionne le HTML pour mieux extraire des informations. Qu’est qu’une balise HTML ? Un attribut ? Comme identifier certains éléments avec une CLASS ou un ID?
- Initiation au Python, le langage le plus répandu pour coder un scraper : les fichiers, les variables, l’affichage d’information, les conditions et les boucles
- Utiliser des fonctions et manipuler des CSVs pour lire et enregistrer des données
- Le langage Python offre certains outils spécifiquement dédiés au scraping : Beautiful Soup – pour automatiser les opérations les plus courantes – ou bien CSS Select – pour mieux cibler les éléments à extraire.
JOUR 2
- Un scraper simple (requêtes GET, pages séquencées)
- Identifier la stratégie à adopter pour naviguer sur le site
- Coder le scraper
- Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
- Qu’est ce qu’une requête POST et une requête GET ?
- Parcourir un site pour trouver les données
- Identifier la stratégie à adopter
- Coder le scraper
Ressources
Quelques liens pour approfondir votre réflexion sur le scraping :
Nous contacter pour plus d'informations
Datajournalisme et datavisualisation : travailler à partir de données
Comprendre et concevoir un projet de chatbot B2C
Journalisme d’investigation dans les médias locaux: outils et méthodes
Maîtriser les bonnes pratiques de la sécurité numérique
Les dates
- 4 et 5 octobre 2021 à Paris
- autres dates, autres lieux, nous contacter
- nous contacter pour organiser cette formation sur mesure dans votre entreprise
Le formateur
Formation scraping
- Tarif TTC: 1 188,00 €
- Durée: 2 jours (14 heures)
- Contactez-nous pour connaître les possibilités de financement de votre formation en fonction de votre situation.
Organisme certificateur
Les certifications délivrées au terme des formations Samsa.fr sont émises par TUV Rheinland. Cet organisme certificateur d'origine allemande ne délivre des certificats de compétences qu'à la condition que Samsa.fr délivre les formations conformément aux règles définies dans le cadre de la certification (en savoir plus).