Sélectionner une page

Nos formations innovantes

Quand un métier bouge, la formation doit évoluer

 

[À DISTANCE] Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Les secrets du data scraping pour automatiser la récupération de données

Formation scraping

Le scraping permet de récolter sans effort des masses considérables de données sur le web. Avec quelques notions de programmation et des connaissances de base sur l’architecture d’Internet, vous pourrez créer rapidement des robots qui travailleront sans relâche pour vous.

Cette formation est disponible à distance

Vous êtes

Professionnel de l’information en rédaction, ONG, organisme public ou privé

A l'issue de la formation, vous pourrez
  • Programmer sur votre ordinateur un robot simple pour faire du web scraping et collecter automatiquement des données en ligne
Méthode pédagogique

Les concepts sont expliqués dans des présentations et mis en pratique sur des cas concrets, du plus simple au plus compliqué. Théorie et revue des bonnes pratiques: environ 20%. Exercices pratiques: environ 80%.

Matériel nécessaire

Vous pouvez apporter votre ordinateur, c’est mieux pour installer tout ce qu’il faut dessus. Veillez à avoir les droits d’administration sur votre machine. Si vous n’en avez pas, on vous en fournira un pour la formation.

Programme

JOUR 1


  • Qu’est-ce que le scraping? Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports (depuis le web, depuis du papier, depuis des PDF).
  • Exemples de projets réalisés grâce au scraping : passage en revue d’utilisation du scraping dans des projets pour bien comprendre l’intérêt d’une telle pratique ainsi que ses limites.
  • L’environnement légal : dans chaque pays et sur chaque site internet, le scraping s’inscrit dans un cadre légal différent. Découverte de ce qu’il est autorisé de scrapper et de ce qui ne l’est pas.
  • L’architecture d’internet : pour scraper des sites, il faut avant tout savoir comment Internet fonctionne.
  • Qu’est ce qu’un « client » ? Qu’est qu’un « serveur » ? Pourquoi est-ce important ?
  • Sur Internet, les échanges utilisent HTTP et HTML. Comment impactent-t-ils nos scrapers ?
  • Sur Internet, certaines données sont déjà structurées. Comment les utiliser au travers d’APIs ?
  • Comprendre comment fonctionne le HTML pour mieux extraire des informations. Qu’est qu’une balise HTML ? Un attribut ? Comme identifier certains éléments avec une CLASS ou un ID?
  • Initiation au Python, le langage le plus répandu pour coder un scraper : les fichiers, les variables, l’affichage d’information, les conditions et les boucles
  • Utiliser des fonctions et manipuler des CSVs pour lire et enregistrer des données
  • Le langage Python offre certains outils spécifiquement dédiés au scraping : Beautiful Soup – pour automatiser les opérations les plus courantes – ou bien CSS Select – pour mieux cibler les éléments à extraire.

JOUR 2


  • Un scraper simple (requêtes GET, pages séquencées)
  • Identifier la stratégie à adopter pour naviguer sur le site
  • Coder le scraper
  • Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
  • Qu’est ce qu’une requête POST et une requête GET ?
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper

 

Ressources

Nous contacter pour plus d'informations

 

Datajournalisme et datavisualisation : travailler à partir de données

Comprendre et concevoir un projet de chatbot B2C

Journalisme d’investigation dans les médias locaux: outils et méthodes

Maîtriser les bonnes pratiques de la sécurité numérique

Print Friendly, PDF & Email
Les dates
  • 4 et 5 octobre 2021 à Paris
  • autres dates, autres lieux, nous contacter
  • nous contacter pour organiser cette formation sur mesure dans votre entreprise
Le formateur

« Je suis journaliste aux Décodeurs du Monde depuis la naissance de la rubrique, en 2014. Mordu de nouveaux formats, je passe beaucoup de temps à manipuler les données et à coder, toujours à la recherche de nouvelles manières de raconter l’actu.
Je suis fier d’avoir pu participer aux « Panama Papers » (2016) et aux « Paradise Papers » (2017). Ces enquêtes menées avec des centaines de journalistes du monde entier, sous l’égide du Consortium international des journalistes d’investigation (ICIJ), ont inauguré une nouvelle ère du journalisme d’investigation, collaborative et appuyée sur d’immenses bases de données ».
Organisme certificateur

Les certifications délivrées au terme des formations Samsa.fr sont émises par TUV Rheinland. Cet organisme certificateur d'origine allemande ne délivre des certificats de compétences qu'à la condition que Samsa.fr délivre les formations conformément aux règles définies dans le cadre de la certification (en savoir plus). 

 

Samsa.fr organise les Rencontres de l'innovation éditoriale (événement en ligne)

Les Rencontres francophones de la vidéo mobile