Nos formations innovantes

Quand un métier bouge, la formation doit évoluer

Data scraping: piloter son ordinateur pour collecter des données à grande échelle sur le web

Les secrets du data scraping pour automatiser la récupération de données

Formation scraping

Le scraping permet de récolter sans effort des masses considérables de données sur le web. Avec quelques notions de programmation et des connaissances de base sur l’architecture d’Internet, vous pourrez créer rapidement des robots qui travailleront sans relâche pour vous.

Nous contacter pour plus d'informations

Formulaire de contact
Vous êtes

Professionnel de l’information en rédaction, ONG, organisme public ou privé

A l'issue de la formation, vous pourrez
  • Programmer sur votre ordinateur un robot simple pour faire du web scraping et collecter automatiquement des données en ligne
Méthode pédagogique

Les concepts sont expliqués dans des présentations et mis en pratique sur des cas concrets, du plus simple au plus compliqué. Théorie: environ 20%. Exercices pratiques: environ 80%.

Matériel nécessaire

Vous pouvez apporter votre ordinateur, c’est mieux pour installer tout ce qu’il faut dessus. Veillez à avoir les droits d’administration sur votre machine. Si vous n’en avez pas, on vous en fournira un pour la formation.

Programme

JOUR 1


  • Qu’est-ce que le scraping? Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports (depuis le web, depuis du papier, depuis des PDF).
  • Exemples de projets réalisés grâce au scraping : passage en revue d’utilisation du scraping dans des projets pour bien comprendre l’intérêt d’une telle pratique ainsi que ses limites.
  • L’environnement légal : dans chaque pays et sur chaque site internet, le scraping s’inscrit dans un cadre légal différent. Découverte de ce qu’il est autorisé de scrapper et de ce qui ne l’est pas.
  • L’architecture d’internet : pour scraper des sites, il faut avant tout savoir comment Internet fonctionne.
  • Qu’est ce qu’un « client » ? Qu’est qu’un « serveur » ? Pourquoi est-ce important ?
  • Sur Internet, les échanges utilisent HTTP et HTML. Comment impactent-t-ils nos scrapers ?
  • Sur Internet, certaines données sont déjà structurées. Comment les utiliser au travers d’APIs ?
  • Comprendre comment fonctionne le HTML pour mieux extraire des informations. Qu’est qu’une balise HTML ? Un attribut ? Comme identifier certains éléments avec une CLASS ou un ID?
  • Initiation au Python, le langage le plus répandu pour coder un scraper : les fichiers, les variables, l’affichage d’information, les conditions et les boucles
  • Utiliser des fonctions et manipuler des CSVs pour lire et enregistrer des données
  • Le langage Python offre certains outils spécifiquement dédiés au scraping : Beautiful Soup – pour automatiser les opérations les plus courantes – ou bien CSS Select – pour mieux cibler les éléments à extraire.

JOUR 2


  • Un scraper simple (requêtes GET, pages séquencées)
  • Identifier la stratégie à adopter pour naviguer sur le site
  • Coder le scraper
  • Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
  • Qu’est ce qu’une requête POST et une requête GET ?
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper

 

Ressources

Quelques liens pour approfondir votre réflexion sur le scraping :

Nous contacter pour plus d'informations

Formulaire de contact

Construire une base de données pour une enquête

Le programme
Print Friendly, PDF & Email
Le formateur

pierre-romera-data « Je suis le directeur technique de Journalism++. Beaucoup développeur, un peu journaliste, j’ai été responsable des web-apps chez OWNI.fr avant de fonder Journalism++ en 2011 avec Nicolas Kayser-Bril. J’ai travaillé avec les journalistes de Radio France, France Télévisions, Wikileaks et beaucoup d’autres, sur des enquêtes ou des projets interactifs. J’adore enseigner, je suis même prof à l’école de journalisme de Sciences-Po et à l’ESJ. J’ai codé plusieurs projets de scraping et tous les jours, mes robots collectent quelques dizaines de milliers de points de données à ma place! »

Pierre Romera

Les dates
  • 14 et 15 décembre 2017 à Paris
  • 16 mars 2018 à Paris
  • 19 octobre 2018 à Paris
  • autres dates, autres lieux, nous contacter
A propos

Samsa.fr est un organisme de formation agréé / numéro 11 75 48299 75 (mention obligatoire: cet enregistrement ne vaut pas agrément de l’État) 122, avenue du général Leclerc 75014 Paris FRANCE contact@samsa.fr – Tel : 07 61 45 60 25 – Fax: 0957 810 840

Samsa.fr est référencé au Datadock depuis mai 2017.