Le Web scraping ou harvesting ou bien encore le moissonnage web est un procédé d’extraction de données et de contenus des pages web de façon rapide et efficace tout en gardant l’intégrité des données par le biais d’un programme ou d’un logiciel.
Ce procédé est utilisé à des fin de traitement et d’analyses de données pour diverse domaines dont l’analyse de marché, étude concurrentiel, recherche académique, analyse des feedbacks sur les différents réseau sociaux et autres sites web.
Histoire du web scraping
La collecte des données a des fins de les analyser est une manière qui existait bien avant l’apparition du web, surtout dans le domaine du business. Avec l’apparition et la popularisation du web, la source des données change ainsi que le type de données exigés.
Quand est-ce qu’on peut en avoir besoin ?
Le webscraping est utilisé pour diverses contextes, notamment :
Analyse concurrentielle :
Dans un marché dynamique, surveiller les actions des concurrents est essentiel pour rester compétitif. Les entreprises utilisent le web scraping pour suivre les prix des produits, les promotions en cours, et les nouvelles tendances. Le web scraping permet d’extraire des données sur les produits, les promotions, et les avis laissés par les clients sur les sites des concurrents, ainsi que sur les différents réseaux permettant le partage d’avis tel que les réseaux sociaux, forum, blogs et autres.
Qu’est ce qu’on peut extraire grâce au web scraping ?
L’extraction des données peut différer selon un objectif, qui sont de natures différentes :
Données numériques ou quantitatives :
Ce type de données est le plus structuré et comprend des éléments comme les notes de critiques sur des plateformes comme TripAdvisor, les votes d’utilité des critiques sur Amazon, ou encore les prix des enchères sur eBay. Ces données peuvent être facilement converties en variables avec un minimum de traitement.
Données textuelles ou qualitatives :
Situées au milieu du spectre, les données textuelles sont moins structurées que les données numériques. Elles comprennent les textes de critiques, les articles de blog, les tweets, etc. Leur traitement pour l’analyse statistique nécessite souvent une analyse textuelle automatisée.
Données visuelles :
Les données visuelles, comme les images et les vidéos, sont les plus non structurées et exigent un traitement plus complexe pour être transformées en variables exploitables. Ce traitement peut être effectué par des techniques de vision par ordinateur ou par des codeurs humains.
Métadonnées :
Ce sont des « données sur les données », souvent associées à des données générées par les utilisateurs. Les métadonnées peuvent inclure des informations descriptives sur l’utilisateur (par exemple, l’adresse IP), le dispositif utilisé (par exemple, le type de navigateur ou de caméra), ou la date de création du contenu (par exemple, la date de publication d’une critique)
Exemple d’un scraper avec Python :
Le projet consiste à compter les occurrences de mots prédéfinis dans une liste de liens en collectant l’ensemble mots composant les titres des pages, puis à générer un graphique représentatif des résultats : Accéder au scraper