Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


umberto

Umberto : Détection des lecteurs inattendus sur OpenEdition

Production du corpus

Le projet de recherche Usages Alpha a porté sur la création d’une grille d’analyse des usages de la plateforme OpenEdition. Dans cet objectif, nous avons constitué un dispositif méthodologique, défini des modèles d’usages et développé un outil de détecteur de lecteurs / usages inattendus. Cette étude à orientation méthodologique a été financée par le Programme d’investissement d’avenir ISTEX (ANR-10-IDEX-0004-02).

Le détecteur d’anomalies ou de lecteurs inattendus répond aux caractéristiques suivantes : une application web de visualisation et d’exploration des données basée sur du code écrit en R, documenté et reproductible, distribué sous forme d’un package s’appuyant sur le framework shiny pour gérer la logique serveur et l’interface client le front-end repose sur le framework twitter bootstrap

Contenu du corpus

Le corpus s’appuie sur le traitement des données logs issus de janvier 2017 à juillet 2019. Processus de collecte

Les données ont été extraites d’une base de données de logs constituée par le logiciel Matomo. La plupart des consultations en provenance de robots (moteurs de recherche, scraping) ont notamment été préalablement retirées.

En raison de l’ampleur des données (plus de 160 000 000 de sessions), la gestion de l’ensemble des données dans une seule base s’est avérée impraticable. La base a été découpée en plusieurs collections de jeux de données : Métadonnées des sessions (date d’ouverture, identifiant anonymisé de l’utilisateur) Métadonnées des visites (date de consultation et identifiant de l’article). Métadonnées des liens de provenance des sessions (“referers”) Métadonnées des localisations géographiques des sessions. Métadonnées des liens visités (les jeux de données précédents ne conservent que des identifiants pour optimiser la mémoire) Métadonnées complètes des publications d’Open Edition (extraites avec SolR).

Chacune des quatre premières collections contient 17 jeux de données regroupées par tranches de 5 000 000 de sessions. Le langage de programmation R permet d’itérer sur les données et de les joindre en fonction des besoins.

Ces données ne sont pas destinées à être directement requêtées mais à servir à élaborer des données traitées plus compactes.

Traitement des données

L’interface Shiny “Umberto” présente actuellement des données issues de deux traitements : L’identification des épisodes de visites inattendues. Ces épisodes correspondent à la survenue “anormale” de trafic sur un article en dehors de la période suivant immédiatement sa publication, généralement à la suite d’une exposition externe (citation directe sur un site, actualisation du thème traitée dans la publication dans une émission de télévision ou de radio, etc.). Ces séquences ont été extraites automatiquement à partir d’un algorithme élaboré dans le cadre du projet ISTEX USAGES ALPHA. Ce traitement requiert de comptabiliser l’ensemble des visites et des sessions pour chaque article publié sur une plateforme d’Open Edition. L’interface Shiny “Umberto” référence 2151 cas de lecteurs inattendus. Chaque cas est documenté par les données mises à dispositions par Matomo (source des visites, distribution dans le temps, origines géographiques) ce qui facilite le repérage de la cause de l’anomalie. L’identification des visites institutionnelles. De nombreuses institutions, en particulier universitaires mais aussi des entreprises ou des organisations internationales utilisent des adresses IPs fixes et pérennes. Le repérage de ces adresses permet de contextualiser les usages institutionnels des plateformes d’Open Edition. L’interface Shiny recense 989 visiteurs institutionnels ayant utilisés environ 2000 IPs différentes. Pour chaque visiteur, l’interface référence les publications et les principaux articles visités. Les thématiques concernés sont généralement cohérentes avec les champs d’activités des institutions (la SNCF privilégie ainsi la Revue d’Histoire des chemins de fer).

Modalités de diffusion des données

Considérations légales et éthiques

Source des données

umberto.txt · Dernière modification: 2019/09/04 13:21 par samgoeta