Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


contexte

Visualisation des contextes de citation des données d’OpenEdition

Production du corpus

Dans le cadre du projet Appropriation du savoir ouvert, l’étude des contextes de citation des contenus d’OpenEdition pour comprendre comment les documents sont utilisés comme citation dans des contextes non académiques. L’outil de visualisation doit permettre d’explorer ces contextes après des traitements linguistiques. accès aux visualisations

Contenu du corpus

Ce travail repose sur plusieurs corpus :

  • Les tweets : le corpus RT_corpus.txt contient les 375 994 tweets originaux pointant vers OpenEdition.
  • Les contextes :
  • le corpus corpus_datathon_id.txt contient 47 735 contextes de citations pointant vers OpenEdition (site internet + wikipédia)
  • le corpus corpus_datathon_id.json : contient le même corpus formaté : une liste avec tout les contextes, pour chaque contextes un dictionnaire avec les métadonnées et les valeurs)
  • Wikipédia : le fichier contexte_wiki.csv contient les données sur toutes les pages de wikipédia.fr pointant vers OE.

Autres demandes au fil du datathon…

le fichier ici présentes les catégorisations de referer sur l'intégralité de l'année 2017. Il ne reprend pas le nombre visites mais juste la présence de différents referer… par exemple la ligne journals Institution d'aide à la recherche 410 Signifie que sur l'année 2017 et sur l'ensemble des connexions il y a 410 referers catégorisés comme institution qui on amené au moins un visiteur sur journals.

Processus de collecte

Les corpus ont étés collectés en plusieurs fois, selon les types de plateformes dont ils sont issus. Nous détaillerons par origine :

Twitter : Base de données de tweets : Les tweets ont étés collectés par l’outil “Twitter Archiving Google Spreadsheet TAGS v5”, chaque tweet (ou retweet) contenant un lien vers OpenEdition est consigné dans un document googleCalc (un par plateforme).

Pour des raisons de taille de fichier, ils ont étés exportés par année (ou temporalité plus courte). Disponibles ici ils contiennent :

  • id_str : le numéro identifiant le tweet
  • from_user : le nom du compte émetteur du tweet
  • text : le contenu textuel du tweet
  • created_at : date de création du tweet
  • time : date de création du tweet (format numérique)
  • geo_coordinates :
  • user_lang : langue par défaut du compte émetteur du tweet
  • in_reply_to_user_id_str : si le tweet est utilisé en réponse à un autre tweet, cette colonne contiendra le numéro d’identification du tweet à qui celui-ci répond
  • in_reply_to_screen_name : : si le tweet est utilisé en réponse à un autre tweet cette colonne contiendra le nom du compte à qui ce tweet répond
  • from_user_id_str : identifiant du compte émetteur du tweet
  • in_reply_to_status_id_str : si le tweet est utilisé en réponse à un autre tweet, cette colonne contiendra l’identifiant du tweet auquel répond celui-ci
  • profile_image_url : url de l'image de profil de l'auteur du tweet
  • user_followers_count : nombre de compte suivis par l’emetteur du tweet
  • user_friends_count : nombre de compte suivant l’emetteur du tweet
  • status_url : l’url du tweet

graphe de retweets (commu.graphml) : ce fichier reprend le graphe orienté de “qui retweete qui”

RT_corpus.txt :ce fichier contient les tweets originaux (donc sans les retweets) en encodage iramuteq, les métadonnées sont :

  • nom_: le nom du compte émetteur du tweet
  • cluster_: le cluster de retweet dans laquelle le compte émetteur du tweet est classé (donnée facultative)
  • date_: la date d’émission du tweet
  • source_: la plateforme vers laquelle pointe le tweet
  • if_: donnée purement technique pour le script

communautes.csvce fichier est l’export des nom de compte et du numéro de cluster dans lesquels ils ont classés. Il provient de l’export de ces informations par gephi.

Wikipédia : L’export de wikipédia s’est fait à partir des pages retournées par le moteur de recherche, ce sont celles contenant un lien vers OpenEdition. Pour chaque page à partir de l’API nous avons récupéré les contenus (pertinents) et les avons stocké en csv. les colonnes se réfèrent à :

  • ulrOE : url OpenEdition citée
  • oulWiki : url de la page wikipédia citant OE
  • dateApparitionLien : date de la première fois que le lien d’OpenEdition est cité
  • dateCreationPage : date de la création de la page wikipédia citant OE
  • titreBloc : le titre du bloc dans lequel est cité OE
  • paragraphe : le paragraphe dans lequel est le lien (si directement intégré ou si il est en note de bas de page).

[[https://drive.google.com/drive/u/0/folders/1nhoQab8PX8SPiNHEBfnZnmcqM4xj6cfF|Corpus de contextes]]

Les contextes ont étés identifiés à partir des logs de connexion sur les années 2017 et 2018. Pour chaque connexion sur une des plateformes OE sur cette période nous avons relevé le site web d’où venait l’usager (le referer). Pour tous les sites accessibles (hors moteurs de recherche et openedition), si l’url vers OE était encore disponible, nous avons récupéré l’intégralité du texte Chaque texte a été passé un segmenteur thématique (texttiling) seul le segment contenant le lien vers OpenEdition a été conservé.

Carte : https://view.genial.ly/5cef8594c1f8800f3d67920a/horizontal-infographic-diagrams-datathon

Traitement des données

Twitter : Base de données de tweets : Les fichiers contenant les contenus textuels des tweets, nous avons privilégié le format .tsv, il permet une séparation des colonnes par tabulation, et donc un rendu plus propre. Deux scripts (écrit en python 3) permettent de parser les fichiers et de produire : le fichier commu.graphml (exécuter le script ll_tweet_tsv_to_gephi.py) le fichier RT_corpus.txt (exécuter le script ll_tweet_tsv_to_ira.py)

Ces fichiers sont formatés pour être exploités dans des logiciels spécifiques : le graphe de retweet (commu.graphml) qui sera exploité dans gephi le corpus reprenant les tweets originaux (RT_corpus.txt) (avec ou sans les clusters de retweet) qui peut être exploité dans iramuteq, txm…

Wikipédia : le fichier est en csv

Corpus de contexte : le fichier est en .txt, encodé au format iramuteq : chaque contexte est délimité par une “ligne étoilée” (commence par ) chaque ligne étoilée contient l’adresse du referer et l’adresse OE citée, le type de réferer identifié

Modalités de diffusion des données

Les données sont la propriété de CLEO

Considérations légales et éthiques

Twitter : Les noms de comptes sont présents dans les trois types de données, étant des noms de compte publics, ils ne sont pas soumis légalement à la loi RGPD, cependant, une précaution éthique est de mise sur leur traitement et publication.

Source des données : twitter, wikipédia, siteweb…

contexte.txt · Dernière modification: 2019/09/06 13:26 par lucie.loubere