Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


hypotheses

Hypothèses

Production du corpus

Le projet Hycar consiste à analyser la posture du chercheur, notamment sur l’utilisation des carnets de recherche. Le terrain d’étude est la plateforme Hypothèses et l’analyse portera sur les types de rédaction, la périodicité, le type de langage utilisé, la répartition disciplinaire, les relations entre les carnets et / ou billets, etc. L’idée est de tester quelques hypothèses de départ, des approches méthodologiques et des outils liées à la linguistique, la statistique, l’analyse de réseaux, etc., pour amorcer des pistes de recherche.

Contenu du corpus

HO_Tag_Billet.csv Taxonomy dans les billets de tous les carnets d'Hyptothèses

site ⇒ URL du carnet de recherche postid ⇒ identifiant du billet term_id ⇒ identifiant du tag ou catégorie name ⇒ nom du tag ou de la catégorie slug ⇒ nom du tag ou de la catégorie (indexation dans wordpress) taxonomy ⇒ type (category ou post-tag)

Pour retrouver le billet sur la plateforme hypothèses ⇒ site + postid. Exemple ⇒ site: https://char.hypotheses.org/ postid: 3089 → https://char.hypotheses.org/3089


hypo_texte.xml Contenu des billets des carnets de recherche inscrits au catalogue d'Hypothèses <result name=“response” numFound=“344244” start=“0”>

Pour chaque <doc>:

naked_titre ⇒ titre du billet contributeur_auteur ⇒ auteur du billet naked_texte ⇒ contenu du billet site_name ⇒ url du carnet de recherche datepubli ⇒ date de mise en ligne du billet url ⇒ url du billet autodetect_lang ⇒ langue du billet détecté


HO_Index_Blog.csv Indexation des carnets de recherche selon l'index thématique ou disciplinaire <result name=“response” numFound=“3009” start=“0”>

Pour chaque <doc>: str name=“pub_name” ⇒ URL du carnet de recherche arr name=“pubentry_tagged_isi” ⇒ entrée de l'index disciplinaire arr name=“pubentry_tagged_openedition” ⇒ entrée de l'index thématique Processus de collecte

Les données ont été collectées en plusieurs fois : pour le contenu textuel des billets et l’index de chaque carnet, il s’agit uniquement des carnets inscrit au catalogue d’Hypothèses pour la taxonomy des billets, il s’agit de l’ensemble des carnet d’Hypothèses y compris ceux qui ne sont pas inscrits au catalogue. La collecte pour ce dernier corpus nécessite de faire appel à la fois à la base de SolR et aux différentes bases de données WordPress.

Traitement des données

Les fichiers sont initialement au format XML. Pour faciliter leur utilisation, ils sont été mis au format CSV, à l’exception du fichier hypo_texte.xml

Modalités de diffusion des données

Le corpus de données fait l’objet d’une mise à disposition des données pour le GIS Urfist/ Considérations légales et éthiques

Source des données

hypotheses.txt · Dernière modification: 2019/11/05 23:26 par elodie