Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


references

Références bibliographiques et “cité par”

Production du corpus

Le corpus de références bibliographiques proviennent des documents disposant d’une bibliographie des plateformes OpenEdition Journals et OpenEdition Books. Ces données sont annotées par le logiciel Bilbo permettant d’identifier les principaux éléments constitutifs d’une référence (auteur, titre de l’article, de la revue, du livre, date, lieu de publication, éditeur, page). Les corpus sont créés annuellement pour prendre en compte les mises à jour de la base de données de CrossRef et l’évolution du nombre de DOI trouvé sur les références bibliographiques, ainsi que le nombre de “Cité par” pour chaque document des plateformes. La construction du logiciel d’annotation des références bibliographiques, Bilbo, a bénéficié de plusieurs financements dont deux Google Grant for Digital Humanities (2011/2012). La base de données exploitée pour rechercher les DOI et les “Cité par” est celle de CrossRef.

Contenu du corpus

Corpus des citations : le dataset est complet à la date de juin 2019. Le fichier CSV comprend 1 048 575 lignes avec des erreurs dans l’annotation. Corpus Cité par : le dataset est complet à la date de juin 2019. Le fichier CSV comprend 22 438 lignes.

Processus de collecte

Dump de données.

Traitement des données

Corpus CitationOE : les données sont étiquetées avec le logiciel Bilbo :

La référence bibliographique <bibl> : référence bibliographique

Les mentions de responsabilité <author> : auteur(s) de l’œuvre <forename> : prénom <surname> : nom de famille

Les données sur le titre <title> : titre complet d'une oeuvre quelconque

Les données sur la publication du document <pubPlace> : le nom du lieu d'une publication <publisher> : le nom de l'organisme responsable de la publication <date> : date exprimée dans n'importe quel format

Les éléments connexes <abbr> : abréviation quelconque

Corpus Cited_byOE : le fichier est constitué de la manière suivante : platform : nom de la plateforme (OpenEdition Journals ou OpenEdition Books) j_name : nom court de la revue ou de l’éditeur lodel_id : identifiant du document dans Lodel xml_data : requête de CrossRef. Les principales balises : <forward_link doi=“XXX”> : DOI du document sur OE Journals ou OE Books <journal_cite> : mention de la référence citant le document <journal_title> : nom de la revue ou de l’éditeur <journal_abbreviation> : nom court de la revue ou de l’éditeur <article_title> : titre du document <contributors> : mention de l’auteur <given_name> : prénom de l’auteur <surname> : nom de l’auteur <issue> : numéro <first_page> : page <year> : année <doi type=“journal_article”> : DOI du document

Modalités de diffusion des données

Datasets utilisés dans le cadre du Datathon OpenEdition et pour le Workshop Appropriation du savoir ouvert

Considérations légales et éthiques

Source des données

references.txt · Dernière modification: 2019/11/05 23:27 par elodie