Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


defi_2
  1. Définir un corpus d’étude
  2. Définir les types à partir d’un corpus
  3. Définir les critères d’appartenance
  4. Comment caractériser efficacement les billets manuellement
  5. Comment automatiser la caractérisation ?

Pour la détection des comptes-rendus de lecture : partis d’un corpus de CR et un corpus de non-CR → approche sac de mots récurrents dans les CR et non-présents dans les non-CR pour entraîner une IA à reconnaître ces mots et qualifier le billet de CR

Définition du corpus d’étude : Pour que ce soit humainement possible, corpus d’un mois de billets valorisés sur le portail. Choix de mars 2018 parce que le plus de billets durant la dernière année complète. Extration du fichier .xlm du portail fr.hypotheses.org pour ce mois là et nettoyage du fichier pour extraire les URL des billets

Définir les types à partir d’un corpus : Définition de mémoire d’une liste brouillon de types de billets Par duo, classification de la moitié du corpus dans les types en s’autorisant à ajouter des types et des sous-types suite à la constatation des disparités existant dans les types Confrontation des deux typologies pour arriver à une typologie

Bilan à la fin de la 1ère journée : classification d’une partie du corpus. Dans chaque duo, ajout de plusieurs types et invention des sous-titres.

But 2ème journée journée : terminer la classification du corpus, confrontation des typologies, définition d’une typologie commune.

Jour 2 :

Continuation de la classification des billets par duo. Arrêt de la classification aux 3/4 pour mise en commun de la catégorisation. Choix d'Airtable pour la visualisation des tableaux:

https://airtable.com/invite/l?inviteId=inv950WlBMuoL5zi5&inviteToken=3001ecc106cd95eb62c0105a8c40842fe7bf957bcc9d9090b0ad015432725f50

Poster du défi : https://docs.google.com/presentation/d/10ZjEIzCIAYfGAzJvyWmd4RqGxeY2L0B0ZNAS0pcokJQ/edit#slide=id.g475ac9101c_0_0

Fiche de connaissance : https://docs.google.com/document/d/1nz4RTqa2obw9XXl3xslcyoi0wfUhu3XBWPoGXtKiReg/edit#

defi_2.txt · Dernière modification: 2019/09/06 16:24 par elodie