Datathon Read Write Cite

Wiki du datathon des 5-6 septembre 2019 à Marseille

Outils pour utilisateurs

Outils du site


defi_1

Présentation

Projet : Les usages institutionnels et non universitaires d'OpenEdition.

Poster :

Avec Powerpoint https://www.dropbox.com/s/nwuw1chnayqipob/Poster_Defi_1%20-%20PowerPoint.pptx?dl=0

Avec Canva https://www.dropbox.com/s/e3v5ins0iai6jdv/Poster_Defi_1%20-%20Canva.pdf?dl=0

Outils utilisés : Emile Méthodologie : établissement de la liste des entreprises, identification des macro-catégories,

Contact :

Pierre-Carl Langlais pierrecarl.langlais@gmail.com

Travail des sous-groupes :

  • Marin : Travail sur Matomo, production des exports, tableau graphique avec Flourish, nettoyage de données, échanges avec Pierre-Carl
  • Elsa et Caroline : Repenser les catégories d'Umberto : nouveaux niveaux de catégorisation ?
  • Gwenn et Emilie : Analyse des domaines : édition, médias, marketing, jeux-vidéos, management

Ciblage des 5 sites les plus visités pour chaque domaine dans le but d'obtenir une visualisation des données; lorsque le ID de l'article était disponible, le contenu a été analysé pour identifier un usage professionnel ou bien une lecture inattendue. L'analyse a porté également sur la fréquentation régulière ou non de ces mêmes sites.

  • Bianca et Yara : Analyse des domaines : transports, aviation, automobile, énergie. Le but est de identifier des histoires à raconter concernant la consultation de documents OpenEdition par des entreprises du domaine des transports. 2 histoires ciblées : Airbus ( Ex. Relation humain-technologies-organisation ) et Dassault ( environnement, géo-ressources, développement durable).

Résultats

Treemap :

https://www.dropbox.com/s/9bx1q49cdx62ld8/Usages%20institutionnels%20non%20universitaires.png?dl=0

Fiches de connaissance

Histoires pour le poster (Fiche de connaissances des fiches de connaissances)

https://docs.google.com/document/d/1LRIxF2sVWh63pC3fB9LZ2U4671uvAelJ5NgREFy3rqk/edit

Usage d'OpenEdition par les médias :

https://docs.google.com/document/d/1soRB4eUzbsu6bvFgARa-DPfodyIBU6CwQ0Fou2nNFVQ/edit#

Usage d'OpenEdition par les entreprises de jeux vidéos (Gwenn) :

https://docs.google.com/document/d/1dUGTWBrUgal6w_KPVJYYruP5Kpt4L-Vqs0bv9_JDzQc/edit#heading=h.dtj96il05pi9

Usage d'OpenEdition par les maisons d'édition (Gwenn) :

https://docs.google.com/document/d/1HX4KO_u49NOtrO1S3AmDa0Db72PfZR9UEYC3ou0E4TQ/edit

Usage d'OpenEdition par les assurances (Gwenn) :

https://docs.google.com/document/d/1FS5o4nF5VZpZ5-8v8fk2e7S-sCXXTKHprbqHoCOrcew/edit

Usage d'OpenEdition par les entreprises automobiles :

https://docs.google.com/document/d/19eOTK5aOtw-V_cYPSFfv5vmXqZ8RPip1FJyvCAoBKwo/edit

Usage d'OpenEdition par les entreprises du secteur de l'énergie :

https://drive.google.com/open?id=10ZmtTghN2U1-I_5p-lYfcW86aEVPztHCoOf7oF6nftM

Usages d'OpenEdition par les entreprises de management (Émilie) :

https://drive.google.com/open?id=1Pp5g4oX2UxC_x13mo--qlA5RyP59JuA2n_kicLiUk3o

Usages d'OpenEdition par les entreprises de la santé : https://drive.google.com/open?id=14ndyZ8Ce1Luu3k2czyjvp3Sa4-NOWLOXwnOR_RKn6dY

Usages d'OpenEdition par les banques (Émilie) :

https://docs.google.com/document/d/1Xvkc9m7xxHPEnI-3r5Q97ULXSYMq24wtvy_t24Er6QE/edit#

Usages d'OpenEdition par la SNCF(Marin) : https://docs.google.com/document/d/1fbtoBkIiTyR44-L0yHWGJA21Dl6Awd83VAouXzaCIUw/edit#

Usages d'OpenEdition par les assos (Caroline) :

https://docs.google.com/document/d/1oHYROclF1MPGst4mmhZ328pKUACmbNYBRB897gl2YYE/edit

Usages d'OpenEdition par le Centre Gustave Roussy ( Elsa) https://docs.google.com/document/d/1mT0CQjr-TgI55gNs9FM-s1x9IofAevYFCX5OjEgOWLo/edit?usp=sharing

Umberto et Emile

https://analytics.huma-num.fr/Huma-num/umberto_oe/

Résultats d'Emile, l'outil de mesure des visites institutionnelles :

Données brutes d'Emile :

https://www.dropbox.com/s/bjn4bev5wgii5s5/Emile%20-%20donn%C3%A9es.zip?dl=0

Données retraitées par Workbench : https://app.workbenchdata.com/public/moduledata/live/149907.csv

Nous retenons les institutions qui ne relèvent pas de l'ESRI SHS

https://docs.google.com/spreadsheets/d/1Cm_OF9kTWLxOVKz15NoBWx03Qx9bfE8-fVWIK_trF50/edit#gid=0

Les entreprises : https://www.dropbox.com/s/v58fugaynacs9sg/Entreprises.xlsx?dl=0

Les associations : https://www.dropbox.com/s/ijdteor9clhdscn/Associations.xlsx?dl=0

Les hôpitaux (fortement académiques, mais pas SHS) : https://www.dropbox.com/s/g97s25hl7kdecgo/hopitaux.xlsx?dl=0

Les administrations publiques : https://www.dropbox.com/s/lfx64tohcqjy4ct/administrations%20publiques.xlsx?dl=0

Education : https://www.dropbox.com/s/4ubxtlph9ay5pxc/education.xlsx?dl=0 (donc théoriquement le secondaire, à vérifier)

Les sites les plus fréquentés sont utiles pour voir si les institutions utilisent des sites différents du public global :

Revues les plus fréquentées en 2018 selon Matomo : https://www.dropbox.com/s/3mo67ahxa982ruy/Revues%20les%20plus%20fr%C3%A9quent%C3%A9es%20en%202018.csv?dl=0

Editeurs les plus fréquentés en 2018 selon Matomo : https://www.dropbox.com/s/5rc68rqkgbewwoi/Editeurs%20les%20plus%20fr%C3%A9quent%C3%A9s%20en%202018.csv?dl=0

ip_oe_domain - agregation par type domaine et publications

https://www.dropbox.com/s/hpn7zxc37a24ja0/ip_oe_domain%20-%20agr%C3%A9gation%20par%20type%20domaine%20et%20publications.tsv?dl=0

Tentative de représentation de ce que lisent les institutions

https://docs.google.com/spreadsheets/d/1Z0igpwiLIN_lt1g3kobBonnuC6AQTRQIELfWwnejPeo/edit#gid=0

Matomo

https://piwik-backup.labocleo.org/

Tableau https://docs.google.com/spreadsheets/d/1Eg3wyuwuStUR5pR-Q7Ey-7SOodtWr1zIV-7Waq4BKs4/edit?ts=5d71058a#gid=0

Outils

- app.datawrapper.de : scrapping, jointure de fichiers .tsv - app.workbenchdata.com

Questions

- Académies : est-ce vraiment du secondaire ou est-ce que ça intègre aussi RENATER, donc le supérieur?

Réponse : C'est mélangé

- Quelle est la période étudiée par Emile ?

Réponse : janvier 2017 à juillet 2019.

- Quelle est la proportion des 5000 IP par rapport à toute la fréquentation ? Quelle est la proportion des 1000 institutions par rapport aux 5000 IP ?

Réponse : Par rapport à l’ensemble de la fréquentation on est autour de 5-10%. A affiner.

- Sur Books, il manque les ID et semble-t-il aussi sur Journals –> problèmes de précision de l'information

Autres questions

- Quel nom féminin donner à Emile ?

Problèmes identifiés dans Emile

Liste des pages blanche ou presque vide

- Disney

- Government Medical College

Proposition de catégories https://docs.google.com/spreadsheets/d/1F3i4Bqv1MA2ftBmUNNgMLK9qQRpxs1ksiQo5yD7bYt4/edit?usp=sharing

- Catégorisation des articles par thème ? Demander à Mathieu

Résultats

Définir une typologie des usages : ex. Métiers, communication, travail, histoire du secteur, trouver une catégorie pour l'usage non professionnel (voir la fiche de la sncf)

defi_1.txt · Dernière modification: 2019/09/06 17:06 par marind