Skip to main content

Plan de gestion des données

Published onOct 24, 2022
Plan de gestion des données
·

Phase 1 : Informations sur le projet : contexte, acteurs, ressources

1 / Description du projet

Acronyme et nom complet du projet

Décliner la Science Ouverte (Decliner-SO)

Principaux bailleur·s / financeur·s

Commandité par l’Université Paris Cité. Dans le cadre des activités du Comité pour la science ouverte soutenues par le Ministère de l’enseignement supérieur et de la recherche.

Nom du programme de recherche

/

Identifiant de l’appel à projet

/

Référence de la convention de financement

/

Date et durée du projet

De mai 2020 à décembre 2021 (20 mois)

Objectifs du projet :

L’objectif de cette étude par une enquête auprès de divers professionnel·le·s de la recherche consiste à mieux comprendre les pratiques de recherche au quotidien (observer la recherche « en train de se faire ») en étant au plus proche des personnes produisant les savoirs au sein des laboratoires, unités de recherche, universités. Il s’agit pour cela de suivre notamment la production, la (re)utilisation et la diffusion des données et autres artefacts (cahiers de laboratoire et carnets de terrain), d’en explorer toute la diversité et d’analyser les problématiques soulevées par des démarches de science ouverte. Cette étude vise également à alimenter les travaux et recommandations en cours du Comité pour la science ouverte quant à l’appropriation de la science ouverte au sein de la recherche.

Mots-clés :

Science ouverte, données, recherche, open science, mise en données, méthodes mixtes, infrastructures, communautés, inclusivité

2/ Acteurs du projet

Institution coordinatrice du projet (nom, pays) :

Comité pour la science ouverte (Collège « données de la recherche » (France)

Université Paris Cité (France)

Responsable scientifique du projet (Unité de rattachement) :

Équipe :

Anne Vanet (vice-présidente numérique et science ouverte à l’Université de Paris)

Hélène CHAMBEFORT (INSERM)

Marie HERBET (Université Lyon 1)

Juliette HUEBER (InVisu CNRS/INHA)

Claire LEMERCIER (CNRS, CSO SciencePo)

Célya GRUSON-DANIEL (Inno³/UTC)

Responsables de la gestion des données et de la mise à jour du DMP :

Célya Gruson-Daniel (Inno³/UTC)

Autres partenaires (nom, pays, rôle de chacun des partenaires en dehors de l’institution leader) :

Inno³ (France)

3/ Ressources nécessaires

Besoins Matériels : Acquisition ou installation de matériel spécifiques ou de services (serveurs, machines virtuelles, infrastructures, archivage, etc.) ?

Les serveurs internes d’Inno³ avec des instances installées de :

  • NextCloud pour le stockage des données.

  • BigBlueButton pour la réalisation des entretiens.

  • Limesurvey pour collecter les données du questionnaire.

Besoins humains (recrutements) et de formations

/

Estimation du surcoût attaché à la gestion de données, à leur diffusion et archivage

/

Couverture des besoins financiers

/

Phase 2 : Stockage, partage, protection et diffusion

4/ Informations générales sur les données

Méthodes et processus de production des données utilisées au cours du projet

Pour mener à bien cette étude, des méthodes mixtes quali/quanti ont été employées.

  • Pour la phase qualitative, les informations ont été recueillies par le biais d’entretiens et d’une journée d’étude. Les informations recueillies lors d’entretiens d’une heure environ ont fait l’objet d’un enregistrement audio et vidéo dont l’objectif est d’étudier les données et outils utilisés au cours des travaux de recherche (production, (ré)utilisation, partage, etc.) dans différentes disciplines. Les entretiens ont été retranscrits pour être analysés. La journée d’étude a fait l’objet d’une prise de note, d’enregistrements audio. Dans le cadre des entretiens et des journées d’observation participante, des captures d’écran des environnements numériques de travail ont été également réalisées.

  • Pour la phase quantitative, un questionnaire (25 minutes pour y répondre) consistant en des questions à la fois ouvertes et fermées a été proposé. L’analyse a donné lieu à plusieurs jeux de données et scripts ainsi que la production de résultats sous forme de graphiques et de personæ.

Pour plus de détails, voir ci-dessous un workflow de l’étude. (Cf. Figure 1)

Réutilisation de données existantes : source et origine

/

Propriété des données produites et collectées au cours du projet entre les partenaires

Comité pour la science ouverte (Collège « données de la recherche » (France)

Université Paris Cité (France)

Type et nature des données produites

Pour les entretiens : vidéo enregistrement des entretiens, données textuelles des transcriptions d’entretiens, capture d’écran.

Pour la journée d’étude : prise de note et synthèses des échanges.

Pour le questionnaire : jeux de données issus de Limesurvey et traitement successifs, code source.

Principaux formats de production de traitement ou de conversion des données, outils et logiciels de lectures associés

L’ensemble des données sont numériques.

Pour les entretiens et la journée d’étude :

  • L’enregistrement audio et vidéo des entretiens existe au format .mp3.

  • Les captures d’écran sont présentées au format .png.

  • Les transcriptions sont au format .odt.

  • L’analyse qualitative a été réalisée à l’aide de mindmaps au format .mm.

  • Les prises de notes sont au format .md ou converties en .odt.

  • Le compte-rendu de la journée d’étude est en format .md et .pdf.

Pour le questionnaire :

  • Les données sont brutes sous format .csv. Elles ont été traitées avec les langages de programmation Python et R avec la production de scripts et de Jupyter Notebook.

  • Les prises de notes ont été réalisées sous format .md. Les graphiques sont en format .png.

  • L’ensemble des présentations sont en format .pdf.

Standards et /ou formats de métadonnées décrivant les données

Nous utilisons des standards lors du dépôt sur hal-lara et recherche.data.gouv. Autres standards/formats employés en fonction des entrepôts : MARCXML, Dublin Core et DataCite Metadata Schema (selon les directives OpenAIRE).

Figure 1: Workflow de l’étude Décliner la science ouverte (Décliner-SO) qui reflète les phases de travail et les résultats de chaque étape.

5/ Stockage et partage des données au cours du projet

Stockage : Supports utilisés pour les données (production ou échange)

L’Université Paris Cité a mandaté Inno³ en tant que prestataire externe pour la réalisation de la mission. Inno³ a proposé ses propres serveurs pour stocker et partager les données au cours du projet et ce jusqu’à un an après les dernières publications des résultats de recherche.

Lieux et types d’hébergement des données et modalités de stockage

Les données sont stockées sur un serveur virtuel dédié (Scaleway) qui héberge l’instance Cloudron avec différentes applications disponibles (Limesurvey, O’transcribe, Hedgedoc, Gitlab). L’instance Nextcloud d’inno³ est hébergé chez Owncube dans un serveur français. Pour les enregistrements vidéo ils sont réalisés sur une instance BigBlueButton et hébergés sur un serveur OVH.

Stockage : types de flux empruntés par les données

Pour le questionnaire :

  • Les données sont issues de Limesurvey (Cloudron) et un export des données .csv a été fait puis stocké sur le Nextcloud.

Pour les entretiens et la journée d’étude :

  • Les enregistrements audio proviennent de l’instance BigBlueButton et ont été transféré sur le Nextcloud.

  • L’instance O’transcribe (Cloudron) a été employée pour faciliter les transcriptions.

  • L’ensemble des compte-rendus et prises de notes ont été réalisées sur une instance hedgedoc (Cloudron d’inno³) ou bien sur le Gitlab d’inno³ (carnet de bord).

Méthode d’accès et de partage des données entre les partenaires

Concernant Nextcloud, une fonction de partage interne est possible avec les membres d’inno³ainsi qu’un partage externe avec les membres de l’équipe projet.

Gestion de l’accès et du partage des données

Cf. Méthode d’accès et de partage des données entre les partenaires.

Volume prévisionnel de données produites

160 MB

Règles de nommage et de classement des informations et données produites

AAAA__Description-doc__Decliner-SO_version.

6/ Risques, sécurité et éthique des données

Risques et menaces qui pèsent sur les données

Les risques principaux seraient la perte de données présentes sur Nextcloud, Cloudron, ou BigBlueButton dépendant de serveur français (OVH, Scaleway) (risque d’incendie, d’inondations, etc.).

Concernant les entretiens, le partage des entretiens avec une désanonymisation des données représente un risque.

Mesures et solutions mises en œuvre pour parer aux risques (politique de sécurité pour système d’information de l’hébergeur)

Pour ce qui est du Cloudron des backups automatiques sont réalisés. Pour Nextcloud, une historicisation du contenu est effectuée. Il existe un chiffrement de l’ensemble des communications avec les applications hébergées sur des serveurs distants (tout est en https). Les résultats de l’étude ainsi que les données ont fait aussi l’objet d’une sauvegarde par la pilote de la mission « réussir l’appropriation de la science ouverte » sur ses propres serveurs.

Précautions et moyens pour garantir la protection des données notamment en matière de confidentialité

Pour les entretiens, seul le responsable de projet Inno³ détient la table de correspondance qui permet de faire le lien entre l’identité des personnes interrogées et le numéro aléatoire attribué dans les différents fichiers.

Toutes les données présentées dans les scripts et les données du questionnaire ne possèdent aucun élément permettant l’identification des personnes (anonymisation).

Les notes d’entretien, comptes-rendus d’entretien, notes d’observation, notes d’analyses et publications sont rendues confidentielles. Un consentement a été signé par les personnes ayant fait l’objet d’une interview ainsi que les personnes ayant répondu au questionnaire.

Pour la journée d’étude, l’accord explicite de chaque participant·e a été demandé pour partager leur nom/prénom et un résumé des échanges.

Questions éthiques et dispositions prises pour y répondre

Cf. Précautions et moyens pour garantir la protection des données notamment en matière de confidentialité.

Confidentialités : objet d’échange ou de partage avec de tiers acteurs.

Aucun fichier ayant une identification des participants aux entretiens n’a été partagé à des tiers acteurs.

Sécurité – Confidentialité : détermination des droits d’accès aux données pendant les recherches et modalités d’accès

Pendant l’étude, l’équipe du projet a accès aux données via. NextCloud par des liens de partage envoyé à chaque membre de l’équipe.

Un chiffrement de l’ensemble des communications est effectué avec les applications hébergées sur des serveurs distants (tout est en https).

Intégrité – Traçabilité : Mesures de protection mises en œuvre pour le suivi de la production et de l’analyse des données

Les données brutes partagées pour l’analyse avec les membres du projet étaient anonymisées (pas de collecte d’informations personnelles dans le cadre du questionnaire). Ces fichiers ont été partagés nominativement avec les personnes impliquées dans le projet (avec l’objet d’une clause de confidentialité).

7/ Dissémination/PARTAGE et archivage des données

Potentiel de réutilisation des données en dehors du projet et publics cibles

Dans le cadre d’une démarche de science ouverte et, nous facilitons la réutilisation des données de l’enquête dans le respect des conditions expliquées ci-dessous (confidentialité, données personnelles, licences, etc.)
Pour une reproductibilité des résultats quantitatifs, un partage des données brutes du questionnaire et des scripts utilisées lors de l’analyse est effectué. Pour les informations qualitatives, notre approche vise à documenter notre démarche pour assurer une traçabilité du raisonnement.

L’ensemble des données et informations de l’étude peuvent intéresser des chercheurs travaillant sur les terrains de la science ouverte mais aussi les chargé·e·s « science ouverte » ou « gestion des données » au sein des établissements. Ce partage est aussi à destination des personnes ayant participé à l’étude pour qu’il puisse avoir un retour sur les résultats obtenus.

Données vocation à être publiées. Principes de diffusion édictés par le financeur ou autre engagement

Les résultats de cette recherche seront diffusés de façon anonyme dans des colloques professionnels et scientifiques, dans des rapports destinés aux autorités, dans des revues professionnelles et académiques et dans des médias destinés au grand public.

Modalités de partage des données (support)

Les données seront présentées sur plusieurs plateformes telles que HAL, PubPub, GitLab. La plateforme dépendra du format des données.

  • Sur HAL est placé une synthèse en français et en anglais (summary) et un rapport final en pdf accompagné d’annexes (trames d’entretiens, trame du questionnaire, plan de gestion des données).

  • Sur Gitlab, seront partagés les scripts ayant servi à la reproductibilité de l’analyse du questionnaire ainsi que la documentation pour présenter l’étude et la méthodologie.

  • La page sur la plateforme PubPub contient le contenu de la synthèse et un référencement de tous les liens vers l’ensemble des ressources : la synthèse, le rapport final et les annexes, les résultats de la phase qualitative sous forme de quelques verbatims des entretiens et une mindmap, la synthèse de la journée d’étude et de la phase quantitative avec les données de questionnaire, la méthodologie de l’étude.

Concernant les retranscriptions des entretiens anonymisées, celles-ci ne seront pas diffusées en accès libre, mais elles pourront faire l’objet sur demande d’une communication auprès d’autres équipes de recherche publique et membres du Comité pour la science ouverte.

Cf. Fig.2

Détail du recours à un logiciel ou outil spécifique pour accéder aux données (INRA)

Cf. modalités et partage des données

Licences employées pour le partage

Les résultats (présentation, synthèse,, graphiques) ainsi que les transcriptions et notes seront disponibles sous une licence Creative Commons – CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/). Seules les photos des personae sont sous licence Unsplash.

Les données du questionnaire et les scripts associés à leur analyse seront partagées sous licence ouverte 2.0 (Etalab) https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf

Temporalité du partage et conservation (à partir de quand, et combien de temps)

Les données ne sont pas conservées en base courante au-delà d’une durée de deux ans à compter de la dernière publication des résultats de la recherche ou, en cas d’absence de publication, jusqu’à la signature du rapport final de la recherche.

Identifiants pérennes pour les données et organismes en charge de la demande

Pour HAL, les DOI seront fournis par CrossRef.
Pour Zenodo, des DOI sont associés pour chaque fichier partagé.

Modalités et garanties d’archivage à l’issue du projet (plateformes partenaires, durée de conservation, etc.)

Les services d’Université Paris Cité sont en charge de garantir les modalités d’archivage du projet..

Les données font ensuite l’objet d’un archivage au sein d’Université Paris Cité pendant une durée de cinq ans.

Figure 2: Schéma de stockage des données.

Phase 3 : archivage des données

8 / Tri, archivage et conservation des données

Données conservées sur le moyen ou long terme (plus de 10 ans) critères de sélection de réutilisation scientifique, valeur de preuve,

Données à détruire

Les données à archiver privilégiées sur une durée de 5 ans sont :

  • la synthèse en anglais et français,

  • le rapport sous forme de présentation,

  • les transcrits des entretiens,

  • les comptes-rendus de la journée d’étude,

  • les données du questionnaire et les scripts associés,

  • la note méthodologique,

  • les trames d’entretiens et de questionnaire,

  • le DMP/PGD.

Les données à détruire sont :

  • les enregistrements audio et viéo des entretiens et de la journée d’étude,

  • les consentements,

  • la présentation intermédiaire des résultats,

  • la mindmap présentant quelques résultats de la phase qualitative,

  • les graphiques réalisés.

Durée de conservation de chaque donnée

Les documents seront conservés pendant la durée réglementaire (dépendantes du types de données cf.https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/documents-a-detruire/).
La destruction fera l’objet d’un bordereau d’élimination.

Volume de données à archiver

En totalité cela représente environ 16,5 MB dont voici le détail :

  • le résumé directif en anglais et français (3MB),

  • le rapport sous forme de présentation (5,2MB),

  • les transcripts des entretiens (450kB),

  • la synthèse de la journée d’étude (5,5MB),

  • les données du questionnaire (1,1MB),

  • les scripts associés (800kB),

  • la note méthodologique (520kB),

  • les trames d’entretiens (80kB) et de questionnaire (300 kB),

  • le DMP (500kB)

Plateforme d’archivage pérenne choisie ou autres procédures

À ce stade, l’Université Paris Cité ne dispose pas d'une solution d'archivage pérenne des données. Un stockage des données sera effectué sur le serveur dédié à l’archivage géré par le département avec réplication sur un disque dur externe, tout en assurant un plan de préservation « manuel » (migration de supports et conversions de formats réalisés ponctuellement, par exemple tous les 5 ans).

Responsable de la conservation à long terme

Le département des archives d’Université Paris Cité assurera la conservation à long terme des données ayant vocation à être archivées dans le temps long. En parallèle, l’entrepôt qui hébergera les données partagées assurera la conservation pérenne de ces données.

Garantie de financement de la conservation à long terme

L’université de Paris Cité ne garantit pas de financement de la conservation à long terme (par exemple CINES). Les données et documents publiés sur des entrepôts de données pourront bénéficier d’un archivage pérenne (en fonction de la politique des entrepôts).

Comments
0
comment
No comments here
Why not start the discussion?