Acronyme et nom complet du projet | Décliner la Science Ouverte (Decliner-SO) |
Principaux bailleur·s / financeur·s | Commandité par l’Université Paris Cité. Dans le cadre des activités du Comité pour la science ouverte soutenues par le Ministère de l’enseignement supérieur et de la recherche. |
Nom du programme de recherche | / |
Identifiant de l’appel à projet | / |
Référence de la convention de financement | / |
Date et durée du projet | De mai 2020 à décembre 2021 (20 mois) |
L’objectif de cette étude par une enquête auprès de divers professionnel·le·s de la recherche consiste à mieux comprendre les pratiques de recherche au quotidien (observer la recherche « en train de se faire ») en étant au plus proche des personnes produisant les savoirs au sein des laboratoires, unités de recherche, universités. Il s’agit pour cela de suivre notamment la production, la (re)utilisation et la diffusion des données et autres artefacts (cahiers de laboratoire et carnets de terrain), d’en explorer toute la diversité et d’analyser les problématiques soulevées par des démarches de science ouverte. Cette étude vise également à alimenter les travaux et recommandations en cours du Comité pour la science ouverte quant à l’appropriation de la science ouverte au sein de la recherche.
Science ouverte, données, recherche, open science, mise en données, méthodes mixtes, infrastructures, communautés, inclusivité
Institution coordinatrice du projet (nom, pays) : | Comité pour la science ouverte (Collège « données de la recherche » (France) Université Paris Cité (France) |
Responsable scientifique du projet (Unité de rattachement) : | Équipe : Anne Vanet (vice-présidente numérique et science ouverte à l’Université de Paris) Hélène CHAMBEFORT (INSERM) Marie HERBET (Université Lyon 1) Juliette HUEBER (InVisu CNRS/INHA) Claire LEMERCIER (CNRS, CSO SciencePo) Célya GRUSON-DANIEL (Inno³/UTC) |
Responsables de la gestion des données et de la mise à jour du DMP : | Célya Gruson-Daniel (Inno³/UTC) |
Autres partenaires (nom, pays, rôle de chacun des partenaires en dehors de l’institution leader) : | Inno³ (France) |
Besoins Matériels : Acquisition ou installation de matériel spécifiques ou de services (serveurs, machines virtuelles, infrastructures, archivage, etc.) ? | Les serveurs internes d’Inno³ avec des instances installées de :
|
Besoins humains (recrutements) et de formations | / |
Estimation du surcoût attaché à la gestion de données, à leur diffusion et archivage | / |
Couverture des besoins financiers | / |
Méthodes et processus de production des données utilisées au cours du projet | Pour mener à bien cette étude, des méthodes mixtes quali/quanti ont été employées.
Pour plus de détails, voir ci-dessous un workflow de l’étude. (Cf. Figure 1) |
Réutilisation de données existantes : source et origine | / |
Propriété des données produites et collectées au cours du projet entre les partenaires | Comité pour la science ouverte (Collège « données de la recherche » (France) Université Paris Cité (France) |
Type et nature des données produites | Pour les entretiens : vidéo enregistrement des entretiens, données textuelles des transcriptions d’entretiens, capture d’écran. Pour la journée d’étude : prise de note et synthèses des échanges. Pour le questionnaire : jeux de données issus de Limesurvey et traitement successifs, code source. |
Principaux formats de production de traitement ou de conversion des données, outils et logiciels de lectures associés | L’ensemble des données sont numériques. Pour les entretiens et la journée d’étude :
Pour le questionnaire :
|
Standards et /ou formats de métadonnées décrivant les données | Nous utilisons des standards lors du dépôt sur hal-lara et recherche.data.gouv. Autres standards/formats employés en fonction des entrepôts : MARCXML, Dublin Core et DataCite Metadata Schema (selon les directives OpenAIRE). |
Stockage : Supports utilisés pour les données (production ou échange) | L’Université Paris Cité a mandaté Inno³ en tant que prestataire externe pour la réalisation de la mission. Inno³ a proposé ses propres serveurs pour stocker et partager les données au cours du projet et ce jusqu’à un an après les dernières publications des résultats de recherche. |
Lieux et types d’hébergement des données et modalités de stockage | Les données sont stockées sur un serveur virtuel dédié (Scaleway) qui héberge l’instance Cloudron avec différentes applications disponibles (Limesurvey, O’transcribe, Hedgedoc, Gitlab). L’instance Nextcloud d’inno³ est hébergé chez Owncube dans un serveur français. Pour les enregistrements vidéo ils sont réalisés sur une instance BigBlueButton et hébergés sur un serveur OVH. |
Stockage : types de flux empruntés par les données | Pour le questionnaire :
Pour les entretiens et la journée d’étude :
|
Méthode d’accès et de partage des données entre les partenaires | Concernant Nextcloud, une fonction de partage interne est possible avec les membres d’inno³ainsi qu’un partage externe avec les membres de l’équipe projet. |
Gestion de l’accès et du partage des données | Cf. Méthode d’accès et de partage des données entre les partenaires. |
Volume prévisionnel de données produites | 160 MB |
Règles de nommage et de classement des informations et données produites | AAAA__Description-doc__Decliner-SO_version. |
Risques et menaces qui pèsent sur les données | Les risques principaux seraient la perte de données présentes sur Nextcloud, Cloudron, ou BigBlueButton dépendant de serveur français (OVH, Scaleway) (risque d’incendie, d’inondations, etc.). Concernant les entretiens, le partage des entretiens avec une désanonymisation des données représente un risque. |
Mesures et solutions mises en œuvre pour parer aux risques (politique de sécurité pour système d’information de l’hébergeur) | Pour ce qui est du Cloudron des backups automatiques sont réalisés. Pour Nextcloud, une historicisation du contenu est effectuée. Il existe un chiffrement de l’ensemble des communications avec les applications hébergées sur des serveurs distants (tout est en https). Les résultats de l’étude ainsi que les données ont fait aussi l’objet d’une sauvegarde par la pilote de la mission « réussir l’appropriation de la science ouverte » sur ses propres serveurs. |
Précautions et moyens pour garantir la protection des données notamment en matière de confidentialité | Pour les entretiens, seul le responsable de projet Inno³ détient la table de correspondance qui permet de faire le lien entre l’identité des personnes interrogées et le numéro aléatoire attribué dans les différents fichiers. Toutes les données présentées dans les scripts et les données du questionnaire ne possèdent aucun élément permettant l’identification des personnes (anonymisation). Les notes d’entretien, comptes-rendus d’entretien, notes d’observation, notes d’analyses et publications sont rendues confidentielles. Un consentement a été signé par les personnes ayant fait l’objet d’une interview ainsi que les personnes ayant répondu au questionnaire. Pour la journée d’étude, l’accord explicite de chaque participant·e a été demandé pour partager leur nom/prénom et un résumé des échanges. |
Questions éthiques et dispositions prises pour y répondre | Cf. Précautions et moyens pour garantir la protection des données notamment en matière de confidentialité. |
Confidentialités : objet d’échange ou de partage avec de tiers acteurs. | Aucun fichier ayant une identification des participants aux entretiens n’a été partagé à des tiers acteurs. |
Sécurité – Confidentialité : détermination des droits d’accès aux données pendant les recherches et modalités d’accès | Pendant l’étude, l’équipe du projet a accès aux données via. NextCloud par des liens de partage envoyé à chaque membre de l’équipe. Un chiffrement de l’ensemble des communications est effectué avec les applications hébergées sur des serveurs distants (tout est en https). |
Intégrité – Traçabilité : Mesures de protection mises en œuvre pour le suivi de la production et de l’analyse des données | Les données brutes partagées pour l’analyse avec les membres du projet étaient anonymisées (pas de collecte d’informations personnelles dans le cadre du questionnaire). Ces fichiers ont été partagés nominativement avec les personnes impliquées dans le projet (avec l’objet d’une clause de confidentialité). |
Potentiel de réutilisation des données en dehors du projet et publics cibles | Dans le cadre d’une démarche de science ouverte et, nous facilitons la réutilisation des données de l’enquête dans le respect des conditions expliquées ci-dessous (confidentialité, données personnelles, licences, etc.) L’ensemble des données et informations de l’étude peuvent intéresser des chercheurs travaillant sur les terrains de la science ouverte mais aussi les chargé·e·s « science ouverte » ou « gestion des données » au sein des établissements. Ce partage est aussi à destination des personnes ayant participé à l’étude pour qu’il puisse avoir un retour sur les résultats obtenus. |
Données vocation à être publiées. Principes de diffusion édictés par le financeur ou autre engagement | Les résultats de cette recherche seront diffusés de façon anonyme dans des colloques professionnels et scientifiques, dans des rapports destinés aux autorités, dans des revues professionnelles et académiques et dans des médias destinés au grand public. |
Modalités de partage des données (support) | Les données seront présentées sur plusieurs plateformes telles que HAL, PubPub, GitLab. La plateforme dépendra du format des données.
Concernant les retranscriptions des entretiens anonymisées, celles-ci ne seront pas diffusées en accès libre, mais elles pourront faire l’objet sur demande d’une communication auprès d’autres équipes de recherche publique et membres du Comité pour la science ouverte. Cf. Fig.2 |
Détail du recours à un logiciel ou outil spécifique pour accéder aux données (INRA) | Cf. modalités et partage des données |
Licences employées pour le partage | Les résultats (présentation, synthèse,, graphiques) ainsi que les transcriptions et notes seront disponibles sous une licence Creative Commons – CC-BY 4.0 (https://creativecommons.org/licenses/by/4.0/). Seules les photos des personae sont sous licence Unsplash. Les données du questionnaire et les scripts associés à leur analyse seront partagées sous licence ouverte 2.0 (Etalab) https://www.etalab.gouv.fr/wp-content/uploads/2017/04/ETALAB-Licence-Ouverte-v2.0.pdf |
Temporalité du partage et conservation (à partir de quand, et combien de temps) | Les données ne sont pas conservées en base courante au-delà d’une durée de deux ans à compter de la dernière publication des résultats de la recherche ou, en cas d’absence de publication, jusqu’à la signature du rapport final de la recherche. |
Identifiants pérennes pour les données et organismes en charge de la demande | Pour HAL, les DOI seront fournis par CrossRef. |
Modalités et garanties d’archivage à l’issue du projet (plateformes partenaires, durée de conservation, etc.) | Les services d’Université Paris Cité sont en charge de garantir les modalités d’archivage du projet.. Les données font ensuite l’objet d’un archivage au sein d’Université Paris Cité pendant une durée de cinq ans. |
Données conservées sur le moyen ou long terme (plus de 10 ans) critères de sélection de réutilisation scientifique, valeur de preuve, Données à détruire | Les données à archiver privilégiées sur une durée de 5 ans sont :
Les données à détruire sont :
|
Durée de conservation de chaque donnée | Les documents seront conservés pendant la durée réglementaire (dépendantes du types de données cf.https://doranum.fr/stockage-archivage/referentiel-de-gestion-des-archives-de-la-recherche_10_13143_pcqd-hy47/documents-a-detruire/). |
Volume de données à archiver | En totalité cela représente environ 16,5 MB dont voici le détail :
|
Plateforme d’archivage pérenne choisie ou autres procédures | À ce stade, l’Université Paris Cité ne dispose pas d'une solution d'archivage pérenne des données. Un stockage des données sera effectué sur le serveur dédié à l’archivage géré par le département avec réplication sur un disque dur externe, tout en assurant un plan de préservation « manuel » (migration de supports et conversions de formats réalisés ponctuellement, par exemple tous les 5 ans). |
Responsable de la conservation à long terme | Le département des archives d’Université Paris Cité assurera la conservation à long terme des données ayant vocation à être archivées dans le temps long. En parallèle, l’entrepôt qui hébergera les données partagées assurera la conservation pérenne de ces données. |
Garantie de financement de la conservation à long terme | L’université de Paris Cité ne garantit pas de financement de la conservation à long terme (par exemple CINES). Les données et documents publiés sur des entrepôts de données pourront bénéficier d’un archivage pérenne (en fonction de la politique des entrepôts). |