Les réponses à la deuxième question de l’étude « comment accompagner l’évolution des pratiques associées aux données en lien avec les incitations et les obligations portées par les politiques publiques de science ouverte ? » ont pris la forme d’un ensemble de points d’attention. Celles-ci visent à faciliter l’évolution des pratiques associées aux données et aux incitations de « science ouverte » tout en s’adaptant aux contextes variés de la recherche académique.
À propos des mesures incitatives à la science ouverte dans le domaine des données de recherche, nous incluons par exemple l’application des principes FAIR pour les données (Findable, Accessible, Interoperable, Reusable), la mise en œuvre de plans de gestion de données (PGD), l’incitation à une plus grande reproductibilité des travaux de recherche, la mise en place d’accompagnements et le déploiement d’infrastructures pour la mise à disposition de données. |
Les points d’attention sont regroupées autour de cinq pistes d’orientation présentées ci-dessous.
Piste d’orientation 1 : Comprendre en finesse les démarches de recherche ;
Piste d’orientation 2 : Appréhender différentes pratiques de mise à disposition des données ;
Piste d’orientation 3 : Connaître les modalités d’apprentissages et les pratiques collaboratives ;
Piste d’orientation 4 : Diversifier les types d’accompagnement ;
Piste d’orientation 5 : Prendre en considération le statut et les enjeux de carrière.
L’accès à l’ensemble des résultats de l’étude et des explications sont disponibles également dans la présentation générale et le résumé directif.
Les points d’attention sont présentés en fonction de 5 pistes d’orientations définies en amont et de sous-thématiques associées. Ils ont été formulés, de manière inductive à partir des résultats de l’étude1, et reflètent les cadres théoriques engagés et les terminologies des personnes enquêtées.
|
---|
Explication : Le terme « données » est employé majoritairement dans les recommandations/incitations de politiques publiques de science ouverte afin de désigner toutes informations menant à la production de résultats scientifiques. Les données de la rehcerche ont été définies par l’OCDE : comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. En dehors de cette définition, d’autres sont employés plus communément au sein des communautés de recherche pour décrire les éléments qui servent à l’obtention de résultats de recherche. Ainsi, il est recommandé de ne pas en rester à la notion de « données/data », mais d’utiliser des termes plus précis et spécifiques pour désigner les différents objets manipulés et produits au cours de la recherche. En fonction des communautés de recherche auxquelles on s’adresse, plusieurs expressions peuvent être utilisées : « bases de données », « jeux de données », « corpus », « archives », « sources », « matériaux », « mesures ».
|
---|
|
---|
Explication : Aujourd’hui, les enjeux de reproductibilité font partie intégrante des discours et incitations à la science ouverte2. Or il s’agit de se détacher du terme reproductibilité pour aborder plus largement la question de la « qualité » en recherche. En effet, la notion de « reproductibilité » s’applique plus spécifiquement dans le cadre de recherche impliquant des instruments de mesure et l’emploi de méthodes computationnelles (vérification de calculs à partir de l’accès aux codes sources et aux données de départ). D’autres termes sont plus inclusifs pour aborder plus globalement la question de la qualité de la recherche au sein de milieux de recherche divers. Par exemple, dans les résultats du questionnaire, le principe de « transparence » était privilégié dans des contextes de recherche en droit et économie3. Le concept « d’explicabilité » s’utilise dans le cadre de travaux en SHS qui nécessitent la constitution de corpus, ou la construction de bases de données. Par ailleurs, la notion de « réplicabilité » peut être utilisée préférentiellement dans le cadre de recherches expérimentales lorsqu’il s’agit de reproduire une expérience. Ceci implique de considérer l’accès aux protocoles méthodologiques (pas exclusivement aux données et aux codes sources). Plusieurs commentaires ont fait également ressortir l’importance d’associer aux réflexions sur la question de la qualité en recherche, les principes et valeurs éthiques (intégrité, honnêteté, etc.) de la recherche et de ses impacts (sociaux, économiques, techniques, etc.).
|
---|
Explications : Lors de travaux de recherche, différentes étapes sont nécessaires à l’obtention de résultats partageables à la communauté de pairs. Ces étapes génèrent une plus-value plus ou moins importante en fonction du temps consacré à leur réalisation ou encore au degré de reconnaissance attribué à ce travail par la communauté. Différents types de plus-values ont été distingués puis corrélés à des critères en lien avec la démarche de recherche. Par exemple :
la collecte de données rares ou nécessitant un temps de collecte important est principalement associé à un travail de terrain ou sur des archives et fonds documentaires en sciences humaines et sociales ;
la préparation d’échantillons et la définition de protocoles expérimentaux sont des activités associées à des travaux de recherche en laboratoire ;
un cadre de recherche clinique est plus fortement corrélé avec une plus-value tirée de l’automatisation de processus de travail en chaîne (workflow) et de la modélisation sur une grande quantité de données.
Porter attention à ces différentes démarches de recherche, ainsi que les formes de plus-values générées en fonction des contextes est important pour repérer des blocages quant à la mise à disposition de données. Certaines démarches de recherche (amélioration de technique, automatisation, modélisation) peuvent inciter la mise à disposition tandis que d’autres démarches peuvent la réfréner (collecte de données rares, préparation d’échantillon chronophage).
|
---|
Explications : Même lorsque des travaux de recherche s’intéressent aux mêmes objets d’étude, cela ne signifie pas que les démarches de recherche soient identiques. Par exemple des études portant sur les virus à ARN (VIH, SARS, etc.) peuvent faire l’objet de recherches dans le cadre d’études cliniques d’une part et dans un cadre de recherche fondamentale à la paillasse ou computationnelle d’autre part. Dans le cas de la recherche clinique par exemple, une structuration des données (avec une réglementation stricte sur leurs usages) est prévue dès le départ (Case Report Form) et la plus-value du travail provient d’une automatisation et d’une amélioration des protocoles. Alors que dans le cadre de travaux en biologie fondamentale, la collecte de données rares obtenues suite à des expériences chronophages tout autant que leur interprétation sont au cœur de la démarche scientifique avec la défense d’une posture d’artisanat et de création. Ces différentes démarches et plus-value se rencontrent parfois au sein de mêmes projets de recherche avec la critique d’une part d’une « ingéniérisation » de la recherche et d’autre part d’un manque de contrôle de la qualité de la recherche d’autre part.
|
---|
|
---|
Explications : Concernant la réutilisation des données, l’objectif affirmé des politiques de science ouverte, il s’agit de prendre en considération les « publics des données » qui influencent la manière dont les données sont mises à disposition mais également les modalités de partage et de contextualisation de ces informations. Un partage de données entre collègues (communauté de pairs) pour garantir une reproductibilité n’impliquera pas le même travail en matière d’explicitation et de contextualisation des données qu’une mise à disposition pour un public plus vaste dans l’objectif d’une diffusion plus large des résultats de recherche. Cela implique de réfléchir également à l’accompagnement nécessaire à leur partage (aide à la structuration de données, diffusion de vidéos de vulgarisation des travaux de recherche) tout comme les problématiques éthiques et juridiques associées. De plus, le partage des données n’est pas le seul élément à inclure dans une démarche de science ouverte. Ainsi pour le cas de la réplicabilité d’expérience, le partage du protocole est essentiel tout comme la mise à disposition des codes sources pour reproduire l’analyse des données employées.
Le terme de « mise à disposition » est employé dans l’étude pour distinguer différentes pratiques comprenant :
|
|
---|
|
---|
Explications : Les raisons principales limitant la mise à disposition des données sont essentiellement le manque d’habitude de ces pratiques, un temps trop important nécessaire à leur mise à disposition et une rétention des données pour garder un avantage compétitif. Parmi les raisons secondaires figurent des questionnements concernant les risques de bureaucratie supplémentaire engendrée par la mise à disposition ainsi que des enjeux juridiques et éthiques autour de l’accès aux données personnelles. Les obligations à la mise à disposition sont peu connues et proviennent surtout des comités éditoriaux de revues ou des comités éthiques. Sensibiliser les comités à mentionner les enjeux de mise à disposition est un élément clef pour la prise en compte de ces pratiques dans l’évaluation et la reconnaissance des travaux de recherche, car leur rôle dans ce processus est important4.
|
---|
|
---|
Explications : Concernant le stockage des données5, il est majoritairement réalisé sur des supports externes et des ordinateurs professionnels. Néanmoins, en sciences humaines et sociales, l’usage d’ordinateur personnel est fréquent notamment pour les doctorant·e·s, ce qui ne facilite pas le suivi des données, leur sécurité ou encore leur réutilisation à la fin d’un projet. Une attention et vigilance toute particulière est portée par les communautés sur la sécurité des données (données cryptées, risque de piratage, etc.) avec un questionnement sur la fiabilité des infrastructures institutionnelles. Les solutions de cloud de type Google Drive ou Dropbox sont majoritairement employées pour le partage de fichiers. Par ailleurs, à l’heure actuelle, la différence entre stockage et archivage reste floue pour les communautés de chercheur·e· s. L’appel aux services d’archivage restent rares, car le stockage des données peut sembler pour les professionnel·le·s de la recherche une action suffisante pour conserver les données.
|
---|
Explications : Outre la découverte d’outils en autodidacte, le rôle d’autres personnes au sein des équipes de recherche (membres de l’équipe ou autres équipes) est primordial pour constituer son environnement numérique de travail. Les habitudes se prennent souvent dès les premiers stages de recherche en master avec une formation au sein des équipes (maître de stage, vie de « laboratoire » pour les travaux à « la paillasse », etc.). Au sein des sciences humaines et sociales, les journées d’étude et les temps informels jouent un rôle important pour découvrir de nouveaux outils, partager ses pratiques. Les réseaux sociaux représentent aussi des espaces d’échange et de découverte de pratiques, jugés utiles notamment lorsque se croisent différentes communautés.
Journée d’étude : du terrain à la mise en données en SHS Dans le cadre de l’enquête (phase 2), une journée d’étude a été dédiée à l’étude des pratiques de « mise en données » en SHS et a permis de faire resortir trois problématiques clefs :
|
|
---|
|
---|
|
---|
Explications : Les interfaces graphiques sont essentielles dans les étapes de traitement et d’analyse de données. Elles aident à manipuler aisément les données, filtrer des informations, les classifier, les visualiser rapidement de manière dynamique et faciliter une continuité entre différents acteurs avec des couches d’accès différenciés. Pour le travail d’équipe, des extractions de graphiques ou d’éléments d’une base de données facilitent les échanges et l’analyse collective. Or des outils clefs-en-main, aussi appelés « click and play », viennent invisibiliser l’ensemble des traitements algorithmiques sous-jacents. À la montée de l’offre de plateformes data science (outils statistiques de sciences des données orientées IA), une littératie aux principes computationnels est nécessaire dès les premiers cycles de l’enseignement supérieur pour cultiver un regard critique concernant ces plateformes clefs-en-main.
|
---|
Explications : Les demandes d’aides formulées par les communautés de recherche consistent en premier lieu en des demandes de ressources humaines et financières : obtention ou renouvellement de postes fixes, aide financière pour l’accès à des bases de données, ou à la numérisation. Concernant les données, les aides demandées portent sur le stockage en cours de traitement des données, la mise à disposition de données visant à être ouvertes ou partagées et l’archivage. Pour les sciences humaines et sociales, le soutien à la diffusion pour le grand public sous forme de vidéo ou billets de blog (médiation scientifique) constitue un enjeu important et qui n’est souvent pas pris en charge dans les budgets des projets de recherche.
|
---|
|
---|
Explications : En plus de la mise en œuvre de guichets uniques et d’infrastructures nationales pour accompagner les pratiques associées aux données, un maillage au plus prés des équipes est plébiscité par les personnes interrogées dans le cadre de l’étude. Des relais stables et pérennes au sein des équipes sont demandés avec une méfiance néanmoins quant à la surcharge de travail qu’engendrerait l’ajout d’une nouvelle fonction « référent·e données » aux personnes déjà en poste, notamment aux ingénieur·e·s de recherche ou d’étude (IR/IE).
|
---|
Explications : Pour beaucoup, l’adaptation à de nouvelles pratiques de traitement, d’analyse, et de partage des données s’accompagne de processus et d’environnements de travail nouveaux et/ou complémentaires à s’approprier. Cela vient également reconfigurer les modalités de travail entre différents membres d’équipe (services informatiques, ingénieurs, chercheurs, etc.) avec un ensemble de frictions possibles. La constitution de bases de données entre différents profils disciplinaires ou métiers tout comme leur mise à disposition dans des entrepôts de données (partage ou ouverture) cristallisent des tensions (constitution de vocabulaires, réduction de la complexité d’une étude, reconnaissance des personnes ayant participé à la création de la base, etc.). Néanmoins, ce sont également un moyen de construire de nouvelles pratiques adaptées aux compétences de chacun·e. Le dialogue et la compréhension à construire entre différents profils (traduction de vocabulaire spécifique, facilitation des échanges par des processus de médiation, etc.) nécessitent du temps et parfois des aides financières, matérielles, ou encore organisationnelles pour faciliter leur développement.
|
---|
Explications : Les travaux de « mise en données » et de mise à disposition des données nécessitent souvent du temps, par exemple la collecte de données rares, la mise en forme de données, l’ajout de documentation, l’ajout de métadonnées, la mise en ligne sur des entrepôts. Il est important de reconnaître le temps passé à ces activités dans l’évolution des carrières, notamment dans le cas de personnes aux statut et fonction pouvant mener au travail solitaire, contexte dans lequel ces tâches sont encore plus invisibilisées. En effet, si des chercheur·e·s préfèrent travailler seul·e·s et ne pas changer leurs pratiques par choix ou par positionnement politique, d’autres ont une démarche solitaire et de « non-partage » imposée. C’est le cas par exemple des doctorant·e·s intéressé·e·s par les sujets de science ouverte, mais pour qui les activités de mise en données ne sont pas une priorité, ni pour leur·s encadrant·e·s. Pour les post- doctorant·e·s, de la même manière, la recherche d’un poste apparaît souvent prioritaire par rapport au développement de ces pratiques, même si certain·e·s peuvent en tirer parti pour élaborer une stratégie de visibilité et de réseautage.