Skip to main content

Recommandations

Published onOct 24, 2022
Recommandations
·

Deux questions principales ont guidé l’étude « Décliner la science ouverte »

  1. Quels facteurs prendre en considération pour mieux appréhender la diversité de pratiques associées aux données en recherche ?

  2. Comment accompagner l’évolution des pratiques associées aux données en lien avec les incitations / obligations portées par les politiques publiques « science ouverte » ?.

Concernant la deuxième question, un ensemble de recommandations a été formulé qui visent à faciliter l’évolution des pratiques associées aux données et aux incitations de « science ouverte » tout en s’adaptant aux contextes variés de la recherche académique.

À propos des incitations « science ouverte » en lien avec les données, nous incluons par exemple l’application des principes FAIR pour les données (Findable, Accessible, Interoperable, Reusable), la mise en œuvre de plans de gestion de données, l’incitation à une plus grande reproductibilité des travaux de recherche, la mise en place d’accompagnements et le déploiement d’infrastructures pour la mise à disposition de données.

Les recommandations sont regroupées sous la forme de cinq pistes d’orientation présentées ci-dessous avec les recommandations correspondantes et un éclairage pour chacune.

  • Piste d’orientation 1 : Comprendre en finesse les démarches de recherche ;

  • Piste d’orientation 2 : Appréhender différentes pratiques de mise à disposition des données ;

  • Piste d’orientation 3 : Connaître les modalités d’apprentissages et les pratiques collaboratives ;

  • Piste d’orientation 4 : Diversifier les types d’accompagnement ;

  • Piste d’orientation 5 : Prendre en considération le statut et les enjeux de carrière.

L’accès à l’ensemble des résultats de l’étude et des explications sont disponibles également dans la présentation générale et le résumé directif.

Piste d’orientation 1 : Comprendre en finesse les démarches de recherche

Diversifier la terminologie employée autour des « données »

Recommandation 1 : Ne pas en rester à la notion de « données/data ». Utiliser un ensemble de termes plus précis et spécifiques pour désigner les différents objets manipulés et produits au cours de la recherche.

Explication : Le terme « données » est employé majoritairement dans les recommandations/incitations à la « science ouverte » afin de désigner toutes informations menant à la production de résultats scientifiques, Mise à part ce terme, d’autres sont employés plus communément au sein des communautés de recherche pour décrire les éléments qui servent à l’obtention de résultats de recherche. Ainsi, il est recommandable de ne pas en rester à la notion de « données/data », mais d’utiliser des termes plus précis et spécifiques pour désigner les différents objets manipulés et produits au cours de la recherche. En fonction des communautés de recherche auxquelles on s’adresse, plusieurs expressions peuvent être utilisées : « bases de données », « jeux de données », « corpus », « archives », « sources », « matériaux », « mesures ».

Privilégier la notion de « qualité » en recherche plutôt que celle de « reproductibilité »

Recommandation 2 : Élargir les enjeux de reproductibilité à ceux de qualité en recherche. Employer d’autres termes tels que ceux de transparence, d’explicabilité notamment avec des communautés SHS.

Recommandation 3 : Intégrer dans les réflexions sur la qualité en recherche et la mise à disposition des données de recherche, les problématiques de valeurs scientifiques et éthiques (intégrité, honnêteté) et d’impact de la recherche dans ses différentes dimensions (sociales, économiques, techniques, etc.).

Explication : Aujourd’hui, les enjeux de reproductibilité font partie intégrante des discours et incitations à la science ouverte1. Or il s’agit de se détacher du terme reproductibilité pour aborder plus largement la question de la « qualité » en recherche. En effet, la notion de « reproductibilité » s’applique plus spécifiquement dans le cadre de recherche impliquant des instruments de mesure et l’emploi de méthodes computationnelles (vérification de calculs à partir de l’accès aux codes sources et aux « données brutes »). D’autres termes sont plus inclusifs pour aborder plus globalement la question de la qualité de la recherche. Par exemple, le principe de « transparence » est à employer de façon privilégiée dans des contextes de recherche pluridisciplinaire. Le concept « d’explicabilité » s’utilise dans le cadre de travaux en SHS qui nécessitent la constitution de corpus, ou la construction de bases de données. Par ailleurs, la notion de « réplicabilité » peut être utilisée préférentiellement dans le cadre de recherches expérimentales lorsqu’il s’agit de reproduire une expérience. Ceci implique de considérer l’accès aux protocoles méthodologiques (pas exclusivement aux données et aux codes sources). Plusieurs commentaires ont fait également remonter l’importance d’associer aux réflexions sur la question de la qualité en recherche, les principes et valeurs éthiques (intégrité, honnêteté, etc.) de la recherche et de ses impacts(sociales, économiques, techniques, etc.).

Porter attention aux différentes formes de plus-values retirées du travail de recherche

Explications : Lors de travaux de recherche, différentes étapes sont nécessaires à l’obtention de résultats partageables à la communauté de pairs. Ces étapes génèrent une plus-value plus ou moins importante en fonction du temps consacré à leur réalisation ou encore au degré de reconnaissance attribué à ce travail par la communauté. Différents types de plus-values ont été distingués puis corrélés à des critères en lien avec la démarche de recherche. Par exemple :

  • la collecte de données rares ou nécessitant un temps de collecte important est principalement associé à un travail de terrain ou sur des archives et fonds documentaires en sciences humaines et sociales ;

  • la préparation d’échantillons et la définition de protocoles expérimentaux sont des activités associées à des travaux de recherche en laboratoire ;

  • un cadre de recherche clinique est plus fortement corrélé avec une plus-value tirée de l’automatisation de processus de travail en chaîne workflow et de la modélisation sur une grande quantité de données.

Porter attention à ces différentes démarches de recherche, ainsi que les formes de plus-values générées en fonction des contextes est important pour repérer des blocages quant à la mise à disposition de données. Certaines démarches de recherche (amélioration de technique, automatisation, modélisation) peuvent inciter la mise à disposition tandis que d’autres démarches peuvent la réfréner (collecte de données rares, préparation d’échantillon chronophage).

Démarches de recherche : spécificité clinique/ expérimentale/computationnelle

Recommandation 5 : Prendre en compte des éléments de friction propres au milieu de la recherche. Ce milieu est constitué de cultures qui cohabitent tout en étant parfois en opposition. D’une part, une culture techno-industrielle vise à l’amélioration des processus, de la gestion du risque, et de l’efficacité.D'autre part, il existe une culture d’indépendance et de liberté des chercheurs associée à la revendication d’une posture d’artisanat et de créativité dans la démarche scientifique.

Explications : Bien que des travaux de recherche s’intéressent aux mêmes objets d’étude, cela ne signifie pas que les démarches de recherche soient identiques. Par exemple des études portant sur les virus à ARN (VIH, SARS, etc.) peuvent faire l’objet de recherches dans le cadre d’études cliniques d’une part et dans un cadre de recherche fondamentale à la paillasse ou computationnelle d’autre part. Dans le cas de la recherche clinique par exemple, une structuration des données (avec une réglementation stricte sur leurs usages) est prévue dès le départ (Case Report Form) et la plus-value du travail provient d’ une automatisation et d’une amélioration des protocoles. Alors que dans le cadre de travaux en biologie fondamentale, la collecte de données rares obtenues suite à des expériences chronophages tout autant que leur interprétation sont au cœur de la démarche scientifique avec la défense d’une posture d’artisanat et de création. Ces différentes démarches et plus-value se rencontrent parfois au sein de mêmes projets de recherche avec la critique d’une part d’une « ingéniérisation » de la recherche et d’autre part d’un manque de contrôle de la qualité de la recherche d’autre part.

Piste d’orientation 2 : Appréhender différentes pratiques de mise à disposition des données

Penser à la réutilisation de données et d’autres ressources et aux publics concernés

Recommandation 6 : Mettre à disposition des données nécessite de penser le « public des données », la temporalité, les modalités de partage (juridique, financier, technique, etc.) et l’accompagnement nécessaire.

Recommandation 7 : Outre les données, d’autres objets (protocoles, codes source, etc.) peuvent faire aussi l’objet d’une mise à disposition dans des conditions spécifiques à définir.

Explications : Concernant la réutilisation des données, fer de lance des programmes de science ouverte, il s’agit de prendre en considération les « publics des données » qui influencent la manière dont les données sont mises à disposition mais également les modalités de partage et de contextualisation de ces informations. Un partage de données entre collègues (communauté de pairs) pour garantir une reproductibilité n’impliquera pas le même travail en termes d’explicitation et de contextualisation des données qu’une mise à disposition pour un public plus vaste dans l’objectif d’une diffusion plus large des résultats de recherche. Cela implique de réfléchir également à l’accompagnement nécessaire à leur partage (aide à la structuration de données, diffusion de vidéos, etc.) tout comme les problématiques éthiques et juridiques associées. De plus, le partage des données ne sont pas les seuls éléments à inclure dans une démarche de « science ouverte ». Ainsi pour le cas de la réplicabilité d’expérience, le partage du protocole est essentiel tout comme la mise à disposition des codes sources pour la reproductibilité d’analyse de données à partir des données employées.

Le terme de « mise à disposition » est employé dans l’étude pour distinguer différentes pratiques comprenant :

  • le partage restreint à un public ciblé et connu (via mail par exemple) ;

  • la mise en ligne des données sur un site/entrepôt avec un contrôle ou non de l’accès ;

  • l’ouverture des données sur un site/entrepôt avec l’apposition d’une licence ouverte (open data).

Distinguer différentes limites à la mise à disposition et les leviers d’amélioration

Recommandation 8 : Différencier les raisons limitant la mise à disposition des données (temps trop important nécessaire, manque d’habitude, avantage compétitif à ne pas partager) pour y apporter des réponses adaptées.

Recommandation 9 : Aider à la prise en considération des enjeux de mise à disposition des données et codes source au sein de comités éditoriaux de revues.

Explications : Les raisons principales limitant la mise à disposition des données sont essentiellement le manque d’habitude de ces pratiques, un temps trop important nécessaire à leur mise à disposition et une volonté de valoriser les données (notamment par une rétention des données) pour garder un avantage compétitif. Parmi les raisons secondaires figurent des questionnements concernant les risques de bureaucratie additionnelle engendré par la mise à disposition ainsi que des enjeux juridiques et éthiques autour de l’accès aux données personnelles. Les obligations à la mise à disposition sont peu connues et proviennent surtout des comités éditoriaux de revues ou des comités éthiques. Sensibiliser les comités à mentionner les enjeux de mise à disposition est un élément clef pour la prise en compte de ces pratiques dans l’évaluation et la reconnaissance des travaux de recherche, car leur rôle dans ce processus est important.

Mettre en avant les enjeux de conservation et de sécurité des données

Recommandation 10 : Sensibiliser à la distinction entre stockage et archivage des données qui impliquent des services et des infrastructures différents ainsi qu’une sélection possible de données à opérer.

Recommandation 11 : Privilégier et/ou mettre en avant les fonctionnalités de sécurité et les éléments de fiabilité proposés par les infrastructures de recherche mises à disposition pour le stockage des données.

Explications : Concernant le stockage des données, il est majoritairement réalisé sur des supports externes et des ordinateurs professionnels. Néanmoins, en sciences humaines et sociales, l’usage d’ordinateur personnel est fréquent notamment pour les doctorant·e·s, ce qui ne facilite pas le suivi des données, leur sécurité ou encore leur réutilisation à la fin d’un projet. Une attention et vigilance toute particulière est portée par les communautés sur la sécurité des données (données cryptées, risque de piratage, etc.) avec un questionnement sur la fiabilité des infrastructures institutionnelles. Les solutions de cloud de type Google Drive ou Dropbox sont majoritairement employées pour le partage de fichiers. Par ailleurs, à l’heure actuelle, la différence entre stockage et archivage reste floue pour les communautés de chercheur·e. s. L’appel aux services d’archivage se font rares, car le stockage des données leur semble une action suffisante pour conserver les données.

Piste d’orientation 3 : Connaître les modalités d’apprentissage et les pratiques collaboratives

Découverte et formation aux outils : un échange entre pairs

Recommandation 12 : Pour faciliter l’appropriation de nouvelles pratiques, prendre en considération les spécificités de rencontres et d’apprentissages des communautés (vie de laboratoire, journées d’étude et de conférences, réseaux sociaux, etc.).

Explications : Outre la découverte d’outils en autodidacte, le rôle d’autres personnes au sein des équipes de recherche (membres de l’équipe ou autres équipes) est primordial pour constituer son environnement numérique de travail. Les habitudes se prennent souvent dès les premiers stages de recherche en master avec une formation au sein des équipes (maître de stage, vie de « laboratoire » pour les travaux à « la paillasse », etc.). Au sein des sciences humaines et sociales, les journées d’étude et les temps informels jouent un rôle important pour découvrir de nouveaux outils, partager ses pratiques. Les réseaux sociaux représentent aussi des espaces d’échange et de découverte de pratiques, jugés utiles notamment lorsque se croisent différentes communautés.

Journée d’étude : du terrain à la mise en données en SHS

Dans le cadre de l’enquête (phase 2), une journée d’étude a été dédiée à l’étude des pratiques de « mise en données » en SHS et a permis de faire resortir trois problématiques clefs :

  • Problématiques communes aux pratiques de la mise en données

  • Reconfiguration des collectifs de recherche 

  • Environnement et valorisation du travail de mise en données.

Porter attention aux interfaces

Recommandation 13 : Porter une attention toute particulière aux interfaces de traitement et d’analyse des données pour qu’elles ne deviennent pas des « boîtes noires » et des « culs-de-sac » (manque d’interopérabilité, formats propriétaires, etc.).

Recommandation 14 : Être vigilant quant aux nouvelles solutions clefs en main qui se développent pour l’analyse et la manipulation de données.

Recommandation 15 : Former aux pratiques computationnelles sans toutefois vouloir faire de tous les acteurs de la recherche des data scientists. Donner un bagage suffisant pour être capable d’échanger et de comprendre les enjeux.

Explications : Les interfaces graphiques sont essentielles dans les étapes de traitement et d’analyse de données. Elles aident à manipuler aisément les données, filtrer des informations, les classifier, les visualiser rapidement de manière dynamique et faciliter une continuité entre différents acteurs avec des couches d’accès différenciés. Pour le travail d’équipe, des extractions de graphiques ou d’éléments d’une base de données facilitent les échanges et l’analyse collective. Or des outils clefs-en-main, aussi appelés « click and play », viennent invisibiliser l’ensemble des traitements algorithmiques sous-jacents. À la montée de l’offre de plateformes « data science » (outils statistiques de sciences des données orientées IA), une littératie aux principes computationnels est nécessaire dès les premiers cycles de l’enseignement supérieur pour cultiver un regard critique concernant ces plateformes clefs-en-main.

Piste d’orientation 4 : Diversifier les types d’accompagnement

Distinguer différents besoins d’accompagnement

Recommandation 16 : Outre les aides au stockage, à l’archivage et à la mise à disposition des données, proposer des aides quant à la médiation des données à des publics variés sous différents formats tout autant qu’aux enjeux juridiques et éthiques.

Explications : Les demandes d’aides formulées par les communautés de recherche consistent en premier lieu en des demandes de ressources humaines et financières, que se soit le besoin de postes fixes ou leur renouvellement, d’aide financière pour l’accès à des bases de données, ou à la numérisation. Concernant les données, les aides demandées portent sur le stockage, l’archivage et à la mise à disposition. Pour les sciences humaines et sociales, le soutien à la diffusion pour le grand public sous forme de vidéo ou billets de blog constitue un enjeu important et qui n’est souvent pas pris en charge dans les budgets des projets de recherche.

Élaborer un maillage des données au plus près des équipes

Recommandation 17 : Faciliter un « maillage des données » à différentes échelles en diversifiant les modalités de soutien et d’accompagnement par 1. le développement et le maintien d’infrastructures, 2. l’acculturation au sein des équipes de recherche par le biais de personnes soutien déjà présentes dans le quotidien des équipes pour jouer un rôle de médiation, comprendre les besoins et la culture du laboratoire ou de l’équipe.

Recommandation 18 : Faire attention à l’ajout de fonctions supplémentaires « référent données » s’ajoutant aux charges de travail de personnes déjà en poste au détriment de la création de postes stables et pérennes dédiés aux missions de mise à disposition des données.

Explications : En plus de la mise en œuvre de guichets uniques et d’infrastructures nationales pour accompagner les pratiques associées aux données, un maillage au plus prés des équipes est plébiscité par les personnes interrogées dans le cadre de l’étude. Des relais stables et pérennes au sein des équipes sont demandés avec une méfiance néanmoins quant à la surcharge de travail qu’engendrerait l’ajout d’une nouvelle fonction « référent données » aux personnes déjà en poste, notamment aux ingénieurs de recherche ou d’étude (IR/IE).

Être vigilant aux enjeux de médiation au sein des équipes de recherche

Recommandation 19 : Porter attention aux enjeux de traduction et de médiation nécessaires à la gestion et à la mise à disposition des données qui impliquent des pratiques collectives et la recherche de « dénominateurs communs » parmi les outils employés, les processus de standardisation des données et des protocoles, ou encore la documentation.

Explications : Pour beaucoup, l’adaptation à de nouvelles pratiques de traitement, d’analyse, et de partage des données s’accompagne de processus et d’environnements de travail nouveaux et/ou complémentaires à s’approprier. Cela vient également reconfigurer les modalités de travail entre différents membres d’équipe (service informatiques, ingénieurs, chercheurs, etc.) avec un ensemble de frictions possibles. Des objets tels que des bases ou des entrepôts de données cristallisent des tensions mais sont également un moyen de construire de nouvelles pratiques adaptées aux compétences de chacun·e. Les traductions et médiations nécessaires nécessitent du temps et parfois des aides financières, matérielles, ou encore organisationnelles pour faciliter leur développement.

Piste d’orientation 5 : Prendre en considération le statut et les enjeux de carrière

Recommandation 20 : Mieux considérer dans l’évolution des carrières et l’évaluation des professionnels de la recherche le travail de « mise en données » et de mise à disposition des données.

Explications : Les travaux de « mise en données » et de mise à disposition des données nécessitent souvent du temps, par exemple la collecte de données rares, la mise en forme des données, l’ajout de documentation, l’ajout de metadonnées, la mise en ligne sur des entrepôts. Il est important de reconnaître le temps passé à ces activités dans l’évolution des carrières, notamment dans le cas de personnes aux statut et fonction pouvant mener au travail solitaire, contexte dans lequel ces tâches sont encore plus invisibilisées. En effet, si des chercheur·e·s préfèrent travailler seul·e·s et ne pas changer leurs pratiques par choix ou par positionnement politique (liberté académique, critique de la bureaucratie et d’injonctions managériales grandissantes), d’autres ont une démarche solitaire et de « non-partage » imposée. C’est le cas par exemple des doctorant·e·s intéressé·e·s par les sujets de science ouverte, mais pour qui les activités de mise en données ne sont pas une priorité, ni pour leur·s encadrant·e·s. Pour les post-doctorant·e·s, de la même manière, la recherche d’un poste passe souvent avant ces pratiques, même si cela peut conduire certain·e·s à élaborer une stratégie de visibilité et de réseautage autour de ces pratiques.

Comments
0
comment
No comments here
Why not start the discussion?