La phase quantitative de l’étude a consisté en la conception d’un questionnaire sur la base des résultats qualitatifs des phases précédentes (cf. workflow de l’étude), sa diffusion et l’analyse des 429 réponses complètes obtenues.
Les analyses statistiques des données après une structuration et pondération des données ont été effectuées avec R (analyse univariée et multivariée notamment avec FactoMineR) par Claire Lemercier (CNRS/CSO-SciencePo) et les résultats interprétées avec Célya Gruson-Daniel (Inno3/COSTECH-UTC).
Par la suite, un essai de reproductibilité de l’analyse a été réalisé par un membre extérieur de l’éqipe, Emilien Schultz (IRD). Cette dernière étape a consisté à vérifier la reproductibilité possible des résultats sur la base des données initiales du questionnaire, de la documentation des scripts R et des notes méthodologiques de l’étude.
Dans la suite de cette page, vous trouverez :
les étapes de conception et d’analyse du questionnaire (ci-dessous)
l’accès au dépôt GitLab présentant les données (.csv) et scripts de l’analyse (R) et de la démarche de reproductibilité (jupyter notebook Python)
Dans le cadre de la phase quantitative, le questionnaire « données et science ouverte » a été conçu dans le but de compléter l’analyse issue des deux phases qualitatives. Il s’agissait de mieux comprendre les éléments-clefs permettant de différencier différents rapports et pratiques associées aux données. Trois grandes hypothèses avaient été soulignées :
la discipline explique les différences de pratiques open science (en relation avec les données : mise en données, ouverture, etc.). Cette hypothèse initiale était celle portée par les membres du groupe de travail ayant donné lieu à la proposition de cette étude.
les différentes démarches de recherche (avec des plus-values distinctes) expliquent des comportements différents en lien avec les données. Cette hypothèse a émergé principalement avec les phases qualitatives (usage de la notion de communautés épistémiques).
le statut et le travail plus ou moins collectif (communautés de pratiques et de partage de savoir-faire) expliquent les différences de pratiques (utilisation logiciel, mode de formation, pratiques de partages, etc.).
Pour y répondre, la trame du questionnaire se composait de 5 parties :
cadre et démarche de recherche
pratiques de mise en données
collectifs et environnement de travail
accompagnements et besoins
affiliation, fonctions et champs disciplinaires
==> Le questionnaire a recueilli 429 réponses complètes suite à sa diffusion du questionnaire entre le 19 mai 2021 et le 25 juin 2021.
Plusieurs étapes préliminaires de structuration et simplification des données ont été effectuées avant de pouvoir opérer les traitements statistiques (suppression des colonnes concernant les questions ouvertes, codage des variables, remplacement des cases vides, regroupement de certaines réponses aus questions fermées, recodage des disciplines).
Une pondération des résultats a été effectués afin d’arriver à un échantillon représentatif de la répartition disciplinaire dans l’ESR en nous basant sur L’état de l’Enseignement supérieur, de la Recherche et de l’Innovation en France (n°14 – Avril 2021). L’ensemble des analyses statistiques présentes dans l’étude prend en considération les résultats pondérés en fonction des disciplines.
Chaque question a fait l’objet d’une analyse statistique descriptive (tris à plat) donnant lieu à la réalisation de graphiques. Concernant les tris croisés (test de Chi2), ces derniers ont été réalisés sur certaines questions seulement afin de comprendre en finesse les facteurs différenciants les pratiques associées aux données.
Suite à la génération de premières ACM permettant de faire ressortir différents axes (cf. encadré suivante),une classification automatique a été réalisée. La classification a été obtenue avec la procédure HCPC, qui prend en compte les cinq premiers axes de l’ACM et permet une analyse plus fine.
Au départ, deux versions de l'ACM ont été réalisées, en permutant les variables actives et illustratives, pour avoir d’une part une typologie portant sur 1/ l’évolution des pratiques associées aux données avec la science ouverte (et ceux qui les différencient) et d'autre part une typologie centrée sur sur 2/les démarches de recherche et l’environnement de travail (cadre de travail, travail collectif ou individuel, etc.). Dans la suite de l’étude, seule l’ACM 1/ « évolution des pratiques associées aux données avec la science ouverte » a été sélectionnée. 5 classes ont été distinguées
L’outil datawrapper a été utilisé pour réaliser les graphiques à partir des résultats des tris à plat (%) pour chaque modalité, en s’intéressant aux « oui » dans le cas de questions à choix multiples.
Pour la heatmap, pour chaque profil issu de l’ACM « évolution des pratiques associées aux données », dans le cas de modalités binaire oui/non, seules les modalités positives ont été conservées (le négatif étant redondant, car il représentait l’opposé). Les modalités « non applicables » lorsqu’elles correspondaient à une représentation “positive” ont été gardées tout comme les réponses de fréquence dans le cadre de certaine question.
Les 4 profils reprennent les éléments clefs du résultat de l'ACM puis HCPC.
Les personae sont issues de l’analyse quantitative (détermination des profils) et qualitative (entretiens, journées d’étude, commentaires qualitatifs du questionnaire). En effet, ces personnages fictifs s’inspirent des caractéristiques clefs sur-représentées dans chaque classe, ainsi que des connaissances issues des 13 entretiens menés dans la phase qualitative et de l’analyse des réponses détaillées des participant·e·s les plus représentatifs de chaque classe ou ayant fourni un grand nombre de commentaires qualitatifs.