Dans un contexte favorable à l’Open Data, il y a de plus en plus de mandats pour rendre accessibles les données liées aux publications en particulier de l’édition scientifique, des organismes de financement et des politiques nationale et institutionnelle. Même après leur publication, 80% des données scientifiques sont perdues pour les auteurs, les organismes, les institutions et pour la recherche mondiale. Pour éviter ces pertes, comment les chercheurs devraient-ils publier leurs données ? Et comment publier les données de manière fiable (selon les principes FAIR)? Le plan de gestion de données est très lié au principe du libre accès aux données de recherche et il est devenu l’outil de gestion incontournable des projets de recherche pour les États et les financeurs.
De manière générale, les principes FAIR [1] concernent l’ouverture, la communication, l’appropriation et la réutilisation des données de recherche. Ainsi, une bonne gestion des données est un moyen de soutenir les principes FAIR. En pratique, le plan de gestion de données est un instrument de la « FAIRification [2] » de la recherche permettant la découverte des données, leur accessibilité, leur interopérabilité et leur réutilisation.
Mais d’abord, un PGD, qu’est-ce que c’est ?
« Le plan de gestion des données est un outil de gestion. Il se présente sous la forme d’un document structuré en rubriques. Il a pour objectif de synthétiser la description et l’évolution des jeux de données d’un projet de recherche. Il prépare le partage, la réutilisation et la pérennisation des données. » [3] (Doranum).
La gestion des données, en vue de leur partage et de leur réutilisation éventuelle, est un processus qui demande planification et organisation. Les chercheurs doivent prévoir et allouer du temps pour la gestion des données dès le début de leur projet de recherche. Le Data Management Plan (DMP) – ou Plan de gestion des données – aide à organiser la gestion des données (création, collecte, documentation, description, partage et préservation) tout en abordant les questions juridiques en lien avec leur utilisation ou réutilisation (restriction légale, propriété des données, propriété intellectuelle, obligations contractuelles, données sensibles) [4]. Le DMP est un document évolutif qui doit être complété et mis à jour de façon régulière et qui peut prendre différentes formes (document électronique, modèle en ligne, formulaire papier, etc.) et peut amplement varier selon les disciplines et projets de recherche [5]. Le plan de gestion de données s’appuie sur le cycle de vie des données qui désigne les différentes étapes de traitement des données au cours d’un projet de recherche.
En résumé, le DMP c’est :
1 |
2 |
3 |
4
|
5 |
6 |
Rédiger un DMP, une approche réglementée ?
Rédiger un DMP est primordial pour plusieurs raisons. Il permet un gain de temps et l’anticipation de plusieurs problématiques : coûts, destruction ou perte des données, infrastructure, etc. Il est parfois obligatoire et exigé par certains bailleurs de fonds publics pour l’octroi de financements. Il favorise considérablement la réutilisation des données, met en valeur les données et travaux de recherche, et enfin soutient une recherche intègre, responsable et transparente. Il est à noter que le DMP est obligatoire pour obtenir un financement du FNS [6]. Il est également obligatoire pour obtenir un espace de stockage sécurisé [7] mis en place par la Division calcul et soutien à la recherche[8]. Afin de favoriser la diffusion ouverte des données de recherche, l’ANR [9] attire l’attention des déposants sur l’importance de considérer la question des données de recherche au moment du montage et tout au long du projet. Elle impose un DMP pour tous les projets qu’elle finance (Plan d’action ANR 2019, p.9).
Rédiger un DMP est utile pour se poser les bonnes questions dès le départ d’un projet, quitte à évoluer au fur et à mesure de l’avancement du projet. Il consent par exemple à identifier les risques liés à la gestion des données, assurer la sécurité et la préservation des données, prévoir les budgets, matériels, logiciels, personnels, etc., identifier les responsabilités, les rôles de chacun dans la gestion des données, planifier les ressources et compétences nécessaires à cette gestion, garantir des données fiables et bien gérées, compréhensibles, disponibles et préservées sur le long terme pour une réutilisation future (démarche FAIR) [10] ou encore répondre aux exigences d’un financeur.
Pour les financeurs, l’intérêt est la réutilisabilité des données (retour sur investissement, ne pas dupliquer inutilement l’effort financier). Pour les organismes de recherche, c’est la reproductibilité de la recherche qui prime avant toute chose. Pour les chercheurs, il est fondamental de procéder à une bonne gestion des données au cours d’un projet, et ce pour diminuer les risques, réduire les coûts, augmenter l’efficacité avec la valorisation du travail et permettre les demandes de financement.
Le DMP est un phénomène mondial incontournable qui est de plus en plus recommandé ou exigé, partout dans le monde. La soumission des DMP dépend des :
- exigences de la Commission européenne (Modèles Horizon 2020, ERC)
- déploiements d’outils et infrastructures d’ampleur européenne en lien avec la gestion et le partage des données de la recherche (l’entrepôt Zenodo, l’infrastructure OpenAIRE …)
À l’échelle nationale, l’État français a instauré une politique avec le Plan national pour la science. L’ANR a rendu le DMP obligatoire depuis 2019. Au niveau des organismes, il a été mis en place des trames de DMP institutionnelles (CIRAD, INRA, Institut Pasteur, Irstea, Universités…), des politiques d’établissements (INRA…) ainsi que des recommandations intentionnelles (intégrées dans les DMP OPIDoR [11]).
L’objectif principal est de « garantir des données fiables et bien gérées tout au long d’un projet, compréhensibles, disponibles et préservées sur le long terme pour une réutilisation future [12]».
D’après une conférence donnée à Amsterdam en 2016 sur la science ouverte, « la gestion et le partage des données doivent devenir l’approche par défaut pour les recherches financées par le secteur public. » (Amsterdam Call for Action on Open Science, 2016).
Comment rédiger un DMP dans les règles de l’art ?
Sa rédaction commence dès le début du projet ! D’ailleurs, il peut être demandé dès la soumission du projet. D’après Inist-CNRS [13], pour bien rédiger un DMP, il faut :
- prévoir 3 versions au minimum (3 versions successives demandées pour H2020 par exemple): au début du projet, au milieu du projet et à la fin du projet
- désigner nominativement les personnes responsables de la gestion des données pour toutes les étapes du projet : saisie des données, production des métadonnées, contrôle de la qualité des données, stockage, partage et archivage des données
- évaluer les ressources nécessaires (budget, temps alloué, personnels) permettant la mise en œuvre des actions décrites dans le DMP : temps nécessaire à la préparation des données pour le stockage, le partage et l’archivage des données, coûts de matériel, rémunération des personnels, frais de stockage (serveurs dédiés, traitement, maintenance, sécurité, accès…), partage (site web, publication…) et d’archivage des données.
Son contenu informationnel peut varier en fonction du modèle de plan, qu’il soit imposé par un tiers ou choisi. Selon Science Europe [14], les rubriques doivent préciser les aspects suivants [15]:
- Contexte : La nature et le contexte du projet de recherche
- Description : Le type de données de recherche collectées et produites
- Documentation et qualité : Les formats, métadonnées et standards utilisés
- Quelles métadonnées et quelle documentation (méthodologie de collecte et mode d’organisation des données) accompagneront les données ?
- Quelles mesures de contrôle de la qualité des données seront mises en œuvre ?
- Stockage et sauvegarde : Les informations sur le stockage, la sauvegarde et la sécurisation des données
Exigences légales et éthiques : Les questions éthiques, juridiques et déontologiques (code de conduite) qui se posent :
- Si des données à caractère personnel sont traitées, comment le respect des dispositions de la législation sur les données à caractère personnel et sur la sécurité des données sera-t-il assuré ?
- Comment les autres questions juridiques, comme la titularité ou les droits de propriété intellectuelle sur les données, seront-elles abordées ?
- Partage et conservation à long terme : L’accès, le partage, la réutilisation des données, ainsi que l’archivage et le dépôt utilisé
- Comment les données à conserver seront-elles sélectionnées et où seront-elles préservées sur le long terme (un entrepôt de données ou une archive) ? o Comment l’application d’un identifiant unique et pérenne (DOI) sera réalisée pour chaque jeu de données ?
- Responsabilités de gestion et ressources : Les rôles et responsabilités des différentes parties prenantes à la gestion des données
- Qui sera responsable de la gestion des données?
- Quelles seront les ressources dédiées à la gestion des données permettant de s’assurer que les données soient FAIR?
Dans le contexte des appels à projet, il peut être demandé d’expliciter plus spécifiquement comment les principes FAIR sont pris en compte et appliqués.
Un focus sur les modèles de DMP du FNS et H2020…
Exigences du modèle FNS
Depuis 2017, il est obligatoire d’inclure un DMP avec chaque requête. Le FNS met à disposition un modèle de DMP dans le compte de chaque chercheur sur MyFNS [16]. En contrepartie, le FNS demande aux chercheurs qu’il finance d’archiver les données de recherche sur lesquelles ils ont travaillé et qu’ils ont produites durant leurs travaux, de partager ces données avec d’autres chercheurs et enfin de déposer leurs données dans des archives (dépôts) publiques existantes, dans des formats accessibles et réutilisables sans restriction par tous, et répondant aux principes FAIR.
Le FNS considère le partage des données de recherche « comme une contribution fondamentale à l’impact, à la transparence et à la reproductibilité de la recherche scientifique. Les bénéficiaires de subventions doivent donc s’assurer que les données générées par leur projet soient accessibles au public dans des dépôts de données non commerciaux et respectant les exigences FAIR. »
Pour aider à la rédaction d’un DMP pour le FNS, le centre de compétences suisse en sciences sociales a élaboré un guide intitulé : How to draft a DMP from the perspective of the social sciences, using the SNSF template – june 2019 [17].
Exigences du modèle H2020
Depuis 2017, tout projet de recherche financé par Horizon 2020 fait partie par défaut de l’Open Research Data Pilot (ORDP) [18]. Ce projet a pour but d’ouvrir les données de recherche tout en protégeant les données sensibles d’accès inappropriés. La rédaction d’un DMP est obligatoire et les chercheurs doivent décrire dans les grandes lignes leur politique de gestion des données en répondant aux questions suivantes :
- Comment les données seront-elles gérées, pendant et après le projet ?
- Quelles données seront collectées, traitées ou générées ?
- Quels méthodologies et standards seront appliqués ?
- Les données seront-elles partagées/rendues accessibles et comment ?
- Comment les données seront-elles archivées, conservées et préservées ?
Guides pour la rédaction de DMP dans Horizon 2020 :
Modèles de DMP en français et en anglais (docx et PDF)
Guidelines on Data Management in Horizon 2020. Version 3.0 (Union européenne, 26.07.2016)
Réaliser un plan de gestion des données « FAIR » : guide de rédaction [V2, 2018] (A.CARTIER, R.DELEMONTEZ, M.MOYSAN, N.REYMONET, 2018)
Quelles recommandations et quels outils à disposition pour rédiger un DMP ?
Quel que soit l’organisme de financement d’un DMP, il existe des recommandations générales pour concevoir un bon DMP. Sur le site de Doranum, il est notamment conseillé de consulter des exemples de DMP, de suivre les conseils des sites de référence et d’opter pour un modèle (nombreux modèles des financeurs et/ou organismes). Cette pratique oblige à respecter les usages de sa communauté. Par ailleurs, il est vivement recommandé de s’autoévaluer avant l’évaluation externe, de partager ses données (avec des collaborateurs identifiés aux droits définis copropriétaire/éditeur/lecteur, toutes personnes de son organisme ou avec tout le monde) et de publier son DMP. Pour cette dernière étape, vous pouvez utiliser un outil online comme…
DMP-OPIDOR (France, INIST-CNRS, en français, recommandé par
l’ANR et par l’IRD)
DMP Online (UK, DCC-Digital Curation Centre, en anglais) DMP-Tool (US-University of California, en anglais)
Plusieurs outils sont disponibles pour aider à rédiger DMP, avec des propositions de trames prédéfinies. Il peut s’agir soit de simples fichiers Word ou Excel contenant les différents champs souhaités, ou bien d’applications en ligne ouvertes à la communauté de recherche. En France, l’outil le plus répandu est Opidor : développé par le CNRS, il propose plusieurs trames de plans de gestion de données ou de logiciels, et offre une possibilité de personnalisation aux établissements de recherche français. Certains établissements de l’Université Paris-Saclay (CEA, INRA) proposent des plans de gestion de données accessibles via les pages de vos services de documentation.
Conclusion
Établir un DMP et partager ses données est une action qui permet d’accroître l’efficience de la recherche tout en facilitant l’accès et l’analyse. Il est essentiel d’assurer la continuité et la reproductibilité de la recherche pour protéger l’intégrité de la recherche elle-même. Cela réduit notablement le risque de perte de données et le gaspillage des ressources. Cette politique accompagne l’évolution actuelle de la publication scientifique, répond aux conditions de financement des projets et atteste la responsabilité scientifique.
La Commission européenne a généralisé le DMP pour tous les projets du programme Horizon 2020. Il en est de même pour les projets ANR (Agence Nationale de la Recherche) depuis 2019 [19]. Le DMP est un élément clé pour produire des données FAIR dans le cadre de la gouvernance des données. Il s’agit d’un document qui décrit comment sont ou seront obtenues, traitées, organisées, stockées, sécurisées, préservées, et partagées les données produites au cours et à l’issue d’un projet de recherche. Ce document synthétique aide à organiser et anticiper la mise en place de bonnes pratiques de gestion à toutes les étapes du cycle de vie des données. Il explique pour chaque jeu de données comment seront gérées les données d’un projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Des exemples de plans de gestions de données publics sont consultables à partir de la page d’accueil de ces outils (Rubriques DMP Publics/Public DMPs et Aide), ou publiés dans des journaux comme Research Ideas and Outcomes (RIO).
Pour en savoir plus :
- une présentation des PGD [20]
- un mode d’emploi de DMP-Opidor Féret, R., Bracco, L., Cheviron, S., Lehoux, E., Arènes, C., & Li, L. (2020, Avril). Améliorer les chances de succès de son projet ANR grâce à la Science Ouverte. Zenodo. https://dx.doi.org/10.5281/zenodo.3741666
- un jeu pour apprendre à gérer ses données sans douleur : GopenDoRe les pages DMP de l’INRA (Datapartage), du Cirad (CoopIST) et de DoRANum (Données de la Recherche : Apprentissage NUMérique à la gestion et au partage)
Sources :
[1] Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18
[2] FAIRification Process. (s. d.). GO FAIR. Consulté 10 mars 2021, à l’adresse https://www.go-fair.org/fair-principles/fairification-process/
[3] Plan de gestion des données : Fiche synthétique – DoRANum. (s. d.). https://doranum.fr/plan-gestion-donnees-dmp/fiche-synthetique/
[4] Data Management Plan (DMP). (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/openscience/fr/home/menuinst/open-research-data/gerer-les-donnees-de-recherche-research-data-management/data-management-plan-dmp.html
[5] Fonds national suisse de la recherche scientifique.
[6] Hébergement de données hors recherche. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/ci/fr/home/menuinst/catalogue-de-services/stockage-et-serveur/hebergement-de-donnees-hors-recherche.html
[7] Division calcul et soutien à la recherche—DCSR. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.unil.ch/ci/fr/home/menuinst/calcul–soutien-recherche.html
[8] Agence Nationale pour la Recherche
[9] Service, U. D. (s. d.). Research data management. UK Data Service. Consulté 10 mars 2021, à l’adresse https://ukdataservice.ac.uk/learning-hub/research-data-management/
[10] Modèles de DMP, 10 mars 2021, DMP OPIDoR, site web: https://dmp.opidor.fr/
[11] IST IRD – Service IST de l’Institut de Recherche pour le Développement. (14:56:35 UTC). Gerer ses données avec un Plan de Gestion de Donnees (PGD/DMP). 20/09/18 https://fr.slideshare.net/IST_IRD/grer-ses-donnes-avec-un-plan-de-gestion-de-donnes-pgddmp
[12] Tutoriel sur l’outil de rédaction DMP OPIDoR – DoRANum. (s. d.). https://doranum.fr/tutoriel-sur%20loutil-de-redaction-dmp-opidor/
[13] https://www.scienceeurope.org/
[14] Guide pratique pour une harmonisation internationale de la gestion des données de recherche. (s. d.). https://www.ouvrirlascience.fr/guide-pratique-pour-une-harmonisation-internationale-de-la-gestion-des-donnees-de-recherche
[15] MySNF. (s. d.). Consulté 10 mars 2021, à l’adresse https://www.mysnf.ch/login.aspx?language=fr
[16] Data Management Plan – content of the mySNF form, 10 mars 2021, FN-SNF: https://www.unil.ch/openscience/files/live/sites/openscience/files/Donnees_de_recherche/Files/DMP_content _mySNF_form_en.pdf
[17] What is the EC Open Research Data Pilot?, 10 mars 2021, Openaire, site web: https://www.openaire.eu/what-is-the-open-research-data-pilot