Gestion et diffusion des données de la recherche: quels enjeux ?

L’ouverture des données de la recherche s’inscrit dans le mouvement de la Science Ouverte. La gestion des données et leur diffusion sont les deux étapes clés de l’ouverture des données de la recherche. C’est en amont, avant même la collecte des données qu’il faut envisager leur gestion pour qu’elles puissent être effectivement conservées et réutilisées sur le long terme. En France, de nouvelles dispositions juridiques visent à assurer une diffusion ouverte des données et à éviter leur captation par les éditeurs.

L’OUVERTURE DES DONNÉES DE LA RECHERCHE ET LA SCIENCE OUVERTE

L’ouverture des données de la recherche, tout comme le libre accès pour les publications scientifiques, s’inscrit dans le mouvement de la Science Ouverte (Open Science). La Science Ouverte est un mouvement mondial qui veut développer : « une approche transversale de l’accès au travail scientifique, des visées du partage des résultats de la science mais aussi une nouvelle façon de FAIRE de la science en ouvrant les processus, les codes, les méthodes  [1] ».

L’ouverture des données de la recherche a des retombées positives importantes pour les chercheurs et la science :

  • en permettant un plus grand contrôle et une plus grande transparence dans les publications scientifiques qui étaient la plupart du temps publiées sans les données ayant permis leur existence
  • en augmentant la visibilité et l’impact d’une étude
  • en faisant progresser la science plus rapidement notamment grâce à la réutilisation des données et à la possibilité de réaliser des méta-analyses

L’ouverture des données de la recherche aura aussi un impact au niveau économique (en évitant de recréer des données qui sont déjà disponibles et en permettant leur réutilisation par des entreprises), au niveau de la société (en incluant les citoyens et en leur donnant davantage confiance dans la science). L’ouverture des données de la recherche représente également un enjeu patrimonial pour l’histoire des sciences. Cependant, en pratique, leur gestion et leur diffusion ne va pas sans poser de problèmes.

L’IMPORTANCE D’UNE BONNE GESTION DES DONNÉES OU DATA MANAGEMENT

La quantité des données produites par la recherche augmente de façon exponentielle mais la majorité des données se perdent à cause de négligences humaines et faute d’avoir fait l’objet d’un traitement adapté. En effet, selon une étude de 2013, 17 % des données sont inaccessibles seulement deux ans après leur publication et 80 % des données de la recherche sont perdues après 20 ans  [2] ! A l’heure de l’ouverture des données de la recherche, le data management est donc devenu un enjeu majeur car il faut plus que jamais préserver ces données.

Mais comment définir le data management ? Le data management, c’est la prise en charge des données durant tout leur cycle de vie, depuis le début du projet scientifique jusqu’à sa finalisation, puis au-delà, pour permettre la réutilisation des données sur le long terme (voir schéma ci-dessous du cycle de vie des données).

Le data management permet d’assurer :

  • la collecte des données de la recherche
  • la fiabilité, la traçabilité et la sécurité des données dans le temps en empêchant leur altération, leur falsification, leur suppression.
  • le stockage pérenne des données et leur lisibilité dans le futur pour permettre leur consultation
  • l’intelligibilité des données pour des personnes extérieures afin qu’elles puissent être utilisées à nouveau  via la création de métadonnées
  • la définition des droits d’accès et de réutilisation des données

Tous ces éléments sont censés être définis en amont du projet scientifique dans le Plan de Gestion des Données (PGD), ou Data Managment Plan (DMP). Il s’agit d’un document qui fixe les processus à mettre en place tout au long de la recherche pour garantir l’accès et l’exploitation ultérieure des données. Ce document définit le projet, les acteurs du projet, les financements, décrit et explicite les données, définit les modalités de stockage et de sauvegarde, ainsi que les droits d’accès et de réutilisation. Pour que le PGD soit fiable, il faut le mettre à jour tout au long du projet. L’ouverture des données de la recherche étant devenu une priorité de la recherche publique au niveau mondial, de nombreux organismes de financements et universités exigent pour les recherches qu’ils financent la tenue d’un PGD.

IMPORTANCE DE LA GESTION DES DONNÉES POUR LEUR DIFFUSION ET LEUR RÉUTILISATION

La  gestion et la diffusion des données de la recherche sont interreliées car sans une bonne gestion, la diffusion et la réutilisation des données sont impossibles.  Tout d’abord, les principales causes de perte de données de la recherche sont des adresses e-mail obsolètes et des modalités de stockage non pérennes.

Ces causes peuvent facilement être évitées lorsqu’on définit un PGD. Ensuite, les données doivent pouvoir être exploitées par d’autres équipes de recherche d’où la nécessité de les rendre intelligibles [3]. Il faut élaborer une documentation (data paper) venant accompagner ces données. Elle devra préciser entre autres les conditions de recueil des données (la méthodologie suivie, l’échantillon, les instruments…) et comporter un dictionnaire des données. Documentation et données doivent être liées réciproquement par des identifiants pérennes.

Rendre intelligible les données passe aussi par la création de métadonnées selon des standards définis (metadata standards). Les métadonnées doivent répondre aux questions : Qui ? Que ? Où ? Quand ? Comment ? Pourquoi ? Elles sont à la fois lisibles pour un humain et pour un ordinateur ce qui permet, entre autre, un accès aux données via une requête dans un moteur de recherche [4].

Enfin, pour permettre une réutilisation directe des données, il faut, avant même la collecte, penser à la lisibilité de celles-ci dans le futur, et veiller à l’interopérabilité des données en privilégiant les formats ouverts. Par exemple, diffuser des données sous forme PDF permet leur consultation mais difficilement leur réutilisation.

ASSURER UNE DIFFUSION OUVERTE DES DONNÉES DE LA RECHERCHE

En dehors du management des données, afin d’assurer une diffusion ouverte des données de la recherche, il est nécessaire de prendre des mesures pour que celles-ci restent publiques et ne soient pas captées par des intérêts privés (comme cela a été le cas pour les publications scientifiques par les éditeurs).

En effet, Le Livre blanc — Une Science ouverte dans une République numérique établi par la DIST du CNRS  [5] qualifie de « captation abusive » l’accaparement des données scientifiques de la recherche publique par les éditeurs. En cause, le droit de la propriété intellectuelle qui, dans le domaine scientifique gêne l’accès aux publications et aux données, entrave les progrès de la science et, surtout, entraîne une privatisation de la production scientifique par les éditeurs.

La loi pour une République numérique de 2016 essaye de pallier ce phénomène en donnant la possibilité aux chercheurs (mais non l’obligation), après une période d’embargo, de déposer en libre accès leurs publications lorsqu’elles sont issues de recherches financées au moins pour moitié par des fonds publics [6]. De même, la loi pour une République numérique entend anticiper une potentielle captation par les éditeurs des données de la recherche qui empêcherait leur réutilisation [7]. Dès lors que les données sont issues de recherches financées au moins pour moitié par des fonds publics et qu’elles ne sont « pas protégées par un droit spécifique ou une réglementation particulière et qu’elles ont été rendues publiques par le chercheur, l’établissement ou l’organisme de recherche, leur réutilisation est libre  [8]. »

Certains grands éditeurs (comme Elsevier et Springer) conscients de la valeur de ces données ont encouragé les chercheurs à publier leurs données de recherche avec leurs articles [9]. Les données accompagnant les articles sont alors soumises au mêmes conditions de publication que ces derniers : leur accès est payant (abonnement) et des clauses d’exclusivités limitent la réutilisation de ces données. Cette tendance représentait le risque de voir se produire une appropriation progressive des données de la recherche par quelques grands éditeurs. En effet, les données de la recherche représentent une manne financière pour les grands éditeurs et ceux-ci, de par leur position de quasi monopole, pouvaient progressivement accaparer la plupart des données de la recherche de la même manière qu’ils avaient accaparé les articles et obliger les universités à payer pour avoir accès aux données et pour pouvoir les réutiliser. De plus, cette tendance était contraire aux exigences d’une Science Ouverte où les données de la recherche doivent être accessibles non seulement aux chercheurs mais à toute la société, et doivent pouvoir être réutilisées – y compris par des entreprises, dans un but lucratif. Le législateur a pris en compte ce risque de captation des données de la recherche par les grands éditeurs et la nouvelle loi stipule que l’éditeur d’un écrit scientifique ne peut plus « limiter la réutilisation des données de la recherche rendues publiques dans le cadre de sa publication  [10]. »

Cependant, comme l’explique le conservateur des bibliothèques et juriste Lionel Maurel [11], la nouvelle loi protège seulement les données de la recherche de la convoitise des éditeurs et non de celle des réseaux sociaux comme Academia, Research Gate ou Figshare (qui appartient d’ailleurs à MacMillian Publishers). En conclusion, la gestion et la diffusion des données de la recherche sont devenus des enjeux essentiels pour la recherche au niveau mondial. La France quand à elle avec la loi pour une République numérique a pris en compte les freins liés à sa diffusion. Cependant, reste à savoir si cette politique d’ouverture des données sera envisagée avec le déploiement de moyens humains et financiers conséquents. En effet, sans l’apport de ces infrastructures de stockage et de diffusion performantes, il est à craindre que les chercheurs ne soient pas accompagnés à la hauteur des exigences de ce développement numérique ambitieux.

NOTES

[1] DIST – CNRS, « L’application de la loi « pour une République numérique, un guide partagé pour le travail de la science, éléments de périmètre ».(DIST-CNRS (2016) Livre blanc – Une Science ouverte dans une République numérique. http://books.openedition.org/oep/1548

[2] VINES Timothy H., Arianne Albert, Rose L. Andrew, Florence Débarre, Dan G. Bock, Michelle T. Franklin, Jean-Sébastien Moore, et al. « The Availability of Research Data Declines Rapidly with Article Age. » Current Biology. Dernière mise à jour : 6 janvier 2014. http://www.cell.com/current-biology/abstract/S0960-9822%2813%2901400-0#Summary

ROBERGE Alexandre, « Les données scientifiques en voie d’extinction. Une étude fait un portrait alarmant de la recherche scientifique dont les données se perdent annuellement », publié le 08 février 2015, Dernière mise à jour de l’article le 11 mars 2015. URL : https://cursus.edu/articles/33591#.WuX9EYiFPIV

[3] INIST, formation en ligne « Une introduction à la gestion et au partage de données ». URL : http://www.inist.fr/donnees/co/module_Donnees_recherche_9.html

[4] INIST, formation en ligne « Une introduction à la gestion et au partage de données ». URL : http://www.inist.fr/donnees/co/module_Donnees_recherche_32.html

[5] DIST – CNRS. Livre blanc — Une Science ouverte dans une République numérique. Nouvelle édition [en ligne]. Marseille : OpenEdition Press, 2016 (généré le 29 avril 2018). Chapitre : « Les risques de captation abusive » URL : http://books.openedition.org/oep/1578

[6] Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique article 30. URL : https://www.legifrance.gouv.fr/affichTexteArticle.do;jsessionid=A692DA996AE58A7F36280E7CAA07FF4B.tpdila12v_2?idArticle=JORFARTI000033202841&cidTexte=JORFTEXT000033202746&dateTexte=29990101&categorieLien=id

[7] MAUREL Lionel, « L’ébauche d’un statut pour les données de la recherche ». URL : https://scinfolex.com/2016/11/03/quel-statut-pour-les-donnees-de-la-recherche-apres-la-loi-numerique/

[8] Ibidem, Loi pour une République numérique article 30. Certaines restrictions existent pour protéger les données personnelles, des données sensibles menaçant la sécurité nationale ou une valeur commerciale.

[9] Ibidem, article de Lionel Maurel

[10] Ibidem, Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique article 30

[11] MAUREL Lionel, « L’ébauche d’un statut pour les données de la recherche ». URL : https://scinfolex.com/2016/11/03/quel-statut-pour-les-donnees-de-la-recherche-apres-la-loi-numerique/