La Fairisation des données de la recherche médicale

(c) www.pixabay.com

Dans le secteur médical, la protection de l’information est un enjeu crucial puisque les chercheurs manipulent fréquemment des données sensibles. Par ailleurs, la pandémie actuelle a mis en lumière l’urgence à les partager et/ou à les réutiliser. Les principes FAIR, conçus principalement par des spécialistes des sciences du vivant[1], apparaissent donc comme particulièrement pertinents pour inscrire la recherche médicale dans le mouvement de la science ouverte.

(c) www.pixabay.com

L’Union européenne (UE) rend désormais obligatoire la FAIRisation des données de recherches qu’elle finance[2]. La mise en œuvre de ce modèle repose sur des infrastructures techniques qui permettent de stocker des (méta)données, ainsi que sur l’implication des acteurs du terrain. Comme le soulignait en 2019 un groupe d’experts de la Commission européenne, l’un des défis majeurs est de faire évoluer les pratiques des chercheurs[3]. Ils ne pensent en effet pas forcément à réaliser un Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) en amont à leur projet. En France, deux études récentes[4] ont par exemple mis en lumière un faible recours aux dispositifs institutionnels existants pour le stockage et l’archivage pérenne des données de la recherche. La réussite de l’implémentation des principes FAIR dépend également d’une prise en compte des spécificités des champs disciplinaires. Il existe en effet des différences en matière de méthodes de collecte et de partage des données, d’origine des financements, de modèles économiques éditoriaux ou d’importance accordée au facteur d’impact.  Qu’en est-il du fonctionnement de la recherche médicale ?

LES CARACTÉRISTIQUES DE LA RECHERCHE MÉDICALE

Des disciplines diverses

La recherche médicale concerne les disciplines liées à la santé humaine et animale. Si l’on se réfère au classement disciplinaire du Conseil national des universités (CNU) français, l’enseignement et la recherche dans ce domaine impliquent bien évidemment les spécialités médicales, mais également, par exemple, les sciences infirmières (section 92), les sciences physico-chimiques et l’ingénierie appliquée à la santé (section 85), les neurosciences (section 69) ou la biochimie et la biologie moléculaire (section 64). L’équivalent helvétique du CNRS, le Fonds national suisse de la recherche scientifique (FNS), a dressé une liste des disciplines représentées en son sein et distingue notamment la médecine expérimentale (pathophysiologie, immunologie, éthologie, etc.), clinique (chirurgie, neurologie, médecine vétérinaire, gériatrie, etc.), préventive (toxicomanie, accidents, maladies cardio-vasculaires et infectieuses, etc.) et sociale (diététique, problèmes médico-sociaux, statistiques, santé publique, etc.). En principe, une collaboration active entre chercheurs provenant de filières différentes est donc possible, mais elle dépend de l’organisation interne des structures et/ou de la nature des projets. Dans tous les cas, l’interdisciplinarité s’étend désormais aux sciences dites « dures », via l’application de méthodes issues des sciences sociales ou de la psychologie. La Bibliothèque nationale de médecine des Etats-Unis a d’ailleurs intégré dans l’arborescence de MeSH, son thésaurus de référence mondiale, des termes issus des sciences humaines et sociales qui permettent de rendre compte de cette approche lors de l’indexation[5].

La littérature scientifique évoque fréquemment la recherche biomédicale. À quoi se réfère-t-on exactement ? Il s’agit d’une catégorie transdisciplinaire qui, pour certains chercheurs, apparaît comme une « convergence entre biologie et médecine (…) rendue possible par la croissance de l’industrie pharmaceutique »[6] et, pour d’autres, le résultat des « transformations technico-scientifiques qui sont intervenues dans le domaine de la médecine »[7]. Selon l’article L11221-1 du code de la santé publique français, la recherche biomédicale concerne « les recherches organisées et pratiquées sur l’être humain en vue du développement des connaissances biologiques ou médicales »[8].

Recherche fondamentale versus recherche clinique

Comme l’indique l’Inserm, la recherche médicale se divise en deux volets. La recherche fondamentale, d’une part, vise à produire des connaissances sur le fonctionnement des organismes vivants et s’appuie sur l’expérimentation. La recherche clinique, d’autre part, concerne les études menées sur l’être humain.[9] L’industrie, qui peut mobiliser plus de moyens et attend un retour sur investissement, finance essentiellement de la recherche clinique.

Le poids du secteur privé

Contrairement aux sciences humaines et sociales, le secteur médical compte un nombre important de financements provenant du secteur privé. En 2001, J. Martin revenait déjà sur les débats concernant les conflits d’intérêts qui traversent le domaine médical en raison des liens entre les chercheurs et les industriels. L’auteur faisait remarquer que de nouveaux traitements, servant à traiter des maladies répandues dans les pays riches, étaient régulièrement commercialisés tandis que les malades des pays pauvres n’avaient toujours pas accès à des traitements pour soigner des maladies les touchant particulièrement (VIH, paludisme, etc.).[10] La crise sanitaire engendrée par le Covid-19, a mis en évidence pour l’opinion publique les problèmes éthiques liés à la présence d’industriels dans le secteur pharmaceutique. Les brevets, qui permettent aux big pharma de s’assurer des bénéfices considérables, mettent en péril le bien commun. Le PDG de la société Moderna détient d’ailleurs une fortune estimée à 3,5 milliards d’euros[11]. Au regard de ce contexte commercial, on peut donc s’interroger sur les pratiques en matière de partage des données de la recherche médicale.

Quelques acteurs de la recherche médicale en France

 Dans le secteur public :

  • Inserm
  • Institut Pasteur
  • INRAE
  • Centres hospitaliers universitaires (CHU)…

 Dans le secteur privé :

  • bioMérieux
  • Sanofi Pasteur
  • Fondation Bioderma
  • Fondation pour la Recherche Médicale (FRM)…

Pratiques éditoriales

Le marché de l’édition médicale génère des revenus colossaux, évalués à 11,9 billions de dollars en 2017 et dont la croissance est estimée à 4,6% en 2021[12]. D’après une étude britannique de Jisc[13], le champ biomédical se caractérise par un taux de publication élevé, un recours fréquent à la co-écriture et la prépondérance des articles sur les monographies. L’enquête Couperin 2019 sur les pratiques des chercheurs français en matière de science ouverte révèle les différences disciplinaires et quelques spécificités des sciences du vivant et de la médecine (SVM). Tout d’abord, la langue dominante de communication dans les SVM est l’anglais[14]. Dans ce domaine, les chercheurs paient fréquemment des frais de publication dans des revues en open access (Article Processing Charges, APC), contrairement aux lettres et sciences humaines, où cette pratique est marginale[15]. Enfin, le facteur d’impact est un critère de choix fondamental pour plus de 90% des répondants issus des SVM[16]. Le dépôt de preprints ou d’articles dans des archives ouvertes peut être un indicateur du degré de maturation des disciplines vis-à-vis de la FAIRisation des données. On remarque que la pratique du dépôt dans des preprints est plus rare en médecine, pharmacologie et sciences du vivant.[17] En outre, seul un peu plus de 20% des répondants issus des SVM dépose régulièrement ses travaux dans une archive ouverte (taux le plus faible)[18].

LES DISPOSITIFS TECHNIQUES DE GESTION DES DONNÉES DE LA RECHERCHE MÉDICALE

La FAIRisation des données de la recherche fait partie du deuxième axe du Plan national français pour la science ouverte de 2018. Dans ce cadre, le comité pour la science ouverte a récemment constitué deux groupes de travail pour la recherche en santé. Le premier concerne les plans de partage des données issues des essais cliniques et le second un projet de portail des études individuelles en santé.[19] La mise en œuvre du modèle FAIR repose justement sur une gestion réfléchie du cycle de vie de la donnée, ainsi que sur des infrastructures qui facilitent le partage et la réutilisation des (méta)données.

L’interopérabilité

Afin de faciliter le partage et la réutilisation des (méta)données, les entrepôts de données doivent intégrer des langages et syntaxes garantissant leur interopérabilité. En voici deux exemples.

  • Fast Healthcare Interoperability Resources (FHIR)

Le FHIR est un standard dont la dernière version a été publiée en 2019. Il permet l’échange des données médicales dans le respect de leur intégrité. Il repose sur la notion de ressource, un format devant permettre de la décrire (UML, XML, JSON). Des métadonnées lui sont associées. En outre, elle doit pouvoir être lisible par l’humain[20]. L’un des projets de la communauté vise justement à lier les modèles FHIR et FAIR[21].

  • Set of Common Data Elements for Rare Diseases Registration

Ce CDE a été conçu par un groupe de travail de l’Union européenne. Il est composé d’une série de 16 éléments servant à décrire les données disponibles dans les dépôts dédiés aux maladies rares. Un code correspond à chaque élément. Parmi ceux-ci, on peut citer : le pseudonyme du patient, l’âge d’apparition des premiers symptômes, l’âge du diagnostic, le diagnostic génétique ou le consentement pour la réutilisation de ses données à des fins de recherche.

Les entrepôts 

En tant que pays associé à l’Espace européen de la recherche (EER), la Suisse participe à de nombreux projets de l’UE. Le FNS a amorcé sa transition vers la FAIRisation des données dans le cadre de sa politique institutionnelle Open Research Data (ORD). La présentation d’un PGD est obligatoire pour toute demande de financement depuis 2017. Les coûts liés à la mise en œuvre du PGD sont pris en compte dans les financements, mais les chercheurs doivent sélectionner des dépôts qui répondent aux critères FAIR. Le FNS a donc dressé une liste d’entrepôts satisfaisants[22], ainsi qu’une check-list permettant d’en identifier d’autres qui respecteraient aussi ces critères. En effet, comme le note un dernier rapport du groupe d’experts sur les principes FAIR de l’EOSC, bien que ces principes ne soient souvent pas évoqués de manière explicite, certains dispositifs, de fait, les mettent en pratique[23]. Quels sont donc les critères du FNS ? Premièrement, un identifiant pérenne doit être attribué aux jeux de données. Deuxièmement, les dépôts doivent permettre le téléchargement des métadonnées, publiquement accessibles indépendamment des restrictions sur le texte intégral. Troisièmement, la licence doit être clairement stipulée. Quatrièmement, le dépôt doit spécifier dans quel format soumettre les données pour garantir leur interopérabilité. Cinquièmement, ce dépôt doit avoir un plan d’archivage pérenne.

Dans la liste d’entrepôts respectant les principes FAIR, on en retrouve justement pour les sciences du vivant.

  • ArreyExpress

Cet entrepôt qui est en train de fusionner avec BioStudies[24] stocke des données issues de recherches expérimentales en génomique, pouvant être réutilisées par la communauté.

  • GenBank

Cet entrepôt états-unien contient des séquences d’ADN.

  • PRoteomics IDEntifications Database (PRIDE)

Le dépôt de données se fait grâce à un outil fourni par PRIDE.

  • RCSB Protein Data Bank

Cet entrepôt contient des données biologiques sur les protéines et les acides nucléiques. Le dépôt s’effectue à l’aide de divers outils permettant de convertir aux bons format (PDB, PDBx/mmCIF, PDBML/XML, etc.) les données puis de les valider.

  • Sequence Read Archive (SRA)

Il s’agit de la plus grande base de données publique donnant accès à des séquences d’ADN.

L’infrastructure ELIXIR

Ce dispositif coordonne et soutient des ressources bioinformatiques (bases de données, outils, logiciels, etc.) dans le domaine des sciences du vivant qui respectent les principes FAIR. ELIXIR met à la disposition de la communauté scientifique cinq plateformes : Tools, Data, Compute, Interoperability et Training. En définitive, cette infrastructure européenne de grande envergure aborde toutes les questions liées à la FAIRisation des données : standards, interopérabilité, reproductibilité, logiciels, workflows, stockage, formation, etc. Parmi les bases de données soutenues par ELIXIR, on retrouve ArrayExpress et PRIDE.

Le projet FAIR4Health

Ce projet transnational coordonné par le CHU de Séville mobilise 17 pays d’Europe. Financé par le programme Horizon 2020, il vise à implémenter les principes FAIR dans la recherche médicale. L’un des objectifs du projet est de développer une plateforme dédiée à la FAIRisation des données de la recherche[25]. Dans ce cadre, les participants ont créé des outils permettant aux chercheurs de transformer leurs données brutes en jeux de données respectant les principes FAIR. Ces outils intègrent les spécifications FHIR.

CONCLUSION

De nombreuses initiatives existent, essentiellement portées par des fonds européens, pour mettre en œuvre la FAIRisation des données issues de la recherche médicale. Les entrepôts actuels concernent particulièrement le domaine de la génétique. Systématiser l’application des principes FAIR permettra sur le long terme de faciliter le partage et la reproductibilité de données essentielles pour la recherche en santé publique. En outre, la mise à disposition au plus grand nombre de ces données contribuera à favoriser la confiance citoyenne en la science, ainsi qu’à mettre en œuvre des politiques publiques de manière plus transparente. Le deuxième Plan national pour la science ouverte français, présenté en juillet 2021, évoque d’ailleurs les recherches en santé et la nécessité de « réduire le biais de publication, qui est la tendance à ne publier que les études ayant obtenu un résultat positif, au détriment des résultats peu concluants ou négatifs »[26]. Rappelons néanmoins que la FAIRisation des données n’implique pas leur ouverture automatique car des restrictions validées par la loi persistent, d’autant plus dans le champ médical.

NOTES

[1] Jaime Delgado et al., Approaches to the integration of TRUST and FAIR principles, présentation du 24 mars 2021 au SWForum.

[2] Cathrin Stöver et Karel Luyben, EOSC strategic implementation plan, p. 18.

[3] Turning FAIR into reality, p.11.

[4]  Les enquêtes de Hans Dillaerts et al. et CommonData.

[5] Voir les branches I et K de MeSH : https://meshb.nlm.nih.gov/treeView

[6] Martin Benninghoff et al., p.12.

[7] Id.

[8] https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000006685827/2008-01-29/

[9] La recherche à l’Inserm : https://www.inserm.fr/recherche-inserm

[10] Jean Martin, p.91.

[11] Le Figaro : https://www.lefigaro.fr/flash-eco/quatre-nouveaux-milliardaires-francais-entrent-au-classement-forbes-20210406

[12] Rob Johnson et al., p.22.

[13] Ibid., p.61.

[14] Françoise Rousseau, p.12.

[15] Ibid., p.29.

[16] Ibid., p.69-70.

[17] Ibid., p.47.

[18] Ibid., p. 40.

[19] Comité pour la science ouverte : https://www.ouvrirlascience.fr/deux-nouveaux-groupes-de-travail-pour-la-recherche-en-sante/

[20] https://hl7.org/FHIR/overview.html   

[21] FAIRness for FHIR (FHIR4FAIR) : https://confluence.hl7.org/pages/viewpage.action?pageId=91991234

[22] FNS : http://www.snf.ch/fr/leFNS/points-de-vue-politique-de-recherche/open_research_data/Pages/depots-de-donnees.aspx

[23] Six recommentations for implementation of FAIR practice, p.17.

[24] https://www.ebi.ac.uk/biostudies/

[25] Vasiliki : https://mediaserver.unige.ch/play/137375

[26] MESRI : https://www.ouvrirlascience.fr/wp-content/uploads/2021/06/Deuxieme-Plan-National-Science-Ouverte_2021-2024.pdf

 

RÉFÉRENCES

Benninghoff, M. ; Ramuz, R.; Lutz, A. (2014). La recherche biomédicale en Suisse : Espace social, discours et pratiques. Observatoire Science, Politique et Société (OSPS), Université de  Lausanne. https://www.swir.ch/images/stories/pdf/fr/SWIR_2_2014_Recherche_biomedicale.pdf 

Code de la santé publique—Version en vigueur du 19 avril 2006 au 26 février 2010. (2010). https://www.legifrance.gouv.fr/codes/article_lc/LEGIARTI000006685827/2008-01-29/ 

Comité pour la science ouverte—Deux nouveaux groupes de travail pour la recherche en santé. (2021). Ouvrir la sciencehttps://www.ouvrirlascience.fr/deux-nouveaux-groupes-de-travail-pour-la-recherche-en-sante/ 

Comité pour la science ouverte—Déclaration de partage des données issues des essais cliniques. (s. d.). https://www.ouvrirlascience.fr/plan_de_partage_des_donnees_issues_des_essais_cliniques/?menu=1 

Turning FAIR into reality—Final report and action plan from the European Commission expert group on FAIR data. (2018). European Commission. https://op.europa.eu/en/publication-detail/-/publication/7769a148-f1f6-11e8-9982-01aa75ed71a1 

Delgado, J., Alvarez Romero, C., & Martinez Garcia, A. (s. d.). Approaches to the integration of TRUST and FAIR principles. Universitat Politècnica de Catalunya, Barcelona, Spain.  présentation du 24 mars 2021 au SWForum. https://www.swforum.eu/sites/default/files/1stSwForumWs_paper_6.pdf  

Dillaerts, H., Paganelli, C., Verlaet, L., & Catherine, H. (2020). Usages et pratiques en lien avec les données de recherche. Une enquête menée auprès des chercheurs de l’université Paul-Valéry Montpellier 3. HALhttps://halshs.archives-ouvertes.fr/halshs-02902710 

Elixir. (s. d.). https://elixir-europe.org/ 

European Open Science Cloud (EOSC). (2020). Six Recommendations for Implementation of FAIR Practicehttps://op.europa.eu/en-GB/publication-detail/-/publication/4630fa57-1348-11eb-9a54-01aa75ed71a1/language-en 

Fast Healthcare Interoperability Resourceshttps://hl7.org/FHIR/index.html 

Fonds national suisse (FNS). (s. d.). Quels dépôts de données peuvent être utilisés ? https://www.snf.ch/fr/WtezJ6qxuTRnSYgF/dossier/points-de-vue-politique-de-recherche 

Foufi, V. (2020, octobre 22). FAIR4Health : Improving Health Research in EU through FAIR Datahttps://mediaserver.unige.ch/play/137375 

Johnson, R., Watkinson, A., & Mabe, M. (2018). The STM Report—An overview of scientific and scholarly publishinghttps://www.stm-assoc.org/2018_10_04_STM_Report_2018.pdf 

Quatre nouveaux milliardaires français entrent au classement Forbes. (2021, avril 6). Le Figarohttps://www.lefigaro.fr/flash-eco/quatre-nouveaux-milliardaires-francais-entrent-au-classement-forbes-20210406 

Martin, J. (2001). Recherche bio-médicale : Intérêts privés et intérêt public. Santé Publique13(89), 89‑93. https://doi.org/10.3917/spub.011.0089 

Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation. (2021). Deuxième Plan national pour la science ouverte—Généraliser la sicence ouverte en France 2021-2024https://www.ouvrirlascience.fr/wp-content/uploads/2021/06/Deuxieme-Plan-National-Science-Ouverte_2021-2024.pdf 

Robin, A., Frontini, F., Caillou, E., Amiel, P., Lacour, P.-Y., & Svendro, A. (2020). Résultats de l’enquête CommonData : Pratiques de gestion des données scientifiqueshttp://www.mshsud.tv/spip.php?article1014 

ROUSSEAU-HANS, F., OLLENDORFF, C., & HARNAIS, V. (2020). Les pratiques de publications et d’accès ouvert des chercheurs français en 2019 : Analyse de l’enquête Couperin 2019https://hal-cea.archives-ouvertes.fr/cea-02450324v2 

Set Of Common Data Elements For Rare Diseases Registration. European Commission Joint Research Center – Directorate F – Health, Consumers and Reference Materials Unit F.1 – Health in Society. https://eu-rd-platform.jrc.ec.europa.eu/sites/default/files/CDS/EU_RD_Platform_CDS_Final.pdf