Les Plateformes universitaires de données

tableau de bord
(c) www.freepik.com

PROGEDO accompagne les chercheurs dans la gestion des données d’enquêtes et de statistiques en Sciences Humaines et Sociales

PROGEDO : DATA INFRASTRUCTURE
(c) www.progedo.hypotheses.org

La Très Grande Infrastructure de Recherche (TGIR) PROGEDO a pour objectif de développer la culture des données de la recherche mais également d’organiser et d’encourager une stratégie des données recueillies lors des enquêtes réalisées dans le cadre de la recherche en sciences sociales. Les Plateformes Universitaires de Données (PUD) ont été créées dans les Maisons des Sciences de l’Homme (MSH), elles-mêmes situées au sein des universités françaises, afin de répondre à cette volonté politique. Elles apportent leur support local aux acteurs de la recherche qui utilisent les données quantitatives en Sciences Humaines et Sociales (SHS) tout en respectant l’utilisation des données confidentielles et en proposant un environnement de travail sécurisé.

Science ouverte et TGIR

La création de différents types d’infrastructures de recherche scientifique s’est développée avec la science ouverte afin de favoriser la gestion des données tout en respectant les principes du modèle FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable). Celles-ci sont encadrées par des politiques nationales et européennes afin d’articuler une stratégie autour des résultats de la recherche entre industriels, innovation et projets de recherche. En 2008, suite à la Feuille de route nationale [1]  élaborée par le Ministère de l’Enseignement Supérieur et de la Recherche et de l’Innovation (MESRI), les TGIR ont pour attribution de mettre en place un système d’organisation des données de la recherche (description, archivage, mise à disposition) tout en sécurisant les accès aux données confidentielles et en participant à la production de grandes enquêtes pluridisciplinaires d’intérêt national. Afin de construire des connaissances et reproduire des raisonnements, l’accès aux données est devenu un enjeu de plus en plus important pour la recherche scientifique. Cependant, on peut voir que la méthode de facilitation d’accès aux données est également primordiale pour cet enjeu.

PROGEDO, une TGIR pour produire et gérer des données quantitatives en sciences humaines et sociales

Suite au rapport « Les sciences sociales et leurs données » de 1999 [2]  soumis au ministre de l’Éducation nationale et de la Technologie qui proposait la création d’un institut de diffusion des données en sciences sociales, le Comité Consultatif des Données en Sciences Humaines et Sociales (CCDSHS) a été créé (Décret no. 2001-139 du 12 février 2001). Sa mission était de définir une politique de données pour les sciences sociales. En 2008, La feuille de route des infrastructures de recherche françaises prévoyait l’existence d’une infrastructure de recherche appelée PROGEDO (Production et gestion des données en sciences sociales) ayant pour mission de développer en France une politique des données des enquêtes initiées dans le cadre de la recherche en sciences humaines et sociales. Elle a également pour ambition de valoriser les statistiques et les enquêtes publiques produites en France et en Europe. Elle doit également organiser l’accès à ces données provenant de la communauté de recherche. Elle intervient au niveau national sur le portail Quetelet Progedo Diffusion, au niveau régional sur les plateformes universitaires des données et au niveau international sur le partage de grandes enquêtes et bases de données.

Les PUD : Qu’est-ce que c’est ?

Les PUD sont situées au cœur des universités dans les facultés de Sciences Sociales et Humaines et sont au nombre de 14 : 12 hébergées dans des Maisons des Sciences Humaines (MSH) en France et 2 à l’Université de Paris et à Sciences Po. Elles sont financées à hauteur de 1 million d’euros par an par le MESRI. La première PUD a vu le jour à Lille en 2002. Elles fonctionnent en réseau et font évoluer leurs activités en relayant de l’information.

Leur rôle est d’encourager au niveau régional l’utilisation des enquêtes et des données quantitatives issues des statistiques françaises, européennes et internationales proposées par PROGEDO tout en tenant compte des spécificités de chacune au niveau territorial. Chaque PUD a sa couleur locale, par exemple la Plateforme Universitaire de Données d’Aix-Marseille Université (PUD-AMU) est spécialisée sur les données de l’aire méditerranéenne, celle de Rennes (PUD R) sur les données en Bretagne, celle de Grenoble (PUD GA) sur les données du bassin alpin etc.

Elles accompagnent également les chercheurs dans les différentes étapes d’une recherche qui nécessite des données quantitatives, et cherchent à atteindre de nouveaux publics comme les doctorants en organisant des colloques, des journées d’études, des ateliers – par exemple, la semaine Data SHS qui a eu lieu simultanément dans l’ensemble des PUD en 2020.

Comment fonctionnent-elles ?

Chaque PUD est une plateforme de compétences constituée a minima d’un ingénieur d’études et d’un référent scientifique. L’ingénieur est nommé par l’université dans laquelle est implantée la PUD. Il organise et anime l’activité, développe l’action de la PUD en accompagnant les chercheurs dans les différentes étapes liées à l’analyse quantitative : au moment de la recherche de données existantes, de la prise en main des données, du traitement des données, de l’interprétation et de la présentation des résultats des données concernées. Il est doté de fortes compétences statistiques et de motivations pédagogiques. Quant au référent scientifique, il s’agit d’un enseignant-chercheur du paysage local, qui pilote l’action de la PUD et la relaie auprès des tutelles.

Quelles sources de données y trouve-t-on ? 

Les données françaises

Le portail Quetelet-PROGEDO-Diffusion est le département de la diffusion des données françaises en sciences humaines et sociales à destination de la communauté de recherche, mis en œuvre par la TGIR PROGEDO. Les données sont issues de la statistique publique nationale (grandes enquêtes, recensements, bases de données) et de grandes enquêtes provenant de la recherche française. Le portail permet l’accès à 3 catalogues : ADISP, CDSP et INED (cf. rubrique sur les données issues de la statistique publique). Ce portail recense également les accès privilégiés aux enquêtes internationales négociés par PROGEDO comme ESS (European Social Survey), ISSP (International Social Survey Programme), SHARE (Survey on Health, Ageing and Retirement in Europe), MAFE (Migration entre l’Afrique et l’Europe) etc. Quetelet Progedo Diffusion est positionné dans la perspective des données FAIR en offrant l’accès aux données en fonction de leur niveau de sensibilité. Le standard international DDI (Data Documentation Initiative) [3]  est un protocole de documentation qui est utilisé pour rendre les données réutilisables et permettre l’interopérabilité.

Le CASD (Centre d’Accès Sécurisé aux Données) met à disposition des données confidentielles sur les entreprises et les personnes physiques en proposant un équipement garantissant un accès hautement sécurisé aux données qui lui sont confiées. Il est l’interface entre les producteurs déposants de données et leurs utilisateurs. Le CASD est un groupement d’intérêt public (GIP) de l’Etat. Il est représenté par l’INSEE (Institut National de la Statistique et des Études Économiques), le GENES (Groupe des Écoles Nationales d’Économie et Statistique), le CNRS (Centre National de la Recherche Scientifique), l’École polytechnique et HEC (École des Hautes Études Commerciales) Paris et a été créé par arrêté interministériel du 29 décembre 2018. Selon l’arrêté du 20 décembre 2018 « portant approbation de la convention constitutive du groupement d’intérêt public  Centre d’accès sécurisé aux données », le GIP « à vocation industrielle et commerciale,[il] a pour objet principal d’organiser et de mettre en œuvre des services d’accès sécurisé pour les données confidentielles à des fins non lucratives de recherche, d’étude, d’évaluation ou d’innovation, activités qualifiées de « services à la recherche » [Journal officiel de la République Française, 29 décembre 2018].[4]  

D’autre part, le GIP a de nombreux rôles. Il doit participer à la création des banques de données en regroupant les données venant de différentes sources (opération appelée l’appariement de données) et en les rendant anonymes. Il doit décrire et stocker les données confidentielles mais également assister aux séances organisées par le Comité du Secret Statistique afin de donner un avis sur la communication de données couvertes par le secret statistique [5]  ou fiscal. Il a aussi pour mission d’accompagner l’ensemble des utilisateurs de ces données confidentielles, d’aider à l’homologation des résultats de la recherche venant des données sensibles. Pour finir, le CASD prend part au déploiement permettant d’accéder aux données confidentielles en France, en Europe et à l’international.

Les données confidentielles très détaillées sont accessibles via le CASD en faisant une demande d’accès adressée au Comité du secret statistique pour les données de l’INSEE, du Ministère des Finances-DGFiP, du Ministère du Travail-DARES, du Ministère de l’Environnement-SDES et DPMA, du Ministère de l’Agriculture-SSP, du Ministère de l’Éducation Nationale-DEPP et du CEREQ. De plus, l’utilisateur doit assister à une séance d’information et de sensibilisation obligatoire, appelée séance d’enrôlement. Au cours de cette séance, une carte d’accès à puce sur laquelle sera enregistrée une empreinte digitale sera remise à l’utilisateur.

Zoom sur la certification de résultats : Cascad-CASD[6] 

Le CASD et l’agence de certification CASCAD se sont réunis afin de proposer à la communauté de recherche une certification permettant de mentionner la reproductibilité des données confidentielles d’une publication scientifique qui sont hébergées au CASD. L’objectif de ce partenariat est de sécuriser la certification : le code portant sur les données confidentielles est exécuté par une personne habilitée. Cela peut être le DOI (Digital Object Identifier), la version, les sources, les produits…

Cascad est adossée au CNRS et est financée par trois instituts : l’université d’Orléans, le CNRS et HEC Paris

Circuit de la certification CASCAD – Image issue du site web : « CASD, https://www.casd.eu»

Circuit de la certification CASCAD

L’ADISP (Archives de Données Issues de la Statistique Publique) diffuse des enquêtes et bases de données produites par l’INSEE, plusieurs services statistiques ministériels et institutions de recherche publique.

Le CDSP (Centre de Données Socio-Politiques de SciencesPo) diffuse des enquêtes quantitatives et qualitatives, ainsi que les résultats électoraux du Ministère de l’intérieur.

INED (Institut National d’Études Démographiques)[7] est un catalogue d’enquêtes socio-démographiques de l’Institut depuis 1945.

ELIPSS (Étude Longitudinale Par Internet Pour les Sciences Sociales)[8] est un dispositif d’enquêtes par internet destiné à la communauté scientifique. Il vise à combler l’absence de moyens d’enquête par questionnaires dédiés aux chercheurs en sciences humaines et sociales. Ce panel est mis en place par le CDSP.

Les enquêtes qualitatives BeQuali[9]  est une banque d’archivage d’enquêtes qualitatives en science politique et en sociologie proposée par le CDSP.

Les données européennes 

Le CESSDA (Consortium of European Social Science Data Archives)[10] est le réseau européen des centres d’archives de données en sciences sociales. Son catalogue contient les métadonnées des données dans un environnement sécurisé. Il adhère aux principes de données FAIR pour rendre les données trouvables et fournir des informations sur les données (où elles se trouvent, comment elles sont accessibles). Il propose des outils et des services à la fois aux producteurs de données et aux réutilisateurs de données.

EUROSTAT[11] est le fournisseur de statistiques en sciences sociales de la Commission Européenne. Il produit des statistiques européennes en partenariat avec les instituts nationaux de statistique et d’autres autorités nationales des États membres de l’UE. Ce partenariat est connu sous le nom de Système Statistique Européen (SSE).

Il existe également ESS (European Social Survey), SHARE (Survey of Health, Ageing and Retirement in Europe), GGP (Generation and Gender Program), EU-SILC (Survey on Income and Living Conditions), ISSP (International Social Survey Programme), EVS (European Values Study), EWCS (European Working Conditions Survey), MAFE (Migrations between Africa and Europe), LIS (Cross-national data center in Luxembourg), EES (European Election Studies).

Les données internationales 

Au niveau international, il y a de nombreux sites de centralisation de données : l’ICPSR (Inter-university Consortium for Political and Social Research), l’OCDE (Organisme de Coopération et de Développement Economique), WVS (World Values Survey) etc.

Quel outil de traitements de données est utilisé ?

La SD-Box est un boîtier qui donne accès à l’infrastructure centrale du Centre d’Accès Sécurisé aux Données (CASD). Il permet aux personnes qui utilisent ou déposent des données de travailler dans un environnement de travail sécurisé et certifié par le comité du secret statistique. 

La PUD va accompagner les utilisateurs de cette box pour explorer des données confidentielles, les exploiter et croiser les différentes sources de données. Enfin, elle les aide également à préparer le dossier d’habilitation auprès du comité du secret statistique.

Zoom sur le comité du secret statistique

Il veille à l’accès des données couvertes par le secret statistique ou par le secret fiscal. Le respect des règles du secret statistique permet d’assurer aux personnes, dont les informations sont données à l’établissement de statistiques, la confidentialité sur leur vie personnelle et familiale, et aux entreprises, le secret commercial.

 

Comme nous avons pu le voir, les PUD permettent d’informer le plus largement possible sur l’ensemble des enquêtes documentées disponibles en France. La majorité des jeux de données à échelle nationale sont accessibles via le portail Quetelet Diffusion, mais également sur les points d’accès aux enquêtes européennes et internationales. Par ailleurs, force est de constater que l’accompagnement humain des chercheurs aux outils informatiques dans la gestion des données (choix des données disponibles et des méthodes pour en tirer le meilleur parti) est la mission remplie par les PUD. Elles permettent de rendre les données statistiques disponibles numériquement en alliant formation en sciences des données et en sciences numériques.

Notes

[1] https://cache.media.enseignementsup-recherche.gouv.fr/file/Infrastructures_de_recherche/62/2/feuille_route_tgir_2008_527622.pdf

[2] https://www.education.gouv.fr/les-sciences-sociales-et-leurs-donnees-12923

[3] https://ddialliance.org/

[4] https://www.casd.eu/wp/wp-content/uploads/joe_20181229_0301_0053.pdf

[5] https://www.comite-du-secret.fr/

[6] https://www.casd.eu/

[7] http://nesstar.ined.fr/webview/

[8] https://quanti.dime-shs.sciences-po.fr/fr/

[9] https://bequali.fr/fr/

[10] https://www.cessda.eu/

[11] https://ec.europa.eu/eurostat/web/main/home

Bibliographie

Oliveau S., Blöss-Widmer I., Doignon Y., Belsunce C. de (2020). Aix-Marseille University SSH data platforms : Skills to support research in social sciences and humanities (SSH) in the Mediterranean. Égypte/Monde arabe, 2 (22), pp. 95-105. https://www.cairn.info/revue-egypte-monde-arabe-2020-2-page-95.htm

Plates-formes universitaires de données. (s. d.). Progedo. http://www.progedo.fr/promouvoir/plates-formes-universitaires-de-donnees/

Progedo. (2019). Quetelet Progedo Diffusion : Enquête de satisfaction. http://www.progedo.fr//app/uploads/2019/07/EnqueteQueteletProgedoDiffusion2019.pdf

Oliveau, S. (2020). Charte des Plateformes Universitaires de Données. http://www.progedo.fr//app/uploads/2020/07/Charte_des_PUD_2020-06-15.pdf

Donati, CS (2020.30.03). Entretien avec Clément de Belsunce. https://oaamu.hypotheses.org/1919

Dury, C. (2009.05.06). Jean-Marie Duprez, responsable de la Plateforme Universitaire de données de Lille (PUDL) présente les missions de la PUDL. 25 images SHS. https://25images.msh-lse.fr/data_shs/video/intervention-de-jean-marie-duprez/fr

Cour des comptes. (2019). Le pilotage et le financement des très grandes infrastructures de recherche. https://www.ccomptes.fr/system/files/2019-07/20190717-cahier-annexe-TGIR-2.pdf

Ministère de l’économie et des finances. (2018). Arrêté du 20 décembre 2018 portant approbation de la convention constitutive du groupement d’intérêt public « Centre d’accès sécurisé aux données ». https://www.casd.eu/wp/wp-content/uploads/joe_20181229_0301_0053.pdf

MESRI. (2018). La Feuille de route nationale des Infrastructures de recherche. Enseignement supérieur de la recherche. https://www.enseignementsup-recherche.gouv.fr/cid70554/la-feuille-de-route-nationale-des-infrastructures-de-recherche.html

Silberman, R. (1999). Les sciences sociales et leurs données. https://www.education.gouv.fr/les-sciences-sociales-et-leurs-donnees-12923

Varieras, F. (2017). Présentation Plateforme universitaire de données Strasbourg (PUD-S). https://glisss.hypotheses.org/files/2017/07/Pr%C3%A9sentation_PUDS.pdf

PUD Maison Méditerranéenne des Sciences de l’Hommes (2020). Présentation Progedo : tour national des données de la recherche. https://pud.mmsh.univ-aix.fr/wp-content/uploads/2020/01/Pr%c3%a9sentation-PROGEDO.pdf

Buléon, P. dir. de la publication (2018). Progedo Actu (n°14). https://www.mshb.fr/sites/default/files/PGDactu14.pdf

Chauvel, B., Pannetier, J., Tandar, S. & Tudoux, B. (2021). La Plateforme Universitaire de Données de Nanterre : un service dédié aux données d’enquêtes et aux statistiques à Paris Nanterre. https://pointcommun.parisnanterre.fr/medias/fichier/pudn-point-commun-06012021_1609936415962-pdf

Da Costa, A., Elegbede, C. (2019). Ouverture des données : spécificités dans le domaine des Sciences Humaines et Sociales. https://databfc2.sciencesconf.org/data/program/12_DataBFC2A_DaCosta_CElegbede_SHS.pdf

Zolotoukhine, E. (2019). Les catalogues des bases de données de Quetelet-PROGEDO Diffusion : Webinar de Tuto@Mate. https://mate-shs.cnrs.fr/wp-content/uploads/2020/04/tuto19-slides-zolotoukhine-catalogue-progedo.pdf

Marie, M., Niaré, A. (2019). Plate-forme universitaire de données de Caen (PUDC) : rapport d’activité 2019-2019. https://www.unicaen.fr/recherche/mrsh/sites/default/files/public/node/docs/Rapport%202018-2019%20PUDC.pdf