Les perspectives de l'open data juridique

II- Les limites des méthodes actuelles

2.1 Risques de ré-identification

L’efficience de méthodes d’anonymisation n’est pas garantie. Selon la nature des données ayant trait aux caractéristiques personnelles ou sensibles d’un individu pris dans le processus « raté » d’anonymisation, le risque de ré-identification est réel.

Cette non maitrise de ce risque pourrait donner lieu à des diffusions fortuites d’informations personnelles.

A ce propos, dans son article Ouverture des bases de données de jurisprudence et protection des données sensibles [13] Nathalie Metallinos donne un exemple éclairant.

Il en est ainsi d’un arrêt rendu par la cour d’appel de Nîmes publie sur Legifrance concernant un jeune homme âgé de 19 ans, qui a été grièvement blessé alors qu’il disputait un match de rugby et qui a subi un traumatisme crânien ayant occasionne un grave handicap.

Si son nom patronymique a bien été occulté, il n’en reste pas moins d’autres informations éminemment sensibles: date et lieu de naissance, numéro de sécurité sociale, commune d’habitation, date de l’accident, nom des clubs sportifs.

Cette affaire a bénéficié d’une forte couverture médiatique régionale et a été relayée en tant que « faits divers » dans les journaux sportifs.

Sans bénéficier d’une forte expertise en informatique, il suffit d’une simple recherche sur un moteur de recherche pour relier cette jurisprudence à l’évènement concerné et retrouver ainsi l’identité de la victime.

Si la ré-identification est aisée via des méthodes de recherche d’informations classiques et manuelles via un moteur de recherche quelconque, les technologies développées par le big data intensifie le risque de ré-identifier un individu.

Dans le contexte d’ouverture des données publiques via l’open data et l’émergence voire l’explosion des techniques issues du big data, l’on se rend bien compte que la ré-identification devient plus facile pour des données à caractère personnel ou confidentiel même plus « protégées ».

Par le croisement de données issues de différentes sources d’informations, la déduction d’une information initialement manquante ou parcellaire est rendue possible.

La réutilisation des données est un des principes de base de l’open data. D’ailleurs, le W3C a formalisé une démarche afin d’évaluer la valeur du jeu de données mis à disposition. Plus le nombre d’étoiles attribué sera grand, plus la valeur de réutilisation sera grande. Les données de jurisprudences « 5 étoiles » lorsqu’elles sont publiées en « Linked Open Data » facilitent le croisement des données.

Par la suite, l’on pourrait imaginer faire corréler des données entre elles.

Par exemple, le nom d’un magistrat pourrait être relié à son style de rédaction. Grâce à des méthodes spécifiques, il est possible de rattacher un texte court à un style de rédaction spécifique d’un auteur donné. [14]

Il serait alors possible de rattacher et ainsi démasquer d’éventuelles « tromperies » afin de vérifier si l’auteur d’une décision est vraiment le juge qui l’a « signé ». [15]

2.2 Solutions envisagées

Afin de contourner les risques manifestes et inévitables de ré-identification des individus par les techniques non-abouties de l’anonymisation et de la pseudonymisation, une gouvernance des données à caractère personnel et confidentiel doit être mise en œuvre.

2.2.1 Anticiper pour réduire le risque

Il s’agirait ici selon le rapport du Sénat [16] d’anticiper les risques en prévoyant dès sa perspective de mise en « open data» les modalités de ré-identifications éventuelles ainsi que les mesures à suivre sur le risque de ré-identification.

Il serait donc souhaitable de prévoir le plus en amont possible les risques de réutilisations « malveillantes » de données à caractère personnel ou sensible. Ainsi, il serait plus aisé de procéder aux ajustements nécessaires.

En cas de risques concernant les données à caractère personnel ou sensible, les administrations pourraient avoir la possibilité de ne pas mettre à disposition le jeu de données concernées. L’on pourrait aussi envisager une mise à disposition partielle revenant ainsi à l’administration judiciaire de procéder à la sélection des jurisprudences publiables sans risques sur les données permettant la ré-identification.

Le bien fondé et les finalités d’une telle démarche semblent évidents. Il s’agit notamment pour l’administration, de se prémunir du risque de « procès » des personnes ainsi ré-identifiées. L’on pourrait imaginer dans ce contexte, l’administration rendue coupable de la non-protection des données à caractère personnel et sensible.

Toutefois, cela pose inévitablement la question même de l’open data. En effet, peut-on encore qualifier d’open data des données mises à disposition uniquement sur sélection et non réutilisables ? Dans un tel cadre, les caractéristiques de l’open data des jurisprudences voulues par le législateur ne semblent plus garanties. Rappelons ici que le critère principal est la mise à disposition totale permettant une réutilisation. L’on reviendrait ainsi au schéma connu de la diffusion des jurisprudences qui a cours avant l’émergence de l’open data, à savoir des jurisprudences sélectionnées et diffusées garantissant seulement « l’open access ».

2.2.2 Adopter une gouvernance des données à caractère personnel et confidentiel efficiente

Il est prévu également de permettre à l’administration de procéder à des contrôles sur l’usage qu’il est fait des données. En effet, avec l’évolution technologique toujours croissante, il est envisageable qu’une technologie de demain rende possible une ré-identification, là où la technologie en cours à l’instant de la mise en ligne ne le permettait pas.

Une veille active et probante devra être mise en place afin de répondre à ce risque. Il s’agirait donc de surveiller la réutilisation des données qui serait effectuée. On peut être en droit de se demander ici dans quelle mesure et par quelle méthode une telle veille serait effectuée. Compte-tenu de la lourdeur d’un tel processus, si il est réalisé entièrement par des humains, il semble difficilement réalisable.

Qui plus est, une des failles identifiées dans la mise en œuvre de l’open data juridique est le manque d’accompagnement des administrations concernées par son déploiement.

Une des recommandations formulées dans le rapport du Sénat est de« mutualiser les bonnes pratiques et les diffuser (mise en ligne) : l’expérience en matière d’anonymisation des données personnelles pourrait être non seulement mutualisée, mais également mise à disposition de tous afin de sécuriser la diffusion de données publiques issues de données personnelles ».

En somme, la pseudonymisation est la solution pour le moment retenu par l’administration, l’anonymisation restant une exception tant les solutions techniques ne semblent pas encore abouties.

Les limites de ces deux méthodes conduisent à un risque accru des ré-identification des individus. Il s’agirait donc de contourner ces méthodes en introduisant dans l’administration judiciaire, une gouvernance des données opérante et efficiente pour y faire face.

C’est un préalable indispensable à la mise à disposition des décisions de justices en open data. Si son objectif affiché est d’accroitre la transparence de la vie publique et l’améliorer les rapports entre les administrations et les citoyens, nous ne saurions alors imaginer une justice dans laquelle les justiciables hésitent à saisir la justice par peur de voir leurs données personnelles ou sensibles dévoilées.

Note —————————————————————-

[13] Cour de Cassation. « La jurisprudence dans le mouvement de l’open data : dossier documentaire / bibliographie », 20, 2016. https://www.courdecassation.fr/venements_23/colloques_4/2016_7423/open_data_35038.html.

[14] JARDINO, Michèle. Identification des auteurs de textes courts avec des n-grammes de caractères. Université Paris 3 – Sorbonne Nouvelle [en ligne]. http://lexicometrica.univ-paris3.fr/jadt/jadt2006/PDF/II- 048.pdf

[15] Cassar, Bertrand. « De la pseudonymisation et l’anonymisation des données à caractère jurisprudentiel ». Mémoire d’université, Université Paris 1 – Panthéon – Sorbonne, 2015. http://openlaw.fr/images/7/7d/Anom_Pseudo_Donn{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}C3{b23bcbc6564704ae5314c50cf6e55ef99bc09de32ef3fcb54190da321a083ca4}A9es_Justice_(CASSAR_B).pdf

[16] Gorce, Gaëtan, et François Pillet. « La protection des données personnelles dans l’open data : une exigence et une opportunité ». Rapport d’information du Sénat. Sénat, 16 avril 2014. http://www.senat.fr/rap/r13-469/r13-4697.html.

1 2 3

Les perspectives de l’open data juridique