Sandra Bringay : enseignante à l’Université Paul-Valéry Montpellier 3 en Mathématiques et Informatique Appliquées. Vous co-dirigez le Master Mathématiques et Informatique Appliquées aux Sciences Humaines et Sociales (MIASHS). Vous êtes en outre chercheur au Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM) dans l’équipe ADVANSE.
L’objectif du master que vous proposez est de former des spécialistes capables de valoriser l’ensemble des données des organisations, est-ce bien cela ? Pourriez-vous nous en dire plus sur les finalités professionnelles du Master ?
Oui. Typiquement, ce que l’on cherche à former, ce sont des spécialistes de l’analyse des données, qui vont être centraux dans l’entreprise, qui doivent connaître toutes les données produites et savent les valoriser. Ces data scientists sont opérationnels sur les aspects « collecte de données » qui peuvent être du texte, de l’image, du son et de la vidéo. Ils sont opérationnels sur les aspects « structuration » de ces données : cela implique toutes les nouvelles techniques de bases de données. Pour finir – et cela est très important – ils sont opérationnels sur les méthodes d’analyse statistique et informatique qu’il est très judicieux de combiner.
En stat comme en info, les étudiants vont apprendre des méthodes qui permettent d’avoir une vue d’ensemble sur les données et de tester des hypothèses. Nous allons explorer également des méthodes sans a priori, c’est-à-dire pour lesquelles on ne sait pas ce que l’on cherche dans les données mais qui vont permettre d’identifier des régularités. L’originalité de ce master, c’est que l’on ajoute à cette chaine de traitements une brique de « Visualisation ». En effet, on va aller mettre une suite à tous ces algorithmes info et stat pour que la personne pour laquelle on travaille, l’expert, puisse s’approprier de manière interactive les connaissances issues de ces méthodes. […]
Un autre point fort du Master, c’est qu’il se déroule sous la forme de l’alternance. L’alternance c’est un rythme. Pour nous, deux semaines à l’Université puis deux semaines en entreprise. Pour leur alternance, les étudiants peuvent signer des contrats d’apprentissage, des contrats de professionnalisation et des conventions de stage. Cette organisation sous la forme de l’alternance permet aux étudiants d’avoir une expérience pro. dès le master 1.
Les activités de recherche de l’équipe ADVANCE s’inscrivent dans le domaine des grandes bases de données, i.e. Big Data, et plus particulièrement dans le domaine de l’Extraction de Connaissances et de la Fouille de Données. Dans quelle mesure votre équipe travaille-t-elle avec des linguistes, des professionnels de l’information-documentation ou en équipes pluridisciplinaires d’une manière générale ?
Nous travaillons généralement avec des équipes pluridisciplinaires.
Par exemple, nous travaillons beaucoup sur des méthodes de fouille de textes. Avec ces méthodes, nous produisons une vue statistique de ce que l’on retrouve dans les textes. Par contre, si l’on veut aller plus profondément dans la compréhension des mécanismes du texte, on est obligé de passer par un travail de linguistique. À titre d’exemple, on a travaillé cette année avec Sacha Diwersy, Maître de conférence, Praxiling, sur une méthode à base de motifs récurrents pour étudier les expressions de sentiments. […]
Sur les aspects « ontologies », nous travaillons beaucoup avec Clément Jonquet, Maître de conférences à Polytech Montpellier. Il est l’instigateur d’un projet qui s’appelle SIFR[1]. Ce projet vise à développer un serveur permettant de stocker tout un tas d’ontologies en Français, notamment « médicales », mais aussi en agronomie. Par ailleurs, dans le cadre d’une collaboration avec le statisticien Christian Lavergne de l’IMAG et Caroline Mollevi de l’ICM, nous avons proposé une nouvelle méthode pour produire automatiquement une ontologie des termes utilisés par les patients atteints d’un cancer du sein, qui a été intégrée dans Bioportal […].
On travaille également avec des spécialistes de l’information et de la communication. Par exemple, avec Céline Paganelli du LERASS et Viviane Clavier du GRESEC, nous travaillons sur les réseaux sociaux pour détecter les pratiques sexuelles à risque dans le cadre d’une collaboration avec SIDA info service. Elles interviennent pour qualifier le type d’information à rechercher dans les messages. À partir d’un petit ensemble de données étiquetées, nous pouvons appliquer des méthodes d’apprentissage pour apprendre des modèles puis automatiser la production de ces étiquettes pour une grande quantité de messages.
Nous travaillons également beaucoup avec des utilisateurs finaux de nos chaines de traitements comme par exemple des professionnels de santé. Avec Jérôme Azé, Professeur d’informatique de l’Université de Montpellier, nous étudions en collaboration avec des psychiatres du CHU de Montpellier les comportements à risque dans les réseaux sociaux. Avec le professeur Landais du CHU de Nîmes, nous travaillons également sur les trajectoires de patients à partir des données médico-économiques du PMSI[2].
Dans ces aspects pluridisciplinaires, nous sommes dans le cœur de nos métiers. Nous faisons sans cesse des allers-retours entre la théorie qui va nous permettre de développer de nouveaux algorithmes et la pratique qui va nous permettre de remonter des problèmes. […] Nos projets sont donc rarement sans expert.
Vous vous êtes spécialisée dans le domaine des méthodes de sciences des données. Pourriez-vous nous expliquer le champ d’application et le périmètre de ces méthodes ?
Je dirais que le périmètre est très large. De la collecte, au stockage, au traitement, jusqu’à la visualisation. En termes d’application, tous les domaines où l’on produit de la donnée sont concernés. Il y a l’industrie, les banques, les assurances, le web… Dès que de la donnée est produite, il y a de la donnée à valoriser. C’est ce que l’on voit dans les offres d’emploi pour étudiants du Master. Il y a deux types d’offres :
- des offres qui portent sur la production des méthodes d’analyse et de logiciels permettant d’extraire de la connaissance à partir de différentes données ;
- des offres, la majeure partie en fait, viennent des producteurs des données, issus de tous les domaines. Ce n’est pas la même finalité d’emploi. Dans ce cas, les demandes sont plus « métier ». Il est question ici d’aider les organisations à exploiter les données qu’elles produisent.
On voit d’ailleurs que les grands groupes savent déjà bien formuler ce besoin et emploient couramment le terme data scientist dans leurs offres d’emploi.
On peut donc dire que c’est en fonction du besoin perçu, du degré de maturité sur ce besoin et d’un intérêt éventuel pour des projets de Business Intelligence par exemple ?
C’est ça, tout à fait. Je pense que le besoin, il est partout : public, privé. Les données à traiter sont partout. Concrètement, ce n’est pas toujours facile car lorsque nous rencontrons les entreprises, parfois leurs données sont déjà structurées mais la plupart du temps, ce sont des fichiers Excel à agréger sur plusieurs années ! Il y a déjà donc déjà un grand travail à mener en amont pour rendre possible l’exploitation de ces données et surtout automatiser les processus.
Il faut donc que la collecte soit « propre » en amont ?
Oui, c’est ça. En général, on dit que 80% du travail du data scientist concerne le nettoyage des données, avant de pouvoir attaquer la phase plus rigolote de traitement des données. […]
Le data mining est souvent décrit comme une activité visant à donner du sens aux données. D’après vous, les activités relatives au Big data sont-elles une « extension de ce domaine d’expertise » ? Un « changement d’échelle » ?
Pour moi, ce sont deux choses différentes. D’un côté, il y a le Big Data avec ses caractéristiques (Volume, Variété, Vélocité etc.) et puis de l’autre, les méthodes de Data Mining qui vont permettre d’analyser les données qu’elles soient petites ou qu’elles soient volumineuses d’ailleurs. Parce que parfois analyser des petits jeux de données, c’est tout aussi compliqué. Le data mining c’est un ensemble de méthodes d’analyse et le Big Data c’est les données complexes que l’on analyse.
Ce que recouvrent les Big Data semble mal perçu ou mal compris par des décideurs non spécialistes. Ils sont pourtant d’une manière générale très intéressés par le potentiel de connaissances pouvant être extraites des « masses de données ». Certains acteurs économiques pensent que les projets Big Data ne concernent que les grands groupes. Pourriez-vous nous apporter votre point de vue ?
Effectivement, cela concerne évidemment les grands groupes qui ont à leur disposition de grands volumes de données. Mais cela concerne tout autant les petites organisations qui sont producteurs de données. Si on prend, par exemple, le cas d’une mairie qui va produire pour sa ville tout un tas de données sur les écoles, les transports, les aménagements… Individuellement ces données sont limitées et parfois non directement exploitables. Mais en les croisant, avec d’autres données de l’organisation ou des données issues d’autres organisations, on pourra envisager des applications originales.
Pour vous, quelle est la principale différence entre la Business Intelligence (informatique décisionnel) et le Big Data ?
Le Big Data, c’est les gros volumes de données complexes alors que la Business Intelligence, c’est tout ce qu’on va pouvoir mettre derrière en termes d’intelligence pour valoriser ces données à destination des décideurs et des dirigeants d’entreprise.
Le mot de la fin : comment voyez-vous le métier de data scientist dans une quinzaine d’années ?
Je pense que tous les aspects « stockage » sont déjà bien maitrisés ; les aspects « traitement » sont déjà bien développés. Par contre, les aspects « intelligence » sont souvent à inventer. Donc c’est un métier qui existera, je l’espère, encore dans 15 ans ! [rires]
Probablement ! Ce qu’il recouvrira, est-ce que ce n’est pas ça la vraie question ?
C’est ça. Comment il évoluera ? Je pense qu’il évoluera au gré des technologies. Là où il faudra que nos étudiants soient forts, c’est au niveau de leurs choix : savoir s’investir dans les technologies qui vont perdurer, ce qui n’est pas forcément le plus simple. Quels sont les standards qui vont ressortir de l’ensemble des technologies qui ont récemment émergé ? Je n’ai pas la réponse. C’est confronter aux usages qu’une technologie va faire ces preuves.
Il ne me reste plus qu’à vous remercier pour le partage de votre expertise.
NOTES—————————————-
[1] Semantic Indexing of French Biomedical Data Resources
[2] Programme de médicalisation des systèmes d’information
Poster un Commentaire
Vous devez vous connecter pour publier un commentaire.