Description
Sujet : Méthodes statistiques et de Machine Learning pour le clustering intégrant des données longitudinales
Au sein du département Corporate Strategy & Research, vous intégrerez l'équipe « Living Twins for Practitioners », riche de compétences en médecine, biologie, mathématique et informatique, et qui conduit plusieurs projets en oncologie, neurologie et cardiologie.
Dans le cadre de la diversification de nos activités en santé, vous ferez partie de l'équipe « Clinical Decision » et serez responsable de la mise en place de méthodes statistiques ou de Machine Learning permettant d'identifier les patients les plus proches d'un individu index (stratification) à l'aide de méthodes de clustering sur la base de données de patients longitudinales (i.e., variant dans le temps),et de comparer ces patients similaires avec les autres populations, pour en déduire une carte de connaissance de la maladie étudiée ainsi qu'une analyse approfondie des trajectoires de la maladie dans le temps.
Le but de ce stage sera de mettre en place et de comparer des méthodes de statistiques et de Machine Learning permettant de stratifier des patients atteints d'une maladie dont l'occurrence reste limitée et dont les mécanismes sous-jacents de la maladie restent à approfondir. Les patients seront stratifiés selon leurs caractéristiques cliniques et biologiques dont la mesure est temporelle en utilisant des méthodes de clustering adaptées pour la gestion de données longitudinales [Lu, 2024]
Un exemple d'application pourrait être le syndrome de Dravet qui est une épilepsie grave de l'enfant, d'origine génétique, qui débute avant l'âge d'un an par des crises convulsives. Le syndrome de Dravet se manifeste principalement par des crises d'épilepsie et un retard de développement et/ou des troubles de l'apprentissage qui se développent dans la toute petite enfance et qui s'intensifient avec le temps, et évoluent vers un déficit intellectuel.
Dans le cadre des maladies infantiles rares, l'évolution durant les premiers mois et années est d'une importance cruciale, mais mettre en œuvre des méthodologies dans ce contexte reste très ambitieux. Il s'agira donc de tester les méthodologies implémentées sur des maladies plus fréquentes (en oncologie par exemple) puis tester leur généralisation à des maladies plus rares. L'enjeu technique de ces travaux réside dans la prise en compte de données longitudinales pour la création de clusters de patients (dépendances des observations mesurées dans le temps, données manquantes, non linéarité des trajectoires, etc.).
[Lu, 2024] Lu, Z. (2024). Clustering longitudinal data: A review of methods and software packages. International Statistical Review.
Vos missions
Vos principales activités seront :
* Effectuer un état de l'art des méthodes de clustering existantes pour la stratification de patients reposant sur la prise en compte de données longitudinales
* Prendre en main des bases de données de patients, les nettoyer et faire des études descriptives des données
* Implémenter une ou plusieurs méthodes statistiques ou de Machine Learning pour répondre au problème posé en langage Python
* Appliquer et comparer les méthodes sur ces données
* Interpréter les résultats et les présenter sous forme résumée.
Profil recherché
Vos qualifications
Actuellement en Master 2 / Bac+5 en Ecole d'ingénieur ou Université, avec une spécialisation en Biostatistiques, Statistiques ou Mathématiques Appliquées.
Vous possédez :
* Un excellent niveau de programmation en Python et R
* De bonnes compétences en Machine Learning
De nature rigoureuse et autonome, vous aimez travailler en équipe et contribuer à des projets collectifs. Vous faites preuve d'esprit critique, d'initiative et disposez d'un bon sens de la communication.
Vous êtes à l'aise pour communiquer en anglais dans un contexte international, à l'oral comme à l'écrit.
Des connaissances en biologie et/ou en médecine seraient un plus.
Nous rejoindre c'est aussi
Intégrer une entreprise scientifique au cœur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans
Principaux avantages et bénéfices :
* Environnement multiculturel
* Cadre de travail convivial axé sur le bien-être et la santé
* Engagement en faveur de la diversité et de l'inclusion
* Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc
Informations complémentaires
Informations complémentaires
Contrat | : | Stage |
Durée du contrat | : | 6 mois |
Lieu de la mission | : | Yvelines Vélizy-villacoublay |
Niveau d'étude | : | Bac + 5 et plus : DEA, DESS, mastère, MBA... |
Poste(s) disponible(s) | : | 1 |
Poste de cadre | : |
Suivant Profil
|
Début de la mission | : | Dès que possible |
Secteur | : | Informatique, Télécommunications |