Hackathon TELECOM Nancy

Le Hackathon

TELECOM Nancy, école publique généraliste en informatique et sciences et technologies du numérique, organise un Hackathon orienté Big Data en novembre. Cet événement est l'occasion de mettre en pratique les connaissances théoriques enseignées aux élèves-ingénieurs de dernière année, et de s'affronter par équipe durant une semaine sur des sujets très variés en proposant une solution innovante à leur problématique. Plusieurs sponsors participent à ce Hackathon afin de permettre aux élèves de concourir en profitant d'une ambiance conviviale.

Programme de la semaine

TELECOM Nancy met à disposition des équipes ses locaux équipés tous les jours de 8h à 23h.
Du lundi au jeudi, une présentation de l'avancement de chaque équipe a lieu de 17h30 à 18h30.
Divers évènements (Happy Pub, une soirée code/pizza, petit déjeuner...) sont organisés au cours de la semaine pour renforcer la convivialité de l'évènement.
Le Vendredi de 15h à 16h40 sont présentées les recettes des projets, suivi de l'annonce des résultats du Hackathon.

Les prix

Les prix 2021 :

600€ de cartes cadeau répartis entre 2 équipes gagnantes de 3 élèves chacunes

Les prix 2020 :

600€ de cartes cadeau

Les prix 2019 :

800€ de cartes cadeau

Les prix 2018 :

450€ de cartes cadeau

Les prix 2017 :

1500€ de cartes cadeau

Les prix 2015 :

Grand Prix : 4 cartes cadeau Fnac, valeur 800 € sponsorisé par InTech
Prix des Champions : Tablette Graphique et Casque Audio Sans Fil, sponsorisé par TELECOM Nancy

Les prix 2014 :

Grand Prix : au choix des gagnants, valeur 400 € sponsorisé par le Crédit Agricole
Prix de l'Innovation : 4 drones, valeur 600 € sponsorisé par InTech

Les projets 2021

Sujet 1 : I'm something of a painter myself

La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.

L'un des défis proposé sur Kaggle est de réaliser une IA qui puisse appliquer le style de Monet sur une photo.

Les élèves ont cependant choisi de modifier ce challenge et de l'étendre à d'autres peintres : Picasso, Van Gogh et Cox. Une interface web a été développée avec Flask afin d'avoir une application fonctionnelle et complète.

Pour ce projet, les élèves se sont appuyés sur des bases de données d'oeuvres des différents peintres qu'ils ont créé eux-même, ainsi que d'une banque de photos fournit par Kaggle pour l'entrainement des modèles.

Participant 1 : Mélanie BOSCHER, melanie.boscher@telecomnancy.net

Participant 2 : Joannès GUICHON, joannes.guichon@telecomnancy.net

Participant 3 : Léonora MARTINEZ, leonora.martinez@telecomnancy.net

Cette équipe a été sélectionnée comme équipe gagnante pour le raisonnement d'apprentissage et de construire le modèle d'IA à partir d'aucune base et la créativité du projet choisi et des extensions réalisées.

Sujet 2 : How am I feeling + G-Research Cryptocurrency Forecasting

La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.

Le premier jour, l'équipe a travaillé sur le sujet "How am I feeling ?" dont le but est de classifier des photos de visages humains en catégories heureuses et malheureuses.

Les élèves ont ensuite changé de sujet pour partir sur le sujet "G-Research Cryptocurrency Forecasting" dont le but est de prédire les valeurs de fermeture du Bitcoin.

lien du défi : https://www.kaggle.com/c/g-research-crypto-forecasting

Pour ce projet, les élèves ont réalisé une application en Python (utilisant PyQt5) permettant de charger des csv de variables correspondant aux temps et valeurs de fermeture de crypto-monnaies. Ceux-ci permettaient ensuite d'entrainer un réseau de neurone LSTM et tester le modèle obtenu afin de forecast le cours de la monnaie sur une durée au choix.

Participant 1 : Victor COUR, victor.cour@telecomnancy.net

Participant 2 : Mohammed KRIMI, mohammed.krimi@telecomnancy.net

Participant 3 : François PICHOT, françois.pichot@telecomnancy.net

Sujet 3 : House Prices - Advanced Regression Techniques

La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.

Le défi proposé par Kaggle est basé sur l'estimation du prix d'une maison à partir d'un modèle d'intelligence artificielle entrainée sur un fichier csv. Ce fichier csv comporte différentes caractéristiques et maisons ainsi que leurs prixs pour baser l'entrainement de l'IA.

Les élèves ont ensuite étendu le sujet à d'autres biens comme les voitures.

Pour ce projet, les élèves ont réalisé une application Web en Python avec Flask et des algorithmes de randomForest. L'application propose la visualisaation des caractéristiques les plus importantes et des statistiques. Il y a aussi un outil pour estimer le prix de ses propres biens. Un outil permettant d'entrainer le modèle avec encore d'autres produits et de façon systématique a commencé à être développé sans être terminé.

Participant 1 : Louise CATY, , louise.caty@telecomnancy.net

Participant 2 : Adrien MORLOT, adrien.morlot@telecomnancy.net

Participant 3 : Adrien POURRAZ, adrien.pourraz@telecomnancy.net

Cette équipe a été sélectionnée comme équipe gagnante pour la complétude de l'outil proposé ainsi que ses applications dans le monde de l'entreprise et de la finance.

Sujet 4 : Résoudre le puissance 4 par l'IA

La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.

Le défi proposé par Kaggle a pour but de créer et tester différents modèles d'IA pour résoudre des parties de puissance 4 contre d'autres IA dévoloppées sur le site.

Pour ce projet, les élèves ont réalisé 6 modèles d'IA dont les performances étaient plus que correctes ainsi qu'une IA dont les résultats étaient très bons (plus de 90% de parties gagnées) gràce à une heuristique poussée qui permettait de simuler de très nombreuses parties et réaliser des déplacements qui pouvaient mener aux possibilités qui augmentaient nos chances de gagner.

Participant 1 : Jules DUARTE VALA, , jules.duarte-vala@telecomnancy.net

Participant 2 : Nathan GUEZ, nathan.guez@telecomnancy.net

Participant 3 : Léa TOPRAK, lea.toprak@telecomnancy.net

Les projets 2020

Sujet 1 : MYRISSI

MYRISSI, startup nancéenne, a développé le 1er traducteur sensoriel, un assistant marketing basé sur des algorithmes d’Intelligence Artificielle, qui permet de naviguer à travers 3 espaces sensoriels : la vue et plus spécifiquement les couleurs, l’olfaction avec les odeurs et les parfums et enfin l’émotion, composante indissociable de toute réponse sensorielle.

MYRISSI propose une boite à outils permettant de traduire tous types d’odeurs ou parfums en couleurs et émotions et inversement, et ainsi de maximiser l’adéquation entre les développements de produits olfactifs d’un côté, et les attentes des consommateurs de l’autre. Appliquées à la relation BtoC, les technologies de Myrissi permettent de prédire scientifiquement la concordance entre une personnalité, une envie et un produit.

Dans le cadre de sa participation au CES de Las Vegas, MYRISSI a développé un fragrance finder permettant de trouver un parfum en fonction de sa personnalité et de ses envies. Ce fragrance finder est accessible ici

Ce fragrance finder fonctionne sur une base de données affectives contenant 78 items et 24 couleurs.

L’objectif de ce projet est de développer un chatbot intégrant une IA (ou une association de technologies existantes open source) permettant de sélectionner dans cette base affective de 78 items, les émotions, les traits de personnalité d’un consommateur à partir d’une phrase qu’il aurait écrite en langage naturel. Ce chatbot doit permettre à terme d’intégrer en plus les algorithmes de MYRISSI permettant de lier émotions, couleurs et parfums.

Pour résumer, actuellement, le fragrance finder de MYRISSI fonctionne avec 4 questions :

Est-ce un parfum pour homme, femme ou mixte ?
Quelles émotions doit véhiculer ce parfum ?
Quels traits de personnalité doit-il exprimer ?
Quelles sont vos couleurs préférées ?

Le nouveau chatbot devra dans l’idéal se substituer aux questions 1 à 3 et a minima aux questions 2 et 3 et permettre à l’utilisateur de se décrire, de raconter son histoire simplement avec ses mots et in fine le conduire vers le parfum qui lui conviendrait le mieux.

Contact : Muriel JACQUOT, MYRISSI, Muriel.jacquot@myrissi.fr

Sujet 2 : CyberSOC - clustering URL

Contexte:

La mission principale du CyberSOC est de détecter les menaces ciblant les SI de nos clients. Pour cela, nous collectons des données, les logs de différents équipements, auxquelles on applique différents algorithmes afin de détecter ces menaces. Cette méthode fonctionne mais a ses limites. La première est qu’elle ne permet de détecter uniquement des menaces connues, définies. Cela implique de constamment faire évoluer les mécanismes de détection. Le corollaire étant qu’on ne détecte pas ce qu’on ne connaît pas, ce qu’on ne sait pas qualifier. Enfin, ces algorithmes de détection reposent bien souvent sur une forme de logique booléenne avec des seuils de déclenchement fixes ce qui n’est pas optimal. Pour combler ce manque on utilise d’autres méthodes communément appelé « threat hunting ». Il y a différentes approches mais l’idée globale est de formuler une hypothèse de départ puis de la traduire en requête sur l’ensemble des données. Chez OCD, nous utilisons notamment une approche statistique.

Travail demandé :

Le threat hunting appliqué aux logs de connexions web consiste à utiliser cette approche statistique pour, par exemple, identifier des connexions vers des domaines à faible prévalence ou bien des navigateurs web anormaux. Cette méthode a aussi ses défauts car si l’hypothèse de base est mal formulée, il y a trop de résultats en sortie et il n’est pas possible de tous les analyser manuellement. Pour optimiser cette tâche de « threat hunting », à l’aide d’un algorithme, on souhaite pouvoir opérer un premier tri sur les données. L’intérêt étant d’isoler les logs suspects, anormaux, de ceux plus courants afin de focaliser l’analyse sur les anomalies. Dans un premier temps, on souhaite se focaliser sur les données de type log web. Ne disposant pas de jeux de données labellisés, la piste privilégiée est l’utilisation d’un apprentissage non supervisé. A partir d’un jeu de données type log web, le sujet proposé est donc de créer un algorithme permettant de partitionner les données et d’identifier les partitions (cluster) contenant des logs suspects.

Contact : Jeremy Scion, Orange Cyberdefense, jeremy.scion@orange.com

Contact : Rodrigue Lebayon, Orange Cyberdefense, rodrigue.lebayon@orangecyberdefense.com

Sujet 3 : CyberSOC - abnormal process tree

Contexte:

La mission principale du CyberSOC est de détecter les menaces ciblant les SI de nos clients. Pour cela, nous collectons des données, les logs de différents équipements, auxquelles on applique différents algorithmes afin de détecter ces menaces. Cette méthode fonctionne mais a ses limites. La première est qu’elle permet de détecter uniquement des menaces connues, définies. Cela implique de constamment faire évoluer les mécanismes de détection. Le corollaire étant qu’on ne détecte pas ce qu’on ne connaît pas, ce qu’on ne sait pas qualifier. Enfin, ces algorithmes de détection reposent bien souvent sur une forme de logique booléen avec des seuils de déclenchement fixes ce qui n’est pas optimal. Pour combler ce manque on utilise d’autres méthodes communément appelé « threat hunting ». Il y a différentes approches mais l’idée globale est de formuler une hypothèse de départ puis de la traduire en requête sur l’ensemble des données. Chez OCD, nous utilisons notamment une approche statistique.

Travail demandé :

L’approche Threat hunting appliquée à l’exécution de process est assez similaire. On va par exemple chercher des process peu répandus sur le SI. Cependant, il y a là aussi des limites avec un risque de taux de faux positifs élevé. Pour faciliter l’identification d’anomalies, on souhaite développer un algorithme qui va permettre d’identifier des filiations anormales de processus. Pour cela on dispose d’un jeu de données qui identifie par machine :

Le PID (process id) d’un processus ainsi que son nom.
Le PID du processus parent associé à son nom.
Son hash.
L’heure d’exécution.

L’objectif serait de réaliser un graph de relation est d’identifier les liaisons anormales.

Contact : Jeremy Scion, Orange Cyberdefense, jeremy.scion@orange.com

Contact : Rodrigue Lebayon, Orange Cyberdefense, rodrigue.lebayon@orangecyberdefense.com

Sujet 4 : LORIA

Défi de la conférence EGC'2022

Venez tester votre capacité à traiter des données, extraire des connaissances et les mettre en valeur, de manière compétitive et conviviale avec d'autres équipes, le tout concernant un sujet d'actualité écologique avec l'étude de l'évolution du niveau des nappes phréatiques en partenariat avec le BRGM dans le cadre de son projet NINIA ("Niveau des Nappes boosté à l'IA"). Deux verrous principaux ont été identifiés:

La prédiction de l’évolution du niveau piézométrique au cours du temps sur une période de trois mois ;
La recherche de motifs ou de séries temporelles représentatives par le biais de méthodes de partitionnement ou de recherche de motifs.

Comme les années précédentes, le jury évaluera positivement la capacité à mobiliser des informations externes pour contextualiser, enrichir et améliorer les résultats, de même que tout ce qui favorise l’interaction d'un expert avec les données ou l'explicabilité des solutions produites.

Pour répondre au défi, vous trouverez les informations ici :https://www.egc.asso.fr/manifestations/defi-egc/defi-egc-2022-prevoir-levolution-du-niveau-de-nos-nappes-phreatiques.html

A vous de jouer et de rentrer dans la compétition !

Contact : Sabeur Aridhi,LORIA, sabeur.aridhi@loria.fr

Contact : Malika Smail-Tabbone, LORIA, malika.smail@loria.fr

Les projets 2019

Sujet 1 : HITEC

La prédiction de temps de parcours ou de flux de trafic est aussi un indicateur facilement compréhensible par les usagers de la route. L’accès à un temps de parcours « prévu » leur permet de programmer leur voyage en voiture avant le départ.

Le sujet propose de créer un algorithme permettant de prédire le temps de parcours (et/ou le débit de véhicules) sur un axe autoroutier en fonction des accidents, du jour de la semaine et/ou de la météo. L’horizon de prédiction est à définir en fonction de l’erreur de précision du modèle. Le résultat de l’algorithme pourra être présenté sur un fond de carte en couleur et sur un graphique permettant de comparer le temps parcours « prévu » et réellement pratiqué.

Les données sont accessibles dans une base MongoDb (fichiers Json accessible via SCPT-REST-API) et comportent les champs suivants :m

Position du capteur de mesure en points kilométriques et en coordonnées gps
Autoroute (A6…) Sens de circulation (99) ou voie (01, 02)…par exemple Autoroute A6 WG (de Weyler à Gasperich)
Vitesse des véhicules sur une période de 6 minutes
Débit de véhicules (nombre de véhicules par période de 6 minutes)
Taux d’occupation du capteur (% de temps passé sur le capteur sur la période 6 minutes)

Les données suivantes sont des fichiers csv :

Fiches mains courantes : accidents, incident, travaux…
Calendrier des jours
Météo : humidité…

D’autres données élaborées sont également disponibles via les SCPT-TRAVEL-TIME-API (temps de parcours réel pratiqué, indicateurs de trafic…).

Technologies utilisées :

Langage python
Base de données MongoDb et fichiers Json
API (framework swagger)
IHM Js (framework Angular/Material)

Une petite bibliographie est disponible en ligne :

https://share.hitec.lu/index.php/s/Fq9x494wetpl4JI

Contact : Mohamed DJEDAI, HITEC Luxembourg S.A., mohamed.djedai@hitec.lu

Sujet 2 : Science center Luxembourg

Le Luxembourg Science-Center dispose d’une banque de donnée personnelle de ses visiteurs qu’il soigne depuis sa date d’ouverture fin 2017 et qui sera mise à disposition au groupe de travail pour en faire des études basées sur les principes de l’intelligence artificielle (arbre de décision par exemple).

Le premier but du projet est d’analyser les paramètres des visiteurs (c.à.d. : la fréquence des visites, la répartition des visiteurs sur l’année en fonction des nationalités, l’âges, la provenances, …) telle qu’ils se présentent actuellement, de déceler des causalités et de faire des prédictions pour son évolution future.

Des informations détaillées sur la démographie de la population du Luxembourg seront mis à disposition (par le LSC).

Les informations démographiques concernant la Grande Région (la Sarre, La lorraine, (Le Luxembourg), la Rhénanie-Palatinat, La Wallonie) seront à collecter sur les sites internet publics le cas échéant.

Le deuxième but à réaliser concerne la stratégie (élaborée à l’aide des principes de l’IA) à mettre en œuvre pour étendre la zone d’activité du LSC au-delà de ses frontières. En prenant en compte les différentes stratégies publicitaires (les réseaux sociaux, le bouche à oreille, la radio, les journaux, …) il importe de connaître les moyens de promotion les plus efficaces à opter pour attirer d’avantages visiteurs de la Grande Région.

Contact :

Jean-Paul GILLES, LSC, jean-paul.gilles@science-center.lu

Nicolas Didier, LSC, ndidier@science-center.lu

Sujet 3 : LORIA

Titre : Un moteur de modèles d’apprentissages automatiques

Description

Un moteur de modèles d’apprentissages automatiques, basé sur une liste des outils et des langages de programmation open sources tel que Spark, MLlib, HDFS, Pandas, Scikit-learn Flask. Ce moteur rend l’apprentissage automatique sophistiqué accessible à tous. Il propose une interface graphique aux utilisateurs et les permettant créer facilement leurs modèles d’apprentissage automatique. Ils introduisent en première étape leurs données d’apprentissage avec une large liste de paramètres pour personnalisé le modèle souhaité, et en deuxième étape le moteur d’apprentissage va créer un modèle avec les données et les paramètres sélectionnés. Une fois que le modèle a été créé il sera exposé comme étant un service web (REST) qui reste à l’écoute de toutes requêtes de l’utilisateur. Le moteur proposé peut également offrir une grande variété des taches lié à l’apprentissage automatique tel que la réduction des dimensions, la sélection des attributs, le clustering, la normalisation des données.

Besoins fonctionnel

Créer des modèles d’apprentissage automatique
Fournir une étape de prétraitement de données d’apprentissage
Évaluer les modèles générés
Exposer et déployer les modèles comme des services web pour les intégrer dans des applications déjà existantes (web, mobile ou bureau)
Permettre la modification des modèles déjà existants

Besoins non fonctionnels

Fournir des résultats des requêtes de classification en temps réel ou par lot
Séparation complète entre les modèles générés
Répondre aux besoins imprévus
La sécurité d’accès aux services web exposés
Fournir une interface graphique interactive et facile

Ce projet nécessite qu’il soit divisé en deux parties Front-End et back-End dont la répartition des fonctionnalité est la suivante :

Front-End : Fournir un tableau de bord pour l’utilisateur afin qu’il peut :

Créer des modèles
Modifier les modèles : modifier les paramètres, ajouter d’autres exemples d’apprentissage
Modifier les droits d’accès pour les modèles créés
Fournir une interface pour la préparation des données d’apprentissage
Exposer les résultats de modèles créés ( précision pour chaque classes, les centroïde pour les algorithmes de clustering,...)

Back-End: Fournir moteur de création des modèles prédictifs ou autres en fonction des données traitées par la partie front-end

Recevoir les données auprès de la partie front-end
Répondre aux requêtes envoyées par les utilisateurs à travers
Préparer les services web
Créer et enregistrer les modèles créé

Outils à Utiliser

Scikit-learn
Pandas
Flask
Spark
HDFS
NodeJS/angular

Projet de référence

EasyML, PredictionIO AsureML

Contact : Wissem Inoubli, LORIA, wissem.inoubli@loria.fr

Sujet 4 : LORIA

NER on PGxCorpus with BERT ou Amélioration des performances de la reconnaissances d’entités nommées biomédicales complexes avec PGxCorpus et BERT

La pharmacogénomique est un domaine qui étudie l’impacte des gènes sur la réponse aux médicaments. Dans ce domaine, l’essentiel des connaissances est contenu dans le texte de la littérature scientifique, et en particulier la base de données PubMed (https://www.ncbi.nlm.nih.gov/pubmed/). Le volume important de la littérature biomédicale (plus de 3 milliards d’articles) fait que des approches de traitement automatique du langage naturel (TALN ou NLP pour l’anglais Natural Language P ou NLP pour l’anglais Natural Language Processing) capables de fouiller la littérature pour en extraire de façon synthétique les connaissances d’un domaine est très intéressants pour les chercheurs du domaine.

Dans les équipes Orpailleur, Capsid et Synalpe du Loria/Inria Nancy nous avons développé récemment un corpus appelé PGxCorpus qui est annoté manuellement pour le domaine de la pharmacogénomique. L’intérêt de ce corpus est de constituer un ensemble de données d’entraînement et d’évaluation pour des modèles d’apprentissage supervisés. Nous avons démontré l'intérêt de ce corpus pour des tâches de reconnaissances d’entités nommées et d’extraction de relation, mais avec des méthodes qui ne sont pas les meilleurs de l’état de l’art actuel.

Nous proposons aux participants du Hackathon IAMD 2019 qui choisiront ce projet de développer un modèle (ou des modèles) de reconnaissances d’entités nommées (ou NER pour Named Entity Recognition), entraîné avec PGxCorpus avec les dernières méthodes de l’état de l’art pour obtenir de meilleurs performances que les nôtres.

Nous pensons notamment que le modèle BERT (Bidirectional Encoder Representations from Transformers) pourrait aider à atteindre de meilleurs performances.

Liens :

PGxCorpus peut être exploré de façon visuelle ici : https://pgxcorpus.loria.fr/

Et est téléchargeable là : https://figshare.com/s/9d315cec6bb629d04210

L’article qui le décrit est là : https://www.biorxiv.org/content/10.1101/534388v3

Une implémentation de BERT pour la tâche de reconnaissances d’entités nommées : https://github.com/kamalkraj/BERT-NER

Notre expérience en Lua : https://github.com/practikpharma/PGxCorpus/tree/master/baseline_experiment

Une roadmap possible est :

Reproduire les expériences faites avec BERT ici https://github.com/kamalkraj/BERT-NER
Adapter le format (BRAT) de PGxCorpus pour le rendre compatible avec l’expérience précédente.
Évaluer la reconnaissances des entités nommées de PGxCorpus avec BRAT.
Voir si le fine-tuning est important ?
Explorer d’autres voies d’amélioration comme l’enrichissement du corpus pour les types d’entités les moins fréquents.

Contacts :

Adrien Coulet, Loria, adrien.coulet@loria.fr

Joël Legrand (à confirmer), Loria, joel.legrand@loria.fr

Les projets 2018

myXtramile

Sujet 1

Créer un algorithme permettant de prédire les champs importants d'une offre d'emploi à partir d'un corpus de données de 10 000 offres d'emploi:

Nom de l'entreprise
Catégorie
Poste
Expériences
Ville
Pays
Code postal
Type de contrat
Compétences techniques
Compétences générales
Structure de l'entreprise
Salaire

Utiliser des algorithmes d'intelligence artificielle ( deep learning/ machine learning ) raison du choix à définir pour le groupe. Cet apprentissage permettra de faciliter et automatiser le poste des annonces sur les canaux de diffusions.

Ce travail consiste en 4 phases:
1. Pré traitement des offres d'emploi annotées en format ConLL
2. Apprentissage des offres d'emploi
3. Amélioration de l'algorithme grâce à des tests de différents algorithmes ( SVM, MLP classifier, RandomForest ...)
4. Mise en production pour un cas réel

Compétences acquises à l'issu de ce hackaton:

Langage python
Pré-traitement des données textuelles
Vectorisation des offres d'emploi
Extraction d'entités nommées ( qui est un domaine en pleine expansion utilisé dans différents secteurs d'activité: biomédicale, presse...) Algorithmes d'apprentissages
Tests et utilisation de cross validation pour valider les modèles
Création d'une api
Manipulation d'une machine virtuelle

Sujet 2

Xtramile souhaite optimiser le choix des canaux de diffusion des offres d’emploi et proposer le canal qui sera en mesure d'avoir le plus de CV pertinents possibles.

Pour cela 2 phases sont nécessaires:

Etude de correlation entre les variables d'entrée: offre d'emploi, catégorie, pays, ville, canal de diffusion, nombre de Cvs reçus, nombre de Cvs pertinents, nombre de clics, saisonnalité...
Suivant les résultats de l'étape une, création d'un clustering permettant de regrouper les offres d'emploi grâce à différents paramètres.

Bonus: Créer une API qui prendra en entrée une offre d'emploi et choisira un cluster qui permettra d'optimiser les campagnes pour choisir le meilleur job board et le budget à allouer sur celui-ci.

Compétences acquises à l'issu de ce hackaton:

Langage python
Pré-traitement des données textuelles
Vectorisation des offres d'emploi
Fouille de données dans une base de données de plusieurs millions de data
Clustering
Algorithmes d'apprentissages non supervisés ou semi supervisés ( selon le choix du groupe )
Tests et utilisation de cross validation pour valider les modèles
Création d'une api
Manipulation d'une machine virtuelle

Loria

Détection et classification de météorites

Une météorite est un objet venu de l’espace et qui traverse l’atmosphère terrestre. La plupart des météorites se désintègrent lors du passage dans l’atmosphère et une infime fraction atteint la surface de notre planète. L’étude de ces météorites permet aux astronomes de mieux comprendre les origines des planètes, les compositions chimiques et les datations des objets du système solaire ainsi que la compréhension de plusieurs autres phénomènes tel que la différenciation planétaire etc.

Récemment, plusieurs projets scientifiques (FRIPON, CAMS) se sont construits autour de la surveillance du ciel pour détecter les météorites. L’idée est simple: plusieurs caméras très sensibles filment le ciel de nuit afin de détecter d’éventuels traces d’entrée de météorites dans notre atmosphère. Un groupe de participants se relaient ensuite pour regarder et annoter ces vidéos.

Lors de ce hackathon, nous vous proposons de travailler sur des données en provenance du SETI Cameras for Allsky Meteor Survey (CAMS). Ces données (non publiques) contiennent déjà une première détection avec plusieurs attributs tels que la vitesse, l’angle, la hauteur etc de l’objet. Toute la complexité est de proposer un classifieur permettant de détecter une vraie météorites des faux positifs tels que: les orages, les avions, bruits de caméras etc. Les méthodes à tester sont (mais ce n’est pas une liste exhaustive): les arbres de décisions, SVMs, Random forests et deep learning.

Un volet visualisation de données peut être envisagé avec l’utilisation d’une librairie ThreeJS pour projeter le ciel de nuit (en 3D sous WebGL) avec les différentes étoiles, coordonnées des météorites etc. Ce travail n’est pas à refaire depuis le départ mais s’appuie sur l’excellent code de "Night Sky Viewer" (https://github.com/UXVirtual/night-sky).

Remarque: Tout résultat positif sur ce hackathon est passible d’être intégré dans le « pipeline réel » utilisé par le SETI et NASA Ames dans leur système CAMS.

Les projets 2017

myXtramile Sujet 1

Xtramile est une entité technologique visant à aider les entreprises à optimiser leur recrutement digital et la promotion de leur marque-employeur. Pour ce faire Xtramile utilise une approche programmatique groupant des outils algorithmiques, de brassage de données (Big Data) et de machine learning. Xtramile optimise le choix des canaux de diffusion ( Linkdin, Facebook, Twitter ..) selon l’offre d’emploi, et analyse les compétences techniques acquises d’un candidat et la personnalité qu’il dégage à travers son CV. De ce fait, votre objectif est l’intégration d’une api de déduction de la personnalité d’un candidat à partir de son CV. L’université de Cambridge a développé une api qui fait une analyse sémantique des CVs pour déduire des traits de caractère, https://applymagicsauce.com/
Votre but sera d’appliquer cette API à une masse de CVs extraite du web et créer une application web permettant de visualiser la personnalité du candidat.

En cas d’accident sur un axe routier, l’opérateur en centre de gestion de trafic doit intervenir le plus rapidement possible afin de réduire les perturbations pour les usagers. Dès qu’il a une alerte d’accident, il doit envoyer une patrouille et informer les usagers via un système d’aide à la décision. Aujourd’hui, ces systèmes informatiques n’intègrent pas de modules de prédictions des impacts sur le trafic en cas d’évènements inopinés. La prédiction de temps de parcours ou de flux de trafic est aussi un indicateur facilement compréhensible par les usagers de la route. L’accès à un temps de parcours « prévu » leur permet de programmer leur voyage en voiture avant le départ. Le sujet propose de créer un algorithme permettant de prédire le temps de parcours (et/ou le débit de véhicules) sur un axe autoroutier en fonction des accidents, du jour de la semaine et/ou de la météo. L’horizon de prédiction est à définir en fonction de l’erreur de précision du modèle. Le résultat de l’algorithme pourra être présenté sur un fond de carte en couleur et sur un graphique permettant de comparer le temps parcours « prévu » et réellement pratiqué. Les données sont accessibles dans une base MongoDb (fichiers Json accessible via SCPT-REST-API) et comportent les champs suivants :m Position du capteur de mesure en points kilométriques et en coordonnées gps Autoroute (A6…) Sens de circulation (99) ou voie (01, 02)…par exemple Autoroute A6 WG (de Weyler à Gasperich) Vitesse des véhicules sur une période de 6 minutes Débit de véhicules (nombre de véhicules par période de 6 minutes) Taux d’occupation du capteur (% de temps passé sur le capteur sur la période 6 minutes) Les données suivantes sont des fichiers csv : Fiches mains courantes : accidents, incident, travaux… Calendrier des jours Météo : humidité… D’autres données élaborées sont également disponibles via les SCPT-TRAVEL-TIME-API (temps de parcours réel pratiqué, indicateurs de trafic…). Technologies utilisées : Langage python Base de données MongoDb et fichiers Json API (framework swagger) IHM Js (framework Angular/Material) Une petite bibliographie est disponible en ligne : https://share.hitec.lu/index.php/s/Fq9x494wetpl4JI Contact : Mohamed DJEDAI, HITEC Luxembourg S.A., mohamed.djedai@hitec.lu

myXtramile Sujet 2

Xtramile optimise le choix des canaux de diffusion des offres d’emploi. Pour cela nous avons créé un système de recommandation afin de récupérer les canaux qui permettent de recevoir des CVs pertinents. Votre objectif sera de trouver une méthode efficace tels que les k plus proches voisins, le random forest ou encore le SVM afin de regrouper des offres d’emploi et pouvoir trouver des tendances afin de prédire le nombre de clics le coût par clic et le coût par CV.

1/ Créer des clusters d’offre d’emploi:
Plusieurs méthodes peuvent être utilisées : knn, clustering, cosine similarity. La phase la plus importante pour que l’algo soit le plus efficace possible est le prétraitement des données. Pour cela les ngrams peuvent être une solution. La librairie NLTK en python propose des librairies de prétraitement efficace.

2/ Arbitrage du choix des canaux à partir d’un fichier CSV:
Un fichier CSV ( talentPlug ) contenant des canaux et des écoles vous est fournis. L’objectif étant de trouver les canaux qui ont le plus de visites par mois et qui ont la même catégorie que l’offre d’emploi pour affiner le choix. Privilégier les canaux non payants. Si le canal est payant tenir compte du CPP issu de la publication sur le canal sélectionné.

3/ Arbitrage de bidding sur les canaux avancés en CPC
Pour chaque groupe de job créé, trouver des règles de cpc et essayer de prédire un cpc moyen de départ. Si cette méthode ne donne pas de bons résultats, choisir un cpc par défaut et l’augmenter selon le nombre de clics et les cvs que l’on reçoit en temps réel. Si cv pertinent et le canal pertinent relancer l’offre d’emploi sur ce canal et garder le même cpc , si le cv ou le canal n’est pas pertinent augmenter le cpc. Sinon faire une rotation et publier sur le canal suivant.
De plus, chaque offre d’emploi aura son budget à calculer en fonction du nombre d’offre d’emploi qu’il existe dans son groupe. Le budget peut changer selon les résultats reçus en temps réel.

4/ Collectionner des cookies sur Pixel pour créer des futurs lookalike ( tendance d’audiences ) sur les canaux Ad et Facebook

Les projets 2015

DataForceOne CGI / Engie : Algorithme d’appétence

La direction du marché des particuliers (DMPA) d’Engie commercialise des contrats d’énergie (gaz et électricité) ainsi que des services associés pour les particuliers.
Le service DEPEX (Dépannage Electricité) est une assistance 24h/24 et 7j/7 en cas de pannes sur les installations d’électricité pour 3,99€ TTC/mois. Ce service a été lancé en janvier 2014 et a notamment été proposé via le canal Télévente (appel d’un conseiller Engie vers notre portefeuille client).
Chaque appel d’un conseiller étant facturé, il est important pour Engie de cibler les clients les plus appétents au service pour diminuer le coût d’acquisition.
Dans ce cadre, la création d’un score d’appétence au service DEPEX est nécessaire. Les données des actions de la Télévente 2015 sont fournies à cet effet.

Application de l'équipe DataForceOne, Hackathon TELECOM Nancy 2015

Graphique de l'équipe ACDC, Hackathon TELECOM Nancy 2015

Carte de l'équipe ACDC, Hackathon TELECOM Nancy 2015

Alpha-Class Data Crunchers (ACDC) Réutilisation des données de data.gov

De plus en plus de données ouvertes sont disponibles. Certains portails, tels que data.gouv.fr ou data.gov, permettent de centraliser une grande partie des données ouvertes publiques disponibles. L'objectif au cours de es 5 jours était de trouver, de traiter et d'analyser des données de provenance diverse (consommation, pollution de l'air, natalité, etc.), ainsi que les données météorologiques, afin d'en ressortir des visualisations et éventuellement des corrélations intéressantes.

iTrackU Profilage d'internautes pour les sites des ONG

En collaboration avec iRaiser, entreprise située à Nantes, notre équipe avait pour but de mettre en place un modèle de prédiction en analysant des données de navigation d'internautes sur les sites d'ONG. Ces données, recueillies lors de visite d'une page (clic sur une image, visualisation des vidéos,scroll, commentaire), vont nous permettre de définir le profil des internautes qui ont tendance à effectuer un don dans un site ONG.

Schéma de l'équipe ACDC, Hackathon TELECOM Nancy 2015

Application de l'équipe Data 4 Dummies, Hackathon TELECOM Nancy 2015

Data 4 Dummies Data Mining sur les données de League Of Legends

De nos jours, le domaine du jeu vidéo à travers la notion d'e-sport à pris une dimension tout autre. Les enjeux financiers amènent bon nombre d'analystes et d'experts à s'y interesser de plus près. Et bien évidemment, pour des jeux de stratégies tels que League Of Legends, Starcraft ou encore DOTA, l'analyse d'une stratégie ou d'une combinaison d'équipe gagnante est forcément synonyme de fouille et d'extraction de données. C'est ainsi que notre équipe s'est vu chargée d'extraire des séquences gagnantes pour le jeu League Of Legends. À partir de ces séquences, nous sommes en mesure d'affirmer à l'utilisateur en temps réel si sa composition actuelle est gagnante ou perdante, mais également à travers un RNN, de lui indiquer le choix le plus pertinent à faire par la suite.

IMAD Comparaison d'algorithmes de recommendation musicale

Songpeek est une plateforme d’écoute de musiques utilisant les ressources de Youtube pour le contenu et Last.fm pour les métadonnées, afin de proposer un large choix de musiques avec le clip associé, le tout sans publicités intempestives.
Dans ce contexte, nous avons cherché à comparer différents algorithmes de recommandation personnalisées.

Application de l'équipe IMAD, Hackathon TELECOM Nancy 2015

Les projets 2014

Team Felicity Sécurité Routière

Mise au point d’un modèle prédictif lors d’un accident de la route pour les jeunes conducteurs, à partir de jeux de données concernant les accidents répertoriés en France, ainsi que de divers jeux de données provenant d'OpenStreetMap. Prototype d'application proposée. En savoir plus

Capture d'écran du prototype d'application de l'équipe Felicity, Hackathon TELECOM Nancy 2014

Team Big Dota Calculating your future moves for you

Web interface calculating every hero info you could want with counterpicks, general counters and team synergy ! You can also see the pick trend of your favotite hero. The data are directly extracted from pro games. The interface also possess a map visualisation web application of the main moves in a game.

echo $team_name; Réutilisation des jeux de données gouvernementaux.

Application web proposant des idées de sorties en fonction des horaires d'ouverture des musées, données utilisateurs, météo, et manifestations diverses rentrées par les utilisateurs eux-même, l'objectif étant de proposer des activités ciblées.

BADASS (Bigdata Analytics Delivery As a Skilled Service) Collecte et analyse des données d’utilisation d’un site de VOD (Citizencam)

Application Web permettant la récupération des données utilisateurs lors du visionnage des vidéos (caméra visionnée, temps passé sur chaque angle de vue ...) afin de réaliser des statistiques permettant à BH Consulting de les présenter aux futurs annonceurs qui éventuellement proposeront de placer leurs pubs là où l'utilisateur regarde le plus souvent. Ils sauront à quel moment se font les visionnages et depuis quelle position géographique.

League of Data Cartographie navigable des données biomédicales ouvertes et liées

Le but est de permettre la visualisation des liens entre des bases de données médicales et entre leurs entités. Il existe déjà de telles visualisations, c'est pourquoi il nous à été demandé d'améliorer l'intuitivité de l'interface et d'ajouter la possibilité d'insérer de nouvelles sources à travers cette application web.

Présentation de l'école

Ecole d'ingénieurs publique du Collégium Lorraine INP au sein de l'Université de Lorraine et école associée de l'Institut Mines-Télécom, TELECOM Nancy délivre un diplôme reconnu par la Commission des Titres d'Ingénieur (CTI).
Elle forme, en 3 ans, des ingénieurs généralistes en informatique et sciences et technologies du numérique.
Le recrutement se fait à Bac+2 (recrutement principal - entrée en 1ère année) et Bac+4 (entrée en 2ème année).
TELECOM Nancy est une école du Concours Mines-Télécom pour le recrutement des CPGE MP, PC, PSI, PT, TSI et ATS.

Présentation de l'approfondissement IAMD

L’approfondissement IAMD vise à former des ingénieurs en informatique capables de comprendre les problématiques propres à un métier pour guider le développement et la mise en œuvre d’un processus d’analyse à partir de données complexes et potentiellement volumineuses.
Ces compétences correspondent typiquement à celle d’un métier appelé en anglais Data Scientist. L’équivalent français parfois proposé est expert ou spécialiste des données. IAMD prépare ainsi au métier de Data Scientist mais également à de nombreux métiers connexes comme Data Miner ou Data Manager.
D’un point de vue pédagogique, cet approfondissement offre des modules d’intelligence artificielle, de fouille de données, de fouille de texte, de statistiques, de visualisation de données, et des projets concrets avec des données réelles.
Concernant les débouchés de l’approfondissement IAMD, ils sont divers et en pleine croissance puisque IAMD concerne directement les activités associées à la notion de Big Data. Hors le Big Data est considéré par un grand nombre d’entreprises notamment informatiques (par exemple SAS, Oracle, Amazon), mais pas seulement, puisque les organismes qui possèdent ou ont accès à des données cherchent à les valoriser en utilisant ce type d’approche (comme par exemple SFR, les collectivités territoriales, la bibliothèque nationale de France).

Hackathon Big Data à TELECOM Nancy

Édition 2021

Édition 2020

Édition 2019

Édition 2018

Édition 2017

Édition 2014

Le Hackathon

Programme de la semaine

Les prix

Les projets 2021

Sujet 1 : I'm something of a painter myself

Sujet 2 : How am I feeling + G-Research Cryptocurrency Forecasting

Sujet 3 : House Prices - Advanced Regression Techniques

Sujet 4 : Résoudre le puissance 4 par l'IA

Les projets 2020

Sujet 1 : MYRISSI

Sujet 2 : CyberSOC - clustering URL

Sujet 3 : CyberSOC - abnormal process tree

Sujet 4 : LORIA

Les projets 2019

Sujet 1 : HITEC

Sujet 2 : Science center Luxembourg

Sujet 3 : LORIA

Sujet 4 : LORIA

Les projets 2018

myXtramile

Sujet 1

Sujet 2

Loria

Les projets 2017

myXtramile Sujet 1

myXtramile Sujet 2

Les projets 2015

DataForceOne CGI / Engie : Algorithme d’appétence

Alpha-Class Data Crunchers (ACDC) Réutilisation des données de data.gov

iTrackU Profilage d'internautes pour les sites des ONG

Data 4 Dummies Data Mining sur les données de League Of Legends

IMAD Comparaison d'algorithmes de recommendation musicale

Les projets 2014

Team Felicity Sécurité Routière

Team Big Dota Calculating your future moves for you

echo $team_name; Réutilisation des jeux de données gouvernementaux.

BADASS (Bigdata Analytics Delivery As a Skilled Service) Collecte et analyse des données d’utilisation d’un site de VOD (Citizencam)

League of Data Cartographie navigable des données biomédicales ouvertes et liées

Présentation de l'école

Présentation de l'approfondissement IAMD