TELECOM Nancy, école publique généraliste en informatique et sciences et technologies du numérique, organise un Hackathon orienté Big Data en novembre. Cet événement est l'occasion de mettre en pratique les connaissances théoriques enseignées aux élèves-ingénieurs de dernière année, et de s'affronter par équipe durant une semaine sur des sujets très variés en proposant une solution innovante à leur problématique. Plusieurs sponsors participent à ce Hackathon afin de permettre aux élèves de concourir en profitant d'une ambiance conviviale.
TELECOM Nancy met à disposition des équipes ses locaux équipés tous les jours de 8h à 23h.
Du lundi au jeudi, une présentation de l'avancement de chaque équipe a lieu de 17h30 à 18h30.
Divers évènements (Happy Pub, une soirée code/pizza, petit déjeuner...) sont organisés au cours de la semaine pour renforcer la convivialité de l'évènement.
Le Vendredi de 15h à 16h40 sont présentées les recettes des projets, suivi de l'annonce des résultats du Hackathon.
La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.
L'un des défis proposé sur Kaggle est de réaliser une IA qui puisse appliquer le style de Monet sur une photo.
Les élèves ont cependant choisi de modifier ce challenge et de l'étendre à d'autres peintres : Picasso, Van Gogh et Cox. Une interface web a été développée avec Flask afin d'avoir une application fonctionnelle et complète.
Pour ce projet, les élèves se sont appuyés sur des bases de données d'oeuvres des différents peintres qu'ils ont créé eux-même, ainsi que d'une banque de photos fournit par Kaggle pour l'entrainement des modèles.
Participant 1 : Mélanie BOSCHER, melanie.boscher@telecomnancy.net
Participant 2 : Joannès GUICHON, joannes.guichon@telecomnancy.net
Participant 3 : Léonora MARTINEZ, leonora.martinez@telecomnancy.net
Cette équipe a été sélectionnée comme équipe gagnante pour le raisonnement d'apprentissage et de construire le modèle d'IA à partir d'aucune base et la créativité du projet choisi et des extensions réalisées.
La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.
Le premier jour, l'équipe a travaillé sur le sujet "How am I feeling ?" dont le but est de classifier des photos de visages humains en catégories heureuses et malheureuses.
Les élèves ont ensuite changé de sujet pour partir sur le sujet "G-Research Cryptocurrency Forecasting" dont le but est de prédire les valeurs de fermeture du Bitcoin.
lien du défi : https://www.kaggle.com/c/g-research-crypto-forecasting
Pour ce projet, les élèves ont réalisé une application en Python (utilisant PyQt5) permettant de charger des csv de variables correspondant aux temps et valeurs de fermeture de crypto-monnaies. Ceux-ci permettaient ensuite d'entrainer un réseau de neurone LSTM et tester le modèle obtenu afin de forecast le cours de la monnaie sur une durée au choix.
Participant 1 : Victor COUR, victor.cour@telecomnancy.net
Participant 2 : Mohammed KRIMI, mohammed.krimi@telecomnancy.net
Participant 3 : François PICHOT, françois.pichot@telecomnancy.net
La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.
Le défi proposé par Kaggle est basé sur l'estimation du prix d'une maison à partir d'un modèle d'intelligence artificielle entrainée sur un fichier csv. Ce fichier csv comporte différentes caractéristiques et maisons ainsi que leurs prixs pour baser l'entrainement de l'IA.
Les élèves ont ensuite étendu le sujet à d'autres biens comme les voitures.
Pour ce projet, les élèves ont réalisé une application Web en Python avec Flask et des algorithmes de randomForest. L'application propose la visualisaation des caractéristiques les plus importantes et des statistiques. Il y a aussi un outil pour estimer le prix de ses propres biens. Un outil permettant d'entrainer le modèle avec encore d'autres produits et de façon systématique a commencé à être développé sans être terminé.
Participant 1 : Louise CATY, , louise.caty@telecomnancy.net
Participant 2 : Adrien MORLOT, adrien.morlot@telecomnancy.net
Participant 3 : Adrien POURRAZ, adrien.pourraz@telecomnancy.net
Cette équipe a été sélectionnée comme équipe gagnante pour la complétude de l'outil proposé ainsi que ses applications dans le monde de l'entreprise et de la finance.
La plateforme Kaggle propose de très nombreux défis en Intelligence Artificielle et Data Science.
Le défi proposé par Kaggle a pour but de créer et tester différents modèles d'IA pour résoudre des parties de puissance 4 contre d'autres IA dévoloppées sur le site.
Pour ce projet, les élèves ont réalisé 6 modèles d'IA dont les performances étaient plus que correctes ainsi qu'une IA dont les résultats étaient très bons (plus de 90% de parties gagnées) gràce à une heuristique poussée qui permettait de simuler de très nombreuses parties et réaliser des déplacements qui pouvaient mener aux possibilités qui augmentaient nos chances de gagner.
Participant 1 : Jules DUARTE VALA, , jules.duarte-vala@telecomnancy.net
Participant 2 : Nathan GUEZ, nathan.guez@telecomnancy.net
Participant 3 : Léa TOPRAK, lea.toprak@telecomnancy.net
MYRISSI, startup nancéenne, a développé le 1er traducteur sensoriel, un assistant marketing basé sur des algorithmes d’Intelligence Artificielle, qui permet de naviguer à travers 3 espaces sensoriels : la vue et plus spécifiquement les couleurs, l’olfaction avec les odeurs et les parfums et enfin l’émotion, composante indissociable de toute réponse sensorielle.
MYRISSI propose une boite à outils permettant de traduire tous types d’odeurs ou parfums en couleurs et émotions et inversement, et ainsi de maximiser l’adéquation entre les développements de produits olfactifs d’un côté, et les attentes des consommateurs de l’autre. Appliquées à la relation BtoC, les technologies de Myrissi permettent de prédire scientifiquement la concordance entre une personnalité, une envie et un produit.
Dans le cadre de sa participation au CES de Las Vegas, MYRISSI a développé un fragrance finder permettant de trouver un parfum en fonction de sa personnalité et de ses envies. Ce fragrance finder est accessible ici
Ce fragrance finder fonctionne sur une base de données affectives contenant 78 items et 24 couleurs.
L’objectif de ce projet est de développer un chatbot intégrant une IA (ou une association de technologies existantes open source) permettant de sélectionner dans cette base affective de 78 items, les émotions, les traits de personnalité d’un consommateur à partir d’une phrase qu’il aurait écrite en langage naturel. Ce chatbot doit permettre à terme d’intégrer en plus les algorithmes de MYRISSI permettant de lier émotions, couleurs et parfums.
Pour résumer, actuellement, le fragrance finder de MYRISSI fonctionne avec 4 questions :
Le nouveau chatbot devra dans l’idéal se substituer aux questions 1 à 3 et a minima aux questions 2 et 3 et permettre à l’utilisateur de se décrire, de raconter son histoire simplement avec ses mots et in fine le conduire vers le parfum qui lui conviendrait le mieux.
Contact : Muriel JACQUOT, MYRISSI, Muriel.jacquot@myrissi.fr
Contexte:
La mission principale du CyberSOC est de détecter les menaces ciblant les SI de nos clients. Pour cela, nous collectons des données, les logs de différents équipements, auxquelles on applique différents algorithmes afin de détecter ces menaces. Cette méthode fonctionne mais a ses limites. La première est qu’elle ne permet de détecter uniquement des menaces connues, définies. Cela implique de constamment faire évoluer les mécanismes de détection. Le corollaire étant qu’on ne détecte pas ce qu’on ne connaît pas, ce qu’on ne sait pas qualifier. Enfin, ces algorithmes de détection reposent bien souvent sur une forme de logique booléenne avec des seuils de déclenchement fixes ce qui n’est pas optimal. Pour combler ce manque on utilise d’autres méthodes communément appelé « threat hunting ». Il y a différentes approches mais l’idée globale est de formuler une hypothèse de départ puis de la traduire en requête sur l’ensemble des données. Chez OCD, nous utilisons notamment une approche statistique.
Travail demandé :
Le threat hunting appliqué aux logs de connexions web consiste à utiliser cette approche statistique pour, par exemple, identifier des connexions vers des domaines à faible prévalence ou bien des navigateurs web anormaux. Cette méthode a aussi ses défauts car si l’hypothèse de base est mal formulée, il y a trop de résultats en sortie et il n’est pas possible de tous les analyser manuellement. Pour optimiser cette tâche de « threat hunting », à l’aide d’un algorithme, on souhaite pouvoir opérer un premier tri sur les données. L’intérêt étant d’isoler les logs suspects, anormaux, de ceux plus courants afin de focaliser l’analyse sur les anomalies. Dans un premier temps, on souhaite se focaliser sur les données de type log web. Ne disposant pas de jeux de données labellisés, la piste privilégiée est l’utilisation d’un apprentissage non supervisé. A partir d’un jeu de données type log web, le sujet proposé est donc de créer un algorithme permettant de partitionner les données et d’identifier les partitions (cluster) contenant des logs suspects.
Contact : Jeremy Scion, Orange Cyberdefense, jeremy.scion@orange.com
Contact : Rodrigue Lebayon, Orange Cyberdefense, rodrigue.lebayon@orangecyberdefense.com
Contexte:
La mission principale du CyberSOC est de détecter les menaces ciblant les SI de nos clients. Pour cela, nous collectons des données, les logs de différents équipements, auxquelles on applique différents algorithmes afin de détecter ces menaces. Cette méthode fonctionne mais a ses limites. La première est qu’elle permet de détecter uniquement des menaces connues, définies. Cela implique de constamment faire évoluer les mécanismes de détection. Le corollaire étant qu’on ne détecte pas ce qu’on ne connaît pas, ce qu’on ne sait pas qualifier. Enfin, ces algorithmes de détection reposent bien souvent sur une forme de logique booléen avec des seuils de déclenchement fixes ce qui n’est pas optimal. Pour combler ce manque on utilise d’autres méthodes communément appelé « threat hunting ». Il y a différentes approches mais l’idée globale est de formuler une hypothèse de départ puis de la traduire en requête sur l’ensemble des données. Chez OCD, nous utilisons notamment une approche statistique.
Travail demandé :
L’approche Threat hunting appliquée à l’exécution de process est assez similaire. On va par exemple chercher des process peu répandus sur le SI. Cependant, il y a là aussi des limites avec un risque de taux de faux positifs élevé. Pour faciliter l’identification d’anomalies, on souhaite développer un algorithme qui va permettre d’identifier des filiations anormales de processus. Pour cela on dispose d’un jeu de données qui identifie par machine :
L’objectif serait de réaliser un graph de relation est d’identifier les liaisons anormales.
Contact : Jeremy Scion, Orange Cyberdefense, jeremy.scion@orange.com
Contact : Rodrigue Lebayon, Orange Cyberdefense, rodrigue.lebayon@orangecyberdefense.com
Défi de la conférence EGC'2022
Venez tester votre capacité à traiter des données, extraire des connaissances et les mettre en valeur, de manière compétitive et conviviale avec d'autres équipes, le tout concernant un sujet d'actualité écologique avec l'étude de l'évolution du niveau des nappes phréatiques en partenariat avec le BRGM dans le cadre de son projet NINIA ("Niveau des Nappes boosté à l'IA"). Deux verrous principaux ont été identifiés:
Contact : Sabeur Aridhi,LORIA, sabeur.aridhi@loria.fr
Contact : Malika Smail-Tabbone, LORIA, malika.smail@loria.fr
En cas d’accident sur un axe routier, l’opérateur en centre de gestion de trafic doit intervenir le plus rapidement possible afin de réduire les perturbations pour les usagers. Dès qu’il a une alerte d’accident, il doit envoyer une patrouille et informer les usagers via un système d’aide à la décision. Aujourd’hui, ces systèmes informatiques n’intègrent pas de modules de prédictions des impacts sur le trafic en cas d’évènements inopinés.
La prédiction de temps de parcours ou de flux de trafic est aussi un indicateur facilement compréhensible par les usagers de la route. L’accès à un temps de parcours « prévu » leur permet de programmer leur voyage en voiture avant le départ.
Le sujet propose de créer un algorithme permettant de prédire le temps de parcours (et/ou le débit de véhicules) sur un axe autoroutier en fonction des accidents, du jour de la semaine et/ou de la météo. L’horizon de prédiction est à définir en fonction de l’erreur de précision du modèle. Le résultat de l’algorithme pourra être présenté sur un fond de carte en couleur et sur un graphique permettant de comparer le temps parcours « prévu » et réellement pratiqué.
Les données sont accessibles dans une base MongoDb (fichiers Json accessible via SCPT-REST-API) et comportent les champs suivants :m
Les données suivantes sont des fichiers csv :
D’autres données élaborées sont également disponibles via les SCPT-TRAVEL-TIME-API (temps de parcours réel pratiqué, indicateurs de trafic…).
Technologies utilisées :
Une petite bibliographie est disponible en ligne :
https://share.hitec.lu/index.php/s/Fq9x494wetpl4JI
Contact : Mohamed DJEDAI, HITEC Luxembourg S.A., mohamed.djedai@hitec.lu
Le Luxembourg Science-Center dispose d’une banque de donnée personnelle de ses visiteurs qu’il soigne depuis sa date d’ouverture fin 2017 et qui sera mise à disposition au groupe de travail pour en faire des études basées sur les principes de l’intelligence artificielle (arbre de décision par exemple).
Le premier but du projet est d’analyser les paramètres des visiteurs (c.à.d. : la fréquence des visites, la répartition des visiteurs sur l’année en fonction des nationalités, l’âges, la provenances, …) telle qu’ils se présentent actuellement, de déceler des causalités et de faire des prédictions pour son évolution future.
Des informations détaillées sur la démographie de la population du Luxembourg seront mis à disposition (par le LSC).
Les informations démographiques concernant la Grande Région (la Sarre, La lorraine, (Le Luxembourg), la Rhénanie-Palatinat, La Wallonie) seront à collecter sur les sites internet publics le cas échéant.
Le deuxième but à réaliser concerne la stratégie (élaborée à l’aide des principes de l’IA) à mettre en œuvre pour étendre la zone d’activité du LSC au-delà de ses frontières. En prenant en compte les différentes stratégies publicitaires (les réseaux sociaux, le bouche à oreille, la radio, les journaux, …) il importe de connaître les moyens de promotion les plus efficaces à opter pour attirer d’avantages visiteurs de la Grande Région.
Contact :
Jean-Paul GILLES, LSC, jean-paul.gilles@science-center.lu
Nicolas Didier, LSC, ndidier@science-center.lu
Titre : Un moteur de modèles d’apprentissages automatiques
Description
Un moteur de modèles d’apprentissages automatiques, basé sur une liste des outils et des langages de programmation open sources tel que Spark, MLlib, HDFS, Pandas, Scikit-learn Flask. Ce moteur rend l’apprentissage automatique sophistiqué accessible à tous. Il propose une interface graphique aux utilisateurs et les permettant créer facilement leurs modèles d’apprentissage automatique. Ils introduisent en première étape leurs données d’apprentissage avec une large liste de paramètres pour personnalisé le modèle souhaité, et en deuxième étape le moteur d’apprentissage va créer un modèle avec les données et les paramètres sélectionnés. Une fois que le modèle a été créé il sera exposé comme étant un service web (REST) qui reste à l’écoute de toutes requêtes de l’utilisateur. Le moteur proposé peut également offrir une grande variété des taches lié à l’apprentissage automatique tel que la réduction des dimensions, la sélection des attributs, le clustering, la normalisation des données.
Besoins fonctionnel
Besoins non fonctionnels
Ce projet nécessite qu’il soit divisé en deux parties Front-End et back-End dont la répartition des fonctionnalité est la suivante :
Front-End : Fournir un tableau de bord pour l’utilisateur afin qu’il peut :
Back-End: Fournir moteur de création des modèles prédictifs ou autres en fonction des données traitées par la partie front-end
Outils à Utiliser
Projet de référence
EasyML, PredictionIO AsureML
Contact : Wissem Inoubli, LORIA, wissem.inoubli@loria.fr
NER on PGxCorpus with BERT ou Amélioration des performances de la reconnaissances d’entités nommées biomédicales complexes avec PGxCorpus et BERT
La pharmacogénomique est un domaine qui étudie l’impacte des gènes sur la réponse aux médicaments. Dans ce domaine, l’essentiel des connaissances est contenu dans le texte de la littérature scientifique, et en particulier la base de données PubMed (https://www.ncbi.nlm.nih.gov/pubmed/). Le volume important de la littérature biomédicale (plus de 3 milliards d’articles) fait que des approches de traitement automatique du langage naturel (TALN ou NLP pour l’anglais Natural Language P ou NLP pour l’anglais Natural Language Processing) capables de fouiller la littérature pour en extraire de façon synthétique les connaissances d’un domaine est très intéressants pour les chercheurs du domaine.
Dans les équipes Orpailleur, Capsid et Synalpe du Loria/Inria Nancy nous avons développé récemment un corpus appelé PGxCorpus qui est annoté manuellement pour le domaine de la pharmacogénomique. L’intérêt de ce corpus est de constituer un ensemble de données d’entraînement et d’évaluation pour des modèles d’apprentissage supervisés. Nous avons démontré l'intérêt de ce corpus pour des tâches de reconnaissances d’entités nommées et d’extraction de relation, mais avec des méthodes qui ne sont pas les meilleurs de l’état de l’art actuel.
Nous proposons aux participants du Hackathon IAMD 2019 qui choisiront ce projet de développer un modèle (ou des modèles) de reconnaissances d’entités nommées (ou NER pour Named Entity Recognition), entraîné avec PGxCorpus avec les dernières méthodes de l’état de l’art pour obtenir de meilleurs performances que les nôtres.
Nous pensons notamment que le modèle BERT (Bidirectional Encoder Representations from Transformers) pourrait aider à atteindre de meilleurs performances.
Liens :
PGxCorpus peut être exploré de façon visuelle ici : https://pgxcorpus.loria.fr/
Et est téléchargeable là : https://figshare.com/s/9d315cec6bb629d04210
L’article qui le décrit est là : https://www.biorxiv.org/content/10.1101/534388v3
Une implémentation de BERT pour la tâche de reconnaissances d’entités nommées : https://github.com/kamalkraj/BERT-NER
Notre expérience en Lua : https://github.com/practikpharma/PGxCorpus/tree/master/baseline_experiment
Une roadmap possible est :
Contacts :
Adrien Coulet, Loria, adrien.coulet@loria.fr
Joël Legrand (à confirmer), Loria, joel.legrand@loria.fr
Créer un algorithme permettant de prédire les champs importants d'une offre d'emploi à partir d'un corpus de données de 10 000 offres d'emploi:
Xtramile souhaite optimiser le choix des canaux de diffusion des offres d’emploi et proposer le canal qui sera en mesure d'avoir le plus de CV pertinents possibles.
Pour cela 2 phases sont nécessaires:
Détection et classification de météorites
Une météorite est un objet venu de l’espace et qui traverse l’atmosphère terrestre. La plupart des météorites se désintègrent lors du passage dans l’atmosphère et une infime fraction atteint la surface de notre planète. L’étude de ces météorites permet aux astronomes de mieux comprendre les origines des planètes, les compositions chimiques et les datations des objets du système solaire ainsi que la compréhension de plusieurs autres phénomènes tel que la différenciation planétaire etc.
Récemment, plusieurs projets scientifiques (FRIPON, CAMS) se sont construits autour de la surveillance du ciel pour détecter les météorites. L’idée est simple: plusieurs caméras très sensibles filment le ciel de nuit afin de détecter d’éventuels traces d’entrée de météorites dans notre atmosphère. Un groupe de participants se relaient ensuite pour regarder et annoter ces vidéos.
Lors de ce hackathon, nous vous proposons de travailler sur des données en provenance du SETI Cameras for Allsky Meteor Survey (CAMS). Ces données (non publiques) contiennent déjà une première détection avec plusieurs attributs tels que la vitesse, l’angle, la hauteur etc de l’objet. Toute la complexité est de proposer un classifieur permettant de détecter une vraie météorites des faux positifs tels que: les orages, les avions, bruits de caméras etc. Les méthodes à tester sont (mais ce n’est pas une liste exhaustive): les arbres de décisions, SVMs, Random forests et deep learning.
Un volet visualisation de données peut être envisagé avec l’utilisation d’une librairie ThreeJS pour projeter le ciel de nuit (en 3D sous WebGL) avec les différentes étoiles, coordonnées des météorites etc. Ce travail n’est pas à refaire depuis le départ mais s’appuie sur l’excellent code de "Night Sky Viewer" (https://github.com/UXVirtual/night-sky).
Remarque: Tout résultat positif sur ce hackathon est passible d’être intégré dans le « pipeline réel » utilisé par le SETI et NASA Ames dans leur système CAMS.
Xtramile est une entité technologique visant à aider les entreprises à optimiser leur recrutement digital et la promotion de leur marque-employeur. Pour ce faire Xtramile utilise une approche programmatique groupant des outils algorithmiques, de brassage de données (Big Data) et de machine learning. Xtramile optimise le choix des canaux de diffusion ( Linkdin, Facebook, Twitter ..) selon l’offre d’emploi, et analyse les compétences techniques acquises d’un candidat et la personnalité qu’il dégage à travers son CV. De ce fait, votre objectif est l’intégration d’une api de déduction de la personnalité d’un candidat à partir de son CV. L’université de Cambridge a développé une api qui fait une analyse sémantique des CVs pour déduire des traits de caractère, https://applymagicsauce.com/
Votre but sera d’appliquer cette API à une masse de CVs extraite du web et créer une application web permettant de visualiser la personnalité du candidat.
En cas d’accident sur un axe routier, l’opérateur en centre de gestion de trafic doit intervenir le plus rapidement possible afin de réduire les perturbations pour les usagers. Dès qu’il a une alerte d’accident, il doit envoyer une patrouille et informer les usagers via un système d’aide à la décision. Aujourd’hui, ces systèmes informatiques n’intègrent pas de modules de prédictions des impacts sur le trafic en cas d’évènements inopinés. La prédiction de temps de parcours ou de flux de trafic est aussi un indicateur facilement compréhensible par les usagers de la route. L’accès à un temps de parcours « prévu » leur permet de programmer leur voyage en voiture avant le départ. Le sujet propose de créer un algorithme permettant de prédire le temps de parcours (et/ou le débit de véhicules) sur un axe autoroutier en fonction des accidents, du jour de la semaine et/ou de la météo. L’horizon de prédiction est à définir en fonction de l’erreur de précision du modèle. Le résultat de l’algorithme pourra être présenté sur un fond de carte en couleur et sur un graphique permettant de comparer le temps parcours « prévu » et réellement pratiqué. Les données sont accessibles dans une base MongoDb (fichiers Json accessible via SCPT-REST-API) et comportent les champs suivants :m Position du capteur de mesure en points kilométriques et en coordonnées gps Autoroute (A6…) Sens de circulation (99) ou voie (01, 02)…par exemple Autoroute A6 WG (de Weyler à Gasperich) Vitesse des véhicules sur une période de 6 minutes Débit de véhicules (nombre de véhicules par période de 6 minutes) Taux d’occupation du capteur (% de temps passé sur le capteur sur la période 6 minutes) Les données suivantes sont des fichiers csv : Fiches mains courantes : accidents, incident, travaux… Calendrier des jours Météo : humidité… D’autres données élaborées sont également disponibles via les SCPT-TRAVEL-TIME-API (temps de parcours réel pratiqué, indicateurs de trafic…). Technologies utilisées : Langage python Base de données MongoDb et fichiers Json API (framework swagger) IHM Js (framework Angular/Material) Une petite bibliographie est disponible en ligne : https://share.hitec.lu/index.php/s/Fq9x494wetpl4JI Contact : Mohamed DJEDAI, HITEC Luxembourg S.A., mohamed.djedai@hitec.lu
Xtramile optimise le choix des canaux de diffusion des offres d’emploi. Pour cela nous avons créé un système de recommandation afin de récupérer les canaux qui permettent de recevoir des CVs pertinents. Votre objectif sera de trouver une méthode efficace tels que les k plus proches voisins, le random forest ou encore le SVM afin de regrouper des offres d’emploi et pouvoir trouver des tendances afin de prédire le nombre de clics le coût par clic et le coût par CV.
1/ Créer des clusters d’offre d’emploi:
Plusieurs méthodes peuvent être utilisées : knn, clustering, cosine similarity.
La phase la plus importante pour que l’algo soit le plus efficace possible est le prétraitement des données. Pour cela les ngrams peuvent être une solution.
La librairie NLTK en python propose des librairies de prétraitement efficace.
2/ Arbitrage du choix des canaux à partir d’un fichier CSV:
Un fichier CSV ( talentPlug ) contenant des canaux et des écoles vous est fournis. L’objectif étant de trouver les canaux qui ont le plus de visites par mois et qui ont la même catégorie que l’offre d’emploi pour affiner le choix. Privilégier les canaux non payants. Si le canal est payant tenir compte du CPP issu de la publication sur le canal sélectionné.
3/ Arbitrage de bidding sur les canaux avancés en CPC
Pour chaque groupe de job créé, trouver des règles de cpc et essayer de prédire un cpc moyen de départ. Si cette méthode ne donne pas de bons résultats, choisir un cpc par défaut et l’augmenter selon le nombre de clics et les cvs que l’on reçoit en temps réel. Si cv pertinent et le canal pertinent relancer l’offre d’emploi sur ce canal et garder le même cpc , si le cv ou le canal n’est pas pertinent augmenter le cpc. Sinon faire une rotation et publier sur le canal suivant.
De plus, chaque offre d’emploi aura son budget à calculer en fonction du nombre d’offre d’emploi qu’il existe dans son groupe. Le budget peut changer selon les résultats reçus en temps réel.
4/ Collectionner des cookies sur Pixel pour créer des futurs lookalike ( tendance d’audiences ) sur les canaux Ad et Facebook
La direction du marché des particuliers (DMPA) d’Engie commercialise des contrats d’énergie (gaz et électricité) ainsi que des services associés pour les particuliers.
Le service DEPEX (Dépannage Electricité) est une assistance 24h/24 et 7j/7 en cas de pannes sur les installations d’électricité pour 3,99€ TTC/mois. Ce service a été lancé en janvier 2014 et a notamment été proposé via le canal Télévente (appel d’un conseiller Engie vers notre portefeuille client).
Chaque appel d’un conseiller étant facturé, il est important pour Engie de cibler les clients les plus appétents au service pour diminuer le coût d’acquisition.
Dans ce cadre, la création d’un score d’appétence au service DEPEX est nécessaire. Les données des actions de la Télévente 2015 sont fournies à cet effet.
De plus en plus de données ouvertes sont disponibles. Certains portails, tels que data.gouv.fr ou data.gov, permettent de centraliser une grande partie des données ouvertes publiques disponibles. L'objectif au cours de es 5 jours était de trouver, de traiter et d'analyser des données de provenance diverse (consommation, pollution de l'air, natalité, etc.), ainsi que les données météorologiques, afin d'en ressortir des visualisations et éventuellement des corrélations intéressantes.
En collaboration avec iRaiser, entreprise située à Nantes, notre équipe avait pour but de mettre en place un modèle de prédiction en analysant des données de navigation d'internautes sur les sites d'ONG. Ces données, recueillies lors de visite d'une page (clic sur une image, visualisation des vidéos,scroll, commentaire), vont nous permettre de définir le profil des internautes qui ont tendance à effectuer un don dans un site ONG.
De nos jours, le domaine du jeu vidéo à travers la notion d'e-sport à pris une dimension tout autre. Les enjeux financiers amènent bon nombre d'analystes et d'experts à s'y interesser de plus près. Et bien évidemment, pour des jeux de stratégies tels que League Of Legends, Starcraft ou encore DOTA, l'analyse d'une stratégie ou d'une combinaison d'équipe gagnante est forcément synonyme de fouille et d'extraction de données. C'est ainsi que notre équipe s'est vu chargée d'extraire des séquences gagnantes pour le jeu League Of Legends. À partir de ces séquences, nous sommes en mesure d'affirmer à l'utilisateur en temps réel si sa composition actuelle est gagnante ou perdante, mais également à travers un RNN, de lui indiquer le choix le plus pertinent à faire par la suite.
Songpeek est une plateforme d’écoute de musiques utilisant les ressources de Youtube pour le contenu et Last.fm pour les métadonnées, afin de proposer un large choix de musiques avec le clip associé, le tout sans publicités intempestives.
Dans ce contexte, nous avons cherché à comparer différents algorithmes de recommandation personnalisées.
Mise au point d’un modèle prédictif lors d’un accident de la route pour les jeunes conducteurs, à partir de jeux de données concernant les accidents répertoriés en France, ainsi que de divers jeux de données provenant d'OpenStreetMap. Prototype d'application proposée. En savoir plus
Web interface calculating every hero info you could want with counterpicks, general counters and team synergy ! You can also see the pick trend of your favotite hero. The data are directly extracted from pro games. The interface also possess a map visualisation web application of the main moves in a game.
Application web proposant des idées de sorties en fonction des horaires d'ouverture des musées, données utilisateurs, météo, et manifestations diverses rentrées par les utilisateurs eux-même, l'objectif étant de proposer des activités ciblées.
Application Web permettant la récupération des données utilisateurs lors du visionnage des vidéos (caméra visionnée, temps passé sur chaque angle de vue ...) afin de réaliser des statistiques permettant à BH Consulting de les présenter aux futurs annonceurs qui éventuellement proposeront de placer leurs pubs là où l'utilisateur regarde le plus souvent. Ils sauront à quel moment se font les visionnages et depuis quelle position géographique.
Le but est de permettre la visualisation des liens entre des bases de données médicales et entre leurs entités. Il existe déjà de telles visualisations, c'est pourquoi il nous à été demandé d'améliorer l'intuitivité de l'interface et d'ajouter la possibilité d'insérer de nouvelles sources à travers cette application web.
Ecole d'ingénieurs publique du Collégium Lorraine INP au sein de l'Université de Lorraine et école associée de l'Institut Mines-Télécom, TELECOM Nancy délivre un diplôme reconnu par la Commission des Titres d'Ingénieur (CTI).
Elle forme, en 3 ans, des ingénieurs généralistes en informatique et sciences et technologies du numérique.
Le recrutement se fait à Bac+2 (recrutement principal - entrée en 1ère année) et Bac+4 (entrée en 2ème année).
TELECOM Nancy est une école du Concours Mines-Télécom pour le recrutement des CPGE MP, PC, PSI, PT, TSI et ATS.
L’approfondissement IAMD vise à former des ingénieurs en informatique capables de comprendre les problématiques propres à un métier pour guider le développement et la mise en œuvre d’un processus d’analyse à partir de données complexes et potentiellement volumineuses.
Ces compétences correspondent typiquement à celle d’un métier appelé en anglais Data Scientist. L’équivalent français parfois proposé est expert ou spécialiste des données. IAMD prépare ainsi au métier de Data Scientist mais également à de nombreux métiers connexes comme Data Miner ou Data Manager.
D’un point de vue pédagogique, cet approfondissement offre des modules d’intelligence artificielle, de fouille de données, de fouille de texte, de statistiques, de visualisation de données, et des projets concrets avec des données réelles.
Concernant les débouchés de l’approfondissement IAMD, ils sont divers et en pleine croissance puisque IAMD concerne directement les activités associées à la notion de Big Data. Hors le Big Data est considéré par un grand nombre d’entreprises notamment informatiques (par exemple SAS, Oracle, Amazon), mais pas seulement, puisque les organismes qui possèdent ou ont accès à des données cherchent à les valoriser en utilisant ce type d’approche (comme par exemple SFR, les collectivités territoriales, la bibliothèque nationale de France).