iTrackU

Parcours d'internautes sur les sites d'ONG

Hackathon Telecom Nancy 2015

Durant une semaine, nous avons dû développer une solution correspondant
à un problème donné par une entreprise. Nous avons eu la possibilité de travailler
avec iRaiser, une start-up basée à Nantes, éditrice de logiciels pour des ONG.

Présentation du projet

iRaiser capture des données anonymes sur les internautes visitant les pages de certaines ONG dans l'objectif de mieux comprendre le comportement des donateurs et ainsi proposer des améliorations de ces sites web. Pour le Hackathon, un échantillon de données portant sur 6 mois a été constitué.

Clustering des pages

Le site compte des dizaines de milliers de pages, ce qui rend cette information peu exploitable en l'état. Les regrouper en nombre restreint de catégories permettrait de mieux comprendre le comportement de l'internaute. Comme on ne peut pas se baser sur le contenu des pages, on s'intéresse aux parcours des internautes en supposant qu'ils naviguent sur des pages de contenu similaire.

Algorithme utilisé : K-means

Librairie : scikit-learn

Description : les points blancs correspondent aux centres des clusters et les points noirs représentent les utilisateurs

Interprétation : la majorité des utilisateurs se trouve dans les clusters bleu et orange

Clustering des utilisateurs

Ici, on se concentre sur le parcours des internautes. On veut regrouper les utilisateurs en
catégories similaires, puis mesurer sur chaque catégorie la propension à donner ou
simplement visiter le formulaire de don pour pouvoir ensuite faire du marketing ciblé.
Des utilisateurs similaires ont des parcours de navigation semblable.

Clustering sur les données des
utilisateurs sans modification.

Groupement des utilisateurs en catégories
suivant s'ils regardent des vidéos, du texte,
des images, des cartes ou des schémas.

A partir des clusters obtenus, nous avons calculé des statistiques sur
le pourcentage de don et le pourcentage d'entrées sur le formulaire.

Résultat : 17% des utilisateurs appartenant au plus gros cluster
cliquent sur la page du formulaire et 2% font effectivement un don.

Prédiction des dons

Nous avons essayé de prédire l'action de faire un don en mettant en place des catégories d'utilisateurs.
Pour faire cela nous avons utilisé des algorithmes de classification que nous avons comparés.

Découpage des utilisateurs en trois classes :

Les utilisateurs ayant visité la page
don sans en faire un

Les donateurs

Les visiteurs

Utilisation de trois algorithmes :

Random Forest en utilisant la validation croisée

Dummy Classifier

SVM

Qui sommes-nous ?

Nous sommes une équipe de 4 étudiants de Telecom Nancy, une école d'ingénieur en informatique et sciences du numérique. Nous sommes spécialisés dans le domaine du Big Data et du Data Mining.

Contact

Miranda DHUITTE

miranda.dhuitte@telecomnancy.net

iTrackU

Miranda DHUITTE

Omar HASSANI

Karima OUBAHMAD

Benoît THEVENIN