Cette thèse traite des systèmes de recommandation automatiques. Les moteurs de recommandation automatique sont des systèmes qui permettent, par des techniques de data mining, de recommander automatiquement à des clients, en fonction de leurs consommations passées, des produits susceptibles de les intéresser. Ces systèmes permettent par exemple d’augmenter les ventes sur des sites web marchands : le site Amazon a une stratégie marketing en grande partie basée sur la recommandation automatique. Amazon a popularisé l’usage de la recommandation automatique par la célèbre fonction de recommandation que nous qualifions d’item-to-items, le fameux : "les personnes qui ont vu/acheté cet articles ont aussi vu/acheté ces articles".
La contribution centrale de cette thèse est d’analyser les systèmes de recommandation automatiques dans le contexte industriel, incluant les besoins marketing, et de croiser cette analyse avec les travaux académiques. Cette thèse comporte 4 parties :
- Une analyse des fonctions cœurs et des pré-requis des systèmes de recommandation dans un contexte industriel : nous identifions 4 fonctions cœur dans les systèmes de recommandation : Aide à la Décision, Aide à la Comparaison, Aide à l’Exploration, Aide à la Découverte. L’implémentation de ces fonctions a des implications dans les choix algorithmiques au cœur des systèmes de recommandations.
- Un état de l’art, qui présente les principales techniques utilisées dans les système de recommandation automatique : les deux méthodes algorithmiques les plus utilisées, les méthodes à K-plus-proches-voisins et les méthodes de factorisation rapide de matrices sont détaillées. L’état de l’art présente aussi les méthodes purement thématiques, les techniques d’hybridation, et les mesures de performance classiques pour évaluer les systèmes. Cet état de l’art donne ensuite un panorama de plusieurs systèmes de recommandation, du monde académique, ou des acteurs industriels connus ( Amazon, Google...).
- Une analyse des performances et des implications d’un systèmes de recommandation industriel développé au cours de cette thèse : ce système, Reperio, est un moteur hybride utilisant un technique de K-Plus-Proches Voisins (KPPV). Nous étudions les performances des méthodes KPPV, notamment l’impact des fonctions de similarités utilisées. Puis nous étudions les performances de Reperio dans le cas critique du démarrage à froid.
- Une méthodologie d’analyse des performances des systèmes de recommandation en contexte industriel : cette méthodologie permet d’évaluer la plus-value des méthodes algorithmiques ou des stratégies de recommandation sur l’ensemble des fonctions cœurs. Pour cela nous reprenons les 4 fonctions que nous avons définies et nous les croisons avec 4 segments clés de l’analyse des performances du système de recommandation : gros clients et items fréquents, gros clients et items peu fréquents, petits clients et items fréquents, petits clients et items peu fréquents. Nous montrons que les systèmes de recommandation devraient redéfinir leurs enjeux : il est illusoire de recommander de manière personnalisée des items peu populaires à des utilisateurs peu connus par exemple. Pour augmenter les usages, les stratégies efficaces seraient plutôt de recommander des items peu fréquents à des gros utilisateurs, et de recommander des items fréquents aux petits utilisateurs. Le paradigme de la "Long Tail", pour les items peu fréquents et pour les petits utilisateurs, devrait être revu.
Mots clés : soutenance thèse