L’analyse de données : Qu’en est-il en 2018?
en collaboration avec
Michelle Deschênes, enseignante
L’utilisation des données, tant l’exploration que l’exploitation des données, semble plus avancée dans plusieurs domaines qu’en éducation. Cet article présente d’abord l’utilisation des données en marketing, en ressources humaines et en gestion municipale, puis présente l’analyse de données d’apprentissage.
En marketing sur le web
Les données sont utilisées notamment par les systèmes de recommandations, une composante importante des sites commerciaux. Les systèmes de recommandations permettent de filtrer, à travers un très grand nombre de produits, ceux qui sont les plus susceptibles d’être achetés par les consommateurs. Ces systèmes se servent d’algorithmes qui se basent notamment sur la navigation, les recherches, les achats antérieurs et les préférences des utilisateurs. Les préférences peuvent s’exprimer de façon implicite ou explicite. De façon implicite, les données sont collectées à partir des actions des utilisateurs, notamment : cliquer sur un lien (une publicité ou un résultat de recherche, par exemple), acheter un produit, suivre une personne sur un réseau social. De façon explicite, les données sont, par exemple, enregistrées lorsqu’on demande à l’utilisateur d’évaluer un item. Ces données sont plus difficiles à collecter puisqu’elles nécessitent l’action de l’utilisateur, qui doit faire une action, contrairement à la collecte de données implicites.
En marketing, l’analyse des données vise à ce que les utilisateurs consomment le produit ou le service. Différentes approches peuvent être utilisées pour identifier les produits les plus susceptibles d’être appréciés par les utilisateurs. Il peut s’agir d’une approche non personnalisée : les mêmes résultats sont affichés peu importe l’utilisateur, par exemple la liste des produits les mieux évalués parmi tous les produits. La règle d’association permet quant à elle de maximiser les ventes en augmentant les ventes connexes, puisqu’elle évalue les probabilités qu’un client qui achète un produit en achète un autre au cours du même processus d’achat.
Une autre approche des systèmes de recommandations est celle basée sur le contenu. Le système considère les attributs d’un item et utilise une corrélation avec les attributs préférés de l’utilisateur. C’est ce que Netflix utilise, par exemple, pour proposer des films basés sur les films visionnés précédemment. C’est donc une approche personnalisée, mais qui n’utilise pas les préférences des autres utilisateurs. Lorsque les recommandations utilisent les préférences des autres utilisateurs, en particulier les évaluations de ceux qui ont des préférences similaires, c’est une approche de filtrage collaboratif qui est utilisée.
Par ailleurs, le marketing web utilise aussi l’analyse de données pour mesurer le comportement des utilisateurs et pour optimiser les sites web. En utilisant Google Analytics, les gestionnaires de sites web consultent un tableau de bord dans lequel plusieurs indicateurs sont affichés. Ils peuvent filtrer les données et répondre à des questions comme : quels sont les mots-clés qui amènent le plus d’utilisateurs sur le site? Combien de temps les visiteurs passent-ils sur le site? Combien d’utilisateurs effectuent plus d’une visite sur le site?
En gestion de ressources humaines
En gestion des ressources humaines, l’analyse de données peut être utilisée pour régler les problèmes courants comme l’absentéisme. En détectant rapidement une insatisfaction chez des employés, il est possible de réduire l’insatisfaction et de fidéliser les employés.
Des compagnies en gestion des ressources humaines basent leurs activités sur l’analyse des données, c’est le cas de Clustree. La mission de Clustree, une plateforme de recommandations au service du développement de carrières et du recrutement, est d’optimiser la mobilité interne et d’anticiper les transformations des métiers et des cheminements de carrières. Grâce à cette plateforme, les employés peuvent se faire offrir des emplois selon leur profil au sein de leur entreprise. Ils peuvent aussi faire le point sur leur carrière, sur la base du cheminement d’utilisateurs qui ont un profil similaire au leur.
Plus près d’ici, Officevibe, un outil créé par une compagnie montréalaise, aide les gestionnaires et chefs d’équipe à tirer les meilleurs résultats de leurs équipes de travail. L’analyse de données est appliquée aux problèmes de gestion du personnel : embauche, gestion et l’évaluation de la performance, rétention, composition des équipes de travail, etc. La disponibilité de ces données, et leur analyse, permet de déterminer où allouer des ressources pour optimiser les résultats..
En gestion municipale
L’analyse des données s’est aussi frayé un chemin dans nos villes et provinces. On offre un accès de plus en plus important à des jeux de données ouvertes, notamment au Canada, au Québec, à Montréal, à Québec, à Laval, à Gatineau et à Longueuil. Ces données ouvertes mènent à des initiatives citoyennes ou de compagnies. À titre d’exemple, Toronto propose une galerie d’applications et de sites web qui utilisent les données rendues disponibles par la ville qui permettent de répondre à des questions comme : s’agit-il d’une journée pour le recyclage ou pour les ordures? Quelles sont les probabilités de recevoir une amende en se stationnant à cet endroit?
Toronto mesure d’ailleurs sa performance pour déterminer dans quel domaine la ville se démarque et où davantage d’efforts ou de nouvelles approches sont nécessaires. Ces données renforcent la responsabilisation de la Ville et améliorent la transparence pour tous.
La ville de Rio de Janeiro, une ville particulièrement touchée par la criminalité, a conçu une plateforme de prévision de la criminalité à code source ouvert afin de mieux comprendre le potentiel de la prévision de la criminalité. L’outil gratuit, CrimeRadar, est alimenté par des algorithmes qui traitent des millions d’évènements criminels remontant à 2010. L’outil est conçu dans un souci de convivialité pour les citoyens et utilise l’API de Google Maps. Un outil similaire est utilisé en Pennsylvanie. Plusieurs experts nous rappellent que la prudence est toutefois de mise avec ces analyses : les anciens points chauds situés dans des quartiers défavorisés pourraient faire l’objet de patrouilles répétées, et grâce à une présence policière accrue, il serait possible de détecter davantage de crimes de faible intensité, créant un effet boule de neige.
Et en éducation?
La définition même du Learning Analytics est récente. Dans le cadre de ce laboratoire, nous avons retenu celle de Siemens, publiée pour la première fois en 2011 au 1st International Conference on Learning Analytics and Knowledge à Banff, en Alberta. Nous l’avons traduite librement. L’analyse de l’apprentissage est la mesure, la collecte, la communication et l’analyse des données sur les apprenants et leurs contextes afin de comprendre et d’optimiser l’apprentissage et les environnements dans lesquels il a lieu.
Mesurer des données sur les apprenants et leurs contextes
En éducation, quelles données sont importantes? Pour répondre à cette question, nous avons utilisé la lentille offerte par le modèle de Bernhardt (1998), que nous avons traduit et revisité. Le modèle inclut quatre types de données qui peuvent être utilisées en éducation :
- le profil de l’étudiant
- les processus scolaires auxquels il participe
- ses apprentissages
- ses perceptions
C’est grâce au croisement de ces données, illustré dans un diagramme de Venn où chaque intersection informe sur différents aspects qu’il est possible d’analyser les données selon différents points de vue. Le modèle revisité (Deschênes et Parent, 2016) a permis l’ajout des croisements manquants, c’est-à-dire l’intersection des processus et des perceptions, et l’intersection du profil et des apprentissages.
Voici un extrait du laboratoire présentant dans un diagramme de Venn à quatre ensembles le modèle de Bernhardt revisité et les données importantes en analyse de l’apprentissage :
À la fin de la première étape du laboratoire, les participants ont été invités à consulter l’espace Moodle rendu disponible pour l’occasion par la Corporation DECclic. Les participants ont été informés que le module Intelliboard, un outil d’analyse de la fréquentation de Moodle, était installé dans l’environnement numérique d’apprentissage du cours. Des ressources et des activités complémentaires étaient disponibles, dont la bibliographie du CDC pour le laboratoire sur l’analyse de l’apprentissage. Cette documentation a permis de poursuivre la réflexion sur cette première étape portant sur l’utilisation des données dans d’autres domaines que l’éducation et la définition et de préparer la deuxième étape du laboratoire, celle qui permettrait de présenter différents exemples d’analyse de l’apprentissage.