2024-01-19 02:18:52
Shopify a récemment publié un blog technique sur certains de ses processus internes d’apprentissage automatique et sur la manière d’obtenir des informations plus exploitables en fonction des signaux de ses clients. L’un des principaux défis de toute entreprise en ligne est d’obtenir des informations exploitables à partir de ses données pour la prise de décision. Shopify partage sa méthodologie et son expérience pour résoudre ce problème en regroupant divers ensembles de données grâce à une méthode unique impliquant la réduction de dimensionnalité, la récursivité et l’apprentissage automatique supervisé. L’approche produit des résultats solides et fournit des informations et une meilleure explicabilité. Il aide les chercheurs utilisateurs et les data scientists à améliorer leur compréhension, à affiner leurs solutions et à itérer plus efficacement pour obtenir la solution finale. De plus, cette méthode comprend une couche d’explicabilité, facilitant la validation des résultats pour communiquer avec les parties prenantes. Le diagramme suivant montre cette méthode de haut niveau.
Diagramme de flux de travail global
Sur la base du billet de blog, l’auteur a proposé une méthode contenant quatre étapes simples :
Rendre les données gérables Regroupez-le Comprenez-le (et prédisez-le) Communiquez-le
La première étape de ce processus consiste à trouver un moyen de visualiser les données pour mieux les gérer. Le principal défi est que, dans la pratique, nous devons gérer des données de grande dimension. Une approche pratique consiste à utiliser des techniques de réduction de dimension telles que l’analyse en composantes principales ou PCA. Le principal défi de l’ACP est que, dans de nombreux cas, toutes les informations ne peuvent pas être présentées en deux dimensions. L’auteur a suggéré d’utiliser la technique de pointe d’approximation et de projection uniformes du collecteur ou UMAP au lieu de la PCA. La principale différence entre PCA et UMAP est que UMAP est la méthode de projection qui réserve la similarité locale et globale des points dans la dimension inférieure et qu’elle est non linéaire par rapport à PCA. Cela capturera les relations non linéaires entre les données. À titre d’exemple, l’auteur a montré la différence dans les résultats lors de l’utilisation de l’ensemble de données MNIST (Modified National Institute of Standards and Technology). MNIST a 784 dimensions pour représenter les chiffres écrits de 0 à 9. Les figures suivantes montrent les différences.
Un point appartient à un cluster si le cluster existe Si vous avez besoin de paramètres pour votre clustering, rendez-les intuitifs Les clusters doivent être stables, même en cas de modification de l’ordre des données ou des conditions de départ
De nombreux algorithmes de clustering, tels que K-Means et HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise), existent dans le domaine. HDBSCAN exploite une approche hiérarchique combinant les méthodes de clustering et DBSCAN pour produire des clusters plus robustes et significatifs. Des expérimentations approfondies menées chez Shopify ont démontré que HDBSCAN produit systématiquement des résultats plus significatifs et plus stables.
Dans la poursuite d’une compréhension plus approfondie du comportement des clusters, une application récursive des techniques de clustering devient impérative. Ce processus itératif permet de mieux comprendre la dynamique complexe au sein des clusters. Par la suite, une fois qu’un nombre suffisant de clusters a été établi, l’application de techniques supervisées, notamment de classification, devient viable. Les méthodologies de classification établies, telles que XGBoost, peuvent être utilisées comme modèle un contre tous pour chaque cluster.
De plus, l’intégration de SHAP sert à améliorer l’interprétabilité, en élucidant les principaux moteurs au sein de chaque cluster. Cette double approche, combinant HDBSCAN pour le clustering initial et la classification ultérieure via XGBoost, complétée par SHAP pour l’explicabilité, forme une méthodologie complète pour obtenir des informations approfondies sur le comportement de divers clusters.
Dans la phase finale, il est nécessaire de communiquer les résultats avec le groupe de science des données et d’autres parties prenantes et de répéter le processus pour parvenir à la solution finale si nécessaire.
Une méthodologie similaire a également été utilisée avec succès dans d’autres disciplines comme la détection d’anomalies dans les données de santé.
De nombreux ingénieurs en apprentissage automatique ont trouvé ce travail passionnant. Comme l’un d’eux l’a commenté sur la publication LinkedIn de cet ouvrage :
Umap et Shap changent véritablement la donne et constituent des éléments fondamentaux des flux de travail d’analyse avancée.
#Lapproche #Shopify #pour #tirer #parti #lintégration #clustering #récursifs #pour #améliorer #lexplicabilité #des #données
