Affinity Analytics à l'aide de la plate-forme de données Actian
Entrepôt de données cloud

Affinity Analytics à l'aide de la plate-forme de données Actian

Mary Schulte

29 octobre 2021

analyse des affinités

L'analyse des affinités est la pratique qui consiste à trouver des relations et des modèles dans les données. Les entreprises peuvent utiliser les résultats de l'analyse d'affinité pour de nombreux impacts positifs. Voici deux exemples tirés de cas d'utilisation réels. Tout d'abord, dans le secteur de la vente au détail, la direction souhaite savoir quels sont les produits qui se vendent bien ensemble, à des fins de placement de produits et de publicité. Ces informations sont essentielles pour réussir à vendre des produits supplémentaires. Autre exemple, les fournisseurs de télécommunications ont besoin d'étudier les données de trafic du réseau pour comprendre les schémas de routage et optimiser l'équipement et la topographie. À l'instar de ces cas d'utilisation, votre entreprise présente probablement des affinités de données que vous pouvez exploiter pour prendre de meilleures décisions. Actian fournit la plateforme d'entrepôt de données pour vous aider à le faire.

Malgré son utilité évidente, l'affinité est difficile à trouver dans les entrepôts de données traditionnels car elle implique l'exécution de l'une des instructions SQL les plus difficiles et les plus gourmandes en ressources, l 'auto-jointure de la table de faits (également connue sous le nom de requête"market-basket"). Cette requête est difficile parce que les tables de faits des entrepôts de données contiennent souvent des milliards de lignes (comme la mienne ici), et joindre des milliards de lignes à elles-mêmes pour trouver des affinités demande beaucoup de puissance de traitement. En fait, certaines plateformes ne peuvent pas le faire du tout, ou alors cela prend tellement de temps que c'est inutilisable. C'est là que la puissance de l'entrepôt de données Actian brille.

Dans ce blog, j'explique comment réaliser avec succès des analyses d'affinités en utilisant uniquement les fonctionnalités intégrées de l'entrepôt de données Actian, sans avoir besoin d'autres outils !

Actian fournit une analytique dans le cloud de pointe analytique dans le cloud, conçue pour des performances élevées. Ce que je vais montrer ici, c'est qu'Actian - en mode natif - fournit l'outillage nécessaire pour réaliser des analyses SQL, ce qui vous permet de réaliser des choses comme des analyses d'affinité sans avoir à vous lancer dans des projets gigantesques et coûteux impliquant un outillage tiers supplémentaire.

Voici mon scénario :

Je dispose d'un entrepôt de données sur le commerce de détail. Le service marketing souhaite planifier une campagne de publipostage pour promouvoir les ventes de produits qui se vendent généralement bien avec les produits les plus vendus du magasin. En particulier, il souhaite envoyer des coupons aux clients qui n'ont PAS acheté les produits qui sont normalement achetés ensemble, mais qui ont acheté au moins l'un des produits les plus vendus. Ils aimeraient que je leur fournisse des données pour support cette campagne.

Mon processus d'analyse sera le suivant :

  1. Étudier les données.
  2. Trouver les produits les plus vendus (A).
  3. Trouver des produits couramment vendus avec des produits phares (B).
  4. Trouvez la population de clients qui ont acheté A mais pas B.
  5. Fournir des informations appropriées au marketing.

Pour ce blog, j'ai créé un entrepôt de 8 UA (Actian Unit) dans la Google Cloud Platform. Une Actian Unit est une mesure de la puissance informatique dans le cloud qui peut être augmentée ou réduite. Voir la figure 1.

Figure 1 : Définition de l'entrepôt de la console Avalanche
Figure 1 : Définition de l'entrepôt de la console Avalanche

Ma base de données Actian a un schéma typique de vente au détail, mais pour ce blog, je me concentrerai sur quatre tables. Voir la figure 2.

Figure 2 : Diagramme de l'ER pour le commerce de détail
Figure 2 : Diagramme de l'ER pour le commerce de détail

J'ai utilisé un générateur de données pour générer une grande quantité de données, mais j'ai ajouté quelques modèles superposés artificiellement pour rendre ce blog plus intéressant. Mes tableaux contiennent le nombre de lignes suivant :

client 5,182,631
commande 1,421,706,929
article de ligne 45,622,951,425
produit 16,424

 

Je peux maintenant utiliser les outils fournis dans l'éditeur de requête la console Actian pour exécuter mon processus d'analyse. L'éditeur de requête se trouve dans le coin supérieur droit de la page de définition de l'entrepôt. Je l'ai entouré en bleu dans la figure 1.

Pour toutes les requêtes présentées dans ce blog, j'ai suivi la séquence suivante : J'ai placé ma requête dans le panneau de l'éditeur de requête (1), formaté la requête (facultatif) (2), exécuté la requête (3), puis sauvegardé la requête (4) pour référence ultérieure. Voir le schéma de la séquence dans la figure 3. Notez que vous pouvez également voir la disposition de l'ensemble de mon schéma (cercle rouge) dans l'éditeur de requête .

Figure 3 : Présentation de l'éditeur de requête
Figure 3 : Présentation de l'éditeur de requête

Étudier les données

Tout d'abord, je souhaite comprendre mes données en exécutant quelques requêtes intéressantes.

Je veux savoir quels mois de données se trouvent dans mon entrepôt Actian et comprendre certains chiffres globaux. (Ce blog a été rédigé au début de l'année 2021). J'exécute cette requête:

Figure 4 : Statistiques sur les postes
Figure 4 : Statistiques sur les postes

Grâce à la rapidité d'Actian, j'ai pu glaner en quelques secondes des informations précieuses sur mon entrepôt. Il semblerait que j'aie cinq ans de données, dont plus de 45 milliards d'articles vendus, avec une vente moyenne de 625 dollars. C'est formidable ! Voir la figure 4.

De plus, j'aimerais voir les tendances des ventes par mois. J'exécute cette requête:

Figure 5 : Evolution des ventes
Figure 5 : Evolution des ventes

Cette requête s'est également terminée en quelques secondes, mais avec tous ces grands chiffres, il est un peu difficile de saisir leurs valeurs relatives. Il sera utile de faire un graphique à l'aide de la fonction graphique de l'éditeur de requête Actian.

J'ai utilisé la fonction graphique (voir figure 6) pour créer un diagramme à barres. J'utilise essentiellement la même requête , mais je l'ai simplifiée et j'ai limité les résultats à l'année dernière. Il est facile de voir maintenant que mes ventes se sont vraiment accélérées autour de Noël. La figure 7 montre comment j'ai configuré ce graphique.

Figure 6 : Ventes tendancielles avec graphique
Figure 6 : Ventes tendancielles avec graphique
Figure 7 : Configuration du graphique
Figure 7 : Configuration du graphique

Trouver les produits les plus vendus (A)

Maintenant que je comprends mes données, j'exécute cette requête pour trouver les catégories de produits les plus vendues en fonction des dépenses effectuées au cours de l'année écoulée :

Figure 8 : Principales catégories en termes de dépenses
Figure 8 : Principales catégories en termes de dépenses

En quelques secondes, j'apprends que l'habillement et l'électronique sont mes catégories de produits les plus vendues. Je sais que le marketing aime toujours travailler avec l'électronique, c'est donc là que je vais me concentrer.

Ensuite, je veux trouver les produits les plus vendus dans le secteur de l'électronique l'année dernière. J'exécute cette requête:

Figure 9 : Principaux produits dans le domaine de l'électronique
Figure 9 : Principaux produits dans le domaine de l'électronique

Là encore, grâce à la rapidité d'Actian, j'apprends en quelques secondes qu'un grand nombre des produits les plus vendus dans ma catégorie Électronique sont des produits Canon. Voir la figure 9.

Trouver les produits les plus vendus avec les produits phares (B)

Je veux maintenant trouver les produits électroniques qui sont le plus souvent vendus avec ces produits Canon les plus vendus au cours des six derniers mois. Il s'agit de la requête panier de marché à forte intensité de ressources à laquelle j'ai fait référence dans mon introduction. Pour l'exécuter, cette requête reliera mes 45 milliards d'articles aux mêmes 45 milliards d'articles pour voir quels articles sont généralement achetés ensemble. J'exécute cette requête:

Figure 10 : requête panier de marché
Figure 10 : requête panier de marché

Cette requête est beaucoup plus complexe que les précédentes, mais son exécution dans Actian n'a pris que 17 secondes. Cette requête montre clairement que les clients de Canon achètent souvent des cartes mémoire SDHC de différents types. C'est une chose qui semble logique, bien sûr, mais je l'ai maintenant prouvé à l'aide d'analyses.

Trouver la population de clients qui a acheté A mais pas B

Je dois maintenant trouver les noms et adresses des clients qui n'ont PAS acheté de cartes mémoire. Il s'agit en fait d'une requête panier de marché inversée. Actian va relier les 45 milliards de lignes de la table des articles à elle-même, cette fois pour trouver les relations manquantes... les clients qui n'ont pas acheté de cartes mémoire. Il doit également relier les informations relatives aux articles et aux commandes à la table des clients afin d'obtenir les noms et adresses correspondants. Je dois également m'assurer que je n'envoie pas de mailings en double aux clients qui ont acheté plusieurs produits Canon, et j'ai donc ajouté le mot-clé DISTINCT à mon code SQL. J'exécute la requête ci-dessous. Une fois qu'elle est terminée, je choisis l'option de téléchargement .csv pour créer un fichier de sortie. Voir les cercles rouges dans la figure 11.

Figure 11 : Panier de marché inversé.  Pas d'affinité.
Figure 11 : Panier de marché inversé. Pas d'affinité.

Fournir des informations appropriées au marketing

Je peux maintenant facilement envoyer le fichier .csv des clients potentiels au service marketing afin qu'il puisse envoyer sa campagne de marketing.

Figure 12 : Courriel avec liste de destinataires
Figure 12 : Courriel avec liste de destinataires

En conclusion, Actian Data Warehouse est une plateforme entrepôt de données cloud d'entrepôt de données cloud très puissante qui comprend également les outils de base et la vitesse dont vous avez besoin pour être productif avec l'analyse d'affinité dans votre entreprise.

 

photo de mary schulte

À propos de Mary Schulte

Mary Schulte est ingénieur commercial principal chez Actian. Elle a passé l'essentiel de sa carrière à travailler pour des fournisseurs de bases de données de premier plan tels qu'Informix, Netezza et, aujourd'hui, Actian. Pendant plus de vingt ans, elle n'a travaillé qu'avec Informix en tant que consultante dans une société de conseil, puis en tant que formatrice et ingénieur commercial pour Informix Corp. et IBM. Elle a écrit des milliers de lignes de programmes Informix 4GL et ESQL/C pour des clients de divers secteurs dans le monde entier. Basée à Dallas, elle a travaillé en étroite collaboration avec American Airlines sur sa mise en œuvre innovante de la nouvelle technologie Informix datablade à la fin des années 1990. Mary travaille chez Actian depuis 2006, principalement sur la technologie Vector base de données analytique . Elle pense que le fait qu'IBM ait conclu un accord avec HCL et que HCL ait acquis Actian est un heureux hasard, car elle travaille à nouveau avec son Informix bien-aimé !