Data Mining beschreibt die Entdeckung verborgener Erkenntnisse in großen Datensätzen durch eine Kombination von Datenbankabfragen, statistischer Analyse, Maschinelles Lernen (ML) und Techniken der künstlichen Intelligenz (KI). Es ist weniger anspruchsvoll als die advanced analytics , da es nicht so weit geht, aus den gewonnenen Erkenntnissen Empfehlungen abzuleiten. Sie kann verborgene Trends, Muster und Anomalien in Daten aufdecken, die bei herkömmlichen Abfragen in strukturierter Anfrage (SQL) übersehen würden.
Warum ist sie wichtig?
Data mining ist besonders nützlich für das Risikomanagement oder Anwendungen Betrugserkennung , da es Datenströme in Echtzeit analysieren kann. Dies ist anspruchsvoller als typische Business Intelligence (BI)-Abfragen, da es statistische Analysemodelle anwendet, um verborgene Muster in Daten aufzudecken. BI-Dashboards können mit data mining aufgefüllt werden, wodurch sie sich gegenseitig ergänzen.
Ist KDD das Gleiche wie Data Mining?
Knowledge Discovery in Databases (KDD) unterscheidet sich vom data mining. KDD bezieht sich auf data mining zur Aufdeckung von Mustern auf hoher Ebene in großen Datenbanken. Data mining ist ein Schritt in einem breiteren KDD-Prozess.
Arten von Data Mining
Im Folgenden werden einige Methoden des data mining vorgestellt:
- Daten können ausgewertet werden, um Gruppierungen von Datenelementen mit gemeinsamen Attributen zu beurteilen. Datenelemente werden geclustert, wenn sie als ähnliche Objekte klassifiziert werden können. Clustering-Methoden können hierarchisch oder nicht-hierarchisch sein. Nicht-hierarchische Methoden unterteilen einen Datensatz von N Objekten in M Cluster. K-means ist ein Beispiel für eine nicht-hierarchische Clustermethode, die Beobachtungen in K Gruppen verwandter Beobachtungen unterteilt.
- Bei der Pfad- oder Sequenzanalyse wird nach einer Reihe von Beobachtungen gesucht, die zu anderen Beobachtungen zu führen scheinen und eine Sequenz oder einen Pfad bilden.
- Bei der Regressionsanalyse werden die vorhergesagten Datenwerte in einem Datensatz auf der Grundlage einzelner oder mehrerer Variablen berechnet. Die Stärke der Beziehung kann durch den Vergleich von abhängigen und einer oder mehreren unabhängigen Variablen bestimmt werden. Dieses Wissen kann wiederum zur Vorhersage künftiger Beziehungen mittels Vorwärtsregression verwendet werden.
- Neuronale Netze und Deep Learning simulieren die Funktionsweise des menschlichen Gehirns, um Muster in einem Datensatz zu finden und abzuleiten.
- Bei der Suche nach Assoziationsregeln wird eine Wenn-Dann-Analyse auf Datenpaare in einem Satz angewendet, um nach potenziellen Beziehungen zu suchen. Je mehr Beobachtungspaare eine Beziehung aufweisen, desto sicherer können sie eine Aussage treffen.
Vorteile von Data Mining
Data mining bietet durch Vorhersage und prädiktive Analyse Vorteile, die über grundlegende Analysen hinausgehen. Dazu gehören:
- Verbesserung der Kundeninteraktionen. Glücksspielunternehmen und Online-Händler sind auf die prädiktive Analyse von Clickstreams angewiesen, um Empfehlungsmaschinen zu betreiben. Die Personalisierung von Online-Interaktionen ist der Schlüssel, um Kunden zum Wiederkommen zu bewegen.
- Finanzdienstleister nutzen Faktoren wie Interaktionsanalysen, Kreditwürdigkeitsprüfungen und demografische Daten, um ihre Angebote so zu gestalten, dass sie den Wert für den Kunden maximieren und den Lebenszeitumsatz des Kunden für den Anbieter steigern. Auf der anderen Seite können Daten über das Kundenverhalten zur Analyse der Kundenabwanderung und zum Aufzeigen potenzieller Kundenverluste verwendet werden.
- Hersteller nutzen data mining , um die Betriebszeit und produktive Lebensdauer teurer Industriemaschinen zu erhöhen. IoT eingebettet in komplexe Maschinen wie Düsentriebwerke, Turbinen in Kraftwerken und Dieselmotoren in Lokomotiven eingebettet , werten kontinuierlich Sensordatenströme aus. Diese Daten werden verwendet, um proaktiv Wartungsintervalle und betriebliche Anpassungen zu planen, die zur Verlängerung der Lebensdauer der Maschine genutzt werden können.
- Marketing-Automatisierungssysteme nutzen die Interaktionen potenzieller Kunden, um vorherzusagen, welche Antwort-E-Mail oder welches digitale Asset am besten geeignet ist, um sie auf der Migration zu einem Kunden zu halten.
- Systeme zur Vertriebsautomatisierung untersuchen die Berührungspunkte mit dem Kunden, einschließlich Website-Besuche, konsumierte digitale Inhalte, Suchbegriffe und angeklickte digitale Anzeigen, um die Kaufabsicht vorherzusagen. Subtile Kaufsignale können verarbeitet werden, um das Vertriebsteam darauf aufmerksam zu machen, dass der Interessent ein Produkt oder eine Dienstleistung ernsthaft in Erwägung zieht, und damit ein Vertriebsmitarbeiter direkt auf ihn zugehen kann.
- Die Betrugsbekämpfung profitiert von der Aufdeckung anormaler Kreditkartentransaktionen, Banküberweisungen oder gefälschter Versicherungsansprüche.
- Netzmanagementsysteme suchen nach Anzeichen für Staus in Routern und Routing-Knoten, um mögliche Paketverluste vorherzusagen und den Verkehr proaktiv umzuleiten, um die Latenzzeit zu minimieren. Dieselben Algorithmen können auch zur Optimierung der Streckenführung in Straßennavigationssystemen und Eisenbahnnetzen eingesetzt werden.
- Das Gesundheitswesen profitiert von der data mining Patientenakten und Testergebnissen zur Vorhersage von Ergebnissen und möglichen Komplikationen, so dass Ärzte proaktiv geeignete Behandlungen verschreiben können.
Data Mining auf der Actian Datenplattform
Die Actian Data Platform kann Datenpipelines für data mining erstellen und planen. Die Actian Data Platform verwendet eine vektorisierte, spaltenorientierte Datenbank, die Alternativen um das 7,9-fache übertrifft. Da sie Tabellendaten als Spalten speichert, können diese kleineren Datenelemente das verfügbare CPU besser nutzen. Actian verwendet Funktionen SIMD Single Instruction, Multiple Data ), die es einer Operation in einem einzigen Prozessor ermöglichen, alle CPU eines Servers zu nutzen, um eine branchenführende analytische Verarbeitung zu erreichen. Traditionelle Datenbanken, die Daten als Zeilen speichern, müssen breite Zeilen scannen und zwischenspeichern, was mit Cache weniger effizient ist.