- Sie befinden sich:
- Fachbücher
- »
- Natur & Technik - Unsere Neuheiten
- »
- Informatik
- »
- Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit
Informatik
» Blick ins Buch
» weitere Bücher zum Thema
» Buch empfehlen
» Buch bewerten
Verlag: Diplomica Verlag
Erscheinungsdatum: 08.2009
AuflagenNr.: 1
Seiten: 106
Abb.: 39
Sprache: Deutsch
Einband: Paperback
eBook
Medium: PC-PDF
DRM: Wasserzeichen
Data Mining ist ein inzwischen etabliertes, erfolgreiches Werkzeug zur Extraktion von neuem, bislang unbekanntem Wissen aus Daten. In mittlerweile fast allen größeren Unternehmen wird es genutzt um Mehrwerte für Kunden zu generieren, den Erfolg von Marketingkampagnen zu erhöhen, Betrugsverdacht aufzudecken oder beispielsweise durch Segmentierung unterschiedliche Kundengruppen zu identifizieren. Ein Grundproblem der intelligenten Datenanalyse besteht darin, dass Daten oftmals in rasanter Geschwindigkeit neu entstehen. Einkäufe im Supermarkt, Telefonverbindungen oder der öffentliche Verkehr erzeugen täglich eine neue Flut an Daten, in denen potentiell wertvolles Wissen steckt. Die versteckten Zusammenhänge und Muster können sich im Zeitverlauf mehr oder weniger stark verändern. Datenmodellierung findet in der Regel aber noch immer einmalig bzw. sporadisch auf dem Snapshot einer Datenbank statt. Einmal erkannte Muster oder Zusammenhänge werden auch dann noch angenommen, wenn diese längst nicht mehr bestehen. Gerade in dynamischen Umgebungen wie zum Beispiel einem Internet-Shop sind Data Mining Modelle daher schnell veraltet. Betrugsversuche können dann unter Umständen nicht mehr erkannt, Absatzpotentiale nicht mehr genutzt werden oder Produktempfehlungen basieren auf veralteten Warenkörben. Um dauerhaft Wettbewerbsvorteile erzielen zu können, muss das Wissen über Daten aber möglichst aktuell und von ausgezeichneter Qualität sein. Der Inhalt dieses Buches skizziert Methoden und Vorgehensweisen von Data Mining in Echtzeit.
Textprobe: Kapitel 3.3, Inkrementelles Clustering: Das Clustering ist ein wichtiges Teilproblem des Data Mining, das von der deskriptiven Modellierung (Abschnitt 2.1) zugeordnet wird. Beim Clustering werden Objekte einer Datenbank in apriori unbekannte Gruppen, als Cluster bezeichnet, so eingeteilt, dass die Objekte in einem Cluster möglichst ähnlich zueinander und die Objekte in verschiedenen Clustern möglichst unterschiedlich voneinander sind. Aktuelle Herausforderungen für Clustering-Algorithmen in Bezug auf immer größere und komplexere Datenmengen werden in diskutiert. Eine Möglichkeit zur Leistungssteigerung wird neben verbesserten Indexstrukturen, Datenkompression und anderen Ansätzen in der Entwicklung inkrementeller Clustering-Algorithmen gesehen. In diesem Abschnitt sollen einige der bekanntesten Vertreter dieser Verfahren vorgestellt werden. Eine Auswahl an existierenden Algorithmen zum inkrementellen Clustering zeigt Abbildung 9 (siehe Abbildung 9: Inkrementelle Algorithmen zum Clustering).. Darin werden zu den, im folgenden Abschnitt vorgestellten, Klassen von Clustering-Verfahren, einige Vertreter zusammen mit deren inkrementellen Varianten dargestellt. Nach einer kurzen Einführung in das Clustering im Abschnitt 3.3.1 werden die dargestellten Varianten in den darauf folgenden Abschnitten beschrieben. Grundlagen des Clustering: Es existieren drei unterschiedliche Klassen von Verfahren, auf denen existierende Clustering-Algorithmen aufbauen: Partitionierende Verfahren, Dichte-basierte Verfahren, Hierarchische Verfahren. Die partitionierenden Verfahren, deren bekanntester Vertreter der k-Means Algorithmus ist, zerlegen eine Datenmenge in eine festgelegte Anzahl von k Clustern, wobei jeder Cluster mindestens ein Objekt enthalten muss und jedes Objekt genau einem Cluster zugeordnet ist. Im ersten Schritt bestimmt der k-Means Algorithmus k zufällig gewählte Punkte, die cluster center, und ordnet dann jedes Objekt der Datenbasis jeweils dem am nächsten liegenden cluster center zu. Da diese Einteilung in der Regel nicht optimal ist, werden den Objekten im zweiten Schritt näher liegende cluster centers zugeordnet um die Gesamtsumme der Abstände zu verringern. Im Anschluss werden die neuen cluster centers berechnet. Dieser Vorgang wird solange wiederholt, bis keine Änderung in den Clustern mehr auftritt. Der Algorithmus hat eine Laufzeitkomplexität von O(knt) bei t Iterationen. Er arbeitet nur für kleine Datenbanken ausreichend effizient. Für größere Datenbanken, wie VLDBs, verwendet man daher oft sampling-basierte Varianten des k-Means Algorithmus wie z.B. CLARA (Clustering LARge Applications). Inkrementelle Varianten von Clustering Algorithmen konzentrieren sich auf dichte-basierte und hierarchische Verfahren, die im Folgenden beschrieben werden. Dichte-basierte Verfahren betrachten Cluster als beliebig geformte Gebiete mit einer hohen Konzentration von Objekten in einem d-dimensionalen Raum. Zwischen diesen Clustern befinden sich Regionen, die eine sehr geringe Konzentration von Objekten aufweisen. Die sog. lokale Punktdichte eines Objekts o bezeichnet die Anzahl der Objekte innerhalb einer festgelegten Umgebung um o herum. Eine hohe Konzentration von Objekten wird als eine lokale Punktdichte innerhalb von Clustern definiert, die einen bestimmten Grenzwert überschreitet. Der DBSCAN (Density-Based Spatial Clustering of Applications with Noise)-Algorithmus ist ein Vertreter der dichte-basierten Verfahren, für die auch eine inkrementelle Variante existiert. Diese wird im Abschnitt 3.3.2 vorgestellt. Bei hierarchischen Clustering-Verfahren wird eine Menge von Objekten hierarchisch in einer Baumstruktur, dem sog. Dendrogramm, angeordnet. Aus dem Baum kann dann eine Clusterstruktur abgeleitet werden, sodass der Cluster an der Wurzel des Baums sämtliche Objekte enthält und die Cluster an den Blättern die einzelnen Objekte enthalten. Jede Stufe in dem Baum entspricht dann einer Clusterstruktur. Um die Baumstruktur zu generieren, werden agglomerative (bottom-up) und divisive (top-down) Methoden unterschieden. Bei den agglomerativen Methoden wird zunächst jedes Objekt einem eigens generierten Cluster zugeordnet. Diese werden dann in den nächsten Schritten zu größeren Clustern zusammengefasst bis zum Schluss nur noch ein einziger übrig ist. Der Großteil der Methoden des hierarchischen Clustering gehört zu dieser Kategorie. Die divisiven Methoden beginnen mit einem großen Cluster, der zunächst alle Objekte enthält. Schritt für Schritt wird dieser dann aufgespaltet, bis alle Cluster atomar sind, also nur noch ein einziges Objekt enthalten. Ein Algorithmus, der Elemente sowohl der dichte-basierten, als auch der hierarchischen Verfahren verwendet, ist der OPTICS (Ordering Points To Identify the Clustering Structure)-Algorithmus. Er kann als Erweiterung des DBSCAN angesehen werden. Die Grundidee des OPTICS und seine inkrementelle Variante, der IncOPTICS, werden in Abschnitt 3.3.3 vorgestellt.
Florian Stompe ist seit 2006 bei der Dymatrix Consulting Group GmbH in Stuttgart als Berater für Analytisches Customer Relationship Managment (CRM) tätig. In dieser Funktion hat er zahlreiche Projekte bei namhaften Unternehmen in Branchen wie Telekommunikation, Versandhandel, Energie und Verkehr begleitet.
weitere Bücher zum Thema

Servervirtualisierung: Möglichkeiten und Grenzen der Servervirtualisierung im Anwendungsfeld der Hospitality Industry
ISBN: 978-3-8428-6567-9
EUR 48,00
Techniken zur Kostensenkung und Erhöhung von IT-Sicherheit durch WAN-Optimierung
Grundlagen, Funktion, Problematik und Möglichkeiten der Optimierung von Weitverkehrsnetzen
ISBN: 978-3-8428-7236-3
EUR 38,00
Entwicklung eines Usability Testverfahrens für Multitouch-Systeme
ISBN: 978-3-8428-6554-9
EUR 48,00
Von der Hollerithmaschine zum Computer: IBM Datenverarbeitung in der Verwaltung
ISBN: 978-3-8428-6889-2
EUR 48,00
Experimente mit Cypress-PSoC-Mikrocontrollern: Implementierung analoger Filter
ISBN: 978-3-8428-6425-2
EUR 38,00
Terrain Rendering mit Geometrie Clipmaps für Spiele
ISBN: 978-3-8428-6995-0
EUR 38,00
Prozessoptimierung in der Einzelteilproduktion
ISBN: 978-3-8428-6586-0
EUR 48,00
Reinforcement Learning: Roboternavigation in Heimumgebungen
ISBN: 978-3-8428-6183-1
EUR 58,00
Transformation von Wissen in Software: Möglichkeiten des Einsatzes von Wissensmanagement bei der Entwicklung von Software
ISBN: 978-3-8428-5898-5
EUR 38,00
Konzeption eines Vorgehensmodells für die Analyse zur Geschäftsprozessmodellierung und den Einsatz von Workflows im mittelständischen Unternehmen
Die 1. Phase zur Softwareentwicklung - Die Analyse
ISBN: 978-3-8428-6405-4
EUR 38,00




