Sie befinden sich:
Fachbücher
»
Natur & Technik - Unsere Neuheiten
»
Informatik
»
Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit

Informatik

» Bild vergrößern
» Blick ins Buch
» weitere Bücher zum Thema

» Buch empfehlen
» Buch bewerten

Produktart: Buch
Verlag:
Diplomica Verlag
Imprint der Bedey & Thoms Media GmbH
Hermannstal 119 k, D-22119 Hamburg
E-Mail: info@diplomica.de
Erscheinungsdatum: 08.2009
AuflagenNr.: 1
Seiten: 106
Abb.: 39
Sprache: Deutsch
Einband: Paperback

Inhalt

Data Mining ist ein inzwischen etabliertes, erfolgreiches Werkzeug zur Extraktion von neuem, bislang unbekanntem Wissen aus Daten. In mittlerweile fast allen größeren Unternehmen wird es genutzt um Mehrwerte für Kunden zu generieren, den Erfolg von Marketingkampagnen zu erhöhen, Betrugsverdacht aufzudecken oder beispielsweise durch Segmentierung unterschiedliche Kundengruppen zu identifizieren. Ein Grundproblem der intelligenten Datenanalyse besteht darin, dass Daten oftmals in rasanter Geschwindigkeit neu entstehen. Einkäufe im Supermarkt, Telefonverbindungen oder der öffentliche Verkehr erzeugen täglich eine neue Flut an Daten, in denen potentiell wertvolles Wissen steckt. Die versteckten Zusammenhänge und Muster können sich im Zeitverlauf mehr oder weniger stark verändern. Datenmodellierung findet in der Regel aber noch immer einmalig bzw. sporadisch auf dem Snapshot einer Datenbank statt. Einmal erkannte Muster oder Zusammenhänge werden auch dann noch angenommen, wenn diese längst nicht mehr bestehen. Gerade in dynamischen Umgebungen wie zum Beispiel einem Internet-Shop sind Data Mining Modelle daher schnell veraltet. Betrugsversuche können dann unter Umständen nicht mehr erkannt, Absatzpotentiale nicht mehr genutzt werden oder Produktempfehlungen basieren auf veralteten Warenkörben. Um dauerhaft Wettbewerbsvorteile erzielen zu können, muss das Wissen über Daten aber möglichst aktuell und von ausgezeichneter Qualität sein. Der Inhalt dieses Buches skizziert Methoden und Vorgehensweisen von Data Mining in Echtzeit.

Leseprobe

Textprobe: Kapitel 3.3, Inkrementelles Clustering: Das Clustering ist ein wichtiges Teilproblem des Data Mining, das von der deskriptiven Modellierung (Abschnitt 2.1) zugeordnet wird. Beim Clustering werden Objekte einer Datenbank in apriori unbekannte Gruppen, als Cluster bezeichnet, so eingeteilt, dass die Objekte in einem Cluster möglichst ähnlich zueinander und die Objekte in verschiedenen Clustern möglichst unterschiedlich voneinander sind. Aktuelle Herausforderungen für Clustering-Algorithmen in Bezug auf immer größere und komplexere Datenmengen werden in diskutiert. Eine Möglichkeit zur Leistungssteigerung wird neben verbesserten Indexstrukturen, Datenkompression und anderen Ansätzen in der Entwicklung inkrementeller Clustering-Algorithmen gesehen. In diesem Abschnitt sollen einige der bekanntesten Vertreter dieser Verfahren vorgestellt werden. Eine Auswahl an existierenden Algorithmen zum inkrementellen Clustering zeigt Abbildung 9 (siehe Abbildung 9: Inkrementelle Algorithmen zum Clustering).. Darin werden zu den, im folgenden Abschnitt vorgestellten, Klassen von Clustering-Verfahren, einige Vertreter zusammen mit deren inkrementellen Varianten dargestellt. Nach einer kurzen Einführung in das Clustering im Abschnitt 3.3.1 werden die dargestellten Varianten in den darauf folgenden Abschnitten beschrieben. Grundlagen des Clustering: Es existieren drei unterschiedliche Klassen von Verfahren, auf denen existierende Clustering-Algorithmen aufbauen: Partitionierende Verfahren, Dichte-basierte Verfahren, Hierarchische Verfahren. Die partitionierenden Verfahren, deren bekanntester Vertreter der k-Means Algorithmus ist, zerlegen eine Datenmenge in eine festgelegte Anzahl von k Clustern, wobei jeder Cluster mindestens ein Objekt enthalten muss und jedes Objekt genau einem Cluster zugeordnet ist. Im ersten Schritt bestimmt der k-Means Algorithmus k zufällig gewählte Punkte, die cluster center, und ordnet dann jedes Objekt der Datenbasis jeweils dem am nächsten liegenden cluster center zu. Da diese Einteilung in der Regel nicht optimal ist, werden den Objekten im zweiten Schritt näher liegende cluster centers zugeordnet um die Gesamtsumme der Abstände zu verringern. Im Anschluss werden die neuen cluster centers berechnet. Dieser Vorgang wird solange wiederholt, bis keine Änderung in den Clustern mehr auftritt. Der Algorithmus hat eine Laufzeitkomplexität von O(knt) bei t Iterationen. Er arbeitet nur für kleine Datenbanken ausreichend effizient. Für größere Datenbanken, wie VLDBs, verwendet man daher oft sampling-basierte Varianten des k-Means Algorithmus wie z.B. CLARA (Clustering LARge Applications). Inkrementelle Varianten von Clustering Algorithmen konzentrieren sich auf dichte-basierte und hierarchische Verfahren, die im Folgenden beschrieben werden. Dichte-basierte Verfahren betrachten Cluster als beliebig geformte Gebiete mit einer hohen Konzentration von Objekten in einem d-dimensionalen Raum. Zwischen diesen Clustern befinden sich Regionen, die eine sehr geringe Konzentration von Objekten aufweisen. Die sog. lokale Punktdichte eines Objekts o bezeichnet die Anzahl der Objekte innerhalb einer festgelegten Umgebung um o herum. Eine hohe Konzentration von Objekten wird als eine lokale Punktdichte innerhalb von Clustern definiert, die einen bestimmten Grenzwert überschreitet. Der DBSCAN (Density-Based Spatial Clustering of Applications with Noise)-Algorithmus ist ein Vertreter der dichte-basierten Verfahren, für die auch eine inkrementelle Variante existiert. Diese wird im Abschnitt 3.3.2 vorgestellt. Bei hierarchischen Clustering-Verfahren wird eine Menge von Objekten hierarchisch in einer Baumstruktur, dem sog. Dendrogramm, angeordnet. Aus dem Baum kann dann eine Clusterstruktur abgeleitet werden, sodass der Cluster an der Wurzel des Baums sämtliche Objekte enthält und die Cluster an den Blättern die einzelnen Objekte enthalten. Jede Stufe in dem Baum entspricht dann einer Clusterstruktur. Um die Baumstruktur zu generieren, werden agglomerative (bottom-up) und divisive (top-down) Methoden unterschieden. Bei den agglomerativen Methoden wird zunächst jedes Objekt einem eigens generierten Cluster zugeordnet. Diese werden dann in den nächsten Schritten zu größeren Clustern zusammengefasst bis zum Schluss nur noch ein einziger übrig ist. Der Großteil der Methoden des hierarchischen Clustering gehört zu dieser Kategorie. Die divisiven Methoden beginnen mit einem großen Cluster, der zunächst alle Objekte enthält. Schritt für Schritt wird dieser dann aufgespaltet, bis alle Cluster atomar sind, also nur noch ein einziges Objekt enthalten. Ein Algorithmus, der Elemente sowohl der dichte-basierten, als auch der hierarchischen Verfahren verwendet, ist der OPTICS (Ordering Points To Identify the Clustering Structure)-Algorithmus. Er kann als Erweiterung des DBSCAN angesehen werden. Die Grundidee des OPTICS und seine inkrementelle Variante, der IncOPTICS, werden in Abschnitt 3.3.3 vorgestellt.

Schlagworte

Über den Autor

Florian Stompe ist seit 2006 bei der Dymatrix Consulting Group GmbH in Stuttgart als Berater für Analytisches Customer Relationship Managment (CRM) tätig. In dieser Funktion hat er zahlreiche Projekte bei namhaften Unternehmen in Branchen wie Telekommunikation, Versandhandel, Energie und Verkehr begleitet.

weitere Bücher zum Thema

Einführung in das Recht der Künstlichen Intelligenz

ISBN: 978-3-95935-640-4
EUR 49,50

Eine Verallgemeinerung des zweiten Nevanlinnaschen Hauptsatzes. Mit meromorphen Vergleichsfunktionen kleiner Ordnung nach Steinmetz

ISBN: 978-3-69122-506-8
EUR 29,90

Virtual Reality: Eine Analyse der Schlüsseltechnologie aus der Perspektive des strategischen Managements

Bearbeitete Neuausgabe

ISBN: 978-3-96146-904-8
EUR 39,99

On the structure of the Solomon-Tits algebra of the symmetric group. An analysis of associative, group theoretic and Lie theoretical phenomenons

With 224 exercises

ISBN: 978-3-95935-594-0
EUR 44,50

Adversariale Robustheit Neuronaler Netze. Verteidigungen gegen Vermeidungsangriffe zur Testzeit

ISBN: 978-3-96146-856-0
EUR 39,50

Lean Excellence in der Informationstechnologie

ISBN: 978-3-96146-840-9
EUR 39,50

Benefits of semantic data models. A study in the European goods transport industry

ISBN: 978-3-95935-564-3
EUR 44,90

Das chinesische Sozialkreditsystem. Künstliche Intelligenz als Umerziehungswerkzeug für ein überwachtes Volk

ISBN: 978-3-96146-813-3
EUR 34,50

Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base

ISBN: 978-3-96146-648-1
EUR 39,99

Scheduling von Schleusungsvorgängen: Algorithmen zur Verkehrsoptimierung am Beispiel des Nord-Ostsee-Kanals

ISBN: 978-3-96146-631-3
EUR 48,00

Suche

Informatik

Florian Stompe

Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit

ISBN: 978-3-8366-7879-7

EUR 48,00Kostenloser Versand innerhalb Deutschlands

weitere Bücher zum Thema

Einführung in das Recht der Künstlichen Intelligenz

ISBN: 978-3-95935-640-4
EUR 49,50

Eine Verallgemeinerung des zweiten Nevanlinnaschen Hauptsatzes. Mit meromorphen Vergleichsfunktionen kleiner Ordnung nach Steinmetz

ISBN: 978-3-69122-506-8
EUR 29,90

Virtual Reality: Eine Analyse der Schlüsseltechnologie aus der Perspektive des strategischen Managements

ISBN: 978-3-96146-904-8
EUR 39,99

On the structure of the Solomon-Tits algebra of the symmetric group. An analysis of associative, group theoretic and Lie theoretical phenomenons

ISBN: 978-3-95935-594-0
EUR 44,50

Adversariale Robustheit Neuronaler Netze. Verteidigungen gegen Vermeidungsangriffe zur Testzeit

ISBN: 978-3-96146-856-0
EUR 39,50

Lean Excellence in der Informationstechnologie

ISBN: 978-3-96146-840-9
EUR 39,50

Benefits of semantic data models. A study in the European goods transport industry

ISBN: 978-3-95935-564-3
EUR 44,90

Das chinesische Sozialkreditsystem. Künstliche Intelligenz als Umerziehungswerkzeug für ein überwachtes Volk

ISBN: 978-3-96146-813-3
EUR 34,50

Data Warehouse Factory: BI-Automation durch Data Vault mit SSIS und SAS Base

ISBN: 978-3-96146-648-1
EUR 39,99

Scheduling von Schleusungsvorgängen: Algorithmen zur Verkehrsoptimierung am Beispiel des Nord-Ostsee-Kanals

ISBN: 978-3-96146-631-3
EUR 48,00

Bewerten und kommentieren

Verlag

Newsletter

RSS

Informationen

Suche

Informatik

Florian Stompe

ISBN: 978-3-8366-7879-7

EUR 48,00Kostenloser Versand innerhalb Deutschlands

weitere Bücher zum Thema

ISBN: 978-3-95935-640-4EUR 49,50

ISBN: 978-3-69122-506-8EUR 29,90

ISBN: 978-3-96146-904-8EUR 39,99

ISBN: 978-3-95935-594-0EUR 44,50

ISBN: 978-3-96146-856-0EUR 39,50

ISBN: 978-3-96146-840-9EUR 39,50

ISBN: 978-3-95935-564-3EUR 44,90

ISBN: 978-3-96146-813-3EUR 34,50

ISBN: 978-3-96146-648-1EUR 39,99

ISBN: 978-3-96146-631-3EUR 48,00

Bewerten und kommentieren

Verlag

Newsletter

Informationen

ISBN: 978-3-95935-640-4
EUR 49,50

ISBN: 978-3-69122-506-8
EUR 29,90

ISBN: 978-3-96146-904-8
EUR 39,99

ISBN: 978-3-95935-594-0
EUR 44,50

ISBN: 978-3-96146-856-0
EUR 39,50

ISBN: 978-3-96146-840-9
EUR 39,50

ISBN: 978-3-95935-564-3
EUR 44,90

ISBN: 978-3-96146-813-3
EUR 34,50

ISBN: 978-3-96146-648-1
EUR 39,99

ISBN: 978-3-96146-631-3
EUR 48,00