Suche

» erweiterte Suche » Sitemap

Technik

Norman Zänker / Christian Zietzsch

Text Mining und dessen Implementierung

ISBN: 978-3-8428-5970-8

Die Lieferung erfolgt nach 5 bis 8 Werktagen.

EUR 48,00Kostenloser Versand innerhalb Deutschlands


» Bild vergrößern
» Blick ins Buch
» weitere Bücher zum Thema


» Buch empfehlen
» Buch bewerten
Produktart: Buch
Verlag: Diplomica Verlag
Erscheinungsdatum: 07.2011
AuflagenNr.: 1
Seiten: 90
Abb.: 30
Sprache: Deutsch
Einband: Paperback

Inhalt

In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind. Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ‘Data-Mining’. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen. Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu extrahieren, wird als ‘Text-Mining’ bezeichnet, welches auf den Grundlagen des Data-Mining basiert. Nichts desto trotz stecken die Analyseverfahren noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren differenzierter sprachlicher Aufbau der Entwicklung zu schaffen macht. In dieser Studie geben wir grundlegende Einblicke in das Gebiet des Text-Mining, definieren und beschreiben den Prozess, und erläutern die Methodik an einem eigens konzipierten Text-Mining-Tools.

Leseprobe

Textprobe: Kapitel 3.3, Dokumentaufbereitung: Die Aufgabe der Dokumentaufbereitung besteht darin, einer Sammlung digitaler, natürlich sprachlicher Texte in eine geeignete Form zur automatisierten Weiterverarbeitung aufzubereiten und zu speichern. Um aus den unstrukturierten Daten der verschiedenen Textdokumente Informationen zu gewinnen, bedient man sich bei der Linguistik und ihrer Ebenen, die einen Text formal beschreiben. Anhand dieser Ebenen ist es möglich, einen Text in seine informationsrepräsentierenden Elemente zu zerlegen, wodurch eine computergestützte Weiterverarbeitung erst möglich wird. Somit ist die Dokumentaufbereitung für die Anwendung verschiedener Text Mining-Verfahren ausschlaggebend. 3.3.1, Textressourcen: Um statistische, clusterbasierte und musterbasierte Verfahren des Text Mining erfolgreich anwenden zu können, benötigt man neben den zu analysierenden, digitalisierten Dokumenten zusätzlich allgemeine Textressourcen bzw. Referenztexte, welche als Grundlage für die Analyse von Fachtexten dienen. Diese werden online in großem Umfang angeboten. Dabei unterscheidet man unstrukturierte ASCII-Texte, annotierte Texte, sowie lexikalische Ressourcen. Unstrukturierte Texte werden als Grundlage für die statistischen und clusterbasierten Verfahren des Text Mining benötigt. Diese Art von Text findet man fast ausschließlich, wenn man das Internet durchsucht. Allerdings sind diese nicht repräsentativ für die jeweilige Standardsprache. Stattdessen kann man die Textressourcen der European Language Resource Association (ELRA) nutzen, welche für nahezu jede europäische Sprache eine eigene Textsammlung anbietet. Diese können als Grundlage für statistische und clusterbasierte Analyseverfahren weiter verwendet werden. Annotierte Texte sind Texte, in denen sämtliche Wortformen der enthaltenen Sätze nach vorgegebenen Wortarten klassifiziert wurden. Die möglichen Wortarten werden in sogenannten Tagsets angegeben, welche die linguistische Struktur eines Satzes annotieren und im Part-of-Speech Tagging ihre Anwendung finden. Lexikalische Ressourcen sind Listen von Wörtern, welche je nach Verfügbarkeit um statistische, morphologische, syntaktische, semantische, terminologische und pragmatische Informationen ergänzt werden. Diese Referenzkorpora werden ebenfalls mit einem Text Mining-Programm aus einer Menge unstrukturierter Texte erstellt und dienen als zusätzliche strukturierte Informationsquellen für Text Mining-Verfahren, wie beispielsweise der Differenzanalyse. 3.3.2, Aufbau eines Analysekorpus: Mit dem Aufbau eines Analysekorpus sollen die gewonnen Informationen aus Texten in einer strukturierten Form gespeichert werden. Dabei handelt es sich meist, aufgrund des geringen Implementierungsaufwandes, um eine relationale Datenbank mit mehreren Tabellen, welche aus den gegebenen Dokumenten gewonnen wird und möglichst alle Informationen zur weiteren inhaltlichen Analyse bereitstellt. Eine Datenbank hat dabei den Vorteil, dass durch deren Abfragesyntax ein gezielter Zugriff auf benötigte Informationen gewährt wird und durch die Nutzung von Tabellen ein effizienter Zugriff auf zusammenhängende Informationen erfolgen kann. Es ist aber auch möglich die herausgefilterten Informationen zeilenweise in Textdateien zu speichern. Der Implementierungsaufwand ist aber ungleich höher, da für die zeilenweise algorithmische Suche in diesen Dateien eigene Verfahren entwickelt werden müssen. Hinzu kommt, dass die strukturelle Verknüpfung von Informationen, wie es mit Tabellen der Fall ist, nicht so einfach erfolgen kann. Der Aufbau eines Analysekorpus gliedert sich allgemein in drei Stufen, die nacheinander abgearbeitet werden. Stufe 1 - Formatierung der originalen Dokumente: Da die originalen Dokumente beispielsweise Tabellen oder Bilder beinhalten können, muss der Text erst einmal herausgefiltert werden. Dies stellt aber nicht das einzige Problem dar. Textdokumente können in verschieden Dokumentformaten (PDF, HTML, E-Mail, Textverarbeitungsformate) vorhanden sein, welche mit dem Text Mining-Programm nicht kompatibel sind. Folglich müssen sie zu aller erst in ein, zur weiteren Verarbeitung, geeignetes Format umgewandelt werden. Dadurch kann es zu einem Informationsverlust oder gar einer Informationsverfälschung durch etweilige Formatierungsfehler kommen. Liegen die Dokumente schlussendlich in einem verträglichen Format vor und ihre textuellen Informationen konnten erfolgreich herausgefiltert werden, wird mit Stufe 2 fortgefahren. Stufe 2 - Segmentierung der Sätze: Nachdem aus den Originaldokumenten der reine Text extrahiert wurde, erfolgt das Zerlegen in einzelne Sätze, welche in einer Satzliste zur weiteren Verarbeitung gespeichert werden. Da die Ausgangsdokumente aus den Einzels ätzen nicht vollständig rekonstruierbar sind, wird jedem Satz in der Satzliste ein Verweis auf das Originaldokument angehängt. Um später einzelne extrahierte Wortformen ihren Ursprungssätzen zuweisen zu können, erhält jeder Satz noch eine eindeutige Identifikationsnummer (Satznummer). Stufe 3 - Segmentierung der Wortformen: Die einzelnen Sätze werden weiter analysiert und in ihre Wortformen zerlegt. Die herausgefilterten Wortformen werden mit der Anzahl ihres Auftretens in den Sätzen in eine Wortliste eingetragen und so als Informationen für die weitere Verarbeitung bereitgestellt. Hinzukommend wird jeder Wortform, wie bei einem Satz, eine eindeutige Identifikationsnummer (Wortnummer) zugewiesen um später Referenzen zwischen Wortformen und Sätzen zu ermöglichen. Anhand dieser drei Stufen werden die Tabellen ‘Satzliste’, ‘Wortliste’ und ‘Indexliste’ generiert. Dabei übernimmt die Indexliste die Funktion einer Referenzliste zur Verknüpfung der Satzliste mit der Wortliste. Sie stellt eine inverse Liste bestehend aus zwei Spalten mit Wortnummer und Satznummer dar, um einer Wortform schnell diejenigen Sätze zuzuordnen, in denen sie vorkommen. Abschließend sei noch zu bemerken, dass diese drei Listen nur einen grundlegenden Analysekorpus darstellen. Je nach eingesetzten Text Mining-Verfahren, können mehrere Tabellen bzw. Listen hinzukommen. 3.3.2.1, Satzsegmentierung: Die Satzsegmentierung erfolgt auf der Grundlage, syntaktische Informationen von Wortformen nutzbar zu machen. Dies ist erforderlich, da die meisten Wortformen je nach Position in verschiedenen Sätzen mehrere Wortarten annehmen können und somit eine syntaktische Analyse anhand des Part-of-Speech Tagging nur auf Basis ganzer Sätze erfolgen kann. Ein weiterer Vorteil der Zerlegung in Sätze ist, dass diese semantisch abgeschlossene Einheiten bilden und somit die Datenbasis der Kookkurrenzanalyse darstellen. Auf den ersten Blick könnte man meinen, das Zerlegen eines Textes in seine Sätze wäre trivial. Man bestimme Satzanfang sowie Satzende und kann dadurch eine konkrete Trennung vornehmen. Doch bereits da zeigen sich erste Probleme. Wie unterscheidet man ein reguläres Satzende von einer Abkürzung oder von einer Ziffer mit nachgestelltem Punkt? Oder wie trennt man Sätze, welche sich in einer wörtlichen Rede befinden? Generell lassen sich Satzsegmentierungen in der englischen Sprache auf Basis folgender grundlegender Regeln für den Satzanfang und das Satzende vornehmen: Regeln für Satzanfang (in Anlehnung an G. Heyer): - Sätze beginnen niemals mit Kleinbuchstaben. - Nach einer Überschrift beginnt ein neuer Satz. - Am Anfang eines Absatzes beginnt ein neuer Satz. - Großgeschriebene Artikel und Pronomen (‘The’, ‘This’, ‘They’, ...) weisen auf einen Satzanfang hin. Regeln für Satzende (in Anlehnung an G. Heyer): - Alle Sätze enden mit einem Satzendezeichen (., !, :, ?). - Vor einer Überschrift endet ein Satz. - Am Ende eines Absatzes endet ein Satz. - Überschriften sollten wie Sätze behandelt werden. Die beschriebenen Probleme, die auftreten können, werden aber durch diese Regeln nicht gelöst. Für das Erkennen von Abkürzungen, Ziffern und der wörtlichen Rede müssen andere Lösungen gefunden werden. Bei der Bestimmung von Abkürzungen sind Abkürzungslisten, aber auch das Betrachten der nachfolgenden Wortform hilfreich. Sollte hinter einer Abkürzung ein großgeschriebener Artikel oder ein großgeschriebenes Pronomen stehen, so deutet dies auf ein Satzende hin. Durch eine Abkürzungsliste und dieser Regel kann ein Großteil der Abkürzungen erkannt und überprüft werden, ob diese ein Satzende darstellen. Es gibt aber immer noch Fälle, in denen eine genaue Identifikation des Satzendes nicht möglich ist. Da wir uns in dieser Arbeit, aufgrund der Zielsetzung, hauptsächlich auf die englische Sprache beziehen wollen, entfällt die Betrachtung von Ziffern als mögliches Satzende, da diese im Gegensatz zur deutschen Sprache niemals mit einem Punkt geschrieben werden. Stattdessen dienen Kurzformen wie zum Beispiel ‘2nd’ oder ‘3th’, um Wortformen numerisch näher zu beschreiben. Bei der Betrachtung anderer Sprachen, wie beispielsweise der Deutschen, wäre es aber möglich nach folgendem Prinzip vorzugehen: Sollte es sich bei einer Wortform, in Verbindung mit einem Punkt, um eine Ziffer handeln, so dürfen in dieser keine Buchstaben auftreten. Wenn nun zusätzlich die darauf folgende Wortform einen großgeschriebenen Artikel oder ein großgeschriebenes Pronomen darstellt, lässt dies auf ein Satzende schließen. Aber auch im Zusammenhang mit Ziffern ist eine eindeutige Identifikation des Satzendes nicht immer möglich, da bei nachfolgenden Nomen dieses Prinzip nicht geeignet ist. Anhand eines Beispiels wird deutlich, welche Probleme bei der Satzsegmentierung durch die wörtliche Rede in einem Text auftreten können. Beispiel: ‘My computer is a high-end machine! I have the best hardware on the market”, he said to his friend. Die Frage ist, ob es sich hierbei um einen oder mehrere Sätze handelt. Auf Grundlage der vorher aufgeführten Regeln, würde ein Algorithmus das Beispiel in die folgenden zwei Sätze zerlegen: (1) ‘My computer is a high-end machine! (2) I have the best hardware on the market”, he said to his friend. Diese Lösung ist eher unbefriedigend, da die An- bzw. Ausführungszeichen nicht paarweise in einem Satz, sondern einzeln in zwei Sätzen vorkommen. Da jeder Satz syntaktisch korrekt sein soll, dürfen diese nicht in die Satzliste des Analysekorpus aufgenommen werden. Im Fall des Satzes (1), lässt sich das Problem mit folgender Regel leicht lösen: Bei allen Sätzen, bei denen nur ein isoliertes An- bzw. Ausführungszeichen am Anfang oder Ende steht, kann dieses Sonderzeichen einfach entfernt werden. Dies ist möglich, da der syntaktische und semantische Inhalt des Satzes nicht verändert wird. Sollte ein isoliertes An- bzw. Ausführungszeichen, wie in Satz (2), mitten im Satz vorkommen, so gibt es dafür keine vergleichbare Lösung. Anhand der vorgestellten Probleme und Lösungsansätze zeigt sich schnell, dass eine Segmentierung der Sätze eines Textes nicht immer hundertprozentig möglich ist. Es handelt sich daher bei Algorithmen zur Satzsegmentierung um sogenannte approximative Algorithmen, da die Lösung nicht immer fehlerfrei sein kann. 3.3.2.2 Wortsegmentierung: Im Gegensatz zur Satzsegmentierung ist das Segmentieren von Wortformen eindeutiger, da in den meisten Sprachen Wörter in einem Satz stets durch ein Leerzeichen getrennt werden. Ein Tabulatorzeichen, sowie ein Zeilenumbruch können ebenfalls innerhalb eines Satzes auftauchen und müssen folglich mit beachtet werden, da sie ebenfalls Wortformen trennen können. Diese Trennzeichen können unter dem Begriff Whitespace-Zeichen zusammengefasst werden. Geht man davon aus, dass nach jedem Whitespace-Zeichen ein neues Wort beginnt, lässt sich so schon eine ausreichende Segmentierung erreichen. Nach der Trennung müssen lediglich noch Satzzeichen, wie zum Beispiel ‘Punkt’ und ‘Komma’, sowie verschiedene Sonderzeichen entfernt werden. Aber auch dieser Ansatz birgt einige Probleme in sich. Der Grund dafür ist in der Linguistik zu finden, da die linguistische Definition einer Wortform mit der Definition, welche auf Grundlage der Informationstheorie basiert, nicht übereinstimmt. In der Linguistik besteht eine Wortform aus der Aneinanderreihung von Buchstabentupeln, sogenannte Morpheme, welche die kleinste bedeutungstragende Einheit einer Sprache bilden. Diese Buchstabentupel enthalten, wie der Name schon sagt, nur Buchstaben. Folglich dürfen nach der Definition in einer Wortform keine Zahlen, Whitespace oder Sonderzeichen vorhanden sein. Nach der Informationstheorie besteht eine Wortform aber aus einer Menge von Zeichen, die nicht nur Buchstaben, sondern auch Ziffern, Whitespace- und Sonderzeichen sein können. Folgende Beispiele verdeutlichen dies: self-repairing, real-time, third-dimension, Audi A4, VW Golf, Banghard BeratungsGmbH & Vermittlungs-KG, ... Bei diesen Beispielen ist sehr gut zu erkennen, dass die linguistische Definition einer Wortform nicht immer auf die natürlichen Sprachen anwendbar ist. Dies trifft vor allem auf Eigennamen zu. Schwierigkeiten bereiten auch wortähnliche Objekte wie Internetadressen, Dateinamen sowie mathematische Zeichen und Formeln, die keine eigentlichen Wortformen darstellen. Bei der Implementierung eines Text Mining-Programms ist es daher notwendig zu Beginn festzulegen, welche Zeichen in einer Wortform enthalten sein dürfen, da die Definition nicht eindeutig ist. Es wird aber weiterhin davon ausgegangen, dass Wortformen stets durch Whitespace-Zeichen getrennt werden.

weitere Bücher zum Thema

Bewerten und kommentieren

Bitte füllen Sie alle mit * gekennzeichenten Felder aus.