Wie analysiert man einen komplexen Text?
Storyboard
Um den Text zu analysieren, kann man sich auf die am häufigsten verwendeten Substantive oder einige Schlüsselsubstantive konzentrieren.
Dazu werden sie hervorgehoben und alle Aktionen, die von ihnen ausgehen oder auf sie gerichtet sind, sowie die zugehörigen Eigenschaften werden grafisch dargestellt.
Ebenso kann man den Kontext betrachten, in dem diese Substantive erscheinen, ob sie mit einer positiven oder negativen Umgebung im Text in Verbindung stehen.
ID:(4, 0)
Textsegmentierung
Beschreibung
Texte bestehen normalerweise aus Sätzen, die mit einem Punkt, Ausrufezeichen oder Fragezeichen enden.
Jeder Satz oder Abschnitt bildet eine eigenständige Informationseinheit, die analysiert werden muss, um ihre Bedeutung zu verstehen.
Oben sehen wir einen Absatz, der aus sieben Sätzen besteht. Unten sind sie einzeln aufgelistet, um die Segmente zu bilden, an denen wir arbeiten werden.
Ein Beispiel könnte sein:
Dies führt zur Liste der Segmente:
Die Wohnung von Hans ist klein.
ID:(1, 0)
Token erkennen
Beschreibung
Um jeden Abschnitt zu analysieren, müssen wir sie zuerst in ihre Grundelemente zerlegen. In der Regel entsprechen diese Elemente den Wörtern, aber es gibt Situationen, in denen ein Wort tatsächlich ein zusammengesetztes Element mit Untereinheiten ist. Daher generalisieren wir und sagen, dass der Abschnitt in Token aufgeteilt wird.
Ein Beispiel für solche zusammengesetzten Wörter könnte "schlauer" sein, das die Tokens "schlau" und "mehr" enthält.
Im Allgemeinen verwenden Systeme Wörterbücher, um jeden Abschnitt zu analysieren und die Einheiten zu identifizieren, die in einzelne Token aufgeteilt werden sollten.
Nachdem die Segmente identifiziert wurden, müssen nun die Tokens bestimmt werden. Diese können Wörtern oder Teilen von Wörtern entsprechen, insbesondere bei zusammengesetzten Wörtern.
ID:(2, 0)
Normalisierung von Token
Beschreibung
Es ist wichtig zu erkennen, wann zwei Tokens äquivalent sind. Um dies zu erreichen, gilt es verschiedene Schreibweisen von Tokens zu vermeiden, die zwar dasselbe bedeuten, aber unterschiedlich geschrieben sind. Dies tritt hauptsächlich in zwei Situationen auf:
1. Tokens können entweder in Groß- oder Kleinschreibung geschrieben sein, aber dennoch die gleiche Bedeutung haben. Um dies zu vermeiden, werden alle Tokens immer in Kleinbuchstaben geschrieben. Dieser Prozess wird als Textnormalisierung bezeichnet.
Beispiel:
Seine Wohnung ist klein.
Das bedeutet, dass die Wörter Hans, Berlin, Seine und Wohnung modifiziert werden:
seine wohnung ist klein.
Tokens können in unterschiedlichen Flexionen des Wortes geschrieben sein. Daher werden die Tokens durch ihre Grundform ersetzt. Dieser Prozess wird als Lemmatisierung der Tokens bezeichnet.
Im Beispiel entspricht das Wort lebt der Grundform leben, sodass sich das Beispiel wie folgt darstellt:
seine wohnung ist klein.
Diese Normalisierungs- und Lemmatisierungsprozesse ermöglichen eine einheitliche Behandlung der Tokens, erkennen ihre Äquivalenz und vermeiden Redundanzen oder Diskrepanzen in der Schreibweise.
ID:(7, 0)
Etikettierung von Token
Beschreibung
Jeder Token spielt eine Rolle innerhalb des Segments basierend auf seinem Typ.
Die Haupttypen von Tokens sind:
Code | Bedeutung |
ADJ | Adjektiv |
ADP | Adposition |
ADV | Adverb |
CONJ | Konjunktion |
DET | Artikel |
NOUN | Substantiv |
PROP | Eigenname |
PRON | Pronomen |
VERB | Verb |
PUNCT | Satzzeichen |
Jeder Token muss gekennzeichnet werden, um das Segment zu analysieren.
Im Beispiel haben wir:
die (DET) wohnung (NOUN) von (ADP) hans (PROP) ist (VERB) klein (ADJ).
ID:(8, 0)
Deskriptoren erkennen
Beschreibung
Adjektive können sowohl in Verbindung mit einem Nomen oder Substantiv innerhalb eines Segments, das eine Handlung beinhaltet, auftreten, als auch einfach als Beschreibung ohne eine tatsächliche Handlung.
Im ersten Fall können wir es anhand eines Beispiels verdeutlichen:
Hier wird dem Substantiv Apfel das Adjektiv rot zugeordnet, und der zentrale Teil des Segments lautet:
Im zweiten Fall können wir es anhand der Aussage zeigen:
hierbei findet keine tatsächliche Handlung statt.
Die Adjektive, die das beschriebene Element charakterisieren, können aus dem Satz extrahiert und als zugehörige Beschreibungen belassen werden. Dadurch wird der Satz etwas vereinfacht, ohne Informationen zu verlieren. Grafisch kann dies als Knoten dargestellt werden, die mit dem Knoten des Elements verbunden sind, ohne Teil des Flusses zu sein. Sie werden zu Elementen, Verben und gegebenenfalls zu Adjektiven des zweiten Typs.
ID:(4, 0)
Assoziationen erkennen
Beschreibung
Die einfachste Verbindung besteht zwischen zwei Elementen, die durch Verben und/oder Adverbien verbunden sind. Zum Beispiel:
Hier sind die Elemente Hans (PROP) und einen Apfel (NOUN) und die Handlung ist isst (VERB).
Als Nächstes kommen Segmente, die mehrere Verbindungen enthalten, wie zum Beispiel:
In diesem Fall ermöglicht die Konjunktion (CONJ), das Segment in zwei Teile zu trennen:
dann (ADV) geht (VERB) er (PROP) schlafen (VERB).
Dabei kann das zweite Segment über das Pronomen mit demselben Nomen wie im ersten Segment verbunden werden. Daher wird das zweite Segment zu:
Eine komplexere Situation entsteht, wenn die Reihenfolge geändert wird, wie zum Beispiel:
ID:(5, 0)
Referenzen zwischen Segmenten
Beschreibung
Es gibt oft Synergien zwischen den Abschnitten, da sie zusätzliche Informationen enthalten, die sich auf in früheren Abschnitten erwähnte Personen, Institutionen und/oder Objekte beziehen.
In solchen Fällen erscheint der Name oder das Substantiv mehrmals im Text, was eine Verbindung zwischen den Abschnitten herstellt.
Im ersten und dritten Segment gibt es ein gemeinsames Element (ein Nomen oder ein Substantiv). Dadurch stehen die Segmente in Verbindung zueinander, wodurch die Beschreibungen sich ergänzen und neue Beziehungen entstehen können.
Ein Beispiel für solche Segmente ist:
Das Apartment von Hans ist klein.
die Hans gemeinsam haben.
ID:(6, 0)
Das Pronomenproblem
Beschreibung
Die Verwendung von Pronomen führt dazu, dass die Segmente indirekte Verweise auf Personen, Organisationen oder Objekte enthalten, was die separate Analyse jedes Segments erschwert.
Daher ist es notwendig, in den vorherigen Segmenten zu identifizieren, auf welche Personen, Organisationen oder Objekte sich die Pronomen beziehen. Dies wird gemacht, um die entsprechende Beziehung herzustellen und die Segmentanalyse durchführen zu können.
Ein Beispiel für solche Segmente ist:
Seine Wohnung ist klein.
wo Hans mit seine assoziiert werden sollte.
Schlecht formulierte Texte, in denen ein Name oder Objekt zwischen denjenigen eingeführt wird, die in Verbindung gebracht werden sollen, und dem Pronomen, führen zu falschen Zuordnungen.
ID:(11, 0)
Erkennen von Token-Pool
Beschreibung
Das Basissegment besteht in der Regel aus einem Nomen oder Eigennamen, einem Verb und einem weiteren Nomen oder Adjektiv. Zusätzlich können Adjektive eingefügt sein, die sich auf eines der Nomen beziehen. Ein einfaches Beispiel wäre:
Die Hauptaktion ist das Essen, und die zugehörigen Elemente sind Hans und der Apfel. Die Farbe Rot ist lediglich zusätzliche Information über den Apfel.
Ein komplexerer Satz kann eine Nebensatz enthalten, wie zum Beispiel:
In diesem Fall sollte das Pronomen dem Apfel und dem Ausdruck der vom zugeordnet werden, was zu den folgenden Teilsegmenten führt:
einen (DET) Apfel (NOUN), der (PRON) vom (ADP) Baum (NOUN) gefallen (VERB) ist.
Der Schlüssel zum Verständnis der Segmente besteht darin, die wechselseitig verbundenen Elemente zu erkennen. Diese können verschachtelt sein und zu rekursiven Strukturen führen, die missinterpretiert werden können. In einigen Fällen sind die Formulierungen selbst so mehrdeutig, dass es nicht möglich ist, mit Sicherheit zu bestimmen, was die Person, die sie verfasst hat, tatsächlich sagen wollte. Ein klassisches Beispiel dafür sind die berühmten Zitate von Groucho Marx:
Eines Morgens habe ich einen Elefanten in meinem Schlafanzug erschossen. Wie er in meinen Schlafanzug gekommen ist, werde ich nie erfahren.
Der erste Satz lässt nicht klar erkennen, ob Groucho in seinem Schlafanzug war oder ob der Elefant in seinem Schlafanzug war... der zweite Satz klärt die Mehrdeutigkeit auf.
ID:(3, 0)
Segmentpolarisierung
Beschreibung
Die Verben innerhalb eines Segments können mit positiven, neutralen oder negativen Situationen assoziiert werden und somit die Polarität des Segments bilden.
Diese Unterscheidung ermöglicht es, bei der Analyse der Segmente entweder auf die Probleme (Segmente mit negativer Polarität) oder auf die positiven Aspekte (Segmente mit positiver Polarität) der behandelten Themen zu fokussieren.
Ein Beispiel für Polarisation ist:
Polarisierung | Verb |
Negativ | stehlen |
Neutral | kaufen |
Positiv | verschenken |
ID:(9, 0)
Subjektivität des Segments
Beschreibung
Ein Satz oder Abschnitt kann unterschiedliche Grade der Subjektivität aufweisen.
Bei geringer Subjektivität (Werte nahe null) basiert die Beschreibung auf Fakten oder Definitionen, die keine Ambiguität oder Interpretation zulassen.
Bei hoher Subjektivität (Werte nahe eins) handelt es sich um eine persönliche Meinung, Beurteilung oder ein Gefühl, das von anderen Lesern unterschiedlich interpretiert werden kann.
Der Wert wird anhand der in dem Satz oder Abschnitt enthaltenen Wörter bestimmt und wird oft durch Training erzeugt, bei dem Personen verschiedenen Sätzen einen numerischen Wert der Subjektivität zuordnen, sodass das System lernt, die Sätze mit dieser Subjektivitätsskala zu verknüpfen.
Bei einer ersten Annäherung kann Subjektivität mit den Adjektiven (ADJ) in einem Satz in Verbindung gebracht werden, da sie Eigenschaften der durch Nomen oder Substantive repräsentierten Elemente liefern. Oftmals handelt es sich dabei um objektive Beobachtungen oder subjektive Wahrnehmungen der Person, die den Text verfasst.
Beispiele können sein:
Subjektivität | Adjektiv |
Objektiv | rot |
Subjektiv | schön |
ID:(10, 0)