POS Tagging
Wörter mit weiteren Informationen anreichern
Mit den Daten aus Schritt 4 können wir schon zuverlässig arbeiten. Es geht aber immer noch besser. Zum Beispiel könnten wir die Wörter mit weiteren Metainformationen anreichern, was uns wiederum bessere Analysemöglichkeiten eröffnet. Metadaten können sein:
Handelt es sich um ein Verb, Adjektiv oder Substantiv?
Wie lautet der Wortstamm?
Aus welcher Sprache stammt das Wort?
Ist das Wort positiv oder negativ behaftet?
Beim POS Tagging geht um den ersten Punkt. Wir wollen für jedes Wort die Information ergänzen, um welche Art von Wort es sich handelt. Ein naiver Ansatz ist es, ähnlich wie bei den Stopwörtern auf eine Liste aus dem Internet zurückzugreifen. Nehmen wir also an wir haben eine neue Tabelle pos
mit zwei Spalten word
und type
. Die Spalte type enthält Werte wie "adjective", "noun", "verb" usw. Wir können die beiden Tabellen nun zusammen joinen, um die Daten anzureichern:
select t.word, p.type
from tweets_stop t
left join pos p
on p.word = t.word
Im Ergebnis bekommen wir nun zu jedem Wort die Information, ob es sich um ein Verb, Adverb, Adjektiv oder Substantiv handelt. Wenn das Wort nicht in der Tabelle pos
vorhanden ist, dann ist der Wert der Spalte type
gleich null
.
Wenn wir auch den letzten Schritt als View definieren sind wir am Ziel:
create or replace view tweets_pos as
select t.word, p.type
from tweets_stop t
left join pos p
on p.word = t.word
Last updated
Was this helpful?