Word2Vec | king – man + woman = queen
| 12. Februar 2019 | Fachliches
Word2Vec | king – man + woman = queen
Word2Vec ist ein Algorithmus, der jedem Wort in einem ausgewerteten Textcorpus einen Vektor zuweist. Das Konzept basiert auf einem neuronalen Netz mit zwei Schichten, das Zusammenhänge zwischen Wörtern erstellt. Diese Vektoren sind tatsächlich genau das, was wir vor langer Zeit in der Schule gelernt haben: sie zeigen Richtungen in verschiedenen Dimensionen und Abstände an. Diese Wortvektoren haben dabei immer ein semantisches Konzept „dabei“. So werden Beziehungen zwischen Wörtern erstellt, die in einem zusammenhängenden Text existieren. Das Prinzip, das dahintersteht, besagt, dass Wörter, die in einem Text logisch zusammenhängen auch nah beieinanderstehen. Das verrückte daran: Man kann damit wirklich „rechnen“!
Das berühmteste Beispiel ist wohl: king – man + woman = queen.
Das heißt: Wenn wir vom Vektor „König“ den Vektor „Mann“ abziehen und den Vektor„Frau“ addieren, erhalten wir „Königin“!
Das Ganze fällt übrigens unter das Stichwort „Word Embedding“ und ist ein Teil des „Natural Language Processing“, also der Verarbeitung natürlicher Sprache.
Ein Projekt war beispielsweise, Word Embeddings auf dem Textcorpus der englischsprachigen Wikipedia zu trainieren! Unter dem Link kannst Du auf GitHub mal ein bisschen reinschauen, was dahinter steckt.
Zusammenhang mit Bibliotheken: (Halb-)Automatische Erschließungssysteme stehen quasi vor der Tür und auch verschiedene Algorithmen für Word Embeddings sind dabei nicht ausgeschlossen.
Hier nur ein ganz ganz ganz kurzer Einblick, ganz so simpel wie oben beschrieben, ist es natürlich nicht, aber dafür wirklich spannend!
Viel Spaß beim Reindenken ;)
Keine Kommentare mehr möglich!
0 Kommentar(e)