Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs

Hier berichten wir von den großen und kleinen Erlebnissen unserer Ausbildungsreise – von Exkursionen in alte und neue Bibliotheken, von Studienfahrten und Praktika in fernen und nicht ganz so fernen Städten, von Vorträgen, Konferenzen und natürlich dem Studienleben in München.

Herzlich Willkommen im Blog! Link zur Hauptseite des Blogs

Weltkarte




Word2Vec | king – man + woman = queen

Avatar of Student/in Student/in | 12. Februar 2019 | Fachliches



Word2Vec | king – man + woman = queen

Die Abbildung zeigt einen Taschenrechner

Word2Vec ist ein Algorithmus, der jedem Wort in einem ausgewerteten Textcorpus einen Vektor zuweist. Das Konzept basiert auf einem neuronalen Netz mit zwei Schichten, das Zusammenhänge zwischen Wörtern erstellt. Diese Vektoren sind tatsächlich genau das, was wir vor langer Zeit in der Schule gelernt haben: sie zeigen Richtungen in verschiedenen Dimensionen und Abstände an. Diese Wortvektoren haben dabei immer ein semantisches Konzept „dabei“. So werden Beziehungen zwischen Wörtern erstellt, die in einem zusammenhängenden Text existieren. Das Prinzip, das dahintersteht, besagt, dass Wörter, die in einem Text logisch zusammenhängen auch nah beieinanderstehen. Das verrückte daran: Man kann damit wirklich „rechnen“!

Das berühmteste Beispiel ist wohl: king – man + woman = queen.
Das heißt: Wenn wir vom Vektor „König“ den Vektor „Mann“ abziehen und den Vektor„Frau“ addieren, erhalten wir „Königin“!

Das Ganze fällt übrigens unter das Stichwort „Word Embedding“ und ist ein Teil des „Natural Language Processing“, also der Verarbeitung natürlicher Sprache.

Ein Projekt war beispielsweise, Word Embeddings auf dem Textcorpus der englischsprachigen Wikipedia zu trainieren! Unter dem Link kannst Du auf GitHub mal ein bisschen reinschauen, was dahinter steckt.

Zusammenhang mit Bibliotheken: (Halb-)Automatische Erschließungssysteme stehen quasi vor der Tür und auch verschiedene Algorithmen für Word Embeddings sind dabei nicht ausgeschlossen.
Hier nur ein ganz ganz ganz kurzer Einblick, ganz so simpel wie oben beschrieben, ist es natürlich nicht, aber dafür wirklich spannend!

Viel Spaß beim Reindenken ;)

Keine Kommentare mehr möglich!

0 Kommentar(e)