Wörter beschreiben
Die Idee für die Describing Words Engine kam, als ich die Engine für verwandte Wörter erstellte (es ist wie ein Thesaurus, bietet Ihnen jedoch eine viel breitere Palette verwandter Wörter als nur Synonyme). Beim Herumspielen mit Wortvektoren und der „HasProperty“ -API von conceptnet hatte ich ein bisschen Spaß beim Versuch, die Adjektive zu erhalten, die üblicherweise ein Wort beschreiben. Irgendwann wurde mir klar, dass es einen viel besseren Weg gibt: Bücher analysieren!
Project Gutenberg war das ursprüngliche Korpus, aber der Parser wurde gieriger und gieriger und ich fütterte es irgendwo um 100 Gigabyte Textdateien – meistens Fiktion, einschließlich vieler zeitgenössischer Werke. Der Parser durchsucht einfach jedes Buch und zieht die verschiedenen Beschreibungen von Substantiven heraus.
Hoffentlich ist es mehr als nur eine Neuheit und einige Leute werden es tatsächlich nützlich für ihr Schreiben und Brainstorming finden, aber eine nette kleine Sache, die sie versuchen sollten, ist, zwei Substantive zu vergleichen, die ähnlich, aber in gewisser Weise unterschiedlich sind – zum Beispiel ist das Geschlecht interessant: „Frau“ gegen „Mann“ und „Junge“ gegen „Mädchen“. Bei einer anfänglichen schnellen Analyse scheint es, dass Autoren von Belletristik Frauen (im Gegensatz zu Männern) mindestens 4x häufiger mit schönheitsbezogenen Begriffen (in Bezug auf ihr Gewicht, ihre Merkmale und ihre allgemeine Attraktivität) beschreiben. Tatsächlich ist „schön“ möglicherweise das am weitesten verbreitete Adjektiv für Frauen in der gesamten Weltliteratur, was ganz im Einklang mit der allgemeinen eindimensionalen Darstellung von Frauen in vielen anderen Medienformen steht. Wenn jemand weitere Nachforschungen anstellen möchte, lassen Sie es mich wissen und ich kann Ihnen viel mehr Daten geben (zum Beispiel gibt es ungefähr 25000 verschiedene Einträge für „Frau“ – zu viele, um sie hier anzuzeigen).
Die Blaufärbung der Ergebnisse repräsentiert ihre relative Häufigkeit. Sie können den Mauszeiger für eine Sekunde über ein Element bewegen, und die Frequenzbewertung sollte angezeigt werden. Die Sortierung „Eindeutigkeit“ ist standardmäßig und dank meines komplizierten Algorithmus ™ werden sie nach der Eindeutigkeit der Adjektive für dieses bestimmte Substantiv im Verhältnis zu anderen Substantiven geordnet (es ist eigentlich ziemlich einfach). Wie zu erwarten, können Sie auf die Schaltfläche „Nach Nutzungshäufigkeit sortieren“ klicken, um Adjektive nach ihrer Nutzungshäufigkeit für dieses Substantiv zu sortieren.