opisywanie słów
Pomysł Na Silnik opisujący słowa Przyszedł, gdy budowałem silnik dla powiązanych słów (to jest jak tezaurus, ale daje znacznie szerszy zestaw powiązanych słów, a nie tylko synonimy). Podczas zabawy z wektorami słów i API” HasProperty ” conceptnet, miałem trochę zabawy próbując uzyskać przymiotniki, które zwykle opisują słowo. W końcu zdałem sobie sprawę, że istnieje znacznie lepszy sposób na to: parse książek!
Projekt Gutenberg był początkowym korpusem, ale parser stawał się coraz bardziej chciwy i chciwy, a skończyło się na tym, że karmiłem go gdzieś około 100 gigabajtów plików tekstowych – głównie fikcją, w tym wieloma współczesnymi dziełami. Parser po prostu przegląda każdą książkę i wyciąga różne opisy rzeczowników.
mam nadzieję, że jest to coś więcej niż tylko nowość i niektórzy ludzie uznają to za przydatne do pisania i burzy mózgów, ale jedną fajną rzeczą do spróbowania jest porównanie dwóch rzeczowników, które są podobne, ale różnią się w jakiś znaczący sposób – na przykład płeć jest interesująca: „kobieta” kontra „mężczyzna” i ” chłopak „kontra”dziewczyna”. Z początkowej szybkiej analizy wynika, że autorzy fikcji przynajmniej 4x częściej opisują kobiety (w przeciwieństwie do mężczyzn) terminami związanymi z urodą (dotyczącymi ich wagi, cech i ogólnej atrakcyjności). W rzeczywistości „piękna” jest prawdopodobnie najczęściej używanym przymiotnikiem dla kobiet w całej literaturze światowej, co jest całkiem zgodne z ogólnym jednorodnym przedstawieniem kobiet w wielu innych formach mediów. Jeśli ktoś chce zrobić dalsze badania na ten temat, daj mi znać, a Mogę dać ci o wiele więcej danych (na przykład jest około 25000 różnych wpisów dla „kobiety” – zbyt wiele, aby pokazać tutaj).
niebieskość wyników reprezentuje ich względną częstotliwość. Możesz najechać kursorem na przedmiot przez sekundę, a wynik częstotliwości powinien się pojawić. Sortowanie” uniqueness ” jest domyślne, a dzięki mojemu skomplikowanemu algorytmowi ™ porządkuje je przez wyjątkowość przymiotników do tego konkretnego rzeczownika w stosunku do innych rzeczowników (to całkiem proste). Jak można się spodziewać, możesz kliknąć przycisk „Sortuj według częstotliwości użycia”, aby przymiotniki według częstotliwości użycia dla tego rzeczownika.