descrierea cuvintelor
ideea motorului de descriere a cuvintelor a venit atunci când construiam motorul pentru cuvinte înrudite (este ca un tezaur, dar vă oferă un set mult mai larg de cuvinte înrudite, mai degrabă decât doar sinonime). În timp ce joc în jurul cu vectori de cuvinte și „HasProperty” API de conceptnet, am avut un pic de distracție încercarea de a obține adjectivele care descriu în mod obișnuit un cuvânt. În cele din urmă mi-am dat seama că există o modalitate mult mai bună de a face acest lucru: analiza cărților!
Proiectul Gutenberg a fost corpusul inițial, dar parserul a devenit mai lacom și mai lacom și am ajuns să – l hrănesc undeva în jur de 100 de gigabyte de fișiere text-în mare parte ficțiune, inclusiv multe lucrări contemporane. Parserul se uită pur și simplu prin fiecare carte și scoate diferitele descrieri ale substantivelor.
sperăm că este mai mult decât o noutate și unii oameni vor găsi de fapt util pentru scris și brainstorming lor, dar un lucru elegant mic pentru a încerca este de a compara două substantive care sunt similare, dar diferite într-un mod semnificativ – de exemplu, sexul este interesant: „femeie” versus „bărbat” și „băiat”versus ” fată”. Pe o analiză inițială rapidă se pare că autorii de ficțiune au cel puțin 4 ori mai multe șanse să descrie femeile (spre deosebire de bărbați) cu termeni legați de frumusețe (în ceea ce privește greutatea, trăsăturile și atractivitatea generală). De fapt,” frumos ” este probabil cel mai utilizat adjectiv pentru femei în toată literatura mondială, ceea ce este în concordanță cu reprezentarea generală unidimensională a femeilor în multe alte forme media. Dacă cineva dorește să facă cercetări suplimentare în acest sens, anunțați – mă și vă pot oferi mult mai multe date (de exemplu, există aproximativ 25000 de intrări diferite pentru „femeie” – prea multe pentru a le arăta aici).
albastrul rezultatelor reprezintă frecvența lor relativă. Puteți trece peste un element pentru o secundă și scorul de frecvență ar trebui să apară. Sortarea „unicității” este implicită și, datorită algoritmului meu complicat””, le ordonează prin unicitatea adjectivelor față de acel substantiv particular în raport cu alte substantive (este de fapt destul de simplu). După cum v-ați aștepta, puteți face clic pe butonul „Sortare după frecvența de utilizare” la adjective după frecvența lor de utilizare pentru acel substantiv.