szavak leírása
a leíró szavak motorjának ötlete akkor jött, amikor a kapcsolódó szavak motorját építettem (ez olyan, mint egy tezaurusz, de sokkal szélesebb körű kapcsolódó szavakat ad, nem csak szinonimákat). Miközben a Word vektorokkal és a conceptnet “HasProperty” API-jával játszottam, egy kis móka volt megpróbálni megszerezni azokat a mellékneveket, amelyek általában leírnak egy szót. Végül rájöttem, hogy van egy sokkal jobb módja ennek: parse könyvek!
a Gutenberg projekt volt a kezdeti korpusz, de az elemző egyre kapzsibb lett, és végül valahol 100 gigabájtnyi szövegfájlt etettem – többnyire fikciót, beleértve számos kortárs művet. Az elemző egyszerűen átnézi az egyes könyveket, és kihúzza a főnevek különböző leírásait.
Remélhetőleg ez több, mint egy újdonság, és néhány ember valóban hasznosnak találja az íráshoz és az ötleteléshez, de egy ügyes kis dolog, hogy megpróbálja összehasonlítani két hasonló, de különböző főnevet valamilyen jelentős módon – például a nem érdekes: “nő” versus “férfi” és “fiú”versus ” lány”. Az inital gyors elemzésével úgy tűnik, hogy a fikció szerzői legalább 4x nagyobb valószínűséggel írják le a nőket (szemben a férfiakkal) a szépséggel kapcsolatos kifejezésekkel (súlyuk, jellemzőik és általános vonzerejük tekintetében). Valójában a” gyönyörű ” valószínűleg a nők legszélesebb körben használt mellékneve a világ összes irodalmában, ami teljesen összhangban van a nők általános egydimenziós ábrázolásával sok más médiaformában. Ha valaki további kutatást szeretne végezni ezzel kapcsolatban, tudassa velem, és sokkal több adatot tudok adni (például körülbelül 25000 különböző bejegyzés van a “nő” számára – túl sok ahhoz, hogy itt megjelenjen).
az eredmények kékessége relatív gyakoriságukat mutatja. Az egérmutatót egy másodpercre egy elem fölé húzhatja, és a frekvencia pontszámnak fel kell jelennie. Az” egyediség ” rendezés az alapértelmezett, és a bonyolult algoritmusomnak köszönhetően a főnevek egyedisége alapján rendezi őket az adott főnévhez képest más főnevekhez képest (valójában nagyon egyszerű). Ahogy az várható volt, kattintson a” rendezés használati gyakoriság szerint ” gombra a melléknevekhez az adott főnév használati gyakorisága szerint.