Describing Words
the idea for the Describing Words engine syntyi, kun olin rakentamassa moottoria Sukulaissanoille (se on kuin tesaurus, mutta antaa paljon laajemman joukon toisiinsa liittyviä sanoja, eikä vain synonyymejä). Vaikka leikkii noin word vektorit ja” HasProperty ” API conceptnet, minulla oli hieman hauskaa yrittää saada adjektiivit, jotka yleisesti kuvata sanaa. Lopulta tajusin, että on olemassa paljon parempi tapa tehdä tämä: jäsentää kirjoja!
Project Gutenberg oli alkuperäinen corpus, mutta jäsentäjä tuli ahneemmaksi ja ahneemmaksi ja minä päädyin syöttämään sille jonnekin noin 100 gigatavun tekstitiedostoja – lähinnä fiktiota, mukaan lukien monet aikalaisteokset. Jäsennin vain katsoo jokaisen kirjan läpi ja vetää esiin substantiivien eri kuvaukset.
toivottavasti se on enemmän kuin vain uutuus ja jotkut ihmiset todella pitävät sitä hyödyllisenä kirjoittamisessaan ja ideoinnissaan, mutta yksi siisti pieni asia kokeilla on verrata kahta substantiivia, jotka ovat samanlaisia, mutta erilaisia jollain merkittävällä tavalla – esimerkiksi sukupuoli on mielenkiintoinen: ”nainen” vastaan ”mies” ja ”poika”vastaan ” tyttö”. On inital pika-analyysi näyttää siltä, että kirjoittajat fiktio ovat ainakin 4x todennäköisemmin kuvata naisia (toisin kuin miehiä) kauneus liittyvät termit (koskien painoa, ominaisuuksia ja yleistä houkuttelevuutta). Itse asiassa ”kaunis” on ehkä yleisimmin käytetty adjektiivi naisille koko maailman kirjallisuudessa, mikä vastaa melko hyvin naisten yleistä unidimensionaalista edustusta monissa muissa mediamuodoissa. Jos joku haluaa tehdä lisätutkimuksia tästä, kerro minulle ja voin antaa sinulle paljon enemmän tietoa (esimerkiksi on noin 25000 eri merkinnät ”nainen” – liian monta näyttää täällä).
tulosten sinisyys kuvaa niiden suhteellista esiintymistiheyttä. Voit leijua kohteen yli sekunnin ja taajuuspisteen pitäisi ponnahtaa. ”Ainutlaatuisuus” lajittelu on oletus, ja kiitos minun monimutkainen algoritmi™, se määrää ne adjektiivien ’ ainutlaatuisuus kyseisen substantiivin suhteessa muihin substantiiveihin (se on itse asiassa melko yksinkertainen). Kuten arvata saattaa, voit klikata ”Lajittele käyttötaajuuden mukaan” – painiketta adjektiiveihin niiden käyttötaajuuden mukaan kyseiselle substantiiville.