beskrive ord
ideen til den beskrivende Ordmotor kom, da jeg byggede motoren til relaterede ord (det er som en tesaurus, men giver dig et meget bredere sæt relaterede ord snarere end blot synonymer). Mens jeg spillede rundt med ordvektorer og “HasProperty” API af conceptnet, havde jeg det lidt sjovt at prøve at få adjektiverne, der almindeligvis beskriver et ord. Til sidst indså jeg, at der er en meget bedre måde at gøre dette på: parse bøger!
Project Gutenberg var det oprindelige korpus, men parseren blev grådigere og grådigere, og jeg endte med at fodre det et sted omkring 100 gigabyte tekstfiler – for det meste fiktion, herunder mange moderne værker. Parseren ser simpelthen gennem hver bog og trækker de forskellige beskrivelser af navneord ud.
forhåbentlig er det mere end bare en nyhed, og nogle mennesker vil faktisk finde det nyttigt til deres skrivning og brainstorming, men en pæn lille ting at prøve er at sammenligne to navneord, der er ens , men forskellige på en betydelig måde-for eksempel er køn interessant: “kvinde” versus “mand” og “dreng”versus ” pige”. På en inital hurtig analyse ser det ud til, at forfattere af fiktion er mindst 4 gange mere tilbøjelige til at beskrive kvinder (i modsætning til mænd) med skønhedsrelaterede udtryk (vedrørende deres vægt, træk og generel tiltrækningskraft). Faktisk er “smuk” muligvis det mest anvendte adjektiv for kvinder i hele verdens litteratur, hvilket er helt i tråd med den generelle unidimensionelle repræsentation af kvinder i mange andre medieformer. Hvis nogen vil undersøge dette yderligere, så lad mig det vide, og jeg kan give dig meget flere data (for eksempel er der omkring 25000 forskellige poster for “kvinde” – for mange til at vise her).
blueness af resultaterne repræsenterer deres relative frekvens. Du kan holde markøren over et element i et sekund, og frekvensscore skal dukke op. Sorteringen af “unikhed” er standard, og takket være min komplicerede algoritme, krist, bestiller den dem ved adjektivernes unikhed til det pågældende substantiv i forhold til andre navneord (det er faktisk ret simpelt). Som du ville forvente, kan du klikke på knappen “Sorter efter brugsfrekvens” til adjektiver efter deres brugsfrekvens for det navneord.