Beskrive Ord
ideen til Beskrivende Ordmotor kom da jeg bygde motoren For Relaterte Ord (det er som en tesaurus, men gir deg et mye bredere sett med relaterte ord, i stedet for bare synonymer). Mens jeg spilte rundt med ordvektorer og» HasProperty » API av conceptnet, hadde jeg litt moro å prøve å få adjektiver som ofte beskriver et ord. Til slutt innså jeg at det er en mye bedre måte å gjøre dette på: analysere bøker!
Prosjekt Gutenberg var det første korpuset, men parseren ble grådigere og grådigere, og jeg endte med å mate den et sted rundt 100 gigabyte tekstfiler – for det meste fiksjon, inkludert mange samtidige verk. Parseren ser bare gjennom hver bok og trekker ut de ulike beskrivelsene av substantiver.
Forhåpentligvis er det mer enn bare en nyhet, og noen mennesker vil faktisk finne det nyttig for deres skriving og brainstorming, men en fin liten ting å prøve er å sammenligne to substantiver som er like, men forskjellige på en betydelig måte – for eksempel er kjønn interessant: «kvinne «versus» mann «og» gutt «versus»jente». På en inital rask analyse ser det ut til at forfattere av fiksjon er minst 4x mer sannsynlig å beskrive kvinner (i motsetning til menn) med skjønnhetsrelaterte termer (angående vekt, egenskaper og generell attraktivitet). Faktisk er» vakker » muligens det mest brukte adjektivet for kvinner i all verdens litteratur, noe som er helt i tråd med den generelle unidimensjonale representasjonen av kvinner i mange andre medieformer. Hvis noen ønsker å gjøre videre forskning på dette, gi meg beskjed, og jeg kan gi deg mye mer data (for eksempel er det omtrent 25000 forskjellige oppføringer for «kvinne» – for mange til å vise her).
blueness av resultatene representerer deres relative frekvens. Du kan holde musepekeren over et element i et sekund, og frekvenspoengsummen skal dukke opp. «Unikhet» – sorteringen er standard, og takket være Min Kompliserte Algoritme™, bestiller den dem ved adjektivets unikhet til det aktuelle substantivet i forhold til andre substantiver (det er faktisk ganske enkelt). Som du forventer, kan du klikke på» Sorter Etter Bruksfrekvens » – knappen til adjektiver etter bruksfrekvens for det substantivet.