beskriva ord
tanken för beskriva ord motorn kom när jag byggde motorn för relaterade ord (det är som en tesaurus, men ger dig en mycket bredare uppsättning relaterade ord, snarare än bara synonymer). Medan jag lekte med ordvektorer och” HasProperty ” API för conceptnet, hade jag lite kul att försöka få adjektiven som vanligtvis beskriver ett ord. Så småningom insåg jag att det finns ett mycket bättre sätt att göra detta: tolka böcker!
Project Gutenberg var den första korpusen, men tolken blev greedier och greedier och jag slutade mata den någonstans runt 100 gigabyte textfiler – mestadels fiktion, inklusive många samtida verk. Parsern tittar helt enkelt igenom varje bok och drar ut de olika beskrivningarna av substantiv.
förhoppningsvis är det mer än bara en nyhet och vissa människor kommer faktiskt att tycka att det är användbart för sitt skrivande och brainstorming, men en snygg liten sak att försöka är att jämföra två substantiv som liknar, men olika på något betydande sätt-till exempel är kön intressant: ”kvinna” kontra ”man” och ”pojke”kontra ” flicka”. På en inital snabb analys verkar det som om Författare av fiktion är minst 4x mer benägna att beskriva kvinnor (i motsats till män) med skönhetsrelaterade termer (angående deras vikt, egenskaper och allmän attraktivitet). I själva verket är ”vacker” kanske det mest använda adjektivet för kvinnor i hela världens litteratur, vilket är helt i linje med den allmänna endimensionella representationen av kvinnor i många andra medieformer. Om någon vill göra ytterligare forskning om detta, låt mig veta och jag kan ge dig mycket mer data (till exempel finns det cirka 25000 olika poster för ”kvinna” – för många att visa här).
resultatens blåhet representerar deras relativa frekvens. Du kan sväva över ett objekt i en sekund och frekvenspoängen ska dyka upp. Sorteringen ”unikhet” är standard, och tack vare min komplicerade algoritm, beställer den dem med adjektivens unika egenskaper för det specifika substantivet i förhållande till andra substantiv (det är faktiskt ganska enkelt). Som du förväntar dig kan du klicka på knappen ”Sortera efter användningsfrekvens” till adjektiv efter deras användningsfrekvens för det substantivet.