Describing Words
het idee voor de engine voor Describing Words kwam toen ik de engine voor verwante woorden aan het bouwen was (het is als een thesaurus, maar geeft je een veel bredere set van verwante woorden, in plaats van alleen Synoniemen). Tijdens het spelen met woordvectoren en de” HasProperty ” API van conceptnet, ik had een beetje plezier proberen om de bijvoeglijke naamwoorden die vaak beschrijven een woord te krijgen. Uiteindelijk realiseerde ik me dat er een veel betere manier is om dit te doen: boeken ontleden!
Project Gutenberg was het eerste corpus, maar de parser kreeg greedier en greedier en ik eindigde het voeden van ergens rond 100 gigabyte aan tekstbestanden-meestal fictie, met inbegrip van vele hedendaagse werken. De parser kijkt gewoon door elk boek en haalt de verschillende beschrijvingen van zelfstandige naamwoorden.
hopelijk is het meer dan een noviteit en zullen sommige mensen het nuttig vinden voor hun schrijven en brainstormen, maar een leuk klein ding om te proberen is om twee zelfstandige naamwoorden te vergelijken die vergelijkbaar zijn, maar op een significante manier anders zijn – bijvoorbeeld, geslacht is interessant: “vrouw” versus ” man ” en “jongen” versus “meisje”. Op een inital snelle analyse lijkt het erop dat auteurs van fictie zijn ten minste 4x meer kans om vrouwen te beschrijven (in tegenstelling tot mannen) met schoonheid-gerelateerde termen (met betrekking tot hun gewicht, kenmerken en algemene aantrekkelijkheid). In feite is “mooi” misschien wel het meest gebruikte bijvoeglijk naamwoord voor vrouwen in alle literatuur van de wereld, wat vrij in lijn is met de Algemene eendimensionale vertegenwoordiging van vrouwen in vele andere media vormen. Als iemand hier verder onderzoek naar wil doen, laat het me weten en ik kan je veel meer gegevens geven (bijvoorbeeld, er zijn ongeveer 25000 verschillende inzendingen voor “vrouw” – te veel om hier te laten zien).
de blauwheid van de resultaten geeft hun relatieve frequentie weer. U kunt de muisaanwijzer over een item voor een seconde en de frequentie score moet pop-up. De” uniciteit “sortering is standaard, en dankzij mijn ingewikkelde algoritme™, het ordent ze door de bijvoeglijke naamwoorden’ uniciteit aan dat bepaalde zelfstandig naamwoord ten opzichte van andere zelfstandige naamwoorden (het is eigenlijk vrij eenvoudig). Zoals je zou verwachten, kunt u op de “Sorteer op gebruiksfrequentie” knop om bijvoeglijke naamwoorden door hun gebruiksfrequentie voor dat zelfstandig naamwoord.