Reddit AmItheAsshole je milejší k ženám než k mužům - důkaz SQL?

Reddit AmItheAsshole je milejší k ženám než k mužům – důkaz SQL?

Kvě 7, 2021

admin

Když se redditoři ptají „jsem já ten debil“ a přitom mluví o ženách, mají větší šanci, že budou jako debil vyhodnoceni. Podívejme se na tyto metriky – pomocí BigQuery, dbt a Data Studio

Ujistěte se, že nic z toho, co jsem zde napsal, neberete jako absolutní pravdu. Několik lidí na Twitteru upozornilo na problémy a doplnilo mnou nabízenou analýzu o opravy. Přečtení tohoto příspěvku v původním znění – a reakcí na něj – pro vás může být skvělým způsobem, jak se dozvědět stejně jako já při čtení reakcí. Mnoho jejich nefiltrovaných myšlenek najdete, když budete sledovat toto vlákno na Twitteru.

Kontext

/r/amItheAsshole se rozrostl na čtvrtý nejaktivnější subreddit – podle počtu komentářů. Lidé na tento subreddit chodí vyprávět své příběhy a ptají se ostatních redditorů „jsem tady já ten debil?“. Ukázalo se, že většina lidí je hodnocena jako „ne kretén“, jak je vidět z tohoto grafu:

Většina lidí je hodnocena jako „ne kretén“

Můj tweet s těmito výsledky vzbudil velkou pozornost:

Včetně otázky – je reddit milejší k ženám nebo k mužům?

Rozhodování o pohlaví

Při pohledu na název nebo obsah příspěvku můžete mít problém rozhodnout, zda „já“ je muž nebo žena – ale je celkem snadné spočítat počet „ona/on/jeho/přítelkyně/přítele“ přítomných v příběhu.

Podívejme se na několik náhodných příspěvků a počet jednotlivých zájmen a rodových slov:

Vidíme, že počet rodových zájmen a slov v příkladu odpovídá tomu, o kom je příběh. Tyto příběhy jsou o zákazníkovi mužského pohlaví, přítelkyni ženského pohlaví, sousedovi mužského pohlaví, synovi mužského pohlaví a dospívající dceři ženského pohlaví.

Pomocí těchto počtů můžeme nyní stanovit libovolné pravidlo: Pokud je v příspěvku více než dvojnásobný počet zájmen mužského pohlaví než ženského, je tento příspěvek o muži. Pomocí opačného pravidla můžeme říci, že příspěvek je o ženě. Pokud jsou počty příliš blízké nebo nulové, označíme příspěvek za „neutrální“.

Další pravidlo, které můžeme nastavit pro zjednodušení analýzy:

Pokud je úsudek „není to debil“ nebo „nejsou tu žádní debilové“, pak můžeme říci, že „poster není debil“.
Jestliže je úsudek ‚kretén‘ nebo ‚všichni jsou tu na hovno‘, pak můžeme říci ‚plakátující je kretén‘.

Pokud všechny tyto příspěvky shrneme, dostaneme se k číslům: