Reddit AmItheAsshole je milejší k ženám než k mužům – důkaz SQL?
Když se redditoři ptají „jsem já ten debil“ a přitom mluví o ženách, mají větší šanci, že budou jako debil vyhodnoceni. Podívejme se na tyto metriky – pomocí BigQuery, dbt a Data Studio
Ujistěte se, že nic z toho, co jsem zde napsal, neberete jako absolutní pravdu. Několik lidí na Twitteru upozornilo na problémy a doplnilo mnou nabízenou analýzu o opravy. Přečtení tohoto příspěvku v původním znění – a reakcí na něj – pro vás může být skvělým způsobem, jak se dozvědět stejně jako já při čtení reakcí. Mnoho jejich nefiltrovaných myšlenek najdete, když budete sledovat toto vlákno na Twitteru.
Kontext
/r/amItheAsshole se rozrostl na čtvrtý nejaktivnější subreddit – podle počtu komentářů. Lidé na tento subreddit chodí vyprávět své příběhy a ptají se ostatních redditorů „jsem tady já ten debil?“. Ukázalo se, že většina lidí je hodnocena jako „ne kretén“, jak je vidět z tohoto grafu:
Můj tweet s těmito výsledky vzbudil velkou pozornost:
Včetně otázky – je reddit milejší k ženám nebo k mužům?
Rozhodování o pohlaví
Při pohledu na název nebo obsah příspěvku můžete mít problém rozhodnout, zda „já“ je muž nebo žena – ale je celkem snadné spočítat počet „ona/on/jeho/přítelkyně/přítele“ přítomných v příběhu.
Podívejme se na několik náhodných příspěvků a počet jednotlivých zájmen a rodových slov:
Vidíme, že počet rodových zájmen a slov v příkladu odpovídá tomu, o kom je příběh. Tyto příběhy jsou o zákazníkovi mužského pohlaví, přítelkyni ženského pohlaví, sousedovi mužského pohlaví, synovi mužského pohlaví a dospívající dceři ženského pohlaví.
Pomocí těchto počtů můžeme nyní stanovit libovolné pravidlo: Pokud je v příspěvku více než dvojnásobný počet zájmen mužského pohlaví než ženského, je tento příspěvek o muži. Pomocí opačného pravidla můžeme říci, že příspěvek je o ženě. Pokud jsou počty příliš blízké nebo nulové, označíme příspěvek za „neutrální“.
Další pravidlo, které můžeme nastavit pro zjednodušení analýzy:
- Pokud je úsudek „není to debil“ nebo „nejsou tu žádní debilové“, pak můžeme říci, že „poster není debil“.
- Jestliže je úsudek ‚kretén‘ nebo ‚všichni jsou tu na hovno‘, pak můžeme říci ‚plakátující je kretén‘.
Pokud všechny tyto příspěvky shrneme, dostaneme se k číslům: