Amicii mei mi-au dat datele lor de pe Tinder...

Amicii mei mi-au dat datele lor de pe Tinder…

aug. 5, 2021

admin

Aceasta mi-a stârnit o idee. Ce-ar fi dacă aș putea folosi știința datelor și abilitățile de învățare automată învățate în cadrul cursului pentru a crește probabilitatea ca o anumită conversație pe Tinder să fie un „succes”? Astfel, s-a format ideea mea de proiect. Care este următorul pas? Să-i spun prietenei mele…

Câteva date despre Tinder, publicate chiar de Tinder:

aplicația are aproximativ 50 de milioane de utilizatori, dintre care 10 milioane folosesc aplicația zilnic
din 2012, au existat peste 20 de miliarde de potriviri pe Tinder
un total de 1.6bn swipe-uri au loc în fiecare zi pe aplicație
utilizatorul mediu petrece 35 de minute PE ZI pe aplicație
se estimează că 1,5 milioane de întâlniri au loc PE SĂPTĂMÂNĂ datorită aplicației

Problema 1: Obținerea de date

Dar cum aș putea obține date pentru a le analiza? Din motive evidente, conversațiile utilizatorului Tinder și istoricul meciurilor etc. sunt codificate în mod securizat, astfel încât nimeni în afară de utilizator să nu le poată vedea. După un pic de căutare pe Google, am dat peste acest articol:

Aceasta m-a condus la realizarea faptului că Tinder a fost acum forțat să construiască un serviciu prin care să puteți solicita propriile date de la ei, ca parte a legii privind libertatea de informare. Cue, butonul „download data”:

După ce ai dat click, trebuie să aștepți 2-3 zile lucrătoare înainte ca Tinder să-ți trimită un link de unde să descarci fișierul de date. Am așteptat cu nerăbdare acest e-mail, fiind un utilizator avid de Tinder timp de aproximativ un an și jumătate înainte de relația mea actuală. Habar nu aveam cum mă voi simți, răsfoind în urmă un număr atât de mare de conversații care în cele din urmă (sau nu atât de în cele din urmă) se stinseseră.

După ceea ce mi s-a părut o veșnicie, a venit e-mailul. Datele erau (din fericire) în format JSON, așa că o descărcare rapidă și o încărcare în python și bosh, acces la întregul meu istoric de întâlniri online.

Datele

Fila de date este împărțită în 7 secțiuni diferite:

Dintre acestea, doar două au fost cu adevărat interesante/utile pentru mine:

Messages
Usage

În urma unei analize mai amănunțite, fișierul „Usage” conține date despre „App Opens”, „Matches”, „Messages Received”, „Messages Sent”, „Swipes Right” și „Swipes Left”, iar „Messages file” conține toate mesajele trimise de utilizator, cu ștampile de dată și oră, precum și ID-ul persoanei căreia i-a fost trimis mesajul. După cum sunt sigur că vă puteți imagina, acest lucru a dus la o lectură destul de interesantă…

Problema 2: Obținerea mai multor date

În regulă, am propriile mele date Tinder, dar pentru ca orice rezultate pe care le obțin să nu fie complet nesemnificative din punct de vedere statistic/foarte distorsionate, trebuie să obțin datele altor persoane. Dar cum fac acest lucru…

Cu o cantitate nesemnificativă de cerșetorie.

Miraculos, am reușit să conving 8 dintre prietenii mei să-mi dea datele lor. Aceștia au variat de la utilizatori experimentați la utilizatori sporadici „folosiți când vă plictisiți”, ceea ce mi-a oferit o secțiune transversală rezonabilă a tipurilor de utilizatori pe care am simțit-o. Cel mai mare succes? Prietena mea mi-a dat și ea datele ei.

Un alt lucru dificil a fost definirea unui „succes”. Am stabilit ca definiția să fie fie că s-a obținut un număr de la cealaltă parte, fie că cei doi utilizatori au ieșit la o întâlnire. Apoi, printr-o combinație de întrebări și analize, am clasificat fiecare conversație ca fiind fie un succes, fie nu.

Problema 3: Și acum ce facem?

Bine, am mai multe date, dar acum ce facem? Cursul Data Science s-a axat pe știința datelor și învățarea mașinilor în Python, așa că importarea lor în python (am folosit anaconda/Jupyter notebook-uri) și curățarea lor părea un pas logic următor. Vorbiți cu orice cercetător de date și vă va spune că curățarea datelor este a) cea mai plictisitoare parte a muncii lor și b) partea care le ocupă 80% din timp. Curățarea este plictisitoare, dar este, de asemenea, esențială pentru a putea extrage rezultate semnificative din date.

Am creat un folder, în care am aruncat toate cele 9 fișiere de date, apoi am scris un mic script pentru a parcurge ciclic aceste fișiere, a le importa în mediu și a adăuga fiecare fișier JSON la un dicționar, cheile fiind numele fiecărei persoane. De asemenea, am împărțit datele de „Utilizare” și datele privind mesajele în două dicționare separate, pentru a ușura efectuarea analizei pe fiecare set de date în parte.

Problema 4: Diferitele adrese de e-mail duc la seturi de date diferite

Când vă înscrieți pe Tinder, marea majoritate a oamenilor își folosesc contul de Facebook pentru a se autentifica, dar oamenii mai precauți folosesc doar adresa de e-mail. Din păcate, am avut una dintre aceste persoane în setul meu de date, ceea ce înseamnă că aveam două seturi de fișiere pentru ele. Acest lucru a fost un pic supărător, dar, în general, nu a fost prea dificil de rezolvat.

După ce am importat datele în dicționare, am iterat apoi prin fișierele JSON și am extras fiecare punct de date relevant într-un dataframe pandas, care arată cam așa: