C’était le mercredi 3 octobre 2018, et j’étais assis au dernier rang du cours de science des données de l’assemblée générale. Mon tuteur venait de mentionner que chaque étudiant devait trouver deux idées de projets de science des données, dont une que je devrais présenter à toute la classe à la fin du cours. J’ai eu l’impression d’avoir l’esprit complètement vide, un effet qu’a généralement sur moi le fait d’avoir une telle liberté de choix pour presque tout. J’ai passé les deux jours suivants à essayer de réfléchir à un projet intéressant. Je travaille pour un gestionnaire d’investissement, donc ma première pensée était d’opter pour quelque chose lié au gestionnaire d’investissement, mais j’ai ensuite pensé que je passe 9+ heures au travail chaque jour, donc je ne voulais pas que mon temps libre sacré soit également pris avec des trucs liés au travail.
Quelques jours plus tard, j’ai reçu le message ci-dessous sur l’une de mes discussions de groupe WhatsApp :
Je peux vous assurer qu’il contient quelques crackers absolus.
J’ai ensuite vérifié quels premiers messages contenaient un mot de cette liste, 40 d’entre eux l’ont fait. Comme c’est toujours le cas avec ce genre de choses, j’ai trouvé quelques cas limites intéressants :
FYI c’était un type qui parlait de ses jambières d’aviron…
Résultats ? Il s’avère qu’aucun des premiers messages qui contenaient un contenu explicite n’a conduit à un « Succès »
Ce qui me conduit à ma cinquième et dernière recommandation.
La cinquième recommandation:
Lorsqu’on envoie un premier message :
Soyez positif
8 mots est optimal
Utilisez un emoji ou deux
Ne soyez pas explicite
Alors pour résumer
Utilisez Tinder à 21 heures un dimanche pour un maximum d’audience
Dépensez du temps à construire vos messages et n’utilisez pas le texto
Préparez-vous à demander un numéro ou un rendez-vous entre le 20e et le 30e message
Soyez positif, mais pas trop positif
Envoyez autre chose que « hey » comme premier message, visez environ 8 mots, utilisez peut-être un emoji et ne soyez pas explicite
Quelques pièges des données :
Mon ensemble de données est un très, très petit échantillon, rendant la plupart des insights inutiles
L’ensemble de données est biaisé vers le type de personnes que je connais, ainsi que vers les hommes
L’ensemble de données ne contient qu’un côté de la conversation
Les statistiques de messages et d’utilisation ne correspondent pas nécessairement en raison des utilisateurs qui désinstallent et réinstallent l’application
Aucune technique NLP ne sera parfaite en raison du sarcasme/variations dans la façon dont les gens parlent
Quelques idées pour des travaux futurs :
Recueillir plus de données
Faire plus pour déterminer les résultats statistiquement significatifs par rapport aux observations
Regarder l’analyse de la conversation par sujet – quel type de messages composent le bon et le mauvais sentiment
Tenter d’examiner le sarcasme
Investir d’autres applications (Bumble, Hinge etc.)
Une sorte d’analyse de classification si plus de données étaient incluses, car nous n’avions que 70 succès environ
Regarder plus dans les divisions de genre si plus de données étaient incluses
Quelques faits intéressants à partir des données:
Plus de swipes par une seule personne en un seul jour : 8096
Les mecs sont plus susceptibles de laisser un long moment (7 jours environ) avant d’envoyer un deuxième message
Poser une question dans un premier message diminue en fait vos chances de succès
Les femmes glissent vers la droite en moyenne 1% du temps, alors que les hommes le font ~50% du temps
Par application ouverte, les femmes glissent 3x plus de fois que les hommes
Lecture complémentaire :
Un article a été publié intitulé « Un premier regard sur l’activité des utilisateurs sur Tinder », lien ici
Il existe une API Tinder, mais malheureusement, elle ne concerne que les personnes utilisant l’application plutôt que de donner accès à une sorte de base de données. Quoi qu’il en soit, l’utiliser pour tester certaines hypothèses pourrait être intéressant.
Tinderbox est un logiciel qui peut apprendre par qui vous êtes attiré via la réduction de la dimensionnalité. Il a également un chatbot intégré si vous voulez vraiment automatiser le processus…
Merci de lire, toute idée de travail futur serait très appréciée !