Mis amigos me dieron sus datos de Tinder...

Mis amigos me dieron sus datos de Tinder…

Ago 5, 2021

admin

Era el miércoles 3 de octubre de 2018, y yo estaba sentado en la última fila del curso de Ciencia de Datos de la Asamblea General. Mi tutor acababa de mencionar que cada alumno tenía que aportar dos ideas para proyectos de ciencia de datos, una de las cuales tendría que presentar a toda la clase al final del curso. Mi mente se quedó completamente en blanco, un efecto que suele tener en mí el hecho de que me den tanta libertad para elegir casi cualquier cosa. Pasé los dos días siguientes intentando pensar en un proyecto bueno o interesante. Trabajo para una gestora de inversiones, así que lo primero que pensé fue en algo relacionado con la gestión de inversiones, pero luego pensé que paso más de 9 horas en el trabajo todos los días, así que no quería que mi sagrado tiempo libre se ocupara también con cosas relacionadas con el trabajo.

Unos días después, recibí el siguiente mensaje en uno de mis chats de WhatsApp del grupo:

Esto despertó una idea. ¿Qué pasaría si pudiera utilizar los conocimientos de ciencia de datos y aprendizaje automático aprendidos en el curso para aumentar la probabilidad de que una conversación concreta en Tinder fuera un «éxito»? Así se formó mi idea de proyecto. ¿El siguiente paso? Contarle a mi novia…

Algunos datos de Tinder, publicados por la propia Tinder:

la aplicación tiene alrededor de 50 millones de usuarios, 10 millones de los cuales utilizan la aplicación diariamente
desde 2012, ha habido más de 20.000 millones de coincidencias en Tinder
un total de 1.6.000 millones de swipes se producen cada día en la aplicación
el usuario medio pasa 35 minutos AL DÍA en la aplicación
se estima que se producen 1,5 millones de citas A LA SEMANA gracias a la aplicación

Problema 1: Conseguir datos

¿Pero cómo conseguiría datos para analizar? Por razones obvias, las conversaciones de Tinder de los usuarios y el historial de coincidencias, etc., están codificados de forma segura para que nadie más que el usuario pueda verlos. Después de buscar en Google, me encontré con este artículo:

Esto me llevó a la conclusión de que Tinder se ha visto obligado a crear un servicio en el que puedes solicitar tus propios datos, como parte de la ley de libertad de información. El botón de «descarga de datos»:

Una vez pulsado, tienes que esperar 2-3 días laborables antes de que Tinder te envíe un enlace para descargar el archivo de datos. Esperaba ansiosamente este correo electrónico, ya que había sido un ávido usuario de Tinder durante un año y medio antes de mi actual relación. No tenía ni idea de cómo me sentiría, revisando un número tan grande de conversaciones que finalmente (o no tan eventualmente) se habían esfumado.

Después de lo que me pareció una edad, el correo electrónico llegó. Los datos estaban (afortunadamente) en formato JSON, así que una rápida descarga y carga en python y bosh, acceso a todo mi historial de citas online.

Los datos

El archivo de datos se divide en 7 secciones diferentes:

De estos, sólo dos eran realmente interesantes/útiles para mí:

Mensajes
Uso

Al analizarlo más a fondo, el archivo «Uso» contiene datos sobre «Aperturas de la aplicación», «Coincidencias», «Mensajes recibidos», «Mensajes enviados», «Swipes a la derecha» y «Swipes a la izquierda», y el «Archivo de mensajes» contiene todos los mensajes enviados por el usuario, con marcas de hora/fecha, y el ID de la persona a la que se envió el mensaje. Como estoy seguro de que puedes imaginar, esto llevó a una lectura bastante interesante…

Problema 2: Conseguir más datos

De acuerdo, tengo mis propios datos de Tinder, pero para que cualquier resultado que consiga no sea completamente insignificante/altamente sesgado estadísticamente, necesito conseguir los datos de otras personas. Pero cómo lo hago…

Por lo tanto, no hay que rogar mucho.

Milagrosamente, conseguí convencer a 8 de mis amigos para que me dieran sus datos. Los datos iban desde usuarios experimentados hasta usuarios esporádicos «cuando se aburren», lo que me proporcionó una sección transversal razonable de tipos de usuarios. ¿El mayor éxito? Mi novia también me dio sus datos.

Otra cosa complicada fue definir un «éxito». Me decanté por la definición de que o bien se obtenía un número de la otra parte, o bien los dos usuarios tenían una cita. A continuación, mediante una combinación de preguntas y análisis, clasifiqué cada conversación como exitosa o no.

Problema 3: ¿Y ahora qué?

Bien, tengo más datos, pero ¿ahora qué? El curso de Ciencia de Datos se centró en la ciencia de datos y el aprendizaje automático en Python, por lo que importarlos a python (utilicé cuadernos de anaconda/Jupyter) y limpiarlos parecía el siguiente paso lógico. Habla con cualquier científico de datos, y te dirá que la limpieza de datos es a) la parte más tediosa de su trabajo y b) la parte de su trabajo que ocupa el 80% de su tiempo. La limpieza es aburrida, pero también es fundamental para poder extraer resultados significativos de los datos.

Creé una carpeta, en la que dejé caer los 9 archivos de datos, luego escribí un pequeño script para recorrerlos, importarlos al entorno y añadir cada archivo JSON a un diccionario, siendo las claves el nombre de cada persona. También dividí los datos de «Uso» y los datos de los mensajes en dos diccionarios separados, para facilitar el análisis de cada conjunto de datos por separado.

Problema 4: Diferentes direcciones de correo electrónico conducen a diferentes conjuntos de datos

Cuando te registras en Tinder, la gran mayoría de la gente utiliza su cuenta de Facebook para iniciar sesión, pero la gente más precavida sólo utiliza su dirección de correo electrónico. Por desgracia, tenía una de estas personas en mi conjunto de datos, lo que significa que tenía dos conjuntos de archivos para ellos. Esto fue un poco molesto, pero en general no fue demasiado difícil de manejar.

Habiendo importado los datos en los diccionarios, entonces iteré a través de los archivos JSON y extraje cada punto de datos relevante en un dataframe de pandas, con un aspecto similar a este:

Datos de mensajes con nombres eliminados

El primer gráfico se explica por sí mismo, pero el segundo puede necesitar alguna explicación. Esencialmente, cada fila/línea horizontal representa una única conversación, siendo la fecha de inicio de cada línea la fecha del primer mensaje enviado dentro de la conversación, y la fecha de finalización el último mensaje enviado en la conversación. La idea de este gráfico era tratar de entender cómo la gente utiliza la aplicación en términos de mensajería de más de una persona a la vez.

Aunque interesante, realmente no vi ninguna tendencia o patrón obvio que pudiera interrogar más, así que me dirigí a los datos agregados de «Uso». Inicialmente empecé a mirar varias métricas a lo largo del tiempo divididas por usuario, para intentar determinar cualquier tendencia de alto nivel:

pero nada destacó inmediatamente.

Entonces decidí mirar más profundamente en los datos de los mensajes, que, como mencioné antes, venían con una práctica marca de tiempo. Tras agregar el recuento de mensajes por día de la semana y hora del día, me di cuenta de que había dado con mi primera recomendación.

Las 9 de la noche de un domingo es la mejor hora para ‘Tinder’, mostrada a continuación como la hora/fecha en la que se envió el mayor volumen de mensajes dentro de mi muestra.

Aquí, he utilizado el volumen de mensajes enviados como un proxy para el número de usuarios en línea en cada momento, por lo que ‘Tindering’ en este momento se asegurará de que usted tiene la mayor audiencia.

Luego empecé a mirar la longitud del mensaje en términos de palabras y letras, así como el número de mensajes por conversación. Inicialmente, se puede ver a continuación que no había mucho que saltara a la vista… (aquí un «éxito» es rojo)

Promedio de mensajes de las conversaciones exitosas frente a las no exitosas

Esto me llevó a la cuarta recomendación.

La cuarta recomendación:

Sea positivo, pero no demasiado positivo.

Te aseguro que hay auténticos cracks en él.

Luego comprobé qué primeros mensajes contenían una palabra de esta lista, 40 de los cuales sí. Como siempre ocurre con este tipo de cosas, encontré algunos casos interesantes:

FYI este era un tipo hablando de sus polainas de remo…

¿Resultados? Resulta que ninguno de los primeros mensajes con contenido explícito condujo a un ‘Éxito’

Mis amigos me dieron sus datos de Tinder…

La segunda recomendación:

Tercera recomendación:

La cuarta recomendación:

La quinta recomendación:

Así que PARA RESUMIR

Algunas trampas de los datos:

Algunas ideas para el trabajo futuro:

Algunas factoides interesantes de los datos:

Más información:

Deja una respuesta Cancelar la respuesta