Detalle conferencia Dr. Carlos Sarraute

Resumen:

El uso del teléfono celular contiene una riqueza enorme de información,  que puede ser usada para entender mejor la estructura demográfica de una población, y llenar huecos respecto de preguntas básicas: por ejemplo, ¿cuáles son las diferencias de uso del teléfono celular entre hombres y mujeres, o entre diferentes grupos de edad? En Grandata Labs, tenemos un equipo de investigación especializado en estudiar "Dinámica Humana". En esta charla, voy a contar la investigación que hicimos con datos de la población de México.

Nuestro primer enfoque fue explorar los datos para ganar ideas. Realizamos el primer estudio extensivo de interacciones sociales en México focalizado en sexo y edad, basado en uso de telefonía móvil. Para eso contamos con "Big Data": el trabajo se hizo sobre los datos provistos por una compañía de celular, quien nos entregó datos anonimizados de 90 millones de usuarios. Los datos se recopilaron sobre un periodo de 3 meses, y suman más de dos mil millones de llamados y dos mil millones de mensajes (SMS). La capacidad de analizar estas comunicaciones nos permitió hacer inferencias sólidas y detectar propiedades sutiles de la red social. 

Respecto del género, hicimos algunas observaciones interesantes: (i) una homofilia respecto del género en la red de comunicaciones (i.e. los hombres hablan más con hombres, y las mujeres con mujeres); (ii) una asimetría entre géneros (los hombres hablan más cuando realizan llamados salientes, y las mujeres hablan más cuando reciben llamados entrantes), posiblemente reflejando una diferencia de roles en la sociedad mejicana.

También comparamos los hábitos de comunicación entre diferentes grupos de edad, y encontramos diferencias estadísticamente significativas. La observación más importante fue detectar una fuerte homofilia respecto de la edad en la red social, o sea los usuarios tienen una fuerte tendencia a comunicarse con interlocutores de su misma edad (o muy cercana).

Basado en estos resultados, nos pusimos a trabajar en desarrollar una nueva metodología para predecir características demográficas (concretamente, la edad y el género) usando tanto los patrones individuales de llamados, como la estructura del grafo de comunicaciones. Primero usamos las herramientas clásicas de "Machine Learning" basadas en características individuales de los nodos. Sin embargo estas técnicas no aprovechan la información topológica de la red y las correlaciones entre las comunicaciones de los usuarios.

Para explotar esta información, desarrollamos un algoritmo basado unicamente en el grafo inspirado en un proceso de reacción-difusión, y mostramos que con esta metología podemos predecir la categoría de edad de un conjunto significante de nodos en la red. Finalmente, mostramos que combinando técnicas de "Machine Learning" con nuestro algoritmo de reacción-difusión, podemos predecir características demográficas como la edad y el género con alta precisión, sobre un dataset del mundo real con millones de usuarios.