Google Flu Trend: Big Data no siempre acierta

4 abril, 2014 by in category Internet tagged as with 0 and 1
Home > Noticias > Google Flu Trend: Big Data no siempre acierta

La utilización de grandes cantidades de información descargada de nuestro comportamiento en los sitios de búsqueda puede servir, en determinados ámbitos, para planificar campañas de marketing y estudiar cuáles son los intereses y las motivaciones de los consumidores. Y no tan sólo esto. El big data generado a través de internet puede, también, servir de base para la planificación de políticas públicas. ¿Hasta qué punto son fiables los insights generados a través de esta técnica?

Hace unos días, algunos medios se hacían eco de los resultados obtenidos mediante Google Flu Trend (GFT). GFT es una herramienta diseñada con el objetivo de monitorizar en tiempo real el impacto de la gripe (sí, del virus) entre la población mundial. La idea subyacente en GFT es que, partiendo del análisis cuantitativo de las búsquedas que los internautas hacen en Google, relacionadas con términos próximos a “gripe”, se puede predecir cuál será el alcance de la epidemia de esta enfermedad.

La ventaja de conocer esta información es obvia: permite a las autoridades públicas anticiparse a los problemas. Si sé que este año la gripe tendrá una afectación mayor a la habitual, incrementaré el gasto en medicamentos, vacunas, etc. para poder suministrarlos a los ciudadanos afectados.

En un proyecto encabezado por David Lazer, de la Northern University, se comparó la incidencia real de la gripe con la prevista por Google Flu Trend. Resultado: durante los años 2012 y 2013, esta herramienta predijo el doble de visitas al médico de las que registraron las CDC (Centers for Disease Control and Prevention) . Se predijeron más casos de infecciones que las que realmente hubo en 100 de las 108 semanas del periodo analizado. ¿A qué se debe esta disparidad?

Los autores del trabajo apuntan una posible hipótesis: la predicción podría haber sido más ajustada si se hubieron reequilibrado las escalas de medida del algoritmo utilizado por GFT para estimar el impacto de la gripe. Aparentemente, según comentan los autores del estudio, la solución a esta disparidad entre predicción y realidad es realmente sencilla: “es un poco como un puzzle, porque realmente no hubiera requerido mucho trabajo mejorar sustancialmente los resultados de Google Flu Trends”, comenta Lazer.

Otros co-participantes en el proyecto critican la poca transparencia del algoritmo utilizado. Si la toma de decisiones públicas se realiza en base a estas herramientas, hay que estar seguro que éstas funcionarán… el acceso a la construcción del algoritmo debería ser más abierta, permitiendo que toda la comunidad investigadora pudiera aportar su granito de arena al proyecto.

Ryan Kennedy, de la Universidad de Houston, apunta la causa que provoca que Google no haga público el algoritmo: sus intereses económicos. “Muchas fuentes de Big Data vienen de compañías privadas que, como Google, están constantemente cambiando su servicio en concordancia con su modelo de negocio”. Reflexionando sobre quiénes han sido los principales beneficiaros del error de la estimación de GFT, podremos tener una idea sobre qué instituciones están interesadas en mantener cautivo al algoritmo. Cada cual que saque sus conclusiones…

La sobrestimación del impacto de la gripe por parte de GFT no debe tomarse necesariamente como una crítica al empleo del Big Data, sino más bien como una demanda a la transparencia de los agentes encargados de proporcionar la información y a una mejor integración de esta información con los outputs obtenidos a partir de técnicas clásicas.

 

1 Comment

Add comment

© 2014 Empirica Influentials & Research