En el marco del evento Future Data Ecosystems 2022 de Retargetly, Longo explicó que en este tipo de industrias, generalmente se manejan grandes volúmenes de datos. “En nuestro caso, particularmente, tenemos más de 8 mil millones de eventos por mes, con más de 2 mil millones de dispositivos, entonces esto impone ciertas restricciones. Es bonito tratar de tener ciertos estudios analíticos, pero al tener grandes volúmenes de datos, eso requiere también tener un trabajo de ingeniería muy grande detrás”.
El VP Data Ops de Retargetly describió las distintas fuentes a partir de las cuales se obtienen los datos. “Hoy en día contamos, principalmente, con sitios web que suelen visitar nuestros usuarios, obviamente con el consentimiento de los sitios web. Es decir, nosotros estamos asociados a varios de estos y eso nos permite poder tener acceso, así como también a apps instaladas, data de geolocalización, información de tipos de dispositivo y también tenemos información de scoring bancario y de compras offline. Con todos estos datos, la idea es tratar de sacarle el jugo y poder aportar cierto valor y generar algún tipo de predicción y que esto sea de relevancia para distintos clientes”.
Longo también explicó qué es la data science y todo lo que implica. “El área de data science se compone de cuatro subáreas de relevancia: el análisis de los datos, el procesamiento de los datos, la parte de modelado y machine learning, y, finalmente, el nivel de protección que se está teniendo a la hora de trabajar con estos datos”.
Longo hizo énfasis en que hacer data science no es solo hacer modelado, sino que hay mucho procesamiento de los datos previamente. “Cuando hablamos de 8 mil millones de eventos esto requiere que haya ciertas tecnologías de fondo que permiten poder procesar esos volúmenes monstruosos en pequeño tiempo” y detalló que el 80% del tiempo se dedica a la parte de análisis y procesamiento de los datos “y el resto del tiempo corresponde al modelado, que es lo que al final del día termina luciéndose”.
Publicado en PRODU.