You are on page 1of 170

E-Books & Papers for Statisticians

Big data

Eje estratégico en la industria


audiovisual

Eva Patricia Fernández

E-Books & Papers for Statisticians


Director de la colección Manuales (Comunicación): Lluís Pastor

Diseño de la colección: Editorial UOC


Diseño de la cubierta: Natàlia Serrano

Primera edición digital: septiembre 2017

© Eva Patricia Fernández (coord), Francisco Asensi Viana, Alfonso Calatrava, Antonio
Gallo, Francisco Gallego, Mª Isabel González Vasco, Beatriz Pérez de Vargas, Paula
Rodríguez, Belén Santa Olalla, del texto

© Editorial UOC (Oberta UOC Publishing, SL), de esta edición, 2016


Rambla del Poblenou, 156
08018 Barcelona
http://www.editorialuoc.com

Realización editorial: Oberta UOC Publishing, SL


Maquetación: DIGITAL BOOKS, S.L.U.

ISBN: 978-84-9116-415-9

Ninguna parte de esta publicación, incluyendo el diseño general y de la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma ni por ningún medio, ya sea eléctrico, químico,
mecánico, óptico, de grabación, de fotocopia o por otros métodos, sin la autorización previa por escrito
de los titulares del copyright.

E-Books & Papers for Statisticians


Coordinadora

Eva Patricia Fernández (@evapatricia)


Licenciada y doctora en Ciencias de la Información por la Universidad
Complutense de Madrid, máster por el Instituto de Empresa en Dirección
de Empresa Audiovisual y máster en Big Data y Business Intelligence por
la EOI. Tras varios años en medios de comunicación (cine, televisión,
publicidad e internet), en 2003 funda la empresa Creta Producciones, que
centra su labor en la estrategia digital de contenidos audiovisuales, y en
2009 es candidata a los premios Goya. Junto a su labor profesional en la
empresa privada, desarrolla una importante labor académica en el área
de administración y dirección de empresas y comunicación audiovisual.
Actualmente es profesora en la URJC. Además, es miembro del Foro de
Innovación Audiovisual y participa en congresos de ámbito nacional e
internacional. Es autora de artículos en revistas del sector de la comuni-
cación y de los libros Principios básicos de la producción cinematográfica (OMM
Editorial, 2012), Principios básicos de la producción televisiva (OMM Editorial,
2013), ¡Echa el anzuelo! Estrategias de Pitch para jornadas transmedia (Editorial
UOC, 2014) y De la idea a la emisión (OMM Editorial, 2015).

Colaboradores

Francisco Asensi Viana (@fasensi)


Director digital de NeverSeen Media. Con una extensa experiencia en
proyectos digitales e innovación, comenzó su carrera en el sector IT,
trabajando para empresas de servicios de este sector como Garben
Consultores, Ideal Objects o Altana Consulting, así como para empresas
de software como la multinacional Borland Software Corporation. Inició
su contacto pleno con el sector digital en Teknoland como consultor
de negocio digital para el sector de media y puntocom. Posteriormente
se involucra en el sector del entretenimiento y los contenidos pasando
por empresas como Real Madrid CF y EMI Music para recalar en 2008
en RTVE, donde fue parte del equipo original que puso en marcha la
transformación digital de la corporación. En 2014 se incorpora al grupo
Endemol Shine como managing director para dirigir la división digital del
grupo Endemol Beyond.

E-Books & Papers for Statisticians


Alfonso Calatrava (@alcalatrava)
Jefe de Investigación de Twitter para España y Portugal. Licenciado
en Administración y Dirección de Empresas. Posgrado en Técnicas
Avanzadas de Análisis. Más de diez años de investigación en efica-
cia publicitaria, con particular especialización en entornos digitales.
Experiencia profesional en Google y Twitter.

Francisco Gallego (@FranGallego)


Experto en analítica y audiencias digitales en grandes medios de
comunicación. Ha trabajado en Prisa, Globomedia y Unidad Editorial.
Doctor en Media Business por la Universidad Complutense de Madrid
y Media MBA por lESE/Universidad de Navarra. Posee estudios de
Comunicación y Administración de Empresas. Ha sido fellow en la
Soongsil University (Seúl, Corea del Sur) e investigador visitante en el
Observatorio Europeo del Audiovisual (Estrasburgo, Francia). Está
interesado en el nexo de unión entre negocio, medios y big data.
También ha desarrollado estrategias vinculadas al mundo de la televisión
y las redes sociales.

Antonio Gallo (@agallor)


Actualmente es socio y CEO de Dogtrack, plataforma de Gestión de
Comunidades para Medios de comunicación. Licenciado en Derecho por
la Universidad Complutense de Madrid y PDD por el IESE y Executive
MBA por la Universidad de Navarra. Compagina su trabajo profesional
con la actividad docente en el Centro Universitario Villanueva, en la
Universidad de Navarra, y tiene diversos másteres relacionados con la
gestión de redes sociales y medios de comunicación. 

M.ª Isabel González Vasco


Desde 2009 es profesora titular de Matemática Aplicada en la Universidad
Rey Juan Carlos. Licenciada en Matemáticas por la Universidad de Oviedo
(1999) y doctora por la misma universidad (2003). Sus tareas de investiga-
ción se centran en el diseño y análisis formal de herramientas, criptográ-
ficas con especial énfasis en esquemas de firma digital, establecimiento de
clave y control de acceso en entornos multiusuario. Ha publicado medio
centenar de artículos en revistas y actas de congresos especializados, desa-

E-Books & Papers for Statisticians


rrollando además una intensa actividad editorial. Es, además, miembro de
la IACR (International Association for Cryptologic Research).

Beatriz Pérez de Vargas


Licenciada en Comunicación Audiovisual por la Universidad San Pablo
CEU y máster en Gestión de Empresas de Comunicación por MEGEC-
IESE Business School. Responsable de contenidos y nuevos formatos de
NeverSeen Media. Ha sido responsable de contenidos del grupo Lavinia
hasta este año. Comenzó su carrera en la agencia EFE. Ha trabajado
como guionista y redactora de varios programas para El Mundo TV,
donde desempeñó el cargo de directora de contenidos para la cadena
temática Aprende Inglés TV. De 2013 a finales de 2014, trabajó como
analista de audiencias para Barlovento Comunicación, ocupándose de las
cuentas de Mediaset, Boomerang TV o Secuoya, entre otras.

Paula Rodríguez (@paurpeyre)


Licenciada en Publicidad y Executive Media MBA por el MEGEC-IESE.
Responsable de Nuevo Negocio y Comunicación en DOGTRACK
desde el año 2014. Ha sido responsable del programa comunita-
rio  eContent  (Comisión Europea), MagisterMusicae.com y el Proyecto
Atlántida, realizado en colaboración con la AECID en once países de
Iberoamérica. Docente universitaria de la asignatura de Comunicación, es
miembro del Foro de Innovación Audiovisual.

Belén Santa Olalla (@Belen_Santa)


Senior creative consultant en Conducttr, Londres, donde desarrolla proyectos
de transmedia storytelling. En España ha liderado la experiencia transme-
dia 19reinos relativa al universo de Juego de Tronos en Canal+. Ponente en
conferencias internacionales como SXSW (USA), también dirige la com-
pañía de teatro de inmersión Stroke114, coordina los meetups Transmedia-
Madrid y Transmedia-Málaga. Colabora como docente en programas de
posgrado, dirige la sección en español de Transmedia Podcast y es autora
del blog Universo Transmedia.

E-Books & Papers for Statisticians


E-Books & Papers for Statisticians
© Editorial UOC Índice

Índice

Prólogo.................................................................................. 13

Capítulo I. Entendiendo el big data............................. 17


1. La utilidad es la clave................................................... 17
2. Gestión de datos masivos en la empresa.................. 19
2.1. El ecosistema en línea.......................................... 24
2.2. Principales características del big data................ 27
2.3. Elección de fuentes y proceso ETL.................. 29
2.4. Perfiles profesionales del big data........................ 35
3. Usos del big data en los medios
de comunicación........................................................... 41
3.1. Social big data........................................................... 41
3.2. La audiencia: targets y usuarios............................ 42
3.3. Canales y estrategias de obtención de datos.... 48
3.4. Dispositivos que interactúan
con los espectadores........................................... 53
4. Trabajando con los datos............................................ 56
4.1. Analítica web......................................................... 56
4.2. Descubriendo valor en los datos........................ 65
4.3. Business Intelligence................................................... 70
4.4. Visualización.......................................................... 72
Bibliografía.................................................................... 79

Capítulo II. Cases studies.................................................. 83


1. Storytelling y big data: cómo transformar números
en historias de ficción.................................................. 83

9
E-Books & Papers for Statisticians
© Editorial UOC Big data

1.1. Una herramienta de uso creativo del big data... 84


1.2. Gestión de datos................................................... 86
1.3. Un ejemplo práctico............................................. 88
1.4. Conectar mediante API....................................... 89
1.5. Casos de estudio................................................... 90
1.6. Posibilidades.......................................................... 93
1.7. Conclusión............................................................. 94
2. Gestión de datos en Real Time TV............................ 95
2.1. Dentro de Gran Hermano..................................... 97
2.2. Afrontar un huracán en redes sociales:
#TimoGH15........................................................ 103
2.3. Usando datos biométricos para contar
historias................................................................. 104
2.4. Talpa y el big content............................................... 105
2.5. Conclusión............................................................. 108
3. El impacto de Twitter en la comunicación
de estrenos cinematográficos..................................... 109
4. Analítica digital en marca.com................................... 117
4.1. Entender el mundo de los datos
en los medios........................................................ 117
4.2. El peso de la analítica digital dentro
del big data............................................................. 122
5. Dogtrack. Big data televisivo como ruta
para extraer valor de la audiencia.............................. 127
5.1. Las redes sociales y la televisión......................... 127
5.2. Big data, redes sociales y medios
de comunicación.................................................. 129
5.3. ¿Existe relación entre las redes sociales
y el big data en la televisión?............................... 130
5.4. El doble viaje entre las redes sociales
y los medios de comunicación........................... 131

10
E-Books & Papers for Statisticians
© Editorial UOC Índice

5.5. Principales actores................................................ 132


5.6. Qué tipo de acciones pueden hacer
las televisiones en relación con las redes
sociales................................................................... 136
5.7. Principales usos y beneficios que las cadenas
de televisión pueden hacer de Dogtrack.......... 138
5.8. A modo de conclusión......................................... 140
6. Privacidad en redes sociales: amenazas
y soluciones................................................................... 141
6.1. Amenazas............................................................... 147
6.2. Contramedidas...................................................... 152
6.3. Conclusiones.......................................................... 155
Bibliografía.................................................................... 157

Epílogo.................................................................................. 161

Glosario................................................................................. 167

11
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians
© Editorial UOC Prólogo

Prólogo

En un principio, internet nos permitió acceder a cualquier


tipo de información y, por lo tanto, llegar a conclusiones
mucho más rápidas. Después, llegaron las ideas disruptivas.
Tecnologías y dispositivos fascinantes hicieron que, de mane-
ra inapreciable, fueran difuminándose los abismos existentes
entre innovadores y adaptadores tempranos de nuevas tecno-
logías. Ahora, abrazados por las TIC, somos muchos los que
consideramos que estamos viviendo una nueva revolución
industrial, una etapa apasionante de profundos y veloces
cambios. Pero esta transición no está siendo completada en
muchos sectores, y quizás se deba a una barrera temporal
que hace que los cambios se produzcan antes de que estemos
preparados para asumirlos. Ni las personas, ni las máquinas.
Cada vez que interactuamos con la tecnología generamos
datos que, de manera masiva, son conocidos como big data.
Un término tremendamente atractivo en los últimos años que
encuentra su verdadero poder en la idea de utilidad dado que
los datos, por sí solos, carecen de valor. Lo realmente intere-
sante es decidir qué se puede hacer con ellos. Así, llegamos al
concepto de business intelligence, que provoca tomar decisiones
óptimas en el menor tiempo posible. Nuevamente se repiten
las mismas ideas: el tiempo y la utilidad.
El libro Big data, eje estratégico en la industria audiovisual surge
como necesidad de poner etiquetas y nombres a las cosas. En

13
E-Books & Papers for Statisticians
© Editorial UOC Big data

el primer capítulo, conocemos el impacto de la gestión de los


datos masivos en la empresa en general. El trabajo propone
entender de manera lineal y temporal el proceso por el que
se generan y trabajan dichos datos. A continuación, se iden-
tifican las claves del sector audiovisual, propenso a participar
y ser social gracias a las nuevas tecnologías. Por ello, este
sector enriquece enormemente cualquier acción que parta
del big data. Surgen así nuevas acciones, ahora al alcance de
muchos negocios, que suponen trabajar con diversos targets y
dispositivos. Es en este punto cuando la obra nos propone
encontrar el valor en los datos. Al igual que sucede con las
personas, no aceptamos una nueva tecnología hasta que no le
vemos la utilidad en nuestras vidas, ya sea una red social o una
nueva manera de consumo on demand. La empresa también
necesita ver la utilidad en el big data y, además, tiene que estar
preparada para ello.
En el siguiente capítulo, diferentes profesionales del sector
de los medios narran sus estrategias partiendo de la gestión
de los datos. Son un abanico de cases studies que conectan el
mundo de la tecnología con el storytelling, el marketing cine-
matográfico, la real time TV, la privacidad en las redes sociales
o la analítica web. Concretamente, son acciones que toman
ventaja al resto gracias a ideas como la hiperpersonalización,
la geolocalización o la segmentación de perfiles.
Finalmente, el libro propone una serie de tendencias, ini-
ciativas y reflexiones que pueden darnos pistas sobre cómo
las máquinas y las personas vamos a reaccionar ante el fenó-
meno del big data. ¿Habrá un momento en el que las personas
dejarán de opinar en la red porque piensen que deben cobrar
por ello? ¿La geolocalización se puede volver peligrosa contra
el usuario? ¿Hasta qué punto se podrá predecir un compor-

14
E-Books & Papers for Statisticians
© Editorial UOC Prólogo

tamiento que todavía no hemos realizado? Es el momento de


entender los cambios que suceden en entornos tecnológicos
y que afectan a nuestras vidas, porque como seres humanos
somos sociales y necesitamos comunicarnos, opinar y com-
partir. Es el momento de establecer unas buenas prácticas y
una hoja de ruta que permita participar y tomar decisiones.

15
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Capítulo I
Entendiendo el big data

1. La utilidad es la clave

Los avances tecnológicos sucedidos en los primeros años


del siglo XXI han dado paso a un importante cambio en el
paradigma de la comunicación, permitiendo intercambiar
y sustituir todos aquellos agentes que tradicionalmente ini-
ciaban el proceso comunicativo. Así, hoy en día, emisor y
receptor desarrollan habilidades y manejan herramientas
que les permiten intercambiar sus roles. Internet fue, en su
momento, el gran democratizador que ofrecía información a
todas las personas y, a su vez, todo el mundo podía compartir
información.
Que las personas vieran la utilidad de las redes sociales
digitales fue sin duda otro hito importante en la hoja de ruta
de la participación social y, poco a poco, la industria de los
medios, entendida como tradicional emisor, quiso participar
de dicha utilidad. Hoy en día, como usuarios de las nuevas
tecnologías, presenciamos cómo el tsunami digital arrasa con
hábitos y costumbres, además de proponer nuevas profesio-
nes, términos o maneras de comunicarnos que hace tan solo
unos años no hubiéramos imaginado. La hoja de ruta de las
nuevas tendencias viene marcada por empresas disruptivas
que apuestan por tecnologías ya presentes como la singulari-
dad tecnológica, la realidad aumentada, el cloud computing o el
uso de wearables, entre otros.

17
E-Books & Papers for Statisticians
© Editorial UOC Big data

La industria de la comunicación, concretamente la rela-


cionada con medios audiovisuales más tradicionales como
el cine, la televisión o la radio, ha encontrado en el uso de
internet la posibilidad de transformar su modelo de negocio,
cambiando, por lo tanto, la manera en la que acerca sus pro-
ductos a la audiencia. Esto ha supuesto un cambio en la men-
talidad de todos los agentes que forman parte de la cadena
de valor. Viendo estos elementos con cierta perspectiva, nos
encontramos en primer lugar con los creadores de contenido,
quienes han visto cómo sus historias podrían ser contadas
en diferentes plataformas, enriqueciéndose y retroalimentán-
dose. Hablamos, por ejemplo, del transmedia. En segundo
lugar, los productores y distribuidores de contenidos también
se sitúan en un momento álgido debido, principalmente, a
la cantidad de datos que han ido atesorando desde los últi-
mos años, información relativa al consumo pero, también,
al consumidor. En esta línea, resalta también la importancia
de los destinatarios o los ya mencionados consumidores de
dichos productos audiovisuales, quienes son más conscientes
que nunca del poder del consumo on demand, algo que les
permite decidir cuándo, dónde y qué ver. A esta modalidad
de demanda se suma la ya realidad cotidiana del uso de redes
sociales a través de las que comunicar, emitir juicios críticos
y, básicamente, hacer valer su opinión sobre los productos
consumidos. Todas estas acciones en la era de las TIC deri-
van en la generación de datos. Esto es una información muy
variada, son registros procedentes de las audiencias, de los
consumos y de los usuarios que demandan sus contenidos a
través de formularios en aplicaciones o en webs de canales
de televisión o simples puntuaciones y recomendaciones de
los espectadores. Asumir que esa información es valiosa,

18
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

ordenarla y extraer de ella decisiones de negocio para futuras


acciones ofrece una ventaja y un valor indudable para todos.
Esto es la gestión masiva de datos, también denominada big
data, palanca de cambio de nuevas acciones y decisiones. Pero,
como repetiremos a lo largo de estas páginas, los datos en sí
mismos carecen de valor, la importancia radica en el uso que
se haga de ellos.

2. Gestión de datos masivos en la empresa

La revolución industrial que ha supuesto la aparición de


TIC disruptivas ha marcado claramente el paso del período
en el que usábamos la tecnología como proceso mecánico
a entenderlas como un elemento productivo, con su consi-
guiente impacto tanto a nivel industrial como a nivel indivi-
dual del usuario en un marco amplísimo de posibilidades. El
big data como tendencia surge, pues, cuando la industria se da
cuenta de que no puede almacenar ni manejar la información
de manera convencional; es por lo tanto un paso lógico en
el proceso del uso de las TIC. Comprender las posibilidades
del big data en cada industria supone entender las dinámicas
internas, así como las fuentes de datos generables de las que
podemos disponer y la interacción que podemos realizar en
ellas. Pero también es importante entender que todo forma
parte de un proceso de negocio, que el uso masivo de los
datos ofrece nuevas posibilidades de orientar los negocios.
Volvemos a insistir: es fundamental entender que los datos en
sí mismos carecen de valor, dado que es precisamente lo que
se haga con ellos lo que les va a dar importancia.

19
E-Books & Papers for Statisticians
© Editorial UOC Big data

Si hacemos una foto de aquellas industrias que estable-


cen en su modelo de negocio una relación con la gestión
masiva de datos, quizás el sector aeronáutico sea uno de los
que mayor ventaja tiene, seguido de la banca, los seguros, el
sector médico o el agrícola. Por citar algunos ejemplos, el
sector de la medicina encuentra la utilidad del big data en el
cruce de datos anónimos con el propósito de obtener con-
clusiones más precisas y rápidas sobre hallazgos científicos.
Un buen exponente es Research Kit, la plataforma de datos
abiertos de Apple. Por otro lado, en cuestiones agrícolas, la
startup española Cubenube dispone de gestión cloud de datos
agrícolas con idea de minimizar riesgos en las plantaciones.
En el caso de la industria del turismo, los destinos turísticos
reciben un implacable impulso para convertirse en smart cit-
ies, respaldo tanto de la iniciativa privada con clusters como
SmartCitiesLab, formado por Telefónica, Intel, Admira o
Ficosa, o también desde la esfera pública a través de Segittur,
que lidera el proyecto Destinos Turísticos Inteligentes desde
el Ministerio de Industria, Energía y Turismo. En España, son
los grandes grupos empresariales los que están promoviendo
iniciativas innovadoras a partir del uso del big data con idea
de tener un rol importante en la transformación tecnológica.
En esta línea, el BBVA promueve acciones cloud computing y
big data a través de la consultora Beeva y la gestión del talento
digital a través del Centro de Innovación. O también desde
Bbva Data & Analytics y el análisis de datos. Otro ejemplo es
el grupo Telefónica y su espacio de Innovación o incluso de
aceleradora de proyectos empresariales digitales, Wayra. En
general, podemos deducir la apuesta clara por negocios que
relacionen el big data con industrias tanto tradicionales como
emergentes.

20
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Para todas estas industrias y empresas, la integración


del big data en sus estrategias y procesos está entendida
siempre como mejora desde un punto de vista estratégico.
Centrándonos en el caso del sector audiovisual, y desde una
perspectiva internacional, la empresa de software Netflix se
presenta como uno de los más rentables casos de uso del
big data y business intelligence. Con una envidiable política de
transparencia, ofrece a través de su Netflix Tech Blog1 toda
la información posible sobre su funcionamiento interno.
Netflix es un canal de video on demand (VOD). Ellos se definen
a sí mismos como una aplicación que ofrece sus servicios a
través de una conexión a internet; esto permite una serie de
acciones bidireccionales entre el canal y el espectador. Para
ello, es importante tener categorizada o etiquetada la infor-
mación. Así, desde 2007, la empresa ha contratado personal
(los denominados taggers) destinado a visualizar determinados
títulos con idea de identificarlos con etiquetas (tags) y proce-
der posteriormente a su indexación.
Con idea de entender el proceso de adjudicación de eti-
quetas, es interesante comprender que el valor de la gestión
masiva de datos radica, en primer lugar, en poder encontrar
la información que buscamos en un entramado de redes cam-
biante y volátil; esto es, internet. Las características de la web,
tal y como la conocemos hoy, hicieron necesaria la aparición
de un sistema organizativo que permitiera la catalogación y

1  Se recomienda la lectura del blog de Netflix relativo a su división técnica en


techblog.netflix.com donde, en función de los conocimientos más o menos téc-
nicos del usuario, podemos obtener información interna del funcionamiento de
la plataforma con respecto a temas como algoritmos, analítica, data visualización,
data pipeline, arquitectura cloud, etc.

21
E-Books & Papers for Statisticians
© Editorial UOC Big data

búsqueda de información,2 esto es, motores de búsqueda que


habitualmente usan los usuarios; quizás sea Google el más
conocido y usado, junto con otros desaparecidos o en uso
como Yahoo!, Altavista o Lycos. Mención especial merece
la WorldWideWeb, la red de redes, el primer buscador que
centraba su acción en un motor de búsqueda capturando
URL.3 En 2005, el etiquetado de los contenidos realizado por
usuarios se gestó en la red social del.icio.us, respaldada por
Yahoo! y, actualmente, este etiquetado es la base de las redes
sociales con idea de proceder posteriormente a la búsqueda e
identificación de datos.
En el caso del buscador más empleado por los usuarios,
Google, el motor de búsqueda de datos no se centra en el
tagging,4 sino que prioriza webs en función de su popularidad.
Para ello, patentó el denominado page rank, un algoritmo vivo
que evoluciona, se retroalimenta y se actualiza continuamen-
te. Su base de trabajo establece el criterio de «popularidad»
en función del número de webs que enlazan al site, además de
otros valores como la calidad de las webs de referencia.5 En
este sentido, el resultado es un baremo de 0 a 10 que hace que
las páginas web con un page rank más alto aparezcan primera-
mente en una búsqueda aleatoria.
A partir de aquí, dado que las búsquedas en internet
no son privadas, es posible para las empresas intervinien-

2 Orense Fuentes, M. (2010). SEO. Cómo triunfar en buscadores (págs. 23-24).


Madrid: ESIC Editorial.
3  Unique resource location.
4  Término referido a la acción de usar etiquetas.
5 Orense Fuentes, M. (2010). SEO. Cómo triunfar en buscadores. Madrid: ESIC
Editorial.

22
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

tes saber qué tipo de búsquedas se realizan. Más aún, en


el caso de identificar los perfiles de usuarios que realizan
búsquedas, es posible no solo conocer los gustos de manera
personalizada sino intuir posibles nuevas búsquedas a rea-
lizar por dicho usuario. Llevado a términos de negocio, los
motores de recomendación en función de métricas, algo-
ritmos y predicciones hacen el resto. El objetivo es ofrecer
una herramienta de hiperpersonalización. Pongamos, por
ejemplo, el sector audiovisual, donde las empresas capaces
de gestionar datos y acciones de usuarios a través de las TIC
son propensas a ofrecer contenidos audiovisuales hiper-
personalizados e hipersegmentados a través de un canal
de televisión, aplicación o dispositivo. Para ello se recaban
datos básicos a través de la monitorización en tiempo real
del consumo audiovisual. Esto es, qué producto se está
visionando y las acciones que se realizan sobre él, ya sea play
(visionado), pausa, repetición, avance o parada. Además,
pueden obtenerse más datos referentes a la geolocalización,
las valoraciones que se hacen, opiniones, etc. Esto es infor-
mación masiva por cada usuario (big data); la gestión de la
misma para detectar la información útil para la empresa y
las decisiones estratégicas que se tomen para cumplir los
objetivos empresariales, por ejemplo en el caso de Netflix,
serán lo que la convierta en una empresa con un negocio
que entiende las posibilidades de las TIC. De tal forma que
este negocio no ofrece al usuario todo lo que busca o quiere,
más bien ofrece al usuario todo aquello en lo que está inte-
resado, dado que eso dicen los datos.

23
E-Books & Papers for Statisticians
© Editorial UOC Big data

2.1. El ecosistema en línea

En el tiempo que leemos esta página se enviarán 277.000


tuits, se subirán a YouTube setenta y dos horas de vídeo y se
harán cuatro millones de búsquedas en internet. Pero no es
solo una cuestión de cantidad, sino también de incremento
veloz. Una comparativa para tener más perspectiva nos cuen-
ta que en 2013, en un minuto, se enviaron 11,8 millones de
comentarios a través de WhatsApp, y en 2015 suman ya 44,4
millones. También, en ese mismo minuto, se ha pasado de
publicar 817 post a 1.212 solo dos años después.6 La UIT indi-
ca que el grado de penetración de internet se ha multiplicado
por siete desde el año 2000. Y actualmente 3.200 millones de
personas acceden a internet. En general, la aparición de nue-
vos dispositivos y aplicaciones, la oferta de tarifas de datos
más competitivas en gigas y precio, sumado a un rol activo
y social por parte del usuario de las nuevas tecnologías, todo
ello, ha propiciado un ecosistema proclive al intercambio de
información. De hecho, el 83 % de los usuarios de teléfonos
smartphones usa a diario redes sociales desde el móvil y nueve
de cada diez internautas habituales disponen de una cuenta
activa en las redes sociales más demandadas.7 Ante este pano-
rama, es entendible que en el uso diario de internet se generen

6 Domo (2015). «What happens on the internet in one minute» [en línea].
<http://www.likeablesocialmedia.org/what-happens-on-the-internet-in-one-minu-
te-infographic/>Allen, Robert (2016). «What happens online in 60 seconds?» [en
línea]. [Fecha de consulta: 10 de marzo de 2016]. <http://www.smartinsights.com/
internet-marketing-statistics/happens-online-60-seconds/>
7  The Cocktail-ARENA (2015). «Observatorio de redes, VII oleada» [en línea]. [Fecha
de consulta: 10 de marzo de 2016]. <http://www.slideshare.net/TCAnalysis/observa-
torio-redes-sociales-56195394?ref=http://tcanalysis.com/blog/archive/2015/12/>

24
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

grandes volúmenes de datos y metadatos. Podemos concretar,


por tanto, que el big data es el término empleado para refe-
rirse a toda aquella cantidad ingente de datos que, debido a
sus características, no pueden ser siempre procesados por los
sistemas informáticos actuales. Como veremos más adelante,
puede ser una cuestión de volumen, lo que hará que se necesi-
te trabajar con grandes almacenes de datos físicos (data centers)
o en la nube. Pero también podemos valorar características
como la escala temporal o velocidad, lo que va a permitir
establecer predicciones. En este sentido, muchos algoritmos
no están preparados para adaptarse a cambios tan rápidos.
Estos datos masivos pueden ser informaciones volcadas
en la red de internet o almacenadas de manera privada en las
empresas. Sea como sea, tradicionalmente estos datos esta-
ban disponibles de manera offline, sin conectividad entre ellos.
Hablamos aquí de documentos Word, tablas Excel, reclama-
ciones, encuestas telefónicas o documentos de subscripción,
entre otras muchas modalidades de ofrecimiento de datos.
Cada uno de estos son documentos que toda empresa realiza
con idea de generar o transcribir la información que produce
su empresa. Los documentos Word pueden ser guiones cine-
matográficos o las hojas Excel listados de una base de datos
de series televisivas con diferentes campos, en columnas, con
datos relativos a fechas, nacionalidad, género o minutos de
duración. Es decir, un sinfín de datos organizados de maneras
diferentes según cada empresa.
Pero, además, cada persona, como usuario de internet,
también genera datos, consciente o inconscientemente. Así,
en la actualidad, prácticamente cualquier uso que hagamos
de una herramienta digital conlleva el acto de lanzar datos
al escenario de internet. Por ello, cada vez que comparti-

25
E-Books & Papers for Statisticians
© Editorial UOC Big data

mos información estamos generando datos y/u opiniones.


Pongamos como ejemplo un acto tan rutinario como enviar
un correo electrónico, publicar una actualización en una red
social, clicar un «me gusta» en una foto, publicar la puntua-
ción obtenida en un videojuego o aceptar la política de cookies
de las páginas web. El hecho de compartir o interactuar con
toda esta información supone que se están generando datos
y más datos al universo de internet pero, además, estamos
vinculando, en la mayoría de los casos, dicha información con
un perfil de usuario. Esto es así porque, para casi cualquier
acción en la web, debemos previamente identificarnos y esta
es una información que se adjunta a los datos que vamos a
compartir. Si pensamos en los teléfonos móviles, desde hace
unos años han sido reemplazados por smartphones, lo que
nos permite interactuar con aplicaciones, descargas, internet,
pero, para todo ello, es necesario previamente identificarnos
con un usuario, una imagen, un nombre, incluso una cuenta
bancaria. Desde ese momento estamos generando una acti-
vidad comercial por la que se entiende que, al no pagar por
unos datos que el usuario ha ofrecido, el producto resulta ser
el mismo usuario. En general, podríamos decir que actual-
mente los usuarios se han acostumbrado a consumir servicios
de manera gratuita. A cambio, podemos entonces hablar de
miles y millones de usuarios sin limitación geográfica que
diariamente ofrecen sus hábitos de consumo y perfiles per-
sonales de manera gratuita al universo de internet. A partir
de aquí, es lógico pensar que las empresas puedan recrear
sus modelos de negocio al saber exactamente qué piensa
su cliente de sus productos o qué apreciación se tiene de su
marca. Más aún, dependiendo del grado de penetración de
la tecnología, se puede afinar con gran exactitud cuáles son

26
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

los hábitos de consumo de sus clientes, así como elaborar


una radiografía de los mismos a cualquier hora del día; esto
es la denominada categorización de perfiles, tremendamente
útil para elaborar acciones comerciales como el marketing
inbound. Visto con perspectiva y utilidad publicitaria, el big data
ofrecería un índice de impacto altísimo, casi sin margen de
error, dado que los productos ofrecidos podrían estar hechos
a medida. Bajo este abanico de posibilidades, es viable esta-
blecer patrones de consumo y predicciones que, en el ámbito
del negocio, busquen un fin concreto: tener contento al usua-
rio, ofreciendo, cada vez más, productos a medida.

2.2. Principales características del big data

Si analizamos toda la información que las empresas pue-


den obtener dentro del abanico llamado big data, encontramos
que se dan una serie de características comunes. Estas son las
denominadas volumen, variedad, veracidad y velocidad.
Son las principales características que definen el big data y es
así para cualquier industria o sector con el que lo estemos
relacionando. El volumen hace referencia a la gran cantidad
de datos disponibles o accesibles. Hay que tener en cuenta
que muchos de esos datos no serán útiles porque no tendrán
calidad o porque no forman parte de nuestra estrategia; con
todo, el volumen de información es enorme, continuo y
creciente. En esta línea, las diversas fuentes de información
de donde poder obtener datos dan paso a la siguiente carac-
terística, la variedad. Podemos obtener datos estructurados y
organizados o datos desestructurados, datos provenientes de
imágenes, texto, música, cifras, tablas de Excel, transacciones,

27
E-Books & Papers for Statisticians
© Editorial UOC Big data

etcétera. Esta variedad genera valor en el big data, pero tam-


bién complejidad a la hora de trabajar la información. Por
ello, la veracidad como característica, pero también la calidad
de los datos como propósito. Sumado a estas acciones, la
velocidad en la generación de datos es trepidante y afecta a
todos los eslabones en la toma de decisiones: son muchos los
datos que se generan por hora, minuto y segundo. Esta velo-
cidad hace que la toma de decisiones deba tomarse también
con cierta celeridad, de ahí la complejidad: mucha informa-
ción cambiante por su magnitud, sobre la que hay que tomar
una decisión.
Una vez que comprendemos la cantidad de datos dispo-
nibles a través de las nuevas tecnologías, así como el amplio
abanico de acciones para obtener dichos datos, el siguiente
paso es incorporar la capa de negocio. Es decir, identificar
cómo las empresas son capaces de analizar y extraer conclu-
siones de los datos con la idea de que puedan aplicarlos a su
entorno y realizar acciones como predecir comportamientos
de los clientes, identificar gustos por grupos de usuarios o
segmentación y su posterior aplicación de analítica de mar-
keting. El objetivo estratégico del esfuerzo de obtención de
datos consiste en un ejercicio de toma de decisiones, esto es,
la denominada inteligencia de negocio o más popularmente
denominada por su terminología inglesa: business intelli-
gence. Este ejercicio empresarial heredero de los sistemas de
toma de decisiones parte del big data para, conociendo cuantas
más posibilidades, identificar la mejor opción de negocio para
la empresa. Para ello se trabajan los datos y se realizan con-
sultas, lo que viene a ser cruces de datos con idea de obtener
no solo el mejor de los escenarios o decisiones, sino también
estrategias o predicciones.

28
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Desde el punto de vista empresarial, el proceso de traba-


jar con big data y business intelligence comenzaría por identificar
una problemática de negocio. A partir de aquí se identifi-
carían las fuentes desde las que se quieren obtener datos,
siempre con un objetivo que permita poder aplicar business
intelligence, analítica de marketing o estrategia de negocio. En
orden cronológico, el proceso se representaría de la siguien-
te manera.

Figura 1. Flujo de procesos en un entorno big data

En los siguientes capítulos, vamos a explicar los distintos


procesos que organizan un negocio o empresa que gestione
datos masivos.

2.3. Elección de fuentes y proceso ETL

Como acabamos de sugerir, son muchos los datos que se


pueden obtener tanto del entorno empresarial como del par-

29
E-Books & Papers for Statisticians
© Editorial UOC Big data

ticular. Con idea de poner un poco de orden a la información


lograda, las empresas que incorporan esta gestión masiva de
datos trabajan siguiendo un proceso ciertamente estandariza-
do, el denominado ETL, siglas en inglés de los procesos de
extract, transform and load que, en castellano, se conocen como
extracción, transformación y carga. Este proceso forma parte
del objetivo final de la gestión de los datos, que es aplicar busi-
ness intelligence a la información analizada.

Figura 2. Proceso técnico de extracción de datos, transformación y carga.

Vayamos en orden: la primera tarea denominada de


extracción va a hacer referencia a la recopilación de datos
procedentes de diferentes orígenes. Hemos comentado ante-
riormente que los datos pueden ser generados por individuos,
por empresas, por máquinas, etc. Es decir, el tipo de datos o
sus fuentes de procedencia son diversos. Por ejemplo: pueden

30
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

ser datos externos de redes sociales, repositorios (almacenes)


operacionales, información procedente del seguimiento de
las cookies o internos de los propios informes de la empresa.
Pueden ser datos organizados según algún estándar o no.
Esto se conoce como datos estructurados, semiestructurados
o no estructurados. Los datos estructurados están organiza-
dos en un esquema lógico, permitiendo la aplicación de algo-
ritmos para automatizar el proceso; estos son, por ejemplo,
las bases de datos. En el caso contrario, las fuentes de datos
no estructuradas no siguen ningún orden lógico; son docu-
mentos Word, transacciones, el CRM8 o presupuestos.
Siguiendo una catalogación bastante genérica, vamos a
distinguir cinco tipos diferentes de fuentes:9

• Web y medios sociales: datos generados en entorno web y


redes sociales. Son básicamente producidos por las perso-
nas usuarias de internet.
• Machine to machine (M2M): dispositivos o sensores que cap-
tan información y la retransmiten a otras aplicaciones a
través de redes; es el denominado «internet de la cosas».
Una acción de este tipo serían los indoor location system,10
las alarmas de las prendas de ropa, los wearables11 o los
beacons.12

8  Modelo de gestión de clientes, del inglés customer relationship management.


9 Disponible en http://www.dataversity.net/not-your-type-big-data-match-
maker-on-five-data-types-you-need-to-explore-today/ [Fecha de consulta: 10 de
octubre de 2015].
10  Sistema tecnológico de posicionamiento en interiores.
11  Dispositivo tecnológico que pueden llevar las personas, ya sea sobre el cuerpo
o sobre la ropa, etc.
12  Pequeño dispositivo que emite señales en un corto espacio físico vía bluetooth.

31
E-Books & Papers for Statisticians
© Editorial UOC Big data

• Transacciones: operaciones bancarias, registros telefóni-


cos, etc. Son los intercambios de información.
• Datos biométricos: referentes a las propias personas y ge-
nerados por sus propios cuerpos, por lo que son persona-
les e intransferibles. Huellas dactilares, escáner de retina,
etc. El empleo de estas biométricas se asocia con temas de
privacidad, seguridad e inteligencia. Pero también comien-
zan a generarse acciones con social media y comercio, como
veremos más adelante.
• Datos generados por las personas en el empleo de las nue-
vas tecnologías. Esta información es confidencial o priva-
da en la mayoría de los casos; esto supone que, previo a
su manejo, deben de ser convertidos en datos anónimos:
informes médicos, correos electrónicos, grabaciones de
conversaciones o fotografías. Pero también, parte de ella
puede tener un acceso público como son los open data, en-
cuestas, valoraciones o recomendaciones.

Como vemos, son muchas las fuentes de las que provie-


nen los datos. El objetivo en la fase de extracción consiste en
unificar toda esta información en un formato óptimo para
que, posteriormente, sea transformada. Es decir, se busca la
integridad de los datos tratando de que, a la hora de trabajar
con ellos, se cause el menor de los impactos.
Una vez extraídos los datos, daría comienzo la fase
de transformación. Esto se realiza según necesidades de
negocio y vendría marcado por la estrategia que se quiera
aplicar, los objetivos de la compañía, etc. Dentro de este
proceso de transformación se detectan y corrigen incon-
sistencias mediante algoritmos avanzados de limpieza de
datos. Este proceso de trabajo se refiere a la naturaleza

32
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

intrínseca del big data, recordando las principales caracte-


rísticas asociadas: su variedad, velocidad, veracidad y, sobre
todo, su volumen. Es lógico pensar que esa gran cantidad
de información incluye una serie de datos erróneos que
deben ser identificados y, posteriormente, corregidos o
eliminados con idea de poder pasar a la etapa de carga de
información. Básicamente, los errores que nos podemos
encontrar son:

• Errores sintácticos: hacen referencia a información que,


escrita de diferente manera, puede ser igualmente válida.
El ejemplo habitual de este tipo de errores es el caso de las
fechas a la hora de rellenar información en la web. Para una
persona, es la misma información 7/7/2015 que 7 de julio
de 2015, pero para una máquina puede no ser lo mismo.
• Errores semánticos: se producen dentro del contenido
de los datos. Un ejemplo típico lo encontramos en las
redes sociales. Así, en el caso de los hashtag, es intere-
sante pensar que muchas veces los espectadores sociales
escriben mal el nombre de un programa o generan su
propio hashtag sin saber que hay uno oficial por parte
de la cadena de televisión. Para evitar perder una gran
cantidad interesante de datos al acotar la búsqueda úni-
camente a una palabra concreta, se estableció como
medida que los programas de televisión susceptibles de
generar audiencia optaran por dejar impreso en pantalla
el hashtag.
• Errores por información incompleta: campos de informa-
ción vacíos. Esto es habitual en formularios en línea con
muchos campos; así pues, es normal que se dejen pregun-
tas sin responder. Eso sería un ejemplo de campo vacío.

33
E-Books & Papers for Statisticians
© Editorial UOC Big data

La presencia de errores, sean del tipo que sean, producen


fallos en la estrategia empresarial marcada y, al final, se tra-
duce en unos mayores costos, de ahí la necesidad de sistemas
de calidad de los datos. Estos son sistemas que trabajan de
manera automatizada, y hay que tener en cuenta que muchos
de los errores son humanos, por lo que puede surgir el con-
flicto.
Para asegurar la calidad de los datos, los expertos indican
que supone cumplir una serie de características: completitud,
conformidad, consistencia, exactitud, duplicación e integri-
dad. A su vez, estos sistemas de calidad de los datos suelen
coincidir en los mismos procesos: perfilado de datos, estanda-
rización, correspondencia, consolidación y limpieza.
Por último, tendríamos un proceso de carga de datos.
Aquí intervienen aspectos como valoraciones de a dónde van
destinados los datos o el nivel de detalle de la información.
Esta gestión se enmarca dentro de la arquitectura de datos y
va a definir aspectos como el modelo de integración de datos
o dónde van a almacenarse. Las opciones habituales de carga
suelen ser dos: por un lado, un gran repositorio de datos
denominado genéricamente data warehouse o, como alternativa,
el almacenaje en la nube; esto, por ejemplo, puede ser el ser-
vicio Sapphire ofrecido por Microsoft que, como ellos mis-
mos lo denominan, es «the site». Como ya hemos insistido,
todas las fases tienen como objetivo una decisión de negocio,
por lo que la selección de datos debe cumplir esos mismos
propósitos. Visualmente, el proceso de identificación de las
fuentes de datos y su posterior ETL quedaría completado de
la siguiente manera:

34
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Figura 3. Flujo de procesos en un entorno big data

2.4. Perfiles profesionales del big data

Hemos comentado anteriormente que hay sectores


más proclives a trabajar con nuevas tecnologías, dado que
rápidamente entienden las posibilidades que les ofrecen.
Paulatinamente, industrias más alejadas de entornos TIC
comienzan a incorporar lógicas de negocio que parten del big
data para, posteriormente, incluir decisiones de negocio o aná-
lisis. Esto supone que comienza a denotarse una gran deman-
da de perfiles profesionales que sepan trabajar con datos, pero
lo cierto es que apenas hay recursos humanos formados en
estas nuevas tecnologías, lo que supone una brecha a la hora
de inculcar determinadas nuevas tecnologías o procesos. Esto
es, por lo tanto, una oportunidad laboral interesante.
Pasamos, a continuación, a resaltar los principales perfiles
profesionales que van a gestionar áreas laborales vinculadas a
los datos, así como sus principales funciones. Desde la parte

35
E-Books & Papers for Statisticians
© Editorial UOC Big data

más técnica, identificamos el arquitecto de datos (data


architect) con unas competencias profesionales más centradas
en las acciones relativas al proceso de almacenaje (data ware-
housing), extracción y movimiento de datos para su almacenaje
en bases de datos. La responsabilidad de este perfil es grande,
dado que su gestión relaciona datos, procesos y personas. El
objetivo sería la integridad de los datos. La arquitectura de
datos se relaciona con las siguientes áreas de acción sobre
los datos: data governance, data structure, master data management,
metadata, data quality y data security. Todas estas áreas y perfiles
son novedosas, y son las propias consultorías y empresas de
reclutamiento de personal las que, poco a poco, van definien-
do sus competencias profesionales. La consultora Accenture
concreta que «la arquitectura de datos describe los procesos,
sistemas y organización humana necesarios para almacenar,
acceder, mover y organizar los datos».13 Generalmente, este
perfil tiene una formación previa en ingeniería de telecomu-
nicaciones, informático o sistemas.
Otro de los perfiles clave a la hora de gestionar los datos
es el científico de datos (data scientist), una propuesta
multidisciplinar que engloba conocimientos de computa-
ción, matemáticas y estadística. Su función es decir cómo
se van a hacer las cosas a través de la creación de modelos
estadístico-matemáticos, por ejemplo, en el aprendizaje
automático que, posteriormente, veremos con más detalle.
Nuevamente, son las empresas que demandan estos perfiles
las que están definiendo sus particularidades; así pues, para

13  Accenture. «Gestión de datos y arquitectura» [en línea]. [Fecha de consulta:


15 de diciembre de 2015]. <www.accenture.com/es-es/service-technology-data-
management-architecture-summary.aspx>

36
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

IBM,14 la empresa de tecnología y consultoría, este rol tiene


o debería tener una formación multidisciplinar que englo-
baría ciencias de la computación, matemáticas, estadística,
modelado y analítica. Además, se le adjudica cierta visión
de negocio, capacidad resolutiva para identificar y resolver,
así como habilidades comunicativas que permitan liderar
proyectos tecnológicos.
Posiblemente, uno de los perfiles más definidos o cono-
cidos, dada su trayectoria previa al big data, puedan ser los
analistas de datos (data analyts). Este perfil realiza fun-
ciones de consultas y reporting, empleando para ello herra-
mientas analíticas, y maneja lenguajes de consultas y análisis
estadístico con el que obtener métricas aplicadas al negocio.
Básicamente, sabe extraer conclusiones de los datos a partir
de herramientas de alto nivel. La formación académica del
analista de datos es diversa, desde una ingeniería superior,
investigación de mercados, sociología, formación empresa-
rial o ciencias de la información. Las habilidades analíticas
se obtienen, en muchas ocasiones, a través de formación
específica en ámbitos como herramientas de programación,
estadística o matemáticas. Esto permite conocer herramientas
y lenguajes específicos como Java, Hadoop, SQL, bases de
datos o incluso herramientas de business intelligence y visualiza-
ción como Cliqview, Tableau o MicroStrategy. Indicábamos
antes que este rol profesional tenía cierta trayectoria previa
dado que la labor analista es aplicable a todos los sectores
industriales. Ahora, en la etapa del big data y del business intel-
ligence, lo que cambia no es solo la cantidad de datos a la que

14  IBM. «What is a data scientist?» [en línea]. [Fecha de consulta: 10 de marzo de
2016]. <www-01.ibm.com/software/data/infosphere/data-scientist/>

37
E-Books & Papers for Statisticians
© Editorial UOC Big data

tenemos acceso, sino también las nuevas habilidades y meto-


dologías que se generan. Por ello, consultoras en TIC y big
data como Beeva15 establecen que el analista de datos debería
ser capaz de establecer el producto mínimo viable (PMV),
modelización de resultados o capacidad de investigación y
conocimiento del negocio.
Además, desde la perspectiva empresarial, las posiciones
directivas estratégicas con conocimientos de tecnologías de
big data y business intelligence se vuelven claves en entornos de
toma de decisiones; son los estrategas de datos (data strat-
egist). Entre sus funciones, destaca la toma de decisiones
para optimizar negocios digitales a través de los datos y del
análisis, gestión de cuadros de mandos y métricas, además de
reporting, análisis de datos y visualización, entre otros. Se espe-
ra de este perfil profesional que tenga un sólido conocimiento
técnico que pueda combinar con la gestión del negocio. Es
decir, volvemos a tener descrito un perfil altamente multidis-
ciplinar, flexible y adaptado a la peculiaridad de la empresa
que lo necesita porque es importante recordarlo– una gran
carga de su trabajo está relacionada fuertemente con el sector
al que pertenece la empresa.
En el mercado laboral se ofertan posiciones para otros
tantos perfiles relacionados con los datos, pero, quizás para
una primera aproximación que comprende áreas de negocio,
estos sean los más recurrentes. A modo de visualizar compe-
tencias, podemos considerar la siguiente imagen:

15  BEEVA. «El rol del analista de negocio» [en línea]. [Fecha de consulta: 10
de marzo de 2016]. <https://www.beeva.com/beeva-view/estrategia-negocio/
el-rol-del-analista-de-negocio/>

38
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Figura 4. Perfiles profesionales en un entorno de trabajo big data

Junto con estos perfiles y competencias, el negocio de


trabajar con el big data en las diferentes industrias ha pro-
piciado, pues, la aparición de nuevos puestos profesionales
desconocidos hasta hace apenas unos años, pero también ha
reforzado la presencia de roles técnicos como desarrolladores
y programadores. Perfiles que, al tratarse de aspectos técnicos
y no tanto de negocios, no son ubicados en esta síntesis.
La consultora Gartner, a través de su estudio Predicts 2016:
Information Stratey, y de manera pública en su newsroom,16 esti-
mó que para el año 2019 el 90 % de las grandes empresas
incluirá a un chief data officer (CDO) en sus plantillas. Esto

16  La consultora Gartner ofrece a sus clientes Predicts 2016: Information Stratey.
Además, en el newsroom <http://www.gartner.com/newsroom/id/3190117> puede
consultarse un extracto relativo al rol de CDO. Se recomienda, igualmente, la lectura
de «First 100 days of a Chief Data Officer» (Primeros 100 días de un CDO) dis-
ponible en línea. [Fecha de consulta: 10 de marzo de 2016]. <http://www.gartner.
com/smarterwithgartner/first-100-days-of-a-chief-data-officer/?cm_mmc=social-
_-rm-_-gart-_-swg>

39
E-Books & Papers for Statisticians
© Editorial UOC Big data

supone una consolidación importante del potencial valor que


tienen los datos en las organizaciones que incluyen negocios
digitales. Entre otras, la consultora define que este rol debería
asumir retos como las siguientes premisas:17

a) Crear estrategias de gestión de la información basadas en el


propio negocio que identifiquen el valor como disciplina.
b) Construir relaciones de confianza con los diferentes roles
directivos de la empresa, especialmente el chief information
officer (CIO).
c) Formar líderes y compañeros en el papel que juegan los
datos y la información en el éxito final del negocio.
d) Establecer líneas de gestión de la información y datos de
monetización a partir de métricas establecidas en el nego-
cio.
e) Identificar y cuantificar métricas de información e indica-
dores de rendimiento que permitan demostrar el éxito del
negocio.
f) Adoptar los recursos de información formal y cuantifica-
ble para poder compartirlos con la empresa.

Fruto de esta nueva presencia de puestos profesionales y


reclutamiento, comienza a verse una interesante apuesta de
programas formativos en temas de analítica, gestión de datos
(en todas sus posibilidades), business intelligence o visualización
de datos. Propuestas de formación y reciclaje de perfiles
profesionales tanto en áreas técnicas como estratégicas y de
gestión.

17  Traducción de la autora.

40
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

3. Usos del big data en los medios


de comunicación

3.1. Social big data

La efectividad del big data cobra fuerza a través de la


participación de los usuarios en las redes sociales digitales,
especialmente en industrias como la audiovisual al contar con
públicos con alta predisposición a opinar y recomendar. Esta
tendencia es la denominada social big data y se ha convertido
en una fuente de información excelente para los productores
y creadores de contenidos.
Si establecemos una línea temporal del proceso de trabajo
de un proyecto audiovisual, podemos deducir que usar estra-
tegias big data en cada una de sus partes se convierte en una
ventaja para el negocio. Según propone Neira,18 ya en una fase
tan temprana como la de desarrollo, los datos de visionado
y la monitorización de la actividad en redes sociales pueden
establecer próximas líneas narrativas o predisposición por
ciertos temas o actores. En la fase de preproducción, produc-
ción y postproducción, la interacción con el público a través
de las redes y su posterior análisis puede permitir reforzar
vínculos con el target correcto, además de generar engagement.
Quizás, la etapa de distribución comercial del producto y sus
estrategias de marketing y promoción sean las más visibles
de todo el proceso. Son las ocasiones en las que el público
puede participar de ese entramado de acciones comunicativas
generadoras de datos, social big data. En los últimos años, el

18  Neira, Elena (2015). La otra pantalla. Redes sociales, móviles y la nueva televisión.
Barcelona: Editorial UOC.

41
E-Books & Papers for Statisticians
© Editorial UOC Big data

sector audiovisual encuentra en los proyectos transmedia un


camino para desarrollar narrativas que cruzan diversas pla-
taformas y medios. El propio Jenkins, creador del término
transmedia, entiende estos proyectos (Jenkins, 2008) desde la
convergencia y la cooperación entre industrias mediáticas que
incorporan una audiencia cambiante y exploradora. Una cul-
tura participativa donde el espectador puede producir y ree-
laborar contenidos, dando lugar al concepto de prosumer. Esta
tendencia, tan familiar en los hábitos de los actuales consu-
midores de contenidos en la red, conecta con el social big data
en el sentido de que hace posible ordenar toda esa cantidad
de acciones que puede acometer el prosumer, convirtiéndolas
a su vez en acciones de marketing y estrategias de negocio.
Según comenta Linares,19 estas estrategias de marketing pro-
cedentes de los datos permiten generar una comunidad fiel,
adaptar contenidos según el medio o el dispositivo y lograr
diferentes niveles de implicación según el tipo de consumidor
de contenido digital.

3.2. La audiencia: targets y usuarios

El uso del big data en el sector audiovisual español es muy


reciente y se propaga tímidamente sobre sus industrias en
mayor o menor medida. En el caso de la televisión, la gestión
de los datos la convierte en una industria llena de posibilida-
des, aunque a fecha de hoy las iniciativas son muy escasas.
Para entender el peso y la presencia de modelos de negocio

19  Linares, Rafael (2015). «Marketing en el cine». En: J. Herbera; R. Linares; E.


Neira. Marketing cinematográfico. Barcelona: Editorial UOC.

42
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

tradicionales, es interesante echar la vista atrás y analizar


desde el punto de vista de la investigación de la audiencia. Así,
la industria televisiva encontró en los audímetros, durante
muchos años, un gran aliado. Un audímetro es una herra-
mienta similar a un mando a distancia20 en el que cada botón
se identifica con un televidente, el cual debe indicar qué y
cuándo ve la televisión. Actualmente, el parqué de audímetros
es de 4.625, representativos del universo de estudio y repar-
tidos aleatoriamente. Previamente, se realizaron otras accio-
nes como las encuestas telefónicas del Estudio General de
Medios (EGM), o las entrevistas sobre el recuerdo de la vís-
pera. En general, estas acciones dependen considerablemente
de la opinión y actuación de la audiencia, siendo cuestionada
en numerosas ocasiones. Más allá de la dudosa rigurosidad
en el procedimiento, la investigación de mercados basada
en audímetros plantea un problema de base. Ciertamente,
desde el punto de vista cuantitativo, es posible saber cuántos
espectadores han apretado un botón que les identifica como
audiencia de un determinado programa y canal. Desde el
punto de vista cualitativo, esta información es plana, no hay
opiniones, feedback o sentimiento.
La empresa internacional Kantar Media analiza y monito-
riza, en España, la televisión, la radio e internet a través de
los mencionados audímetros, además del análisis estadístico
basado en la muestra representativa. Son conscientes de la
evolución del consumo televisivo que ellos mismos concretan
en su web:

20  Medición de televisión y vídeo en plataformas y dispositivos [Fecha de consul-


ta: 15 de diciembre de 2015] <http://www.kantarmedia1.es/sections/product/
panel-audiencia>

43
E-Books & Papers for Statisticians
© Editorial UOC Big data

• El consumo de televisión en directo


• La grabación y posterior reproducción
• La televisión a la carta
• El uso de aplicaciones interactivas
• La navegación por las guías electrónicas de programa-
ción

A partir de aquí, se muestra necesaria la aparición de nue-


vas tecnologías que sepan integrarse en las diferentes moda-
lidades de consumo. En el caso de la citada empresa Kantar
Media, la medición de audiencias por audímetro se realiza
mediante el audio, dado que es una información estandari-
zada para los diferentes países. De esta manera, las huellas
digitales del sonido de los diferentes contenidos televisivos
emitidos se comparan21 con los ya almacenados y que proce-
den de los diferentes canales de televisión. Con este proceso
se logra identificar el consumo de televisión convencional.
Pero, más aún, actualmente también es fundamental
comprender y contabilizar el consumo de contenidos digi-
tales en otras plataformas distintas a la ventana del televisor.
Hablamos de dispositivos como los smartphones, las tabletas
o los ordenadores. Para ello, la recogida de datos se realiza
desde un software instalado que simula estéticamente el uso
del mando a distancia de los audímetros, de manera que la
operativa es similar a la del manejo del audímetro tradicional.
Con idea de cubrir la oferta televisiva existente, la recogida
de datos también comprende actuales tendencias de consumo
como el video on demand (VOD) o las grabaciones de conteni-

21  Kantar Media. Medición de audiencias. [Fecha de consulta: 15 de diciembre de


2015]. <http://www.kantarmedia1.es/sections/audiences>

44
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

dos en discos duros. Este último, usualmente, es un producto


que ofrece un consumo prolongado en el tiempo, por ello hay
contenidos que pueden permanecer almacenados en un disco
duro desde un mes a un año, para luego desaparecer. En el
caso de la empresa de análisis que explicamos, Kantar Media,
ofrece un seguimiento de los datos de hasta veintiocho días
después de su emisión en VOD o descarga en disco duro.
Además, también cubrirían los consumos de canales temáti-
cos a través de un registro de visionado. Si bien es cierto que
no queda claro la aplicación de esta información, o el grado
de conversión de registros en datos medibles y analizados. En
general, podemos considerar que el ejercicio hecho hasta la
fecha es básicamente cuantificable.
La huella digital de los usuarios en internet es medida por
la empresa comScore, la cual ofrece amplios datos cuantita-
tivos, además de perfiles sociodemográficos o datos sobre
visitas cruzadas. Es interesante para los planificadores de
medios, principalmente, en su tarea de decidir en qué soporte
programar publicidad. La industria audiovisual encuentra en
la herramienta Video Metrix un aliado de cara a conocer unos
datos más fiables e integrales de la industria del vídeo.22 Por
ejemplo, según informa comScore,23 su socio YouTube obtie-
ne información cuantitativa: espectadores únicos, caracterís-
ticas sociodemográficas y determinadas actitudes respecto de
los canales de YouTube.

22 Análisis de audiencia. Video Metrix. [Fecha de consulta: 15 de octubre de


2015]. <http://www.comscore.com/esl/Productos/Audience-Analytics/Video-
Metrix>
23  Información y métricas extraídas de <http://www.kantarmedia1.es/noticias/
view/117>

45
E-Books & Papers for Statisticians
© Editorial UOC Big data

En 2012, como fruto del uso cotidiano de internet, en


España comenzó a valorarse una nueva métrica: el share24 social
como contrapunto al share televisivo. Esta nueva medida estaba
referida a aquellas métricas que consideraban otras formas de
relacionarse con la industria televisiva, principalmente a través
de las redes sociales. La empresa Global In Media se centró en
reputación en línea, identidad digital y dinamización de comu-
nidades. Por otro lado, la empresa Tuitele se centró en estudiar
la audiencia social de la televisión, monitorizando en tiempo
real la información presente en la red Twitter. Posteriormente,
se dio un paso más en el análisis del share social a través del
panel Tuitele Analytics con métricas y análisis con criterios de
calidad destinados a las empresas que necesitaban conocer el
valor cualitativo de la audiencia. Dos años después, en 2014,
Kantar Media compró Data Republic, empresa propietaria de
la plataforma de monitorización Tuitele, además de anunciar
un acuerdo global con Twitter. Esta alianza empresarial, desde
el punto de vista del big data, deja constancia del valor del share
social para las marcas pero también para los productores de
contenidos.
Kantar Twitter TV Ratings se establece, por tanto, como
el primer servicio oficial de medición de Twitter a través de la
herramienta Instar Social. La solución ofrece métricas como:

• Los autores únicos: número de individuos únicos que tui-


tean sobre programas de televisión.
• Audiencia única: cuánta gente ha leído los tuits.

24  Porcentaje de audiencia. Dato estadístico que identifica el número de especta-


dores de un programa contrastado con la cifra de población que tiene un televisor
encendido que sintoniza dicho programa.

46
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

• Impresiones: número de veces que un tuit ha sido servido


y, por lo tanto, ha sido visto.
• Tuits y retuits, antes, durante y después de la emisión del
contenido.
• Media de tuits por minuto.

La gestión de datos procedentes de la medición de audiencia


va encaminada a comprender sus posibilidades respecto de los
diferentes medios y dispositivos en los que se generen, esto es,
la audiencia crossmedia. Así, un año después del anuncio de
colaboración estratégica entre Kantar Media y comScore, las
empresas han manifestado públicamente su interés de comenzar
en España, como país pionero, su nuevo modelo de medición
denominado Cross Media Audience Meassurement25 que cruza
datos procedentes de diferentes entornos, esto es, la denomina-
da extended TV (consumo de contenidos audiovisuales más allá
del televisor), el total video (contenidos televisivos y vídeo nativos
digitales) y total view (incluyendo toda la navegación por internet).
El valor y la cantidad de información que podemos obtener
a través de la interactuación de los espectadores con las redes
sociales hacen conscientes a las cadenas de televisión y a los
creadores de contenidos de la necesidad de facilitar esa vía de
comunicación. Por ello, resulta habitual el visionado de progra-
mas con el hashtag impreso en la pantalla, a modo de mosca.
Con este acto están reclamando la participación de un target
concreto a través de redes sociales, especialmente se potencia el

25  Extended TV y total video. La nueva medición crossmedia. Participación de comScore


en el Seminario AEDEMO 2016. [Consulta: 1 de marzo de 2016]. Información
disponible en: http://www.kantarmedia.com/uk/our-solutions/audience-measu-
rement/cross-media/cross-media-audience-measurement-cmam-.

47
E-Books & Papers for Statisticians
© Editorial UOC Big data

canal de Twitter gracias a la dinámica de su timeline. El objetivo


es conectar con el denominado público social y que, a través de
la segunda pantalla, interactúe. A partir de aquí, lo que el canal
o productora haga con ese feedback dependerá de la visión de
negocio que tenga la empresa. Para ello, en los próximos capí-
tulos vamos a comprender, con un poco más de precisión, qué
tipo de datos o información pueden demandar las empresas
en función de las posteriores necesidades de negocio. Con este
objetivo, vamos a entender las diferentes etapas técnicas y de
negocio que cubre una acción con big data y business intelligence.

3.3. Canales y estrategias de obtención de datos

Identificada la problemática empresarial y el objetivo


estratégico de todo negocio, la elección de herramientas y
fuentes de las que obtener datos es fundamental. Desde las
posibilidades que ofrece la red, sumadas a las acciones de
marketing y promoción, identificamos que los productos
audiovisuales pueden generar estrategias de obtención de
datos a través de los diversos canales de comunicación. Entre
ellos, destacamos como principales:

• Página web o site de la empresa, producto o contenido es-


pecífico
• Redes sociales
• Aplicaciones

Como marca o empresa, el hecho de tener una presen-


cia en la red se ha convertido en algo tan importante como
tener presencia física. La web permite no ya solo mantener

48
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

actualizada la información que se quiere generar, tanto desde


el punto de vista corporativo como de contenido, sino lograr
un feedback con el espectador audiovisual. Y esta es, precisa-
mente, la mejor manera de proceder a la generación de datos
que, de otra manera, sería imposible. Desde hace unos años,
en el propio desarrollo del site (web) se impone el criterio de
responsive web design, término que hace referencia a la capacidad
de la página web de tener un diseño adaptable a cualquier
dispositivo. Esto supone que cualquier usuario pueda acceder
a la información independientemente del dispositivo desde el
cual se conecte. De hecho, tal es su importancia que, en abril
de 2015, la compañía Google lanzó un comunicado desde
su blog26 en el que manifestaba su intención de penalizar a
aquellas webs que no fueran responsive; esto se podía traducir
en una pérdida de posicionamiento en el famoso buscador,
disminuyendo, por lo tanto, la tasa de tráfico orgánico.
De cara a tener una foto global del acceso de los usuarios
a las plataformas de consumo en línea y comprender así la
generación de datos, vamos a identificar acciones claves que
realizan tanto las empresas como los usuarios. Como hemos
mencionado, las empresas tienden a ofrecer sus contenidos
digitales a través de la web site, consumible tanto desde el
ordenador como desde el móvil, a través de un diseño dirigi-
do al dispositivo móvil y a través de la aplicación. Cada uno
de estos accesos a los contenidos puede sugerir una tipología
de un usuario más o menos dispuesto a interactuar y facilitar

26 «Finding more mobile friendly search results» (Encuentra resultados de


búsqueda por móvil de manera más amigable). [Consulta: 4 de enero de 2016].
<http://googlewebmastercentral.blogspot.com.es/2015/02/finding-more-mobi-
le-friendly-search.html>

49
E-Books & Papers for Statisticians
© Editorial UOC Big data

datos y opiniones. Quizás el caso más efectivo sería la propia


aplicación dado que solo el hecho de proceder a descargarla
supone una acción proactiva por parte del usuario/especta-
dor. Con respecto a la web, es ya habitual la política de cookies,
por la cual el usuario de una web acepta que la empresa pueda
conocer sus hábitos de navegación pudiendo así crear perfiles
de usuarios que, si bien son anónimos, sí que ofrecen datos de
actividad suficientemente interesante como para plantearse
estrategias. Por ejemplo, en el caso de la analítica de marke-
ting, una aplicación habitual del uso de los datos procedentes
de las cookies es el real time bidding (RTB), una tendencia que
logra su auge precisamente gracias a la gestión de los datos
masivos y que consiste en ubicar publicidad en la web en
tiempo real (frente a la compra prefijada de espacios); de esta
manera, el conocimiento de perfiles permite ofrecer anuncios
a usuarios y soportes concretos. Empresas como Google,
Facebook o Amazon ya disponen de sus propias plataformas
de RTB. Son nuevos modelos englobados en la gestión de
datos masivos, concretamente en el data driven marketing, los
que permiten gestionar también nuevas maneras de lograr
retornos (usualmente conocido como return of investment,
ROI). Pongamos, por ejemplo, en el caso de que los precios
de fijar las tarifas publicitarias sea por pujas.
Otras empresas encuentran en la propia web su principal
fuente de datos. Este es el caso de la empresa de comunica-
ción Unidad Editorial y su cabecera Marca. En este periódi-
co, el descenso de consumo de periódicos en papel supuso
establecer una línea estratégica basada en el tráfico generado
en su web marca.com y su posterior línea de negocio videos.
marca.com. De esta manera, las redes sociales como fuente
de datos están integradas en el propio site por cada noticia que

50
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

se comparte. Con todo, marca.com, desde una perspectiva


analítica, puede lograr datos para su posterior gestión proce-
dentes del customer relationship management (CRM, herramienta
de negocio orientada al cliente), Orbyt (herramienta de sus-
cripción para consumo de contenidos propios de Unidad
Editorial), el propio call center o herramientas de análisis web
como Adobe Analytics.27
Las fuentes de datos de las que se va a obtener informa-
ción cualitativa son aquellas webs o redes sociales donde el
espectador puede ejercer algún tipo de actividad que aporte
información, no ya solo sus datos personales o perfiles, algo
que se entiende implícito, sino sus opiniones y valoraciones.
Esto es el ya mencionado espectador social, un consumidor
activo que demanda contenidos audiovisuales y que está
dispuesto a opinar, criticar, alabar, puntuar o, simplemente,
generar debate. Por ello, actualmente las acciones más idó-
neas para generar big data son las realizadas con perfiles en las
redes Twitter, Facebook, la propia web de la cadena o pro-
grama, aplicaciones, blogs y, en menor proporción, Pinterest
e Instagram, Telegram y WhatsApp, Snapchat o Periscope.
De todas las redes sociales indicadas, que en mayor o
menor medida permiten interactuación por parte del espec-
tador social, podemos considerar que hoy en día, gracias a la
velocidad del timeline y sus características intrínsecas, es Twitter
la principal ventana de participación del espectador social. La
inclusión de etiquetas que permite una posterior agrupación
de comentarios, así como las referencias a los programas con-
cretos mediante el uso de hashtags, que podemos identificar

27  Anteriormente conocido como Adobe Omniture.

51
E-Books & Papers for Statisticians
© Editorial UOC Big data

impresos en la misma pantalla del televisor, sumado a la refe-


rencia directa y llamada a la atención a cualquier otro usuario
de Twitter, han convertido a dicha red social en la segunda
pantalla por excelencia. De hecho, como ellos mismos con-
cluyen a través de un estudio propio,28 el uso de hashtags por
parte de las cadenas de televisión tiene también un propósito
que coincide con identificar a un share social joven proclive a
tuitear y, por lo tanto, un target con tendencia a consumir y usar
determinados productos tales como los mismos dispositivos
móviles que usa a la hora de interactuar socialmente.
Por otro lado, la red social Facebook permite una comu-
nicación diferente en el sentido de que las opiniones e impre-
siones quedan fijas y visibles en el timelime, no es efímera
y además permite la interactuación con otros usuarios o
consumidores del programa o cadena. En el caso de redes
sociales como Telegram o WhatsApp, el usuario debe aún ser
más proactivo, no ya solo opinar sino contactar a través de
un mensaje al número de teléfono que se le ha facilitado; a
partir de entonces ya forma parte de la base de datos. De otra
manera, los mensajes que se intercambian por estas redes son
privados sin posible acceso público.
Las aplicaciones que el usuario puede descargarse desem-
peñan un papel muy importante dado que, desde su origen,
son diseñadas para consumirse en determinados dispositivos
asociados a sistemas operativos, abriendo aquí una vía de
negocio. También hay que tener en cuenta el hecho de que
las productoras de contenidos audiovisuales, conscientes de
las posibilidades que la tecnología ofrece y con idea de tras-

28  Información facilitada por Alfonso Calatrava, jefe de Investigación de Twitter


España y colaborador de esta publicación.

52
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

pasar la pantalla de televisión, comienzan a generar conteni-


dos transmedia y crossmedia o acciones de gamificación que
suponen, en la mayoría de los casos, interactuar con sus pro-
pios datos. Según indica Neira,29 las aplicaciones de «segunda
pantalla» vinculadas a la cadena, contenidos o programas
concretos, permiten monitorizar la actividad en un entorno
controlado, convirtiéndose en una herramienta de big data.
Por ejemplo, el uso de dichas aplicaciones supone el registro
del usuario con la consiguiente entrega de datos personales.
O, también, el check-in dado que informa de que el espectador
social está viendo el programa y lo hace a través de la publi-
cación en todas las redes sociales asociadas. En este caso, el
usuario de la aplicación está contribuyendo al big data con sus
hábitos de consumo y comportamiento.

3.4. Dispositivos que interactúan


con los espectadores

Siguiendo con el ejemplo de la audiencia y la televisión,


en el caso de que un espectador quiera convertirse en social,
vamos a identificar los diferentes dispositivos a través de
los cuales puede consumir y manifestarse a propósito de un
contenido. Básicamente, nos vamos a referir a los dispositi-
vos que, por su usabilidad y movilidad, son aptos para poder
interactuar con ellos a la par que se consume televisión con-
vencional, esto en el caso de pretender extraer datos en línea
de manera simultánea a la emisión. Los dispositivos más útiles

29 Neira, op. cit.

53
E-Books & Papers for Statisticians
© Editorial UOC Big data

para lograr la interactuación de los espectadores con los crea-


dores de contenidos son:

• Ordenadores portátiles
• Tabletas
• Teléfonos inteligentes

Para un consumo desde el ordenador como dispositivo,


el propio sector audiovisual realiza acciones que generan
datos susceptibles de ser recogidos, almacenados y anali-
zados fuera del horario de emisión. Esta información pro-
viene de los blogs, páginas webs o encuestas. Son registros
que se sumarían a la proveniente de los audímetros. Pero
la dinámica de la audiencia social o la participación en
acciones de marketing audiovisual implica en ocasiones la
movilidad del espectador, la inmediatez en sus opiniones
o la capacidad de fotografiar lo que está viendo. En estos
casos, la necesidad de la inmediatez se traduce en el uso de
dispositivos que se desplacen con el espectador, esto es, la
tableta o el smartphone. Con respecto a la generación de big
data, estos dispositivos cumplen una función muy importan-
te, dado que casi para poder usar la totalidad de las marcas
que se comercializan es necesario vincularlo a una cuenta de
correo electrónico, por lo tanto a un perfil de usuario. Esto,
sumado a la información que el propio usuario quiera mani-
festar a través del canal elegido para ser social: la aplicación
del programa televisivo, el site de la productora o su propio
perfil en redes sociales.
En general, la aparición de redes sociales de fácil manejo
para los usuarios y, además, la utilidad y la motivación por
compartir información, han hecho el resto. En el sector

54
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

audiovisual actual, podemos encontrarnos principalmente


con empresas privadas que quieren generar más beneficios a
través del uso de estas nuevas herramientas tecnológicas; son
los principales grupos mediáticos como Mediaset, Atresmedia
o Movistar+, empresas que esperan un ROI medible de sus
inversiones en acciones digitales en redes sociales o en áreas
del big data. Pero también es interesante entender el posi-
cionamiento de empresas públicas como RTVE que, lejos
de buscar un retorno económico de sus acciones, tratan de
mejorar como empresa ofreciendo unos contenidos más ade-
cuados a su audiencia, entendiendo que el conocimiento de
su audiencia es una oportunidad de mejora.
Sea cual sea el objetivo que se haya planteado la empresa
con respecto al ROI: social, económico o, incluso, ecológico,
es fundamental contar con el apoyo del big data, dado que nos
va a ofrecer nuevas pistas y lógicas para interactuar con las
nuevas tecnologías.
Por ello, en el caso de la industria audiovisual, la preten-
sión es lograr un mayor número de audiencia y espectadores
sociales, dado que esta es una buena manera de lograr datos
sobre usuarios, perfiles u opiniones. Y así, esta audiencia
será susceptible de ser integrada en el proceso denominado
big data, porque así estaré definido en la estrategia de nego-
cio.

55
E-Books & Papers for Statisticians
© Editorial UOC Big data

4. Trabajando con los datos

4.1. Analítica web

Una vez identificados los diferentes canales o dispositivos


por los que el espectador se comunica con la cadena, produc-
tora o creadores de contenidos, comprendemos las variadas
acciones que puede acometer. Y también que, por cada una de
estas acciones, se genera información que queda plasmada en
una gran cantidad de datos que tienen que organizarse y alma-
cenarse para poder trabajar posteriormente con ellos, lo que
ya identificamos como el uso del big data. Como esta informa-
ción es muy dispar y con muchas características, se procede
a organizarla muchas veces a través del uso de palabras clave
o etiquetas. De hecho, ya vimos que los mismos usuarios de
Twitter etiquetan sus opiniones con el uso de los hashtags.
Esta simple acción es tremendamente útil para clasificar la
información, pero cuando hablamos de big data hablamos de
cantidades tan ingentes de datos que muchos de los cuales no
son útiles. Esto, técnicamente –ya lo comentamos también–,
puede ser debido a que algunos datos no tienen valor o estén
correlacionados, son erróneos, incompletos o duplicados. En
general, podemos decir que son datos no válidos. Pero ahora,
situándonos en el entorno empresarial y no técnico, desde la
toma de decisiones del negocio que ha decidido obtener los
datos, también puede ser información no útil. Dicho de otra
manera: no aporta nada a la operativa empresarial. Esto se
debe a que la toma de datos debe responder a una necesidad
de negocio con la idea de tomar decisiones a partir de ellos.
Por lo tanto, es interesante reducir la dimensión de los datos
con la idea de que tengamos una menor cantidad de infor-

56
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

mación, esto es, entendido como menos atributos. Desde el


punto de vista técnico, esta gestión la desarrolla la ingeniería
de características. Así, por ejemplo, uno de los objetivos de
este trabajo previo con los datos sería la denominada nor-
malización, para evitar la redundancia (repetición de infor-
mación) en los datos y así poder identificar y evaluar cuáles
son importantes y cuáles no. Esta será la información que
será analizada y sobre la que se tomarán decisiones. De ahí la
importancia del proceso.

Figura 5. Proceso técnico de extracción de datos, transformación y carga

Por lo tanto, la mejor manera de analizar el impacto que


tiene el trabajo con datos en las redes sociales o acciones
big data es a través del análisis de la información que genera.
Esta área de trabajo es la conocida como analítica de datos.
Nos ofrece información con idea de convertirse en próxi-
mas estrategias a realizar, pero también nos puede hablar de
aspectos económicos como el ROI y que veremos, con preci-
sión, más adelante. Implementar un área de analítica de datos

57
E-Books & Papers for Statisticians
© Editorial UOC Big data

supone tomar unas decisiones sobre qué tipo de información


necesita la empresa y con qué propósito, esto son los objeti-
vos de negocio. A partir de ellos se establecerán una serie de
métricas y de indicadores de rendimiento, y serán la base de
trabajo de la analítica.

Las métricas: si algo va a permitir tener datos, es la posi-


bilidad de contrastar cifras. De esta manera podremos medir
y, por lo tanto, saber si como negocio hemos mejorado o
empeorado. Por lo tanto, las métricas son valores cuantifi-
cables y personalizados para cada objetivo de negocio. En el
caso de tratar con áreas concretas como puede ser la analítica
del site o web, las métricas habituales son el número de usua-
rios únicos, visitas y páginas vistas. Para los medios televisi-
vos y su monitorización con las redes sociales, las métricas
interesantes son el número de interacciones o menciones. En
general, estas medidas pueden aplicarse a muchas áreas: ren-
tabilidad, cliente, acciones, productos, etc. Una de las métricas
más interesantes de medir es el nivel de engagement, entendido
como métrica cualitativa, que ofrece información sobre el
grado de proactividad del usuario o espectador. Sea como
sea, las métricas deben ir en concordancia con el negocio y
con su tamaño. Avinash Kaushik, uno de los más reputados
analistas web, propone establecer tres tipos de mediciones:
métricas de adquisición, comportamiento y resultados.30 Así,
estas serían las tres acciones que cubrirían las decisiones de
negocio, experiencia de usuario y rentabilidad.

30  Kaushik, Avinash. Digital Marketing and Measurement Model. [Fecha de consulta:
4 de enero de 2016]. <http://www.kaushik.net/avinash/digital-marketing-and-
measurement-model/>

58
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Biométricas: son técnicas matemáticas y estadísticas para


identificar individuos únicos. Con el uso de los wearables31 ha
surgido un abanico de posibilidades relacionadas con dife-
rentes industrias. Una primera lectura nos remitiría a indus-
trias como la médica o la seguridad, donde el control de los
biorritmos es fundamental. Pensemos en creaciones como
las pulseras/relojes inteligentes o sensores creados específica-
mente para deportistas. En el caso de la industria que referen-
ciamos, la audiovisual, también ha sido capaz de integrar las
biométricas; un ejemplo es el caso de algunos realities donde
los concursantes portaban sensores que monitorizaban horas
de sueño, distancias recorridas, calorías o pulsaciones.

KPI (key performance indicators o indicadores clave de ren-


dimiento) están enfocados al objetivo final del negocio y
suelen ir establecidos en porcentaje. Los datos ya analizados,
interpretados y relacionados se convierten en los indicado-
res de negocio, permitiendo así tomar decisiones válidas de
mejora (Macía Domene, (2013). Básicamente, esto nos va a
ofrecer información respecto al estado de una actividad. Para
que realmente sea útil debe cumplir tres características: ser
cuantificable, inequívoco y realizable. Suelen ser muy pocos
los KPI que se miden y se asocian a unidades de negocio.
Así, por ejemplo, enfocados a la analítica de redes sociales de
empresas audiovisuales, una propuesta sería medir el tráfico,
la actividad o la propia comunidad. Desde una decisión de
negocio diferente, otros KPI pueden identificar el país de
procedencia de la visita, el tiempo de la visita o el porcentaje

31  Dispositivos llevables en el cuerpo, tales como relojes o pulseras, capaces de


acceder a información vital del ser humano y generar big data.

59
E-Books & Papers for Statisticians
© Editorial UOC Big data

de usuarios que realizan compra en una página web. En esta


línea de entorno web, establecer unos adecuados KPI acordes
con nuestra necesidad estratégica va a permitir implementar
dos procesos de mejora del rendimiento:32

• Interpretar datos estadísticos de tráfico en conceptos y va-


lores entendibles por los diferentes perfiles profesionales.
• En función del progreso de los datos obtenidos, valorar el
cumplimiento de los objetivos y poder tomar decisiones lo
más certeras posibles.

Al denominado padre de la publicidad moderna, John


Wanamaker, se le adjudica la siguiente frase: «La mitad del
dinero que invierto en publicidad se desperdicia, el problema
es que no sé qué mitad es». Este vacío de datos es precisa-
mente lo que suple la analítica de datos: saber exactamente
qué y cuánto no funciona. En general, tanto las métricas
como los KPI tienen como objetivo aprender, corregir y
mejorar. Ahora, con la obtención de los datos mencionados,
es interesante dar un paso más y aplicar lógicas propias del
big data. Por ejemplo, si pensamos en la minería de datos,
los patrones de conducta extraídos de la analítica ofrecen
información vital para la posterior toma de decisiones. Así,
podríamos predecir comportamientos en función de la
información que obtenemos de las cookies y que analiza la
herramienta.
De manera general, podemos concluir que la mayoría de
las empresas audiovisuales que realizan o empiezan a plan-

32  Maciá Domene, F.; Gosende Grela, J. (2012). Técnicas avanzadas en posicionamiento


en buscadores. Madrid: Anaya Multimedia.

60
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

tearse acciones de big data usan motores de analítica tanto


freemium, gratuitas, como premium, de pago. Según la modali-
dad económica, el acceso a la información se realiza desde un
punto de vista cuantitativo, pero también de manera cualitati-
va con respecto a las herramientas que permite manejar y las
métricas que permite emplear. Básicamente, la idea de invertir
en uno u otro software de análisis debería ir relacionada con
la estrategia aplicada, es decir, con los objetivos con los que se
aplica la tecnología a los datos. Pero también con el volumen
de datos que se maneja.
Algunas herramientas que están empleando actualmente
las empresas audiovisuales son:

Google Analytics,33 perteneciente a Google, ofrece ser-


vicios de embudo multicanal que indican el funcionamiento
del marketing en los diversos canales que puede tener la
empresa o negocio, así como el impacto y grado de con-
versión. En la línea de las redes sociales, permite también
obtener informes sociales en los que se muestra tanto las
métricas como el valor monetario de las conversiones, iden-
tificar comunidades importantes para la marca, así como
el flujo de actividad de los botones sociales, entre otros.
También resulta interesante diferenciar y medir el impacto
de las campañas de marketing por uso de dispositivo ya que
es habitual que, como usuarios, realicemos mismas búsque-
das a través de diferentes canales.
Un vistazo a la web de Google Analytics nos puede mos-
trar el grado de impacto de una campaña en soporte web.

33  Google. «Analítica web para empresas» [en línea]. [Fecha de consulta: 10 de
marzo de 2015]. <http://www.google.es/intl/es/analytics/>

61
E-Books & Papers for Statisticians
© Editorial UOC Big data

De tal manera, a través de la herramienta es posible conocer


el número de visitantes activos que tiene el site cada grupo
de minutos o incluso segundos. En el caso de esta analítica,
una visita tiene una duración de 30 minutos, un tiempo en
el que el usuario o visitante activo interactúa con las dife-
rentes acciones que puede realizar dentro de una misma
página web: interacción social, transacciones de comercio,
etc. Cada una de estas acciones supone volver a activar ese
tiempo fijado de 30 minutos. Por el contrario, si el visitante
se mantiene inactivo por un tiempo de 30 minutos la cookie
_utmb se eliminará de su ordenador y se contabilizará una
nueva visita.
Podemos, por tanto, ver que la herramienta ofrece ana-
lítica pero también nociones de inteligencia, por ejemplo
a través de su analytics intelligence que, gracias a algoritmos,
logra identificar alteraciones en patrones de conducta de
usuarios.

Adobe Analytics es un conjunto de herramientas de aná-


lisis de web y marketing. Engloba a SiteCatalyst, herramienta
centrada en comercio electrónico. Ofrece analítica y reporting
alertas de acción, informes personalizados, perfiles sociales.
Esta herramienta es mayormente empleada por empresas
de gran tamaño, es decir, empresas que gestionan grandes
volúmenes de datos. Tal y como informa Adobe, entre sus
principales acciones destaca:

• Analítica sobre aplicaciones móviles.


• Segmentación avanzada de usuarios.
• Marketing predictivo, intelligence marketing.
• Analítica de aplicaciones móviles.

62
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Posiblemente, una de sus principales ventajas sea la ana-


lítica en tiempo real, lo que va a permitir tomar decisiones
en menor tiempo, así como la ya mencionada capacidad de
gestionar grandes volúmenes de datos.

IBM Watson Analytics,34 servicio de analítica de gran-


des volúmenes de datos, basado en el sistema informática
de Inteligencia Artificial Watson. Merece la pena conocer
con perspectiva el origen de esta herramienta para valorar las
posibilidades futuras. En un principio, la herramienta Watson
responde a la denominada tecnología cognitiva y está diseñada,
como indicábamos, por IBM. La base de trabajo parte de la
idea de que las computadoras sean capaces de interpretar el
lenguaje natural, el hablado por las personas. Watson aparece
en el mercado con recorrido hecho; así, uno de sus méritos
asociado al sistema cognitivo con lenguaje programado es la
participación televisiva en 2011, en el programa norteamerica-
no de preguntas y respuesta Jeopardy!, en el cual la máquina con
inteligencia ganó a los dos concursantes con mayor número de
aciertos hasta la fecha. Desde entonces, Watson ha mejorado
en velocidad de reacción y está vinculado en múltiples indus-
trias y escenarios como la ciencia médica, procesos I+D+I,
educación o incluso gastronomía. Obviamente, también desa-
rrolla su línea de negocio en el ámbito del big data y sus posibili-
dades relacionadas con industrias de la comunicación. Un buen
ejemplo lo encontramos en Audiense, partner oficial de Twitter
destinado al social marketing. Esta empresa, ha comenzado a
incluir los denominados insights de personalidad empleando

34  IBM. «What is Watson Analytics?» [en línea]. [Fecha de consulta: 15 de octubre
de 2015]. <http://www.ibm.com/analytics/watson-analytics/>

63
E-Books & Papers for Statisticians
© Editorial UOC Big data

para ello la API de IBM. Hasta la fecha, la tecnología asocia-


da al big data permitía lograr la segmentación de perfiles con
respecto a datos sociodemográficos, hábitos o patrones. En el
caso de los insigths, estos hacen referencia a rasgos de persona-
lidad adjudicados a la audiencia de un producto o marca. Esto
permite una catalogación por personalidades o, dicho de otro
modo, una segmentación por personalidades, logrando así un
impacto muy alto en la creación de estrategias de marketing.
Watson, como herramienta analítica, accede tanto a la
información que se le facilite en datasets como a un histórico
de dos años de la red social Twitter y al que realiza consultas
a través de hashtags. De esta manera, crea análisis estadísticos
y predictivos a través de lenguaje natural, además de poder
visualizar los datos posteriormente. Como herramienta de
analítica de datos, ofrece información en tiempo real además
de analítica de contenido. Posibilidades de tratamiento de los
datos y herramientas en la nube, análisis predictivo o visuali-
zación a través de una interfaz muy sencilla son algunas de sus
características junto con la capacidad de trabajar con grandes
volúmenes de datos. Pero, quizás, su principal rasgo sea el
que explicaba el origen de Watson, el lenguaje natural, dado
que las consultas a la herramienta se hacen de esa manera:
preguntando a la máquina como si fuera una persona.
Podemos concluir, por tanto, que la analítica de datos va
encaminada a extraer información valiosa sobre los usuarios y
su comportamiento. Datos que hasta hace apenas unos años era
imposible obtener. Como afirma Macía Domene, se tiende a la
«integración de todos los datos, tanto online como offline, además
del sentimiento del usuario a través de distintas plataformas,
navegadores, dispositivos de navegación […] Solo así estaremos
en disposición de comprender de forma más global el compor-

64
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

tamiento del usuario y la forma en la que las distintas estrategias


de promoción influyen sobre sus decisiones de compra».35

4.2. Descubriendo valor en los datos

Hablar de sistematizar el proceso de identificar el valor en


los datos es remitirnos a un marco global denominado «pro-
ceso de extracción del conocimiento» o, más comúnmente
llamado por su terminología en inglés, knowledge discovery in
databases (KDD),36 en el que se incluyen acciones como la
minería de datos, análisis o aprendizaje automático. El obje-
tivo de este proceso es encontrar valor en los datos que se
analizan y, para ello, se realiza un proceso iterativo con gran-
des volúmenes de datos, el big data, con idea de encontrar un
modelo válido (por ejemplo, identificación de un algoritmo
útil para detectar la información que queremos) o una con-
clusión (en el caso de analizar los datos desde la estrategia de
negocio). Estas disciplinas relacionadas con el KDD están
orientadas al negocio, con objetivos específicos, lo que va a
suponer que tendrá que realizarse una preparación nueva de
los datos, acorde con la información que queremos descubrir
dado que, por ejemplo, en minería, son cuestiones concretas y
no tanto generales. Por tanto, dentro del proceso de KDD se
preparan los datos, se transforman y cargan para, a partir de

35  Macía Domene, F. (2013). Marketing Online 2.0. Cómo atraer y fidelizar clientes en
Internet. Madrid: Anaya Multimedia.
36  Han, J.; Kamber, M.; Peu, J. (2011). Data Mining. Concepts and Techniques (The
Morgan Kaufmann Series in Data Management Systems). University of Illinois
at Urbana-Champaign.

65
E-Books & Papers for Statisticians
© Editorial UOC Big data

aquí, trabajar en entornos de minería de datos para la creación


de patrones, visualización e interpretación.
Una vez identificada la problemática de negocio que se
quiere resolver o la estrategia que se quiere aplicar, y después
de haber preparado los datos, comenzaría un trabajo deno-
minado aprendizaje automático (machine learning). Esto sucede
dentro del proceso denominado minería de datos,37 la cual es
una disciplina propia de la inteligencia artificial que emula al
pensamiento humano. La idea es que las máquinas aprendan
determinadas respuestas automáticas ante ciertos escenarios.
Para ello se van a entrenar los datos y desarrollar modelos uti-
lizando el algoritmo que ofrezca las mejores prestaciones. Por
concretar, el aprendizaje automático partiría de una gran base
de datos a partir de la cual se entrenan distintos algoritmos con
idea de elaborar un modelo tanto en función de los mismos
datos como del negocio. Para ello, se trabaja con modelos para-
métricos basados en ecuaciones matemáticas (regresión múlti-
ple, clasificación) o incluso modelos probabilísticos como las
redes bayesianas para poder ser capaces de predecir comporta-
mientos o acciones a partir de datos completos o incompletos.
Estos modelos se evalúan para confirmar su validez y, en caso
de ser idóneos, se aplican a las lógicas de negocio.
El aprendizaje automático va a permitir, desde el punto de
vista del negocio:

• Crear predicciones, fundamentalmente las relativas a qué


actuaciones van a hacer los clientes. Es decir, va a permitir
tomar acciones sobre clientes.

37  Siguiendo el estándar de buenas prácticas Cross Industry Standard Process for Data
Mining (CRISP-DM).

66
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

• Búsqueda de patrones interesantes.


• Generación de grupos en los datos para, por ejemplo, seg-
mentar y hacer campañas a medida de nichos. Esta acción
es muy útil para el marketing ya que, por ejemplo, de esta
segmentación podremos establecer patrones de consumo.

Dependiendo de cómo tengamos de preparada la infor-


mación en cuanto a las etiquetas que acompañan a los datos,
tendremos información previa que puede ser útil para el futuro.
De ahí que se generen dos tipos de aprendizaje: el aprendizaje
supervisado y el no supervisado. En el caso del primero, habla-
mos de trabajar con preguntas conocidas y respuestas también
conocidas. De manera que, ante un nuevo cliente de la empre-
sa, el modelo ya entrenado podrá deducir lo que va a pasar; son
las predicciones. En este tipo de aprendizaje englobaríamos los
algoritmos de clasificación, según los cuales, ante la llegada del
mencionado cliente (dato + etiqueta), el modelo nos diría con
qué grupo se posicionaría frente al resto. Por ejemplo, en el
caso de consumidores de productos audiovisuales, identificar
al usuario nos va a permitir aplicar aprendizaje supervisado y
poder así predecir qué tipo de contenido va a querer consumir.
Estamos, pues, segmentando al cliente y prediciendo.
Por otro lado, el aprendizaje no supervisado no trabaja con
etiquetas, sino con datos sin categorizar sobre los que buscará
patrones o grupos. Es habitual que el proceso comience con
aprendizaje no supervisado para, posteriormente, trabajar con
el supervisado. Estás técnicas de descubrimiento de valor en los
datos son muy empleadas en ámbitos como la analítica de mar-
keting al permitir establecer patrones y segmentar. De hecho, esa
es precisamente una de las grandes bondades del trabajo con los
datos, encontrar perfiles que permitan segmentar y hacer conte-

67
E-Books & Papers for Statisticians
© Editorial UOC Big data

nidos a medida, esto a través de la automatización de mecánicas


y con empleo de algoritmos entrenados. En este sentido, los
modelos next best activity suponen la aplicación de los modelos
predictivos38 al marketing. Es la industria de la banca donde más
efectividad ha logrado esta operación al poder prevenir la pro-
babilidad de abandono de un cliente o de cometer fraude, pero
en marketing también encuentra un escenario de trabajo intere-
sante al identificar la siguiente acción del usuario. Son muchas
las empresas que establecen el aprendizaje automático como
base de sus acciones. Por ejemplo, Amazon emplea su propio
Amazon Machine Learning con el objetivo de crear con facilidad
aplicaciones predictivas, como la ya mencionada detección del
fraude, la previsión de la demanda o la predicción de clics.39

4.2.1. Monetizar los datos segmentando perfiles

Con respecto a las posibilidades de segmentación del


aprendizaje automático, en el caso de la empresa Twitter, pre-
cisamente aquí encuentra una vía de monetización a través del
impacto cualitativo que ofrece a las marcas vía su timeline. La
gestión de la gran base de datos de perfiles de Twitter, a través
de algoritmos, logra identificar y segmentar clientes no tanto
en cuanto a características sociodemográficas sino a gustos y
acciones. Esto, asociado a otras líneas de negocio como los
vídeos de Vine o Periscope, convierten a Twitter en un espacio
de interés para las marcas.

38  Esto es un algoritmo que, aplicado a una serie de datos, identifica la relación
entre una variable y el resto de la información disponible.
39  Preguntas frecuentes sobre Amazon Machine Learning. [Fecha de consulta:
13 de octubre de 2015]. <https://aws.amazon.com/es/machine-learning/faqs/>

68
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Trabajar con datos permite definir qué valor podemos


extraer de los mismos. En este sentido, uno de los casos más
interesantes puede ser trabajar con el concepto de «recomen-
daciones». Estas se basan en las opiniones de los diferentes
usuarios, bien a partir de la comunicación orgánica con sus
opiniones trasladadas a los espacios webs y a la vista de futuros
usuarios de los mismos productos, o bien a través de las pun-
tuaciones en rankings.
Diferentes sectores se han posicionado ante los clientes a
través de las recomendaciones, pero quizás sea la compañía
de video on demand Netflix la que ha sabido dar un paso más
al generar un nuevo valor en las recomendaciones. Para ello,
creó una unidad de negocio destinada a la producción propia.
Juntando el big data y la estadística, dieron forma al «círculo de
éxito probado».40 Esto era diseñar el producto que más éxito
podría tener a partir de las conductas de sus espectadores que
identificaban las preferencias por el actor Kevin Spacey, el esti-
lo del director David Fincher o series de éxito y género exitoso
como la contrastada House of Cards. Otro aspecto importante a
medir en la conducta de los usuarios de Netflix es el compor-
tamiento, una vez que el contenido es pausado, y así identificar
si posterior a la parada el contenido sigue siendo visualizado
o, de lo contrario, eliminado, es un dato fundamental de cara
a posteriores predicciones. Sumado a estas acciones, la página
de Netflix ofrece la posibilidad de indicar las preferencias de
gusto y perfiles junto a las recomendaciones.41 Para ello, Netflix
trabaja con un algoritmo que valora, para las recomendaciones,

40  Término acuñado por The New York Times Company.


41  Calificaciones y recomendaciones de Netflix. [Fecha de consulta: 13 de octu-
bre de 2015]. <https://help.netflix.com/es/node/9898>

69
E-Books & Papers for Statisticians
© Editorial UOC Big data

aspectos como los géneros de las películas y series, el historial


de transmisión y recomendaciones previas y las calificaciones
del resto de usuarios de la plataforma con gustos similares.
Estas recomendaciones ofrecen una horquilla de puntuación
de 1 a 5. En el caso de las preferencias, son encuestas que
se establecen en las categorías argumento, subgénero, cultura
y especial interés, así como su temporalidad de consumo: a
menudo, a veces o nunca.

4.3. Business Intelligence

Como venimos diciendo, los datos en sí mismos no aportan


valor, es el conocimiento que se extraiga de ellos y las decisio-
nes que de ahí se tomen lo que va a dar utilidad y valor al dato.
Esto es precisamente lo que hace el business intelligence: partiendo
de información basada en datos, procede a tomar la mejor de
las decisiones. Para ello, ya hemos visto que los datos han sido
extraídos de diferentes fuentes, se han limpiado y transforma-
do manteniéndose guardados para su posterior aplicación de
métricas, visualización y analíticas.
Howard Dresner, investigador y analista durante años de
la consultora Gartner, comprendía el business intelligence como
aquel «paraguas que engloba conceptos y métodos que ayudan
a tomar la mejor decisión de negocios basada en hechos». Por
ello, y conociendo ya todas las posibilidades que ofrece el big
data, cuando hablamos de business intelligence, tenemos que pen-
sar que sus acciones estratégicas comienzan desde el origen del
proceso, desde la elección de las fuentes de las que se desean
obtener datos. Esto sería la denominada capa de negocio, y
variará dependiendo de los objetivos de cada empresa.

70
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Figura 6. Flujo de procesos en un entorno big data

En este nivel, es interesante comprender aspectos pura-


mente de negocios como las métricas, el ROI o el beneficio
por cliente. Desglosemos estos conceptos. El ROI, por
tanto, justifica la inversión de acciones como el marketing o
la propia tecnología big data. En ocasiones, algunos directivos
de cadenas no han podido concretar cómo se monetiza la
inversión en tecnología con los datos. Pero es fundamental
identificar la procedencia del retorno; así pues, muchos de
los modelos de negocio de contenidos digitales que existen
en la actualidad pueden disponer de tráfico procedente de la
página web, que a su vez puede ser consumida a través del
ordenador o del móvil o tableta, además de la aplicación.
Todos estos consumos por plataforma ofrecen un retorno
diferente que define también tanto al usuario como al conte-
nido en sí. Como caso concreto en la industria audiovisual,
el ROI referente a las plataformas de pago va enfocado a
que el coste de retención de un cliente sea menor al coste de
adquisición.

71
E-Books & Papers for Statisticians
© Editorial UOC Big data

Todas estas acciones están englobadas dentro de la estra-


tegia diseñada acorde con el modelo de negocio. En el caso
de las cadenas televisivas privadas pertenecientes al grupo
Atresmedia o Mediaset, el modelo de televisión está basado
principalmente en la publicidad; en el caso de las cadenas de
pago como Movistar + o TotalChannel, el modelo de nego-
cio es por suscripción, mientras que en el caso de la cadena
pública TVE, que se nutre de los presupuestos del estado, el
concepto de rentabilidad es complejo al incluir el valor social.
Estos son tres modelos de gestión televisiva que conviven,
y cada uno de ellos establecerá unas métricas diferentes, así
como unos KPI también a medida de su modelo de negocio.
A continuación, un entorno de trabajo business intelligence
dispone de una capa de soporte a la decisión, que hace refe-
rencia al conjunto de actividades que dan soporte al negocio,
sin incluir comunicación con el cliente. Estamos hablando
del soporte técnico, por ejemplo, la elección de fuentes sobre
las que se van a generar los datos masivos, el ya mencionado
proceso de ETL (extracción, transformación y carga), gene-
ración de plataformas, aplicaciones, ERP, extracción de datos,
gestión de plataformas, etc. A partir de aquí, el siguiente paso
es el entendimiento de los datos, tanto para perfiles técnicos
como para aquellos que van a tomar decisiones de negocio.

4.4. Visualización

Comprendiendo con perspectiva el proceso de la gestión de


datos en su totalidad, podemos ya entender que las decisiones
que motivan a las empresas a trabajar con big data y aplicar
posteriormente análisis y business intelligence son decisiones estra-

72
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

tégicas realizadas por perfiles directivos que no necesariamente


tienen que tener formación técnica. De ahí que se contemple
la generación de gráficos como una manera entendible de dar
datos y ofrecer conclusiones. Atrás quedaron ya los densos
reportes e informes, estos no eran útiles y la información era
estática, era una radiografía concreta de un momento exacto.

Figura 7. Flujo de procesos en un entorno Big data

El área de la visualización de datos cobra más fuerza cada


día dada su gran contribución al entendimiento de procesos
técnicamente complejos. La idea que sustenta la necesidad
de la visualización de datos en un entorno big data radica en
la propuesta de que, cada vez más, los motores analíticos
sean más fáciles de manejar, de manera que los datos sean
numéricos, o convertibles en cifras, para que puedan apli-
carse, sobre ellos, algoritmos ya creados y entrenados. La
visualización de datos surge, entonces, con idea de no nece-
sitar ser un matemático que interprete los datos. De hecho,
esto es precisamente lo que ofrece la visualización de datos:

73
E-Books & Papers for Statisticians
© Editorial UOC Big data

hacer entendible, desde un punto de vista empresarial, unos


datos trabajados en entornos de matemáticas y estadística.
Esta área de entendimiento de datos hace referencia a
todas aquellas posibilidades gráficas de mostrar informa-
ción y cruces de datos de una manera fácil. Los gráficos
generados pueden ser de muchos tipos, diseñados prácti-
camente a demanda del negocio. Pueden tener, por tanto,
entidad propia a través de herramientas personalizadoras de
visualización de datos. También pueden estar incluidos en
los cuadros de mando, también llamados scorecard, modelos
comprensibles que muestran en tiempo real datos masivos y
análisis. O, también, pueden incluir mapas de calor, diagra-
mas de dispersión o incluso nubes de palabras que permitan
la interactuación con el usuario. Fruto de este gran abanico
de posibilidades y su velocidad de implantación, denotamos
que las empresas tienden en su mayoría a contratar software
de visualización en lugar de desarrollar sus propios entornos
y herramientas de business intelligence y visualización. Las razo-
nes son varias: herramientas con las últimas actualizaciones,
entornos personalizables, sin pérdida de tiempo en desarro-
llo ni contratación de personal para creación de entorno de
business intelligence y visualización. Pero, sobre todo, la prin-
cipal ventaja de contar con este tipo de plataformas deriva
de no tener que contar con una alta estructura de costes,
ahorrando dinero y tiempo.
En líneas generales, estas plataformas aplican una capa de
inteligencia de negocio para lograr ofrecer claras y sencillas
interpretaciones de los datos a partir de unas métricas perso-
nalizadas y definidas por el cliente. Estos softwares permiten
interactuar en tiempo real con los diferentes datos disponi-
bles y mostrarlos tanto de modo interno en la empresa como

74
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

a cualquier usuario de internet, dependiendo ya de la estrate-


gia de negocio.
Veamos, a continuación, las principales plataformas de
visualización de datos, así como sus aplicaciones en el entor-
no del negocio.

• La plataforma Qlikview trabaja con analítica de datos y


business intelligence generando visualización a través de cua-
dros de mando. Entre sus clientes de la industria de los
medios de comunicación, se encuentran el Grupo Godó
o Fox Internacional Channels. Trabaja en la línea de he-
rramientas de business discovery, una disciplina que frente
al business intelligence tradicional, entiende al usuario como
creador de contenido a través del acceso de todo el per-
sonal a los datos, no solo a las unidades de negocio com-
petentes.
• Analizando las plataformas de BI y visualización más de-
mandadas en el sector audiovisual, destacamos Tableau,
la cual ofrece análisis en la nube, análisis rápido y business
intelligence.42

42 Un ejemplo ilustrativo de uso de la visualización aplicada a contenidos audio-


visuales lo encontramos en Trash-Talking while binge watching. Tableau ofreció la
visualización de los datos generados por los usuarios de Twitter a propósito de la
temporada 3 de la serie televisiva House of Cards de Netflix. El cuadro de visualización
permitía seleccionar el capítulo concreto del que obtener información: una nube de
tags, diferentes tuits y retuits, número de interacciones por minuto, etc. Visualización
disponible en <http://public.tableau.com/profile/mwallace7569#!/vizhome/Trash-
TalkingWhileBingeWatching/HouseofCardsTwitterAnalysis>. Esto ofrece datos muy
valiosos sobe el grado de aceptación de la serie, los temas y personajes que más gustan
a la audiencia social, así como los momentos que más emoción han suscitado. Una vez
más, esto es una información muy útil desde un punto de vista estratégico.

75
E-Books & Papers for Statisticians
© Editorial UOC Big data

• Microstrategy es, según la consultora Gartner, el provee-


dor líder mundial en software para empresas, posicionado
ahora también en analítica, business intelligence y visualiza-
ción. En lo referente al entorno audiovisual, es la plata-
forma empleada por Netflix para generación de dashboards.
• Existen en el mercado otras muchas herramientas centra-
das más en la visualización y no ya tanto en la inteligencia
de negocio. Merece una mención especial la startup espa-
ñola CartoDB: un servicio en la nube de visualización de
datos en mapas con tecnología open source, SaaS (software as
a service),43 aunque para muchos es conocido como el «Ins-
tagram de los mapas». En la actualidad trabajan con «Deep
insights», una solución por la que cualquier empresa puede
profundizar con tal detalle en su información que le per-
mite extraer patrones y, por lo tanto, predicciones. Nueva-
mente, el uso del big data al servicio de la estrategia pero, en
este caso, a través de la imagen.

En general, podemos decir que vivimos unos años de


esplendor en la proliferación de software de visualización de
datos y generación de infografías, herramientas freemiun y de
pago, privadas y open source: Mapbox, ArcGis, Easel.ly, Infogr.
am, Visual.ly, Tagxedo, etcétera. Al final, el objetivo es com-
prender más fácilmente los datos masivos de los que dispo-
nemos, para poder tomar las mejores decisiones estratégicas.
La visualización de datos, sumada al razonamiento analíti-
co a partir de ellos, es la disciplina denominada visual analytics.

43  En este tipo de servicios, el soporte lógico y los datos se encuentran en una
empresa TIC y el cliente accede al servicio vía internet, no teniendo así que pro-
ceder al mantenimiento, operativa o soporte del software.

76
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

La visualización en sí ayuda a ver los datos más claramente,


entendiéndolos sin necesidad de tener perfiles técnicos. Pero
es importante que estas visualizaciones cuenten con análisis
estadístico, big data, análisis predictivo, ingeniería de datos,
acceso a los mismos en tiempo real e incluso conocimientos
de diseño a la hora de emplear colores y su correspondiente
significado asociado a las culturas. Es decir, comprender que
estas aportaciones gráficas tienen infinidad de posibilidades
en entornos tecnológicos de datos, no resumiéndose a sim-
ples grafismos estáticos sin aporte, sino ofrecer nuevas mane-
ras de contar las cosas. Los recursos presentados a lo largo
de este capítulo encuentran un fuerte aliado en la creatividad
y hace algunos años presenciábamos iniciativas que jugaban
con datos, geolocalización y visualización en proyectos como
The Wilderness Downtown44 (Chris Milk, 2010). Procedente de la
participación en este proyecto, el creador Aaron Koblin tra-
baja fascinantes representaciones artísticas y audiovisuales a
partir de nuevas tecnologías y datos generados. Son famosas,
entre otras muchas, sus visualizaciones a partir del intercam-
bio de datos generados a escala mundial gracias a las nuevas
tecnologías.45
Como conclusión, las visualizaciones en entornos de tra-
bajo tecnológicos nos ayudan a entender mejor el mundo y

44  Proyecto interactivo llevado a cabo por Google y que integra contenidos como
la música, los datos geolocalizados, la visualización de los mismos mostrados a tra-
vés de Google Chrome, composición realtime y la tecnología HTML5, entre otros.
45  El proyecto New York Talk Exchance parte de los datos generados en tiempo
real por los móviles y la red IP (protocolo de internet) y sus comunicaciones con el
resto del mundo. Es un proyecto del Senseable City Lab del MIT para el MOMA.
[Fecha de consulta: 4 de enero de 2016]. Visualización disponible en <http://
www.aaronkoblin.com/project/new-york-talk-exchange/>

77
E-Books & Papers for Statisticians
© Editorial UOC Big data

tomar decisiones más rápidas y mejores. Pero también nos


ayudan a construir dimensiones nuevas dado que el sector
audiovisual es una empresa artística y, como tal, debería poder
aprovechar todos los recursos disponibles para contar sus
proyectos al mundo.

78
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

Bibliografía

Danuloff, Craig (2011). Quality Score in High Resolution. Potato


Creek Books.
Fundación Telefónica (2015). La sociedad de la información en
España.
Geddes, Brad (2010). Advanced Google AdWords. Sybex.
Herbera, J.; Linares, R.; Neira, E. (2015). Marketing cinematográ-
fico. Barcelona: Editorial UOC.
Han, J.; Kamber, M.; Peu, J. (2011). Data Mining. Concepts and
Techniques (The Morgan Kaufmann Series in Data Management
Systems). University of Illinois at Urbana-Champaign.
Jenkins, H. (2008). Convergence Culture: La cultura de la convergencia en
los medios de comunicación. Paidós Ibérica.
Kaushik, Avinash (2010). Analítica Web 2.0: el arte de analizar resul-
tados y la ciencia de centrarse en el cliente. Gestión 2000.
López M. (2009). SEO Posicionamiento en buscadores. Madrid:
Bubok.
Macía Domene, F. (2013). Marketing Online 2.0. Cómo atraer y fide-
lizar clientes en Internet. Madrid: Anaya Multimedia.
Maciá Domene, F.; Gosende Grela, J. (2012). Técnicas avanzadas
en posicionamiento en buscadores. Madrid: Anaya Multimedia.
Mayer-Schönberger, Viktor (2013). Big data, la revolución de los datos
masivos. Madrid: Turner Publicaciones.
Neira, Elena (2015). La otra pantalla. Redes sociales, móviles y la nueva
televisión. Barcelona: Editorial UOC.
Orense Fuentes, M. (2010). SEO Cómo triunfar en buscadores.
Madrid: ESIC Editorial.

79
E-Books & Papers for Statisticians
© Editorial UOC Big data

VV. AA. (2013). El libro del marketing interactivo y la publicidad digital.


Madrid: ESIC.
VV. AA. (2015). Big Data, Beyond the Hype. McGraw Hill
Education.

Bibliografía en línea:

Accenture. «Gestión de datos y arquitectura» [en línea].


<www.accenture.com/es-es/service-technology-data-manage-
ment-architecture-summary.aspx>
Allen, Robert (2016). «What happens online in 60 seconds?» [en
línea]. <http://www.smartinsights.com/internet-marketing-
statistics/happens-online-60-seconds/>
BBVA (2015). «Data. Todo sobre el ecosistema big data» [en línea].
<http://www.centrodeinnovacionbbva.com/sites/default/files/
ispring/innovation-trends/index.html>
BEEVA. «El rol del analista de negocio» [en línea].
<https://www.beeva.com/beeva-view/estrategia-negocio/el-rol-
del-analista-de-negocio/>
Domo (2015). «What happens on the internet in one minute» [en
línea].
<http://www.likeablesocialmedia.org/what-happens-on-the-
internet-in-one-minute-infographic/>
Google. «Analítica web para empresas» [en línea].
<http://www.google.es/intl/es/analytics/>
IBM. «What is Watson Analytics?» [en línea].
<http://www.ibm.com/analytics/watson-analytics/>
IBM. «What is a data scientist?» [en línea].
<www-01.ibm.com/software/data/infosphere/data-scientist/>
The Cocktail-ARENA (2015). «Observatorio de redes, VII
oleada» [en línea].

80
E-Books & Papers for Statisticians
© Editorial UOC Capítulo I. Entendiendo el big data

<http://www.slideshare.net/TCAnalysis/observatorio-redes-sociales-
56195394?ref=http://tcanalysis.com/blog/archive/2015/12/>

81
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Capítulo II
Cases studies

1. Storytelling y big data: cómo transformar


números en historias de ficción
Belén Santa-Olalla

El big data y la gran capacidad de recolección de datos


que nos han traído las nuevas tecnologías son abrumadores
para el ser humano. El volumen ingente de datos crudos (raw
data) ofrece multitud de posibilidades y aplicaciones para la
industria del audiovisual, especialmente para medir qué ha
funcionado y qué podría funcionar. Sin embargo, los datos no
solo pueden jugar un papel antes y después del lanzamiento
del contenido, sino que pueden influirlo de manera dinámica
y hacer que se adapte a la realidad que reflejan sus datos en
tiempo real.
Las cuatro características fundamentales del big data (volu-
men, variedad, veracidad y velocidad) no solo son de gran
relevancia a la hora de establecer una estrategia de business
intelligence, sino que además pueden convertirse en sí mismos
en la propia materia prima de la estrategia de contenidos.
Equiparando la creación de contenido con pintar un cuadro,
el volumen de datos es la cantidad de pintura, la variedad son
los colores, la veracidad sería el tipo de pigmento y la veloci-
dad la técnica aplicada.
En este caso de estudio, se analizará cómo el big data puede
emplearse más allá de la analítica tradicional en la creación de

83
E-Books & Papers for Statisticians
© Editorial UOC Big data

estrategias narrativas para promover y generar interés sobre


contenidos audiovisuales.

1.1. Una herramienta de uso creativo del big data

Transmedia Storyteller LTD es una empresa tecnológica


y de consultoría creativa radicada en Londres. El lema de la
empresa es Make everyone’s life an adventure1 y con ese objetivo
se desarrolló Conducttr: una herramienta de storytelling inmer-
sivo y de gamificación.2 Este SaaS3 alojado en la nube permite
a los creadores de contenido (cineastas, productores de tele-
visión, creadores independientes) crear experiencias multipla-
taforma que hacen que el público interactúe con sus historias.
Las experiencias que se pueden crear con la herramienta
se articulan y diseñan según los objetivos de los creadores de
contenidos: generar conversación alrededor de un contenido
preexistente, crear una narrativa gamificada para expandir un
universo narrativo, comunicar y enseñar conceptos de una
manera práctica, etc. Muchas de estas experiencias se acaban
convirtiendo en contenidos transmedia4 que mezclan con-
tenidos en línea con presencia en el mundo real a través de
eventos o lugares que visitar.

1  Convierte la vida de cada uno en una aventura.


2  Que incluye dinámicas y mecánicas de juego, por ejemplo, puntos, recompen-
sas, rankings y demás.
3  Software as a service, software como servicio.
4  Entendemos transmedia storytelling como un lenguaje narrativo que cumple tres
características: 1, creación de un universo narrativo profundo; 2, utilización de
diferentes canales o plataformas para su manifestación; 3, participación activa del
público en la creación o consumo del contenido.

84
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Conducttr es un software de producción, desarrollo


y ejecución de este tipo de estrategias narrativas. Toda la
herramienta se articula en torno a conceptos de storytelling
(personajes, capítulos, escenas) y funciona de acuerdo a un
paradigma básico según el cual los creadores de contenidos
tienen que establecer en Conducttr tres elementos para
que sus proyectos puedan funcionar: personajes, eventos y
acciones.

• Personajes (characters): los creadores crean diferentes


personajes (como por ejemplo, los protagonistas de la
serie de HBO House of Cards, Frank Underwood y Clai-
re Underwood) y les asignan diferentes canales (página
de Facebook, dirección de correo electrónico, Twitter,
número de teléfono). Las cuentas de estos canales son
reales y se conectan con Conducttr; por lo tanto, todos
los datos que se generan en esas cuentas son enviados a
la herramienta.

• Eventos (triggers): los creadores determinan cuándo la


herramienta tiene que reaccionar y desencadenar acciones.
Los eventos pueden ser de dos tipos:

–– Programados: una fecha y una hora, o un momento


recurrente.
–– Interactivos: definen qué datos, de aquellos registrados
en los canales de los personajes, pueden desencadenar
acciones. Algo tan sencillo como que alguien escriba la
palabra «elecciones» en el Twitter de Frank Underwood
puede desencadenar una acción.

85
E-Books & Papers for Statisticians
© Editorial UOC Big data

• Acciones (actions): los creadores deciden qué es lo que


Conducttr debe hacer cuando un evento se produce. Tam-
bién los hay de dos tipos:

–– Contenido: Conducttr lanza contenido al mundo, como


hacer una llamada de teléfono, publicar un post, enviar
un correo electrónico, subir una foto a Instagram, etc.
–– Lógica interna: Conducttr organiza y reestructura los
datos recopilados según los eventos. Por ejemplo,
introduce a un usuario dentro de un grupo o aumenta
sus puntos de fidelidad o lo que determine el creador.

Por lo tanto, una vez el creador crea una lógica en


Conducttr, lo está programando para que beba datos de los
canales establecidos y que busque información determinada
que será la que adapte la historia de manera dinámica.
El objetivo de toda esta captura y manipulación de datos
no es otro que crear una experiencia personalizada e inmersiva
para el público. De este modo, los creadores de contenido pue-
den hacer que sus historias se adapten de una manera precisa
a las decisiones, comportamientos y gustos del espectador. Se
puede dejar que «elija su propia aventura» dentro de nuestro
contenido, recompensarle si interactúa a menudo con los per-
sonajes de nuestra serie o, incluso, enviarle el siguiente capítulo
de nuestro cómic a las horas que suele estar más activo.

1.2. Gestión de datos

Para ello, Conducttr trabaja con una base de datos de


público, creando registros únicos de cada individuo donde

86
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

almacenar todos los datos recabados sobre él. Estos datos


pueden recopilarse:

• Por interacción directa: un usuario escribe un tuit a nues-


tro personaje y Conducttr, conectado a Twitter, toma la
información de esta cuenta y un registro con su usuario en
la base de datos de público de la herramienta.
• Por formulario de registro: se crea un formulario para
alojar en cualquier web que permite recopilar diferentes
datos de contacto a la vez: dirección de correo electrónico,
número de teléfono, usuario en Twitter y Facebook, etc.
De este modo, Conducttr crea un registro único de usuario
con todos esos datos permitiendo hacer cross-triggering, es
decir, que el usuario interactúa por un canal (escribe un
tuit al personaje) y Conducttr le responde por otro canal
(haciéndole una llamada de teléfono, por ejemplo).

Una vez se ha creado el registro de usuario, Conducttr va


almacenando en ellos todos los datos relativos a su interacción
con la historia. Qué datos y cómo almacenarlos es algo que
los creadores deciden también, usando para ello dos entidades:

• Grupos: es una entidad para segmentar el público, según


su actividad Conducttr va metiendo (o sacando) a cada
usuario en grupos diferentes. Por ejemplo, cuando Morfeo
(uno de los personajes de la película The Matrix) ofrece a
los espectadores una de sus dos pastillas, los usuarios que
eligen la roja son añadidos al grupo «Pastilla Roja», y los
que eligen la azul al grupo «Pastilla Azul». De este modo,
se les puede enviar contenido diferente según el grupo al
que pertenezcan.

87
E-Books & Papers for Statisticians
© Editorial UOC Big data

• Atributos: son entidades que almacenan cualquier tipo de


dato: numéricos, texto, fechas, booleanos (es decir, un in-
terruptor de solo dos opciones: «no» o «sí»), etc. Los crea-
dores pueden decidir cuáles crear y cuándo modificarlos.
Tres ejemplos:

–– Si se pregunta al usuario cuál es su peor pesadilla, se


puede almacenar la respuesta en un atributo de texto.
–– Si el usuario escribe más de tres tuits a Fox Mulder
(personaje de la serie The X Files), se aumenta su atri-
buto numérico de inteligencia en 1 punto.
–– Si el espectador responde bien las quince preguntas, se
cambia su atributo booleano «Ganador» de «no» a «sí».

De este modo, todos los datos que genera la interacción


de los usuarios no solo quedan registrados sino que pue-
den hacer que la historia cambie. Tanto «Grupos» como
«Atributos» permiten a los creadores de contenido convertir
meros datos en experiencias personalizadas.

1.3. Un ejemplo práctico

Actualmente, los datos pueden permitirnos personalizar


los contenidos; esto es posible experimentarlo ahora mismo
con esta pequeña historia.
El servicio de inteligencia británico está buscando nuevos espías para
el MI6. ¿Quieres ser el próximo 007? Tuitea «Quiero ser espía» a @
ReclutasMI6.
Si se siguen las instrucciones (pruébalo, ¡funciona!), un
personaje reclutador en Twitter nos hará dos preguntas y,

88
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

según nuestras respuestas, la conversación puede acabar de


dos modos diferentes. Lo que se utiliza es una segmentación
de los usuarios en grupos y finalmente una combinación de
grupos para dar un final personalizado a cada individuo.
Este ejemplo solo tiene en cuenta dos respuestas, y ya
se consigue una gran profundidad en la diversificación y la
segmentación. Si se integra la infinita cantidad de interaccio-
nes que nos revela el big data, el nivel de personalización y la
capacidad de crear una experiencia totalmente personalizada
para cada individuo es exponencial.

1.4. Conectar mediante API

Las API (application programming interface) son las que permiten


que esto sea posible; son «el conjunto de subrutinas, funciones
y procedimientos (o métodos, en la programación orientada a
objetos) que ofrece cierta biblioteca para ser utilizado por otro
software como una capa de abstracción».5 Dicho de otro modo,
las API son el lenguaje que hablan unas plataformas/softwares
con otros para compartir datos y entenderse.
Las API permiten que Conducttr reciba datos en tiempo
real de otras plataformas. La herramienta tiene integradas por
defecto las API de las redes sociales más comunes (Facebook,
Twitter, Instagram, YouTube, Flickr) que permiten autorizar
a la herramienta extraer y analizar las interacciones que se
producen en los canales establecidos. También a través de
API por defecto, Conducttr puede conectarse con proveedo-

5  Según define la Wikipedia [en línea]. [Consulta: 10 de enero de 2016] <https://


es.wikipedia.org/wiki/Interfaz_de_programaci%C3%B3n_de_aplicaciones>

89
E-Books & Papers for Statisticians
© Editorial UOC Big data

res de números virtuales como Twilio, Tropoo Nexmo. Esto


nos permite conectar un número de teléfono con nuestro
personaje, recibir y enviar SMS y llamadas de teléfono con-
troladas por Conducttr y personalizar su contenido según el
individuo. También cualquier dirección de correo electrónico
puede conectarse con Conducttr para que sea gestionada
por la herramienta, pero en este caso no se utiliza ninguna
API sino algo más tradicional: el reenvío de correos electró-
nicos de esta cuenta a una dirección «secreta» generada por
Conducttr.
Además de estas API por defecto, los creadores pueden
configurar manualmente cualquier otra plataforma para
enviar o extraer cualquier dato de Conducttr. De este modo,
cualquier otra plataforma, wearable o fuente de datos masivos,
es susceptible de ser conectada a la herramienta para modifi-
car dinámicamente las historias que se narran a través de ella.

1.5. Casos de estudio

A continuación, se exponen algunos ejemplos de pequeñas


historias o dinámicas en las que el big data afecta al contenido
o a la experiencia de usuario:

• Faktion:6 conectando Conducttr con la API de YouTu-


be, se genera esta breve aventura interactiva que conecta
el contenido audiovisual con nuestro número de teléfono.

6  Esta experiencia puede probarse en el siguiente enlace: [Consulta: 10 de enero


de 2016] <http://www.conducttr.com/demos/faktion-cross-platform-interac-
tion/>

90
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Antes de comenzar, un formulario de registro nos pide


nuestro número de teléfono y, al proporcionarlo, el vídeo
comienza. El usuario comienza a recibir llamadas de te-
léfono y SMS que tendrá que contestar para ir eligiendo
su camino a lo largo de la historia. Según sus mensajes de
respuesta, se le mostrará la historia desde un punto de vista
u otro, o acabará con un final trágico para uno o para otro
personaje. De este modo, las decisiones que el espectador
toma en su móvil afectan de manera inmediata al vídeo que
está siendo mostrado.
• Twine: este dispositivo de la empresa Supermechanical7
actúa como sensor, en este caso de orientación. El dispo-
sitivo lanza una llamada API según su posición en el espa-
cio o si alguien lo cambia de posición. Aunque se diseñó
mayoritariamente para usos en domótica, nada impide que
se realicen usos más creativos y aplicados a la creación de
contenidos. En este ejemplo, se insertó el Twine dentro de
un osito de peluche, de modo que cuando los usuarios lo
ponen boca abajo, a través de Conducttr se puede hacer
que llame o tuitee implorando que se le ponga boca arriba.
La misma tecnología podría ser utilizada de otro modo,
instalando el Twine en el pomo de una puerta en un even-
to, espectáculo o instalación inmersiva, de modo que el
contenido de vídeo de esa sala no comience a reproducirse
hasta que el espectador abra esa puerta.
• Scalextric: en este ejemplo, ya no se trata de datos pro-
ducidos por el comportamiento de un solo individuo,
sino que se utiliza toda la conversación en una cuenta de

7  Se recomienda ampliar información en <http://supermechanical.com/twine/>

91
E-Books & Papers for Statisticians
© Editorial UOC Big data

Twitter para desencadenar una acción. El objetivo de este


proyecto es visibilizar en el mundo físico las opiniones de
los usuarios sobre el tráfico. Para ello se conecta una placa
Arduino8 al mando de un Scalextric tradicional. Esta placa
controlada por Conducttr va a permitir que el coche se
mueva o se pare según lo que los tuiteros estén comentan-
do sobre el tema y los hashtags que estén utilizando. De este
modo, la conversación en línea no solo se hace patente a
través de visualizaciones de datos sino que puede modi-
ficar el mundo real o, incluso, convertirse en parte de la
solución de problemas que nos afectan a todos.
• ColaLight: en este proyecto se utiliza el big data en tiem-
po real como materia prima para influenciar el contenido
de la historia. Se trata de una pequeña narración interacti-
va sobre una niña de Bombay enmarcada en un proyecto
de concienciación en la India sobre el uso de lámparas de
queroseno, altamente contaminantes y perjudiciales para
la salud, y la posibilidad de sustituirlas por lámparas led de
reciclaje. En este caso, se conectó Conducttr a una fuente
de datos en tiempo real que medía la cantidad de polución
en Bombay: un Raspberry Pi9 arrojando mediciones a una
plataforma de big data hoy desaparecida: Cosm.10

8  Arduino es una plataforma de hardware libre consistente en una placa con un


microcontrolador sobre la que se pueden construir diferentes proyectos basados
en necesidades electrónicas.
9  A diferencia de Arduino, que es solo un microcontrolador, Raspberry Pi es una
placa-computadora completamente funcional.
10  A día de hoy se ha transformado en Xively (https://xively.com/), pero carece
de la misma funcionalidad que Cosm, como repositorio de fuentes abiertas de
big data.

92
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

La historia, para generar concienciación sobre el tema


en cuestión tal y como hemos comentado, gravitaba en
torno a una niña de un pueblo cercano a Bombay con la
que los usuarios podían comunicarse. Puesto que la narra-
ción estaba conectada a esa fuente en tiempo real, en los
momentos en los que la polución en Bombay se disparaba,
la niña estaba más triste y arisca. En cambio, cuando los
niveles de contaminación bajaban, la niña se mostraba más
contenta y feliz de acudir a la escuela.

1.6. Posibilidades

Como se muestra en los ejemplos, las posibilidades son


infinitas. Nuestros contenidos audiovisuales pueden enrique-
cerse con dinámicas que aprenden del comportamiento de
nuestros espectadores o que les invitan a participar en his-
torias que cambian en tiempo real de acuerdo a los números
que arroja el big data.
¿Y si hacemos que el espectador solo pueda ver el siguien-
te episodio de nuestro programa de vida saludable cuando
haya conseguido acumular 15.000 pasos en su FitBit?11
¿Y si involucramos a los anunciantes, no mediante spots,
sino haciendo que los usuarios tengan que recoger códigos
en sus tiendas para desbloquear contenido exclusivo sobre el
actor de moda?

11  Una de las marcas más relevantes de dispositivos de monitorización de datos


generados por el individuo (pasos realizados, calorías quemadas, horas de sueño).

93
E-Books & Papers for Statisticians
© Editorial UOC Big data

¿Y si una página exclusiva de nuestro webdoc12 sobre eco-


nomía europea solo fuera accesible cuando la moneda euro
estuviera en una tendencia de devaluación?13
¿Y si en el plan de marketing de nuestra película sobre un
pescador nuestro protagonista solo tuiteara cada vez que hay
marea alta?14
¿Y si el escenario de nuestra experiencia de realidad virtual
sobre un aterrizaje en Marte temblara cada vez que se registra
un impacto de meteorito en la NASA?15

1.7. Conclusión

Para los creadores de contenido, conocer y utilizar big data


no solo nos permite comprender el rendimiento de nuestro
producto, sino que nos da libertad para construir un tipo de
contenidos personalizados, dinámicos, adaptables y capaces de
generar un engagement16 mucho más profundo en el espectador.
Las aplicaciones del big data, más allá del uso estrictamen-
te analítico, tienen infinidad de posibilidades creativas. Sin
embargo, siempre es necesario volver a los objetivos de nego-
cio para dilucidar la pertinencia de este tipo de estrategias.

12  Un documental interactivo, alojado en una página web, en el que el espectador


puede decidir qué contenidos consumir o tiene algunos elementos de gamificación.
13  Conectando con una API que monitoriza las fluctuaciones de moneda como
https://currency-api.appspot.com/
14  Conectando a un banco de datos como https://www.worldtides.info/
15  Conectando con su API que registra meterorite landings https://data.nasa.gov/
view/ak9y-cwf9
16  Traducido como «enganche» o «compromiso», la capacidad de un contenido
de generar una atracción poderosa y persistente en el espectador.

94
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

La utilización de datos como fuente narrativa debe ser un


recurso más para alcanzar nuestros objetivos, ya que si estas
iniciativas no están enmarcadas en una estrategia de conte-
nidos clara o con un público objetivo bien definido, corren
el riesgo de quedar en mero fuego de artificio. La clave para
obtener los mejores resultados siempre se esconde en tener
claro desde el principio a dónde y a quién queremos llegar
con nuestros contenidos.

2. Gestión de datos en Real Time TV


Francisco Asensi Viana y Beatriz Pérez de Vargas

El uso del social media y de la denominada «segunda panta-


lla», smartphones, tablets o laptops, ha transformado la creación
de los formatos televisivos. La denominada televisión social se
conforma como una innovación en la forma de ver y comentar
la programación televisiva: ahora, y a partir de las redes socia-
les, conectada y en red, también supone un punto de inflexión
para los creativos y productores de televisión. La realización
de nuevos programas donde la gestión de datos en real time se
convierte en el eje o columna vertebral del propio formato ya
es una realidad en países de nuestro entorno, y supone una
auténtica revolución en la forma de entender y emplear el big
data para ello. La implantación de estas herramientas surge en
Europa, en países como Holanda o Reino Unido.17

17 Tsichiya, Aki (2014). «How can TV ride the Big data wave?». [en línea]. The
Guardian. [Fecha de consulta: 10 de octubre de 2015]. <http://www.theguardian.
com/media-network/media-network-blog/2014/aug/29/tv-advertising-big-data>

95
E-Books & Papers for Statisticians
© Editorial UOC Big data

Las nuevas formas de integrar los datos masivos de


manera intrínseca y a «tiempo real»18 en un programa de
televisión permiten no solo medir el consumo de conteni-
dos audiovisuales, sino también profundizar en el efecto que
el producto genera en el espectador, así como modificar el
propio formato en pro de las preferencias de la audiencia.
Se cumple así un triple objetivo para los productores y crea-
tivos de televisión: complementar la información cuantita-
tiva y cualitativa que hasta ahora nos ofrece Kantar Media,
revitalizar determinados géneros televisivos que podrían
verse afectados por la llegada del video on demand –eventos
y formatos en directo– y favorecer el engagement, es decir,
intensificar la relación entre los contenidos y el espectador
a través de la interactividad.
Los objetivos son realizables a partir de la interacción
de la audiencia dentro de los formatos televisivos a tiempo
real. Para desarrollar este nuevo contexto conectado en el
que las pantallas se multiplican y la interacción se impulsa,
las productoras de televisión deben cambiar su fisionomía
y centrarse en el desarrollo de la tecnología necesaria para
llevar a cabo este nuevo ecosistema amparado por el big
data.
«Seis meses atrás hacíamos lo básico: recopilar los datos
de audiencia de televisión, tráfico web y los números de
las principales redes sociales. Ahora tenemos un equipo de
business intelligence formado por doctores en matemáticas.
Cada dato estadístico que obtenemos construye valor en

18  El término «tiempo real» hace referencia al momento de la emisión y al uso de


los datos simultáneamente a esta.

96
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

los contenidos» (Phillip O´Ferral, vicepresidente senior de


Viacom).19
El presente capítulo pretende explicar el desarrollo de este
tipo de tecnología, dibujar el mapa estratégico y perfilar la
metodología creativa del llamado big content.20 Para ello, se ha
recurrido a tres ejemplos específicos –Gran Hermano, The Big
Picture y Utopía– de tecnología integrada en formatos televisi-
vos y a la búsqueda de otras fuentes documentales relaciona-
das con el big data como artículos especializados y boletines
del sector. La aparición de nuevas técnicas de integración de
datos masivos dentro del propio formato no simbolizará la
caída de los ya tradicionales géneros televisivos, pues nace
como un complemento añadido para ellos, con lo que el
resultado es una integración de la audiencia de mayor calidad
que la alcanzada hasta el momento.

2.1. Dentro de Gran Hermano

Pocos formatos de televisión –especialmente en el


género del reality show– han alcanzado la longevidad de un
formato como Gran Hermano (GH), creado por Endemol
y producido en España por Zeppelin Televisión para
Mediaset (Telecinco), en una constante evolución para

19 Traducción del autor. GFK. «Whitepaper sobre big data en la industria


audiovisual, año 2015» [en línea]. [Fecha de consulta: 18 de febrero de 2016].
<https://www.gfk.com/fileadmin/user_upload/dyna_content/Global/docu-
ments/Whitepapers/GfK_WhitePaper_Big_Data_2015.pdf>
20  Van Bommel, Mark (2015). «Big content, big data» [en línea]. [Fecha de con-
sulta: 18 de febrero de 2016]. <https://www.linkedin.com/pulse/big-content-
data-mark-van-bommel>

97
E-Books & Papers for Statisticians
© Editorial UOC Big data

incorporar cambios que muestren, temporada tras tem-


porada, un afán de renovación continua, a la vez que los
elementos que identifican el formato no se desdibujen y
afecten a la audiencia.
En los últimos años (GH comenzó a emitirse en España
en el año 2000) la cuota de audiencia del reality había entrado
en una tendencia descendente que hizo saltar las alarmas;
¿podía estar agotándose el formato? La edición número
nueve de GH había sido la última en acercarse al 30 % de share
medio. La edición número doce bajó del 20 % (18,5 %) y,
tras un pequeño repunte en la edición «12+1», GH14 regresó
a los números inferiores al 20 %,21 lo que llevó a la cadena a
dar un tiempo mayor entre ediciones. El producto estrella de
Zeppelin TV y una de las insignias de Mediaset quedó pos-
puesto hasta que se encontrara un momento adecuado para
relanzar su emisión.
Finalmente, GH14 se emitió en los primeros meses del
año 2013, en plena expansión del uso de las redes sociales
entre la audiencia y con el acceso a contenidos audiovisuales
por streaming (distribución de contenido audiovisual a través
de internet) en ascenso. De hecho, los datos de consumo
por internet del streaming del programa contribuían notable-
mente al número total de usuarios únicos de la página web
de Telecinco, pero este hecho no parecía trasladarse a los
datos de emisión broadcast. La web de Telecinco consiguió
desbancar del liderazgo en la categoría «televisión» a la web
de RTVE, cuyo dominio en la categoría se mantenía mes

21  Información procedente de Barlovento Comunicación.

98
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

tras mes gracias a esta contribución, según los datos audita-


dos de OJD.22
Además, la edición catorce de Gran Hermano incorporó, en
esa búsqueda constante de innovación por parte de sus pro-
ductores, una herramienta de interacción social en directo: la
aplicación AppGree.23 Esta aplicación permitía a la audiencia
plantear temas que deseaban ver abordados durante el pro-
grama (por ejemplo, una pregunta que querían ver contestada
por un concursante concreto) y llegar a un acuerdo sobre cuál
sería finalmente la cuestión que se incorporaría al formato.
Por otra parte, las cuentas oficiales en redes sociales del pro-
grama, especialmente @ghoficial, estaban convirtiéndose en
el catalizador de la conversación social durante las emisiones,
llegando a ser una auténtica «segunda pantalla» de la emisión
televisiva.
El gran reto a abordar consistía ahora en unir de una
forma más estrecha ambos mundos, el digital y el broadcast,
ya que de esa manera se completaría la evolución definitiva
del reality hacia su conversión en un formato integrado en la
realidad de la audiencia del siglo xxi, haciéndolo además de
una manera coherente con el propio formato. Gran Hermano

22 OJD (Oficina de Justificación de la Difusión) es la empresa que controla


la distribución de distintas publicaciones. Desde hace algunos años, también
certifica los datos de tráfico de las webs adheridas, como es el caso que se men-
ciona y que se recoge en la siguiente noticia [fecha de consulta: 15 de febrero
de 2016]: http://www.mediaset.es/inversores/es/CPDatostraficoenInternet_
MDSFIL20130513_0003.pdf
23  Noticia en ABC (2013) sobre la integración de AppGree en Gran Hermano.
«Appgree, la app que revoluciona la participación en Gran Hermano» [en línea].
[Fecha de consulta: 10 de marzo de 2016]. <http://www.abc.es/tecnologia/movi-
les-aplicaciones/20130523/abci-appgree-gran-hermano-201305222103.html>

99
E-Books & Papers for Statisticians
© Editorial UOC Big data

15 –edición que finalmente arrancó en septiembre de 2014–


se convirtió en el primer laboratorio de experimentación de
la aplicación de datos real time recabados de las redes sociales
a la narrativa de un programa de televisión.
La monitorización de la conversación en redes sociales
con respecto a un programa de televisión no era en abso-
luto infrecuente en 2014, más bien al contrario. Con cierto
matiz de obsesión por parte de los directivos de las cadenas,
los departamentos de audiencia y analíticas digitales habían
incorporado, de una u otra forma, el uso de herramientas
de investigación que les permitieran extraer insights24 válidos
para destilarlos de entre el maremágnum de información que
se mueve a través de Twitter y Facebook principalmente.
El hecho de que Kantar Media hubiera adquirido Tuitele,
la empresa especializada en audiencia social, y que como
consecuencia comenzara a publicar un ranking diario, añadió
presión sobre las cadenas totalmente obsesionadas por la
posición en el ranking. Ya no era suficiente liderar en el share
del día en los diferentes segmentos temporales (access, prime
time, etc.); también comenzaba a considerarse indispensable
hacerlo en el ranking de audiencia social.
Las herramientas de monitorización se usan principalmen-
te en dos vertientes. Una, post mortem o como foto a posteriori
de lo que ha sucedido tras la emisión: influencers destacados,
temas clave, opiniones sobre la emisión, etc. Y otra, como
sistema preventivo de posibles crisis de comunicación en
el entorno digital. No es habitual un uso real time que per-
mita extraer información en caliente para alterar escaletas,

24  Percepciones o conclusiones que emanan o pueden deducirse de la actividad


del usuario.

100
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

guiones o intervenciones durante un programa en directo.


Obviamente, siempre nos referimos al directo, puesto que
esta manera de utilizar los datos no es posible en programas
en diferido o enlatados como las series de ficción o los pro-
gramas documentales.
Para la edición decimoquinta de Gran Hermano, la produc-
tora partió de un interés inicial por la monitorización de la
conversación social con idea de entender rápidamente que el
enfoque podría tener un mayor alcance. La división digital de
la matriz del grupo en el que se inserta Zeppelin, Endemol
Beyond, abordó la selección de una herramienta con este
objetivo. Fue seleccionada la empresa Séntisis, una startup
española que había desarrollado algoritmos semánticos pro-
pios, llevando más allá la pura monitorización. Un algoritmo
semántico, en el contexto de las redes sociales, incorpora
determinadas reglas lógicas que permiten discernir qué sig-
nificado puede tener un término en un contexto concreto,
de forma que se le pueda asignar un valor para categorizarlo.
Tradicionalmente, la monitorización en redes sociales asigna
tres valores a los comentarios de los usuarios: positivo, nega-
tivo o neutro. Esto es con respecto al sentimiento que un
contenido concreto despierta en un usuario. A menudo, estos
análisis tienen un margen de error elevado. Añadir una capa
semántica permite analizar de manera más profunda el sen-
tido de lo que los usuarios manifiestan en sus comentarios.
Junto con esta empresa, se definió una planificación en fun-
ción del calendario de emisiones de los programas (El Debate
y La Gala). Un equipo mixto compuesto por dos analistas de
Séntisis y dos perfiles, social media manager y communinty manager,
de Endemol Beyond, trabajaba sobre el terreno durante las
emisiones en contacto permanente.

101
E-Books & Papers for Statisticians
© Editorial UOC Big data

El proceso de trabajo consistía en elaborar informes en


tiempo real con los datos obtenidos por Séntisis durante el
programa. Estos informes reflejaban algunos de los aspectos
y métricas que normalmente se agregan a los informes poste-
riores a la emisión. Además, se pretendía analizar el impacto
tanto de los contenidos generados específicamente para redes
sociales como los que se emitían en el programa. Por ejemplo,
desde la cuenta oficial @ghoficial se lanzaba una propuesta
de participación para la audiencia social asociada a un hashtag
(#selfieGH15) consistente en fotografiarse mientras se visio-
naba el programa en televisión. Desde la herramienta, se ana-
lizaba la evolución e impacto de esta iniciativa y se promovían
nuevas acciones sobre la marcha en función de los resultados.
Pero lo realmente innovador tuvo que ver con que los datos
recabados a través de la herramienta se convirtieran en conteni-
do en el programa. No fue una cuestión de sobreimpresión de
tuits o datos de la conversación en pantalla, ni tampoco de ini-
ciativas como lanzar dos hashtags diferentes para apoyar a uno u
otro concursante a modo de votación. Lo innovador consistió
en un uso menos perceptible pero con resultados de mayor
calado. Así, de igual forma que en el ciclo de trabajo antes
descrito, los analistas generaron informes sobre la marcha que
se trasladaban al equipo de social media de Zeppelin TV. En
este caso,25 adicionalmente, también se trasladaron a un coor-
dinador editorial convertido en enlace, en el ámbito de conte-
nidos, con los redactores del programa, quienes podían tomar
decisiones en el momento para modificar la escaleta. Con esta

25  Vídeo explicativo sobre el proceso de trabajo Séntisis-Gran Hermano (2015).


«El mayor fenómeno televisivo en redes sociales» [en línea]. [Fecha de consulta:
10 de marzo de 2016]. <https://www.youtube.com/watch?v=bCiJAUtWi9g>

102
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

acción, los analistas podían informar sobre la repercusión de


las intervenciones de los colaboradores con frases como esta:
«Colaborador xx genera xx retuits con un elevado porcentaje
de engagement. Recomendación: ampliar intervención».

2.2. Afrontar un huracán en redes sociales:


#TimoGH15

Una contingencia en la que el uso de la información en


tiempo real y la monitorización tuvieron una especial rele-
vancia durante la edición decimoquinta de Gran Hermano
tuvo lugar en la segunda semana de noviembre de 2014 y días
sucesivos. En ese momento, la radicalización en redes sociales
de los seguidores de concursantes antagonistas provocó que
una parte de los fans, entre los que se encontraban impor-
tantes influencers, pusieran en marcha un hashtag alternativo al
oficial para dar visibilidad a su sentimiento provocando una
auténtica batalla de hashtags entre las diferentes facciones de
fans y las cuentas oficiales del programa. Encontrar el tono
adecuado para sosegar un escenario tan inmerso en emocio-
nes no es sencillo, y menos en las redes sociales. Por tanto, la
clave estaba en identificar cuál era el origen del descontento,
qué cuentas los promovían y cuál era la expectativa, lo que
pudo conseguirse gracias al uso de una herramienta de moni-
torización. Además, cuando un hashtag de estas características
irrumpe en la conversación durante la emisión del programa y
se sitúa por delante del hashtag oficial, es un impacto similar al
de interferir en una emisión de televisión. De hecho, a menu-
do, este es el efecto perseguido. Durante El Debate de aquella
semana, el programa semanal emitido cada domingo en el

103
E-Books & Papers for Statisticians
© Editorial UOC Big data

que diferentes colaboradores comentan lo sucedido durante


la semana, el equipo de social media y analistas externos pre-
pararon una estrategia basada en la difusión de contenido a
tiempo real a través de influencers afines al hashtag oficial. Se
prepararon concursos vía Twitter, por ejemplo, que se lan-
zaban en momentos concretos de la emisión impulsados en
directo por el presentador del programa Jordi González.
Al terminar la edición decimoquinta de Gran Hermano, el
programa había repuntado en lo relativo a cuota media de
audiencia creciendo en más de dos puntos de media. Al mismo
tiempo alcanzó, con mucha diferencia sobre los siguientes pro-
gramas del ranking, el número uno como programa de mayor
repercusión en redes sociales, según los datos de Kantar Media,
con un acumulado de 10,7 millones de menciones.

2.3. Usando datos biométricos para contar


historias

Como se ha señalado, la edición número decimoquinta de


Gran Hermano supuso un hito en la integración de la conver-
sación social en el formato, pero, adicionalmente, esta edición
contó con una novedad hasta ese momento no utilizada antes
por ningún programa de televisión en el panorama nacional:
la generación de información y nuevas narrativas a partir de
los datos generados por dispositivos wearable.
Durante la permanencia en el plató-casa, los concursantes
fueron equipados con dispositivos wearable, concretamente
una pulsera de monitorización de actividad física que debían
vestir las veinticuatro horas del día. Los datos obtenidos
(número de pasos, quema de calorías, ejercicio practicado,

104
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

etc.) permitían seguir, desde el punto de vista de la actividad


desplegada, quién era el concursante más activo o quién lo
era menos. Estos datos eran ofrecidos en la web oficial del
programa (www.granhermano.com) a través de un dashboard
(cuadro de mando gráfico) que mostraba el ranking de activi-
dad de los concursantes y las diferentes actividades realizadas
durante el día.
El siguiente paso fue construir narrativas sobre estos datos,
de modo que la experiencia de consumo de contenidos fuera
amplificada. El equipo editorial de la web analizaba los datos y,
a partir de ahí, construía nuevas historias como en el ejemplo
del artículo «Del amor al odio… ¿hay solo un paso?».26 Este
desarrolla cómo la actividad física, recopilada a través del moni-
tor de actividad, evoluciona en relación con un evento ocurrido
en el devenir del concurso y que afecta a dos concursantes
enfrentadas por sus sentimientos hacia la misma persona mos-
trando que, mientras una de las concursantes cambia su pauta
aumentando la cantidad de ejercicio diario que realiza, en el
segundo caso la actividad baja notablemente.

2.4. Talpa y el big content

Talpa Media es una compañía holandesa responsable de


formatos de éxito como La Voz, Utopia o The Big Picture.
Además, son los pioneros en reinventar la televisión produ-
ciendo lo que denominan big content.

26 Redacción Gran Hermano. «Pulseras, del amor al odio… ¿hay solo un paso?» [en
línea]. [Fecha de consulta: 10 de marzo de 2016]. <http://gh15.granhermano.
com/blog/2014/10/27/pulseras-del-amor-al-odio-hay-solo-un-paso/>

105
E-Books & Papers for Statisticians
© Editorial UOC Big data

Los hábitos de consumo audiovisual han cambiado radi-


calmente debido al auge de un entorno multiplataforma. El
big content hace referencia a contenidos que entretienen a un
público masivo y, a su vez, ofrecen una experiencia personali-
zada y completa de entretenimiento multiplataforma. De esta
forma, revitalizan formatos en directo gracias a la conver-
gencia de la tecnología digital y los géneros tradicionales de
televisión como los game shows o los talent shows.
La interacción con los contenidos ha dejado de ser un
mero complemento para convertirse en el ingrediente esen-
cial con el que cautivar a la audiencia y conseguir su fidelidad.
Los formatos de Talpa se conceptualizan desde su origen
para una televisión conectada, y buscan una renovada y com-
pleta experiencia del espectador. La audiencia pasa a ser un
elemento activo dentro de la propia mecánica del formato.
Veamos los ejemplos:

2.4.1. The Big Picture

Este formato es un game show donde un concursante debe


responder a doce preguntas relacionadas con una fotografía
concreta. Si responde correctamente a esas doce preguntas,
el participante gana un millón de dólares. Si el concursante
tiene dudas sobre alguna de las cuestiones, o simplemente
desconoce la respuesta, puede pedir ayuda a un concursante
interactivo, seleccionado entre los espectadores que estén
jugando simultáneamente y en real time. La audiencia tiene la
oportunidad de participar a tiempo real dentro del concurso a
través de la aplicación Big Picture. Esta permite a los usuarios
participar en el concurso como si se tratara de un concursante
más, respondiendo a las mismas preguntas que se plantean al

106
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

concursante en el plató. Las respuestas de los concursantes


virtuales se proyectan en una gran pantalla en el plató. Si
acierta la respuesta, gana una cantidad proporcional al premio
monetario que reciba el concursante en plató.
It isn’t a show with an app, it’s a show that is an app27 (No es
un show con una app, es un show dentro de una app). Con
esta afirmación, el director general de Talpa Global, Maarten
Meijs, define The Big Picture. El formato ha sido candidato
al mejor concepto Second Screen 2016 para los premios
Tv-Beeld.

2.4.2. Utopia

Utopia es un experimento social en el que se realiza el


seguimiento ininterrumpido de quince personas que han
decidido construir un nuevo modelo de sociedad desde un
territorio acotado. Cada uno de los participantes abandona
sus ocupaciones para vivir durante un año en un lugar en el
que se empieza de cero: sin electricidad, agua y gas, ni con-
tacto con el exterior. Lo harán creando entre todos una nueva
civilización que será como ellos quieran, con las reglas que
determinen. Utopia es una zona sin leyes, ni normas concre-
tas. Al final de los 365 días de permanencia, a los participan-
tes no les aguarda ningún premio ni gratificación económica.
La recompensa es haber participado en una acción que para
ellos puede convertirse de algún modo en enriquecedora. Las
evoluciones de los participantes de Utopia pueden seguirse
en directo durante las veinticuatro horas del día mediante el

27  Akyuz, Gün (2014). «RTL4 gets The Big Picture» [en línea]. [Fecha de consul-
ta: 10 de marzo de 2016]. <http://www.c21media.net/rtl4-gets-the-big-picture/>

107
E-Books & Papers for Statisticians
© Editorial UOC Big data

streaming ininterrumpido a través de la web y en la aplicación


gratuita del programa, disponible para Android e IOS. El
espectador puede conectar en cualquier momento y en cual-
quier lugar a través de estas plataformas. Los seguidores pue-
den incluso llegar a ser parte de esta nueva sociedad mediante
la obtención de un pasaporte «Utopia» que les otorga acceso
ilimitado a toda la acción del programa. Los titulares de estos
pasaportes tienen la oportunidad de votar, operar las cámaras,
lograr la admisión en el programa, chatear en vivo con otros
fans y recibir actualizaciones exclusivas. La plataforma digital
Utopia ofrece oportunidades de patrocinio, todo desde un
concepto de integración plena de la audiencia dentro del pro-
pio formato. Utopia se convierte así en un concepto basado​​
en la participación e interacción del espectador. La audiencia
pasa a ser un elemento activo dentro de la propia mecánica
del formato.

2.5. Conclusión

El uso del big data en el sector audiovisual, en particular en


el universo televisivo, está aún en sus primeros pasos. Todavía
está por llegar un verdadero modelo de toma de decisiones en
tiempo real sobre los contenidos que se están emitiendo. Las
redes sociales son una fuente de gran valor, siendo la materia
prima de estos modelos de decisión aún por concretar. The
Big Picture y Utopia muestran el rol que la actividad en redes
sociales puede desempeñar dentro del propio discurrir de
un formato de televisión. Un formato que es, de por sí, en
tiempo real, en directo (tal y como el lema de GH «La vida en
directo») es más susceptible de evolucionar de forma simul-

108
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

tánea a los datos que se obtienen sobre la marcha a través de


la interacción en redes sociales.

3. El impacto de Twitter en la comunicación


de estrenos cinematográficos
Alfonso Calatrava

Con más de 320 millones usuarios activos en el mundo


que comparten más de quinientos millones de tuits cada día,
Twitter es una plataforma global para la autoexpresión y con-
versación pública que ha democratizado la creación y difusión
de contenidos en todo el mundo.
Derivado de esa naturaleza de plataforma pública, con-
versacional y en tiempo real, en Twitter se genera un enorme
volumen de información a partir de lo que la gente comenta,
de las conversaciones de los usuarios y del contenido que
estos generan. Y existe una gran variedad de temáticas de las
que se habla en la plataforma: desde política hasta aconte-
cimientos deportivos, pasando por programas de televisión
o referencias a las últimas noticias del día; los internautas
acuden a Twitter para informarse y comentar sobre temas de
actualidad.
Dentro de este conjunto de temáticas de las que se habla
en Twitter, todo lo relacionado con el cine (estrenos de pelí-
culas, noticias sobre actores, actrices o directores, eventos
como los Óscar o los Goya, etc.) genera un nivel de interés
particularmente elevado. De hecho, en el último informe
publicado por Global Web Index, empresa de investigación
especializada en análisis de audiencias digitales, el cine se sitúa

109
E-Books & Papers for Statisticians
© Editorial UOC Big data

ya como la segunda categoría de mayor interés entre los usua-


rios de Twitter en España, solo por detrás de la tecnología.
En este contexto, es lógico que las principales productoras
cinematográficas a escala mundial estén derivando una parte
cada vez mayor de su presupuesto de inversión publicitaria
para realizar comunicación en Twitter en mercados estra-
tégicos. Pero ¿qué buscan las empresas cuando desarrollan
estas acciones?, ¿qué objetivos persiguen?, ¿cuál es el aporte
de valor de Twitter en el conjunto del mix de medios para la
industria del cine?
En primer lugar, la construcción de sinergias efectivas con
otros medios es un objetivo central en este tipo de campañas.
Y es que Twitter, como medio, está posicionado casi en la
frontera entre el universo online y offline: es evidente que es una
plataforma digital y, como tal, es lógico que se sitúe dentro
del conjunto de medios en línea, pero al mismo tiempo son
constantes las referencias a contenidos generados en Twitter
en radio, prensa y, por supuesto, televisión. La posibilidad
de reforzar e incrementar el impacto de la comunicación en
medios masivos con acciones en Twitter es algo que conocen
las grandes productoras y por lo que están apostando cada
vez más para el estreno de sus grandes títulos de cada tem-
porada.
Junto con esto, hay que destacar el potencial de Twitter
para optimizar la percepción de relevancia del mensaje de
marca, derivado de su influencia sobre dos aspectos clave:
segmentación y contextualización. Y es que, como sabemos,
el impacto de cualquier comunicación, publicitaria o no,
depende tanto del mensaje en sí mismo (lo que se diga) como
de a quién se dirija (segmentación) e, igualmente importante,
el momento o contexto en el que se diga.

110
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

En relación con estos dos puntos, el hecho de que los


usuarios utilicen Twitter para expresarse, comunicarse y
compartir opinión de forma pública genera un input de gran
valor para poder optimizar estrategias de segmentación. El
foco ya no está en buscar aquellos segmentos más afines a un
determinado contenido en términos de perfil sociodemográ-
fico, sino en realmente poder identificar aquellos individuos
que, por sus gustos, sus aficiones, su perfil actitudinal, por el
tipo de cuentas que siguen, los contenidos que más les atraen
hasta incluso por los términos concretos que mencionan en
sus conversaciones en Twitter, tengan una mayor probabi-
lidad de interés y respuesta positiva a la comunicación de
un contenido cinematográfico concreto. Además, otro valor
diferencial de Twitter es su asociación con la actualidad,
con el «ahora», con lo que está ocurriendo en el momento.
Sobre este eje pivota toda la conversación en Twitter, la gente
comenta aquello que es relevante en el momento y este factor
genera oportunidades estratégicas para la industria de cine, ya
que sitúa un contexto perfecto para la comunicación de nue-
vos contenidos u ofertas (estrenos de películas, lanzamientos
en formatos para consumo doméstico, novedades, etc.).
El estreno de la película La cumbre escarlata (Guillermo del
Toro, 2015), de Universal Pictures en España, cuya campaña
de lanzamiento incluyó actividad promocionada en Twitter,
es un buen ejemplo que sirve para ilustrar la oportunidad que
comentábamos anteriormente.
A modo de contexto, cabe señalar que la película pro-
tagonizada por Tom Hiddleston, Mia Wasikowska y Jessica
Chastain se situó en los primeros puestos en recaudación
durante sus primeras semanas en cartelera. La campaña para
su promoción en Twitter se desarrolló a lo largo de cuatro

111
E-Books & Papers for Statisticians
© Editorial UOC Big data

semanas (entre los días 28 de septiembre y 25 de octubre)


e incluyó tanto tuits promocionados (alguno incluyendo
vídeos con el tráiler de la película) como el lanzamiento de
una tendencia promocionada para situar la película entre los
trending topics (TT) justo coincidente con el día del estreno (16
de octubre).
Desde el departamento de investigación de Twitter en
España se realizó un estudio con la consultora Crimson
Hexagon, especialistas en análisis de impacto de la conver-
sación en entornos sociales de internet, con el objetivo de
obtener insights relevantes y poder ofrecer un diagnóstico de
eficacia publicitaria de la acción.
Así, en primer lugar, se analizó el impacto de la acción en
términos de notoriedad. Y en ese sentido, el resultado fue
realmente espectacular: la campaña consiguió generar un gran
volumen de conversación alrededor del estreno de la película
con más de doce mil tuits publicados durante el periodo ana-
lizado. También logró un incremento de la conversación muy
significativo durante el período específico de campaña que,
incluso, continúo siendo relevante varias semanas después del
final de la acción promocionada. Además, el lanzamiento de
la tendencia promocionada funcionó como un complemento
perfecto en la campaña, contribuyendo a generar un pico en
la conversación relativa a la película, justo coincidiendo con
el día del estreno.
Pero no se trataba únicamente de medir el éxito de la
acción en términos de la notoriedad alcanzada, sino que
en el análisis se profundizó también sobre aspectos más
cualitativos estudiando el efecto de formatos concretos o
el impacto de la acción sobre indicadores más cercanos al
final del embudo de compra. En este sentido, se pudo con-

112
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

trastar cómo aquellos tuits que incluían contenido de vídeo


funcionaron particularmente bien para generar engagement y
viralizar el contenido dentro de la plataforma con niveles
de retuit muy destacados (aspecto este muy relevante, ya
que cuando los propios usuarios retuitean contenido están
haciendo suyo el mensaje de la marca, actuando como pres-
criptores en un entorno público como Twitter; esto influ-
ye decisivamente en el impacto del mensaje y moviliza la
intención positiva de compra). Sin duda, el vídeo en Twitter
en sus distintas versiones (nativo, Vine, Periscope) es un
formato muy potente en términos de comunicación para
las marcas, y en el caso concreto de esta campaña se pudo
observar con claridad.
Además, profundizando en el análisis y atendiendo a los
términos concretos que se referían en la conversación sobre
la película, se pudo observar cómo junto con menciones
específicas a los protagonistas (director, actores y actrices)
se registró un volumen muy significativo de tuits de usuarios
que mencionaban, explícitamente, su intención de ir a ver la
película en los días inmediatamente posteriores a su estreno.
Es decir, se consiguió dirigir todo el volumen de conversa-
ción hacia la generación de expectativa positiva en torno a la
película, creando un entorno muy adecuado para conseguir
movilizar a la audiencia.
En esta línea, se estudió también el sentimiento de la con-
versación (es decir, el peso de las menciones positivas, nega-
tivas y neutras) de todo lo que se comentaba en Twitter en
relación con la película promocionada. Para ello, se emplea-
rían tres períodos temporales distintos (pre, post y durante la
campaña). Este análisis permitió obtener algunas conclusio-
nes muy relevantes:

113
E-Books & Papers for Statisticians
© Editorial UOC Big data

• La campaña contribuyó de manera decisiva a incrementar


significativamente el peso del sentimiento positivo vincula-
do a la película, con un crecimiento de 18 puntos porcen-
tuales en el periodo posterior a la misma.
• El arranque de la campaña, planificado para varias semanas
antes del estreno, contribuyó a generar expectativa y per-
mitió observar una mejora del sentimiento positivo vincu-
lada a la película, incluso anterior a su estreno.
• Uno de los principales drivers o motores de ese incremento
del sentimiento positivo fueron los propios comentarios de
aquellos usuarios que ya habían visto la película (contenido
de gran valor, ya que es conocido que la recomendación
personal es el principal factor de influencia en la decisión
del consumidor). En ese sentido, la campaña ayudó a ca-
nalizar todas estas experiencias, fomentando que la gente
compartiera sus opiniones y que, finalmente, se alcanzara
una escala de dimensión en volumen mucho mayor que si
solo se hubiese realizado actividad orgánica (no pagada).

Por último, destacábamos al inicio del capítulo el posicio-


namiento de Twitter en la frontera entre los medios online y
offline, y la derivada oportunidad de generar sinergias potentes
en el mix de medios como uno de los aportes clave de Twitter
para los anunciantes. Y, efectivamente, esto también se pudo
observar en el análisis de esta campaña concreta. Así, los
principales soportes de prensa, como El País, El Mundo o
ABC, publicaron tuits desde sus cuentas oficiales haciendo
referencia al estreno de la película. Ocurrió lo mismo con
canales de televisión como Antena3 o MTV e, incluso, tam-
bién programas líderes de la radio en España como Los 40
Principales. Además, en esta línea también se consiguió involu-

114
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

crar en la conversación a cuentas especializadas en contenidos


cinematográficos, independientes y con un número muy alto
de seguidores y, por tanto, con capacidad de generar estado
de opinión en relación con el contenido que se promociona.
Conseguir comunicar el contenido de manera que genere
interés, expectativa y, además, movilice una respuesta positiva
en términos de intención de ir a ver la película, son los objeti-
vos centrales de cualquier campaña de promoción de estrenos
cinematográficos. Mediante este análisis se puede entender de
forma clara el potencial de Twitter para contribuir al éxito de
estas acciones. Ahora bien, es importante entender también
el alcance de esta oportunidad, es decir, hasta qué punto este
caso concreto es generalizable, o el impacto de Twitter es
muy dependiente del tipo concreto de película que se quiere
promocionar y sus características específicas (nacionalidad,
género, género, target, etc.).
Por supuesto, es evidente que hay contenidos más y menos
afines a los distintos perfiles de audiencia y esto, lógicamente,
influye también en potencial de impacto de distintas cam-
pañas en Twitter. Pero, realmente, se ha podido contrastar
cómo el propio valor de esta plataforma, como medio para la
comunicación de contenidos cinematográficos, lo genera un
aporte incremental de eficacia publicitaria, que no influye úni-
camente en la promoción de aquellos contenidos que puedan
ser más afines según composición de audiencia.
Esta conclusión viene avalada por un estudio, basado en
modelización econométrica que desde Twitter desarrollamos
en España con MarketShare (empresa multinacional especia-
lizada en este tipo de análisis) con el objetivo de identificar
todas las variables que influyen en la venta de entradas de
cine y cuantificar su contribución específica. En concreto,

115
E-Books & Papers for Statisticians
© Editorial UOC Big data

este estudio, que recientemente ha sido presentado en públi-


co, se basó en el análisis de hasta 103 lanzamientos distintos
de películas durante un período de cuatro años (hasta el
primer trimestre de 2015). Con este input de información,
Marketshare calculó un modelo matemático que alcanza un
nivel de ajuste muy elevado (porcentaje promedio de error =
3,4 %), garantizando la calidad de los resultados. El ejercicio
de modelización no solamente permitió contrastar la hipó-
tesis inicial de que la actividad en Twitter tiene una relación
directa con la venta de entradas de cine, sino que además
se pudo cuantificar su impacto directo. Y, en este sentido,
MarketShare concluye que la actividad en Twitter explica
un 12,9 % del total de venta de entradas de cine durante el
período analizado: una contribución sin duda muy relevante.
Por último, se realizó también un cálculo de eficiencia o ROI
de la actividad promocionada en Twitter para la industria
cinematográfica, con un resultado en términos de retorno
sobre la inversión publicitaria de 2,41 euros por cada euro
invertido.
En resumen, y a modo de conclusión, en un entorno de
medios marcado por la fragmentación de audiencias y la
saturación publicitaria (lo que está afectando negativamente
a la eficacia publicitaria de los anunciantes), es clave diseñar
estrategias de planificación que permitan diferenciar la comu-
nicación e incrementar la percepción de relevancia del mensa-
je para conseguir optimizar el recuerdo publicitario. Y en esto
justamente radica el potencial de Twitter como herramienta
de marketing en la industria cinematográfica, tal y como se ha
tratado de explicar a lo largo del capítulo.

116
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

4. Analítica digital en marca.com


Francisco Gallego

4.1. Entender el mundo de los datos


en los medios

Los datos siempre han estado presentes en las empresas


de medios con independencia de su tamaño y facturación.
Siempre han sido utilizados para evaluar su gestión, tanto inter-
na como externa. El caso del que se pretende hablar en estas
pocas páginas, el de marca.com, no es una excepción.
Sin embargo, varios conceptos han cosechado cierto éxito en
los últimos años a la hora de indicar la importancia que una buena
cultura de datos tiene en la empresa para intentar adquirir ventajas
competitivas y explotar sus posibilidades en favor de un aumento
de los ingresos, una reducción de costes o una mayor satisfacción
del usuario que adquiere sus productos o servicios. Y, de nuevo,
Marca o, mejor dicho, marca.com tampoco es un caso aislado.
Uno de esos conceptos es el de big data, macrodatos, en cas-
tellano, tal y como recomienda Fundeu,28 y tiene importantes
implicaciones dentro de las organizaciones, pues está desafian-
do viejos enfoques del business intelligence. Además, va dando
paso a la construcción de estructuras de información basadas
en la analítica digital, sobre las que sustentar modelos de ges-
tión acordes con el nuevo contexto digital. En definitiva, está
dando paso a un nuevo planteamiento de la gestión directiva y
la cultura corporativa de toma de decisiones.

28 FundéuBBVA «Macrodatos e inteligencia de datos, alternativas a big data».


[Consulta: 10 de marzo de 2016]. http://www.fundeu.es/recomendacion/macro-
datosalternativa-abig-data-1582/

117
E-Books & Papers for Statisticians
© Editorial UOC Big data

En el entorno de la comunicación, las aplicaciones prácti-


cas del big data deben entenderse, a priori, en dos sentidos: el
de la gestión publicitaria y el de la gestión de contenido. En
ambas, se busca un mayor entendimiento del usuario/lector y
de los consumos de información que realizan.
Por un lado, en lo relativo a la gestión de la publicidad, las
técnicas de recolección, procesado y análisis de datos masivos
no estructurados ha permitido mejorar la gestión que de las
impresiones publicitarias se hace por parte de los medios y
agencias de comunicación, buscando mejorar el rendimiento
económico de los sites ofreciendo publicidad más personali-
zada.
Por otro lado, en lo referido a la gestión del contenido, los
principales medios, tanto en Estados Unidos como en España,
tienen como objetivo utilizar técnicas de big data y algoritmos
predictivos para ayudar a proporcionar una mejor experiencia
mediante la personalización y recomendación a partir de los
gustos del usuario. Así, tanto analistas como redactores pue-
den trabajar con métricas que ofrecen un conocimiento más
profundo del lector «navegador» en tiempo real.
Más que una proyección a futuro, es algo que ya se está
produciendo. De aquí en adelante, será difícil sacar rendi-
miento económico y comunicativo de acciones, campañas y
estrategias comunicativas y publicitarias que no cuenten con
los datos a la hora de desarrollar productos y proyectos.
Cada día es más obvio que se hace necesario incorporar
nuevas métricas al análisis del panorama de medios. Los cam-
bios tecnológicos que, a su vez, están provocando cambios
económicos, sociales y empresariales han hecho evolucionar
el consumo de prensa, radio y televisión por parte de los lec-
tores, oyentes, televidentes y/o usuarios.

118
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

4.1.1. El caso de MARCA.com

Marca, que pertenece al Grupo Unidad Editorial, es un


diario de información deportiva centrado, principalmente, en
el fútbol. Históricamente, ha sido el periódico deportivo más
vendido, a bastante distancia de As, su principal competidor,
y el segundo más vendido en toda la prensa española, solo
superado por El País (Marqués, 2012).
Si su trayectoria en papel ha sido conocida, brillante y
notoria, en estas líneas hay que destacar un dato muy impor-
tante en la concepción de lo que, a día de hoy, es el periódico:
en diciembre de 2015, marca.com cumplió veinte años de
vida.
Por aquel entonces, el término «red de redes» para denomi-
nar internet era solo la visión de unos pocos, mitad ingenuos
mitad locos, pero, sobre todo, era una apuesta muy arriesgada
para otros. Sin embargo, veinte años después, al igual que en
papel, marca.com es líder de su categoría, con gran presencia
en mercados latinoamericanos y mirando frente a frente a
otros diarios europeos, como gazzetta.it o lequipe.fr.
Dentro de su grupo editorial es el primer producto, inclu-
so por delante de la cabecera El Mundo si lo medimos en
términos de audiencia. Es interesante este dato, junto con el
de la generación de negocio, en términos de análisis de la evo-
lución del poder interno dentro de la organización del grupo. 
En aquel 1995, y coincidiendo con el lanzamiento y cre-
cimiento de la Liga Fantástica en su versión de papel, Marca
se introdujo en el mundo digital. Tal y como el propio grupo
señala: «Al principio, solo fueron informaciones para los
entrenadores del juego y pequeñas actualizaciones del mismo.
No fue hasta el año 1997 cuando la home de Marca comenzó

119
E-Books & Papers for Statisticians
© Editorial UOC Big data

a dar sus primeros pasos. Aún en pañales surgieron los foros


para escuchar e interactuar con los internautas».29
Desde entonces, la rápida evolución de la tecnología en
lo que llevamos de siglo XXI ha retado al equipo de Marca a
presentar la información de la forma en la que la audiencia
la iba demandando con el paso de los años. En apenas diez
años de vida, la web de Marca pasó de 116.548 páginas vistas
al mes de 1995 hasta las 310.984.080 de 2005. Esta abru-
madora evolución se produjo gracias a las actualizaciones
constantes para tratar de llegar a tan enorme demanda. Cada
gran acontecimiento deportivo (juegos olímpicos, mundia-
les, eurocopas, etc.) suponía un apasionante desafío para
intentar seguir respondiendo a las expectativas. Hoy, veinte
años después, el dato es esclarecedor: trece mil millones de
páginas vistas.
De esta forma, con el paso de los años, marca.com ha
ido configurando un universo de web satelitales, productos
y redes a su alrededor. En el invierno de 2016, Marca Sites
englobaba sites tan dispares como:

• tiramillas.net, la web de ocio de marca.com, donde se pue-


de encontrar información sobre estrenos cinematográfi-
cos, novedades musicales y conciertos.
• marcamotor.com, la web de motor del periódico, en ple-
no proceso de integración con el portal principal para una
mejor explotación del contenido desde el punto de vista
publicitario.

29  Roca, Álvaro (2015), «Marca.com cumple 20 años». [En línea] Información disponi-
ble en [Consulta: 10 de marzo de 2015]. http://www.MARCA.com/2015/11/30/20-
aniversario/1448878589.html

120
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

• es.ign.com, centrado en ofrecer información sobre últimas


novedades y los mejores análisis del mundo de los video-
juegos, consolas, móviles, cine y series de televisión.
• marcaapuestas.es, portal con gran peso dentro del grupo,
centrado en las apuestas de mercado en todos los deportes
y en ser la casa de apuestas en línea de Marca.

Del mismo modo, marca.com dispone de múltiples


productos dentro del propio site. Son productos con unas
características propias que hacen que, tanto en cuanto a la
presencia en la web como en el ámbito de la explotación,
tengan identidad propia:

• Marca buzz, que intenta ofrecer los mejores memes, gifs30 y


rankings humorísticos deportivos.
• Marca plus, primera revista interactiva de Marca para PC,
tabletas y dispositivos móviles, ganadora a la Revista Digi-
tal del año 2015.
• Ivitalia, plataforma que ofrece todo lo necesario para un
estilo de vida saludable: nutrición, deporte y salud.
• Marca juegos, que busca ofrecer los mejores juegos de pó-
ker en línea, tragaperras, bingo, etc.

Para marca.com las fronteras desaparecieron hace mucho


tiempo: su presencia en Latinoamérica a día de hoy es un hecho.
Se puede decir que la estrategia de marca.com se enmarca en un
mercado cada vez más global. Los diez millones de navegado-
res de América Latina suponen ya casi el 25 % de sus usuarios.

30  Graphic Interchange Forma. Formato de intercambio de gráficos. Una animación


GIF es una serie de imágenes mostradas en secuencia.

121
E-Books & Papers for Statisticians
© Editorial UOC Big data

Además, Marca English, otro de los productos estrellas de


marca.com, creada en 2012, se ha convertido en un medio de
referencia para los apasionados de la Liga de habla inglesa.
En estos veinte años se han ido presentado desafíos a los que
marca.com ha sabido responder hasta convertirse en un sitio glo-
bal en el que el usuario sea el más y mejor informado, y disfrute
de la calidad y el entretenimiento en lo relacionado al deporte.
La aparición del primer vídeo en la home de Marca en el año
2007 fue una pequeña gran revolución en el que el contenido
audiovisual empezaba a ganar terreno a la crónica de toda la
vida. En ese momento era difícil imaginar la situación actual en
el que la imagen cuenta mucho más que cien mil palabras. La
importancia del vídeo en internet y en marca.com ha llegado a
tal punto que, en el otoño de 2015, desde Unidad Editorial se
lanzó una nueva plataforma de vídeo, Marca TV, que aglutina el
contenido audiovisual del periódico: tráfico, vídeo, redes, SEO,
etc. Aspectos que en marca.com se miden hasta el último clic,
dada la importancia que la analítica digital, en un entorno big
data, ha adquirido en los últimos años.

4.2. El peso de la analítica digital dentro


del big data

Se debe resaltar que existen dos tipos de mediciones


digitales a día de hoy: el método censal y el panel. La com-
binación de todas estas tecnologías ayuda al analista digital a
entender el efecto que los medios tienen en internet y, a su
vez, el efecto que los usuarios provocan en el propio site.
Es por eso que cuando, analíticamente, se habla de medir
los rendimientos de marca.com en lo referido a consumos, se

122
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

deben tener en cuenta esas dos mediciones. De forma prác-


tica, las herramientas utilizadas son Adobe Analytics para el
método censal, y comScore My Metrix para el método panel.
En lo referido al método censal, se puede señalar que se trata
de un sistema de medición interno utilizado para contabilizar
todo tipo de contenido, sin filtro. De forma básica, consiste en
el tagueado del sitio del cliente que permite un seguimiento de la
actividad que en el site se realiza; en otras palabras, todas las pági-
nas de un site deben llevar un pequeño script de la herramienta de
analítica web para que se pueda recoger la información.
Cuando se visita una página en internet en realidad solo
significa que se están descargando un grupo de archivos a un
ordenador que le indican a un navegador lo que debe mostrar.
Para el correcto funcionamiento del método censal, sea cual
sea la herramienta que se utilice, se debe realizar un proceso
de marcado del site. Dicho proceso implica la inclusión de
un pequeño texto de código en cada una de las páginas que
se deseen medir. A través de las cookies, fragmentos de datos
almacenados en un fichero de texto, el usuario puede ser reco-
nocido. Los sitios web utilizan cookies para ofrecer una expe-
riencia de navegación personalizada y como herramienta de
medición. Gracias a la IP del dispositivo, se puede saber desde
qué país se está navegando y, al contrario que en la metodo-
logía panel hasta 2014, permite medir todos los dispositivos y
aplicaciones que se utilizan para acceder al contenido.
En marca.com, el completo tagueado del site durante un gran
período de tiempo ha permitido establecer un sistema de report-
ing regular y eficiente para la mejor toma de decisiones. Así,
existen informes mensuales, semanales y diarios dirigidos a
cada uno de los departamentos interesados y, a la par, informes
que buscan dar un enfoque global de carácter más ejecutivo.

123
E-Books & Papers for Statisticians
© Editorial UOC Big data

La metodología del panel en línea es una metodología algo


más tradicional de encuestas con gran capacidad de segmen-
tación. Con gran historia y arraigo para medir las audiencias
de televisión, se ha intentado (con más o con menos éxito)
llevar este tipo de medición, evolucionada, al ámbito digital.
En España, dicha metodología panel es desarrollada por
comScore, una empresa de investigación de marketing en
internet que estudia el comportamiento en línea de los usua-
rios. Hace uso de un sistema que se basa en la metodología
híbrida del Unified Digital Measurement (UDM). Dicha
metodología mezcla elementos de la metodología panel y de
la metodología censal.
Tal y como se pregunta Inmaculada Berlanga:31«¿Qué tiene
de especial el sistema de comScore? El tener en cuenta las
demandas del propio mercado que no se encontraban sufi-
cientemente satisfechos ni con el sistema censal (a través de
tags y cookies contaba usuarios únicos), ni con el de paneles de
audiencias, similar al de la televisión. Ante esta situación, se
tomó la decisión de crear un sistema híbrido, que mezclara
ambos modelos». Dicho enfoque utiliza como núcleo de la
información los datos censales para inferir, a partir del núme-
ro de cookies, la audiencia global de un sitio web. Los datos
censales son calibrados y reducidos usando la información
del panel para determinar el número de individuos que han
estado en contacto con el medio.
Las divergencias por tipología de sitios/contenidos y por
tipología de targets entre una persona, y el número de cookies

31  Berlanga, Inmaculada (2013). «Desgranando comScore: ¿cómo mide sus


datos? (I)» [en línea]. [Fecha de consulta: 3 de febrero de 2016]. <http://bloggin-
zenith.zenithmedia.es/desgranando-comScore-como-mide-sus-datos-i/>

124
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

que genera en un período acumulado de tiempo, obliga a


definir un dinámico y continuo sistema de cálculo de con-
versión cookies/persona, que permiten humanizar las cookies.
Del mismo modo, se requiere un ajuste de las características
sociodemográficas si hay gaps de información. La metodolo-
gía híbrida consiste, por tanto, en combinar el panel (muestra
de usuarios) con el sitecentric (actuación de esos usuarios en
sites) para tener unas características sociodemográficas más
completas.
En España, el proceso de medición propuesto por com-
Score se realiza sobre la base del perfil y comportamiento de
una muestra de 20.000-25.000 panelistas. Partiendo de estas
cifras, se estima el volumen, comportamiento y perfil de los
internautas en España. Hasta febrero de 2014, la herramienta
solo controlaba usuarios localizados en el hogar y en el traba-
jo, pero a partir de esa fecha comenzó a ofrecer información
sobre el consumo móvil y el consumo de vídeos que se hace
en internet. Todo un avance que se plantea como palanca de
cambio (tomando impulso) en el sector digital por las posibi-
lidades que ofrece tanto en movilidad como en vídeo.
La importancia del dato de comScore, como es lógico, es
de vital importancia para marca.com, al igual que para todos
sus competidores. Dada la peculiar forma que comScore
tiene de distribuir la información, estos informes se mueven
internamente y se analizan de forma periódica en función de
la liberación mensual de datos que comScore hace.

4.2.1. El papel del analista digital

Todos estos cambios en la evolución de marca.com han


provocado el surgimiento de nuevos perfiles profesionales

125
E-Books & Papers for Statisticians
© Editorial UOC Big data

que los interpretan y desarrollan dentro de una empresa: es el


caso del analista digital en televisión.
Dicho perfil profesional y los departamentos en los que se
alberga (business intelligence y big data, generalmente) crecerán en
los próximos años. Está en juego la generación de mayores
audiencias y más vinculadas al contenido, el desarrollo de
nuevos servicios y contenidos de pago alrededor de la indus-
tria, el desarrollo de formatos publicitarios transmediáticos y
novedosos y, por qué no decirlo, el cambio de rol de la pren-
sa en el nuevo escenario. Toda esta nueva vorágine de datos
se debe madurar y convertir, poco a poco, en información
estandarizada y útil. Se insiste en que no es que dichos datos
sustituyan a los tradicionales datos de difusión, es que los
complementan. Quizá en el futuro todo se pueda medir con
una única herramienta, pero es mucho más probable que se
necesiten los análisis cualitativos, los informes explicativos y
la combinación de soportes de análisis de tecnología big data
frente al inconmensurable número de cifras sin sentido y sin
organización.
El papel del analista digital, que mezcla técnicas de estudios
cuantitativas y cualitativas, se articula, a priori, para resolver
problemas y facilitar la toma de decisiones en tres ámbitos de
la industria de medios: la del estudio del consumidor de pro-
ductos de prensa (en su más amplio sentido), la de la medición
en tiempo real de las audiencias e influencia de los eventos
en directo, y la del análisis estratégico de la vinculación de los
usuarios a través de los sentimientos que las noticias generan.
Los retos en marca.com, como de forma histórica se ha
producido, no dejan de aparecer. Los próximos años se pre-
sentan apasionantes.

126
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

5. Dogtrack. Big data televisivo como ruta


para extraer valor de la audiencia
Antonio Gallo y Paula Rodrígez

5.1. Las redes sociales y la televisión

Dogtrack es un software para la gestión integral de las


redes sociales en medios de comunicación creado por una
startup española en 2014. Se trata de una plataforma global
que ejerce de puente entre quienes generan los contenidos
y los usuarios de redes sociales que consumen un medio de
comunicación determinado. Es utilizado por distintos medios
de comunicación para la publicación en redes sociales y siste-
mas de mensajería, para el análisis de las comunidades de los
medios y para la integración de la actividad de los usuarios en
los medios de comunicación.
Ya no podemos imaginar programas como Eurovisión
o Cuarto Milenio sin una cuenta de Twitter en la que poder
comentar o leer los comentarios que hacen nuestros contac-
tos, por no hablar de los grupos de WhatsApp creados para
la ocasión. Esta forma de ver la televisión, con un teléfono
en la mano, ha transformado también las redacciones de los
medios: hay nuevos perfiles profesionales más enfocados a
un entorno digital y hay una demanda específica de herra-
mientas que ayudan a simplificar y dar sentido al proceso de
trabajo. Ese es el valor que tiene Dogtrack: permite al usuario,
desde un único panel de control, que se puedan gestionar la
generación, moderación y publicación de contenidos de las
diferentes redes sociales del medio.
Mediante la combinación de los procesos de publicación,
clasificación y análisis que integra nuestro software, se gene-

127
E-Books & Papers for Statisticians
© Editorial UOC Big data

ran datos estructurados y ordenados según los diversos cru-


ces cuantitativos y cualitativos de los contenidos publicados
(propios y de terceros) y de las comunidades (audiencias) que
han reaccionado ante esos contenidos.
Con los resultados obtenidos de esos cruces de datos, el
medio puede realizar diferentes acciones con las audiencias,
según tres ámbitos de trabajo:

1) Marketing: acciones dirigidas a audiencias micro-segmen-


tadas según los diversos intereses que estos tienen.
2) Publicidad: nuevos formatos dirigidos a audiencias clasifi-
cadas, de tal forma que el anunciante llegue a sus poten-
ciales compradores.
3) Social media: acciones de relación directa con audiencias
micro-segmentadas. Los objetivos son varios: aumen-
tar el tráfico generado a los sites del medio, optimizar
el engagement con las diferentes comunidades, fidelizar
audiencias, establecer una relación con influencers y pres-
criptores más relevantes con el objetivo de aumentar
la audiencia y seguir generando productos innovadores
que fortalezcan la narración audiovisual, como puede
ser la integración en pantalla de los comentarios en
redes de la audiencia.

Todo esto conlleva una serie de beneficios asociados


que afectan a las áreas de redacción, gestión digital, mar-
keting, publicidad y audiencias. Los medios trabajan a un
ritmo frenético, por eso es clave facilitar la toma de deci-
siones en un tiempo muy reducido y aportar, con gráficos
adaptados, un conocimiento profundo de las audiencias
que permita innovar en la creación de nuevos contenidos

128
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

y que ayuden a optimizar la inversión en publicidad (CPM


o CPC).32
Por lo dicho hasta ahora, conocer y saber gestionar
los datos generados en los medios sociales como Twitter,
Facebook o Instagram, y que tienen su origen en un progra-
ma o en una serie de éxito es, por parte de las televisiones,
uno de sus grandes retos. No tenemos más que asomarnos
cada día al panel de TT de Twitter para darnos cuenta de que
son las televisiones las mayores generadoras de conversación
con programas de entretenimiento, deportivos o de informa-
ción, debates políticos, etc.
Pero ¿sirve de algo que la gente esté hablando en las redes
sociales sobre programas de televisión?, ¿las televisiones pue-
den sacar partido sobre estas conversaciones? Veámoslo.

5.2. Big data, redes sociales y medios


de comunicación

¿Cómo es la relación entre los medios de comunicación y


las redes sociales?
Los medios de comunicación han pasado del formato ana-
lógico al digital. La irrupción de las redes sociales ha facilitado
el acercamiento de los medios a sus audiencias obligándoles
a cambiar su manera de servir el contenido. Se trata de dar
un aspecto más conversacional, tan propio de las redes, a los

32  CPM: coste por mil impresiones o CPC: Coste por clic. Es la cantidad de dine-
ro o suma de dinero que un anunciante determinado paga al motor de búsqueda
en el que tiene contratado los servicios, por un clic en el anuncio.

129
E-Books & Papers for Statisticians
© Editorial UOC Big data

contenidos audiovisuales proponiendo contenidos relevantes


para la audiencia.
Como se explicaba al comienzo, los medios de comuni-
cación son los principales generadores de contenido en las
redes sociales, y sus principales objetivos a la hora de utilizar
las redes son:

• Generación de tráfico. Desde las redes sociales hacia la


web y el medio de comunicación.
• Incremento de la comunidad. Aumento del número de
usuarios seguidores en las redes sociales.
• Incremento del engagement. Fortalecimiento de la relación
con la audiencia.
• Refuerzo del branding. Desarrollo de políticas de incremen-
to de la notoriedad y reputación de marca.

Estos objetivos están vinculados unos a otros, no siendo


en sí mismos independientes.

5.3. ¿Existe relación entre las redes sociales


y el big data en la televisión?

Los datos generados en las interacciones entre las redes


sociales y los medios de comunicación son de tal volumen
que, en muchos casos, es difícil de gestionar. Sucede en
acontecimientos como la emisión de los Óscar o la Super
Bowl que, en su última edición, ha contado con más de
veintiocho millones de comentarios en Twitter y sesenta y
cinco millones de usuarios en Facebook. También podemos
observarlo en emisiones más locales, como puede ser un

130
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

partido de la Liga de Campeones, un debate en La Sexta


Noche o la emisión de un capítulo de El Ministerio del Tiempo.
Los medios de comunicación necesitan encontrar patrones
repetitivos dentro de estos datos para obtener y aportar
valor a sus diferentes clientes: los telespectadores y los
anunciantes.
Desde nuestra experiencia, en Dogtrack podemos decir
que en la actualidad los principales fines para la gestión del
big data son:

• Conocimiento de la audiencia.
• Predicción de comportamiento en el consumo de conte-
nido.
Personalización de contenidos.
• Nuevos formatos publicitarios.

Si bien es cierto que una gran parte de los medios de


comunicación en España y Latinoamérica aún no gestio-
nan sus datos de manera estable, prácticamente todos están
inmersos en procesos de innovación. El objetivo es la norma-
lización del uso de los datos para la gestión de contenidos y el
incremento de ingresos publicitarios. Hay que tener en cuenta
que los volúmenes de datos son muy elevados y los beneficios
están aún por descubrir.

5.4. El doble viaje entre las redes sociales


y los medios de comunicación

La relación entre los medios de comunicación y las redes


sociales está generando una profunda tensión, pero unos y
otros se necesitan para su crecimiento y, de la misma manera

131
E-Books & Papers for Statisticians
© Editorial UOC Big data

que sucedió en su día con Google, se ha de entender cuál es


la posición de cada uno.
Los medios se apoyan en las redes para establecer relacio-
nes y aportar valor a los usuarios, y las redes sociales tienen en
los medios lo que ellos no pueden generar: un contenido que
provoque motivos para la conversación. De estas relaciones,
de estas conversaciones, unos y otros recogen datos de interés,
de reacciones, de relaciones y en definitiva, de comunidades y
razones por los cuales estas comunidades se conforman. El big
data es, por tanto, una conclusión de la relación entre los medios
y las redes de la que, en la actualidad, se benefician ambos.

5.5. Principales actores

Redes sociales. Las diferentes redes sociales están con-


cebidas con objetivos diversos. Los modelos de negocio de
las mismas se basan en el contenido creado por los usuarios y
las relaciones que se establecen en cada uno de ellos. Vamos
a centrarnos en las redes de mayor uso en España.

• Facebook. Es un sitio web de redes sociales que nació


en 2004 como red privada para la comunicación entre
los estudiantes de la Universidad de Harvard y que, a
mediados de 2007, se abrió al resto del mundo creando
sus versiones internacionales. Actualmente, cuenta con
748 millones de usuarios en todo el mundo33 y, aunque

33  Kemp, Simon (2016). DIGITAL IN 2016. We Are Social’s. Compendium of global
digital, social, and mobile data, trends, and statistics [en línea]. [Fecha de consulta: 10 de
marzo de 2016]. <http://es.slideshare.net/wearesocialsg/digital-in-2016/530>

132
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

ha crecido como plataforma, mantiene su finalidad de


origen con respecto a sus usuarios: ayudar a comunicarse
y compartir contenidos con personas afines a ti. Actual-
mente, es la red social más potente en todos los aspectos.
En distintos medios españoles es fundamental para la
adquisición de usuarios e ingresos por tráfico. Pero tiene
algunos inconvenientes, como que por el momento no
se puede vincular al tiempo real, a las parrillas de televi-
sión. Esto lo hace torpe para el medio por excelencia, la
televisión.
• Twitter. Esta red permite enviar mensajes llamados tuits
–a los que se puede añadir una imagen o video, o enla-
zar a un sitio web, con un límite de caracteres– que se
muestran en la página principal del usuario. Por defecto,
los mensajes son públicos, pudiendo difundirse privada-
mente mostrándolos solo a unos seguidores determina-
dos. Cuenta con 320 millones de usuarios únicos activos
al mes.34 Esta red es líder indiscutible en el tiempo real.
Entre otras fortalezas, es una red social que está basada
en relaciones por intereses, tiene una enorme capacidad
de atraer la conversación mientras se está viendo un pro-
grama de televisión y así, estas últimas han encontrado
formas sencillas de mostrar contenido relevante para ser
comentado.
• Snapchat. Igual que sucedió con Facebook, esta red
social nació en 2010 en las manos de unos estudiantes
de la Universidad de Stanford. Es una aplicación móvil
dedicada al envío de archivos que se destruyen una vez

34  Datos ofrecidos por Twitter Inc. 2016: <https://about.twitter.com/es/company>

133
E-Books & Papers for Statisticians
© Editorial UOC Big data

que el destinatario los ha visto. Desde ella se comparten


una media de seis mil millones de videos al día.35 Para el
sector de los medios, especialmente la televisión, es una
aplicación muy interesante dadas las posibilidades que
ofrece, así como el tipo de usuarios que la frecuentan, en
su mayoría menores de treinta años. De momento, es a
través de la sección de la aplicación denominada Disco-
ver como pueden acceder al público que se encuentra en
la red.
• Instagram. Pertenece a Facebook. Red social basada en
compartir imágenes y videos cortos. Inicialmente especia-
lizada en fotografía y actualmente adolescente (El 90 %
de sus usuarios son menores de treinta y cinco años).36 Su
relación con la televisión es bastante limitada, se basa en
«entregar» imágenes para su visualización en pantalla, pero
es una práctica poco extendida.
• WhatsApp. Aplicación de mensajería líder mundial. Con
mil millones de usuarios, pertenece también a Facebook,
aunque en el entorno de la mensajería móvil ya está con-
siderada como una red social. Su uso es gratuito y se basa
en el envío de información (audio, video, texto) uno a uno
y a grupos. Ofrece la posibilidad de realizar llamadas entre
usuarios de la misma red. Tiene un enorme potencial para

35  Bradshaw, T. (2015). «Snapchat triples video traffic as it closes the gao with
facebool» [en línea] Financial Times. [Ref. de 8 de noviembre de 2015]. [Fecha de
consulta: 10 de marzo de 2016]. <http://www.ft.com/cms/s/0%2Fa48ca1fc-
84e7-11e5-8095-ed1a37d1e096.html#axzz3qx4lNZbz>
36  Clasen, A. (2015). «Why Instagram is so important to Millennials». Informe
Coming of Age on Screens (study commissioned by Facebook. Crowd DNA. [Fecha de con-
sulta: 1 de marzo de 2016. <http://blog.iconosquare.com/instagram-important-
millennials/>

134
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

su uso en las televisiones. Con Dogtrack, canales como


«beIN Sports»37 han integrado su uso logrando una par-
ticipación de la audiencia más allá de sus propios abona-
dos.38
• Telegram. Sistema de mensajería similar a WhatsApp, con
una menor penetración, unos cien millones de usuarios,39
pero con unas enormes posibilidades de crecimiento para
su uso por parte de las televisiones; se pueden integrar
anunciantes. Una de las ventajas para el sector de los me-
dios es que, a diferencia de WhatsApp, su plataforma es
abierta, transparente para los programadores, y por tanto
es muy sencillo implementarla y utilizarla como red social
en plataformas como Dogtrack.

Televisiones. El otro actor protagonista y que da sentido


a este análisis es el de los medios, y se encuentra en todas
sus manifestaciones, porque la televisión ya nos es solo un
aparato cuadrado de dudosa estética; la televisión está en
cualquier dispositivo que tenga una pantalla y acceso a la red.
Entre otros motivos que iremos desgranado, este formato

37  Canal de televisión español de pago. Filial del grupo catarí beIN Sports y pro-
piedad al 50 % de Mediapro, dedicado a la retransmisión de eventos deportivos.
38  Un ejemplo: este canal de deportes facilita a sus telespectadores la participación
en el programa con encuestas que se pueden responder vía WhatsApp, de tal forma
que para quien lo está viendo le resulta muy sencillo y casi irresistible la posibilidad
de opinar. Solamente deben guardar en su agenda de contactos el teléfono del canal
y enviar su respuesta. Eventos deportivos transmitidos en canales de pago como
este se suelen ver en compañía de algún familiar abonado o desde un bar. Al ampliar
la posibilidad de participar a todos los espectadores hace que el medio llegue a un
mayor número de personas.
39  Dato aportado por Pavel Durov durante el Mobile World Congress 2016. [Fecha
de consulta: 1 de marzo de 2016]. <https://www.mobileworldcongress.com/>

135
E-Books & Papers for Statisticians
© Editorial UOC Big data

de emisión hace que se convierta en algo determinante el


conocer los principales roles dentro de las televisiones para
comprender sus necesidades, las de cada uno y, sobre todo, el
objetivo al que se orienta cada uno de los que intervienen en
un proceso de creación de valor.

Figura 8. Conocimiento de la audiencia y comunidad de usuario

5.6. Qué tipo de acciones pueden


hacer las televisiones en relación
con las redes sociales

Las respuestas son infinitas. Hasta el momento, la única


barrera que nos encontramos es la de la creatividad. Con
todo, debemos decir que el uso de la tecnología para facilitar
acciones permite, en la actualidad, realizar verdaderas innova-
ciones. Mostraremos algunas de ellas:

Publicación de contenido en las redes sociales. Es la


expresión más sencilla. Se genera contenido y se distribuye a
través de un canal social o sistemas de mensajería. Los forma-
tos más comunes son: video, texto, gif o gráfico. El contenido
para su posterior análisis ha de ser etiquetado basándose en
diversas metodologías: por finalidad (comercial, de carácter

136
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

informativo), por el tipo de público al que va destinada la


publicación, etc.

Publicación de contenido en las televisiones. Empieza


a ser bastante común que algunos programas, sobre todo de
carácter informativo, muestren tuits o mensajes realizados
por algún personaje relevante.

La audiencia participa en la acción generando un


contenido que puede ser de dos tipos:

1) Generación directa: los usuarios envían mensajes o con-


tenidos multimedia. Se pueden realizar desde redes socia-
les o sistemas de mensajería, tanto para la televisión
como para la web. En la actualidad, se pueden generar
datos desde Twitter, Facebook, Instagram, WhatsApp,
Telegram, Facebook Messenger. Los tipos de mensajes
son texto y multimedia (foto y video).
2) Generación indirecta: los usuarios generan datos a través
de su participación en votaciones, y estas dan como resul-
tado estadísticas, listados, mapas de calor, gráficos, etc.

Monitorización de redes sociales. El uso de la tecnolo-


gía monitoriza programas para su conocimiento, canalización
y viralización de contenidos.

Enriquecimiento de contenido televisivo. Es una de las


grandes oportunidades actualmente. La emisión de los pro-
gramas de televisión puede ser ampliada usando tecnología
de distribución de contenido en redes sociales y sistemas de
mensajería. Durante la emisión de una serie de televisión se

137
E-Books & Papers for Statisticians
© Editorial UOC Big data

puede ampliar la información sobre sus personajes enviando


un comentario por una red social, WhatsApp, Telegram. Este
último es el caso de El Ministerio del Tiempo, la serie de RTVE
que, dentro de su exitosa estrategia transmedia, ha incluido
de forma experimental un canal en Telegram40 para lo que
hemos denominado, en Dogtrack, emisiones enriquecidas:
aportar valor a la audiencia en una segunda pantalla en el
momento en el que está viendo el contenido televisado, así
como en las fases previas y posteriores de cada capítulo.

5.7. Principales usos y beneficios


que las cadenas de televisión pueden
hacer de Dogtrack

A continuación, mostramos en este cuadro una síntesis


de la estructura, a partir de contenidos, del beneficio que
se quiere obtener con la integración de redes sociales en un
contenido televisivo.

40  Información disponible en <https://telegram.me/elministeriodeltiempo>

138
E-Books & Papers for Statisticians
Figura 9. Principales usos y beneficios que las cadenas de televisión pueden realizar con Dogtrack
© Editorial UOC

139
E-Books & Papers for Statisticians
Capítulo II. Cases studies
© Editorial UOC Big data

Consideramos que, previamente a la emisión de los pro-


gramas, en la fase de creación de los mismos es de gran
ayuda monitorizar conceptos clave en torno a personajes,
a temáticas, etc., para identificar el posible impacto de los
formatos en los que se está trabajando, la afinidad con su
público objetivo y los canales de promoción que podrán
utilizar en las redes sociales. Como explicábamos antes, lo
mismo sucederá durante la emisión de los programas, más
si durante la emisión se realizan actividades que integren a la
audiencia; esta tendencia (la llamada social TV, o second screen)
que tiene en cuenta al espectador fideliza a un espectador que
se siente protagonista y «escuchado» por quienes están detrás
de la pantalla.

Con respecto a las audiencias y comunidades, y más


allá de los creadores de contenido, como es lógico, existen
departamentos cuya principal misión es identificar su públi-
co objetivo y hacerles propuestas de valor para ampliar la
audiencia y fidelizarla. Así, departamentos como marketing y
audiencias pueden, según nuestra experiencia, obtener, con la
monitorización de redes, datos de valor fácilmente integrables
en el CRM de la compañía, logrando así nuevas oportunida-
des de monetización.

5.8. A modo de conclusión

La vinculación de las redes sociales y la televisión puede


ayudar (de hecho ya lo ha empezado a hacer) en la gran revo-
lución que está viviendo este medio. Su relación facilitará la
vinculación de los hábitos de consumo que necesariamente

140
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

deben ir parejos. Y decimos que puede ayudar porque esta-


mos viendo grandes cambios que se están operando en el
uso televisivo: el consumo diferido de contenido y la segunda
pantalla.
Vemos la televisión cuando queremos y lo hacemos con el
teléfono en las manos. El gran reto es capturar la atención de
los usuarios. La integración de los usuarios en los programas
es el vehículo más eficaz para conseguirlo. Las redes sociales
y la televisión están conviviendo naturalmente. Tenemos tec-
nología que ayuda a las televisiones a su integración. Ahora
falta creatividad que lo consiga. Una vez más, la tecnología
está varios pasos por delante de la creatividad, y existen un
sinfín de oportunidades para todos.
Plataformas como Dogtrack ayudan a los medios a ir más
allá en la relación con sus audiencias, aportando valor que les
ayude en la fidelización de las audiencias, en el incremento
del ingreso publicitario y en una mejor distribución del con-
tenido.

6. Privacidad en redes sociales:


amenazas y soluciones
María Isabel González

En los últimos años, internet ha pasado de ser un canal de


comunicación a un medio en sí mismo. Su vinculación con la
industria audiovisual está ligada en cada una de sus acciones
y estrategias en casos como la gestión de datos generados
por el uso de las redes sociales virtuales. A través de estas se
abren nuevas oportunidades para difundir y publicitar con-

141
E-Books & Papers for Statisticians
© Editorial UOC Big data

tenidos audiovisuales con un alcance casi ilimitado. Por otra


parte, estas posibilidades conllevan una proliferación de ries-
gos emergentes para la privacidad, debido al escaso control
que existe sobre las nuevas formas de acceso, publicación y
gestión de contenidos. Una de las cuestiones más relevantes,
dentro de la difusión de datos a través de redes sociales, es
determinar quién o quiénes son los autores y/o propietarios
de un contenido, y establecer los medios técnicos para la pro-
tección de sus derechos e intereses. Las infinitas posibilidades
técnicas, unidas a la difícil imposición de normativa legal que
regule y salvaguarde derechos de propiedad y/o autoría de
material digital, completan un complejo lienzo en el que el
creador queda a menudo desprotegido (y ni siquiera es cons-
ciente de ello).
La vertiginosa expansión de las redes sociales virtuales
ha supuesto, en los últimos años, un cambio radical en las
técnicas de transmisión de información entre individuos y
organizaciones. El cambio en sí se ha realizado en tan poco
tiempo que no en todos los casos ha sido asimilado en toda su
dimensión por los actores involucrados (usuarios, anuncian-
tes, proveedores de servicios, etc.). En consecuencia, estos
se exponen inconscientemente a múltiples riesgos que van
más allá del acceso incontrolado de terceros a la información
explícitamente delegada por ellos.
Las redes sociales virtuales difieren de las redes sociales
tradicionales en multitud de aspectos evidentes (número
de individuos que las conforman, velocidad de crecimiento
y evolución, dispersión geográfica de sus miembros, etc.).
Paradójicamente, la percepción de muchos usuarios es que
ambos tipos de redes son esencialmente iguales, propicián-
dose en consecuencia conductas de riesgo en el manejo de

142
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

las herramientas de comunicación proporcionadas por las


redes virtuales.
Boyd y Ellison41 describieron las redes sociales virtuales a
través de la siguiente definición:
«Llamamos red social virtual (en lo sucesivo, OSN)42 a
todo servicio web que permita a individuos:

• Construir un perfil público o semipúblico a través del ser-


vicio. Típicamente dicho perfil se materializa a través de un
sitio web cuyos contenidos son completamente accesibles
y están indexados en buscadores (público) o del que solo
es visible un resumen a menos que se cumplan una serie de
requisitos establecidos por el usuario (semipúblico).
• Determinar una lista identificando a otros usuarios del servi-
cio con los que comparten una cierta conexión (contactos).
• Ver y hacer búsquedas en la propia lista de contactos y en
las listas de otros usuarios del servicio».

La anterior definición (ampliamente aceptada y utilizada)


es muy ambigua. Matemáticamente, las redes sociales pueden
formalizarse como grafos. Un grafo es una representación
en la que los elementos de un conjunto (nodos) se unen por
mediante enlaces (aristas). En el caso de una OSN, cada nodo
representaría a un usuario, y los enlaces entre nodos repre-
sentarían las distintas políticas de conexión/emparejamiento
definidas por el proveedor del servicio (el «dueño» de la red).
Por ejemplo, una OSN en la que todos los usuarios pueden

41  Boyd, D.; Ellison, N. B. (2007). «Social network sites: Definition, history and
scholarship». Journal of Computer-Mediated Communication (vol. 1, núm. 13).
42  Del inglés on line social network.

143
E-Books & Papers for Statisticians
© Editorial UOC Big data

enviar y recibir mensajes sin ninguna restricción se represen-


taría a través de un grafo completo (ver figura 10): de cada
nodo saldría un enlace hacia cada uno de los demás nodos del
grafo. Por el contrario, una red de distribución de contenidos
de un único proveedor se representaría mediante un grafo en
el que de un nodo distinguido saldrían flechas dirigidas hacia
todos los demás.

Figura 10. Grafo completo. Fuente: elaboración propia

Las políticas que establece el proveedor de la ONS defi-


nen una relación binaria en el conjunto de nodos de la red.
Pongamos por ejemplo el caso en el que el proveedor impone
que los usuarios sólo pueden enviar mensajes a otros usuarios
que estén en su lista de contactos, obligando además a que
a ningún usuario se le permita estar en la lista de contactos
de más de cinco miembros de la red. En este caso existen
un número pequeño de grafos distintos compatibles con la
política impuesta por la ONS, en los que cada nodo recibirá,
a lo sumo, cinco enlaces. Así, la ONS puede clasificarse en

144
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

función de las propiedades que cumple la relación binaria


definida por el proveedor del servicio: reflexividad, simetría,
transitividad, etc. Estas propiedades permiten clasificar la
OSN y nos proporcionan una primera idea de cómo se ges-
tiona la información depositada por los usuarios. Por ejem-
plo, una red transitiva es aquella en la que todo contacto de un
usuario en mi lista de contactos es incluido inmediatamente
en mi lista de contactos. Este escenario formal, aunque es útil
como primera aproximación, presenta serias dificultades a la
hora de detallar de manera abstracta las normas que rigen la
relación de conexión.

Figura 11. Esquema de una ONS. Las flechas representan conexiones,


mientras que las líneas punteadas determinan el acceso a colecciones de datos.
Fuente: elaboración propia

145
E-Books & Papers for Statisticians
© Editorial UOC Big data

En algunas redes sociales (como Facebook o MySpace),


la relación que se establece (amistad) es simétrica y fácil de
determinar a través de solicitudes explícitas de establecimiento
de contacto entre los nodos. En otras redes, las relaciones son
asimétricas (Twitter, YouTube) y se definen con arreglo a crite-
rios profesionales (LinkedIn) o familiares (Geni),43 que son más
subjetivas.
Sin embargo, para estudiar una red social desde el punto
de vista de la seguridad, no basta con entender la relación que
define la topología (distribución de enlaces entre los nodos) de
la red, pues una vez que esta se establece, los nodos conectados
tienen múltiples posibilidades de interacción. En el escenario
más sencillo, cada usuario compartiría toda la información que
publica en su perfil con todos sus contactos. Existen sin embar-
go otras vías de transmisión de información implementadas en
muchas redes sociales, como la mensajería selectiva (donde solo
algunos contactos son receptores legítimos), el etiquetado de
contenidos, la gestión de grupos de contactos, etc. A menudo,
el análisis del comportamiento de ciertos usuarios con respecto
a estas herramientas (cómo etiquetan, agrupan sus contactos o
declaran preferencias) es una poderosa herramienta de perfilado
que permite conocer al usuario tanto, o mejor, que analizando
la información explícita que este ha subido a la red. Quizá, el
único camino para abordar de manera eficaz los problemas de
seguridad de una red social es comenzar por entender cuáles
son los principales objetivos de los ataques potenciales y buscar
contramedidas efectivas para contrarrestarlos.

43  Geni es una red social en que la lista de contactos de cada usuario es un árbol
genealógico creado cooperativamente con sus familiares, con objeto de que estos
puedan intercambiarse de manera cómoda y segura fotos, videos, etc.

146
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Presentamos a continuación algunos ejemplos de las ame-


nazas más relevantes para usuarios y proveedores del servicio,
comentando seguidamente qué contramedidas pueden adop-
tarse para evitarlos o minimizar sus daños.

6.1. Amenazas

Centraremos nuestro análisis de amenazas consideran-


do únicamente dos tipos de entidades afectadas: usuarios
y proveedores de servicios (dueños/gestores de la ONS).
Mencionamos, sin embargo, que otros agentes (anunciantes
o proveedores de aplicaciones insertables en la red) son tam-
bién susceptibles de sufrir ataques similares a los menciona-
dos a continuación.
Existen infinidad de trabajos en la literatura cuyo principal
objetivo es identificar los principales riesgos para la privaci-
dad de los usuarios de ciertas redes sociales y proponer con-
tramedidas tanto técnicas como legales o educacionales.44 Los
riesgos para el proveedor del servicio, es decir, la entidad que
mantiene y gestiona la red social, son quizá menos conocidos
pero no menos relevantes.45 Revisaremos algunas de las ame-
nazas más destacables para ambos actores.

44  Para ampliar este tema se recomiendan las lecturas: Becker, J. L.; Chen, H. (2009).
Meassuring privacy risk in on line social networks. Tesis doctoral. University of California,
Davis. Acquisti, A.; Gross, R. (2006b). Privacy enhancing technologies (cap. «Imagined com-
munities: Awareness, information sharing and privacy on the Facebook»). Springer.
45  Nuevamente, se recomiendan los textos: Felt, A.; Evans, D. (2008). Privacy protection
for social networking platforms. Actas del Congreso Web 2.0 Security and Privacy 2008.
IEEE; Fong, P. W. L. (2011). Preventing sybil attacks by privilege attenuation: A design principle
for social network systems. Actas del Congreso Security and Privacy, IEEE.

147
E-Books & Papers for Statisticians
© Editorial UOC Big data

6.1.1. Amenazas al usuario

Distinguimos entre dos tipos fundamentales de riesgos: los


que provienen de usuarios y potenciales usuarios de la red, y
aquellos que tienen su origen en el propio proveedor del servicio.

1) Amenazas ajenas al administrador de la ONS


La privacidad de un usuario puede verse amenazada por otros
usuarios de la red social y también por individuos no registrados
en la misma con acceso parcial a sus contenidos. Más concreta-
mente, podemos contemplar tres tipos de adversarios:

• Usuarios en nuestra red de contactos


Muchas redes sociales permiten seleccionar qué conte-
nidos son accesibles a todos nuestros contactos y cuáles
no. Sin embargo, con frecuencia, los propios usuarios no
cambian la configuración de privacidad que por defecto
establece la ONS, que suele ser bastante laxa. Del mismo
modo, pocos usuarios son realmente conscientes de todos
los datos que están a disposición de su lista completa de
contactos (información de localización, archivos multime-
dia, informes de actividad, etc.).

• Usuarios que no pertenecen a nuestra red de contactos


Los riesgos más evidentes proceden de los usuarios que
están en las listas de contactos de usuarios directamente
conectados con un nodo (típicamente denominados FOF o
FOFOF).46 Dentro de este tipo de amenazas, tiene especial

46  Friends of friends (amigos de amigos) y friends of friends of friends (amigos de amigos
de amigos), respectivamente.

148
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

relevancia la política que siga la ONS en lo que se refiere a


contenidos con varios autores o propietarios.47

• Entidades externas a la red social.


Este tipo de ataques se encuadra con frecuencia den-
tro de estrategias de negocio (legales o en la frontera de
lo legal). Es importante destacar que muchos problemas
de privacidad surgen del hecho de que el usuario está
publicando información accesible desde fuera de la red,
muchas veces de manera inconsciente.48 Otros elementos
de riesgo proceden, sin embargo, del hecho de que las
estrategias de marketing dirigidas a través de redes socia-
les no siempre proceden de entidades honestas, siendo
incontables los casos en los que supuestos anunciantes
distribuyen a través de una ONS contrabando de artícu-
los, productos de dudosa garantía o con precios engaño-
sos, contrabando, malware, etc. Otro ejemplo de amenaza
al usuario, procede de las llamadas técnicas de inferencia
de redes.49 Dichas técnicas permiten evaluar ciertas pro-
piedades de los usuarios de una ONS analizando datos
publicados en la red (a menudo con aparentemente esca-
sa relación con las propiedades de interés). Por ejemplo,
Acquisti y Gross50 demuestran cómo pueden determinar
los cinco primeros dígitos del número de la seguridad

47  Información ampliada en: González Manzano, L.; González-Tablas, A. I.; De


Fuentes, J. M.; Ribagorda, A. (2014b). Seguridad en redes sociales: problemas, tendencias
y retos futuros. Actas del VII Congreso Iberoamericano en Seguridad Informática.
48  Por ejemplo, Twitter hace públicos los tuits por defecto, mientras que Google
los indexa.
49  En inglés, network inference.
50  Acquisti y Gross (2006b), op. cit.

149
E-Books & Papers for Statisticians
© Editorial UOC Big data

social de un usuario de una red social a través de su fecha


y lugar de nacimiento, datos que aparecen casi siempre en
el perfil público del mismo en una ONS. Otras caracte-
rísticas más imprecisas del usuario son también trazables
a través de estas técnicas. Como indica Pennachiotti,51 se
analizan distintos factores para clasificar a los usuarios
de Twitter como demócratas o republicanos a través de
técnicas de machine learning.

2) Amenazas con origen en el proveedor del servicio


Es frecuente que el planteamiento de diseño de la red
social parta de la hipótesis de que los usuarios han de depo-
sitar confianza plena en el gestor de la misma, no contem-
plándose otra alternativa. Este tipo de planteamiento se ve
reforzado por la propia aceptación por parte de los usuarios
(muchas veces, escasamente consciente e informada) de
excesivas políticas de privacidad. Evidentemente, todos los
ejemplos de abusos mencionados en la sección anterior son
aplicables a esta, pues habitualmente el gestor de la ONS
tiene mayor acceso a la información depositada en la red que
cualquiera de los agentes que allí consideramos.

6.1.2. Amenazas al proveedor de servicios

No es posible que una ONS que opera incorrectamente


proporcione garantía alguna de privacidad/seguridad a usua-
rios, anunciantes o terceras partes susceptibles de gestionar

51  Pennacchiotti, M.; Popescu, A. M. (2011). Democrats, republicans and starbucks


afficionados: user classification in Twitter. Proceedings of the 17th International
Conference on Knowledge Discovery and Data Mining, ACM.

150
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

aplicaciones a través de esta. La confianza que estos agentes


tengan en la ONS es un factor crucial que determina su éxito
a todos los niveles: es por tanto prioritario para el proveedor
del servicio no solo funcionar correctamente, sino también
mantener una excelente reputación. El término reputación en
este contexto es un concepto clave que recoge la precepción
que la red proyecta en cuanto a integridad, robustez técnica,
usabilidad y otras muchas facetas que determinan, en última
instancia, la confianza que se depositará en ella. Es por ello
que muchos de los ataques dirigidos a ONS proceden de
competidores directos (por ejemplo, otros ofertantes de espa-
cios publicitarios) y tienen como principal objetivo perjudicar
su reputación. Mencionamos dos ejemplos destacados de este
tipo de estrategias:

• Sybil attacks. Se conocen con esta denominación los ataques


realizados mediante la creación masiva de usuarios ficticios
que pasan a formar parte de la red social con el objetivo
de trastocar su reputación. Estos nodos maliciosos pueden
inundar la red social de spam,52 sesgar sistemas de content
rating,53 difamar masivamente a usuarios legítimos, etc.
• Ataques de desanonimización. Muchas redes sociales pu-
blican (o venden) gran parte de sus datos tras algún tipo
de proceso en el que la información sensible se desvin-
cula de sus propietarios, es decir, se anonimiza (funda-

52  Correo no deseado ni solicitado por el receptor, habitualmente de tipo publi-


citario.
53  Sistemas que establecen valoraciones de contenidos (películas, series, progra-
mas televisivos, videojuegos, libros) basados en la recopilación masiva de opinio-
nes y votos de usuarios.

151
E-Books & Papers for Statisticians
© Editorial UOC Big data

mentalmente por razones legales). Los llamados ataques


de vecindario parten de una red social anonimizada e in-
tentan detectar los datos relevantes de un usuario concre-
to de quien se conoce a priori información relativa a sus
contactos.54

6.2. Contramedidas

No existen medidas genéricas aplicables a todas las redes


sociales que proporcionen suficientes garantías para los usua-
rios y proveedores de servicio. Comentamos a continuación
algunas medidas genéricas que sí pueden entenderse como
una primera línea defensiva frente a los ataques más frecuen-
tes. Dichas medidas, en modo alguno, merman la necesidad
de un abordaje individualizado, que permita a proveedores y
usuarios tomar conciencia de los riesgos específicos a los que
se enfrentan.

6.2.1. Concienciación

Muchos de los riesgos que corre el usuario medio de una


ONS son consecuencia de que este percibe la red como un
entorno de confianza. Como constatan Gross y Acquisti,55 la
mayoría de los usuarios no cambian la configuración de pri-
vacidad que la ONS establece por defecto. La causa de este
comportamiento es solo en parte achacable a la inconsciencia

54 Zhou, B.; Pei, J. (2008). Preserving privacy in social networks against neighborhood
attacks. Actas de la IEEE 24th International Conference on Data Engineering.
55  Acquisti y Gross (2006b), op. cit.

152
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

del usuario. Otras causas son atribuibles a la ONS: con fre-


cuencia, se pide al usuario que determine su configuración
de seguridad nada más registrarse en la red, cuando aún no
está familiarizado con sus herramientas. Modificar posterior-
mente dicha elección no siempre es sencillo ni alentado por
la ONS, penalizando con ciertas limitaciones en el servicio a
los usuarios que modifican la configuración establecida por
defecto.

6.2.2. Gestión Distribuida

Con el objetivo de evitar que en última instancia los


usuarios tengan que depositar su confianza en el gestor de la
ONS, proliferan las iniciativas de diseño en la que los propios
usuarios gestionan la red virtual (o, al menos, su gestión está
distribuida entre varias entidades). Este tipo de iniciativas
presenta evidentes dificultades técnicas y resulta poco atrac-
tiva para determinados tipos de usuarios, aunque su uso está
cada vez más extendido. Ejemplos prominentes son Diaspora
o Friendica. La red social Diaspora está construida sobre la
base de una red de servidores, que son alojados por distintas
entidades y operan de manera independiente. Los usuarios
de la red abren su cuenta a través de uno de estos servidores,
pudiendo interactuar con otros usuarios independientemen-
te del servidor que aloje a cada uno. Además, los usuarios
de Diaspora no ceden la propiedad de su información y el
software (al menos en teoría) permite al usuario retirar todos
los datos que haya subido (favoreciendo el llamado derecho al
olvido). Con la misma filosofía, Friendica se creó para que el
usuario pudiese aglutinar en una estructura estable y confiable
su participación en distintas redes no distribuidas (Facebook,

153
E-Books & Papers for Statisticians
© Editorial UOC Big data

Twitter, StatusNet,56 etc.). Creada desde la filosofía del soft-


ware libre, es gestionada por voluntarios que abogan por la
simplicidad para conseguir una red transparente ubicada en
gran número de servidores.

6.2.3. Mejora en los modelos de control de acceso

Los modelos de control de acceso persiguen diseñar el


marco técnico adecuado para proporcionar las mínimas
garantías de privacidad en distintos escenarios. Un modelo de
control de acceso se define como un conjunto de criterios
que el administrador de un sistema utiliza para delimi-
tar los derechos y permisos de los usuarios del mismo.
En el caso de una ONS, estos modelos se fundamentan a
través de una serie de medidas de seguridad que permiten a
los usuarios especificar quién accede a sus datos y por cuánto
tiempo. Estos mecanismos no proporcionan, generalmente,
alta granularidad,57 por lo que el usuario no puede expresar
sus preferencias con excesivo detalle. Además, es frecuente
que la propiedad de los datos no sea exclusiva de un usuario
de la red, sino que varios usuarios compartan parte o la tota-
lidad de un contenido. Por ejemplo, en una foto subida por
cierto usuario de una ONS pueden aparecer varios usuarios

56  StatusNet, antes conocida como Laconica, es una red social para difusión de
microblogs que ofrece una funcionalidad similar a Twitter, permitiendo publicar
mensajes breves que definen el estado del usuario en cada momento.
57  Hablamos de granularidad para referirnos al número de categorías en las que
podemos clasificar a nuestros contactos y/o contenidos. Una red con alta granu-
laridad permite, por ejemplo, establecer una jerarquía en nuestra lista de contactos
de manera que controlemos con exactitud qué información llega a los usuarios en
cada nivel de la misma.

154
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

de la misma red que hayan explicitado distintas preferencias


en cuanto a la difusión de las imágenes en las que aparezcan.
Evidentemente, en estos casos debería siempre aplicarse la
más restrictiva entre las configuraciones de privacidad elegi-
das por los usuarios involucrados, o establecerse un mecanis-
mo de enmascaramiento (por ejemplo, un pixelado parcial)
aceptado por todos los usuarios.
La complejidad de estas situaciones aumenta exponen-
cialmente cuando varias ONS permiten el intercambio o
gestión conjunta de contenidos. Máxime cuando, a menudo,
las políticas de privacidad y copropiedad implementadas en
los distintos proveedores del servicio entran en conflicto. Por
ejemplo, Facebook ofrece apps desarrolladas por entidades
externas incurriendo en situaciones altamente preocupantes:
a menudo, si un usuario se instala una de estas apps, la entidad
que la ha desarrollado puede acceder a ciertos datos de los
usuarios en su lista de contactos.58

6.3. Conclusiones

Las redes sociales son un escaparate casi ilimitado para la


industria audiovisual. Su manejo acarrea sin embargo riesgos
que organismos, individuos y empresas no siempre conocen.
Muchas de las amenazas subyacentes tienen su origen en
complejas técnicas de inferencia aplicadas a datos fácilmente
extraíbles de los perfiles públicos de usuarios, sin incurrir
en ningún tipo de infracción contemplada en el marco legal

58  Symeonidis, I.; Beato, F.; Tsormpatzoudi, P.; Preneel, B. (2015). Collateral dam-
age of Facebook Apps: an enhanced privacy scoring model. Servidor de preprints de la IACR.

155
E-Books & Papers for Statisticians
© Editorial UOC Big data

correspondiente. La aplicación de contramedidas técnicas y,


en primera instancia, la concienciación de los usuarios para
que actúen defendiendo su privacidad, es imprescindible para
el aprovechamiento óptimo de las oportunidades que estas
herramientas nos abren.

156
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Bibliografía

Acquisti A.; Gross, R. (2006a). «Predicting social security num-


bers from public data». Proceedings of the National Academy of
Sciences (vol. 27, núm. 106, págs. 10975-10980).
Acquisti A.; Gross, R. (2006b). Privacy enhancing technologies (cap.
«Imagined communities: Awareness, information sharing and
privacy on the Facebook»). Springer.
Becker, J. L.; Chen, H. (2009). Meassuring privacy risk in on line social
networks. Tesis doctoral. University of California, Davis.
Berlanga, I. (2013). «Desgranando comScore: ¿cómo mide sus
datos? (I)» [en línea].
<http://blogginzenith.zenithmedia.es/desgranando-comScore-
como-mide-sus-datos-i/>
Boyd, D.; Ellison, N. B. (2007). «Social network sites:
Definition, history and scholarship». Journal of Computer-Mediated
Communication (vol. 1, núm. 13).
Bradshaw, T. (2015). «Snapchat triples video traffic as it closes the
gao with facebool» [en línea]. Financial Times.
Clasen, A. (2015). «Why Instagram is so important to Millennials».
Informe Coming of Age on Screens (study commissioned by Facebook).
Crowd DNA.
<http://blog.iconosquare.com/instagram-important-millenni-
als/>
Felt, A.; Evans, D. (2008). Privacy protection for social networking plat-
forms. Actas del Congreso Web 2.0 Security and Privacy 2008,
IEEE.

157
E-Books & Papers for Statisticians
© Editorial UOC Big data

Fong, P. W. L. (2011). Preventing sybil attacks by privilege attenuation:


A design principle for social network systems (págs. 131-146). Actas
del Congreso Security and Privacy, IEEE.
GFK Media and Entertainment (2015). Whitepaper Big Questions,
Big Answers.
<http://www.gfk.com/fileadmin/user_upload/dyna_content/
Global/documents/Whitepapers/GfK_WhitePaper_Big_
Data_2015.pdf>
González Manzano, L.; González-Tablas, A. I.; De Fuentes,
J. M.; Ribagorda, A. (2014a). CooPeD: Co-owned Personal Data
Management. Computers and Security.
González Manzano, L.; González-Tablas, A. I.; De Fuentes,
J. M.; Ribagorda, A. (2014b). Seguridad en redes sociales: problemas,
tendencias y retos futuros. Actas del VII Congreso Iberoamericano
en Seguridad Informática.
Gross R.; Acquisti, A. (2005). Information revelation and privacy in
online social networks (págs. 71-80). Actas del First Workshop on
Online Social Networks. ACM.
Kemp, S. (2016). DIGITAL IN 2016. We Are Social’s. Compendium
of global digital, social, and mobile data, trends, and statistics.
Marqués Pascual, J. (2012). La caída de la difusión en los medios de
pago. Principales causas y su relevancia en el caso español. Barcelona:
Universitat Ramon Llull.
Medina, M. (2015). La Audiencia en la Era Digital. Editorial Fragua.
Novak, E.; Li, Q. (2012). A Survey of Security and Privacy in Online
Social Networks. College of William and Mary Computer Science
Technical Report.
Pennacchiotti, M.; Popescu, A. M. (2011). Democrats, republicans
and starbucks afficionados: user classification in Twitter. Proceedings
of the 17th International Conference on Knowledge Discovery
and Data Mining, ACM.

158
E-Books & Papers for Statisticians
© Editorial UOC Capítulo II. Cases studies

Roca, Á. (2015). «Marca.com cumple 20 años» [en línea]. <http://


www.MARCA.com/2015/11/30/20-aniversario/1448878589.
html>
Symeonidis, I.; Beato, F.; Tsormpatzoudi, P.; Preneel, B.
(2015). Collateral damage of Facebook Apps: an enhanced privacy scoring
model (pág. 456). Servidor de preprints de la IACR.
Tsichiya, Aki (2014). «How can TV ride the big data wave?» [en
línea]. The Guardian.
<http://www.theguardian.com/media-network/media-network-
blog/2014/aug/29/tv-advertising-big-data>
Zhou, B.; Pei, J. (2008). Preserving privacy in social networks against
neighborhood attacks. Actas de la IEEE 24th International
Conference on Data Engineering.

159
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians
© Editorial UOC Epílogo

Epílogo

El uso del big data y el business intelligence comienza tímida­


mente a ser implantado en negocios vinculados a las nuevas
tecnologías, tal y como es la industria audiovisual. Esta gestión
de macrodatos ofrece el gran potencial de encontrar valor en
el día a día, logrando personalizar los productos y servicios de
manera que el big data se incluya en los objetivos de negocios.
Un claro ejemplo lo encontramos en los dispositivos wear-
able, que integran datos personales en la tecnología. Luego,
un paso más relaciona el concepto de negocio surgiendo así
el «internet industrial de las cosas». El sector audiovisual, en
concreto, cuenta a su favor con un valor muy importante,
la audiencia social: un espectador que opina y recomienda.
Por primera vez, las empresas de los diferentes entornos
audiovisuales son capaces de conocer el impacto real de sus
contenidos digitales hasta el punto de ofrecerlos a medida de
sus diversos targets: esto es la hiperpersonalización e hiper-
segmentación. A partir de aquí, las posibilidades que surgen
son inmensas.
Comentábamos en las primeras páginas de este libro que,
en algunos ámbitos, la transición hacia nuevos hábitos digi­
tales no ha sido completada: hay flecos o, simplemente, los
tiempos que se manejan son diferentes. Este es, por ejemplo,
el caso del entorno legal y su ordenamiento con respecto
al conglomerado de datos que se vuelcan en la red. Son

161
E-Books & Papers for Statisticians
© Editorial UOC Big data

muchos los nuevos conflictos que comienzan a surgir, pero


quizás todos ellos rozan las cuestiones de privacidad y su
consiguiente seguridad. La Ley de protección de datos1 o la
Sentencia del derecho al olvido son los principales referen­
tes que nos van a ayudar en un entorno tecnológico de big
data. Los medios de comunicación han trasladado noticias
polémicas de diversa índole, por ejemplo aquellas relativas
a la política de privacidad y protección de datos de las smart
TV de Samgsun, según la cual, previo consentimiento del
propietario, estos dispositivos grababan conversaciones para
luego transferirlas a un tercero. Este tipo de noticias dejan en
evidencia que, como usuarios, no siempre somos conscientes
de la cantidad de datos de carácter personal que ofrecemos
al universo de internet. Ahora, con el big data, estos datos
particulares de hábitos o comportamientos pueden ser
compartidos con otros, de manera anónima o etiquetada a
nuestro nombre. Otro ejemplo interesante es la geolocali-
zación, según la cual compartimos voluntariamente con
el mundo el lugar en el que nos encontramos. Hablamos
aquí de redes sociales como Foursquare o Swarm y sus
famosos check-in. Pero, otras veces, dar esta información,
forma parte de las condiciones de uso de una aplicación o
dispositivo. Pensemos ahora en todas las acciones que se
pueden acometer sabiendo dónde se encuentra una persona
en un momento exacto. En general, la obtención de datos
particulares sin un marco regulatorio que lo controle es un

1  Ley orgánica 15/1999, de 13 de diciembre, de protección de datos de carácter


personal, y Real decreto 1720/2007, de 21 de diciembre, por el que se aprueba
el reglamento de desarrollo de la Ley orgánica 15/1999, de 13 de diciembre, de
protección de datos de carácter personal.

162
E-Books & Papers for Statisticians
© Editorial UOC Epílogo

diamante en bruto para determinados sectores. Nuevamente,


el concepto de utilidad cobra fuerza. Habrá industrias que
emplearán esta información en su propio beneficio, como es
la predicción de fraude en la banca. Otros usarán estos datos
en beneficio de la sociedad, este es el caso de la medicina.
En diciembre de 2015, los miembros de la Unión Interna­
cional de Telecomunicaciones (UIT) aprobaron la primera
norma internacional de organización de grandes volúme-
nes de datos, big data.2 Por primera vez se daba un marco legal
a los volúmenes, capacidades y casos de uso del big data. Hoy
la UIT da, entre otras cosas, coherencia a la hora de hablar de
terminología relativa a gestión masiva de datos, ofreciendo una
base común para el desarrollo de los servicios de big data y las
normas técnicas correspondientes. Así pues, se propone definir
el big data como «un paradigma para hacer posible la recopila­
ción, el almacenamiento, la gestión, el análisis y la visualización,
potencialmente en condiciones de tiempo real, de grandes
conjuntos de datos con características heterogéneas».3 A partir
de aquí, cada país, en función de sus lógicas de mercado, irá
estableciendo el escenario legal que ponga límites y ordene el
entramado de la gestión de los datos que hacen las empresas.
Fue en agosto de 1991 cuando comenzó a desarrollarse la
World Wide Web con una serie de principios que hoy reco­
nocemos como vitales. Entre otros, que todo el mundo tenga
la oportunidad de acceder a la información, y también com­
partirla, esto lo conocemos también como la neutralidad en la

2  Disponible en [Consulta: 10 de enero de 2016] www.itu.int/itu-t/recommenda­


tions/rec.aspx?rec=12584
3 Recomendación UIT-T Y.3600 «Grandes volúmenes de datos – requisitos y
capacidades basados en la computación en la nube».

163
E-Books & Papers for Statisticians
© Editorial UOC Big data

red. Años después, su creador Tim Berners-Lee hacía público


un llamamiento a la sociedad: «Por favor, compartan sus
datos, súbanlos a la web»,4 y lo hacía consciente de que
todavía hay un gran potencial en la web, pero también una
gran frustración. La idea que emerge con fuerza parte de la
base de que los datos compartidos, en un entorno de macro­
datos (de big data, en definitiva), puede romper mitos y tam-
bién empoderar a las personas y a las organizaciones.
Esto es el open data (datos abiertos) y es vital comprender
tanto sus posibilidades como su trascendencia.5 La apuesta
por compartir conocimiento en entornos big data encuentra
un apoyo perfecto en la creación de software abierto, con­
virtiéndolo en un servicio (SaaS). Desde el gobierno público,
muchos países apuestan por usar tecnologías de visualización
SaaS de datos open source que permitan que la sociedad avance.
Esto se produce por varios motivos: los datos se entienden
mejor, se pueden tomar decisiones más rápidas y la sociedad
puede aportar conocimiento.
Las TIC, internet y el big data sugieren conceptos de parti­
cipación y colaboración, pero también democratización, esto
es, la posibilidad de la participación de todos. Sin embargo,
la realidad es que se observan brechas que interfieren
en el avance de la tecnología; por ejemplo, países que no
acceden a la web o que, simplemente, no tienen dispositivos.

4 Tim Berners-Lee manifiesta sus puntos de vista en diversas presentaciones


disponibles en la plataforma TED.com y en su proyecto de open data. [Fecha de
consulta: 1 de marzo de 2016]. <http://webfoundation.org/>
5  Fernández, Eva Patricia (2014). «Datos: pastilla azul o roja» [en línea]. Innovación
Audiovisual. [Fecha de consulta: 1 de marzo de 2016]. <http://innovacionaudiovi­
sual.com/2015/05/21/datos-pastilla-azul-o-roja/>

164
E-Books & Papers for Statisticians
© Editorial UOC Epílogo

¿Cuánta población no accede a internet y, por lo tanto,


se encuentra fuera del big data?
A lo largo de estas reflexiones y conclusiones finales, con
un matiz personal y también crítico, se ponen de manifiesto
diferentes connotaciones y aproximaciones que cuestionan el
tema de este libro, el big data. Aplicar conceptos tecnológicos
a una estructura industrial como la audiovisual nos obliga a
tener perspectiva y entender bien los procesos actuales
para poder dar los siguientes pasos. Como decíamos,
tenemos mucha suerte de vivir este tiempo de revolución
tecnológica.

165
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians
© Editorial UOC Glosario

Glosario

algoritmo m Secuencia de instrucciones que permite obtener un


conjunto de datos de salida a partir de un conjunto de datos
de entrada. En matemáticas, la entrada de un algoritmo son
los datos iniciales de un problema, mientras que la salida es la
solución al mismo.
API m Véase application programming interface.
application programming interface m Lenguaje que hablan unos
plataformas/softwares con otros para compartir datos y
entenderse.
sigla API
BI f Véase business intelligence.
big data m Término empleado para referirse a toda aquella cantidad
ingente de datos que, debido a sus características, no pueden
ser siempre procesados por los sistemas informáticos actuales.
business intelligence f Inteligencia de negocio basada en datos
que tiene como objetivo tomar la mejor decisión en el menor
tiempo posible.
sigla BI
cookies f pl Archivos de texto ubicados en el directorio del navega-
dor. A través de ellos, el usuario puede ser reconocido.
CRM m Véase customer relationship management.
customer relationship management m Modelo de gestión de las
empresas basado en el conocimiento del cliente y orientado a
su satisfacción.

167
E-Books & Papers for Statisticians
© Editorial UOC Big data

sigla CRM
data warehouse m Almacén de datos.
ETL m y f Véase extract, transform and load.
extract, transform and load m y f Procesos de que, en español, se
conocen como extracción, transformación y carga.
sigla ETL
grafo m Representación en la que los elementos de un conjunto
(nodos) se unen por mediante enlaces (aristas).
granularidad f Número de categorías en las que podemos clasifi-
car nuestros contactos y/o contenidos. Una red con alta granu-
laridad permite, por ejemplo, establecer una jerarquía en nuestra
lista de contactos de manera que controlemos con exactitud qué
información llega a los usuarios en cada nivel de la misma.
inferencia de redes f Análisis estadístico de los datos obtenidos
de una red, incluyendo la información relativa a su estructura
y actividad.
machine learning f Rama de la inteligencia artificial que establece
técnicas por las que las máquinas puedan «aprender» a partir de
los datos que dispone.
malware m Software malicioso. Ejemplos destacados son los virus
informáticos, o los llamados «troyanos», fragmentos de código
que posibilitan el acceso remoto de adversarios en un sistema
informático. 
modelo de control de acceso m Conjunto de criterios que el
administrador de un sistema utiliza para delimitar los derechos
y permisos de los usuarios del mismo.
raw data f Información o datos sin procesar ni analizar. En español
se denominan «datos en crudo».
return of investment m Retorno económico sobre la inversión.
sigla ROI
ROI m Véase return of investment.

168
E-Books & Papers for Statisticians
© Editorial UOC Glosario

segunda pantalla f Referido al consumo social de la televisión.


Son los dispositivos portátiles, tabletas o smartphones. Se usan
en paralelo y permiten la interactuación con los contenidos
televisivos.
streaming f Distribución digital de contenidos en tiempo paralelo
a la descarga. El contenido no queda alojado ni descargado en
el ordenador.
tags/tagging f pl Etiquetas o categorizaciones. Acción de etiquetar
contenidos para su posterior búsqueda.
timeline m Espacio de una red social dedicado a la interacción
entre sus usuarios.
transmedia m Lenguaje narrativo que cumple tres características:
1.º, creación de un universo narrativo profundo; 2.º, utilización
de diferentes canales o plataformas para su manifestación; 3.º,
participación activa del público en la creación o consumo del
contenido.
video on demand m Acceso a contenidos televisivos de manera
personalizada. Es el consumo bajo demanda.
sigla VOD
VOD m Véase video on demand.
wearables m pl Dispositivos llevables en el cuerpo, tales como
relojes o pulseras, capaces de acceder a información vital del ser
humano y generar big data.

169
E-Books & Papers for Statisticians
E-Books & Papers for Statisticians