You are on page 1of 73

Realidades y sueños de

en México
Marzo 2015

abel.coronado @ inegi.org.mx

¿QUÉ ES BIG DATA? .

¿Qué es Big Data? Dan Ariely. Duke University .

org/wiki/Los_ciegos_y_el_elefante @abxda .wikipedia.¿Qué es Big Data? Big Data http://es.

¿Qué es Big Data? Big data: A big mistake? Journal Significance. © The Royal Statistical Socie Big data Gartner & Finantial Times @abxda .

¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ @abxda .

berkeley.edu/what-is-big-data/ @abxda .¿Qué es Big Data? http://datascience.

¿Qué es Big Data? http://datascience.berkeley.edu/what-is-big-data/ @abxda .

edu/what-is-big-data/ @abxda .¿Qué es Big Data? http://datascience.berkeley.

berkeley.¿Qué es Big Data? http://datascience.edu/what-is-big-data/ @abxda .

actuar y crear valor.ft. @abxda http://www. alta velocidad o alta variedad que demanda formas creativas y viables económicamente para procesarla con el fin de contribuir a tomar decisiones.¿Qué es Big Data? Según Gartner Big data es información en altos volúmenes.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.p .

Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales @abxda .

@abxda .

actuar y crear valor http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.Tomar decisiones.jpg .

docx?version=1&modificationDate=1362939424184 @abxda .org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.unece.Big Data en las Oficinas Nacionales de Estadística http://www1.

Big Data en las Oficinas Nacionales de Estadística • It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept. encouraged to address formally Big data issues in their annual and multiannual work programmes by undertaking research and pilot projects in selected areas and by allocating @abxda appropriate resources for that purpose. . • Statistical organisations are. therefore.

The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set.g. and High Performance Computing. an affinity for IT (e. • To use Big data. statisticians are needed with a different mind-set and new skills. @abxda programming skills) . Text mining.Big Data en las Oficinas Nacionales de Estadística • 'new' exploration and analysis methods are required: Visualization methods.

com/data-science-toolbox-survey-results-surprise-r-and-python-win/ .Un Proceso de Ciencia de Datos Explorar. Visualizar Analizar Fuente(s) Conceptualizar Recolectar Limpiar Imaginar / Comprender Transformar/ Caracterizar Considerar la Integración de Otras Fuentes Comunicar Modelar / Entrenar ? Validar http://www.r-bloggers.

Ciencia de Datos Experto en computación y desarrollo avanzados Machine learning CIENCIA DE DATOS Zona peligrosa! Experto en estadística matemática Investigación tradicional Experto en el dominio de datos @abxda http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram .

html .Ciencia de Datos CIENCIA DE DATOS Experto en computación y desarrollo avanzados Machine learning Unicornio Zona peligrosa! Experto en estadística matemática Investigación tradicional Experto en el dominio de datos @abxda http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.

datascience.community/2014/07/08/data-scientist-vs-data-engineer/ .Productos de Datos Manejar las 3 v’s Administración de Sistemas Visualización vs Científico de Datos Ingeniero de Datos Programación Modelado Científico de Datos Ingeniero de Datos Matemáticas Contar Historias Estadística Administración de Bases de Datos Almacenamiento de Datos @abxda http://101.

Equipo de Big Data y Ciencia de Datos Estadística Crowdsourcing Matemáticas Arquitecturas de Software Machine Learning Minería de Texto Arquitecturas Big Data Bases de datos NoSQL Interfaces de Usuario Experiencia del Usuario Administradores de Sistemas Ingeniería de Software First Mobile Visualización de Datos @abxda .

Arquitectura para Ciencia de Datos y Big Data ¿por qué? ¿quién? ¿cuántos? ¿Dónde? l Ve ad id oc nternet de las cosas nternet de las personas Volumen Datos Crudos hdfs:// Ciencia de Datos (Transforma/Modela) Cómputo Concurrente y Paralelo Información (Significado) Va rie d ad nternet de las ideas Internet del todo ¿qué? Análisis de Datos Estadística Machine Learning Minería de Datos Estratificaciones Tomar Decisiones Actuar Muestreo @hbcolectivo Análisis de Redes (Grafos) Mucho más… Análisis de Regresión @abxda .

Panorama Tecnológico
Infraestructura de Cómputo

Internet de las Cosas

Estadística

{ json }
< xml >
c,s,v
Sensores

Sistemas de Archivos
Distribuidos
Análisis Multivariado
Machine Learning
Análisis de Interacción Espacial

Internet de las Personas
{ json }

Bases de Datos
NoSQL

< xml >
c,s,v

Visualización

Redes Sociales

Internet de las Ideas

Computo Paralelo y
Concurrente

Programación Funcional
{ json }
< xml >
c,s,v

Crowdsourcing

Razonamiento Algebraico

Qué es un producto de datos

ESTRATIFICADOR INEGI

Ciencia de Datos

www.inegi.org.mx/est/contenidos/Proyectos/estratificador

@abxda

@abxda .js Librería JavaScript para creación de los gráficos vectoriales interactivos.Tecnologías Involucradas (2013) D3. JSON formato de intercambio de datos. Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap. habilitador de la inteligencia estadística. { JSON } Motor de análisis estadístico.

Ciencia de Datos .

Ciencia de Datos @abxda .

Ciencia de Datos @abxda .

Estratificación de 1.2 M de Manzanas En la misma Pc de 4 Procesadores: (2013) Softwar Tie mpo Manza nas Big Data 8 Seg.org/ %Acceso a Internet. 2. %Telefono Celular. %Automovil @abxda . 1’221.apache. %Pc.666 e https://spark.1 80 Tradicion al 8 Seg.

TWITTER COMO FUENTE DE BIG DATA Para medir el pulso emotivo de México …y mucho más … @hbcolectivo .

¿Cuántos caracteres? @abxda .

140 ??? @abxda .

1482 Json: Formato de Intercambio .Todo listo para la presentación de #BigData en el @FSLmx .

Nuestra huella en las Redes Sociales @abxda .

Todos los tuits están disponibles para su recolección en tiempo real. @abxda .

Incluso permite consultas geográficas @abxda .

¿Dónde recolectar? @abxda .

elasticsearch.http://www.org/ @abxda .

¿Por qué ElasticSearch? @abxda .

X | 10.x Puertos (b)10.1.X.200.1.1.¿Por qué ElasticSearch? Acceso a Internet [Recolecta información Redes Sociales] Hydra1 – Master 10.X Hydra 2 – [10.1.X] Switch Puertos (a) 10.X < ESCALABILIDAD HORIZONTAL@abxda > .1.200.1.2.

Hydra < ESCALABILIDAD HORIZONTAL@abxda > .

Hydra .

.

– El 22 de enero cumplimos 1 año de estar recolectando las 24 horas 7 días de la semana. – Mas de 121 millones de tuits recolectados .Recolección de tuits en Archivos Distribuidos con Bases de Datos NoSQL.

Visualización de la Base de Datos 121 Millones de Tuits .

007 Tuiteros generaron 43’079.Frecuencia de Tuiteo Frecuencia por hora del día # Tuits 882.312 de Tuits .

Frecuencia de Tuiteo .

157 Tuiteros .Movilidad de los Tuiteros 4’469.550 de desplazamientos de 347.

Movilidad hacia Pueblos Mágicos .

Contenido de los Tuits .

Red Nacional de Caminos y Twitter @abxda .

Red Nacional de Caminos y Twitter .

DENUE & Twitter .

Horarios de Tuiteo cerca de algún sector @abxda .

Qué es un producto de datos PIO ANÁLISIS Y LA MEDICIÓN DEL BIENESTAR A TRAVÉS DE TWITTER MACHINE LEARNING .

Proceso de Machine Learning Objetivo: … Indicador de sentimiento … .

org/ http://www.or Muestra de Tuits Etiquetado Manual Machine Learning Producción Tuits en Tiempo Real Indicador Modelo Clasificador de sentimiento @abxda .Proceso de Machine Learning Entrenamiento Representación numérica http://scikit-learn.r-project.

inegi.org.http://cienciadedatos.mx/pioanalisis @hbcolectivo @ricardoaolvera @abxda .

{ JSON } Web Api 2 / Interface REST @abxda . Librería JavaScript facilita la incorporación del patrón MVC en aplicaciones web de una sola página Diseño de estructura de la página y habilitación responsiva via Twitter Bootstrap.js Librería JavaScript para creación de los gráficos vectoriales interactivos.Tecnologías Involucradas D3. JSON formato de intercambio de datos.

Resultados Alrededor de 5000 anotadores de la Universidad Tec Milenio @hbcolectivo @ricardoaolvera @abxda .

Seguimos trabajando… • Seguimos trabajando en la definición de la estrategia y entrenamiento de los algoritmos de Machine Learning… .

IMPLEMENTACIÓN DE BIG DATA .

Hadoop / Apache Spark Procesamiento + 70 Cores > 3 Ghz >250 Gb Ram 5 TB Recolección 20 Cores > 3 Ghz 100 Gb Ram 1 TB ó @abxda .

Apache Spark • Tecnología de procesamiento en paralelo para Ciencia de Datos @abxda .

@abxda .

Reflexión @abxda .

Reflexión http://www.html @abxda .net/global/data/feature/big-data-for-development-facts-an dfigures.scidev.

Preguntas @abxda .

coronado@inegi.org.mx .abel.