You are on page 1of 478

Esse e-book no pode ser usado para fins comerciais, mas pode

ser distribudo livremente sob a licena Creative Commons.

Pedimos apenas, a gentileza de citar a fonte, pois todo este


material resultado de trabalho rduo de nossa equipe.

Esta foi a forma que encontramos de contribuir para uma


sociedade que deve ter a educao como prioridade.

www.datascienceacademy.com.br
Big Data Fundamentos

www.datascienceacademy.com.br
Introduo

www.datascienceacademy.com.br

www.datascienceacademy.com.br
Big Data Fundamentos

O que o curso Big Data Fundamentos?

www.datascienceacademy.com.br
Big Data Fundamentos

Se voc chegou at aqui, j sabe que o Big Data est


revolucionando a forma como as empresas fazem negcios

www.datascienceacademy.com.br
Big Data Fundamentos

O volume de dados gerado pela humanidade nunca foi to grande


e novos conceitos e tecnologias surgiram para analisar esta
imensido de dados

www.datascienceacademy.com.br
Big Data Fundamentos

e extrair informaes que permitam as empresas tomarem


melhores decises e oferecerem melhores servios e produtos

www.datascienceacademy.com.br
Big Data Fundamentos

Este curso oferece uma introduo detalhada dos principais


conceitos envolvendo Big Data, permitindo uma compreenso clara
do que h de mais avanado em tecnologia de engenharia de dados

www.datascienceacademy.com.br
Big Data Fundamentos

O que voc vai aprender neste curso?

Conceitos e definies de Big Data


Arquitetura Hadoop e Ecossistema Hadoop
Quais so as principais solues comerciais de Big Data no mercado
Introduo ao Apache Spark
Bancos de Dados NoSQL
Como as empresas esto utilizando Big Data

www.datascienceacademy.com.br
Big Data Fundamentos

Quais so os pr-requisitos?

Muita vontade de aprender e entrar no mundo do Big Data

www.datascienceacademy.com.br
Big Data Fundamentos

Quais os benefcios de realizar este curso?

Big Data uma das reas que mais crescem atualmente.


H um dficit de profissionais no mercado e estima-se
que at 2019 o mercado precisar de mais de 200 mil
profissionais habilitados em Big Data.

www.datascienceacademy.com.br
Big Data Fundamentos

Quais os benefcios de realizar este curso?

Hadoop a tecnologia base da infraestrutura de Big


Data, que est revolucionando o mundo como o
conhecemos. Ele permite a anlise de grandes volumes
de dados para tomada de deciso. Conhecimento de
Hadoop um dos skills mais procurados por
recrutadores de profissionais de Big Data.

www.datascienceacademy.com.br
Big Data Fundamentos

Quais os benefcios de realizar este curso?

Apache Spark uma tecnologia emergente em


processamento de dados em tempo real e seu
conhecimento ser um diferencial para quem pretende
trabalhar com Big Data

www.datascienceacademy.com.br
Big Data Fundamentos

Quais os benefcios de realizar este curso?

Viso geral de conceitos e definies que permitam uma


compreenso clara do que o universo do Big Data para
que voc possa avanar sua carreira nesta vibrante rea

www.datascienceacademy.com.br
Big Data Fundamentos

Estrutura do curso
1. Introduo
Este curso dividido 2. O que Big Data?
em 10 mdulos
3. Introduo ao Hadoop
4. Arquitetura Hadoop
5. Ecosistema Hadoop
6. Solues Comercias com Hadoop
7. Introduo ao Spark
8. Bancos de Dados NoSQL
9. Como as empresas esto utilizando o Big Data
10. Avaliao
www.datascienceacademy.com.br
Big Data Fundamentos

Para tornar sua experincia de aprendizagem ainda mais


completa, havero quizzes e demonstraes ao longo do curso

www.datascienceacademy.com.br
Big Data Fundamentos

Voc tambm ter acesso aos e-books que


complementam o curso

www.datascienceacademy.com.br
Curta Nossas Pginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais

www.facebook.com/dsacademybr

twitter.com/dsacademybr

www.linkedin.com/company/data-science-academy

www.datascienceacademy.com.br
Big Data

www.datascienceacademy.com.br
Big Data

Cerca de 90% de todos


os dados gerados no
planeta, foram gerados
nos ltimos 2 anos

www.datascienceacademy.com.br
Big Data

Aproximadamente 80%
dos dados so no-
estruturados ou esto em
diferentes formatos, o que
dificulta a anlise

www.datascienceacademy.com.br
Big Data

Modelos de anlise de
dados estruturados,
possuem limitaes
quando precisam tratar
grandes volumes de dados

www.datascienceacademy.com.br
Big Data

Muitas empresas no
sabem que dados
precisam ser analisados

www.datascienceacademy.com.br
Big Data

Muitas empresas nem


mesmo sabem que os
dados esto disponveis

www.datascienceacademy.com.br
Big Data

Dados preciosos so
descartados por falta de
conhecimento ou
ferramentas de
tratamento

www.datascienceacademy.com.br
Big Data

caro manter e
organizar grandes
volumes de dados no-
estruturados

www.datascienceacademy.com.br
Big Data

www.datascienceacademy.com.br
Big Data

Estamos em um perodo de
transformao no modo em que
dirigimos nossos negcios e,
principalmente, as nossas vidas

www.datascienceacademy.com.br
Big Data

Neste exato momento, uma verdadeira


enxurrada de dados, ou 2.5 quintilhes
de bytes por dia, gerada para nortear
indivduos, empresas e governos e
est dobrando a cada dois anos

www.datascienceacademy.com.br
Big Data

Toda vez que fazemos uma compra,


uma ligao ou interagimos nas redes
sociais, estamos produzindo esses
dados

www.datascienceacademy.com.br
Big Data

E com a recente conectividade em objetos, tal


como relgios, carros e at geladeiras, as
informaes capturadas se tornam massivas e
podem ser cruzadas para criar roadmaps cada
vez mais elaborados, apontando e, at prevendo,
o comportamento de empresas e clientes

www.datascienceacademy.com.br
Big Data

Entre 2005 e 2020, o universo digital ir crescer de 130 exabytes para


40.000 exabytes ou 40 trilhes de gigabytes

Em 2020, haver 5.200 gigabytes para cada homem, mulher e criana


no planeta

At 2020, o universo digital ir dobrar de tamanho a cada 2 anos

www.datascienceacademy.com.br
Big Data

Dados Matria-prima dos negcios!

www.datascienceacademy.com.br
Big Data

A revoluo no est nas mquinas que


calculam os dados e sim nos dados em
si e na maneira que so utilizados

www.datascienceacademy.com.br
Big Data

www.datascienceacademy.com.br
Big Data

O Big Data nos d uma viso


clara do que granular

www.datascienceacademy.com.br
Big Data

No mundo do Big Data, por sua vez, no


temos de nos fixar na causalidade;
podemos descobrir padres e correlaes
nos dados que nos propiciem novas e
valiosas ideias

www.datascienceacademy.com.br
O que Big Data

Mas afinal, o que Big Data?

Big Data uma coleo de conjuntos de dados, grandes e


complexos, que no podem ser processados por bancos de dados
ou aplicaes de processamento tradicionais

www.datascienceacademy.com.br
O que Big Data

Mas afinal, o que Big Data?

Capacidade de uma sociedade de obter informaes de maneiras


novas a fim de gerar ideias teis e bens e servios de valor
significativo

www.datascienceacademy.com.br
O que Big Data

Mas afinal, o que Big Data?

O Google estima que a humanidade criou nos ltimos 5 anos, o


equivalente a 300 Exabytes de dados ou seja:
300.000.000.000.000.000.000 bytes de dados

www.datascienceacademy.com.br
O que Big Data

Muitos dos dados gerados, possuem um tempo de


vida curto e se no analisados, perdem a utilidade

Dados so transformados em informao, que


precisam ser colocadas em contexto para que
possam fazer sentido

caro integrar grandes volumes de dados no


estruturados

www.datascienceacademy.com.br
O que Big Data

Dados potencialmente valiosos em sistemas ERP,


CRM ou SCM so descartados ou perdidos apenas
porque ningum presta ateno a eles

www.datascienceacademy.com.br
O que Big Data
Qual o tamanho do Big Data?

Zettabyte x 1024

Exabyte x 1024

Petabyte x 1024

Terabyte
x 1024
Gigabyte

www.datascienceacademy.com.br
O que Big Data
Qual o tamanho do Big Data?

www.datascienceacademy.com.br
A Importncia do Big Data

Porque surgiram tecnologias


que permitem processar E por que Big Data tem se
esta grande quantidade de tornado to importante?
dados de forma eficiente e
com baixo custo

www.datascienceacademy.com.br
A Importncia do Big Data

Os dados podem ser analisados


em seu formato nativo, seja ele E por que Big Data tem se
estruturado, no estruturado tornado to importante?
ou streaming (fluxo constante
de dados)

www.datascienceacademy.com.br
A Importncia do Big Data

Dados podem ser E por que Big Data tem se


capturados em tempo real tornado to importante?

www.datascienceacademy.com.br
A Importncia do Big Data

Dados podem ser


E por que Big Data tem se
transformados em insights
tornado to importante?
de negcios

www.datascienceacademy.com.br
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

Desafios
Encontrar profissionais habilitados em Big Data e Hadoop

Compreender a plataforma e ferramentas para Big Data

Coletar, armazenar e analisar dados de diferentes fontes, em


diferentes formatos e gerados em diferentes velocidades

Migrar do sistema tradicional de coleta e armazenamento de


dados, para uma estrutura de Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

E voc acha que j temos muitos


dados atualmente?

www.datascienceacademy.com.br
A Importncia do Big Data

Espere para ver o que a Internet das


Coisas vai fazer com o volume atual
de dados!

www.datascienceacademy.com.br
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data
A Importncia do Big Data

www.datascienceacademy.com.br
A Importncia do Big Data

E como iniciar projetos de Big Data?

Comece No ignore os Big Data no


compreendendo dados vindos de apenas sobre
o valor do todos os tecnologia.
retorno sobre o departamentos sobre mudana
investimento da empresa de paradigma

No construa paredes.
Construa pontes!
www.datascienceacademy.com.br
A Importncia do Big Data

No inicie um projeto de Big Data, sem antes entender o


ROI (Retorno sobre o Investimento)

www.datascienceacademy.com.br
A Importncia do Big Data

At 2018, haver um deficit de 140 a 190 mil profissionais com


habilidades em anlise de dados e mais de 1,5 milho de
gerentes e analistas que saibam usar Big Data de forma efetiva
para tomada de decises.

- McKinsey Global Institute "Big Data Report 2015"

www.datascienceacademy.com.br
Os 4 Vs do Big Data

www.datascienceacademy.com.br
Os 4 Vs do Big Data

O Big Data possui 4 caractersticas que o definem:

Veracidade
Volume Variedade Velocidade
Confiabilidade
Tamanho dos dados Formato dos dados Gerao dos dados
dos dados

www.datascienceacademy.com.br
Os 4 Vs do Big Data

www.datascienceacademy.com.br
Os 4 Vs do Big Data

Espera-se que 40 zettabytes de dados sejam criados at 2020


no mundo;
Cerca de 2.5 quintillionbytes de dados so criados por dia;
Volume Existem atualmente cerca de 6 bilhes de telefones mveis no
planeta;
Cada empresa americana armazena cerca de 100 terabytes de
dados.

www.datascienceacademy.com.br
Os 4 Vs do Big Data

150 exabytes a estimativa de dados que foram gerados


especificamente para tratamento de casos de doena em todo o
Variedade mundo no ano de 2011;
Mais de 4 bilhes de horas por ms so usadas para assistir
vdeos no YouTube;
30 bilhes de imagens so publicadas por ms no Facebook;
200 milhes de usurios ativos por ms, publicam 400 milhes
de tweets por dia.

www.datascienceacademy.com.br
Os 4 Vs do Big Data

1 terabyte de informao criada durante uma nica sesso


da bolsa de valores Americana, a New York Stock Exchange
(NYSE);
Velocidade
Aproximadamente 100 sensores esto instalados nos carros
modernos para monitorar nvel de combustvel, presso dos
pneus e muitos outros aspectos do veculo;
18.9 billhes de conexes de rede existiro at 2016.

www.datascienceacademy.com.br
Os 4 Vs do Big Data

Atualmente, 1 em cada 3 gestores tem experimentado problemas


relacionados a veracidade dos dados para tomar decises de
Veracidade negcios.

Alm disso, estima-se que 3.1 trilhes de dlares por ano sejam
desperdiados devido a problemas de qualidade dos dados.

www.datascienceacademy.com.br
Os 4 Vs do Big Data
Importncia: Volume, Velocidade, Variedade

Velocidade

Variedade
Volume

www.datascienceacademy.com.br
Os 4 Vs do Big Data

O Big Data traz um oceano de oportunidades!

www.datascienceacademy.com.br
Os 4 Vs do Big Data
Processar de forma eficiente Responder ao aumento da
Coletar e analisar dados de
e com baixo custo grandes velocidade de gerao dos
diferentes formatos e fontes
volumes de dados dados

Transformar 12 TB de Investigar 5 milhes de Monitorar milhares de


tweets gerados cada eventos de trade nas videos de segurana a
dia em produtos de bolsas de valores a fim fim de identificar
anlise de sentimento de identificar fraudes pontos perigosos em
uma cidade

Garantir que os dados


sejam confiveis
www.datascienceacademy.com.br
Introduo ao Hadoop

www.datascienceacademy.com.br
Introduo ao Hadoop

Apache Hadoop um software open


source para armazenamento e
processamento em larga escala de grandes
conjuntos de dados (Big Data), em clusters
de hardware de baixo custo.

http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Temos visto o aumento crescente da


capacidade de armazenamendo dos discos
rgidos.

http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Mas a velocidade de leitura e escrita dos


discos rgidos no tem crescido na mesma
proporo.

http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Leitura e escrita paralela e simultnea em


diversos discos rgidos, requer tecnologia
avanada.

http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop um sistema de armazenamento


compartilhado, distribudo e altamente
confivel para processamento de grandes
volumes de dados atravs de clusters de
computadores.

http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Em outras palavras, Hadoop um


framework que facilita o
funcionamento de diversos
computadores, com o objetivo de
analisar grandes volumes de
dados.

www.datascienceacademy.com.br
Introduo ao Hadoop

Em outras palavras, Hadoop um


framework que facilita o
funcionamento de diversos
computadores, com o objetivo de
analisar grandes volumes de
dados.

www.datascienceacademy.com.br
Introduo ao Hadoop

O projeto Apache hadoop composto de 3


mdulos principais:

Hadoop Distributed File System (HDFS)


Hadoop Yarn
Hadoop MapReduce
http://hadoop.apache.org

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop is for problems too Big for traditional systems to handle

www.datascienceacademy.com.br
Introduo ao Hadoop

Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:

www.datascienceacademy.com.br
Introduo ao Hadoop

Pesquisas tem mostrado que o crescimento do Hadoop tem sido vertiginoso:

E muito mais
ainda est por
vir!!

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop um framework gratuito, baseado


em linguagem de programao Java, que
suporta o processamento de grandes
conjuntos de dados em ambientes de
computao distribuda (atravs diversos
computadores simultaneamente).

www.datascienceacademy.com.br
Introduo ao Hadoop

Ele baseado no Google File System


(GFS)

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop permite executar aplicaes


em sistemas distribudos atravs de
diversos computadores (nodes),
envolvendo petabytes de dados.

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop utiliza o HDFS (Hadoop


Distributed File System), que permite
rpida transferncia de dados entre os
nodes. A segurana do Hadoop feita
com o Kerberos.

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop usado quando problemas


muito grandes (Big) precisam de
soluo

www.datascienceacademy.com.br
Introduo ao Hadoop

Hadoop tem um baixo custo, no


apenas por ser livre, mas por permitir
o uso de hardware simples,
computadores de baixo custo
agrupados em cluster

www.datascienceacademy.com.br
Introduo ao Hadoop

Um das principais caractersticas


do Hadoop a confiabilidade e
sua capacidade de se recuperar
de falhas automaticamente

www.datascienceacademy.com.br
Introduo ao Hadoop

O Apache Hadoop composto de 2 componentes principais

Hadoop HDFS

Hadoop MapReduce

www.datascienceacademy.com.br
Introduo ao Hadoop

De forma bem simples, podemos dizer:

HDFS armazenamento distribudo


MapReduce computao distribuda

www.datascienceacademy.com.br
Introduo ao Hadoop

Por que o Hadoop est se tornando o padro nos projetos de Big Data?

www.datascienceacademy.com.br
Introduo ao Hadoop

Por que o Hadoop est se tornando o padro nos projetos de Big Data?

Baixo Tolerante a
Escalvel Flexvel
Custo Falhas

Livre

www.datascienceacademy.com.br
Introduo ao Hadoop

Tolerncia a falhas a recuperao automtica


Portabilidade entre hardware e sistemas operacionais
heterogneos
Escalabilidade para armazenar e processar grandes
quantidades de dados
Confiabilidade, atravs da manuteno de vrias cpias de
dados

www.datascienceacademy.com.br
Introduo ao Hadoop

Flexibilidade processa todos os dados independente do tipo


e formato, seja estruturado ou no-estruturado
Confiabilidade - permite que os jobs sejam executados em
paralelo e em caso de falhas de um job, outros no so
afetados
Acessibilidade suporte a diversas linguagens de programao
como Java, C++, Python, Apache Pig

www.datascienceacademy.com.br
Introduo ao Hadoop

HDFS (Hadoop Distributed File System)


Foi desenvolvido utilizando o projeto do sistema de arquivos
distribudos (DFS). Ele executado em hardware commodity
(baixo custo). Ao contrrio de outros sistemas distribudos,
HDFS altamente tolerante a falha.

www.datascienceacademy.com.br
Introduo ao Hadoop

DFS (Distributed File System) - foi criado para gesto de


armazenamento em uma rede de computadores.
HDFS otimizado para armazenar grandes arquivos.
HDFS foi pensado para executar em clusters de computadores
de baixo custo.
HDFS foi pensado para ser timo em performance do tipo
WORM (Write Once, Read Many Times), que um eficiente
padro de processamento de dados.
HDFS foi pensando considerando o tempo de leitura de um
conjunto de dados inteiro e no apenas o primeiro registro.

www.datascienceacademy.com.br
Introduo ao Hadoop

Namenode

HDFS cluster possui 2 tipos


de nodes:

Namenode (master node) Datanode


Datanode (worker node)

www.datascienceacademy.com.br
Introduo ao Hadoop

Namenode

Gerencia a estrutura do filesystem

Gerencia os metadados de todos os


arquivos e diretrios dentro da
estrutura

www.datascienceacademy.com.br
Introduo ao Hadoop

Datanode

Armazena e busca blocos de dados


quando solicitado pelo cliente ou
Namenode

Reporta periodicamente para o


Namenode com a lista de blocos
que foram armazenados

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce um modelo de programao para


processamento e gerao de grandes conjuntos de dados.
MapReduce transforma o problema de anlise em um
processo computacional que usa conjuntos de chaves e
valores.
MapReduce foi desenvolvido para tarefas que consomem
minutos ou horas em computadores conectados em rede
de alta velocidade gerenciados por um nico master.
MapReduce usa um tipo de anlise de dados por fora
bruta. Todo o conjunto de dados processado em cada
query.

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce um modelo de programao para


processamento e gerao de grandes conjuntos de dados.
MapReduce transforma o problema de anlise em um
processo computacional que usa conjuntos de chaves e
valores.
MapReduce foi desenvolvido para tarefas que consomem
minutos ou horas em computadores conectados em rede
de alta velocidade gerenciados por um nico master.
MapReduce usa um tipo de anlise de dados por fora
bruta. Todo o conjunto de dados processado em cada
query.
Modelo de processamento em batch.
www.datascienceacademy.com.br
Introduo ao Hadoop

Dados

K = Key
A funo de Mapeamento V = Value
mapeamento, converte
dados em pares de
chave(K)/valor(V)
K1:V K2:V K3:V K4:V

www.datascienceacademy.com.br
Introduo ao Hadoop

Mapper 1 Reducer 1

Mapper 2 Reducer 2

Big Data Resultado


Mapper 3 Reducer 3

Mapper 4 Reducer 4

www.datascienceacademy.com.br
Introduo ao Hadoop

Seek Time x Transfer Rate

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce permite a execuao de queries ad-hoc em todo


o conjunto de dados em um tempo escalvel
Muitos sistemas distribudos combinam dados de mltiplas
fontes (o que bem complicado), mas MapReduce faz isso
de forma eficiente e efetiva
O segredo da performance do MapReduce, est no
balanceamento entre seeking e transfer: reduzir operaes
de seeking e usar de forma efetiva as operaes de transfer

Seek time o delay para encontrar um arquivo.


Transfer rate a velocidade para encontrar o arquivo.
Transfer rates tem melhorado significamente
( bem mais veloz que Seek times)
www.datascienceacademy.com.br
Introduo ao Hadoop

O MapReduce bom para atualizar todo (ou a maior parte)


de um grande conjunto de dados.

RDBMS (Relational Database Management System) so


timos para atualizar pequenas pores de grandes bancos
de dados.

RDBMS utiliza o tradiocional B-Tree, que altamente


dependente de operaes de seek.

MapReduce utiliza operaes de SORT e Merge para recriar


o banco de dados, o que mais dependente de operaes
de transfer.
www.datascienceacademy.com.br
Introduo ao Hadoop

O MapReduce se baseia em operaes de transfer,


o que deixa o acesso aos dados muito mais veloz

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce x RDBMS

RDBMS* MapReduce
Tamanho dos dados Gigabytes (109) Petabytes (1012)
Acesso Interativo e Batch Batch
Updates Leitura e Escrita diversas vezes WORM (Write Once, Read Many Times)
Estrutura de Dados Esquema esttico Esquema dinmico
Integridade Alta Baixa
Escalabilidade No-linear Linear

* RDBMS = Relational Database Management System

www.datascienceacademy.com.br
Introduo ao Hadoop
Tipos de Dados

Dados Dados Semi Dados No


Estruturados Estruturados Estruturados

Dados que so Dados que no Dados sem estrutura


representados em possuem um modelo pr-definida
formato tabular formal de organizao

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce muito efetivo com dados semi ou no estuturados!

Por qu?

www.datascienceacademy.com.br
Introduo ao Hadoop

MapReduce interpreta dados durante as sesses de processamento de dados.


Ele no utiliza propriedades intrnsecas. Os parmetros usados para
selecionar os dados, so definidos pela pessoa que est fazendo a anlise.

www.datascienceacademy.com.br
Arquitetura Hadoop

www.datascienceacademy.com.br
Arquitetura Hadoop
Hadoop x RDBMS
Hadoop RDBMS

Conceito de transaes
Conceito de Jobs
Modelo de Uma transao uma unidade de
Cada Job uma unidade de trabalho
Computao trabalho
No h controle de concorrncia
Controle de concorrncia

Qualquer tipo de dado pode ser usado, Dados estruturados com controle
Modelo de
Dados em qualquer formato de esquema
Dados
Modelo de apenas leitura Modelo de leitura/escrita

Modelo de Mquinas de custo mais baixo podem ser Servidores de maior custo so
Custo usadas necessrios
Tolerncia a Simples, mas eficiente mecanismo de Falhas so raras de ocorrer
Falhas tolerncia a falha Mecanismos de recuperao

www.datascienceacademy.com.br
Arquitetura Hadoop

O Apache Hadoop composto de 2 componentes principais

Hadoop HDFS

Hadoop MapReduce

www.datascienceacademy.com.br
Arquitetura Hadoop

Cluster Hadoop possui 2 tipos Master


de nodes:

Master node
Worker (slave) node

Slave

www.datascienceacademy.com.br
Arquitetura Hadoop

Cluster Hadoop

Datacenter

www.datascienceacademy.com.br
Arquitetura Hadoop
Slave Nodes

Storage Processamento
HDFS MapReduce
Datanode TaskTracker

Master Node

Storage Processamento
HDFS MapReduce
Datanode TaskTracker

Storage Processamento Storage Processamento


HDFS MapReduce HDFS MapReduce
Namenode JobTracker Datanode TaskTracker

Armazenamento Computao

www.datascienceacademy.com.br
Arquitetura Hadoop

www.datascienceacademy.com.br
Arquitetura Hadoop

Servios Base do Hadoop

NameNode Master

Secondary NameNode JobTracker


DataNode MapReduce

JobTracker Slave TaskTracker TaskTracker Slave

TaskTracker
NameNode

HDFS
Slave DataNode DataNode Slave

www.datascienceacademy.com.br
Arquitetura Hadoop

Cluster Hadoop

Processamento Cliente Armazenamento


Distribudo Distribudo

MapReduce HDFS

Master Secondary
Nodes JobTracker NameNode
NameNode

Slave DataNode DataNode DataNode


Nodes
TaskTracker TaskTracker TaskTracker

www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 1 Dados so enviados para o cluster Hadoop

Dados

www.datascienceacademy.com.br
Arquitetura Hadoop
Passo 2 Programas so executados para processar os dados
Programa

www.datascienceacademy.com.br
Arquitetura Hadoop

Programa

Dados

www.datascienceacademy.com.br
Arquitetura Hadoop
Modos de Configurao do Hadoop
Hadoop suporta 3 modos de configurao:

Modo Standalone Todos os servios Hadoop so executados em uma nica JVM, no mesmo servidor

Servios individuais do Hadoop so atribudos a JVMs individuais, no mesmo


Pseudo Distribudo
servidor

Totalmente Servios individuais do Hadoop so executados em JVMs individuais, mas atravs


Distribudo de cluster

www.datascienceacademy.com.br
Arquitetura Hadoop

Arquitetura HDFS

Secondary
Master NameNode
NameNone

Slave

DataNode DataNode DataNode

www.datascienceacademy.com.br
Arquitetura Hadoop

Arquitetura HDFS

O Hadoop Distributed File System (HDFS) um sistema de arquivos distribudo


projetado para executar em hardwares simples (computadores bsicos)

www.datascienceacademy.com.br
Arquitetura Hadoop

Arquitetura HDFS

Ele tem muitas semelhanas com sistemas de arquivos distribudos existentes

No entanto, as diferenas de outros sistemas de arquivos distribudos so significativas

www.datascienceacademy.com.br
Arquitetura Hadoop

Arquitetura HDFS

HDFS altamente tolerante a falhas e projetado para ser implementado em hardware


de baixo custo

www.datascienceacademy.com.br
Arquitetura Hadoop

Arquitetura HDFS

HDFS oferece acesso de alta taxa de transferncia de dados de aplicativos e adequado


para aplicaes que tm grandes conjuntos de dados

www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS

1. Os servios NameNode e SecondaryNode, constituem os


servios Master. Os servios DataNode so os slaves.

www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS

2. O servios Master responsvel por aceitar os Jobs das


aplicaes clientes e garantir que os dados requeridos para a
operao sejam carregados e segregados em pedaos de
blocos de dados.

www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS

3. O HDFS permite que os dados sejam armazenados em


arquivos. Um arquivo dividido em um ou mais blocos que
so armazenados e replicados pelos DataNodes. Os blocos de
dados so ento distribudos para o sistema de DataNodes
dentro do cluster. Isso garante que as rplicas de dados sejam
mantidas.

www.datascienceacademy.com.br
Arquitetura Hadoop
Arquitetura HDFS

4. As rplicas de cada bloco de dados so distribudas em


computadores em todo o cluster para permitir o acesso de
dados confivel e de forma rpida.

www.datascienceacademy.com.br
Arquitetura Hadoop

Cluster HDFS

Cluster Single-Node Cluster Multi-Node


Hadoop instalado em um nico Hadoop instalado em diversos
computador (chamado node) nodes.

So usados para processamento So usados para computao


mais simples, bem como operaes complexa, normalmente
triviais de MapReduce e HDFS envolvendo aplicaes de Analytics

www.datascienceacademy.com.br
Arquitetura Hadoop

Processamento MapReduce

www.datascienceacademy.com.br
Arquitetura Hadoop

MapReduce

Listas Ordenadas

Listas Ordenadas ainda menores

www.datascienceacademy.com.br
Arquitetura Hadoop

Em resumo, MapReduce foi


projetado para usar
computao paralela
distribuda em Big Data e
transformar os dados em
pedaos menores

www.datascienceacademy.com.br
Arquitetura Hadoop

MapReduce

MapReduce funciona atravs de 2 operaes:


Mapeamento e Reduo.
No processo de mapeamento (Map), os dados so separados em pares (key-
value pairs), transformados e filtrados. Ento os dados so distribudos para
os nodes e processados.
No processo de reduo (Reduce), os dados so agregados em conjuntos de
dados (datasets) menores. Os dados resultantes do processo de reduo so
transformados em um formato padro de chave-valor (key-value), onde a
chave (key) funciona como o identificador do registro e o valor (value) o
dado (contedo) que identificado pela chave.

www.datascienceacademy.com.br
Arquitetura Hadoop

MapReduce

www.datascienceacademy.com.br
Arquitetura Hadoop

Processo de MapReduce

Todo o processo se inicia com a requisio feita


pelo cliente e o job submetido. O Job Tracker se
encarrega de coordenar como o job ser
distribudo.

www.datascienceacademy.com.br
Arquitetura Hadoop
Processo de MapReduce
Mapeamento dos dados - os dados de entrada so
primeiramente distribudos em pares key-value e
divididos em fragmentos, que so ento atribudos a
tarefas de mapeamento.

www.datascienceacademy.com.br
Arquitetura Hadoop

Processo de MapReduce

Reduo dos dados - cada operao de reduo


dos dados tem um fragmento atribudo.

www.datascienceacademy.com.br
Arquitetura Hadoop

MapReduce

MapReduce em Tempo Real

MapReduce vem sendo largamente utilizado em aplicaes real-time. Alguns exemplos :

Classificao Bayesiana para operaes de data mining.


Operaes de search engine, como indexao de keywords, rendering e page rank.
Anlise Gaussian para localizao de objetos astronmicos.
Web Semntica e Web 3.0.

www.datascienceacademy.com.br
Arquitetura Hadoop

Cache Distribudo

Distributed Cache ou Cache Distribudo, uma funcionalidade do Hadoop que permite


cache dos arquivos usados pelas aplicaes.

Isso permite ganhos considerveis de performance quando tarefas de map e reduce


precisam acessar dados em comum. Permite ainda, que um node do cluster acesse os
arquivos no filesystem local, ao invs de solicitar o arquivo em outro node.

possvel fazer o cache de arquivos zip e tar.gz.

www.datascienceacademy.com.br
Arquitetura Hadoop

Cache Distribudo

Uma vez que voc armazena um arquivo em cache para o seu trabalho, a estrutura
Hadoop ir torn-lo disponvel em cada node (em sistema de arquivos, no em
memria) onde as tarefas de mapeamento / reduo esto em execuo.

www.datascienceacademy.com.br
Arquitetura Hadoop

Segurana

O Hadoop utiliza o Kerberos, um mecanismo de autenticao usado por exemplo no


sistema de diretrios dos servidores Windows e tambm no sistema operacional Linux

www.datascienceacademy.com.br
Arquitetura Hadoop

Segurana

Por padro Hadoop executado no modo no-seguro em que no necessria a


autenticao real. Aps ser configurado, o Hadoop executado em modo de
segurana e cada usurio e servio precisa ser autenticado pelo Kerberos, a fim de
utilizar os servios do Hadoop.

www.datascienceacademy.com.br
Arquitetura Hadoop

Segurana

Depois que o Kerberos estiver configurado, a autenticao Kerberos usada para


validar as credenciais do lado do cliente. Isso significa que o cliente deve solicitar uma
permisso de servio vlido para o ambiente Hadoop.

www.datascienceacademy.com.br
Ecosistema Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Ecosistema Apache Hadoop


www.datascienceacademy.com.br
Ecosistema Hadoop

Pense no ecosistema como as apps do sistema operacional iOS ou Android

Os aplicativos servem para aprimorar a capacidade do SO

Mesmo raciocnio pode ser aplicado para os componentes do ecosistema Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop
Inteligncia
(Mahout, Drill)
Interao de Dados Busca
(Pig, Hive, Spark, Storm) (Lucene, Blur)
Grficos Operao e
(Giraph) Desenvolimento
Segurana (Ooozie,
(Knox, Sentry) Execuo de Jobs (MapReduce, YARN) Zookeeper,
Ambari, Whirr,
Serializao (Avro, Trevni, Thrift) Crunch)

Armazenamento de Dados
Sistema de Arquivos (HDFS)
(HBase, Cassandra)

Transferncia de Dados (Flume, Sqoop, Kafka, Falcon)

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper

Zookeeper uma soluo open-source de alta performance,


para coordenao de servios em aplicaes distribudas
Ele uma espcie de guardio do Zoo!

http://zookeeper.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper

ZooKeeper um servio de coordenao distribuda para


gerenciar grandes conjuntos de hosts (Clusters)

http://zookeeper.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper

Coordenao e gesto de um servio em um ambiente


distribudo um processo complicado
ZooKeeper resolve este problema com a sua arquitetura
simples
http://zookeeper.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper

ZooKeeper permite que os desenvolvedores se concentrem


na lgica do aplicativo principal sem se preocupar com a
natureza distribuda do aplicativo

http://zookeeper.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper
O framework ZooKeeper foi originalmente construdo no
"Yahoo!" para acessar seus aplicativos de uma forma fcil e
robusta
Mais tarde, Apache ZooKeeper se tornou um padro para a
organizao de servios do Hadoop, HBase e outras
estruturas distribudas
Por exemplo, o HBase usa ZooKeeper para acompanhar o
http://zookeeper.apache.org estado de dados distribudos atravs do Cluster

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Zookeeper

ZooKeeper proporciona um ponto comum de acesso a


uma ampla variedade de objetos utilizados em ambientes
de Cluster

http://zookeeper.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Oozie

Apache Oozie um sistema de agendamento de workflow


http://oozie.apache.org
usado para gerenciar principalmente os Jobs de MapReduce

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Oozie

Oozie integrado com o restante dos componentes do


ecosistema Hadoop para apoiar vrios tipos de trabalhos do
http://oozie.apache.org
Hadoop (como Java Map-Reduce, streaming Map-Reduce, Pig,
Hive e Sqoop), bem como jobs especficos do sistema (como
programas Java e scripts shell)

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Oozie

Oozie um sistema de processamento de fluxo de trabalho que


permite aos usurios definir uma srie de jobs escritos em
http://oozie.apache.org
diferentes linguagens - como Map Reduce, Pig e Hive e ento
inteligentemente lig-los um ao outro

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Oozie

Oozie permite aos usurios especificar, por exemplo, que uma


determinada consulta s pode ser iniciada aps os jobs
http://oozie.apache.org
anteriores que acessem os mesmo dados sejam concludos

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Oozie

Oozie um sistema verstil que pode ser usado para configurar


http://oozie.apache.org
e automatizar at mesmo o mais complicado workflow de
processamento de dados

Lembre-se que estamos falando em processamento de Big Data,


em Clusters que podem chegar a milhares de nodes

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Apache Hive um Data Warehouse que funciona com Hadoop e


MapReduce

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Hive um sistema de armazenamento de dados para Hadoop


que facilita a agregao dos dados para relatrios e anlise de
grandes conjuntos de dados (Big Data)
http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Hive permite consultas sobre os dados usando uma linguagem


SQL-like, chamada HiveQL (HQL)

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Prov capacidade de tolerncia a falha para armazenamento de


dados e depende do MapReduce para execuo

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Ele permite conexes JDBC / ODBC, por isso facilmente


integrado com outras ferramentas de inteligncia de negcios
como Tableau, Microstrategy, Microsoft Power BI entre outras
http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Hive orientado a batch e possui alta latncia para execuo de


queries

Assim como o Pig, gera jobs MapReduce que executam no


cluster Hadoop
http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive

Foi desenvolvido pelo Facebook.

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive Hive um sistema para gesto e query de dados no


estruturados, em formato estruturado.

Hive utiliza:

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive Hive um sistema para gesto e query de dados no


estruturados, em formato estruturado.

Hive utiliza:

MapReduce
(para execuo)

http://hive.apache.org
HDFS
(para armazenamento
e pesquisa de dados)

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive Arquitetura e Componentes Hive

http://hive.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive Hive Query Language - HQL

Hive Query Language (HQL) a lingugem de queries para o


engine Hive

HQL suporta os conceitos bsicos da linguagem SQL

http://hive.apache.org Clsula From


ANSI Join (somente equi-join)
Insert
Group-by
Sampling
www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hive Hive Query Language - HQL

Exemplo:

hive> select * from tb_folha_pagamento;

http://hive.apache.org hive> show tables;

hive> describe tb_folha_pagamento;

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Sqoop um projeto do ecosistema do Apache Hadoop, cuja


responsabilidade importar e exportar dados de bancos de
dados relacionais

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Sqoop um projeto do ecosistema do Apache Hadoop, cuja


responsabilidade importar e exportar dados de bancos de
dados relacionais
Sqoop significa SQL-to-Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Basicamente, o Sqoop permite mover os dados de bancos


tradicionais como Microsoft SQL Server ou Oracle, para o
Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org possvel importar tabelas individuais ou bancos de dados


inteiros para o HDFS e o desenvolvedor pode determinar que
colunas ou linhas sero importadas

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Ferramenta desenvolvida para transferir dados do Hadoop


para RDBMS e vice-versa

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Transforma os dados no Hadoop, sem necessidade de


desenvolvimento adicional

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Ele tambm gera classes Java atravs das quais voc pode
facilmente interagir com os dados importados

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Utiliza conexo JDBC para conectar com os bancos de dados


relacionais

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

http://sqoop.apache.org Pode criar diretamente tabelas no Hive e suporta importao


incremental

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Sqoop

Exemplo: Listando tabelas de um


banco MySQL com Sqoop:
http://sqoop.apache.org

sqoop list-tables username dsacademy password dsacademybr \


--connect jdbc:mysql://dbname

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Pig

uma ferramenta que utilizada para analisar grandes


conjuntos de dados que representam fluxos de dados

http://pig.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Pig

Pig geralmente usado com Hadoop; podemos realizar


todas as operaes de manipulao de dados no Hadoop
usando Apache Pig

http://pig.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Pig

Para escrever programas de anlise de dados, Pig oferece


uma linguagem de alto nvel conhecido como Pig Latin

http://pig.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Pig

Para escrever programas de anlise de dados, Pig oferece


uma linguagem de alto nvel conhecido como Pig Latin
Esta linguagem fornece vrios operadores que os
programadores podem usar para criar as suas prprias
funes para leitura, escrita e processamento de dados
http://pig.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Pig

Para analisar dados usando Apache Pig, os programadores


precisam escrever scripts usando linguagem Pig Latin
Todos esses scripts so convertidos internamente para
tarefas de mapeamento e reduo
Apache Pig tem um componente conhecido como Pig
http://pig.apache.org engine que aceita os scripts Pig Latin como entrada e
converte esses scripts em jobs MapReduce

www.datascienceacademy.com.br
Ecosistema Hadoop
Componentes do Pig
Apache Pig
Pig Latin Script Language
Linguagem procedural de fluxo de dados
Contm sintaxe e comandos que podem ser aplicados
para implementar lgica de negcios

Runtime engine
Compilador que produz sequncias de programas
http://pig.apache.org MapReduce
Utiliza HDFS para armazenar e buscar dados
Usado para interagir com sistemas Hadoop
Valida e compila scripts de operao em sequncias
de Jobs MapReduce
www.datascienceacademy.com.br
Ecosistema Hadoop
Pig X SQL
Apache Pig

Pig SQL
Linguagem de script usada para Linguagem de query usada para
interagir com o HDFS interagir com bancos de dados
Passo a passo Bloco nico
Avaliao no imediata Avaliao imediata
Requer que um join seja executado 2
http://pig.apache.org
Permite resultados intermedirios vezes ou materializado como um
resultado intermedirio

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

HBase um banco de dados orientado a coluna construdo sobre


http://hbase.apache.org
o sistema de arquivos Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

HBase um banco de dados orientado a coluna construdo sobre


http://hbase.apache.org
o sistema de arquivos Hadoop
HBase o banco de dados oficial do Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

HBase um modelo de dados que semelhante ao Big Table do


http://hbase.apache.org
Google projetado para fornecer acesso aleatrio rpido a grandes
quantidades de dados

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

Ele aproveita a tolerncia a falhas fornecida pelo sistema de


http://hbase.apache.org
arquivos Hadoop (HDFS)

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

Ele aproveita a tolerncia a falhas fornecida pelo sistema de


http://hbase.apache.org
arquivos Hadoop (HDFS)
uma parte do ecosistema Hadoop que fornece em tempo real
acesso aleatrio de leitura / gravao aos dados do HDFS

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

Pode-se armazenar os dados em HDFS quer diretamente quer


http://hbase.apache.org
atravs do HBase

www.datascienceacademy.com.br
Ecosistema Hadoop
O HBase um tipo de banco de dados NoSQL e utiliza o modelo
Apache Hbase key-value (chave-valor).
Cada valor identificado por uma chave.
Chaves e valores so do tipo byte-array.
http://hbase.apache.org Valores so armazenados por ordem de acordo com a chave.
Os valores podem ser facilmente acessados por suas respectivas
chaves.
No HBase, as tabelas no possuem schemas.

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

http://hbase.apache.org
O objetivo do HBase armazenar tabelas realmente grandes,
com bilhes de dados

www.datascienceacademy.com.br
Ecosistema Hadoop
Arquitetura HBase
Apache Hbase HBase possui 2 tipos de Nodes: Master e RegionServer

Master RegionServer
Somente um node Master pode ser
executado. A alta disponibilidade Um ou mais podem existir
http://hbase.apache.org
mantida pelo ZooKeeper
Responsvel pela gesto de operaes
Responsvel por armazenar as tabelas,
de cluster, como assignment, load
realizar leituras e buffers de escrita
balancing e splitting
O cliente comunica com o
No faz parte de operaes de
RegionServer para processar operaes
read/write
de leitura/escrita

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Hbase

Subconjuntos de dados de tabelas, so chamadas de


http://hbase.apache.org regies no HBase

O Node Master detecta o status dos RegionServers e


atribui regies a eles

www.datascienceacademy.com.br
Ecosistema Hadoop
HBase x RDBMS
Apache Hbase HBase RDBMS
Particionamento manual,
Particionamento automtico
realizado pelo administrador
Pode ser escalado de forma Pode ser escalado
http://hbase.apache.org linear e automtica com novos verticalmente com a adio de
nodes mais hardware
Requer hardware mais robustos
Utiliza hardware commodity
e portanto, mais caros
Tolerncia a falha pode estar
Possui tolerncia a falha
presente ou no
Com MapReduce, alavanca Precisa de muitas threads ou
processos batch processos para processamento
www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

Flume um servio que basicamente permite enviar dados


diretamente para o HDFS

http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

Foi desenvolvido pela Cloudera e permite mover grandes


quantidades de dados

http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

Basicamente, o Apache Flume um servio que funciona em


ambiente distribudo para coletar, agregar e mover grandes
quantidades de dados de forma eficiente
http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

Ele possui uma arquitetura simples e flxvel beseada em


streaming (fluxo constante) de dados

http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume
Ele possui uma arquitetura simples e flxvel beseada em
streaming (fluxo constante) de dados

http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

O modelo de dados do Flume, permite que ele seja usado em


aplicaes analticas online
http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

O Flume tambm pode ser usado em Infraestrutura de TI

http://flume.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Flume

O Flume tambm pode ser usado em Infraestrutura de TI

Agentes so instalados em servidores web, servidores de


aplicao ou aplicativos mobile, para coletar e integrar os
http://flume.apache.org
dados com Hadoop, para anlise online

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout

Apache Mahout uma biblioteca open-source de algoritmos


de aprendizado de mquina, escalvel e com foco em
http://mahout.apache.org clustering, classificao e sistemas de recomendao

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout

O Mahout dedicado ao Machine Learning


http://mahout.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout

O Mahout permite a utilizao dos principais algoritmos de


clustering, testes de regresso e modelagem estatstica e os
implementa usando um modelo MapReduce
http://mahout.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout

E quando utilizar o Mahout?

http://mahout.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout Voc precisa utilizar algoritmos de Machine Learning com


alta performance?
Sua soluo precisa ser open-source e livre?
Voc possui um grande conjunto de dados (Big Data) e
pretende utilizar ferramentas de anlise como R, Matlab e
Octave?
http://mahout.apache.org Seu processamento de dados ser feito usando um modelo
batch (voc no precisa utilizar dados gerados em tempo
real)?
Voc precisa de uma bilioteca madura e disponvel no
mercado h alguns anos que j tenha sido testada e
validada?

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Mahout

Se suas respostas forem sim, o Mahout pode atender suas


necessidades
http://mahout.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka foi desenvolvido pelo LinkedIn e


posteriormente liberado como um projeto open-source,
em 2011
http://kafka.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka um sistema para gerenciamento de


fluxos de dados em tempo real, gerados a partir de web
sites, aplicaes e sensores
http://kafka.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

Essencialmente, o Kafka age como uma espcie de


sistema nervoso central, que coleta dados de alto volume
como por exemplo a atividade de usurios (clicks em um
web site), logs, cotaes de aes etc e torna estes dados
http://kafka.apache.org disponveis como um fluxo em tempo real para o consumo
por outras aplicaes

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

http://kafka.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka foi desenvolvido com um propsito


especfico em mente: servir como um repositrio central
de fluxos de dados

http://kafka.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka foi desenvolvido com um propsito


especfico em mente: servir como um repositrio central
de fluxos de dados

http://kafka.apache.org Mas por que fazer isso?

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka foi desenvolvido com um propsito


especfico em mente: servir como um repositrio central
de fluxos de dados

http://kafka.apache.org Mas por que fazer isso?

Havia duas motivaes

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

Integrao dos dados

Baixa latncia

http://kafka.apache.org

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Kafka

O Apache Kafka est ajudando a mudar a forma como os


dados so usados dentro das empresas

No faz mais sentido falar apenas em dados armazenados


em tabelas, com linhas e colunas

http://kafka.apache.org O volume de dados agora to grande, que os dados


precisam ser vistos como o que realmente so: um fluxo
constante, que precisa ser analisado em tempo real

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Ambari

Apache Ambari um framework para provisionamento, gesto


http://ambari.apache.org
e monitoramento de clusters Apache Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Ambari Web

Provisionamento

Hadoop Ambari Gesto

Monitoramento

www.datascienceacademy.com.br
Ecosistema Hadoop

Apache Ambari

Apache Ambari um conjunto de ferramentas para administrar


http://ambari.apache.org
e monitorar clusters Hadoop, que foi desenvolvido pela equipe
de engenheiros da Hortonworks

www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.

Permite armazenar grandes quantidades de dados em


hardware de baixo custo.

Foi criado para trabalhar com pouca quantidade de grandes


arquivos de dados e no com muita quantidade de
pequenos arquivos.

No otimizado para operaes de leitura randomica, como


RDBMSs.
WORM (Write Once Read Many Times).

www.datascienceacademy.com.br
Ecosistema Hadoop
HDFS um filesystem desenvolvido em Java e baseado no
Google File System.

Permite armazenar grandes quantidades de dados em


hardware de baixo custo.

Foi criado para trabalhar com pouca quantidade de grandes


arquivos de dados e no com muita quantidade de
pequenos arquivos.

No otimizado para operaes de leitura randomica, como


RDBMSs.
WORM (Write Once Read Many Times).

Os arquivos so gerados em blocos de 64 a 128 MB.


www.datascienceacademy.com.br
Ecosistema Hadoop

Os blocos so replicados atravs dos datanodes, com um


fator de replicao padro, igual a 3 (cada bloco replicado 3
vezes).

Os blocos replicados so armazenados em diferentes


mquinas.

O Namenode mantm um mapa de como os blocos


compem cada arquivo.

O Namenode precisa estar disponvel para que o Cluster


Hadoop possa ser acessado.

O Namenode tem os metadados gravados em Memria e


periodicamente os grava em disco.
www.datascienceacademy.com.br
Ecosistema Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

MapReduce um modelo de programao para


processamento de grandes volumes de dados, tipicamente
usado para computao distribuda em clusters.

Jobs de Mapper e Reducer realizam as tarefas.

Quando uma tarefa tenta processar um conjunto de dados


e falha por 4 vezes, a tarefa cancelada e o job falha.

Todos os dados recebem a forma de pares chave-valor


(key-value).

www.datascienceacademy.com.br
Ecosistema Hadoop

O Apache YARN um sistema gerenciador


de Cluster Hadoop

YARN significa

Yet Another Resource Negotiator

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN foi introduzido na verso 2.0 do Hadoop


para melhorar a implementao do MapReduce,
mas ele suporta outros paradigmas de
computao distribuda

www.datascienceacademy.com.br
Ecosistema Hadoop

Aplicao

Gerenciamento

Armazenamento

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN funciona atravs de 2


servios:

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN funciona atravs de 2


servios:

Resouce Manager (um por cluster)

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN funciona atravs de 2


servios:

Resouce Manager (um por cluster)


Node Manager (que executado
em todos os nodes do cluster)

www.datascienceacademy.com.br
Ecosistema Hadoop

Uma das principais funes do YARN garantir que os algoritmos de processamento


dos dados distribudos, utilizem de forma eficiente os recursos do Cluster

www.datascienceacademy.com.br
Ecosistema Hadoop

Tambm possvel utilizar o Spark sobre o YARN, que o


mtodo mais conveniente de usar o Spark, quando existe
um Cluster Hadoop

www.datascienceacademy.com.br
Ecosistema Hadoop

Existem 2 modos de executar o Spark com YARN:

YARN Client Mode


YARN Cluster Mode

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN Client Mode utilizado


quando o programa possui um
componente interativo, como o
spark-shell ou pyspark

O Client Mode tambm


importante quando se est
construindo programas Spark, pois
o debug imediatamente visvel

www.datascienceacademy.com.br
Ecosistema Hadoop

O YARN Cluster Mode indicado


para os jobs em ambiente de
produo, pois toda a aplicao
ser executada em Cluster

www.datascienceacademy.com.br
Ecosistema Hadoop

Caracterstica Descrio
Compatibilidade Aplicaes MapReduce desenvolvidas para o Hadoop verso 1.0,
podem usar o YARN para execuo com verses mais novas do
Hadoop, sem mudar os processos existentes
Escalabilidade O Resource Manager do YARN tem o foco em gerenciar o cluster,
medida que novos nodes so adicionados, expandindo o cluster para
milhares de nodes e e petabytes de dados
Utilizao do O YARN promove a alocao dinmica de recursos do cluster,
Cluster melhorando sua utilizao e agindo de forma muito mais eficiente que
as regras estticas do MapReduce

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Por que usar solues comerciais com Hadoop?

Voc pode estar se perguntando:

Se o Hadoop livre, porque eu usaria solues comerciais do software?


Suporte as principais solues comerciais do Hadoop oferecem
suporte, guias, assistncia e melhores prticas.
Confiana sempre que um bug detectado, as solues comerciais
prontamente atualizam o software.
Pacote completo as solues oferecem pacotes completos, com
tudo que necessrio para uma infraestrutura de BigData.

www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Principais Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop
Principais Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

A distribuio Hadoop da Amazon, foi uma das primeiras


distribuies comerciais do Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

AWS Elastic MapReduce uma plataforma de anlise de


dados bem organizada e construda sobre a arquitetura HDFS

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Com foco principal em consultas de mapeamento / reduo o AWS


EMR explora ferramentas Hadoop, fornecendo uma plataforma de
infraestrutura escalvel e segura para seus usurios

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Amazon Web Services EMR est entre uma das distribuies


comerciais do Hadoop com a maior participao no mercado global

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

https://aws.amazon.com/elasticmapreduce

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Cloudera Hadoop ocupa o topo na lista grande fornecedores


de dados Hadoop, pois possui uma plataforma confivel para
uso comercial desde 2008

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Cloudera, fundada por um grupo de engenheiros do Yahoo,


Google e Facebook, est focada em fornecer solues
empresariais do Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Cloudera Hadoop possui cerca de 350 clientes, incluindo o


Exrcito dos EUA, AllState e Monsanto

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Alguns deles com implantao de 1000 ns em um cluster


Hadoop para anlise de dados de cerca de um petabyte

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Cloudera utiliza produtos 100% open-source

Apache Hadoop
Apache Pig
Apache Hive
Apache HBase
Apache Sqoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Cloudera possui um sistema amigvel de gesto, chamado


Cloudera Manager, para gesto de dados e que possui suporte
tcnico

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

http://www.cloudera.com

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Hortonworks Data Platform (HDP) uma sute de funcionalidades


essenciais para implementao do Hadoop, que pode ser usado
para qualquer plataforma tecnolgica de dados

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

O principal objetivo da Hortonworks conduzir todas as suas


inovaes atravs da plataforma de dados abertos Hadoop e
construir um ecosistema de parceiros que acelere o processo de
adoo do Hadoop entre empresas

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Apache Ambari um exemplo de console de gerenciamento cluster


do Hadoop desenvolvido pelo fornecedor Hortonworks para a
gesto e monitoramento de clusters Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

A Hortonworks Hadoop tem atrado mais de 60 novos clientes a


cada trimestre com algumas contas gigantes como Samsung,
Spotify, Bloomberg e eBay.

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

A Hortonworks tem atrado fortes parcerias de engenharia com


RedHat, Microsoft, SAP e Teradata

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

http://hortonworks.com

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

MapR Data Plarform suporta mais de 20 projetos open-source

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

MapR foi reconhecida amplamente por suas distribuies


avanadas em Hadoop, no relatrio do Gartner "Super
Vendedores em Infra-Estrutura da Informao e Big Data, 2012"

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

MapR foi projetada tendo em mente as operaes de TI em Data


Centers

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

O MapR permite a utilizao de aplicaes baseadas em Hadoop


e Spark, para atender s necessidades crticas de negcio, que
operam 24x7

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

O MapR suporta amplamente processamento de dados em


bacth ou streaming de dados em tempo real

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

https://www.mapr.com

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Pivotal HD uma distribuio comercial do Hadoop. Ele consiste


em um conjunto de ferramentas que visam acelerar projetos de
anlise de dados e expandir as funcionalidades do Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Possui capacidade de anlise em tempo real e decises de


processos de negcio podem ser tomadas quase que
imediatamente a anlise de dados

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Pivotal Big Data suite fornece um motor SQL nativo para o


Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Possui ainda suporte para processamento de Big Data em


memria, o que acelera o processamento de dados

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

http://pivotal.io

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Azure HDInsight uma distribuio Apache


Hadoop distribuda em Cloud

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

O azure HDInsight consegue lidar com


quantidades de dados, de terabytes at petabytes,
permitindo a incluso de nodes sob demanda

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Por ser 100% Apache Hadoop, o HDInsight pode


processar dados semi-estruturados ou no-
estruturados, tais como clicks em pginas web,
posts em mdia social, logs de servidores, dados de
sensores, etc

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

O HDInsight tambm possui extenses para


programao em C#, Java e .NET, que podem ser
usadas para criar, configurar, submeter e monitorar
jobs Hadoop

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

Por ser integrado com Excel, o HDInsight permite


visualizar e analisar dados do Hadoop, de forma
que seja familiar aos usurios finais

www.datascienceacademy.com.br
Solues Comerciais com Hadoop

https://azure.microsoft.com/en-us/services/hdinsight

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

Apache Spark um engine rpido e de uso geral para


http://spark.apache.org processamento de dados em larga escala

www.datascienceacademy.com.br
Introduo ao Apache Spark

significantemente mais veloz que o Hadoop MapReduce e


vem ganhando popularidade

www.datascienceacademy.com.br
Introduo ao Apache Spark

Utiliza o Hadoop (HDFS) como base, mas pode ser usado com
Cassandra, HBase e MongoDB

www.datascienceacademy.com.br
Introduo ao Apache Spark

Pode ser usado com linguagens Python, R e Scala

www.datascienceacademy.com.br
Introduo ao Apache Spark

Usado por empresas como Globo.com, Yelp, Washington


Post, Yahoo e Twiter

www.datascienceacademy.com.br
Introduo ao Apache Spark

Sua velocidade de execuo pode ser at


Velocidade 100x mais rpido que o Hadoop
MapReduce em memria e 10x em disco
Aplicaes podem ser escritas e Java,
Facilidade de uso
Scala e Python
Combina SQL Streaming e anlise
complexa, alm do uso de ferramentas
Generalidade de alto nvel como Spark SQL, MLlib para
Machine Learning, GraphX e Spark
Streaming
Executa sobre o YARN cluster manager e
Integrao com
permite leitura e escrita de dados no
Hadoop
HDFS

www.datascienceacademy.com.br
Introduo ao Apache Spark

Spark um projeto open source, mantido por uma


comunidade de desenvolvedores que foi criado em 2009 na
Universidade da Califrnia, Berkeley

www.datascienceacademy.com.br
Introduo ao Apache Spark

Os desenvolvedores estavam trabalhando


com Hadoop MapReduce e perceberam ineficincias na
execuo de computao iterativa

www.datascienceacademy.com.br
Introduo ao Apache Spark

Em pouco tempo, Apache Spark tem se tornado o


mecanismo de processamento de Big Data para a prxima
gerao e est sendo aplicado em todo o mercado de dados
mais rpido do que nunca

www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:

1- Facilidade de uso possvel desenvolver APIs de alto


nvel em Java, Scala, Python e R, que permitem focar apenas
no contedo a ser computado, sem se preocupar com
configuraes de baixo nvel e extremamente tcnicas.

www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:

2- Velocidade Spark veloz, permitindo uso iterativo e


processamento rpido de algoritmos complexos. Velocidade
uma caracterstica especialmente importante no
processamento de grandes conjuntos de dados e pode fazer
a diferena entre analisar os dados de forma interativa ou
ficar aguardando vrios minutos pelo fim de cada
processamento. Com Spark, o processamento feito em
memria.

www.datascienceacademy.com.br
Introduo ao Apache Spark
O Apache Spark oferece basicamente 3 principais benefcios:

3- Uso geral Spark permite a utilizao de diferentes tipos


de computao, como processamento de linguagem SQL
(SQL Spark), processamento de texto, Machine
Learning (MLlib) e processamento grfico (GraphX). Estas
caractersticas fazem do Spark uma excelente opo para
projetos de Big Data.

www.datascienceacademy.com.br
Introduo ao Apache Spark

O projeto Spark contm diversos componentes integrados.


Basicamente, Spark um engine de computao,
responsvel por agendar, distribuir e monitorar aplicaes
de diversas tarefas de processamento atravs de diferentes
servidores em cluster

www.datascienceacademy.com.br
Introduo ao Apache Spark

Spark Framework

www.datascienceacademy.com.br
Introduo ao Apache Spark

Spark Core

Contm as funcionalidades bsicas do Spark,


incluindo componentes para agendamento
de tarefas, gesto de memria, recuperao
de falha e sistemas de armazenamento.

Resilient Distributed Datasets (RDDs)

www.datascienceacademy.com.br
Introduo ao Apache Spark

Spark SQL

Spark SQL um pacote para tarefas com dados


estruturados. Ele permite realizar queries nos
dados atravs de linguagem SQL e HQL (Apache
Hive Query Language a variao do SQL
desenvolvida pela Apache), alm de suportar
diversas fontes de dados como Hive e JSON.

www.datascienceacademy.com.br
Introduo ao Apache Spark

Spark Streaming

Esse um componente do framework Spark


para processamento de streams de dados em
tempo real.

www.datascienceacademy.com.br
Introduo ao Apache Spark

Mllib

A biblioteca MLlib uma funcionalidade


para Machine Learning.

www.datascienceacademy.com.br
Introduo ao Apache Spark

GraphX

O GraphX um biblioteca para


manipulao de grficos e computao
em paralelo.

www.datascienceacademy.com.br
Introduo ao Apache Spark

O resultado de um projeto de Big Data, pode ser a criao de um


sistema de anlise de dados em tempo real, que pode se tornar o
componente de uma aplicao de negcio

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

Quando se trata de Hadoop e Spark, duas perguntas so frequentes:

www.datascienceacademy.com.br
Introduo ao Apache Spark

Quando se trata de Hadoop e Spark, duas perguntas so frequentes:

1- J estou usando Hadoop, devo usar o Spark?

2- Estou pensando em usar Hadoop, devo desistir e usar Spark?

Vamos investigar as diferenas entre Hadoop e Spark e responder a


estas perguntas!

www.datascienceacademy.com.br
Introduo ao Apache Spark

O Hadoop a plataforma original do Big


Data, que tem sido usado e testado no
mercado. Permite trabalhar com
Petabytes de dados, habilitando a anlise O Hadoop possui um ecositema
de quantidades massivas de dados. bem definido que permite estender
suas funes, como no caso da
utilizao do Pig, Hive e HBase.

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

Big Data Analytics

www.datascienceacademy.com.br
Introduo ao Apache Spark
A verdade que criaram o Hadoop para processar grandes volumes de dados em
batch. O Big Data.

Mas e se o volume de dados no for to grande assim?

E se o volume de dados estiver em streaming, ou seja, fluxo contnuo de dados?

O Hadoop MapReduce possui limitaes e no atende a alguns requisitos cada vez


mais importantes:

Programao iterativa (Machine Learning, Algoritmos, etc)


E streaming de dados (possui alta latncia)

www.datascienceacademy.com.br
Introduo ao Apache Spark
Engine de computao em cluster

Veloz em memria os dados so processados ate 100x mais


rpido que no MapReduce

Propsito geral SQL, streaming, Machine Learning

Compatibilidade Hadoop, Mesos, Yarn, Standalone, HDFS,


S3, Cassandra, HBase

Mais fcil e simples

a primeira plataforma de Big Data a integrar batch, streaming e


computao interativa em um nico framework

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark
Hadoop Spark
Armazenamento distribudo + Computao Somente computao distribuda
distribuda
Framework MapReduce Computao genrica
Normalmente processa dados em disco Em disco / Em memria
(HDFS)
No ideal para trabalho iterativo Excelente para trabalhos iterativos (Machine
Learning)
At 10x mais rpido para dados em disco
Processo batch At 100x mais rpido para dados em
memria
Basicamente Java Suporta Java, Python, Scala
No possui um shell unificado Shell para explorao ad-hoc

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

Ento o Spark vai substituir o Hadoop?


No
Spark executa sobre o HDFS / YARN

www.datascienceacademy.com.br
Introduo ao Apache Spark

Ento o Spark vai substituir o Hadoop?


No
Spark executa sobre o HDFS / YARN
Pode acessar o HDFS
Usa YARN para gerenciamento do cluster
Spark realmente bom quando os dados podem ser processados em memria
Mas e quando no podem (por exemplo, gigantescos volumes de dados)?

www.datascienceacademy.com.br
Introduo ao Apache Spark
Hadoop Spark
Processamento batch Hadoop MapReduce (Java, Pig, Spark RDD (Java, Python, Scala)
Hive)
Query SQL Hadoop: Hive Spark SQL
Processamento Stream / Storm, Kafka Spark Streaming
Processamento em Tempo Real
Machine Learning Mahout Spark ML Lib
Algoritmos iterativos Lento Muito rpido (em memria)
Pig com Spark ou Mix de Spark
Workflow ETL Pig, Flume
SQL e programao RDD
Volume mdio (Gigabytes /
Volume de Dados Volume gigante (Petabytes)
Terabytes)

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

www.datascienceacademy.com.br
Introduo ao Apache Spark

J usa Hadoop?

Tente o Spark para processar dados no


HDFS

Ainda no usa Hadoop?

Tente o Spark standalone

www.datascienceacademy.com.br
Apache Storm

O Apache Storm se tornou o padro para


processamento em tempo real distribudo e permite
processar grandes quantidades de dados

www.datascienceacademy.com.br
Apache Storm

O Apache Storm foi desenvolvido em Java

www.datascienceacademy.com.br
Apache Storm

Foi criado para processar grandes quantidades de


dados em ambientes tolerantes a falhas e escalveis

www.datascienceacademy.com.br
Apache Storm

Basicamente, o Storm um framework para dados


streaming (fluxo contnuo de dados) e possui uma
alta taxa de ingesto de dados

www.datascienceacademy.com.br
Apache Storm

A gesto do estado do cluster, feita atravs do


Zookeeper

www.datascienceacademy.com.br
Apache Storm

O Storm simples e voc pode executar todos os tipos


de manipulao de dados em tempo real, em paralelo

www.datascienceacademy.com.br
Apache Storm

O Apache Storm um dos lderes em Real-Time Analytics

www.datascienceacademy.com.br
Apache Storm

Principais benefcios de se utilizar o Storm:

Storm open-source, robusto e amigvel (fcil utilizao)


Tolerante a falhas, flexvel, confivel e suporta diversas linguagens
de programao
Processa dados em tempo-real
Storm incrivelmente veloz

www.datascienceacademy.com.br
Apache Storm

Arquitetura Storm
Master Node

No Master Node
encontramos o servio
Nimbus, que
responsvel pela
atribuio de tarefas
aos Supervisors

www.datascienceacademy.com.br
Apache Storm

Arquitetura Storm
Coordenao do Cluster

O Zookeeper faz a
coordenao do
funcionamento do
cluster

www.datascienceacademy.com.br
Apache Storm

Arquitetura Storm
Supervisor

Os supervisors so
responsveis por 1 ou
mais workers e sua
funo garantir que
os workers executem
os jobs

www.datascienceacademy.com.br
Apache Storm

Arquitetura Storm
Worker Node

Os workers nodes,
executam as taferas
(jobs)

www.datascienceacademy.com.br
Apache Storm

Arquitetura Storm
Esta arquitetura
garante uma das
principais
caractersticas do
Storm:

No single-point de
falha

www.datascienceacademy.com.br
Apache Storm

Hadoop x Storm

O Storm realiza todas as operaes, exceto persistncia, enquanto o


Hadoop bom em tudo, exceto computao de dados em tempo real

www.datascienceacademy.com.br
Apache Storm

Hadoop x Storm

Hadoop Storm
Processamento em batch Processamento de streams em tempo
real
Arquitetura Master/Slave com ou sem Arquitetura Master/Slave com o
o Zookeeper Zookeeper

O HDFS utiliza o MapReduce para Processa streams de dados e milhares


processar grandes quantidades de de mensagens podem ser processadas
dados em minutos ou horas por segundo em um cluster

www.datascienceacademy.com.br
Apache Storm

Spark x Storm

A diferena principal entre Spark e Storm, que o Spark realiza


computao paralela de dados, enquanto o Storm realiza computao
paralela de tarefas. No mais, so bem parecidos e tem como objetivo o
processamento de streaming de dados

www.datascienceacademy.com.br
Apache Storm

Spark x Storm

Spark Storm
Linguagem de programao Java, Scala Linguagem de programao Java,
Clojure, Scala
Fonte de streams no HDFS Fonte de streams no Spout
Gesto de Recursos com YARN, Mesos Gesto de Recursos com YARN, Mesos

www.datascienceacademy.com.br
Apache Storm

Qual Framework utilizar afinal?

Situao Framework
Baixa Latncia Storm consegue obter melhor latncia que o Spark
Baixo custo de Com Spark, o mesmo cdigo pode ser usado para
desenvolvimento processamento em batch e processamento de
streams. No Storm, isso no possvel
Tolerncia a falhas Ambos so tolerantes a falhas

www.datascienceacademy.com.br
Bancos de Dados NoSQL

www.datascienceacademy.com.br
Bancos de Dados NoSQL

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados tradicionais RDBMS (Relational


Database Management Systems) so foram
projetados para tratar grandes quantidades de
dados (Big Data)

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados tradicionais foram projetados


somente para tratar conjuntos de dados que
possam ser armazenados em linhas e colunas e
portanto, possam ser consultados atravs do uso
de queries utilizando linguagem SQL (Structured
Query Language)

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados relacionais no so capazes de


tratar dados no-estruturados ou semi-
estruturados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Ou seja, Bancos de Dados relacionais


simplesmente no possuem funcionalidades
necessrias para atender os requisitos do Big
Data, dados gerados em grande volume e alta
velocidade

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Esta a lacuna est sendo preenchida por


Bancos de Dados NoSQL

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados NoSQL, so bancos de dados distribudos e no-relacionais,


que foram projetados para atender os requerimentos de Big Data

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados NoSQL oferecem uma arquitetura muito mais escalvel e


eficiente que os bancos relacionais e facilitam consultas no-sql de dados semi-
estruturados ou no-estruturados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Existe alguma discusso sobre o significado de NoSQL.

Alguns afirmam que a sigla significa Not Only SQL, enquanto outros afirmam que
significa Non-SQL. No h um consenso sobre isso. Mas pense sobre NoSQL como
uma classe de banco de dados no-relacionais que no se enquadram na
classificao de bancos de dados relacionais (RDBMS), que utilizam linguagem SQL.

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Embora o modelo relacional e a Structured Query


Language (SQL) foram por dcadas o padro para
armazenamento de dados, fato que os bancos
de dados relacionais no so mais os vencedores
quando se trata de flexibilidade e escalabilidade

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Isto tornou-se verdadeiro especialmente com o


advento das redes sociais online e Internet das Coisas

www.datascienceacademy.com.br
Bancos de Dados NoSQL

A este respeito, NoSQL surgiu como um paradigma


no-tradicional para lidar com grandes volumes de
dados e para resolver os desafios colocados pela
chegada de implementaes de Big Data

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Atualmente, bancos de dados NoSQL como


MongoDB, Cassandra e CouchDB introduzem novas
caractersticas e funcionalidades, trazendo ainda
mais inovao e resultados supreendentes

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Bancos de Dados NoSQL oferecem 4 categorias principais de bancos de dados:

Graph databases
Document databases
Key-values stores
Column family stores

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Esta categoria de Bancos de Dados NoSQL, geralmente so


aderentes a cenrios de rede social on-line, onde os ns
Graph representam as entidades e os laos representam as
Databases interconexes entre eles

Desta forma, possvel atravessar o grfico seguindo as


relaes. Esta categoria tm sido usada para lidar com
problemas relacionados a sistemas de recomendao e listas
de controle de acesso, fazendo uso de sua capacidade de lidar
com dados altamente interligados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Esta categoria de Bancos de Dados NoSQL permite o


armazenamento de milhes de documentos
Document
Databases Por exemplo, voc pode armazenar detalhes sobre um
empregado, junto com o currculo dele (como um documento)
e ento pesquisar sobre potenciais candidatos a uma vaga,
usando um campo especfico, como telefone ou conhecimento
em uma tecnologia

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Nesta categoria, os dados so armazenados no formato


Key-Value key-value (chave-valor) e os valores (dados) so
Store identificados pelas chaves

possvel armazenar bilhes de de registros de forma


eficiente e o processo de escrita bem rpido. Os dados
podem ser ento pesquisado atravs das chaves
associadas

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Column Family Tambm chamados bancos de dados orientados a


Store coluna, os dados so organizados em grupos de
colunas e tanto o armazenamento, quando as
pesquisas de dados so baseados em chaves

HBase e Hypertable so os exemplos mais comuns


desta categoria

www.datascienceacademy.com.br
Bancos de Dados NoSQL
Os principais Bancos de Dados NoSQL so:
Oracle NoSQL DB
Neo4J
MemcacheDB
FlockDB Key-value
Graph Redis
GraphDB
Voldemort
ArangoDB

MongoDB HBase
CouchDB Cassandra*
Document Column
RavenDB Hypertable
Terrastore Accumulo

* Cassandra hbrido, Column e Key-value


www.datascienceacademy.com.br
Bancos de Dados NoSQL

Para uma lista completa de Bancos de Dados NoSQL visite:

http://nosql-database.org

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Como NoSQL oferece funcionalidades nativas para cada uma destas


categorias, ele se torna uma alternativa eficiente para armazenamento
e consulta para a maioria dos dados no-relacionais

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Esta adaptabilidade e eficincia, tem transformado os bancos de


dados NoSQL em uma excelente soluo para tratar Big Data e
superar os problemas relacionados ao processamento de grandes
volumes de dados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

E por que usar bancos de dados NoSQL?

Representao de dados sem esquema


Tempo de desenvolvimento
Velocidade
Escalabilidade

www.datascienceacademy.com.br
Bancos de Dados NoSQL

MongoDB um banco de dados orientado a


documento, uma das categorias de bancos de
dados NoSQL

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Um bancos de dados NoSQL orientado a


documento, substitui o conceito de linha como
em bancos de dados relacionais, por um modelo
mais flexvel, o documento

www.datascienceacademy.com.br
Bancos de Dados NoSQL

o MongoDB open-source e um dos lderes no


segmento de bancos de dados NoSQL. Ele foi
desenvolvido em linguagem C++

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas das principais catactersticas do MongoDB:

Indexao

O MongoDB suporta ndices secundrios, permitindo a


construo de queries mais velozes

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas das principais catactersticas do MongoDB:

Agregao

O MongoDB permite a construo de agregaes complexas de


dados, otimizando o desempenho

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas das principais catactersticas do MongoDB:

Tipos de dados especiais

O MongoDB suporta colees time-to-live para dados que


expiram em um determinado tempo, como sesses por exemplo

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas das principais catactersticas do MongoDB:

Armazenamento

O MongoDB suporta o armazenamento de grandes quantidades


de dados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas caractersticas presentes em bancos de dados relacionais,


no esto presentes no MongoDB, como alguns tipos de joins e
transaes multi-linha

www.datascienceacademy.com.br
Bancos de Dados NoSQL

MongoDB RDBMS
Database Database
Collection Table
Document Tuple/Row
Field Column
Embedded Documents Table Join
Primary Key Primary Key

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

Big Data

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

Big Data
Gesto de Contedo

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

Big Data
Gesto de Contedo
Infraestrutura Social e Mobile

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Onde usar o MongoDB?

Big Data
Gesto de Contedo
Infraestrutura Social e Mobile
Gesto de Dados de Usurios
Data Hub

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Apache Cassandra um banco de dados NoSQL,


livremente distribudo, de alta performance,
extremamente escalvel e tolerante a falha

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Ele foi concebido com a premissa que falhas de sistema


ou de hardware sempre ocorrem

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Foi inicialmente desenvolvido pelo Facebook, como


uma combinao do BigTable (Google) and Dynamo
Data Store (Amazon)

www.datascienceacademy.com.br
Bancos de Dados NoSQL

O Cassandra usado para armazenar gigantescas


quantidades de dados (Big Data), de forma rpida

www.datascienceacademy.com.br
Bancos de Dados NoSQL

O Cassandra tambm funciona muito bem quando se


faz necessrio a pesquisa de dados de forma indexada

www.datascienceacademy.com.br
Bancos de Dados NoSQL

voltado para trabalhar em clusters, sendo totalmente


escalvel. Novos nodes podem ser adicionados,
medida que os dados crescem

www.datascienceacademy.com.br
Bancos de Dados NoSQL

ainda uma excelente soluo quando se necessita de


alta performance para leitura e escrita

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Algumas empresas/Websites que usam o Cassandra:


eBay, GitHub, GoDaddy, Instagram, Netflix, Reddit,
CERN, Comcast, entre outras

www.datascienceacademy.com.br
Bancos de Dados NoSQL

http://cassandra.apache.org

www.datascienceacademy.com.br
Bancos de Dados NoSQL

CouchDB um banco de dados totalmente


voltado para a web

www.datascienceacademy.com.br
Bancos de Dados NoSQL

No CouchDB os dados so amrmazenados em


documentos JSON (Java Script Object Notation),
que consistem em campos que podem ser strings,
nmeros, datas, listas ordenadas e mapas
associativos

www.datascienceacademy.com.br
Bancos de Dados NoSQL

O CouchDB suporta aplicativos web e mobile

www.datascienceacademy.com.br
Bancos de Dados NoSQL

O CouchDB distribudo em pares com um server


um client, que podem ter cpias independentes
do mesmo banco de dados

www.datascienceacademy.com.br
Bancos de Dados NoSQL

O Apache CouchDB foi o banco de dados que deu


o pontap inicial do movimento NoSQL

www.datascienceacademy.com.br
Bancos de Dados NoSQL

Ele foi construdo a partir do zero com alto


desempenho e tolerncia a falhas em mente

www.datascienceacademy.com.br
Bancos de Dados NoSQL

CouchDB permite aos usurios armazenar,


reproduzir, sincronizar e processar grandes
quantidades de dados (Big Data), distribudos em
dispositivos mveis, servidores, Data Centers e
regies geogrficas distintas em qualquer
configurao de implantao, incluindo ambiente
em nuvem (Cloud)

www.datascienceacademy.com.br
Bancos de Dados NoSQL

http://couchdb.apache.org

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Manufatura

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Produtividade

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Finanas

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Sade

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Varejo

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A companhia de entretenimento em cassinos est usando o


ambiente Hadoop para identificar diferentes segmentos de
consumidor e criar campanhas de marketing especficas
http://caesarscorporate.com
para cada um deles.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

O novo ambiente reduziu o tempo de processamento de 6


horas para 45 minutos para posies-chave. Isso permitiu
Caesars promover uma anlise de dados mais rpida e
exata, aprimorando a experincia de consumidor e fazendo
com que a segurana atendesse os requisitos do setor de
http://caesarscorporate.com
pagamentos com cartes.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A empresa agora processa mais de 3 milhes de registros


por hora.

http://caesarscorporate.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A empresa de tecnologia para o setor de sade


construiu um hub de dados corporativos no CDH
(Cloudera Distribution), para criar uma viso mais
compreensvel de qualquer paciente, condio ou
tendncia.
http://www.cerner.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A tecnologia ajuda a Cerner e seus clientes a


monitorarem mais de 1 milho de pacientes
diariamente.

http://www.cerner.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Entre outras coisas, ela colabora na determinao


mais exata da probabilidade de um paciente estar
com infeco em sua corrente sangunea.

http://www.cerner.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

O site de namoro online recentemente atualizou seu


ambiente na nuvem, usando o CDH para analisar um
volume massivo e variado de dados.

http://www.eharmony.com.br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A tecnologia ajuda a eHarmony a disponibilizar novas


combinaes a milhes de pessoas diariamente.

http://www.eharmony.com.br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

O novo ambiente cloud acomoda anlises mais


complexas, criando resultados mais personalizados e
aumentando a chance de sucesso nos
relacionamentos.
http://www.eharmony.com.br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A empresa foi a primeira a implementar a


distribuio CDH do Hadoop aps receber
certificao PCI completa.

http://www.mastercard.com/br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A companhia usou os servidores Intel para integrar


conjuntos de dados a outros ambientes j
certificados.

http://www.mastercard.com/br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A MasterCard incentiva seus clientes a adotarem o


sistema atravs do seu brao de servios
profissionais, o MasterCard Advisors.

http://www.mastercard.com/br

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A companhia de software para gerenciamento de


produes agrcolas usa analytics em tempo real
rodando nos processadores Intel Xeon E5 para fornecer
dados sobre colheita, condies de plantio e estado da
vegetao para 20% das fazendas americanas.
https://farmlogs.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A companhia de software para gerenciamento de


produes agrcolas usa analytics em tempo real
rodando nos processadores Intel Xeon E5 para fornecer
dados sobre colheita, condies de plantio e estado da
vegetao para 20% das fazendas americanas.
https://farmlogs.com
A tecnologia ajuda os fazendeiros a aumentarem a
produtividade de seus acres.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Uma das maiores fornecedoras de tinta da sia usa os


processadores Intel Xeon E7 v2 (rodando no software SAP
HANA de analytics in-memory) para compreender o
comportamento de clientes, otimizar sua cadeia de
suprimentos e melhorar suas campanhas de marketing.
http://www.nipponpaint.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A Nippon Paint agora testa um novo sistema baseado no


Hadoop para usufruir das ferramentas de alto desempenho
e processar Big Data.

http://www.nipponpaint.com

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Outras empresas usando Hadoop:

Empresa Especificaes Tcnicas Utilizao


Hadoop utilizado em solues de relatrios e Machine
Facebook Mais de 12 TB de storage
Learning
Hadoop usado desde 2010 para o processamento de logs
Twitter --
e tweets
Todos os dados do LinkedIn passam atravs de um cluster
LinkedIn 4100 nodes Hadoop
Hadoop
4500 nodes Hadoop e mais
Yahoo! Usado no portal do Yahoo
de 1 TB de storage
Um dos maiores clusters Hadoop que se tem notcia, usado
Ebay 4000 nodes Hadoop para processar as mais de 300 milhes de pesquisas feitas
pelos usurios

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Outras empresas usando Hadoop:
Empresa Especificaes Tcnicas Utilizao
Projetos de Big Data na rea financeira,
Accenture De acordo com a demanda do cliente
telecom e varejo
Plataforma de Rede Social, utiliza o Hadoop
Ning --
para relatrios e Big Data Analytics
690 nodes em cluster Hadoop,
Usa Hadoop para gerao de contedo e
Spotify totalizando 38 TB de memria RAM e 28
agregao de dados
PB de storage

Fox 70 nodes Hadoop Usado para anlise de logs e Machine Learning

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

O Hadoop j realidade!

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Para cada 100 vagas com exigncia


de conhecimentos em Big Data,
existem apenas 2 profissionais
qualificados!

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

At 2018, sero criados mais de 200


mil vagas em Big Data e mais da
metade ficar sem ser preenchida, por
falta de profissionais qualificados!

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Convencido?

Ainda no?

Ento tem mais

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

"Em uma pesquisa com 3.000 empresas


globais, mais de 83% dos pesquisados
identificaram anlise de negcios a
partir de Big Data como uma
prioridade" - IBM!

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

No nenhum segredo que o Hadoop e


o Apache Spark so as tecnologias mais
quentes no mercado de Big Data, mas o
que menos frequentemente notado
que ambos so open-source

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Os clientes apreciam o open source por


permitir "experimentar antes de comprar",
mas tambm j comeam a ver o mundo
open source evoluindo mais rapidamente
do que o mundo proprietrio por causa do
compartilhamento entre os
desenvolvedores.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Todo o ecosistema Hadoop est se


movendo mais rpido do que
aconteceria caso dependesse de um
nico fornecedor.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Por tudo isso, organizaes como a


Forrester acreditam que o Hadoop
uma plataforma que precisa de ser
usada em grandes empresas, formando
a pedra angular de qualquer futura
plataforma flexvel de gesto de dados.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Se sua empresa tem dados


estruturados, semi estruturados ou no
estruturados, h espao relevante para
o Hadoop.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

E h duas grandes razes para isso: as


empresas tm muito mais dados para
gerir e o Hadoop uma grande
plataforma, especialmente por permitir
combinar dados antigos legados com
novos dados no estruturados.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Quando um novo produto lanado, a empresa pode usar


dados de uma variedade de fontes para determinar a
demanda, avaliar os preos dos concorrentes e desenvolver a
sua prpria estrutura de preos para maximizar vendas e
lucros.

Por exemplo, utilizando os dados recolhidos a partir de mdias


sociais, histrico de navegadores, fruns e informaes
demogrficas, a empresa pode determinar se o prximo
brinquedo ser um sucesso de venda ou se ficar pegando
poeira nas prateleiras.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Dados de geolocalizao em aplicativos mveis so uma maneira


poderosa e eficaz para maximizar o potencial de vendas da
empresa.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Fazer a venda online de um tablet algo normal em diversos


sites de produtos eletrnicos. Mas e se alm do tablet, o site
oferecer (atravs de um sistema de recomendao baseado nos
cliques de outros clientes), produtos associados, tais como
teclado ou mouse sem fio, carregador para carro ou at mesmo
um protetor a prova dgua. O que seria uma venda simples,
pode se transformar em uma venda muito maior.

Estas recomendaes no so vistas apenas como tentativa de


vender mais. So vistas como um servio valioso ao cliente, que
ser lembrado em adquirir outros acessrios necessrios para o
tablet.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Muitas startups acreditam que, utilizando Big Data,


derrubaro lderes de mercado como Cisco, Google ou
Apple. Elas acreditam que conectaro suas ferramentas de
anlise de dados a bolas de cristal e descobriro segredos
que magicamente a catapultaro a posio de grandes
vencedores.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Pois saiba que isso raramente acontece, se que acontece.
Histrias de sucesso envolvendo Big Data tipicamente
comeam com pequenas perguntas:

- Qual o melhor quarteiro para instalar uma nova loja?


- Como podemos tornar a escolha das localizaes em um
processo sistemtico?
- O que fazer para o time de vendas convencer os clientes
em ligaes telefnicas?
- Como mudar a abordagem nas ofertas de varejo, em
tempo real, para alinh-las as preferncias dos
consumidores?

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Com mais de 50 milhes de assinantes em todo o mundo,


empresa norte-americana usa e abusa da anlise dados
para compreender gostos e hbitos do pblico.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Est Presente em mais de 40 pases somada a 50 milhes


de assinantes e altos nmeros de audincia. Uma conta
simples, mas que coloca a Netflix como o carro-chefe
dentre os concorrentes que oferecem servios de TV por
internet disponibilizando sries de sucesso, filmes e
novelas.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Ao completar seus 18 anos de existncia, a empresa,


fundada no estado da Califrnia, foi avaliada em mais de
US$25 bilhes, segundo a Forbes e continua conquistando
novos mercados.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Qual seria a frmula mgica da Netflix?

No magia, tecnologia. Big Data a tal frmula para


chegar a resultados to certeiros. Desde o momento em
que streaming tornou-se a forma primria de levar
contedo aos assinantes, foi necessrio mensurar dados
como os dias em que filmes so assistidos, tempo gasto
na escolha de filmes e quo frequente o playback era
interrompido tanto pelo usurio como por limitaes da
rede.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data
Qual seria a frmula mgica da Netflix?

Neste contexto, os colaboradores da Netflix so motivados


a descobrirem novas informaes diariamente. Dados so
utilizados, inclusive, em ttulos, cores, capas, ou seja, em
todos os aspectos do negcio.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A visualizao de dados de suma importncia para a


empresa. Disso no h dvidas, j que algoritmos, insights
e a resoluo de questes do prprio negcio so todas
abordagens construdas no dia a dia.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Entretanto, apesar do forte uso de Big Data pela Netflix, a


real motivao est na predio do que os consumidores
iro gostar de assistir, o que, de fato, ir entret-los. por
isso que os sistemas de recomendao existentes na
interface tambm dependem de Big Data Analytics.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

O Airbnb precisou de um bom tempo para construir bases


slidas e isso ocorreu quando descobriu que o seu
principal obstculo era prevenir-se que pessoas
escolhessem ficar em hotis no lugar de contratar seus
servios.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Riley Newman, Lder de Analytics e Cientista de Dados da


empresa, conduziu um processo de regresso para
determinar as caractersticas mais impactantes no
fechamento de uma reserva. Ele descobriu algo que hoje
soa trivial: apartamentos cujas fotos no eram bonitas no
eram alugados/reservados. Simples assim!

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Com base na descoberta, o Airbnb passou a enviar


fotgrafos profissionais a vrios apartamentos para refazer
imagens. Os resultados foram surpreendentes, com
ganhos no nmero de reservas e na confiana dos
usurios/locatrios.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Com base na descoberta, o Airbnb passou a enviar


fotgrafos profissionais a vrios apartamentos para refazer
imagens. Os resultados foram surpreendentes, com
ganhos no nmero de reservas e na confiana dos
usurios/locatrios.

Big Data + Data Science = Insights de Negcios

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Em tempos de internet, muitas empresas direcionam


negcios fortemente para a estratgia puramente digital,
ignorando que, o e-commerce ainda corresponde por
apenas 17% das vendas do varejo. Trocando em midos:
grande parte do dinheiro ainda passa na frente da vitrine e
entra em espaos fsicos.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

No passado, donos dessas empresas direcionariam o


investimento a reas que parecem ser uma boa aposta
medindo o fluxo de trfego, o nmero de pedestres por
hora ou comparando os empreendimentos existentes na
regio.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A Starbucks confia em anlise de dados para guiar o


processo de abertura de cafeterias, indo to longe quanto
a construo de uma plano de mercado e aplicaes para
desenvolvimento de lojas em um sistema chamado Atlas.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

A melhor maneira de explicar o Atlas como uma


ferramenta de anlise de grandes volumes de dados que
possui, acima, uma camada de softwares de mapas e
informaes geogrficas. Com ele, a rede de cafeteria
consegue avaliar um volume elevado de variveis que
podem contribuir com o sucesso das lojas, visualizando-as
nos mapas e procurando pontos similares em outras
localidades.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

Aprender com dados e mapas no garante o sucesso dos


esforos, mas o processo assegura reduo drstica dos
riscos associados ao lanamento de uma nova loja.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

5 pontos de ateno que devem ser observados quando usado Big Data:

Selecionar as fontes erradas.


No definir um objetivo.
Ignorar a qualidade dos dados.
No categorizar os dados.
No criar uma cultura orientada a dados.

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

www.datascienceacademy.com.br
Como as empresas esto usando o Big Data

www.datascienceacademy.com.br
Encerramento

O Brasil carece de profissionais capacitados em Big Data e que


sejam capazes de construir e administrar um ambiente para coleta,
armazenamento, limpeza, transformao e anlise de dados

www.datascienceacademy.com.br
Encerramento

E qual o prximo passo?

www.datascienceacademy.com.br
Encerramento

O prximo passo seria voc definir que caminho pretende se


especializar

www.datascienceacademy.com.br
Encerramento

Se voc se sente mais confortvel com administrao e


infraestrutura, engenharia de dados pode ser o melhor caminho e
nesse caso voc precisa aprender e conhecer bem:

Hadoop e Clusters HDFS


Spark e Streaming de Dados
Bancos de Dados NoSQL

www.datascienceacademy.com.br
Encerramento

Se voc se sente mais confortvel com desenvolvimento, estatstica e


anlise, seu caminho natural aprimorar seu perfil como analista ou
cientista de dados e nesse caso, precisa aprender:

Linguagem de programao para anlise de dados (R, Python, Scala


ou Java)
Estatstica
Algoritmos de Machine Learning
Visualizao de Dados
Anlise de Dados distribudos em Cluster
Ferramentas proprietrias como SAS, SPSS, Tableau

www.datascienceacademy.com.br
Encerramento

Claro, esta uma lista resumida e tambm no significa que voc


precisa aprender tudo.

O importante ter capacidade de anlise.

Tecnologias vem e vo e seu aprendizado depende apenas de um


pouco de esforo e dedicao

www.datascienceacademy.com.br
Bibliografia

Hadoop The Definitive Guide


Data Science and Big Data Analytics
Big Data Using Smart Big Data Analytics and Metrics to make better decisions
and improve performance
Big Data: A Revolution That Will Transform How We Live, Work, and Think
Disruptive Possibilities: How Big Data Changes Everything
Big Data in Practice: How 45 Successful Companies Used Big Data Analytics to
Deliver Extraordinary Results
The Enterprise Big Data Lake: Delivering on the Promise of Hadoop and Data
Science in the Enterprise

www.datascienceacademy.com.br
Encerramento

E sua opinio muito importante para ns!


Mande suas crticas e sugestes!

Voc tem um canal direto conosco

www.datascienceacademy.com.br

www.datascienceacademy.com.br
Encerramento

Muito obrigado pela sua


audincia neste curso e
espero que tenhamos
ajudado voc na sua
carreira!

www.datascienceacademy.com.br
Curta Nossas Pginas nas Redes Sociais
E fique sabendo das novidades em Data Science, Big Data, Internet das Coisas e muito mais

www.facebook.com/dsacademybr

twitter.com/dsacademybr

www.linkedin.com/company/data-science-academy

www.datascienceacademy.com.br