You are on page 1of 29

GUIA SOBRE ANÁLISE DE

DADOS E APRENDIZADO
D E M Á Q U I N A PA R A C I O
CONTEÚDO

Introdução 03

O novo cenário para os dados 05

Armazenamento em nuvem e data warehousing 09

Integração de dados em tempo real 16

Aprendizado de máquina e inteligência artificial 21

Conclusão 26

Referências 27

Introdução | | 22
Conteúdo
INTRODUÇÃO

O uso de dados para tomar decisões comerciais não é novidade. Antes, “tomar
decisões baseadas em dados” significava compreender a correlação entre uma
campanha de anúncio impressa e os picos episódicos de vendas acima do normal.
As empresas usavam quaisquer dados que tivessem em mãos, no momento em
que estivessem disponíveis.

Hoje, os dados estão por toda parte. Eles são transmitidos a velocidades vertiginosas,
em diversos formatos, a partir de dispositivos de bilhões de usuários conectados.
Geralmente, usar o Big Data é considerado uma oportunidade, mas apenas para
empresas que tenham estrutura para lidar com o volume e a diversidade dele. Para
as outras empresas, a avalanche de dados pode trazer o risco de que insights em
potencial permaneçam inexplorados, necessidades de clientes não sejam atendidas
e empresas continuem tomando decisões sem em+basamento.

Dois fatores diferenciam o cenário atual dos avanços alcançados no passado.


O primeiro é o aumento exponencial no volume e na diversidade de dados
gerados por bilhões de usuários e dispositivos. O segundo é a demanda pelo
acesso imediato a dados e insights de alta qualidade. Cada um trouxe uma
nova necessidade imediata de determinar como as empresas gerenciam os dados.
Além disso, o custo e o desempenho de muitos recursos de nuvem atingiram um
ponto crítico, ajudando a tornar o aprendizado de máquina (ML, na sigla em inglês)
e a inteligência artificial (IA) acessíveis a todas as empresas.

Apesar de o valor dos dados ser amplamente reconhecido, poucas empresas


implementaram estratégias de dados modernas.1 Com base em pesquisas inéditas
e nas contribuições do próprio Google para a nuvem, este guia foi desenvolvido para
ajudar líderes empresariais e de TI a implementarem estratégias modernas com base
em nuvem para o gerenciamento de dados. Em cada seção, destacamos tecnologias
que auxiliam as empresas a transformar um cenário amplo e complexo de dados em
insights comerciais úteis.

Introdução | 3
I N T E R A Ç Õ E S P O R P E S S O A C O N E C TA D A P O R D I A

5.000
4.800
Número de interações/pessoa/dia

3.000

1.000

601

218

2015 2020 2025

Até 2025, uma pessoa comum conectada usará dispositivos conectados aproximadamente 4.800 vezes por dia, o equivalente a uma
interação a cada 18 segundos.2

NOSSAS RAÍZES

O Guia sobre análise de dados e aprendizado de máquina do Google Cloud baseia-se nos 20 anos em que
o Google enfrentou alguns dos problemas mais complexos do setor relacionados a dados. Ao longo do
percurso, contribuímos com pesquisas inéditas que ajudaram a moldar o cenário do Big Data: dos dois
artigos acadêmicos do final de 2003 e 2004, que juntos geraram o movimento do Hadoop, ao artigo
sobre o Dremel, que constitui a base dos recursos de data warehouse na nuvem presentes neste guia.

Nós concebemos, desenvolvemos e implantamos o Spanner, o primeiro sistema que distribui dados em
escala global, oferece suporte a transações distribuídas externamente de maneira uniforme e que, em
2017, tornou-se totalmente disponível para os nossos clientes.3 Recentemente, o Google Brain ajudou a
fomentar o interesse renovado do setor em IA, o que colaborou para o lançamento do nosso Projeto do
TensorFlow em código aberto.4 Com este guia, esperamos compartilhar nossa experiência com líderes
que buscam formas de decifrar as possibilidades do aprendizado de máquina e da inteligência artificial
para as organizações deles.

Introdução | 4
CAPÍTULO 1

O N O V O C E N Á R I O PA R A O S D A D O S

01
O N O V O C E N Á R I O PA R A O S D A D O S 01

Seria mais fácil gerenciar os dados se o crescimento fosse limitado a poucas fontes ou se
os dados fossem uniformes. O desafio consiste na diversidade de fontes e formatos. Isso
inclui o volume crescente de dados não estruturados: e-mails, registros de sistema, páginas
da Web, transcrições de clientes, documentos, apresentações, bate-papos informais e um
extraordinário volume de rich media, como imagens e vídeos em alta definição. Volumes enormes
de informação tornam-se disponíveis instantaneamente em qualquer dispositivo conectado à
Internet, o que gera novas expectativas em torno da disponibilidade e da prontidão dos dados.

Aplicativos de consumidores, como apps de pesquisa, mensagens de texto, comércio eletrônico,


redes sociais e vídeos on-line, foram os primeiros a se deparar com esse problema. Novos
sistemas tiveram que ser desenvolvidos para lidar com o tráfego na escala da Web e, ao mesmo
tempo, retornar insights instantaneamente. Hoje, essas inovações estão disponíveis e tornam-se
cada vez mais importantes para todas as empresas, abrangendo desde o auxílio a fabricantes
no gerenciamento mais eficiente da cadeia de fornecimento até o aumento da precisão de
diagnósticos clínicos.

As equipes de TI estão empacadas no meio do caminho. Elas precisam encontrar formas de


apresentar uma perspectiva do negócio em tempo real ao mesmo tempo em que gerenciam
um cenário maior e mais complexo de dados. Como acontece com muitas soluções
de software, a redução da complexidade é um fator determinante para o sucesso.

Este guia analisa como os serviços gerenciados em nuvem ajudam empresas novas e já
estabelecidas a enfrentar os desafios do processamento de dados. Ele detalha um caminho que
começa com a captura de dados brutos da empresa no armazenamento em nuvem. Conforme
as questões empresariais forem surgindo, as ferramentas com base na nuvem podem preparar
e estruturar os dados brutos quando necessário. Em seguida, os dados preparados são incorporados

01 O novo cenário para os dados | 6


em um data warehouse na nuvem, onde ficam imediatamente disponíveis para análise. Esse conjunto
de dados funciona como a “base operacional” a partir da qual as organizações podem capturar, preparar
e analisar dados de qualquer tipo, a partir de qualquer fonte. A natureza totalmente gerenciada dos
serviços em nuvem ajuda a simplificar todo o processo, incluindo o suporte a análise em tempo real, sem
a necessidade de a equipe de TI conhecer a infraestrutura subjacente. Com base nesses fundamentos,
o guia conclui mostrando como as organizações podem usar a captura e preparação desse ciclo de
dados para possibilitar o aprendizado de máquina e a inteligência artificial.

S E M S E R V I D O R : O C A M I N H O PA R A A P R O D U T I V I D A D E E M T I

As arquiteturas modernas sem servidor são o ápice de uma série de esforços para reduzir a extensão da
área que os desenvolvedores e as equipes de TI precisam gerenciar. A meta da computação sem servidor
é, essencialmente, eliminar a “mercantilização” do trabalho (do gerenciamento de clusters de servidores,
fragmentação de bancos de dados, balanceamento de carga, planejamento de recursos, garantia de
disponibilidade) para que as equipes de TI possam se concentrar naquilo que é mais importante para
o negócio. A função “sem servidor” estabelece uma nítida distinção entre a TI “mercantilizada”(o serviço
cotidiano de manutenção que parece praticamente o mesmo em cada empresa) e o serviço diferenciado
que eleva a TI para a posição de fornecedor direto de valor comercial.

CAPÍTULO 1 RESUMO

1 As empresas enfrentam três novos desafios:

• o volume de dados sendo criados;


• a diversidade de formatos e fontes de dados;
• a velocidade em que os consumidores e as partes interessadas internas esperam ter insights.

2 A computação em nuvem ajuda as empresas a enfrentar esses desafios ao permitir o gerenciamento


de dados em escala e velocidade sem ter que se preocupar com a infraestrutura.

3 Em especial, as empresas podem começar a modernizar as estratégias de dados delas ao se concentrar


no armazenamento em nuvem e em data warehousing como primeira etapa da criação de uma base para
o aprendizado de máquina e a inteligência artificial.

01 O novo cenário para os dados | 7


EMPRESA
CASO DO CLIENTE
FIS

FIS SETOR

Serviços financeiros
A FIS faz análises de eventos e inovações do mercado com
serviços de nuvem totalmente gerenciados
SOBRE

A FIS desenvolveu uma ferramenta de reconstrução do A FIS é líder mundial em


mercado que ajuda a determinar a causa potencial de eventos tecnologia de serviços
que desestabilizam o mercado financeiro, como o “flash crash” financeiros com enfoque em
de 2010. O sistema da FIS não só é capaz de armazenar varejo e transações bancárias,
bilhões de transações, como também permite que os gerentes pagamentos, gestão de
de risco e compliance realizem supervisão e consultas quando recursos e patrimônio, risco
necessário, incluindo reconstrução do mercado. e compliance, consultoria
e soluções terceirizadas.
De acordo com a FIS, o sistema pode processar e vincular até
15 terabytes de dados diariamente em quatro horas e armazená-
los por seis anos, tal como a legislação exige. “Isso representa
em torno de 30 petabytes de dados”, disse Neil Palmer, diretor 
da área de Tecnologia Avançada da FIS. “Não há muitas coisas
disponíveis por aí nessa escala, e certamente não há nada
voltado para serviços financeiros. É uma tarefa colossal.”

A equipe de Palmer precisava de uma plataforma com alto


poder computacional, mas também queria evitar o custo
e a manutenção associados ao desenvolvimento e à operação
de um sistema instalado localmente. “A escalabilidade é uma
vantagem enorme do Google Cloud Platform”, afirmou Palmer.
“Uma solução tradicional de TI para hardware fixo neste cenário
poderia resultar em milhões de dólares em equipamentos
ociosos durante vários dias de negociação.”

LEIA MAIS

01 Caso do cliente: FIS | 8


CAPÍTULO 2

ARMAZENAMENTO EM NUVEM
E   D ATA W A R E H O U S I N G

02
A R M A Z E N A M E N T O E M N U V E M E D ATA W A R E H O U S I N G

A centralização de dados brutos dos principais processos empresariais no armazenamento


em nuvem é um dos primeiros passos a serem dados pelas organizações em direção à
modernização. Ao fazer isso, elas se preparam para explorar os recursos de análise em nuvem. 02

Os silos de dados distribuídos por toda a empresa continuam a aborrecer tanto a equipe de
TI quanto a comercial, com novos silos (por razões técnicas, corporativas ou ambas) criados
diariamente.5 A revista Harvard Business Review fez uma publicação sobre a necessidade
da fonte única da verdade para dados, assim como as diversas lentes pelas quais diferentes
ramos de negócios podem analisar os dados.6

O armazenamento em nuvem e o data warehousing permitem às empresas fazer as duas


coisas (manter um único repositório central e possibilitar que diferentes funções empresariais
analisem dados de maneiras que atendam às necessidades específicas deles) com mais
rapidez e flexibilidade do que era possível anteriormente. Juntos, esses recursos ajudam
a criar uma visualização em 360 graus do negócio envolvendo os silos.

Capturar dados brutos para análises futuras

A IDC estima que menos de 1% de todos os arquivos sejam analisados.7 Os outros 99%,
dependendo das necessidades do negócio no momento, contêm informações sobre
insights voltados à tomada de decisão. Como as organizações não conseguem prever
as questões empresariais que poderão surgir, elas precisam de maneiras simples, baratas
e flexíveis de armazenar um grande volume de dados. Isso vale principalmente para dados
não estruturados, que constituem a maioria dos dados gerados.8

Com a nuvem, as empresas podem armazenar um volume enorme de arquivos a


baixo custo, a menos de um centavo por gigabyte no momento da gravação.9 Os
dados usados frequentemente podem ser armazenados como “mornos” (disponíveis
em escala global para serem utilizados em aplicativos ou para executarem análises),
enquanto os dados com valor ainda inexplorado permanecem no armazenamento frio,
que é mais barato. O armazenamento on-line mais atraente permite até que os dados
arquivados a frio sejam rapidamente recuperados com latência extremamente baixa.

02 Armazenamento em nuvem e data warehousing | 10


A IDC ESTIMA QUE MENOS DE 1% DE
TODOS OS DADOS SÃO ANALISADOS.7

<1%

Além de gerar economia de custos, o armazenamento em nuvem funciona como a base de análises robustas.
As empresas podem capturar arquivos estruturados e não estruturados nos formatos originais com facilidade.
Como o armazenamento é separado intencionalmente do processamento e da análise, as equipes podem
postergar a estruturação dos dados brutos para análise somente quando questões empresariais surgirem. O mais
importante de tudo é que dados brutos que tenham a mesma origem podem ser facilmente reestruturados para
responder a novas questões de imediato. O que diferencia o armazenamento em nuvem é a eficiência dessas
etapas de captura e reutilização dos dados. Para preparar uma organização para que ela se beneficie das análises,
as equipes precisam garantir que os dados brutos dos processos empresariais sejam capturados e centralizados.

Essa flexibilidade está acelerando a adoção da nuvem como repositório para dados não estruturados das
organizações. Cerca de metade das organizações nos EUA, Europa e Ásia-Pacífico antecipam saltos de pelo
menos 5% no armazenamento de dados não estruturados na nuvem no ano seguinte, sendo que muitas delas
informam um aumento superior a 10%.10

02 Armazenamento em nuvem e data warehousing | 11


A INTERNET DAS COISAS

De acordo com uma pesquisa com mais de 500 líderes mundiais em TI conduzida pela MIT Sloan Management Review
em nome do Google Cloud, a adesão à nuvem permanece em crescimento, e a expectativa é de que a maioria (65%) dos
aplicativos, dados e/ou infraestrutura seja baseada em nuvem até 2019.

A Internet das coisas é um importante fator de crescimento dessa migração para a nuvem, sendo que 91% dos
entrevistados com iniciativas de IoT estão atualmente implantando (59%) ou planejam implantar (32%) dados
de dispositivos conectados à IoT na nuvem. Os entrevistados mencionaram a capacidade de incorporar novas
ferramentas e plataformas (33%), maior velocidade da implantação e iteração de app (31%), maior flexibilidade nos
processos empresariais e nas escolhas de fornecedores (29%) e maior segurança (28%) como os principais motivos
para implantar dados da IoT na nuvem.

Para usar os dados da IoT de maneira eficiente, as empresas precisam compreendê-los dentro do contexto.
Um data warehouse na nuvem que permite entradas de lote e dados de streaming, em conjunto com uma
plataforma de análise robusta, ajuda a assegurar que seus dados de IoT gerem insights em tempo real.

Gerenciamento de dados nos silos

Ao capturar dados de qualquer tipo de maneira econômica, as organizações podem voltar a atenção
para possibilitar uma perspectiva organizada dos processos empresariais mais importantes. Embora
o armazenamento em nuvem centralize dados no formato bruto nativo, um data warehouse na
nuvem permite que empresas reúnam dados de silos diferentes para análise, assim como um data
warehouse tradicional faria. Com a nuvem, as empresas podem gerenciar um grande volume de dados
com investimento mínimo de capital, escala praticamente ilimitada e pagamento por utilização. Os
serviços gerenciados em nuvem vão mais além, aliviando as preocupações de TI sobre a infraestrutura
subjacente. As empresas precisam definir quais questões empresariais devem ser respondidas e quais
são os dados necessários para respondê-las.

Por exemplo:

• Quais são as principais metas empresariais dos meus dados? Entender como os usuários
interagem com os meus sistemas, identificar tendências, aumentar as vendas, construir
a fidelidade do consumidor ou algo diferente?

• Qual será a origem dos meus dados mais importantes (transações, registros de servidores,
serviços em nuvem, dispositivos/Internet das coisas, mídia social)? Eles já foram importados
para o armazenamento em nuvem?

• Com que velocidade o meu sistema precisa incorporar novos dados em relatórios e visualizações?

• Existe uma cultura que incentive a tomada de decisão baseada em dados em toda a
organização (não apenas entre os analistas de TI e os cientistas de dados)? Quem deveria
ter acesso à plataforma de análise?

02 Armazenamento em nuvem e data warehousing | 12


Assim que as metas empresariais forem definidas, as empresas precisam identificar as origens dos
dados de entrada entre os silos a serem importados para um data warehouse na nuvem para análise.
Veja abaixo uma lista das origens de entrada mais usadas:

Armazenamento em nuvem
Os dados do armazenamento em nuvem podem ser importados para um data warehouse na
nuvem para análise.12 Nessa etapa, é possível formalizar um esquema com base nas questões
empresariais que precisam de resposta, propiciando a estruturação dos dados brutos para análise.

Bancos de dados transacionais e de análise


Os dados armazenados em bancos de dados transacionais e de análise podem ser carregados
em lote ou transmitidos linha por linha para um data warehouse na nuvem.

Dados armazenados nos serviços em nuvem


Os dados armazenados em outros provedores de SaaS podem ser importados para um
data warehouse na nuvem. Em muitos casos, isso é feito de maneira automática.

Dados de streaming
Dados de aplicativos da Web, de dispositivos móveis e da Internet das coisas (IoT, na sigla
em inglês) podem ignorar o armazenamento em nuvem e serem transmitidos diretamente
para um data warehouse na nuvem (veja no capítulo 3: Integração de dados em tempo real).

Administração de dados

O crescimento exponencial do volume global de dados não é o único obstáculo enfrentado


pelas empresas. De acordo com Forrester, os requisitos de análise e geração de relatórios em
constante mudança, além da falta de alinhamento entre o negócio e a TI, estão entre os principais
desafios que prejudicam os esforços de inteligência de negócio das empresas.13 Além disso, a falta
comprovada de talentos em ciência de dados (veja “A ascenção dos cientistas de dados amadores”)
leva as empresas a pensar em novas formas de desenvolver conhecimentos analíticos.

Com o acesso baseado em funções, qualquer pessoa ou desenvolvedor de aplicativos pode consultar
dados armazenados em um data warehouse na nuvem, gerar relatórios ou acessar visualizações.
O data warehousing na nuvem aceita o gerenciamento de acesso individualizado voltado para
o que a pessoa precisa saber. A auditabilidade total e o controle do acesso personalizado ajudam
a democratizar a ciência de dados, ao mesmo tempo em que mantêm salvaguardas de segurança.
De fato, mais da metade das empresas nos EUA, Europa e Ásia-Pacífico relatam que estão
implementando, já implementaram ou estão expandindo o uso de ferramentas de inteligência
empresarial operadas pela própria empresa e utilizadas nela.14

02 Armazenamento em nuvem e data warehousing | 13


A A S C E N S Ã O D O S C I E N T I S TA S D E D A D O S A M A D O R E S

Antes, a responsabilidade por conclusões estatisticamente precisas com base em dados era exclusiva aos
cientistas de dados profissionais. Porém, em 2018, de acordo com a McKinsey, “Os EUA poderão enfrentar
uma escassez de 140.000 a 190.000 pessoas com conhecimento aprofundado em análise de dados, assim
como 1,5 milhão de gerentes e analistas com o conhecimento para usar as análises de Big Data para tomar
decisões efetivas.”15

Com a intensificação da competição, a maioria das empresas precisará de uma estratégia diferente
voltada para os talentos. Os cientistas de dados amadores que, conforme definição do InformationWeek,
são pessoas que fazem análises de dados, mas cujas principais atribuições não estão relacionadas
à estatística ou análise, podem ser um complemento significativo para cientistas de dados internos,
principalmente para empresas que investem no desenvolvimento da cultura da ciência de dados.16

Para ter sucesso, quem pretende se tornar cientista de dados amador precisa:

• ter acesso a dados;


• ser curioso;
• ter facilidade com SQL;
• ter conhecimento de domínios;
• praticar a colaboração.

CAPÍTULO 2 RESUMO

1 O armazenamento em nuvem permite que as organizações capturem dados estruturados e não


estruturados de qualquer tipo no formato nativo. A centralização dos dados no armazenamento
em nuvem cria uma base de dados, cuja análise pode ser adiada até que as organizações tenham
questões empresariais concretas.

2 Um data warehouse na nuvem permite que as organizações reúnam dados de silos distintos para
análise, abrangendo desde armazenamento em nuvem, bancos de dados transacionais e analíticos
no local ou na nuvem ou dados armazenados com outros serviços em nuvem. As organizações podem
executar consultas, gerar relatórios e criar visualizações sem gerenciar a infraestrutura subjacente.

3 O acesso baseado em papéis democratiza a análise em toda a organização. Um data warehouse na


nuvem pode ser voltado para a empresa toda ou organizado de acordo com a estrutura da organização.

02 Armazenamento em nuvem e data warehousing | 14


EMPRESA
CASO DO CLIENTE
Centro Colorado de
Medicina Personalizada

CENTRO COLORADO DE
SETOR
MEDICINA PERSONALIZADA
Assistência médica
O Centro Colorado de Medicina Personalizada (CCPM) está conduzindo
uma pesquisa de ponta por meio da análise do DNA de pacientes para prever
SOBRE
o risco de doenças e desenvolver tratamentos direcionados com base na
genética do indivíduo. O CCPM depende do Health Data Compass, o data O Centro Colorado de Medicina
Personalizada (CCPM, na sigla
warehouse de empresas na área da saúde do CCPM. O Health Data Compass
em inglês) é uma parceria entre
integra os dados genômicos dos pacientes do CCPM e registros eletrônicos
a University of Colorado Denver,
de saúde da UCHealth, do Children’s Hospital Colorado e do CU Medicine,
a UCHealth, o Children’s Hospital
incluindo registros externos como reivindicações de seguros, registros
Colorado e o CU Medicine e
de saúde pública e dados ambientais.
situa-se em Denver, na região
do Colorado.
Antes, o Health Data Compass usava um sistema tradicional no local para
armazenar e analisar dados. Mas essa abordagem revelou-se onerosa de
ser mantida, não atendia às necessidades de análise existentes do centro
e não atingia o crescimento previsto. Após um projeto piloto abrangente
de seis meses, o Health Data Compass migrou para o GCP e o Tableau,
que juntos são capazes de processar imensos conjuntos de dados e fazer
análises robustas de dados visuais, além de serem mais baratos e facilitarem
a escalonabilidade de acordo com o crescimento do CCPM. A capacidade
de o GCP, incluindo BigQuery (o data warehouse do Google Cloud) de aceitar
a compliance com a HIPAA de acordo com os requisitos do CCPM foi um
fator importante para essa decisão.

“Nós levamos a sério nossa responsabilidade de proteger os dados dos


pacientes. O Google Cloud Platform fornece vantagens significativas na
segurança de dados de sistemas locais e nos ajuda a manter a compliance
com a HIPAA”, afirmou Michael Ames, diretor associado do Health Data
Compass e diretor de arquitetura empresarial do CCPM.17

LEIA MAIS

02 Caso do cliente: Centro Colorado de Medicina Personalizada | 15


CAPÍTULO 3

INTEGRAÇÃO DE DADOS
EM TEMPO REAL

03
INTEGRAÇÃO DE DADOS EM TEMPO REAL 03

Os cientistas de dados relatam que passam de 50 a 80% do tempo


atolados nas etapas de “tratamento, limpeza e manipulação de dados”
necessárias para preparar os dados para análise.18 A necessidade de
provisionar recursos e aumentar ou reduzir clusters de servidores de
acordo com cargas de trabalho imprevisíveis continua a atormentar
equipes que fazem a preparação de dados no local.19

Menos trabalho de “limpeza” com serviços gerenciados

Os serviços totalmente gerenciados em nuvem ajudam a distanciar


a TI dos trabalhos de infraestrutura voltados para a preparação MAIS DE

90%
e integração de dados em larga escala. Imagine um termostato
inteligente que procura aprender e se ajustar às preferências
de diferentes equipes em um edifício comercial. Enquanto o
termostato está em uso, a nuvem consome dados de uso brutos,
como as configurações de temperatura e os níveis de consumo de
energia ao longo do dia. Conforme os dados chegam, um canal de
das empresas
processamento pode ser ativado, quando necessário, na preparação
TÊM INTERESSE EM
dos dados brutos. Assim, é possível garantir que as entradas estejam
I M P L A N T A R A   P R E PA R A Ç Ã O D E
em um intervalo válido, converter a temperatura e a energia usadas D A D O S   D E A U T O AT E N D I M E N T O
nas unidades pretendidas e formatar os dados temporais. O canal de P A R A   A P O I A R I N I C I A T I VA S
dados os estrutura formalmente e, em seguida, carrega os resultados R E L A C I O N A D A S A O   B I G   D ATA . 20

transformados em um data warehouse na nuvem. Consultas,


visualizações e relatórios ficam instantaneamente disponíveis.

03 Integração de dados em tempo real | 17


Com os serviços totalmente gerenciados em nuvem, os recursos de infraestrutura necessários para aceitar esse
fluxo de trabalho são automaticamente alocados e, em seguida, desativados novamente. As empresas pagam
apenas pelos recursos que utilizam, o que ajuda a eliminar o desperdício e a adivinhação durante a previsão.

Em direção à análise de dados em tempo real

Enquanto os sistemas tradicionais concentram-se na análise de dados off-line “em lotes”, a demanda por insights
em tempo real pede uma nova abordagem. Os sistemas de análise de streaming com base em nuvem são
desenvolvidos para processar o fluxo de dados de aplicativos da Web, smartphones ou milhões de sensores da
IoT em tempo real. Centenas de milhares de sensores podem ser instalados em equipamentos de campo para
informar continuamente o status bruto à nuvem para processamento e monitoramento. Feeds de recursos visuais
podem ser analisados em tempo real para aplicativos como de detecção de anomalias e reconhecimento facial/de
objetos. Os serviços em nuvem amplamente testados e implantados podem ser aproveitados para casos de uso
como esses. Assim, a análise de dados de streaming pode ser implementada em questão de dias.

Com a análise de dados de streaming em tempo real, os dados vão diretamente para canais
de processamento. Os dados transformados podem ser integrados em um data warehouse
na nuvem, possibilitando consultas, visualizações e geração de relatórios em segundos.
Desta forma, o canal de processamento funciona como um tipo de middleware que pode ser
ativado quando necessário, capaz de reunir o streaming de dados em tempo real com dados
em lote retirados do armazenamento. Os dados podem ser estruturados com flexibilidade
para responder às questões empresariais de uma organização conforme elas surjam.

Desta forma, as organizações têm dois caminhos complementares, de lote e de streaming, por
meio dos quais podem capturar, preparar e integrar dados de qualquer origem para qualquer destino.
Os serviços gerenciados em nuvem possibilitam que ambos sejam usados com facilidade.

C O M O A P R O V E I TA R A O M Á X I M O S E U S I N V E S T I M E N T O S N O B I G D ATA

Muitas empresas inovadoras já usam o Big Data, geralmente com base em ferramentas de código aberto como a
Apache Hadoop (em inglês) e a Apache Spark (em inglês). Para esses negócios, é possível proteger os investimentos
existentes em talentos e ferramentas e, ao mesmo tempo, aproveitar as vantagens da produtividade da nuvem.

As ferramentas de código aberto para Big Data estão amplamente disseminadas e continuam crescendo.
Mundialmente, muitas empresas estão armazenando um volume cada vez maior de dados não estruturados em
sistemas de arquivo de nuvem pública, inclusive no Hadoop. Mais de um terço dos entrevistados nos EUA e na
Europa e mais do que a metade na região Ásia-Pacífico relatam que estão implementando, já implementaram
ou estão expandindo a implementação do Hadoop, incluindo HBASE, Accumulo, MapR, Cloudera e Hortonworks.
Do mesmo modo, cerca de um terço dos entrevistados nos EUA e na Europa e impressionantes 60% na região
Ásia-Pacífico estão implementando, já implementaram ou estão expandindo a implementação de plataformas
de dados em memória, incluindo Apache Spark, SAP Hana, Kognitio, Terracotta e Gigaspaces.

03 Integração de dados em tempo real | 18


Para organizações como essa, a nuvem oferece duas opções principais:

• Continuar a gerenciar projetos do Big Data usando ferramentas de código aberto conhecidas, mas migrar
para as máquinas virtuais na nuvem. As vantagens normais da nuvem incluem: inutilização do oneroso
CapEx, migração para um modelo de faturamento OpEx, no qual as organizações pagam de acordo
com os dados armazenados e processados, e facilidade na escalabilidade. Observe que, nesse modelo,
os desenvolvedores e as equipes de TI ainda precisam gerenciar os próprios canais de processamento
de dados e armazenamento. No entanto, esse é o caminho mais simples para aproveitar os ativos já
estabelecidos nas empresas, como talentos, ferramentas e relacionamentos com fornecedores.

• A nuvem oferece versões totalmente gerenciadas de muitas das ferramentas de código aberto mais
conhecidas no Big Data. Por exemplo, executar Apache Hadoop, Apache Spark, Apache Pig e Apache
Hive na nuvem descarrega tarefas básicas de gerenciamento de dados como implantação, registro
e monitoramento.21 Esta opção é excelente para equipes que querem aproveitar os cenários físicos
no local e nativos na nuvem.

Qualquer uma das opções permite que as organizações protejam os investimentos na implantação do
Big Data, mas usam a economia da nuvem de maneira inteligente para controlar custos e ter flexibilidade.

CAPÍTULO 3 RESUMO

1 Os canais de processamento de dados baseados na nuvem permitem às organizações extrair, transformar/


preparar e integrar dados de qualquer origem para qualquer destino (no local ou na nuvem).

2 Na preparação dos dados, as abordagens sem servidor gerenciam completamente a infraestrutura


subjacente, e os recursos são alocados automaticamente com base nas necessidades de cada canal
de processamento de dados.

3 A análise de streaming na nuvem permite que dados da Web, de dispositivos móveis e de aplicativos da
IoT façam streaming para canais de processamento de dados em tempo real. A partir daqui, os dados
podem ser preparados e integrados em um data warehouse na nuvem para gerar insights sobre o negócio
em tempo real.

03 Integração de dados em tempo real | 19


EMPRESA
ESTUDO DE CASO
Citibank UK

CITIBANK UK
SETOR

Serviços financeiros
Nesta prova de conceito, a tarefa da equipe era mostrar como seria
fácil para o Citibank usar o Google BigQuery e o Google Cloud Pub/Sub
para analisar e consumir o equivalente a 1.000 instrumentos SOBRE

financeiros de dados históricos e sobre oscilações quase em tempo Em um experimento que


real da Thomson Reuters. O trabalho foi feito em colaboração com
funciona como prova de
Sean Micklethwaite, desenvolvedor-chefe do Citibank, e Sebastian
conceito, o Google Cloud fez
Fuchs, especialista em soluções da Thomson Reuters.
uma parceria com a Thomson
Reuters para demonstrar para
“Buscávamos uma API que pudesse ser usada para fazer consultas o departamento comercial
nos dados históricos quando precisássemos, sem a necessidade e financeiro internacional
de manter nosso próprio data warehouse e sem todo o custo e do Citibank as vantagens

sobrecarga operacional envolvidos”, explicou Micklethwaite. “Além de combinar as principais


tecnologias de dados do Google
disso, precisávamos de atualizações em tempo real sobre os
com o conteúdo do mercado
dados do mercado com latência no nível humano. Com o Google
financeiro da Thomson Reuters.
Cloud, temos acesso a todos os dados necessários em uma única
plataforma. O BigQuery é responsável pelas nossas necessidades
relativas aos dados históricos de oscilações e pode processar as
oscilações brutas em alta frequência e por longos períodos. O Cloud
Pub/Sub gerencia nossos requisitos de dados em tempo real,
e recebemos todos os dados em um formato consistente.”

Fuchs adicionou: “começamos a usar o BigQuery sem a necessidade


de fazer muitos planejamentos antecipados de capacidade.
Ele simplesmente cresce conforme a necessidade, seja em
provisionamento de conteúdo ou número de consultas por usuário.”

LEIA MAIS

03 Estudo de caso: Citibank | 20


CAPÍTULO 4

APRENDIZADO DE MÁQUINA
E INTELIGÊNCIA ARTIFICIAL

04
APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL

04
Inovações recentes sobre o aprendizado de máquina (ML, na sigla em inglês)
e inteligência artificial (IA) frequentemente ganham destaque no noticiário.
Computadores derrotaram campeões mundiais humanos (em inglês) no
Go, um jogo de tabuleiro com mais movimentos do que a quantidade de
átomos no universo.22 Eles superaram videogames famosos (em inglês) e,
sobretudo, aprenderam a reconhecer gatos (em inglês).23 Mais recentemente,
uma iniciativa de IA foi capaz de gerar uma economia gigantesca dos custos
com energia (em inglês), destacando o aprendizado de máquina como “uma
estrutura com o propósito geral de compreender dinâmicas complexas”.24
Essa estrutura está começando a encontrar várias aplicações e a gerar
resultados em diversos setores.

O conceito de IA é simples: é a capacidade de um software se aprimorar


sem precisar ser explicitamente programado para isso. Em vez de precisar
que desenvolvedores escrevam um novo código manualmente, a IA depende
de algoritmos capazes de se tornarem “mais inteligentes” ao processar mais

60%
dados do mundo real. A centralização do armazenamento e da preparação
de dados na nuvem (as metas dos capítulos 2 e 3, respectivamente) cria
a base ideal para o treinamento e aperfeiçoamento dos modelos de IA.

O objetivo da IA vai além da simples automatização de tarefas que antes


eram manuais. No varejo on-line, por exemplo, os algoritmos de aprendizado
de máquina são capazes de processar e analisar volumes imensos de dados dos entrevistados
de consumidores conforme os compradores em potencial navegam na loja A C R E D I TA M Q U E

on-line ou no aplicativo para dispositivos móveis de um varejista. Quanto O SUCESSO FUTURO

mais dados o modelo processar, mais ele se aproxima de compreender DA ORGANIZAÇÃO

quando e por que um comprador específico decidirá fazer uma determinada DELES DEPENDE DA

compra. Em algum momento, esse aprendizado se torna preditivo, permitindo I M P L E M E N TA Ç Ã O

que o varejista selecione o produto certo para uma determinada pessoa no BEM-SUCEDIDA

momento certo. Este nível de personalização, antes atingido por pequenos DO APRENDIZADO

comerciantes de cidadezinhas que sabiam os nomes e idades dos filhos D E   M Á Q U I N A . 25

da cliente, agora se tornou algo possível em grande escala.

04 Aprendizado de máquina e inteligência artificial | 22


Muitas empresas pequenas que investem em tecnologia já estão vendo os resultados do ML. Porém,
as empresas mais bem estabelecidas têm a oportunidade única de explorar um imenso volume de dados
históricos.26 Com o ML, os resultados dependem da enorme quantidade de dados disponíveis para alimentar
os modelos de treinamento (veja “Modelos pré-treinados: o primeiro passo em direção à IA”). Empresas
bem estabelecidas podem explorar os dados próprios (tudo desde registros de sistema de TI até transações
financeiras e transcrições de chamadas de atendimento ao cliente) para treinar e otimizar esses modelos,
que retornam insights exclusivos para a empresa.

M O D E L O S P R É - T R E I N A D O S : O P R I M E I R O PA S S O E M D I R E Ç Ã O À I A

A forma mais simples de começar a usar a IA é aplicando modelos de aprendizado de máquina pré-treinados, disponíveis
instantaneamente por meio da nuvem. Não é necessário conhecimento prévio sobre ML. Esses recursos podem ser conhecidos
por quem usa aplicativos de consumidores famosos, nos quais alguns dos modelos atingiram níveis de precisão preditiva
que excedem a capacidade humana:

ANÁLISE DE IMAGENS

Compreender o conteúdo presente nas


imagens ao fornecer imagens e retornar
TRADUÇÃO
categorias de texto (p.ex.: “automóvel”, “Torre
Traduzir qualquer string fornecida
Eiffel”). Detecta objetos e rostos isolados de
para um dos muitos idiomas aceitos.
maneira inteligente ou até extrai palavras
Os serviços de tradução se aperfeiçoam
impressas contidas nas imagens.
continuamente e se expandem para
incluir novos idiomas.

ANÁLISE DE VÍDEOS

Identificar objetos e entidades


ANÁLISE DE TEXTO
relevantes em vídeos e entender o
que está acontecendo no nível de Entender a estrutura e o
uma cena ou quadro específicos. significado semântico do texto.
Extrair informações sobre pessoas,
lugares e eventos de qualquer
texto. Compreender informações
R E C O N H E C I M E N T O D E FA L A de análise e sentimentos de novos
Converter áudio em texto com precisão extraordinária. artigos, blogs, registros de bate-papo/
Fornecer áudio à API e receber de volta o texto completo conversas do suporte ao cliente
instantaneamente com compatibilidade em vários idiomas. ou qualquer texto fornecido.
Oferece suporte a casos de uso em tempo real, como
transcrição ou aplicativos orientados pela fala.

Esses serviços são gerais (não vinculados a aplicativos de consumidores) e podem ser facilmente incorporados a qualquer aplicativo
por meio de simples chamadas de API. Os desenvolvedores não precisam conhecer os detalhes estruturais. Sem ter que desenvolver
nenhum desses serviços internamente, as empresas podem explorar os recursos mais recentes instantaneamente, como um serviço.

04 Aprendizado de máquina e inteligência artificial | 23


As empresas bem estabelecidas e organizações líderes dos setores comerciais QUANTIFICAÇÃO DOS
normalmente têm décadas de dados próprios acumulados: transações BENEFÍCIOS
financeiras; registros do sistema; dados brutos gerados pelos dados da
Em parceria com a empresa de
indústria, varejo e comércio eletrônico capturados ao longo dos anos; e
pesquisa M-Brain, o Google Cloud
resultados de desempenho das campanhas de marketing. Devidamente entrevistou 20 líderes empresariais
aperfeiçoados e usados para treinar modelos personalizados de aprendizado e de TI que implementaram pro-
de máquina, esses dados se tornam uma fonte de capacidade preditiva. Em jetos de aprendizado de máquina

vez de ajustar os serviços pré-configurados, as empresas bem estabelecidas sobre as principais vantagens
provenientes dos projetos. Os
podem usar dados próprios para otimizar os processos empresariais para
principais benefícios citados foram
os clientes delas, o que constitui uma poderosa fonte de diferenciação.
os seguintes:

Os casos de uso abrangem muitos setores e revelam algumas das • economia de tempo

aplicações mais promissoras de IA. A detecção de fraudes nos serviços • redução dos custos
• melhor gerenciamento de risco
financeiros e a manutenção preventiva na indústria destacam a capacidade
• melhor qualidade das análises
de identificar anomalias em um turbilhão de transações e registros confusos,
• aumento de receita
uma necessidade comum a muitos setores. As sugestões de diagnóstico
e tratamento em assistência médica e as avaliações da fiabilidade creditícia Outros citaram a automatização,
a melhoria do serviço e a melhoria
destacam a capacidade do aprendizado de máquina em auxiliar com
do planejamento de inventário. 27
a categorização, algo útil de forma geral.

Ciclo virtuoso: capturar, preparar, treinar, prever

Os recursos apresentados nos capítulos 2 e 3 funcionam como uma base para treinar os modelos de
aprendizado de máquina usando dados próprios. Com os dados brutos já centralizados no armazenamento
em nuvem e em um data warehouse na nuvem, os canais de dados sem servidor podem extrair esses dados
continuamente e prepará-los para treinar modelos de ML personalizados. Já que os modelos de ML podem ser
hospedados na nuvem, eles se tornam imediatamente disponíveis para fazer predições para aplicativos. Esse
circuito forma um ciclo virtuoso, no qual os modelos de ML hospedados na nuvem continuam se aperfeiçoando
a partir dos novos dados de treinamento, que, por sua vez, mantêm os modelos atualizados e relevantes.

P R I N C I PA I S N E C E S S I D A D E S MELHORIA DA

E M P R E S A R I A I S R E L ATA D A S A N Á L I S E P R E D I T I VA
P R I N C I PA I S C A S O S D E U S O D E
em:28 APRENDIZADO DE MÁQUINA

no varejo
• ASSISTÊNCIA MÉDICA
• avaliação do risco de crédito
• SERVIÇOS FINANCEIROS REDUÇÃO DA
• INDÚSTRIA C Ode
• previsão da demanda de produtos para melhorar a cadeia N fornecimento
FIANÇA NA
INTERVENÇÃO
• VA R E J O • reposição de materiais
AUMENTO DA MANUAL
• MÍDIA/JOGOS A U T O M AT I Z A Ç Ã O

04 Aprendizado de máquina e inteligência artificial | 24


M L : A N O VA B A S E D E T E S T E S PA R A T E R VA N T A G E N S C O M P E T I T I VA S

A era do aprendizado de máquina finalmente chegou e já está a todo vapor nas empresas pequenas que investem
em tecnologia, de acordo com uma nova pesquisa com líderes empresariais e de tecnologia do MIT Technology
Review Custom. Algumas das principais descobertas:29

60% dos entrevistados já implementaram


estratégias de aprendizado de máquina.

50%
dos responsáveis pela implementação
> de ML em fase inicial já notaram um ROI.

45%
tiveram análises de dados
e insights mais abrangentes.

26% relatam uma maior


vantagem competitiva.

Faça o download do relatório completo aqui.

CAPÍTULO 4 RESUMO

1 A inteligência artificial e o derivado dela, o aprendizado de máquina, formam um conceito simples:


a capacidade que os softwares têm de se aprimorar sem a necessidade de serem explicitamente
programados para isso.

2 A IA baseia-se em um grande volume de dados de treinamento, que oferece à empresas bem estabelecidas
a vantagem exclusiva de fazer extrações do imenso volume de dados da empresa gerados durante o longo
histórico de operações.

3 Armazenamento em nuvem, data warehousing, integração de dados e análise fornecem uma base natural
para a IA e o ML ao tornar os dados disponíveis para treinamento e otimização em tempo real, o que
alimenta um ciclo virtuoso de melhoria contínua.

04 Aprendizado de máquina e inteligência artificial | 25


CONCLUSÃO

Em uma era de vasta quantidade de dados e respostas imediatas, a capacidade


de extrair valor dos dados (independentemente da origem, tamanho e requisitos
que envolvem conveniência) estará no cerne da vantagem competitiva de
uma organização.

O primeiro passo é repensar a estratégia de dados a partir do zero. As


ferramentas de nuvem atuais permitem que as empresas gerenciem volumes
imensos de diversos tipos de dados com mais eficiência e a um custo menor
do que era possível anteriormente. As empresas que adotam uma abordagem
de capturar, armazenar, preparar e analisar os dados terão a base para aproveitar
o aprendizado de máquina e a inteligência artificial. Por fim, esses novos recursos
serão traduzidos em relacionamentos mais próximos entre as empresas e os
clientes delas, tornando os negócios mais preditivos em cada interação.

S A I B A M A I S S O B R E O Q U E O G O O G L E C L O U D P O D E FA Z E R P E L O S E U N E G Ó C I O.

Armazenamento e bancos Soluções para Big Data Aprendizado de máquina


de dados e inteligência artificial

SAIBA MAIS SAIBA MAIS SAIBA MAIS

Conclusão | 26
REFERÊNCIAS

1. 81% dos executivos seniores entrevistados pela Ernst & Young concordaram que os dados devem estar no centro da
tomada de decisão, somente 31% precisaram reestruturar as operações de maneira significativa para incorporar o Big
Data e apenas 23% haviam implementado estratégias de dados em toda a organização. Ernst & Young, Becoming an
Analytics-Driven Organization (2015) (link).

2. David Reinsel et al., Data Age 2025: The Evolution of Data to Life-Critical (IDC, 2017) (link).

3. Cade Metz, “Exclusive: Inside Google Spanner, the Largest Single Database on Earth,” Wired
(26 de novembro de 2012) (link).
Cade Metz, “Spanner, the Google Database that Measured Time, Is Now Open to Everyone,” Wired
(14 de fevereiro de 2017) (link).

4. Robert McMillan, “Inside the Artificial Brain that’s Remaking the Google Empire,” Wired (16 de julho de 2014) (link).
TensorFlow (link).

5. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

6. Leandro DalleMule and Thomas H. Davenport, “What’s Your Data Strategy?” Harvard Business Review
(maio de 2017) (link).

7. John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far
East (IDC, 2012) (link).

8. Tracie Kambies et al., Tech Trends 2017: Dark Analytics: Illuminating Opportunities Hidden within Unstructured Data
(Deloitte University Press, 2017) (link).

9. Google Cloud Storage Pricing, Google Cloud Platform (link).

10. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

11. “Three Ways Marketing Organizations Can Make Data More Actionable,” Harvard Business Review
(9 de agosto de 2016) (link).

12. Modernos data warehouses na nuvem auxiliam a importação (e até consultas específicas) de muitos formatos
semiestruturados automaticamente. Para saber mais sobre dados não estruturados que precisam ser transformados
primeiro (ex: ETL), veja o capítulo 3: preparação de dados.

13. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

14. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

15. James Manyika et al., Big Data: The Next Frontier for Innovation, Competition, and Productivity (McKinsey Global Institute,
2011) (link).

16. Lisa Morgan, “Citizen Data Scientists: 7 Ways to Harness Talent,” InformationWeek (24 de julho de 2015) (link).

17. Centro Colorado de Medicina Personalizada: Improving Healthcare by Integrating Patient Records and Genetic Data Using
Google Cloud Platform and Tableau (Google Cloud Platform, 2017) (link).

18. Steve Lohr, “For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights,” New York Times (17 de agosto de 2014) (link).

19. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

20. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).

21. Apache Hadoop, The Apache Software Foundation (link).

Apache Spark, The Apache Software Foundation (link).

Apache Pig, The Apache Software Foundation (link).

Apache Hive, The Apache Software Foundation (link).

Referências | 27
22. Paul Mozur, “Google’s A.I. Program Rattles Chinese Go-Master As It Wins Match,” New York Times
(25 de maio de 2017) (link).

23. Nicola Twilley, “Artificial Intelligence Goes to the Arcade,” The New Yorker (25 de fevereiro de 2015) (link).

John Markoff, “How Many Computers to Identify A Cat? 16,000,” The New Yorker (25 de junho de 2012) (link).

24. James Vincent, “Google Uses DeepMind AI to Cut Data Center Energy Bills,” The Verge (21 de julho de 2016) (link).

25. Harvard Business Review Analytic Services Global Data and Analytics Survey, sponsored by Google (2017).

26. Uma pesquisa do MIT Technology Review mostrou pequenas empresas na fase inicial da adoção do aprendizado
de máquina e descobriu que: 60% de um grupo de 375 entrevistados, no qual cerca de dois terços eram empresas
com menos de 1.000 funcionários, foram amplamente influenciados pelos setores de tecnologia, negócios e serviços
financeiros. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for
Competitive Advantage (2017) (link).

27. Anna Rader, Machine Learning Initiatives Across Industries: Practical Lessons from IT Executives (M-Brain, sponsored
by Google, 2017) (link).
28. Anna Rader and Irida Jano, Machine Learning Market Research: How Leading Industries Are Adopting AI
(M-Brain 2017) (link).

29. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive
Advantage (2017) (link).

Conclusão | 28
© 2017 Google Inc.
1600 Amphitheatre Parkway, Mountain View, CA 94043

You might also like