Professional Documents
Culture Documents
Guide To Data Analytics & Machine Learning Portuguese PDF
Guide To Data Analytics & Machine Learning Portuguese PDF
DADOS E APRENDIZADO
D E M Á Q U I N A PA R A C I O
CONTEÚDO
Introdução 03
Conclusão 26
Referências 27
Introdução | | 22
Conteúdo
INTRODUÇÃO
O uso de dados para tomar decisões comerciais não é novidade. Antes, “tomar
decisões baseadas em dados” significava compreender a correlação entre uma
campanha de anúncio impressa e os picos episódicos de vendas acima do normal.
As empresas usavam quaisquer dados que tivessem em mãos, no momento em
que estivessem disponíveis.
Hoje, os dados estão por toda parte. Eles são transmitidos a velocidades vertiginosas,
em diversos formatos, a partir de dispositivos de bilhões de usuários conectados.
Geralmente, usar o Big Data é considerado uma oportunidade, mas apenas para
empresas que tenham estrutura para lidar com o volume e a diversidade dele. Para
as outras empresas, a avalanche de dados pode trazer o risco de que insights em
potencial permaneçam inexplorados, necessidades de clientes não sejam atendidas
e empresas continuem tomando decisões sem em+basamento.
Introdução | 3
I N T E R A Ç Õ E S P O R P E S S O A C O N E C TA D A P O R D I A
5.000
4.800
Número de interações/pessoa/dia
3.000
1.000
601
218
Até 2025, uma pessoa comum conectada usará dispositivos conectados aproximadamente 4.800 vezes por dia, o equivalente a uma
interação a cada 18 segundos.2
NOSSAS RAÍZES
O Guia sobre análise de dados e aprendizado de máquina do Google Cloud baseia-se nos 20 anos em que
o Google enfrentou alguns dos problemas mais complexos do setor relacionados a dados. Ao longo do
percurso, contribuímos com pesquisas inéditas que ajudaram a moldar o cenário do Big Data: dos dois
artigos acadêmicos do final de 2003 e 2004, que juntos geraram o movimento do Hadoop, ao artigo
sobre o Dremel, que constitui a base dos recursos de data warehouse na nuvem presentes neste guia.
Nós concebemos, desenvolvemos e implantamos o Spanner, o primeiro sistema que distribui dados em
escala global, oferece suporte a transações distribuídas externamente de maneira uniforme e que, em
2017, tornou-se totalmente disponível para os nossos clientes.3 Recentemente, o Google Brain ajudou a
fomentar o interesse renovado do setor em IA, o que colaborou para o lançamento do nosso Projeto do
TensorFlow em código aberto.4 Com este guia, esperamos compartilhar nossa experiência com líderes
que buscam formas de decifrar as possibilidades do aprendizado de máquina e da inteligência artificial
para as organizações deles.
Introdução | 4
CAPÍTULO 1
O N O V O C E N Á R I O PA R A O S D A D O S
01
O N O V O C E N Á R I O PA R A O S D A D O S 01
Seria mais fácil gerenciar os dados se o crescimento fosse limitado a poucas fontes ou se
os dados fossem uniformes. O desafio consiste na diversidade de fontes e formatos. Isso
inclui o volume crescente de dados não estruturados: e-mails, registros de sistema, páginas
da Web, transcrições de clientes, documentos, apresentações, bate-papos informais e um
extraordinário volume de rich media, como imagens e vídeos em alta definição. Volumes enormes
de informação tornam-se disponíveis instantaneamente em qualquer dispositivo conectado à
Internet, o que gera novas expectativas em torno da disponibilidade e da prontidão dos dados.
Este guia analisa como os serviços gerenciados em nuvem ajudam empresas novas e já
estabelecidas a enfrentar os desafios do processamento de dados. Ele detalha um caminho que
começa com a captura de dados brutos da empresa no armazenamento em nuvem. Conforme
as questões empresariais forem surgindo, as ferramentas com base na nuvem podem preparar
e estruturar os dados brutos quando necessário. Em seguida, os dados preparados são incorporados
S E M S E R V I D O R : O C A M I N H O PA R A A P R O D U T I V I D A D E E M T I
As arquiteturas modernas sem servidor são o ápice de uma série de esforços para reduzir a extensão da
área que os desenvolvedores e as equipes de TI precisam gerenciar. A meta da computação sem servidor
é, essencialmente, eliminar a “mercantilização” do trabalho (do gerenciamento de clusters de servidores,
fragmentação de bancos de dados, balanceamento de carga, planejamento de recursos, garantia de
disponibilidade) para que as equipes de TI possam se concentrar naquilo que é mais importante para
o negócio. A função “sem servidor” estabelece uma nítida distinção entre a TI “mercantilizada”(o serviço
cotidiano de manutenção que parece praticamente o mesmo em cada empresa) e o serviço diferenciado
que eleva a TI para a posição de fornecedor direto de valor comercial.
CAPÍTULO 1 RESUMO
FIS SETOR
Serviços financeiros
A FIS faz análises de eventos e inovações do mercado com
serviços de nuvem totalmente gerenciados
SOBRE
LEIA MAIS
ARMAZENAMENTO EM NUVEM
E D ATA W A R E H O U S I N G
02
A R M A Z E N A M E N T O E M N U V E M E D ATA W A R E H O U S I N G
Os silos de dados distribuídos por toda a empresa continuam a aborrecer tanto a equipe de
TI quanto a comercial, com novos silos (por razões técnicas, corporativas ou ambas) criados
diariamente.5 A revista Harvard Business Review fez uma publicação sobre a necessidade
da fonte única da verdade para dados, assim como as diversas lentes pelas quais diferentes
ramos de negócios podem analisar os dados.6
A IDC estima que menos de 1% de todos os arquivos sejam analisados.7 Os outros 99%,
dependendo das necessidades do negócio no momento, contêm informações sobre
insights voltados à tomada de decisão. Como as organizações não conseguem prever
as questões empresariais que poderão surgir, elas precisam de maneiras simples, baratas
e flexíveis de armazenar um grande volume de dados. Isso vale principalmente para dados
não estruturados, que constituem a maioria dos dados gerados.8
<1%
Além de gerar economia de custos, o armazenamento em nuvem funciona como a base de análises robustas.
As empresas podem capturar arquivos estruturados e não estruturados nos formatos originais com facilidade.
Como o armazenamento é separado intencionalmente do processamento e da análise, as equipes podem
postergar a estruturação dos dados brutos para análise somente quando questões empresariais surgirem. O mais
importante de tudo é que dados brutos que tenham a mesma origem podem ser facilmente reestruturados para
responder a novas questões de imediato. O que diferencia o armazenamento em nuvem é a eficiência dessas
etapas de captura e reutilização dos dados. Para preparar uma organização para que ela se beneficie das análises,
as equipes precisam garantir que os dados brutos dos processos empresariais sejam capturados e centralizados.
Essa flexibilidade está acelerando a adoção da nuvem como repositório para dados não estruturados das
organizações. Cerca de metade das organizações nos EUA, Europa e Ásia-Pacífico antecipam saltos de pelo
menos 5% no armazenamento de dados não estruturados na nuvem no ano seguinte, sendo que muitas delas
informam um aumento superior a 10%.10
De acordo com uma pesquisa com mais de 500 líderes mundiais em TI conduzida pela MIT Sloan Management Review
em nome do Google Cloud, a adesão à nuvem permanece em crescimento, e a expectativa é de que a maioria (65%) dos
aplicativos, dados e/ou infraestrutura seja baseada em nuvem até 2019.
A Internet das coisas é um importante fator de crescimento dessa migração para a nuvem, sendo que 91% dos
entrevistados com iniciativas de IoT estão atualmente implantando (59%) ou planejam implantar (32%) dados
de dispositivos conectados à IoT na nuvem. Os entrevistados mencionaram a capacidade de incorporar novas
ferramentas e plataformas (33%), maior velocidade da implantação e iteração de app (31%), maior flexibilidade nos
processos empresariais e nas escolhas de fornecedores (29%) e maior segurança (28%) como os principais motivos
para implantar dados da IoT na nuvem.
Para usar os dados da IoT de maneira eficiente, as empresas precisam compreendê-los dentro do contexto.
Um data warehouse na nuvem que permite entradas de lote e dados de streaming, em conjunto com uma
plataforma de análise robusta, ajuda a assegurar que seus dados de IoT gerem insights em tempo real.
Ao capturar dados de qualquer tipo de maneira econômica, as organizações podem voltar a atenção
para possibilitar uma perspectiva organizada dos processos empresariais mais importantes. Embora
o armazenamento em nuvem centralize dados no formato bruto nativo, um data warehouse na
nuvem permite que empresas reúnam dados de silos diferentes para análise, assim como um data
warehouse tradicional faria. Com a nuvem, as empresas podem gerenciar um grande volume de dados
com investimento mínimo de capital, escala praticamente ilimitada e pagamento por utilização. Os
serviços gerenciados em nuvem vão mais além, aliviando as preocupações de TI sobre a infraestrutura
subjacente. As empresas precisam definir quais questões empresariais devem ser respondidas e quais
são os dados necessários para respondê-las.
Por exemplo:
• Quais são as principais metas empresariais dos meus dados? Entender como os usuários
interagem com os meus sistemas, identificar tendências, aumentar as vendas, construir
a fidelidade do consumidor ou algo diferente?
• Qual será a origem dos meus dados mais importantes (transações, registros de servidores,
serviços em nuvem, dispositivos/Internet das coisas, mídia social)? Eles já foram importados
para o armazenamento em nuvem?
• Com que velocidade o meu sistema precisa incorporar novos dados em relatórios e visualizações?
• Existe uma cultura que incentive a tomada de decisão baseada em dados em toda a
organização (não apenas entre os analistas de TI e os cientistas de dados)? Quem deveria
ter acesso à plataforma de análise?
Armazenamento em nuvem
Os dados do armazenamento em nuvem podem ser importados para um data warehouse na
nuvem para análise.12 Nessa etapa, é possível formalizar um esquema com base nas questões
empresariais que precisam de resposta, propiciando a estruturação dos dados brutos para análise.
Dados de streaming
Dados de aplicativos da Web, de dispositivos móveis e da Internet das coisas (IoT, na sigla
em inglês) podem ignorar o armazenamento em nuvem e serem transmitidos diretamente
para um data warehouse na nuvem (veja no capítulo 3: Integração de dados em tempo real).
Administração de dados
Com o acesso baseado em funções, qualquer pessoa ou desenvolvedor de aplicativos pode consultar
dados armazenados em um data warehouse na nuvem, gerar relatórios ou acessar visualizações.
O data warehousing na nuvem aceita o gerenciamento de acesso individualizado voltado para
o que a pessoa precisa saber. A auditabilidade total e o controle do acesso personalizado ajudam
a democratizar a ciência de dados, ao mesmo tempo em que mantêm salvaguardas de segurança.
De fato, mais da metade das empresas nos EUA, Europa e Ásia-Pacífico relatam que estão
implementando, já implementaram ou estão expandindo o uso de ferramentas de inteligência
empresarial operadas pela própria empresa e utilizadas nela.14
Antes, a responsabilidade por conclusões estatisticamente precisas com base em dados era exclusiva aos
cientistas de dados profissionais. Porém, em 2018, de acordo com a McKinsey, “Os EUA poderão enfrentar
uma escassez de 140.000 a 190.000 pessoas com conhecimento aprofundado em análise de dados, assim
como 1,5 milhão de gerentes e analistas com o conhecimento para usar as análises de Big Data para tomar
decisões efetivas.”15
Com a intensificação da competição, a maioria das empresas precisará de uma estratégia diferente
voltada para os talentos. Os cientistas de dados amadores que, conforme definição do InformationWeek,
são pessoas que fazem análises de dados, mas cujas principais atribuições não estão relacionadas
à estatística ou análise, podem ser um complemento significativo para cientistas de dados internos,
principalmente para empresas que investem no desenvolvimento da cultura da ciência de dados.16
Para ter sucesso, quem pretende se tornar cientista de dados amador precisa:
CAPÍTULO 2 RESUMO
2 Um data warehouse na nuvem permite que as organizações reúnam dados de silos distintos para
análise, abrangendo desde armazenamento em nuvem, bancos de dados transacionais e analíticos
no local ou na nuvem ou dados armazenados com outros serviços em nuvem. As organizações podem
executar consultas, gerar relatórios e criar visualizações sem gerenciar a infraestrutura subjacente.
CENTRO COLORADO DE
SETOR
MEDICINA PERSONALIZADA
Assistência médica
O Centro Colorado de Medicina Personalizada (CCPM) está conduzindo
uma pesquisa de ponta por meio da análise do DNA de pacientes para prever
SOBRE
o risco de doenças e desenvolver tratamentos direcionados com base na
genética do indivíduo. O CCPM depende do Health Data Compass, o data O Centro Colorado de Medicina
Personalizada (CCPM, na sigla
warehouse de empresas na área da saúde do CCPM. O Health Data Compass
em inglês) é uma parceria entre
integra os dados genômicos dos pacientes do CCPM e registros eletrônicos
a University of Colorado Denver,
de saúde da UCHealth, do Children’s Hospital Colorado e do CU Medicine,
a UCHealth, o Children’s Hospital
incluindo registros externos como reivindicações de seguros, registros
Colorado e o CU Medicine e
de saúde pública e dados ambientais.
situa-se em Denver, na região
do Colorado.
Antes, o Health Data Compass usava um sistema tradicional no local para
armazenar e analisar dados. Mas essa abordagem revelou-se onerosa de
ser mantida, não atendia às necessidades de análise existentes do centro
e não atingia o crescimento previsto. Após um projeto piloto abrangente
de seis meses, o Health Data Compass migrou para o GCP e o Tableau,
que juntos são capazes de processar imensos conjuntos de dados e fazer
análises robustas de dados visuais, além de serem mais baratos e facilitarem
a escalonabilidade de acordo com o crescimento do CCPM. A capacidade
de o GCP, incluindo BigQuery (o data warehouse do Google Cloud) de aceitar
a compliance com a HIPAA de acordo com os requisitos do CCPM foi um
fator importante para essa decisão.
LEIA MAIS
INTEGRAÇÃO DE DADOS
EM TEMPO REAL
03
INTEGRAÇÃO DE DADOS EM TEMPO REAL 03
90%
e integração de dados em larga escala. Imagine um termostato
inteligente que procura aprender e se ajustar às preferências
de diferentes equipes em um edifício comercial. Enquanto o
termostato está em uso, a nuvem consome dados de uso brutos,
como as configurações de temperatura e os níveis de consumo de
energia ao longo do dia. Conforme os dados chegam, um canal de
das empresas
processamento pode ser ativado, quando necessário, na preparação
TÊM INTERESSE EM
dos dados brutos. Assim, é possível garantir que as entradas estejam
I M P L A N T A R A P R E PA R A Ç Ã O D E
em um intervalo válido, converter a temperatura e a energia usadas D A D O S D E A U T O AT E N D I M E N T O
nas unidades pretendidas e formatar os dados temporais. O canal de P A R A A P O I A R I N I C I A T I VA S
dados os estrutura formalmente e, em seguida, carrega os resultados R E L A C I O N A D A S A O B I G D ATA . 20
Enquanto os sistemas tradicionais concentram-se na análise de dados off-line “em lotes”, a demanda por insights
em tempo real pede uma nova abordagem. Os sistemas de análise de streaming com base em nuvem são
desenvolvidos para processar o fluxo de dados de aplicativos da Web, smartphones ou milhões de sensores da
IoT em tempo real. Centenas de milhares de sensores podem ser instalados em equipamentos de campo para
informar continuamente o status bruto à nuvem para processamento e monitoramento. Feeds de recursos visuais
podem ser analisados em tempo real para aplicativos como de detecção de anomalias e reconhecimento facial/de
objetos. Os serviços em nuvem amplamente testados e implantados podem ser aproveitados para casos de uso
como esses. Assim, a análise de dados de streaming pode ser implementada em questão de dias.
Com a análise de dados de streaming em tempo real, os dados vão diretamente para canais
de processamento. Os dados transformados podem ser integrados em um data warehouse
na nuvem, possibilitando consultas, visualizações e geração de relatórios em segundos.
Desta forma, o canal de processamento funciona como um tipo de middleware que pode ser
ativado quando necessário, capaz de reunir o streaming de dados em tempo real com dados
em lote retirados do armazenamento. Os dados podem ser estruturados com flexibilidade
para responder às questões empresariais de uma organização conforme elas surjam.
Desta forma, as organizações têm dois caminhos complementares, de lote e de streaming, por
meio dos quais podem capturar, preparar e integrar dados de qualquer origem para qualquer destino.
Os serviços gerenciados em nuvem possibilitam que ambos sejam usados com facilidade.
C O M O A P R O V E I TA R A O M Á X I M O S E U S I N V E S T I M E N T O S N O B I G D ATA
Muitas empresas inovadoras já usam o Big Data, geralmente com base em ferramentas de código aberto como a
Apache Hadoop (em inglês) e a Apache Spark (em inglês). Para esses negócios, é possível proteger os investimentos
existentes em talentos e ferramentas e, ao mesmo tempo, aproveitar as vantagens da produtividade da nuvem.
As ferramentas de código aberto para Big Data estão amplamente disseminadas e continuam crescendo.
Mundialmente, muitas empresas estão armazenando um volume cada vez maior de dados não estruturados em
sistemas de arquivo de nuvem pública, inclusive no Hadoop. Mais de um terço dos entrevistados nos EUA e na
Europa e mais do que a metade na região Ásia-Pacífico relatam que estão implementando, já implementaram
ou estão expandindo a implementação do Hadoop, incluindo HBASE, Accumulo, MapR, Cloudera e Hortonworks.
Do mesmo modo, cerca de um terço dos entrevistados nos EUA e na Europa e impressionantes 60% na região
Ásia-Pacífico estão implementando, já implementaram ou estão expandindo a implementação de plataformas
de dados em memória, incluindo Apache Spark, SAP Hana, Kognitio, Terracotta e Gigaspaces.
• Continuar a gerenciar projetos do Big Data usando ferramentas de código aberto conhecidas, mas migrar
para as máquinas virtuais na nuvem. As vantagens normais da nuvem incluem: inutilização do oneroso
CapEx, migração para um modelo de faturamento OpEx, no qual as organizações pagam de acordo
com os dados armazenados e processados, e facilidade na escalabilidade. Observe que, nesse modelo,
os desenvolvedores e as equipes de TI ainda precisam gerenciar os próprios canais de processamento
de dados e armazenamento. No entanto, esse é o caminho mais simples para aproveitar os ativos já
estabelecidos nas empresas, como talentos, ferramentas e relacionamentos com fornecedores.
• A nuvem oferece versões totalmente gerenciadas de muitas das ferramentas de código aberto mais
conhecidas no Big Data. Por exemplo, executar Apache Hadoop, Apache Spark, Apache Pig e Apache
Hive na nuvem descarrega tarefas básicas de gerenciamento de dados como implantação, registro
e monitoramento.21 Esta opção é excelente para equipes que querem aproveitar os cenários físicos
no local e nativos na nuvem.
Qualquer uma das opções permite que as organizações protejam os investimentos na implantação do
Big Data, mas usam a economia da nuvem de maneira inteligente para controlar custos e ter flexibilidade.
CAPÍTULO 3 RESUMO
3 A análise de streaming na nuvem permite que dados da Web, de dispositivos móveis e de aplicativos da
IoT façam streaming para canais de processamento de dados em tempo real. A partir daqui, os dados
podem ser preparados e integrados em um data warehouse na nuvem para gerar insights sobre o negócio
em tempo real.
CITIBANK UK
SETOR
Serviços financeiros
Nesta prova de conceito, a tarefa da equipe era mostrar como seria
fácil para o Citibank usar o Google BigQuery e o Google Cloud Pub/Sub
para analisar e consumir o equivalente a 1.000 instrumentos SOBRE
LEIA MAIS
APRENDIZADO DE MÁQUINA
E INTELIGÊNCIA ARTIFICIAL
04
APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL
04
Inovações recentes sobre o aprendizado de máquina (ML, na sigla em inglês)
e inteligência artificial (IA) frequentemente ganham destaque no noticiário.
Computadores derrotaram campeões mundiais humanos (em inglês) no
Go, um jogo de tabuleiro com mais movimentos do que a quantidade de
átomos no universo.22 Eles superaram videogames famosos (em inglês) e,
sobretudo, aprenderam a reconhecer gatos (em inglês).23 Mais recentemente,
uma iniciativa de IA foi capaz de gerar uma economia gigantesca dos custos
com energia (em inglês), destacando o aprendizado de máquina como “uma
estrutura com o propósito geral de compreender dinâmicas complexas”.24
Essa estrutura está começando a encontrar várias aplicações e a gerar
resultados em diversos setores.
60%
dados do mundo real. A centralização do armazenamento e da preparação
de dados na nuvem (as metas dos capítulos 2 e 3, respectivamente) cria
a base ideal para o treinamento e aperfeiçoamento dos modelos de IA.
quando e por que um comprador específico decidirá fazer uma determinada DELES DEPENDE DA
que o varejista selecione o produto certo para uma determinada pessoa no BEM-SUCEDIDA
momento certo. Este nível de personalização, antes atingido por pequenos DO APRENDIZADO
M O D E L O S P R É - T R E I N A D O S : O P R I M E I R O PA S S O E M D I R E Ç Ã O À I A
A forma mais simples de começar a usar a IA é aplicando modelos de aprendizado de máquina pré-treinados, disponíveis
instantaneamente por meio da nuvem. Não é necessário conhecimento prévio sobre ML. Esses recursos podem ser conhecidos
por quem usa aplicativos de consumidores famosos, nos quais alguns dos modelos atingiram níveis de precisão preditiva
que excedem a capacidade humana:
ANÁLISE DE IMAGENS
ANÁLISE DE VÍDEOS
Esses serviços são gerais (não vinculados a aplicativos de consumidores) e podem ser facilmente incorporados a qualquer aplicativo
por meio de simples chamadas de API. Os desenvolvedores não precisam conhecer os detalhes estruturais. Sem ter que desenvolver
nenhum desses serviços internamente, as empresas podem explorar os recursos mais recentes instantaneamente, como um serviço.
vez de ajustar os serviços pré-configurados, as empresas bem estabelecidas sobre as principais vantagens
provenientes dos projetos. Os
podem usar dados próprios para otimizar os processos empresariais para
principais benefícios citados foram
os clientes delas, o que constitui uma poderosa fonte de diferenciação.
os seguintes:
Os casos de uso abrangem muitos setores e revelam algumas das • economia de tempo
aplicações mais promissoras de IA. A detecção de fraudes nos serviços • redução dos custos
• melhor gerenciamento de risco
financeiros e a manutenção preventiva na indústria destacam a capacidade
• melhor qualidade das análises
de identificar anomalias em um turbilhão de transações e registros confusos,
• aumento de receita
uma necessidade comum a muitos setores. As sugestões de diagnóstico
e tratamento em assistência médica e as avaliações da fiabilidade creditícia Outros citaram a automatização,
a melhoria do serviço e a melhoria
destacam a capacidade do aprendizado de máquina em auxiliar com
do planejamento de inventário. 27
a categorização, algo útil de forma geral.
Os recursos apresentados nos capítulos 2 e 3 funcionam como uma base para treinar os modelos de
aprendizado de máquina usando dados próprios. Com os dados brutos já centralizados no armazenamento
em nuvem e em um data warehouse na nuvem, os canais de dados sem servidor podem extrair esses dados
continuamente e prepará-los para treinar modelos de ML personalizados. Já que os modelos de ML podem ser
hospedados na nuvem, eles se tornam imediatamente disponíveis para fazer predições para aplicativos. Esse
circuito forma um ciclo virtuoso, no qual os modelos de ML hospedados na nuvem continuam se aperfeiçoando
a partir dos novos dados de treinamento, que, por sua vez, mantêm os modelos atualizados e relevantes.
P R I N C I PA I S N E C E S S I D A D E S MELHORIA DA
E M P R E S A R I A I S R E L ATA D A S A N Á L I S E P R E D I T I VA
P R I N C I PA I S C A S O S D E U S O D E
em:28 APRENDIZADO DE MÁQUINA
no varejo
• ASSISTÊNCIA MÉDICA
• avaliação do risco de crédito
• SERVIÇOS FINANCEIROS REDUÇÃO DA
• INDÚSTRIA C Ode
• previsão da demanda de produtos para melhorar a cadeia N fornecimento
FIANÇA NA
INTERVENÇÃO
• VA R E J O • reposição de materiais
AUMENTO DA MANUAL
• MÍDIA/JOGOS A U T O M AT I Z A Ç Ã O
A era do aprendizado de máquina finalmente chegou e já está a todo vapor nas empresas pequenas que investem
em tecnologia, de acordo com uma nova pesquisa com líderes empresariais e de tecnologia do MIT Technology
Review Custom. Algumas das principais descobertas:29
50%
dos responsáveis pela implementação
> de ML em fase inicial já notaram um ROI.
45%
tiveram análises de dados
e insights mais abrangentes.
CAPÍTULO 4 RESUMO
2 A IA baseia-se em um grande volume de dados de treinamento, que oferece à empresas bem estabelecidas
a vantagem exclusiva de fazer extrações do imenso volume de dados da empresa gerados durante o longo
histórico de operações.
3 Armazenamento em nuvem, data warehousing, integração de dados e análise fornecem uma base natural
para a IA e o ML ao tornar os dados disponíveis para treinamento e otimização em tempo real, o que
alimenta um ciclo virtuoso de melhoria contínua.
S A I B A M A I S S O B R E O Q U E O G O O G L E C L O U D P O D E FA Z E R P E L O S E U N E G Ó C I O.
Conclusão | 26
REFERÊNCIAS
1. 81% dos executivos seniores entrevistados pela Ernst & Young concordaram que os dados devem estar no centro da
tomada de decisão, somente 31% precisaram reestruturar as operações de maneira significativa para incorporar o Big
Data e apenas 23% haviam implementado estratégias de dados em toda a organização. Ernst & Young, Becoming an
Analytics-Driven Organization (2015) (link).
2. David Reinsel et al., Data Age 2025: The Evolution of Data to Life-Critical (IDC, 2017) (link).
3. Cade Metz, “Exclusive: Inside Google Spanner, the Largest Single Database on Earth,” Wired
(26 de novembro de 2012) (link).
Cade Metz, “Spanner, the Google Database that Measured Time, Is Now Open to Everyone,” Wired
(14 de fevereiro de 2017) (link).
4. Robert McMillan, “Inside the Artificial Brain that’s Remaking the Google Empire,” Wired (16 de julho de 2014) (link).
TensorFlow (link).
5. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
6. Leandro DalleMule and Thomas H. Davenport, “What’s Your Data Strategy?” Harvard Business Review
(maio de 2017) (link).
7. John Gantz and David Reinsel, The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far
East (IDC, 2012) (link).
8. Tracie Kambies et al., Tech Trends 2017: Dark Analytics: Illuminating Opportunities Hidden within Unstructured Data
(Deloitte University Press, 2017) (link).
10. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
11. “Three Ways Marketing Organizations Can Make Data More Actionable,” Harvard Business Review
(9 de agosto de 2016) (link).
12. Modernos data warehouses na nuvem auxiliam a importação (e até consultas específicas) de muitos formatos
semiestruturados automaticamente. Para saber mais sobre dados não estruturados que precisam ser transformados
primeiro (ex: ETL), veja o capítulo 3: preparação de dados.
13. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
14. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
15. James Manyika et al., Big Data: The Next Frontier for Innovation, Competition, and Productivity (McKinsey Global Institute,
2011) (link).
16. Lisa Morgan, “Citizen Data Scientists: 7 Ways to Harness Talent,” InformationWeek (24 de julho de 2015) (link).
17. Centro Colorado de Medicina Personalizada: Improving Healthcare by Integrating Patient Records and Genetic Data Using
Google Cloud Platform and Tableau (Google Cloud Platform, 2017) (link).
18. Steve Lohr, “For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights,” New York Times (17 de agosto de 2014) (link).
19. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
20. Forrester, Forrester’s Global Business Technographics Data and Analytics Survey (2016) (link).
Referências | 27
22. Paul Mozur, “Google’s A.I. Program Rattles Chinese Go-Master As It Wins Match,” New York Times
(25 de maio de 2017) (link).
23. Nicola Twilley, “Artificial Intelligence Goes to the Arcade,” The New Yorker (25 de fevereiro de 2015) (link).
John Markoff, “How Many Computers to Identify A Cat? 16,000,” The New Yorker (25 de junho de 2012) (link).
24. James Vincent, “Google Uses DeepMind AI to Cut Data Center Energy Bills,” The Verge (21 de julho de 2016) (link).
25. Harvard Business Review Analytic Services Global Data and Analytics Survey, sponsored by Google (2017).
26. Uma pesquisa do MIT Technology Review mostrou pequenas empresas na fase inicial da adoção do aprendizado
de máquina e descobriu que: 60% de um grupo de 375 entrevistados, no qual cerca de dois terços eram empresas
com menos de 1.000 funcionários, foram amplamente influenciados pelos setores de tecnologia, negócios e serviços
financeiros. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for
Competitive Advantage (2017) (link).
27. Anna Rader, Machine Learning Initiatives Across Industries: Practical Lessons from IT Executives (M-Brain, sponsored
by Google, 2017) (link).
28. Anna Rader and Irida Jano, Machine Learning Market Research: How Leading Industries Are Adopting AI
(M-Brain 2017) (link).
29. MIT Technology Review Custom and Google Cloud, Machine Learning: The New Proving Ground for Competitive
Advantage (2017) (link).
Conclusão | 28
© 2017 Google Inc.
1600 Amphitheatre Parkway, Mountain View, CA 94043