You are on page 1of 21

A W S PA R A DA D O S

Modernize a
abordagem de análise
Maximize a escala, a performance e o valor
Nunca foi tão importante usar o
poder do big data para o sucesso
empresarial
Os dados, força vital de qualquer empresa, provêm de sensores, de redes, de aplicações
e do número cada vez maior de dispositivos conectados. A migração para a nuvem vem
acarretando um aumento exponencial na criação de dados e essa adoção à nuvem está
apenas começando no setor. Os analistas estimam que em torno de 5% a 15% dos gastos
com TI foram para a nuvem. Com os custos de computação e armazenamento diminuindo a
cada dia, as empresas estão armazenando mais dados do que nunca. Existem oportunidades
para transformar os negócios com o uso de dados em toda a cadeia de valor. Mas para
realizar uma transformação como essa, as organizações precisam ter o quadro geral e uma
fonte única dos dados sobre os clientes e seus respectivos negócios.

É necessário responder a perguntas complexas: será que a sua organização tem acesso a
todos esses dados ou será que não tem nem noção dos dados que mais importam? Será que
as equipes que precisam dos dados estão aguardando na fila ou será que estão criando suas
próprias cópias e trabalhando da melhor forma possível com o que conseguiram reunir? Será
que conseguem coletar insights relevantes acessando os dados rapidamente e em grande
escala?

Os insights mais impactantes orientados por dados, como previsão de rotatividade de


clientes, priorização de segmentos e insights de retenção de clientes, são obtidos de um
panorama completo de seus negócios e de seus clientes. Isso só pode ser alcançado quando
você conecta diferentes fontes de dados, como canais de vendas conectados a taxas de
cliques de marketing, e disponibiliza as informações para as pessoas certas de maneira segura
e controlada.

2
Motivadores do investimento em TI 1

Líder de TI Ramo de atuação


1 Análise de dados e de negócios 1 Gerenciamento de riscos e segurança

2 Gerenciamento de riscos e segurança 2 Migrações para a nuvem

3 Aplicações empresariais 3 Análise de dados e de negócios

4 Tecnologias da experiência do cliente 4 Tecnologias da experiência do funcionário

5 Inteligência artificial (IA) e machine learning (ML) 5 Datacenter e infraestrutura

Uma estratégia de análise moderna descentralizada

Uma estratégia de análise moderna é baseada em uma arquitetura de microsserviços que gera insights de negócios com o que há
de melhor em performance, escala, durabilidade e disponibilidade, tudo pelo custo mais baixo. A arquitetura de dados moderna
reúne o data lake e os armazenamentos de dados com propósito específico para eliminar os silos entre sistemas, dados e pessoas,
permitindo que todos os tipos de usuários de dados trabalhem com dados onde quer que estejam em sua jornada.

1
“Tech Initiatives Driving 2021 IT Investments”, State of the CIO Executive Summary

3
Data lakes
Para analisar essas enormes quantidades de dados, muitas empresas estão movendo
todos os seus dados de diversos silos para um único local, que costuma ser chamado de
data lake. Os clientes podem realizar análises e ML diretamente nos dados. Às vezes, essas
mesmas empresas armazenam outros dados em datastores com propósito específico, como
data warehouses, visando coletar resultados rápidos para consultas complexas em dados
estruturados, ou em um serviço de pesquisa para pesquisar e analisar rapidamente os dados
de log a fim de monitorar a integridade dos sistemas de produção. Os clientes também se
dividem bastante entre acessar os dados diretamente de datastores diferentes ou mover
os dados entre data lakes e datastores com propósito específico. Por exemplo, é possível
coletar dados de fluxo de cliques da web das aplicações no data lake e, em seguida, mover
uma parte desses dados para um data warehouse a fim de utilizar nos painéis e relatórios
semanais. Também é possível mover os resultados da consulta para vendas de produtos em
uma determinada região do data warehouse para o data lake, a fim de executar algoritmos de
recomendação de produtos por meio do ML.

O data lake permite a execução de análises na maioria dos seus dados, enquanto os serviços
de análises com propósito específico oferecem a velocidade necessária para casos de uso
específicos, como análises de log e painéis em tempo real. Os clientes mais avançados
geralmente têm vários data lakes em várias contas por toda a organização. Eles sabem
que a arquitetura precisa refletir a realidade de como os dados são gerados, processados e
compartilhados em toda a organização e, em alguns casos, até mesmo entre organizações.

Os data lakes, habilitados pelo Amazon Simple Storage Service (Amazon S3), permitem
armazenar e recuperar qualquer tipo de dados em qualquer escala. O Amazon S3 é a melhor
solução para criar um data lake porque apresenta níveis inigualáveis de durabilidade,
disponibilidade e escalabilidade. Ele oferece os melhores recursos de segurança,
conformidade e auditoria, além da performance mais rápida pelo custo mais baixo. O Amazon
S3 também oferece as melhores formas de migrar os dados e o maior número de integrações
de parceiros.

4
Data warehouses
O data warehouse na nuvem é uma base essencial que possibilita atividades Os clientes geralmente precisam ter dados distribuídos pelos data lakes
como business intelligence (BI), relatórios, painéis e outras interfaces e pelos data warehouses para necessidades departamentais. Pense no
usadas pela sua equipe para tomar decisões de negócios mais embasadas. departamento financeiro consolidando as workloads de BI no data warehouse
Atualmente, com o crescimento de dados em fontes de dados e workloads de e no departamento de marketing armazenando dados no data lake. Os
análise tornando-se cada vez mais essenciais, vinculados a SLA e onipresentes data warehouses na nuvem que operam em conjunto com um data lake e
em toda a organização, as workloads de dados exigem escalabilidade um sistema interconectado de fontes de dados, como seu banco de dados
quase infinita com alta simultaneidade e performance, alta confiabilidade e transacional ou serviço de streaming de dados, podem fornecer análises quase
disponibilidade. Um data warehouse moderno pode acessar dados de várias em tempo real em uma arquitetura de análise moderna. Essa arquitetura
fontes diferentes, incluindo data lakes sem pipelines complexos de extração, oferece escalabilidade virtual ilimitada com alta performance consistente para
transformação e carregamento (ETL), e estender os casos de uso de análise casos de uso de ML e de análise nessas fontes de dados. Ela permite realizar
além do BI para desenvolvimento de aplicações, ML e uso do Apache Spark. Ele análises de dados em qualquer escala com benefícios da nuvem que incluem
pode dimensionar a computação e o armazenamento de forma independente agilidade, elasticidade, economia operacional e a disponibilidade imediata das
para reduzir os custos gerais. aplicações de que sua organização precisa.

Jornada de dados
completa
A K E F O R M AT
SL IO
N
AW
Databases
SaaS apps Devices
Third-party data
Media People
Data streams
AM
AZ NE
DATA SOURCES O N D ATA Z O ENDPOINTS

5
Amazon Redshift:
data warehousing em nuvem reinventado
A AWS tem um histórico de 10 anos de dedicação em inovação para oferecer descoberta de dados e exploração científica, além de análises de streaming.
uma experiência de dados moderna aos clientes do Amazon Redshift. O Amazon Redshift oferece uma forma fácil de compartilhar dados entre
Priorizamos a liderança com a relação preço/performance e possibilitamos novos contas internas e externas enquanto permite colaboração segura e controlada.
casos de uso. Por meio de telemetria global, temos uma visualização agregada Os desenvolvedores podem criar facilmente com base nele e acessar dados
das workloads do cliente e usamos esses insights para melhorar continuamente em vários formatos. Mesmo não tendo experiência em data warehouse,
a performance. O foco nas workloads que importam gera mudanças você conseguirá usar o Amazon Redshift com tecnologia sem servidor de
incrementais, que produzem melhorias significativas ao longo do tempo. maneira fácil, pois não precisa se preocupar com a infraestrutura de data
warehouse, basta carregar os dados e começar as análises. Tudo isso está
A cultura de inovação na AWS gerou um flywheel de preço/performance. disponível com a melhor relação preço/performance do setor para todas as
Acreditamos que a consistência é um princípio da performance: é possível workloads. A relação preço/performance significa que, à medida que o data
dimensionar seu volume de dados no Amazon Redshift de 1 terabyte para mais warehouse é dimensionado para um determinado preço, a performance
de 1 petabyte com custo e performance previsíveis, e a métrica importante de permanece consistentemente alta. Essa métrica é muito valorizada, pois as
preço/performance melhora à medida que os dados são dimensionados. necessidades de dados e de computação continuam aumentando, e os clientes
podem acabar gastando demais se não adotarem sistemas que possam ser
Dezenas de milhares de clientes de todos os portes e setores usam o Amazon
dimensionados de maneira econômica. Com o Amazon Redshift, os clientes se
Redshift para processar exabytes de dados por dia e alimentar workloads
beneficiam de uma relação preço/performance até cinco vezes melhor do que
de análise, como relatórios de BI em tempo real, aplicações de painéis,
com outros data warehouses na nuvem.

O Amazon Redshift foi 30% de melhoria geral na produtividade da equipe de análise2


desenvolvido para atender aos 408% de ROI em cinco anos2
requisitos de uma estratégia de 47% de redução no custo em cinco anos da plataforma de data warehouse2
análise descentralizada:

2
Olofson, C., Marden, M., “Generating Business Value Through Efficient and Robust Use of Data with Amazon Redshift Cloud Data Warehousing Services,” IDC, outubro de 2021 6
Fatores importantes e essenciais
de data warehousing para uma
estratégia de análise moderna

Elimine os silos de dados para analisar todos os dados


A integração de um data lake, um data warehouse, bancos de dados
operacionais e armazenamentos com propósitos específicos praticamente A K E F O R M AT
elimina os silos de dados, porque eles podem ser acessados facilmente onde SL IO
N
AW
estão ou podem ser movidos para onde precisam estar para análises avançadas.
Acesse os dados onde eles estiverem ou aplique uma abordagem sem ETL para
colocar os dados no warehouse sem precisar de esforço manual na criação de
pipelines personalizados, o que pode atrasar o processo de análise. Compartilhe
dados com segurança entre organizações e até mesmo com conjuntos de dados
Amazon
de terceiros para permitir insights holísticos. Redshift

Democratize a análise para uma ampla base de


AM
usuários AZ NE
O N D ATA Z O
A configuração do data warehouse e a experiência de consulta devem ser
intuitivas e altamente funcionais para proporcionar aos usuários com diferentes
níveis de habilidade os insights certos no momento certo. Os usuários devem
ter a confiança necessária para usar análises no data warehouse com rapidez
sem se preocupar com questões como a eficiência dele, se há capacidade de
acomodação em momentos de picos e aumentos nos volumes de dados ou
o pagamento excessivo por tempo ocioso. O compartilhamento de dados e
a colaboração com as equipes e parceiros enquanto cumpre os requisitos de
segurança e conformidade devem ser tarefas fáceis. A automação é essencial
para evitar gerenciamento da infraestrutura e acelerar o tempo de valorização.
Desenvolvedores de software precisam ter acesso aos dados por meio de uma
API fácil de usar e de dados semiestruturados, como dados da Web e da Internet
das Coisas (IoT), sem passar por processos trabalhosos.

7
Proporcione a velocidade que acompanha o ritmo dos negócios
A análise de streaming em tempo real permite que você examine e processe volumes altos de
dados de streaming rápido de várias fontes simultaneamente. É possível distinguir correlações
nas informações extraídas de diversas fontes de entrada, incluindo dispositivos, sensores,
feeds de mídias sociais e aplicações, o que, por sua vez, pode ser usado para acionar ações para
clientes ou respostas da organização. Da mesma forma, em aplicações que armazenam dados
de transações, como uma aplicação de análise de varejo, você precisa de previsões e insights
personalizados quase em tempo real quando os dados são gravados no banco de dados. Em
todos esses cenários, você está em busca de sistemas de análise avançada, alta simultaneidade
e baixa latência que se mantenham disponíveis em toda a sua organização.

Atenda aos mais elevados padrões de segurança,


governança e confiabilidade
Nada disso importará se você não tiver a confiança de que os dados estão protegidos
pelos melhores recursos de segurança. As organizações estão em busca de sistemas com
proteção automática contra vulnerabilidades com uma infraestrutura segura e que operam
em frameworks regidos pelas normas do setor que garantem autorizações detalhadas,
gerenciamento de identidades e padrões de criptografia. Muitas organizações preferem
depender de padrões e recursos de segurança fundamentais na nuvem, desenvolvidos
para dimensionamento, em vez de desenvolver soluções personalizadas e conhecimento
interno sobre segurança que não são capazes de acompanhar o ritmo necessário para lidar
com infrações de segurança e conformidade. Com workloads essenciais para os negócios e
tratamento de dados do cliente, você prioriza sistemas de permissão granulares que possam
implantar políticas pré-configuradas com base em grupos ou funções de usuários e possam
restringir o acesso a linhas ou colunas na tabela de dados.

As organizações que buscam criar ambientes ideais para gerar inovação precisam de um data
warehouse na nuvem que se integra a outros serviços, como data lakes e tecnologias de IA e
ML, além de soluções de parceiros que oferecem especialização no setor ou personalização.
A Amazon Web Services (AWS) oferece um ambiente natural para que sua empresa cresça
com rapidez.

8
Elimine os silos de
dados para analisar
todos os dados
A quantidade de dados gerados por IoT, dispositivos inteligentes,
aplicações na nuvem e mídias sociais está crescendo exponencialmente e
exige um método de análise simples e econômico com tempo mínimo até
a obtenção de insights, independentemente do formato ou do local onde
os dados estão armazenados.

Nossa abordagem exclusiva permite que você analise dados de vários


armazenamentos com propósito específico e do data lake com o
mínimo de esforço de sua parte na movimentação ou na cópia de
dados. Embora o ETL seja um processo essencial para garantir que os
dados sejam exibidos de forma consistente e correta no sistema de
análise, pode levar semanas ou meses de esforço para os engenheiros
de dados desenvolverem pipelines ETL manualmente, que geralmente
são propensos a erros e não têm a capacidade de se atualizar conforme
as mudanças nas fontes de dados. O Amazon Redshift integra-se
perfeitamente a bancos de dados, ML e sistemas de análise da AWS
para conectar o usuário a qualquer quantidade de dados de várias
fontes ao mecanismo de análise SQL, a fim de fazer análises rápidas e
avançadas que gerem insights de negócios. O Amazon S3 permite que as
organizações armazenem os dados usando formatos de dados de padrões
abertos, evitando aprisionamento a formatos de dados ou abordagens de
análises proprietárias. Armazenar os dados dessa forma facilita o uso dos
dados com qualquer serviço de análises ou ML. Isso também elimina a
necessidade de transferir, transformar ou reformatar desnecessariamente
os dados para conseguir extrair valor deles.

9
Flexibilidade:
acesse os dados no local ou os processe
de forma fácil

O Amazon Redshift é eficiente ao estender suas


consultas aos dados do Amazon S3 usando consultas
federadas, o que facilita a extração de valor deles e o Relational Nonrelational
dimensionamento para petabytes ou mais. Com suporte databases databases
para o recurso de cópia automática do Amazon S3,
também é possível inserir arquivos do Amazon S3 em
um fluxo contínuo no sistema de armazenamento de
data warehouse automaticamente com um simples
comando SQL. As instâncias RA3 do Amazon Redshift
com armazenamento gerenciado viabilizam o pagamento
apenas pelo armazenamento gerenciado usado,
Big data Machine
oferecendo flexibilidade para escalar a infraestrutura de
processing learning
data warehouse com base na quantidade de dados usados DATA L AKE
diariamente. Já com o Amazon Redshift sem servidor, o
data warehouse escala automaticamente para acomodar
a capacidade demandada pelas workloads. Além disso,
o Amazon Redshift integra-se a serviços de dados de
streaming, como o Amazon Kinesis Data Streams
(Amazon KDS) e fluxos do Amazon Managed Streaming
for Apache Kafka (Amazon MSK) a fim de processar Log Data
facilmente dados de streaming e realizar análises em analytics warehousing
tempo real no data warehouse. Com a integração sem ETL
do Amazon Aurora, os dados de transação de qualquer
aplicação aparecem no Amazon Redshift para serem
analisados segundos depois de serem gravados no banco
de dados.

10
O Amazon Redshift proporciona
análise preditiva com integração
total ao Amazon SageMaker e
permite que cientistas e analistas de
dados apliquem o SQL habitual para
desenvolver e treinar ML diretamente Treinar
O Amazon SageMaker
do data warehouse. Não é necessário ajusta e treina
automaticamente
mover os dados entre o warehouse e o melhor modelo de ML

o serviço de ML, porque as inferências


Colete e carregue Amazon Redshift ML
podem acontecer internamente, dados em seu Analise dados e gere relatórios
data warehouse de alta performance
eliminando vários incômodos Criar Implantar Prever
associados a custos de treinamento Use o comando
“criar modelo”
O Amazon Redshift
implanta automaticamente
Use consultas SQL
para fazer previsões,
no SQL para criar o modelo de ML como projeção de
de ML, gerenciamento de dados e uso o modelo de ML no Amazon rotatividade, preços
Redshift e riscos
de computação adicional.

Equipes de análises2 Ganhos de produtividade2 Benefícios para o KPI de análises2

30% de aumento médio da produtividade Equipes de analistas de negócios 34% 71% de aumento na quantidade de recursos
adicionados anualmente
Equipes de business intelligence 33%
62% de aumento no volume de consultas
Equipes de engenheiros de análises 29%
27% de aceleração da entrega de relatórios
Equipes de cientistas de dados 23% para áreas de atividade

Olofson, C., Marden, M., “Generating Business Value Through Efficient and Robust Use of Data with Amazon Redshift Cloud Data Warehousing Services,” IDC, outubro de 2021
11
2
Zynga dobra a performance de ETL

Desafio
A Zynga desenvolve alguns dos jogos on-line mais populares do mundo,
incluindo Words With Friends, Zynga Poker e FarmVille, que são jogados por mais
de 70 milhões de usuários por mês. A empresa utiliza análises para determinar
o nível de conexão de um jogo com os usuários finais, o que apoia a missão
da empresa. A Zynga precisava de um parceiro para ajudá-la a entender como
atender às necessidades de cada jogo e escalar para diversos estágios de adoção.

Solução
Ao migrar seu data warehouse para o Amazon Redshift, a Zynga obteve melhoria
significativa de performance e conseguiu escalar o processamento para terabytes
por dia com compreensão da experiência dos jogadores para otimização.

Resultados
• Melhoria da experiência de jogo: jogos mais sociais, interativos e divertidos
• Performance de ETL consistentemente em dobro
• Dimensionamento fácil para processar mais de 5,3 terabytes de dados de jogo
gerados por dia

12
Jobcase recomenda conteúdo de pesquisa 10 M
de empregos em grande escala de indicações de vagas para
membros ativos

Desafio
A Jobcase conecta milhões de pessoas a oportunidades de emprego, empresas e 5% a 10%
outros recursos relevantes diariamente. O sistema de recomendação aplica modelos de melhoria no engajamento dos
de ML a conjuntos de dados muito grandes, mas os dados e os modelos de ML não membros
eram colocados nos mesmos clusters de computação, o que exigia que a equipe de
TI movesse grandes quantidades de dados pelas redes e criasse pipelines de dados.
O problema de colocação de dados/modelos criava um gargalo para os cientistas de
dados realizarem experimentos rápidos e gerarem valor comercial. Bilhões
de previsões em minutos
Solução
Usando o recurso de inferência local no banco de dados oferecido pelo Amazon
Redshift ML, a Jobcase consegue realizar inferência de modelo em bilhões de
registros em questão de minutos diretamente no data warehouse do Amazon
Redshift. O Amazon Redshift ML permite que a Jobcase agregue classes de modelos
de ponta com recursos de inferência local do banco de dados diretamente no
Amazon Redshift e aumente em grande escala a capacidade expressiva dos modelos.

Resultados
• Gera indicações de vagas de forma efetiva para mais de dez milhões de membros
ativos diariamente
• Executa bilhões de previsões baseadas em ML em questão de minutos
• Economiza gastos com frameworks e computação externas para ML com recurso
de inferência local no banco de dados
• Melhoria de 5% a 10% no engajamento dos membros, o que aumentou a receita

13
Democratize a análise para uma
ampla base de usuários

A facilidade de uso para toda a organização é um aspecto fundamental para data


warehouses modernos. A produtividade importa. Investimos muito em automação e
recursos prontos para serem usados a fim de “desafogar” o trabalho intenso diário que
atrasa a sua organização.

Amazon Redshift com tecnologia sem servidor


Você se concentra nos insights enquanto nós cuidamos do restante.
O Amazon Redshift oferece uma opção de tecnologia sem servidor
baseada em algoritmos, a qual facilita a execução e o dimensionamento
de análises em questão de segundos sem precisar configurar e gerenciar
a infraestrutura do data warehouse.

Cada vez mais, à medida que as workloads de data warehouses se tornam


essenciais à missão e variáveis com picos e tempos de inatividade, e com
o aumento da diversidade de usuários dentro das empresas, sabemos
que você busca uma experiência de análise mais simples e com menos
intervenção. Desenvolvedores, cientistas e analistas de dados não querem
ter que provisionar clusters, gerenciar variabilidade e otimizar o data
warehouse. Não é esse o forte deles. Eles querem carregar dados, iniciar
consultas usando o novo Editor de Consultas do Amazon Redshift e coletar
insights para proporcionar experiências melhores aos clientes. A opção
com tecnologia sem servidor do Amazon Redshift facilita a execução e
o dimensionamento das análises sem exigir nenhuma administração da
sua parte. Essa solução provisiona e escala automaticamente os recursos
de computação subjacentes para fornecer alta performance a workloads
exigentes e imprevisíveis, e você paga somente pelos recursos usados.

14
Automação para facilitar o uso
A automação facilita a análise de dados. Por exemplo,
o Gerenciamento Automático de Workloads (WLM) “Ao adotar o Auto WLM [do Amazon Redshift], a
do Amazon Redshift com simultaneidade adaptativa throughput do nosso cluster do Amazon Redshift
usa ML para prever a utilização de recursos e o tempo
aumentou em pelo menos 15% na mesma pegada
de execução de cada consulta. Funciona prevendo e
alocando de maneira dinâmica a quantia necessária de
de hardware. Nossa simultaneidade média
memória para execução ideal sem nenhum investimento cresceu 20%, possibilitando aumento de cerca
e esforço. de 15 mil consultas por semana. Tudo isso com
impacto mínimo sobre o restante dos buckets
A Electronic Arts Inc., líder global em entretenimento
interativo e digital, obteve benefícios imediatos com o
de consultas ou clientes. Como o Auto WLM [do
WLM automático do Amazon Redshift ao coletar insights Amazon Redshift] removeu as partições rígidas
de clientes. de recursos, nós atingimos throughput mais alto
durante períodos de pico, entregando os dados
Outro exemplo de automação é um recurso de autoajuste
da performance chamado de otimização automática de com antecedência aos nossos estúdios de jogos.”
tabelas (ATO), que ajuda a atingir a melhor performance
Alex Ignatius
possível sem esforço manual. O ATO usa ML para otimizar
diretor de engenharia de análise e arquitetura
a performance da workload, sem nenhuma intervenção
EA Digital Platform
necessária.

O Amazon Redshift permite que você acesse e


analise os dados sem se preocupar com tarefas como
provisionamento de hardware, aplicação de correções de
software, configuração ou backups. Ele dimensiona os
recursos subjacentes, possibilitando que você otimize sua
utilização de recursos e pague somente pelo que usar.

15
Compartilhamento de dados e colaboração
Em um modelo tradicional de análise de dados, sua equipe segue um Você pode acessar dados compartilhados em sua organização e
processo incômodo que inclui descarregar arquivos manualmente de encontrar, assinar e consultar conjuntos de dados de terceiros por
um sistema e copiá-los para outro. Esse sistema não consegue oferecer meio da integração com o AWS Data Exchange. Isso pode ser feito
visualizações atualizadas dos dados porque o processo manual em questão de minutos, reduzindo semanas e meses do tempo
introduz atrasos e inconsistências de dados. necessário para extrair e carregar os dados, resolver contratos com
os provedores de dados e configurar recursos comerciais. Mais uma
O compartilhamento de dados do Amazon Redshift oferece acesso vez, a AWS cuida disso para você ao licenciar seus dados de maneira
instantâneo, granular e rápido sem copiar dados. Você consegue simples no Amazon Redshift pelo AWS Data Exchange, onde o acesso
consultar dados em tempo real constantemente, atualizar visualizações é concedido automaticamente quando um cliente assina seus dados
entre todas as organizações, clientes, parceiros e outros terceiros. e é automaticamente revogado quando a assinatura termina; as
O Amazon Redshift compartilha os dados com segurança e permite faturas são geradas automaticamente e os pagamentos são coletados
colaboração controlada com acesso refinado de bancos de dados, e desembolsados automaticamente por meio da AWS. Esse recurso
tabelas, visualizações e funções definidas pelo usuário. A execução de possibilita consultar, analisar e desenvolver aplicações com dados de
cada workload é independente, permitindo que os administradores terceiros.
cobrem os grupos com base no uso. Isso permite que você compartilhe
dados em tempo real de maneira segura com as mesmas contas da
AWS, ou contas diferentes, enquanto acompanha o uso e mantém
o controle dos conjuntos de dados.

Read shared data

Producer Consumer
cluster cluster

Leader node Leader node

Read and write


private data Amazon Redshift
Managed storage
Compute nodes Compute nodes

16
Proporcione a velocidade que
acompanha o ritmo dos negócios
“A missão da FOX Corporation é oferecer a milhões
Para se manter à frente da concorrência, é necessária performance líder de espectadores o simples prazer de deixar-se
do setor. Sua organização precisa de acesso rápido aos dados para tomar levar por uma história na tela. Temos audiências
decisões e realizar BI. globais que consomem conteúdo inédito sobre
O Amazon Redshift oferece relação preço/performance líder para diversas
notícias, esportes e entretenimento, e os dados
workloads de análises, seja para painéis, desenvolvimento de aplicações, estão no centro de tudo que fazemos. O Amazon
compartilhamento de dados ou trabalhos de ETL. Com dezenas de milhares Redshift permite a análise de petabytes de
de clientes executando análises de terabytes a petabytes de dados, dados estruturados e semiestruturados em nosso
o Amazon Redshift prioriza o uso de telemetria de performance em
data warehouse, banco de dados operacional
nossa grande base de clientes para otimizar a performance de workloads
de clientes do mundo real, como consultas de alta simultaneidade e
e data lake do Amazon S3 para descoberta,
baixa latência. O Amazon Redshift é um sistema de autoaprendizagem e análise e acionamento de decisões orientadas
autoajuste que oferece preço/performance até cinco vezes melhor do que por dados e insights poderosos. À medida que
outros data warehouses na nuvem, bem como preço/performance até sete nossos dados em escala de petabytes continuam
vezes melhor do que em workloads de alta simultaneidade e baixa latência,
crescendo rapidamente, estamos testando o
como as de painel, que são as mais populares. Mantenha a performance
AQUA para [Amazon] Redshift a fim de obter
das suas workloads de dados consistentemente alta com a arquitetura de
processamento massivamente paralelo (MPP), separação de armazenamento melhor performance para nossas consultas
e computação, escalabilidade simultânea, técnicas de melhoria de analíticas mantendo os custos no mesmo patamar.
performance lideradas por ML, como aceleração de consulta curta, Percebemos que o AQUA para Amazon Redshift
visões materializadas automatizadas (AutoMVs), verificações vetorizadas,
está melhorando a performance de algumas
WLM automático, e ATO, dentre outros. Acesse essas inovações sem custo
consultas analíticas exponencialmente e isso é
adicional.
um exemplo de como estamos usando o que há
de mais recente na tecnologia para oferecer uma
experiência mais personalizada, seleta e oportuna
aos nossos espectadores.”

Alex Tverdohleb
vice-presidente de serviços de dados, FOX Corporation
17
O Amazon Redshift permite que você ofereça suporte a quantidades praticamente
ilimitadas de usuários e consultas simultâneas com alta performance consistente. Permite
que você realize análise de streaming em tempo real ao processar altos volumes de dados
de várias fontes simultaneamente. Para proporcionar a melhor experiência possível aos
clientes, oferecemos uma hora de escalabilidade simultânea gratuita por dia.

Query Throughput for Short Queries (Higher is better)


(Using 10GB benchmark derived from TPC-DS)

60,000

45,000
Queries Processed / Hour

30,000

15,000

0
0 10 20 30 40 50

Concurrent queries

Amazon Redshift Competitor A Competitor B Competitor C

18
GE Renewable Energy aumenta a produção de energia eólica

Desafio Resultados
As turbinas eólicas atuais da GE Renewable Energy utilizam recursos digitais sofisticados • Aumento de até 20% na produção
para coletar dados, executar diagnósticos, monitorar a produção e otimizar a turbina de energia
durante a operação. A GE precisava coletar, monitorar, analisar e agir com base em • Possibilita que os engenheiros
todos esses dados de turbinas, em qualquer parte do mundo. monitorem os dados virtualmente
em todo o parque eólico ou em cada
turbina
Solução • Oferece suporte a acesso e cobertura
Usando os serviços da AWS, a GE criou um data lake no qual coleta e analisa dados de global com a nuvem mais segura do
máquinas capturados nas turbinas eólicas da GE espalhadas pelo mundo todo. A GE mundo
utiliza o Amazon S3 para armazenar e proteger seu conjunto cada vez maior de dados
de turbinas eólicas e o Amazon Redshift para obter novos insights dos dados coletados.
Esses serviços também oferecem uma base para o desenvolvimento de recursos de IA e
ML no futuro.

Relatórios climáticos, trajetos em mapas, tweets com posições O Amazon Redshift permite que você consulte dados espaciais com
geográficas, locais de armazenamento e rotas aéreas dependem de facilidade, não importa se os dados representam objetos geométricos
dados geométricos (espaciais) para representar recursos geográficos. simples, como pontos, linhas e polígonos, ou estruturas mais
Os dados espaciais desempenham um papel importante para análises, complexas, como objetos 3D, coberturas topológicas, redes lineares
relatórios e previsões empresariais. e redes triangulares irregulares.

19
Atenda aos mais elevados padrões de
segurança, governança e confiabilidade
Com o Amazon Redshift, você pode gastar menos tempo se preocupando com a segurança
dos dados ou com o desenvolvimento de soluções personalizadas para monitoramento e
gerenciamento dos dados, e assim se concentrar na obtenção de insights para os negócios.
O Amazon Redshift oferece segurança de ponta com gerenciamento de identidades
e federação integradas para autenticação única (SSO), autenticação multifator (MFA),
controle de acesso na coluna, controle de acesso baseado em perfis e Amazon Virtual
Private Cloud (Amazon VPC).

Com o Amazon Redshift, seus dados são protegidos em trânsito e em repouso. Todos os
recursos de segurança do Amazon Redshift são oferecidos prontos para serem usados sem
nenhum custo adicional, com o intuito de satisfazer os requisitos de segurança, privacidade
e conformidade mais exigentes. Use o AWS Identity and Access Management (IAM) para
autenticar solicitações e aumentar a segurança dos recursos. O controle de acesso baseado
em perfis (RBAC), a segurança em nível de linha e coluna e o mascaramento dinâmico de
dados simplificam as permissões de segurança no Amazon Redshift e controlam os acessos
amplo e específico dos usuários finais aos dados com base em direitos de permissão e
sensibilidade de dados com comandos SQL. Os administradores de dados agora podem
simplificar a governança do compartilhamento de dados do Amazon Redshift com o
AWS Lake Formation para gerenciar de maneira centralizada os dados compartilhados na
organização. Isso oferece melhor visibilidade e controle dos dados compartilhados entre as
contas da organização.

“Como uma empresa orientada por dados, a United está tentando


criar uma experiência unificada de dados e análises para nossa
comunidade, que inovará e criará aplicativos modernos orientados
por dados.”

Ashok Srinivas, diretor de engenharia de ML, United Airlines


Sarang Bapat, diretor de engenharia de dados, United Airlines

20
Conclusão
Atualmente, os data warehouses na nuvem dentro de uma arquitetura de análise
moderna combinados com um data lake e armazenamentos de dados com propósito
específico estão mudando a maneira como implantamos análises em escala para
transformar nossos negócios e ambientes. Casos de uso comuns incluem análises de
mercado, análises baseadas em IA e ML, análises de segmentos (incluindo serviços
financeiros, jogos, empresas de software como serviço [SaaS] e saúde), bem como
análises em tempo real. À medida que você embarca em sua jornada de análise de big
data, busque um parceiro que ofereça a melhor relação preço/performance do setor,
amplitude de automação, roteiro com foco em inovação contínua, integrações com
serviços de nuvem complementares e ecossistema robusto para inovação.

Saiba mais sobre o Amazon Redshift ›

© 2023, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.
21

You might also like