You are on page 1of 13

O que aprender para se tornar um

Cientista de Dados

1. Bem-Vindo
Bem-Vindo! Então você quer se tornar um Cientista de Dados?
Parabéns! Você está fazendo uma excelente escolha, que vai
garantir alta empregabilidade pelas próximas décadas. Mas eu
preciso te contar uma coisa:

Se tornar Cientista de Dados requer esforço e dedicação. A


recompensa será grande. Mas antes dela vir, você precisa
dedicar seu tempo em aprender e praticar a arte da Ciência de
Dados.

Esse guia é uma lista objetiva do que você precisa aprender. É


preciso aprender tudo que está aqui? Definitivamente não!
Mas suas habilidades como Cientista de Dados serão cada vez
melhores, à medida que você aprende mais técnicas e métodos
de como analisar os dados. Esse processo de aprendizado, não é
uma corrida de 100 metros rasos. É uma maratona de 42
Quilômetros. Em alguns momentos pode doer, em outros você
pode querer desistir, mas somente aqueles que chegarem até o
final, poderão receber as recompensas.

E poderia dizer mais. Seu aprendizado nunca vai terminar. Se


você é um “Lifetime learner”, ou seja, gosta de aprender por
prazer, Cientista de Dados será a profissão certa para você!

2. Estatística
Pelo menos um conhecimento básico de estatística é vital como
um Cientista de Dados. Não tente tornar o caminho mais curto,
pulando o aprendizado de Estatística. Você nunca será um bom
Cientista de Dados, se não compreender os conceitos
estatísticos e souber usá-los adequadamente. Por exemplo, seu
chefe pode pedir-lhe para executar um teste A/B e a
compreensão de estatísticas vai ajudar você interpretar os dados
que você coletou.

Você deve estar familiarizado com testes de estatística,


distribuições, amostragem, etc. Um dos mais importantes
aspectos do seu conhecimento de estatística será compreender
as diferenças entre as técnicas e quando utilizar cada uma.

2.1. Estatística Descritiva e


Inferencial
Um dos conceitos mais importantes na Estatística é o de
amostragem. Medir e analisar uma população inteira é inviável
e caro, na maioria das vezes. Por isso, o conceito de
amostragem nos permite recolher quaisquer dados, que são
muitas vezes apenas um subconjunto de todos os possíveis
dados que poderiam ser recolhidos sobre o assunto. Os dados
recolhidos, neste caso são conhecidos como amostra e o espaço
maior a partir do qual são retiradas as amostras é normalmente
chamado de uma população.

As medidas quantitativas que descrevem propriedades de uma


amostra são referidas como estatística descritiva - eles
descrevem os dados em mãos de uma forma compacta e útil.
Entretanto, muitas vezes desejamos inferir propriedades da
população maior apenas analisando a amostra - estas medidas
preditivas são conhecidas como estatística inferencial.

2.2. Conceitos Estatísticos


Aqui uma lista de conceitos estatísticos que você precisa
compreender muito bem:
 Média, mediana e moda
 Distribuição de dados (normal, exponencial/Poisson,
binomial, qui-quadrado)
 Desvio padrão e variância
 Testes de Hipótese
 Testes de Significância (teste z, teste t, qui-quadrado,
ANOVA)

2.3. Design de Experimentos


Definir corretamente um experimento, ajuda a garantir que as
conclusões que podemos tirar dos resultados observados, não
sejam enganosos. O delineamento experimental é o processo
sistemático de escolher diferentes parâmetros que podem afetar
uma experiência, a fim de obter resultado válido e significativo.
Isto pode incluir a decisão de quantas amostras precisam ser
recolhidas, como diferentes fatores devem ser intercalados,
efeitos da ordenação, etc. termos formais usados para descrever
experiências são úteis em forma sucinta e inequivocamente
transmitir parâmetros de projeto.
 Teste A / B
 Controlando as variáveis e escolher um bom controle e
teste de grupos
 Tamanho da amostra e lei de potência
 Teste de hipóteses
 Nível de confiança
 Experimentos inteligentes: específicos, mensuráveis,
realistas

2.4. Sugestão de Treinamentos


Desenvolvemos aqui na Data Science Academy, treinamentos
focados nas necessidades da Ciência de Dados. O curso de
Análise Estatística de Dados, aborda desde os conceitos
básicos, até os testes de hipótese. Tudo com exemplos práticos
no Excel e SPSS. Além disso, teremos um treinamento
avançado em Estatística Inferencial.
3. Matemática
Achou que iria fugir da Matemática? Na verdade, você não
deveria tentar fugir da Matemática, pois ela é uma das ciências
mais importantes da humanidade. E com a Ciência de Dados
não poderia ser diferente. Em um nível básico, você deve estar
confortável pelo menos com a álgebra. Especificamente, você
deve ser capaz de traduzir problemas de palavras em expressões
matemáticas, manipular expressões algébricas e resolver
equações e gráficos, diferentes tipos de funções e compreender
a relação entre o gráfico de uma função e sua equação.

4. Programação
Programação será uma parte integrante do seu trabalho diário.
Esta é uma habilidade fundamental que vai separá-lo de um
analista de negócios tradicional ou estatístico. Em qualquer
momento, pode ser necessário escrever programas para
consultar e recuperar dados a partir de bancos de dados ou
frameworks de Big Data, como o Hadoop e Spark. Ou pode ser
necessário escrever programas para executar seus algoritmos de
aprendizado de máquina em conjuntos de dados. Portanto, você
deve ser capaz de programar bem em uma ou mais linguagens
de programação e ter uma boa compreensão das bibliotecas e
pacotes mais comumente usados. Ambos Python e R são boas
linguagens de programação para começar devido sua
popularidade e apoio da comunidade.
4.1. Linguagem R
R é uma linguagem de programação de computadores, que é
usada para manipulação de dados estatísticos e gráficos. A
linguagem R é amplamente utilizada entre os estatísticos e
mineradores de dados para o desenvolvimento de software
estatístico e análise de dados. Pesquisas recentes mostram que a
popularidade do R tem aumentado substancialmente nos
últimos anos.
R está se tornando a língua padrão para a Ciência de Dados.
Isso não quer dizer que é a única linguagem ou que é a melhor
ferramenta para cada trabalho. É, no entanto, a mais
amplamente utilizada e está aumentando em popularidade. R é
gratuito.

Abaixo alguns dos principais pacotes de R para Data Science.

Pacote Descrição
ggplot2 Um sistema de plot para R para criação de gráficos
dplyr Um conjunto de ferramentas para manipulação de
datasets em R
ggally Combina plots em matrizes, com coordenação
paralela
stringr Manipulação de strings
zoo Time series
caret Machine Learning

4.2. Linguagem Python


Python é uma linguagem de programação que foi concebida no
final de 1980 e sua implementação foi iniciada em dezembro de
1989 por Guido van Rossum no CWI na Holanda. Van Rossum
é o principal autor do Python e que continua como líder nas
decisões que envolvem o futuro da linguagem. A exemplo da
linguagem R, Python é gratuito.

Python é uma linguagem de programação de uso geral que pode


fazer praticamente qualquer coisa que você precisa: coleta de
dados, engenharia de dados, análise, Web Scraping, construção
de aplicativos web e muito mais. É mais simples de dominar do
que R se você já aprendeu uma linguagem de programação
orientada a objetos como Java ou C ++. Além disso, como
Python é uma linguagem de programação orientada a objetos, é
mais fácil escrever em grande escala e com código robusto,
Abaixo alguns dos principais pacotes de Python para Data
Science.

Pacote Descrição
Numpy Pacote para computação científica
Pandas Suporte a estruturas de dados e ferramentas de
análise de dados
Matplotlib Visualização de Dados
Scipy Operações matemáticas
Scikit-learn Módulo Python para Machine Learning
iPython Ferramenta Python para programação através
do browser
anaconda Pacote de ferramentas do Python

4.3. R ou Python
Quando se trata de Ciência de Dados, uma pergunta sempre
vem à tona: R ou Python para análise de dados? Apesar de
existirem muitas outras possibilidades, estas duas linguagens
têm polarizado as discussões sobre que ferramentas utilizar para
análise. As duas linguagens são simples (e gratuitas) para
instalar e relativamente fáceis de começar a usar. Se você está
começando sua jornada no mundo da Ciência de Dados e não
tem experiência com programação em geral, faz sentido
aprender R ou Python primeiro.

Em geral, você não vai errar se optar por aprender Python ou R


para análise de dados. Cada linguagem tem seus prós e contras
em diferentes cenários e tarefas. Além disso, existem
bibliotecas para usar Python com R e vice-versa, de modo que
aprender uma não vai impedi-lo de aprender e usar a outra.
Talvez a melhor solução seja utilizar as orientações acima para
decidir qual das duas linguagens começar a aprender e em
seguida, fortalecer seu conjunto de habilidades aprendendo a
outra.
4.4. Sugestão de Treinamentos
Teremos 4 treinamentos disponíveis no Data Science Academy:

 Formação Cientista de Dados


 Formação Inteligência Artificial
 Formação Java
 Data Mining e Modelagem Preditiva

5. Machine Learning
Machine Learning (ou Aprendizado de Máquina) é uma das
tecnologias atuais mais fascinantes. Você provavelmente usa
algoritmos de aprendizado várias vezes por dia sem saber, ao
navegar pelo Google, marcar amigos em fotos do Facebook,
aplicar filtros de spam etc.

Machine Learning é um subcampo dentro de Inteligência


Artificial que constrói algoritmos que permitem que os
computadores possam aprender a executar tarefas a partir de
dados, ao invés de serem programados de forma explícita.

Aprendizagem de Máquina é incrivelmente poderoso se você


estiver trabalhando com grandes quantidades de dados e você
quiser fazer previsões ou sugestões com base nesses dados.
Você não vai precisar inventar novos algoritmos de aprendizado
de máquina, mas você deve conhecer os algoritmos mais
comuns de Machine Learning, de redução de dimensionalidade
às técnicas supervisionadas e não supervisionadas. Você não
precisa conhecer em detalhes a teoria ou implementação por
trás desses algoritmos. Mas você deve saber os pros e contras
destes algoritmos, bem como quando você deve (e não deve)
aplica-los. Abaixo uma lista de alguns dos principais algoritmos
de Machine Learning.

5.1. Aprendizagem Supervisionada


 Árvores de Decisão
 Classificação Naive Bayes
 Regressão
 Regressão Least Square
 Redes Neurais
 Support Vector Machines
 Ensemble methods

5.2. Aprendizagem Não-


Supervisionada
 Clustering
 Principal Component Analysis
 Singular Value Decomposition
 Independent Component Analysis

5.3. Reinforcement Learning


 Q-Learning
 TD-Learning
 Generic Algorithms

5.4. Sugestão de Treinamentos


Machine Learning é um tema avançado e o que diferencia Data
Science de outros modelos de análise de dados. Para isso,
criamos o primeiro treinamento do Brasil, 100% em português,
focado exclusivamente em Machine Learning.

6. Bancos de Dados
A parte menos célebre de fazer Ciência de Dados é a coleta e
limpeza de dados. Este processo é conhecido como "Data
Wrangling" ou "Data Munging" na comunidade científica de
dados. Embora não seja tão glamorosa como a construção de
modelos de aprendizado de máquina, limpeza e transformação
de dados é uma tarefa que pode consumir de 50 a 80% do
tempo de um Cientistas de Dados.

Devido a isso, é muito importante saber como lidar com as


imperfeições nos dados. A coleta e armazenamento serão parte
fundamental do processo. O conhecimento de banco de dados,
principalmente linguagem SQL, pode ser determinante para o
sucesso de projetos de Ciência de Dados.

6.1. Banco de Dados


O que é importante aprender em Banco de Dados:
 Sistemas de Bancos de Dados SQL (Oracle, SQL Server,
PostgreSQL, MySQL)
 Sistemas de Bancos de Dados No-SQL (MongoDB,
Apache Cassandra)
 Linguagem SQL

7. Big Data Framework


7.1. Hadoop
Hadoop é um framework open-source para armazenamento de
dados e execução de aplicações em clusters de hardware de
baixo custo. Ele fornece armazenamento para qualquer tipo de
dados, incrível poder de processamento e capacidade de lidar
com tarefas ou trabalhos simultâneos praticamente ilimitados.
Podemos também definir Hadoop como a estrutura de software
que fornece as ferramentas necessárias para realizar uma análise
de Big Data.

O Hadoop acaba de completar 10 anos de existência, mas


somente agora com a popularização do Big Data e a
necessidade de soluções robustas para processamento de dados,
o Hadoop vai ganhando o mercado.
O Hadoop é um software livre e, portanto, pode ser
implementado sem custo de licenciamento. Mas Hadoop não é
uma tecnologia simples. Existem diversas distribuições Hadoop
no mercado atualmente.

 Cloudera
 Amazon Web Services
 Hortonworks
 MapR
 IBM
 Microsoft HDInisght
 Teradata Enterprise for Hadoop

7.2. Spark
O Spark é um framework para processamento de Big Data
construído com foco em velocidade, facilidade de uso e análises
sofisticadas. Está sendo desenvolvido desde 2009 pelo
AMPLab da Universidade de Califórnia em Berkeley e em 2010
seu código foi aberto como projeto da fundação Apache.

O Spark tem muitas vantagens se comparado as outras


tecnologias de Big Data e do paradigma MapReduce, como o
Hadoop e o Storm. O Spark oferece um framework unificado e
de fácil compreensão para gerenciar e processar Big Data com
uma variedade de conjuntos de dados de diversas naturezas
(texto, grafos, etc), bem como de diferentes origens (batch ou
streaming de dados em tempo real).

7.3. Sugestão de Treinamentos


Criamos alguns treinamentos que visam o aprendizado
detalhado de Frameworks de Big Data:

 Engenharia de Dados com Hadoop e Spark


 Formação Engenheiro de Dados
8. Comunicação e
Visualização de Dados
Como Cientista de Dados, o seu trabalho é não só interpretar os
dados, mas também efetivamente comunicar as suas conclusões
para outras partes interessadas, para que eles possam fazer
escolhas e tomar decisões baseadas por dados. Muitas partes
interessadas não vão estar interessados nos detalhes técnicos
por trás da sua análise. É por isso que é muito importante para
você ser capaz de comunicar e apresentar suas descobertas em
uma maneira que seja fácil de entender para o seu público, seja
ele técnico e não técnico. Ele pode ser extremamente útil para
estar familiarizado com as ferramentas de visualização como
ggplot, matplotlib, Seaborn e d3.js. É importante não apenas
estar familiarizado com as ferramentas necessárias para
visualizar dados, mas também os princípios atrás de codificação
visual de dados e comunicação de informações.
8.1. Sugestão de Treinamentos na
Data Science Academy
 Visualização de Dados com D3.js
 Data Science com Tableau
 Microsoft Power BI

9. Soluções Comerciais
Apesar de ser totalmente possível implementar soluções
completas de Data Science e Big Data, utilizando apenas
software livre, grandes empresas vão optar por utilizar soluções
comerciais, seja por razões de suporte, segurança ou políticas
internas. É bem provável que o Cientista de Dados tenha que
usar diferentes soluções, dependendo do tamanho e
complexidade do projeto.
Existem diversos pacotes comerciais para Data Science e Big
Data e a lista abaixo traz algumas das principais.

9.1. SAS
http://www.sas.com/pt_br/home.html

A SAS é uma das empresas líderes no mercado de Big Data


Analytics. A empresa possui diversas soluções e produtos desde
gestão de dados, até análise preditiva para detecção de fraudes e
crimes financeiros.

9.2. Microsoft
https://powerbi.microsoft.com/pt-br

A Microsoft tem investido pesado em Ciência de Dados e Big


Data e uma das principais soluções da empresa, é o Microsoft
Power BI. Como toda solução Microsoft, eles se concentraram
em tirar da frente do usuário a parte complexa do processo, o
que reduz um pouco a capacidade de configuração. Mas em
termos de visualização de dados, é uma ferramenta bem
robusta.

9.3. Cloudera
http://www.cloudera.com

A mais famosa solução Hadoop do mercado para Big Data


Analytics. A Cloudera utiliza software livre na sua solução, mas
fornece suporte e governança de dados.

9.4. Tableau
http://www.tableau.com

Como você já sabe, a visualização de dados é um dos pontos


mais importantes do trabalho do Cientista de Dados e como o
trabalho de coleta, limpeza e análise por vezes consome muito
tempo, a utilização de uma solução comercial como o Tableau
para criar visualizações poderosas, pode ajudar a reduzir o
tempo total de um projeto de Data Science e Big Data.

10. Conclusão
Este guia não tem a pretensão de ser definitivo. O universo de
Data Science e Big Data é imenso e não para de crescer. Novas
soluções surgem a todo momento e o desafio do profissional de
dados é estar atento a estas mudanças.

E não pense que você precisa aprender tudo. O importante é ser


capaz de conhecer as tecnologias, como aplicá-las e se adaptar.

Desejamos a você uma excelente e divertida caminhada no


mundo da Ciência de Dados.

Equipe Data Science Academy

www.datascienceacademy.com.br

You might also like