Professional Documents
Culture Documents
O Que Aprender para Se Tornar Um Cientista de Dados
O Que Aprender para Se Tornar Um Cientista de Dados
Cientista de Dados
1. Bem-Vindo
Bem-Vindo! Então você quer se tornar um Cientista de Dados?
Parabéns! Você está fazendo uma excelente escolha, que vai
garantir alta empregabilidade pelas próximas décadas. Mas eu
preciso te contar uma coisa:
2. Estatística
Pelo menos um conhecimento básico de estatística é vital como
um Cientista de Dados. Não tente tornar o caminho mais curto,
pulando o aprendizado de Estatística. Você nunca será um bom
Cientista de Dados, se não compreender os conceitos
estatísticos e souber usá-los adequadamente. Por exemplo, seu
chefe pode pedir-lhe para executar um teste A/B e a
compreensão de estatísticas vai ajudar você interpretar os dados
que você coletou.
4. Programação
Programação será uma parte integrante do seu trabalho diário.
Esta é uma habilidade fundamental que vai separá-lo de um
analista de negócios tradicional ou estatístico. Em qualquer
momento, pode ser necessário escrever programas para
consultar e recuperar dados a partir de bancos de dados ou
frameworks de Big Data, como o Hadoop e Spark. Ou pode ser
necessário escrever programas para executar seus algoritmos de
aprendizado de máquina em conjuntos de dados. Portanto, você
deve ser capaz de programar bem em uma ou mais linguagens
de programação e ter uma boa compreensão das bibliotecas e
pacotes mais comumente usados. Ambos Python e R são boas
linguagens de programação para começar devido sua
popularidade e apoio da comunidade.
4.1. Linguagem R
R é uma linguagem de programação de computadores, que é
usada para manipulação de dados estatísticos e gráficos. A
linguagem R é amplamente utilizada entre os estatísticos e
mineradores de dados para o desenvolvimento de software
estatístico e análise de dados. Pesquisas recentes mostram que a
popularidade do R tem aumentado substancialmente nos
últimos anos.
R está se tornando a língua padrão para a Ciência de Dados.
Isso não quer dizer que é a única linguagem ou que é a melhor
ferramenta para cada trabalho. É, no entanto, a mais
amplamente utilizada e está aumentando em popularidade. R é
gratuito.
Pacote Descrição
ggplot2 Um sistema de plot para R para criação de gráficos
dplyr Um conjunto de ferramentas para manipulação de
datasets em R
ggally Combina plots em matrizes, com coordenação
paralela
stringr Manipulação de strings
zoo Time series
caret Machine Learning
Pacote Descrição
Numpy Pacote para computação científica
Pandas Suporte a estruturas de dados e ferramentas de
análise de dados
Matplotlib Visualização de Dados
Scipy Operações matemáticas
Scikit-learn Módulo Python para Machine Learning
iPython Ferramenta Python para programação através
do browser
anaconda Pacote de ferramentas do Python
4.3. R ou Python
Quando se trata de Ciência de Dados, uma pergunta sempre
vem à tona: R ou Python para análise de dados? Apesar de
existirem muitas outras possibilidades, estas duas linguagens
têm polarizado as discussões sobre que ferramentas utilizar para
análise. As duas linguagens são simples (e gratuitas) para
instalar e relativamente fáceis de começar a usar. Se você está
começando sua jornada no mundo da Ciência de Dados e não
tem experiência com programação em geral, faz sentido
aprender R ou Python primeiro.
5. Machine Learning
Machine Learning (ou Aprendizado de Máquina) é uma das
tecnologias atuais mais fascinantes. Você provavelmente usa
algoritmos de aprendizado várias vezes por dia sem saber, ao
navegar pelo Google, marcar amigos em fotos do Facebook,
aplicar filtros de spam etc.
6. Bancos de Dados
A parte menos célebre de fazer Ciência de Dados é a coleta e
limpeza de dados. Este processo é conhecido como "Data
Wrangling" ou "Data Munging" na comunidade científica de
dados. Embora não seja tão glamorosa como a construção de
modelos de aprendizado de máquina, limpeza e transformação
de dados é uma tarefa que pode consumir de 50 a 80% do
tempo de um Cientistas de Dados.
Cloudera
Amazon Web Services
Hortonworks
MapR
IBM
Microsoft HDInisght
Teradata Enterprise for Hadoop
7.2. Spark
O Spark é um framework para processamento de Big Data
construído com foco em velocidade, facilidade de uso e análises
sofisticadas. Está sendo desenvolvido desde 2009 pelo
AMPLab da Universidade de Califórnia em Berkeley e em 2010
seu código foi aberto como projeto da fundação Apache.
9. Soluções Comerciais
Apesar de ser totalmente possível implementar soluções
completas de Data Science e Big Data, utilizando apenas
software livre, grandes empresas vão optar por utilizar soluções
comerciais, seja por razões de suporte, segurança ou políticas
internas. É bem provável que o Cientista de Dados tenha que
usar diferentes soluções, dependendo do tamanho e
complexidade do projeto.
Existem diversos pacotes comerciais para Data Science e Big
Data e a lista abaixo traz algumas das principais.
9.1. SAS
http://www.sas.com/pt_br/home.html
9.2. Microsoft
https://powerbi.microsoft.com/pt-br
9.3. Cloudera
http://www.cloudera.com
9.4. Tableau
http://www.tableau.com
10. Conclusão
Este guia não tem a pretensão de ser definitivo. O universo de
Data Science e Big Data é imenso e não para de crescer. Novas
soluções surgem a todo momento e o desafio do profissional de
dados é estar atento a estas mudanças.
www.datascienceacademy.com.br