Professional Documents
Culture Documents
DSP - Data Science Pro
DSP - Data Science Pro
DS I - PANDAS
DS I - PANDAS
Definição de mercado
É o processo de exploração, manipulação e
análise dos dados para a descoberta e previsão
através da criação de hipóteses, testes e
validação com o objetivo de responder e/ou
fazer recomendações capazes de serem
diferenciais de negócio.
Rodando localmente
DS I - PANDAS Já que estamos rodado localmente, temos mais liberdade para executar
nossos códigos no editor de código de nossa preferência como:
VIM
AMBIENTES DE Emacs
Jupyter Notebook
EXECUÇÃO VS Code
PyCharm
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Jupyter Notebook
Caso prefira algum editor gráfico ao invés dos editores
de modo texto, há a alternativa do Jupyter Notebook que
roda numa janela do seu navegador e trabalha com
células, onde podemos escrever textos e códigos.
DS I - PANDAS
Tela do Jupyter
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Com isso você verá a seguinte tela
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
DS I - PANDAS
ctrl + enter alt + enter
01 02
roda a célula atual roda a célula atual e cria uma célula em branco
ctrl + m b OBS
05 ?
insere uma célula abaixo da célula corrente para mais atalhos, execute ctrl + m h
DS I - PANDAS
Sobre o Pandas
É uma biblioteca para manipualação de dados, sendo a mais
utilizada hoje em dia.
DS I - PANDAS
Sobre o Pandas
O Pandas é adequado para trabalhar com muitos tipos de dados:
Dados tabulares como uma tabela SQL ou uma planilha do excel
Dados de série temporal ordenadas ou não
Dados de matriz
Ou qualquer outro conjunto de dados observacionais ou estatísticos
Dica: Você pode ler dados de diversas fontes, como: dados de arquivos
CSV, planilhas EXCEL, tabelas SQL de arquivos HTML, arquivos JSON, entre
outros. Você consegue exportar dados nessas mesmas extensões
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Sobre o Pandas
DS I - PANDAS
Recomendamos sempre buscar ajuda na documentação oficial
da linguagem ou biblioteca que você esteja utilizando
IMPORTAÇÃO DICA: Utilize o sinal de ? para obter ajuda sobre uma determinada
DA BIBLIOTECA
função sem precisar sair do Google Colab. A ajuda será aberta no
canto da direita
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Series
As Series são estruturas unidimensionais e se assemelham as listas em
Python, mas apresentam algumas coisas a mais.
OBS: A diferença para a lista é que podemos criar algo que não remete
à posição.
OBS 2 : Os índices não precisam ser chaves (não precisam ser únicos),
ou seja, podem ter valores iguais para mais de uma linha. Quando
buscamos pelo índice, ele traz todos os elementos "apontados" por
aquele índice (Todas as linhas que têm referência daquele índice).
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Series
tipo: As Series possuem um tipo. Elas são derivadas
dos tipos do NUMPY (dtypes). Se não for definido o tipo,
o PANDAS infere a partir dos dados. O tipo pode ser
passado na criação pelo parâmetro dtype.
DS I - PANDAS
DS I - PANDAS
Exemplo 01
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Exemplo 02
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Exemplo 03
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Exemplo 04
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Exemplo 05
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
DataFrame
Os DataFrames são estruturas bidimensionais, uma coleção de Series
Imagine como se fosse uma planilha Excel, mas com Super Poderes.
Principais características:
dados: São provenientes de uma lista, conjunto, dicionário ou da
importação de um dos mais diversos tipos de formatos suportados pelo
PANDAS.
tipos: Se cada coluna é uma Series PANDAS, cada coluna pode ter um
tipo diferente. Elas são derivadas dos tipos do NUMPY (dtypes) ou tipos
básicos do Python. Se não definirmos o tipo, o PANDAS infere a partir dos
dados.
DS I - PANDAS
DataFrame
Os valores em um DataFrame podem ser importados ou incluídos na
criação
DS I - PANDAS
DataFrame
DataFrame.values
DataFrame.index
DataFrame.columns
DataFrame.dtypes
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Exemplo 01
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
EXEMPLO 02
DS I - PANDAS
Exemplo 03
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
pd.read_csv?
Após a importação da biblioteca PANDAS, precisamos importar o nosso
dataset.
Dataset: Conjunto de dados que vamos trabalhar.
Neste caso, nosso dataset está no formato CSV, portanto, vamos utilizar a
função read_csv( ) para ler e carregar nosso dataset.
OBS: Perceba que utilizamos o r antes da string (Raw String). Dessa forma
estamos dizendo ao Python para tratar a string de forma "crua", sem
interpretar nada dentro dela. Você pode carregar seu dataset sem o r string,
entretanto, é recomendado.
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
filepath_or_buffer sep
01 02
O caminho do seu arquivo csv O separador do seu arquivo csv, ex: vírgula ou ponto e vírgula
encoding parse_dates
03 Codificação para lidar com diferentes idiomas pelo mundo,
04
Converte uma coluna do DataFrame para o tipo data
pesquise por "codecs python" para obter uma lista deles.
date_format OBS
05 ? Os três parâmetros mais importantes são o filepath, sep
Formata um tipo date, por exemplo: %Y%m%d
e o encoding
DS I - PANDAS
DS I - PANDAS
Importando o dataset
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
.head(num_linhas) .tail(num_linhas)
01 retorna as primeiras linhas do DataFrame, por default, a 02 retorna as últimas linhas do DataFrame, por default, a função
função retorna as primeiras 5 linhas retorna as últimas 5 linhas
.info() .columns
03 Retorna informações sobre as colunas do DataFrame, como:
04
Os nomes das colunas, quantas linhas não nulas, etc Retorna uma lista com os nomes das colunas do DataFrame
.describe() OBS
05 Retorna algumas informações numéricas e estatísticas
? O PANDAS nos dá muitos métodos para coletar
sobre determinada coluna (Series) informações sobre os dados, explore mais métodos.
DS I - PANDAS
.head(num_linhas)
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
.tail(num_linhas)
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
.info()
Este método retorna nformações sobre as colunas.
#: O index da coluna
DS I - PANDAS
.columns
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
.describe()
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
.describe
std: Mostra o devio padrão, lembrando que esse dado faz sentido
apenas em colunas do tipo numérico
DS I - PANDAS
.describe em Séries de string
DS I - PANDAS
downcast
AULA 01 | DATA SCIENCE PRO
DS I - PANDAS
Downcast