Professional Documents
Culture Documents
Material Data Mining
Material Data Mining
Data Mining
Roteiro de
Estudos
Autor: Ma. Amanda de Britto Murtinho
Revisor: Amanda de Britto Murtinho
Introdução
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 1/14
12/02/2022 16:18 Roteiro de Estudos
Novas profissões começaram a ganhar destaque com o aumento e a velocidade com que as
informações são geradas, como o cientista de dados, o analista de BI – Business Intelligence – e o
engenheiro de dados. Essas profissões foram surgindo de forma a acompanhar a evolução da
internet e a forma como prestamos e recebemos produtos e serviços. Dentro disso, o que se
tornou conhecido como Big Data está cada vez mais influente e fazendo sentido em nossas
vidas, sendo que essas grandes inovações só foram possíveis pelo advento dos recursos de
coleta de dados combinados à rápida melhoria das tecnologias da computação.
Como exemplo dessa realidade, você pode localizar praticamente qualquer coisa usando um
mecanismo de pesquisa como o Google. Mas como o Google funciona? Os buscadores não
poderiam existir sem a capacidade de processar grandes quantidades de informação a uma
velocidade extremamente rápida e um software eficiente. E o mesmo acontece com a área de
comércio eletrônico, sendo a Amazon um clássico exemplo disso.
As pessoas podem comprar ou vender praticamente todos os tipos de produtos e serviços
diariamente em lojas virtuais como a Amazon. Frequentemente, os preços on-line são mais
baixos do que nas lojas tradicionais e o leque de opções é maior. Outra grande vantagem das
compras on-line é a possibilidade de fornecer análises de produtos e recomendações para
compras futuras – comentários de outros compradores podem fornecer informações
extremamente importantes que não estão disponíveis em uma descrição fornecida pelos
fabricantes. E esse tipo de recomendação que você vê nas timelines de uma rede social ou uma
indicação de série no Netflix são ativadas justamente por um recurso de Big Data.
Isso é feito por meio do uso de programas altamente sofisticados que analisam dados de
compras e/ou comportamento do usuário ao navegar em um site, identificando itens que
tendem a ser comprados ou os assuntos mais buscados pelos consumidores. Mas como isso
tudo se relaciona à mineração de dados e Big Data? Vamos entender essa relação.
Um site como o da Amazon, para funcionar, precisa processar enormes quantidades de
informação, algo que seria impensável há alguns anos, uma vez que exige um servidor capaz de
armazenar muitos gigas de dados e que consiga processar tudo isso de maneira rápida e
eficiente, além de conseguir transmitir as informações por uma rede veloz. Tudo isso só é
possível atualmente graças à rápida melhoria das tecnologias envolvidas. Voltando ao Big Data,
além dos mecanismos de pesquisa e do comércio eletrônico, a análise de dados está causando
um grande impacto em um número surpreendente de outras áreas que afetam nossa vida
diária, como as mídias sociais, sites de leilão, área da saúde e da educação, decisões políticas,
previsão do tempo, planejamento de viagens e finanças, entre outras. No primeiro capítulo, a
seguir, vamos entender melhor como essas informações que temos disponíveis se relacionam
com o processo de mineração de dados.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 2/14
12/02/2022 16:18 Roteiro de Estudos
A magnitude dos dados gerados, a rapidez com a qual os dados são gerados
constantemente e a diversidade deles formam o que é chamado de três Vs:
Volume, Velocidade e Variedade. Posteriormente, foram adicionados os
conceitos de Veracidade e Valor, passando a formar os cincos V’s do Big Data.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 3/14
12/02/2022 16:18 Roteiro de Estudos
Descrição da imagem: gráfico exibindo os 5 Vs ao redor de Big Data, cada qual com suas
características, sendo eles:Veracidade (relacionado à confiabilidade, autenticidade,
origem/reputação, responsabilidade e disponibilidade); Valor (relacionado a eventos
estatísticos, correlacionais e hipotéticos); Variedade (relacionado a dados estruturados, não
estruturados, de origem multimídia ou probabilística); Volume (que se dá na ordem de terabytes
e dados distribuídos em registros, transações, tabelas e arquivos); e, por fim, Velocidade (que
diz respeito ao Batch, à coleta em tempo real ou quase real, aos processos e ao streaming de
dados).
Desse modo, temos que a mineração de dados é uma das principais etapas do processo da
Ciência de Dados, que é uma forma de extrair conhecimento a partir de grandes conjuntos de
dados. Diferentes técnicas são associadas à mineração de dados, podendo envolver inteligência
artificial e aprendizado de máquina, e os procedimentos são sempre baseados em regras e
padrões de análise científica, de modo a obter resultados precisos e confiáveis que possam ser
aproveitados na tomada de decisões estratégicas, no gerenciamento de informações e no
controle de processos (FRACALANZA, 2009).
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 4/14
12/02/2022 16:18 Roteiro de Estudos
LIVRO
Big Data
Autor: Cezar Taurion
Editora: Brasport
Ano: 2019
Comentário: a partir da leitura dos capítulos 1, 2 e 3, páginas 31
a 54 do livro indicado, você irá aprofundar suas noções sobre
aplicações e importância da Era da Informação e do Big Data. Os
capítulos iniciais do livro, disponível no sistema da Biblioteca
Pearson da instituição, permite uma visão geral sobre aplicações
e impactos do Big Data na atualidade, de modo a ampliar o
entendimento do contexto que envolve o uso da mineração de
dados.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 5/14
12/02/2022 16:18 Roteiro de Estudos
seleção dos dados, o pré-processamento dos dados, a transformação dos dados, a mineração
dos dados e, por fim, a etapa de avaliação, conforme indica a Figura 2 (CAMILO; SILVA, 2009).
Descrição da imagem: gráfico ascendente que inicia em uma base de dados e depois passa por
seleção para chegar aos dados escolhidos; depois pela etapa de pré-processamento (onde são
obtidos os dados pré-processados); procedendo-se, em sequência, à transformação desses
dados (que ficam como transformados), à mineração de dados (com identificação de padrões)
e, por fim, à etapa de avaliação, que permite gerar conhecimento.
Por sua vez, a DDD (sigla para Data-Driven Decision-making), tomada de decisão com base nos
dados, utiliza a análise de dados para favorecer decisões mais assertivas
Já em relação à etapa de mineração de dados em si, há diferentes processos e técnicas
envolvidos. Um dos procedimentos adotados como padrão é o CRISP-DM (Cross-Industry
Standard Process of Data Mining, ou Processo Industrial Padrão de Mineração de Dados) que, de
acordo com Camilo e Silva(2009, p. 3), “[...] apesar de ser composto por fases, tem um fluxo
unidirecional [...]”, ou seja, que permite ir e voltar entre as fases. Esse ciclo envolve a fase de
entendimento e pesquisa dos dados, que se alternam coma fase de implantação e a de
preparação de dados, as quais, por sua vez, comunicam-se com as fases de avaliação e de
modelagem.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 6/14
12/02/2022 16:18 Roteiro de Estudos
LIVRO
Data mining
Autor: Ronaldo Goldschmidt
Ano: 2015
Editora: Grupo GEN
Comentário: a obra apresenta material teórico e formal, além
de experiências e orientações práticas reais sobre como
conduzir e executar aplicações na área da descoberta de
conhecimento em bases de dados (KDD). O livro aborda o
conteúdo como uma introdução aos conceitos fundamentais
necessários para se realizar o processo de KDD.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 7/14
12/02/2022 16:18 Roteiro de Estudos
fazem parte das diferentes tarefas ou objetivos assumidos pela mineração de dados. Nesse
sentido, Castro e Ferrari (2016, p. 28) afirmam que essas tarefas podem ser classificadas em
duas categorias:
a. descritivas: caracterizadas por dados e suas propriedades gerais; e
b. preditivas: caracterizadas por fazerem análise de inferência com os dados para prever
tendências.
Resumindo, as análises de estimação e de classificação estão incluídas no campo da predição: a
estimação trata de valores discretos, enquanto a classificação, de valores contínuos. Já a análise
preditiva ou exploratória utiliza conceitos da estatística, como medidas centrais e dispersão,
que possibilitam analisar as variáveis, sendo o desvio-padrão associado à medida de variância.
Caso se detecte fraude, o ponto que figurar fora da curva pode ser aquele que aponta para
uma atividade considerada incomum. Nesse sentido, os outliers são considerados dados
importantes e significativos,
A clustering é utilizada para identificar grupos de dados que obedecem a um padrão específico.
Já a classificação é utilizada para mapear os valores de um determinado conjunto de dados e a
deep learning é um recurso que serve para analisar aprendizado supervisionado ou não
supervisionado.
Para saber mais detalhes sobre análise descritiva de dados, predição por classificação e
estimação, clustering, análise por associação e detecção de anomalias, que são tarefas e/ou
possíveis objetivos da mineração de dados, leia o capítulo do livro indicado a seguir.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 8/14
12/02/2022 16:18 Roteiro de Estudos
LIVRO
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=Y… 9/14
12/02/2022 16:18 Roteiro de Estudos
As diferentes técnicas que podem ser combinadas durante a análise dos dados podem ser
conferidas na Figura 3.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=… 10/14
12/02/2022 16:18 Roteiro de Estudos
indicação de leitura a seguir, você poderá aprender sobre o modelo TAM, que é outro método
usado em mineração de dados.
LIVRO
Business intelligence
Autores: Giselly Santos Mendes e Andrew Schaedler
Ano: 2021
Editora: Intersaberes
Comentário: a obra aborda que, independentemente da ação
que realizamos (virtual ou não), tal ação gera dados valiosos
para diversas instituições. No âmbito corporativo, esses
elementos explicitam comportamentos de consumidores,
alocação de recursos, tendências de mercado e outros aspectos
que, se corretamente considerados, permitem que empresas
fundamentem suas ações, elevem lucros, reduzam custos e,
assim, sigam se desenvolvendo. Para tanto, é preciso
implementar práticas criativas, seguras e eficientes, como a
Business Intelligence (BI).
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=… 11/14
12/02/2022 16:18 Roteiro de Estudos
Contudo, com o aumento de volume dos bancos de dados, ficou praticamente impossível usar
esses mesmos recursos para a análise de dados - ainda mais que os dados não são
encontrados somente em formato estruturado, mas também dispersos como dados parcial ou
totalmente não estruturados. Diante disso, Marquesone (2017) aponta que foram
desenvolvidos novos algoritmos e frameworks específicos para a análise de dados, tais como o
Hadoop, a ferramenta Spark e a linguagem Python.
Rosa (2018, p. 13) analisa que:
O autor Taurion (2019)também explica que, para tratar dados frente à nova escala de volume,
variedade e velocidade do Big Data, foi necessário implementar novos modelos, como os
bancos de dados No SQL (que suportam imensos volumes de dados estruturados e não
estruturados), a exemplo dos softwares MongoDB e Neo4j, além de outras ferramentas
auxiliares para tratamento inicial e de visualização dedados, como o Microsoft Power BI. Esses
novos softwares, associados à computação em nuvem, trouxeram inovações sem precedentes
para a área da Ciência de Dados. A esse respeito, Taurion(2019, p. 100) afirma que o Hadoop é
uma tecnologia que se destaca no cenário de Big Data.
Você pode ler o Capítulo 7 do livro Big Data, de Cezar Taurion, que está disponível na Biblioteca
Pearson, para saber mais detalhes a respeito do Hadoop. Adicionalmente, indicamos a leitura
de um trecho do trabalho de dissertação abaixo, que aborda outras ferramentas utilizadas em
Data Mining.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=… 12/14
12/02/2022 16:18 Roteiro de Estudos
Conclusão
Como pudemos observar ao longo dos tópicos deste roteiro, a mineração de dados não é uma
área isolada da Ciência de Dados, e sim uma das etapas da busca de conhecimento a partir da
análise de dados nas grandes bases dos bancos conhecidos como Big Data. A mineração de
dados, assim, acaba se estendendo e sendo auxiliada por várias outras áreas, como
Engenharia, Sistemas de Informação, Matemática, Estatística, Visualização, Bancos de Dados e
Inteligência Artificial, sendo que as diferentes tarefas ou objetivos de análise da mineração de
dados irão definir com qual intensidade cada uma dessas áreas do conhecimento interferirá no
processo. Cabe ao profissional analista ter uma base de entendimento que cruze todas essas
informações e que tenha objetivos de análise claros e alinhados com os propósitos da
pesquisa, da empresa e/ou do negócio, de modo que seja possível determinar as melhores
técnicas e ferramentas que serão usadas durante a mineração dos dados.
Referências Bibliográficas
ANDERSON, A.; SEMMELROTH, D. Statistic for Big Data for dummies. New Jersey: John Wiley &
Sons, 2015.
CAMILO, C. O.; SILVA, J. C. da. Mineração de dados: conceitos, tarefas, métodos e
ferramentas. [Goiânia: UFMG,] 2009. Disponível em:
http://ww2.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf. Acesso
em: 20 jan. 2021.
CASTRO, L. N. de; FERRARI, D. G. Introdução à mineração de dados: conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2016. (Minha Biblioteca).
FRACALANZA, L. F. Mineração de dados voltada para recomendação no âmbito de
marketing de relacionamento. 2009. Dissertação (Mestrado em Informática) – Pontifícia
Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2009. Disponível em:
https://web.tecgraf.puc-rio.br/press/publication/Fracalanza2009/Fracalanza2009.pdf. Acesso
em: 26 jan. 2020.
GOLDSCHMIDT, R. Data mining. 2. ed. São Paulo: GEN, 2015.
MARQUESONE, R. de F. P. Big Data: técnicas e tecnologias para extração de valor dos dados.
São Paulo: Casa do Código, 2017.
MENDES, G. S.; SCHAEDLER, A. Business intelligence. Curitiba: InterSaberes, 2021.
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=… 13/14
12/02/2022 16:18 Roteiro de Estudos
https://student.ulife.com.br/ContentPlayer/Index?lc=EVKlMNngdN6YYO9h7MZORg%3d%3d&l=%2fq5gKG1QUnc0D49J79pFpg%3d%3d&cd=… 14/14