You are on page 1of 43

UNIO DAS INSTITUIES EDUCACIONAIS DO ESTADO DE SO PAULO

CURSO DE SISTEMA DE INFORMAES

APLICAO DE TCNICAS DE DATA MINING NA BOLSA DE VALORES

BRUNO DOS SANTOS GONALVES HAELITON PICELLI LEANDRO DOS SANTOS GONALVES MATEUS DA SILVA GERBONI

Hortolndia 2011

UNIO DAS INSTITUIES EDUCACIONAIS DO ESTADO DE SO PAULO

CURSO DE SISTEMA DE INFORMAES

APLICAO DE TCNICAS DE DATA MINING NA BOLSA DE VALORES

BRUNO DOS SANTOS GONALVES HAELITON PICELLI LEANDRO DOS SANTOS GONALVES MATEUS DA SILVA GERBONI

Hortolndia 2011
3

DEDICATRIA Dedicamos este trabalho a Deus, por sempre nos proporcionar f para nunca desistirmos e sade para sempre 4 continuar na caminhada.

AGRADECIMENTO Agradecemos aos professores,

profissionais que dedicaram seu tempo e disponibilizaram seus conhecimentos, aos colegas da faculdade, aos nossos familiares e amigos que nos apoiaram e acreditaram em nossa capacidade. 5

RESUMO
Este estudo tem como objetivo analisar o contedo proposto pelo processo de Minerao de Dados e a possibilidade da aplicao de suas tcnicas na Bolsa de Valores. tambm um objetivo apresentar conceitos bsicos que envolvem o processo de Data Mining. Nesse contexto, o presente texto pretende apresentar alguns desses conceitos sobre as tcnicas que envolvem a Minerao de Dados em grandes conjuntos de dados, alm de registrar algumas caractersticas de softwares especficos para Data Mining, aplicaes j realizadas com sucesso e o grau de dificuldade da aplicao desta tecnologia na Bolsa de Valores. A Minerao de Dados destaca-se como parte de um processo maior de pesquisa denominado Busca de Conhecimento em Banco de Dados (KDD), para qual apresentado sua metodologia para preparao e explorao dos dados, interpretao de seus resultados e assimilao dos conhecimentos minerados. Organizaes que tm como finalidade obter lucro, qualidade e tomar decises com rapidez, suportam grandes desafios por parte da gesto de negcios. Para superar estes desafios, h necessidade de tais organizaes aperfeioarem seus processos de tomada de deciso. A Minerao de Dados apresenta-se como auxlio para tal aperfeioamento.

Palavras-chave: Data Mining, Minerao de Dados, Bolsa de Valores, Busca de Conhecimento em Banco de Dados (KDD). 6

ABSTRACT
This study has how I aim to analyse the content proposed by the process of Mining of Data and the possibility of the application of his techniques in the Stock Exchange. It is also an objective to present basic concepts that wrap the process of Date Mining. In this context, the present text intends to present some of these concepts on the techniques that wrap the Mining of Data in great sets of data, besides registering some characteristics of softwares special for Date Mining, applications already carried out with success and the degree of difficulty of the application of this technology in the Stock Exchange. The Mining of Data stands out how part of a process bigger of inquiry called a Search of Knowledge in Database (KDD), for which his methodology is presented for preparation and exploration of the data, interpretation of his results and assimilation of the mined knowledges. Organizations that have like finality obtains profit, quality and to take decisions with speed, support great challenges for part of the business management. To surpass these challenges, there is need of such organizations they perfect his processes of taking decision. The Mining of Data presents itself a help for such an improvement.

Key-words: Data Mining, Data Mining, Stock Exchange, Knowledge Discovery in database (KDD). 7

LISTA DE ABREVIATURAS E SIGLAS


KDD SQL AAFES MTS MSC DB2 DWE Knowledge Discovery in database Structured Query Language Army and Air Force Exchange Service Microsoft Time Series Microsoft Sequence Clustering Database 2 Data Warehouse Edition

LISTA DE FIGURAS
FIGURA 1: ETAPAS DO PROCESSO KDD [4].....................................................16 FIGURA 2: FUNCIONALIDADES EM MINERAO DE DADOS [3].........................20 FIGURA 3: SUB-FUNCIONALIDADES DA ANLISE PRVIA [3]............................21 FIGURA 4: SUB-FUNCIONALIDADES DO DESCOBRIMENTO [3]...........................21 FIGURA 5: EXEMPLO DE UMA RVORE DE DECISO [6]....................................25 FIGURA 6: EXEMPLO DE RVORE DE DECISO SOBRE A TABELA 1 [2]..............32 FIGURA 7: JANELA DA FERRAMENTA DARWIN [2]............................................34 FIGURA 8: JANELA DA FERRAMENTA IBM INTELLIGENT MINER EXIBINDO UM GRFICO DE CLIENTES [2].............................................................................35 FIGURA 9: FLUXO DE MINERAO DE DADOS EM ANLISE DE EMPRSTIMO [2] 36 FIGURA 10: EVOLUO DAS COTAES DIRIAS PARA OS TTULOS DO NDICE NASDAQ PARA CADA DIA DA SEMANA [7].......................................................38 FIGURA 11: DISTRIBUIES DE DIVIDENDOS [7].............................................39 FIGURA 12: EXEMPLO DE APLICAO DE DATA MINING NA BOLSA DE VALORES [7]...............................................................................................................41

LISTA DE TABELAS
TABELA 1: TABELA EXEMPLO PARA RVORE DE DECISO [2]...........................31

10

LISTA DE QUADROS

QUADRO 1: FUNCIONALIDADES E SUAS TCNICAS [3].....................................24 QUADRO 2: DISTRIBUIO DA EVOLUO EM DUAS CLASSES (VALORIZAO E DESVALORIZAO) QUANDO NO DIA ANTERIOR ACONTECEU UMA VALORIZAO SUPERIOR A 15% [7].....................................................................................39 QUADRO 3: DISTRIBUIO DA EVOLUO EM DUAS CLASSES (VALORIZAO E DESVALORIZAO) QUANDO NO DIA ANTERIOR ACONTECEU UMA DESVALORIZAO SUPERIOR A 15% [7].........................................................40

11

SUMRIO
DEDICATRIA.................................................................................................4 DEDICATRIA.................................................................................................4 DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA CAMINHADA...................................................................................................4 DEDICAMOS ESTE TRABALHO A DEUS, POR SEMPRE NOS PROPORCIONAR F PARA NUNCA DESISTIRMOS E SADE PARA SEMPRE CONTINUAR NA CAMINHADA...................................................................................................4 AGRADECIMENTO ..........................................................................................5 AGRADECIMENTO ..........................................................................................5 INTRODUO...............................................................................................14 BUSCA DE CONHECIMENTO EM BANCO DE DADOS (KDD).................................16 ETAPAS DO PROCESSO DE KDD.................................................................................................16 Definio (Database)................................................................................................17 Seleo (Selection)...................................................................................................17 Limpeza de Dados e pr-processamento (Preprocessing).........................................17 Reduo de Dados e Projeo (Transformation).......................................................17 Minerao de Dados (Data Mining)...........................................................................17 Interpretao / Avaliao (Interpretation/Evaluation)...............................................17 Implantao do Conhecimento Descoberto (Knowledge)..........................................17 KDD E DATA MINING...........................................................................................................17 MINERAO DE DADOS (DATA MINING)..........................................................19 FUNCIONALIDADES.................................................................................................................19 Anlise Descritiva.....................................................................................................20 Anlise Prvia...........................................................................................................20
Descobrimento................................................................................................................... 21 Estimao 22 Predio 22 Classificao....................................................................................................................... 22

Anlise de Prognstico..............................................................................................22

TCNICAS PARA OBTENO DAS FUNCIONALIDADES.............................................................................22 Ferramentas de consulta e tcnicas de estatstica....................................................24 Anlise de vizinhana (K-nearest neighbor)..............................................................24 rvores de deciso....................................................................................................24 APLICAES EM DATA MINING......................................................................25 SEGMENTAO DE MERCADOS ..................................................................................................25 VAREJO.............................................................................................................................25 FINANAS..........................................................................................................................26 MARKETING........................................................................................................................26 SADE..............................................................................................................................26 OUTRAS APLICAES.............................................................................................................27 EXEMPLO DE APLICAES...............................................................................27 ARMY AND AIR FORCE EXCHANGE SERVICE (AAFES)......................................................................27 WAL-MART........................................................................................................................27 MASTERCARD.....................................................................................................................28 REVENDEDORA DE AUTOMVEIS.................................................................................................28 ALGORITMOS DE MINERAO DE DADOS .......................................................29 TIPO DE ALGORITMOS.............................................................................................................29 Algoritmos de Classificao......................................................................................29

12

Algoritmos de Regresso..........................................................................................29 Algoritmos de Segmentao.....................................................................................30 Algoritmos de Associao.........................................................................................30 Algoritmos de Anlise de Sequncias........................................................................30 APLICAO DOS ALGORITMOS....................................................................................................30 rvore de Deciso.....................................................................................................31 Algoritmo de Naive Bayes.........................................................................................32 Algoritmo de Cluster.................................................................................................32 ANLISE DE FERRAMENTAS...........................................................................33 ORACLE DARWIN DATA MINING SOFTWARE....................................................................................33 IBM INTELLIGENT MINER.........................................................................................................34 SAS ENTERPRISE MINER........................................................................................................35 DATA MINING NA BOLSA DE VALORES............................................................36 EXEMPLO PRTICO................................................................................................................37 ANLISE DOS DADOS.............................................................................................................37 Relao Entre a Evoluo das Cotaes Durante 1 Dia e o Dia da Semana .............37 Evoluo da Cotao nos Dias que Antecedem uma Distribuio de Dividendos......38 Evoluo da Cotao aps Grandes Valorizaes.....................................................39 Evoluo da Cotao aps Grandes Desvalorizaes................................................40 PROCESSO DE DATA MINING NA BOLSA DE VALORES.........................................................................40 CONCLUSO.................................................................................................41 REFERNCIA BIBLIOGRFICA.........................................................................42

13

INTRODUO Atualmente as organizaes tm demonstrado muita eficincia em capturar, organizar e armazenar grandes quantidades de dados. Dados estes obtidos em operaes dirias ou pesquisas cientificas. Porm, uma grande porcentagem destas organizaes ainda no utiliza adequadamente essa gigantesca quantidade de dados para transform-la em conhecimento que possa ter utilidade em suas prprias atividades. Eis que surge um conceito denominado Minerao de Dados (Data Mining) que est se tornando cada vez mais popular como uma ferramenta de descoberta de informaes. Data Mining ou Minerao de Dados uma ampla rea de pesquisa que inclui diversas tecnologias tais como banco de dados, recuperao da informao, inteligncia artificial, aprendizado de mquinas, computao de alto desempenho, redes neurais, estatstica, reconhecimento de padres e visualizao de dados. A Minerao de Dados teve inicio a partir de um momento em que profissionais de empresas e organizaes tomaram conta de que um grande contedo de dados informticos eram estocados e inutilizados dentro de suas empresas. No princpio, Data Mining consistia principalmente na extrao de informaes de gigantescas bases de dados da maneira mais automatizada possvel. Atualmente, Data Mining consiste tambm na anlise destes dados aps a extrao com objetivo de descobrir padres ou regras que permitam uma melhor compreenso das informaes. Afinal, o que Minerao de Dados? Falando simplesmente, trata-se de extrair ou minerar conhecimento de grandes volumes de dados. H diversas formas em que um projeto de Data Mining pode ser implementado em uma organizao: utilizando softwares especficos para Data Mining, contratando consultores externos capazes de coletar os dados e apresentar ao cliente final um relatrio pronto e completo destes dados ou at mesmo seguindo 14

com o processamento dos dados no prprio cliente, onde deve-se criar um ambiente em que o processo de Data Mining possa ser repetido e aprimorado inmeras vezes.
O sucesso de um projeto de data mining pode transformar o modo de atuao de uma empresa, passando de mero espectador a um ator no ambiente em que se encontra. A empresa passa a atuar proativamente, e no reativamente a situaes de mercado. [1]

A Minerao de Dados parte de um processo de pesquisa denominado Busca de Conhecimento em Banco de Dados (Knowledge Discovery in Database KDD), o qual possui um processo prprio de para preparao e explorao dos dados, interpretao de seus resultados e assimilao dos conhecimentos minerados.

15

BUSCA DE CONHECIMENTO EM BANCO DE DADOS (KDD) KDD (Knowledge Discovery in database) um amplo processo de busca de conhecimento em banco de dados que consiste de uma seqncia iterativa dos seguintes passos: Limpeza de Dados, Integrao de Dados, Seleo dos Dados, Transformao de Dados, Minerao dos Dados, Avaliao dos Padres, e Apresentao e Assimilao do Conhecimento. Cada etapa do processo de KDD pode retornar a um processo anterior, conforme sua necessidade. Esta necessidade pode surgir em funo de uma reavaliao nos dados, uma nova hiptese a ser testada, entre outros casos decorrentes ao processo de busca. O KDD possibilita capturar informaes em um banco de dados que at o momento era desconhecidas ou interpretveis e transform-la em conhecimento, visando assim, melhorar o entendimento de um problema ou um procedimento de tomada de deciso, sendo examinado cada termo individualmente. Etapas do processo de KDD O processo de KDD definido por etapas. Estas etapas so seguidas e decididas por um analista ou especialista na rea de anlise de dados. A figura 1 a seguir, ilustra as etapas que constituem o KDD:

Figura 1: Etapas do Processo KDD [4]

16

Definio (Database) Definio do tipo de conhecimento a descobrir, onde se decide quais tipos de conhecimentos, decises de tomada e benefcios sero adquiridos. Seleo (Selection) Selecionar e focar em um conjunto ou subconjunto de dados onde sero extradas as informaes necessrias. Limpeza de Dados e pr-processamento (Preprocessing) Processo de formatao de dados para serem utilizados na minerao de dados. Reduo de Dados e Projeo (Transformation) Reduo do nmero de variveis a serem utilizadas no processo de Data Mining, com objetivo de agilizar e enriquecer as informaes. Minerao de Dados (Data Mining) Seleo de mtodos a serem utilizados, a fim de estabelecer padres na representao dos dados adquiridos. Interpretao / Avaliao (Interpretation/Evaluation) Interpretar as informaes colhidas com a minerao de dados, podendo ser revisados as etapas de 1 6 quando necessrio. Implantao do Conhecimento Descoberto (Knowledge) Adquirir todo este conhecimento descoberto ou document-lo e report-lo as partes interessadas. KDD e Data Mining

17

Dentre as vrias etapas do processo KDD, a Data Mining uma das principais, sendo muitas vezes confundida com o prprio KDD. O objetivo principal do passo Data Mining no KDD a aplicao de tcnicas de minerao nos dados pr-processados, o que envolve ajuste de modelos e/ou determinao de caractersticas nos dados.

18

MINERAO DE DADOS (DATA MINING) Data Mining, que recebe o nome em portugus de Minerao de Dados ou Extrao de Dados, destaca-se como parte de um processo maior de pesquisa denominado Descoberta de Conhecimento em Banco de Dados. Consiste em utilizar ferramentas matemticas e estatsticas para se obter a partir de uma base de dados uma extrao completa de informaes que aparentemente seriam inutilizveis ao longo do tempo. Com base neste conceito podem revelar estruturas de conhecimentos, com o objetivo de descobrir regras e padres importantes. A interveno do homem junto ferramenta de minerao de dados imprescindvel, pois a relao Humano-Computador garante uma apurao confivel dos dados, podendo-se obter resultados mais precisos. Um especialista na rea primeiramente tem todo o trabalho de descobrir, selecionar e apresentar de forma adequada quais dados so considerados teis para serem utilizados na Minerao de Dados. As informaes so processadas executando a Minerao de Dados, com o objetivo de apresentar informaes importantes de forma mais simplificadas, para um melhor entendimento dos dados adquiridos. Resultados so avaliados com a extrao a fim de se adquirir novos conhecimentos, que podem ser expressos em formas de grficos por exemplo. Com os dados obtidos e previamente analisados preciso que se tenha uma noo da estrutura a ser utilizada, pois o prximo passo a ser feito o que se denomina como Data Warehouse, onde os dados so armazenados e explorados. Funcionalidades A funcionalidade da Minerao de Dados tem como objetivo especificar quais padres entre registro e variveis podem ser utilizados. fundamental que os conceitos de funcionalidades sejam bem definidos para que a partir de ento sejam escolhidas melhores tcnicas a serem aplicadas para se obter os resultados esperados. A classificao da funcionalidade em Minerao de Dados definida em Anlise Descritiva e Anlise de Prognstico. A

19

figura 2 ilustrada a seguir exibe essa forma de abordagem da funcionalidade na minerao de dados:

Figura 2: Funcionalidades em Minerao de Dados [3]

Anlise Descritiva A anlise descritiva representa a rea de busca dos dados desconhecidos dos usurios. Pode ser subdivida em Anlise Prvia e Descobrimento. Anlise Prvia Tem o objetivo de analisar uma base de dados identificando anomalias ou resultados raros que possa influenciar nos resultados da Minerao de Dados. Para facilitar a aplicao dos processos de Minerao de Dados, pode-se subdividir a Anlise Prvia em outras funcionalidades, conforme figura 3 a seguir:

20

Figura 3: Sub-funcionalidades da Anlise Prvia [3]

Descobrimento o processo de examinar uma base de dados com o objetivo de encontrar padres "escondidos", sem que exista necessariamente uma idia ou hiptese clara previamente estabelecida. Em seguida a figura 4 ilustra as sub-funcionalidades do processo Descobrimento:

Figura 4: Sub-funcionalidades do Descobrimento [3]

21

Anlise de Prognstico A Anlise de Prognstico tem como objetivo inferir resultados a partir dos padres encontrados na anlise descritiva, representando a rea de investigao. A anlise de prognstico pode ser subdividida em Classificao, Estimao e Predio. Estimao A Estimao o processo de predizer um determinado valor, baseado em um padro j conhecido. Por exemplo, conhecendo-se o padro de despesas e a idade de uma determinada pessoa, pode-se estimar seu salrio e nmero de filhos. Predio Procede-se em predizer um comportamento futuro, baseando-se em diversos valores. Por exemplo, baseando-se na formao escolar, no trabalho atual e no ramo de atividade profissional de uma pessoa, h possibilidade de predizer que seu salrio ser de um certo montante at um determinado ano. Classificao o processo responsvel por predizer algum valor para uma varivel categrica. Por exemplo, pode-se em um banco financeiro, determinar um conjunto de clientes que oferecem risco para contrair um emprstimo pessoal. Tcnicas para obteno das Funcionalidades Assim definidas as funcionalidades (resultados) a que se deseja chegar com o processo de Data Mining, o prximo passo definir quais tcnicas devem ser utilizadas sendo mais aderentes para a obteno dos resultados. O quadro 1 a seguir, exibe um conjunto parcial de tcnicas que podem ser utilizadas em cada funcionalidade. Aps a demonstrao do quadro, algumas tcnicas que so utilizadas no processo de Minerao de Dados sero descritas.

22

Funcionalidade s

Sub-funcionalidade Anlise de outliers

Anlise Prvia Analise de desvios Visualizao Classificao

Tcnica Ferramentas de consulta e tcnicas de estatstica Induo por rvores de deciso Ferramentas de consulta e tcnicas de estatstica Induo por rvores de deciso Agregaes e grficos diversos Induo por rvores de deciso Minerao de regras de associao (Anlise de cesta de venda) Minerao de regras de associao booleanas unidimensionais a partir de bancos de dados transacionais Minerao de regras de associao em mltiplos nveis a partir de bancos de dados transacionais Minerao de regras de associao multidimensionais a partir de bancos de dados transacionais e data warehouse Da minerao de associao anlise de correlao Minerao de associao baseada em restrio Mtodos de particionamento Mtodos hierrquicos Mtodos baseados em densidade Mtodos baseado em grid Mtodos de clustering baseados em modelos Anlise de outliers Sumarizao e Generalizao dos dados baseados em caracterizao Caracterizao analtica - anlise da relevncia do atributo Induo por rvores de deciso Agregaes e grficos diversos Regresso Linear Regresso Mltipla Regresso no Linear

Anlise de associaes

Descobrimento

Agrupamento (clustering)

Descrio do Conceito Segmentao Sumarizao e Visualizao Estimao/Predi Estimao/Predio o

23

Regresso logstica Regresso de Poisson Induo por rvores de deciso Classificao bayseana Classificao por backpropagation - Redes neurais artificiais Classificao baseada em conceitos da minerao de regras de associao Classificao por backpropagation - Redes neurais Anlise de vizinhana Casos baseados em raciocnio Algoritmos genticos Abordagem por conjuntos fuzzy

Classifica o

Classificao

Quadro 1: Funcionalidades e suas Tcnicas [3]

Ferramentas de consulta e tcnicas de estatstica O primeiro passo em um projeto de minerao de dados pode ser uma simples anlise do conjunto de dados que ser minerado, utilizando-se de ferramentas de consultas. Aplicando-se funes da linguagem SQL de um banco de dados relacional, pode-se obter importantes informaes sobre a distribuio dos dados. Diversos grficos podem ser preparados utilizando os dados e estatsticas gerados para facilitar as anlises inicias. Anlise de vizinhana (K-nearest neighbor) Esta tcnica uma tcnica de pesquisa e no de conhecimento. Empregase principalmente na anlise de prognstico. rvores de deciso Uma rvore de Deciso um fluxograma semelhante a uma estrutura de rvore, onde cada n interno demonstra um teste ou atributo, cada ramo representa o resultado do teste e cada folha representa a distribuio dos registros. Quanto utilizada na anlise de prognstico, em classificao, denominada induo por rvore de deciso. A figura 5 a seguir apresenta uma classificao utilizando um algoritmo de rvore de deciso, para prognosticar o grupo de clientes mais propcio a comprar um determinado produto:

24

Figura 5: Exemplo de uma rvore de deciso [6]

APLICAES EM DATA MINING As tecnologias de minerao de dados podem ser aplicadas em uma grande variedade de contextos de tomada de deciso no ramo de negcios. Para competir efetivamente, as organizaes devem ser capazes de compreender seus dados disponveis. Identificar padres e tomar decises em tempo permite que se mantenha a competitividade. As tcnicas de Data Mining tm sido aplicadas para encontrar respostas no processo de minimizao de custos, gerenciamento de estoque e gerao de novas idias em diversas reas. Segmentao de Mercados Um dos grandes objetivos de uma organizao conhecer os seus clientes. Este conhecimento deve ocorrer em vrios nveis, desde o tipo de produto desejado at que tipo de ofertas eles esto dispostos a aceitar mesmo que os produtos no sejam essenciais no momento. interessante tambm, ter o conhecimento quanto ao perfil mdio do consumidor, sua renda, sexo, idade, tamanho da famlia, entre outros aspectos. Com base nestas informaes, a empresa poder possuir em estoque o que o cliente mdio provavelmente necessite e realizar ofertas com certo grau de certeza do seu sucesso a clientes especficos. Varejo 25

Vrios fatores podem contribuir para a necessidade de previso de vendas, tais como a satisfao do cliente ao encontrar na loja o que deseja, o menos custo som estoques por fato da manuteno de estoques mais ajustadas s vendas futuras, a melhor alocao de vendedores em funo de previso das vendas para o futuro perodo, entre outros. Os parmetros importantes a serem considerados quando se analisa a disponibilidade de produtos em uma loja so a capacidade de produo e distribuio da indstria produtora do item, a existncia ou no de propaganda realizada pelo produtor do item e o perodo do ano ou ms dependendo do produto tratado. Finanas O volume de interesses e poder atrelados a ativos financeiros tm despertado a ateno de muitos para informaes estratgicas deste domnio. Aplicaes de mineraes de dados vo da deteco de fraudes e lavagem de dinheiro a analise de mercados, tendncias e fomento especulativo. Anlise de crdito de consumidores e classificao de clientes para estratgias de marketing figuram dentre as aplicaes mais comuns. Marketing Diversos fatores podem ser includos na aplicao das tcnicas de Data Mining no ramo de marketing, entre eles a anlise do comportamento do consumidor cm base em padres de compra; a determinao de estratgia de marketing incluindo propaganda, localizao de lojas e mala direta; a segmentao de clientes, lojas ou produtos; bem, como o projeto de catlogos, o layout de lojas e campanhas publicitrias. Sade Dados mdicos tambm tm sido usados em tcnicas de minerao de dados a fim de se obter informaes a respeito de pacientes, doenas, entre as mais variadas informaes presentes em dados de hospitais. Alguns exemplos so: a anlise de eficcia de certos tratamentos, a otimizao de processos dentro de um hospital, o relacionamento de dados sobre o estado de sade do paciente com a 26

qualificao mdica, a anlise de efeitos colaterais de drogas, diagnose de doenas, entre outros. Outras Aplicaes Diversas reas comeam a utilizar as tcnicas de minerao de dados, visando conhecer e identificar padres at ento desconhecidos. Entre essas reas destacam-se as reas de seguros, bancos, comunicaes, explorao de petrleo, entre outras.

EXEMPLO DE APLICAES Army and Air Force Exchange Service (AAFES) O Army and Air Force Exchange Service (AAFES) determina os padres de vendas baseado na demografia dos consumidores. Por exemplo, a AAFES utiliza minerao de dados automtica para prever quanto uma mulher particular vai gastar anualmente, dadas a idade, os dependentes e o seu salrio anual. Este nvel de detalhamento auxilia a AAFES a direcionar seus anncios e vendas para a base de consumidores adequada. Wal-Mart A Wal-Mart percebeu no incio de 1989 que processamento paralelo e minerao de dados poderiam ser utilizados na busca por informaes comerciais no seu banco de dados de mais de 6 Terabytes, e logo estes passaram a fazer parte da sua nova estratgia comercial. Cerca de 2.300 consultas SQL complexas so feitas diariamente e processadas paralelamente de maneira massiva nas suas complexas operaes de bancos de dados relacionais. Fitas de dados podem ser produzidas para paralelismo em srie e dados podem ser particionados ou divididos por operadores. Outro exemplo foi desenvolvido pela Wal-Mart, em que a empresa descobriu que o perfil do consumidor de cervejas era semelhante ao de fraldas. Eram homens casados, entre 25 e 30 anos, que compravam fraldas e/ou cervejas tarde no caminho do trabalho para a casa. Com base nisso, a Wal-Mart optou por uma otimizao das atividades junto s gndolas nos pontos de vendas, colocando as 27

fraldas ao lado das cervejas. Resultado: O consumo cresceu 30% s sextas-feiras com a redefinio de layout baseada na conexo de hipteses desenvolvidas pela minerao de dados. MasterCard A MasterCard International processa diariamente cerca de 12 milhes de transaes e utiliza minerao de dados para extrair todos os tipos de estatsticas sobre os portadores de cartes. Este processamento est includo nas vendas do data warehouse de transaes para os mais de 20.000 parceiros comerciais. Isto permite a visualizao de diferentes classes de portadores de cartes e a anlise de como estes utilizam seus cartes para desenvolver promoes especializadas e deteces de fraude. Revendedora de Automveis Uma grande revendedora de automveis de vrios fabricantes nos seus diversos modelos observando sua perda de venda e de clientes a cada vez que no possua o desejado carro em seus estoques e, contrapondo este fato com o alto custo de manuteno de grandes estoques deste produto durvel e caro, resolveu desenvolver um sistema de previso de vendas. A empresa possua um banco de dados de vendas de carros nos ltimos 5 (cinco) anos e desejava um sistema de previso capaz de avaliar as vendas 15 dias a frente pois este era o tempo necessrio para encomenda e transporte de novos itens. Alm da informao contida no banco de dados, necessrio contextualizar cada dado de venda com outras informaes como a existncia de propaganda realizada pelo fabricante, se a venda foi realizada em certos perodos do ano mais propcios compra de automveis e tambm ao fim de cada ms quando h um natural aquecimento das vendas. Como prever o futuro no nada fcil, a maior quantidade de informao pertinente possvel deve ser considerada em qualquer metodologia. Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi feito com dados de quatro anos e meio deixando os ltimos seis meses do perodo de 5 (cinco) anos de vendas para que fosse testada a capacidade de previso do sistema. O aprendizado mostrou-se eficiente tendo um erro mximo de previso em 28

algumas semanas de 20%, porm o erro mdio se manteve dentro dos desejados 10%. Desta forma, o sistema passou a prever as vendas dos prximos 15 dias fornecendo mais tempo para a encomenda e transporte do produto. A cada quatro semanas, a rede neural era ensinada de novo, incluindo-se os dados de mais 4 (quatro) semanas ocorridas seis meses antes e testando-se o erro de previso utilizando-se sempre os ltimos 6 (seis) meses de vendas, agora incluindo as ltimas quatro semanas recentemente terminadas.

ALGORITMOS DE MINERAO DE DADOS Os algoritmos de minerao de dados so os mecanismos que criam os modelos de minerao. Para criar estes modelos, o algoritmo analisa o conjunto de dados e procura por padres e tendncias. O algoritmo usa os resultados desta anlise para definir os parmetros de minerao. Ento, estes parmetros so aplicados ao conjunto completo de dados para extrair padres e estatsticas detalhadas. Os modelos de algoritmos podem ser de diversos tipos: um conjunto de regras que descreve como produtos esto agrupados, uma rvore de deciso que pode dizer se um cliente em particular comprar um produto, um modelo matemtico mapeando previses de vendas, entre outros. Tipo de Algoritmos Existem alguns algoritmos que so disponibilizados para o uso padro, desde que estes sejam compatveis com a tecnologia utilizada. A seguir, destacamse alguns tipos de algoritmos. Algoritmos de Classificao Os algoritmos de classificao prevem uma ou mais variveis discretas, com base nos outros atributos do conjunto de dados. Um exemplo de um algoritmo de classificao Algoritmo rvores de Deciso. Algoritmos de Regresso 29

Os algoritmos de regresso prevem uma ou mais variveis contnuas, como lucro ou perda, com base nos outros atributos do conjunto de dados. Um exemplo de um algoritmo de regresso Algoritmo MTS (Microsoft Time Series). Algoritmos de Segmentao Os algoritmos de segmentao dividem dados em grupos ou clusters de itens que tm propriedades semelhantes. Um exemplo de um algoritmo de segmentao Algoritmo Microsoft Clustering.

Algoritmos de Associao Os algoritmos de associao encontram correlaes entre atributos diferentes em um conjunto de dados. A aplicao mais comum desse tipo de algoritmo para criar regras de associao, que podem ser usadas em uma anlise de cesta bsica. Um exemplo de um algoritmo de associao Algoritmo Associao da Microsoft. Algoritmos de Anlise de Sequncias Os algoritmos de anlise de sequncias resumem sequncias frequentes ou episdios em dados, como um fluxo de caminho da Web. Um exemplo de um algoritmo de sequncia Algoritmo MSC (Microsoft Sequence Clustering). Aplicao dos Algoritmos A escolha do algoritmo para realizar uma tarefa pode ser muitas vezes complexa. Pode-se utilizar algoritmos diferentes para realizar a mesma tarefa empresarial, embora cada algoritmo produz um resultado diferente, e alguns algoritmos podem produzir mais de um resultado. Os algoritmos no devem necessariamente ser utilizados independentemente. Em uma soluo de minerao de dados, possvel, por exemplo, utilizar algoritmos para explorar dados e em seguida utilizar outros algoritmos para prever um resultado especfico com base nesses dados. A seguir, apresentam-se alguns exemplos de algoritmos.

30

rvore de Deciso O algoritmo rvore de deciso fornece uma classificao de uma base de dados que lhe fornecida e gera um classificador na forma de uma rvore de deciso. O algoritmo constri a arvore de deciso de um conjunto de dados usando o conceito de Entropia da Informao (nvel de aleatoriedade dos dados). O algoritmo rvore de deciso utiliza o fato de que cada atributo de dados pode ser usado para tomar uma deciso que particiona os dados em subconjuntos menores examinando o ganho de informao normalizada, que resultante da escolha de um atributo. O atributo com maior ganho aquele usado para tomar a deciso. O algoritmo ento procede recursivamente sobre as sub-listas menores. Uma rvore de deciso descreve uma estrutura de rvore onde folhas representam classificaes e ramos representam conjunes de caractersticas que levam s classificaes. Uma rvore de deciso uma estrutura de rvore onde cada n interno um atributo do banco de dados de amostras, diferente do atributoclasse, as folhas so valores do atributo-classe, cada ramo ligando um n-filho a um n-pai etiquetado com um valor do atributo contido no n-pai. Existem tantos ramos quantos valores possveis para este atributo. Um atributo que aparece num n no pode aparecer em seus ns descendentes. O algoritmo rvore de deciso um algoritmo do tipo classificao. Considerando a tabela 1 a seguir:

Tabela 1: Tabela exemplo para rvore de deciso [2]

A figura 6 a seguir ilustra uma possvel rvore de deciso sobre esta tabela.

31

Figura 6: Exemplo de rvore de deciso sobre a tabela 1 [2]

Algoritmo de Naive Bayes O algoritmo de Naive Bayes um algoritmo de classificao usado na modelagem preditiva. Este nome deriva do fato de que este algoritmo usa o teorema de Bayes, mas no leva em conta as dependncias que possam existir entre os dados e sendo assim chamado de Naive, ou seja, ingnuo. Este algoritmo pode ser usado para termos modelos de minerao rpidos para descobrir relacionamentos entre colunas de entrada e colunas onde se tenta realizar uma previso. utilizado para fazer uma minerao inicial dos dados e de acordo com as sadas deste algoritmo, pode-se aplicar outro que seja mais preciso. Algoritmo de Cluster O algoritmo de cluster do tipo segmentao de dados. Ele utiliza tcnicas iterativas para agrupar os casos no conjunto de dados definindo pores que contm caractersticas similares. Este agrupamento pode ser usado para explorar os dados e identificar anomalias nestes dados. Este algoritmo ajuda a identificar relaes entre os dados que no so facilmente visualizados em uma simples observao.

32

ANLISE DE FERRAMENTAS Existem ferramentas disponveis no mercado que auxiliam no processo de minerao de dados. A seguir sero apresentadas algumas destas ferramentas e uma breve descrio sobre a mesma. Oracle Darwin Data Mining Software O Darwin Data Mining Software da Oracle uma ferramenta de minerao de dados que ajuda a transformar gigantes massas de dados em inteligncia corporativa. A ferramenta auxilia na busca por padres significativos e correlaes em dados corporativos. Padres que permitem um melhor entendimento e previso do comportamento de clientes. Com a utilizao da ferramenta, possvel traar estratgias para vendas conjuntas para clientes existentes, pode-se obter novos clientes, detectar fraudes, identificar clientes mais lucrativos e traar perfis de clientes com maior eficcia. O software baseia-se em algoritmo de aprendizagem, implementando algoritmos de arvore de deciso, rede neurais, entre outros. Possui tambm, algoritmos para avaliao, otimizao e comparao de modelos. Na figura 7 ilustra-se o resultado de uma segmentao de clientes, atravs de uma visualizao interativa em forma de arvore de deciso.

33

Figura 7: Janela da ferramenta Darwin [2]

IBM Intelligent Miner O DB2 Data Warehouse Edition (DWE), da IBM, uma sute de produtos que combinam a administrao de dados, com uma poderosa infra-estrutura de inteligncia corporativa. O DWE pode ser utilizado para construir uma completa soluo de data warehouse e gerenci-la com uma soluo nica que integra componentes ncleos com funcionalidades distintas. Entre os componentes que compem o DWE est o Intelligent Miner. uma ferramenta para anlise de dados integrados. As tradicionais tcnicas de minerao de dados (anlise de agrupamentos, anlise de afinidades, classificao, estimativa e previso) so suportadas. Adicionalmente, ricos componentes de apresentao esto disponveis para possibilitar uma anlise visual dos resultados. A figura 8 a seguir, uma janela da IBM Intelligent Miner exibindo o agrupamento de clientes onde apenas alguns destes clientes possuem um carto de crdito internacional comparados quantidade total de clientes.

34

Figura 8: Janela da ferramenta IBM Intelligent Miner exibindo um grfico de clientes [2]

SAS Enterprise Miner A ferramenta SAS Enterprise Miner um software de minerao de dados avanada. Combina um extenso pacote de ferramentas integradas de minerao de dados com uma grande facilidade de utilizao, capacitando os usurios a tirarem proveito de dados corporativos para obter vantagem estratgica, tudo em um nico ambiente. Entre outras funcionalidades, o sistema tambm disponibiliza uma tela que demonstra graficamente todas as fases do processo de minerao de dados, desde o acesso aos dados, at a anlise dos resultados, dando todo suporte necessrio a cada etapa em uma nica soluo integrada. Na figura 9 a seguir, ilustra-se o fluxo entre as etapas da minerao de dados utilizadas para a anlise de um emprstimo.

35

Figura 9: Fluxo de minerao de dados em anlise de emprstimo [2]

DATA MINING NA BOLSA DE VALORES O comportamento da bolsa orientado por pressupostos altamente volteis, logo, conhecer o comportamento no passado no garantia para prever o comportamento futuro. A evoluo das cotaes pode depender de fatores dificilmente interpretveis por algoritmos de inteligncia artificial, tais como notcias com repercusses negativas. impossvel agregar a quantidade de informao necessria para representar o conjunto de variveis que justificam a evoluo da bolsa, at porque muitas vezes segue padres comportamentais que desafiam a lgica de mercado. Os indicadores da bolsa, por vezes surpreendentemente, at do bons resultados, no entanto difcil escolher a melhor interpretao conjugada dos 36

mesmos para definir estratgias de investimento, as ferramentas de aprendizagem automtica podem ajudar a conjugar toda esta informao da melhor forma. Desde que seja possvel reunir um volume de dados representativo, teoricamente seria possvel extrair informao til que usando ferramentas menos poderosas no seria descoberta. Exemplo Prtico A aplicao de Data Mining na tentativa de prever o comportamento da bolsa tem sido largamente investigada nos ltimos anos e tem dado origem aos mais variados resultados. Com a disponibilizao de grandes volumes de dados histricos, via web, a massificao de dados tornou possvel a utilizao de algoritmos de aprendizagem automtica em larga escala. Muitos padres no comportamento das cotaes na bolsa foram descobertas utilizando ferramentas de Data Mining sobre as cotaes passadas em conjunto com outras grandezas relacionadas (por vezes sem relao aparente). A passagem de regras do comportamento da bolsa resultantes de Data Mining para estratgias de investimento enfrenta obstculos de peso. essencial ter noo se um determinado padro comportamental descoberto por Data Mining devese apenas a um acaso nos dados de treino ou se existe fundamento estatstico para ser utilizado na predio da evoluo futura. Anlise dos Dados Para dar inicio a um projeto de Data Mining deve-se proceder a um conjunto de anlises para entender as possveis relaes que se podem observar usando ferramentas de anlise tradicionais. a partir deste tipo de anlise que pode ser estabelecida a estratgia de triagem e processamento da informao de forma a apresentar aquela mais relevante e no melhor formato, ao algoritmo de aprendizagem automtica. Para esta anlise ser demonstrada as cotaes dos ttulos pertencentes ao ndice NASDAQ entre os anos de 1997 e 2003 inclusivamente. Para este perodo disposto um total de 167.954 registros de cotaes dirias. Relao Entre a Evoluo das Cotaes Durante 1 Dia e o Dia da Semana 37

Uma das questes de interesse seria verificar se a evoluo das cotaes na bolsa difere em mdia consoante o dia da semana. Observando o grfico da figura 10 pode-se concluir que para o perodo de 1997 a 2003 o pior dia de bolsa tem sido a segunda-feira. Enquanto que o melhor dia de bolsa em mdia a quintafeira. Analisando esta diferena diria considera-se que o dia da semana poder ser um atributo valioso para treino de modelos de Data Mining.

Figura 10: Evoluo das cotaes dirias para os ttulos do ndice NASDAQ para cada dia da semana [7]

Evoluo da Cotao nos Dias que Antecedem uma Distribuio de Dividendos Seria de esperar que quando se aproxima uma distribuio de dividendos e logo aps a mesma o comportamento das evolues dirias das cotaes fosse de alguma forma afetado. Considerando a figura 11 a seguir, podemos verificar que em mdia observa-se uma desvalorizao acentuada nos primeiros quatros (4) dias, recuperada ao 5 dia.

38

Figura 11: Distribuies de Dividendos [7]

Evoluo da Cotao aps Grandes Valorizaes Com o objetivo de verificar se aps grandes valorizaes existem comportamentos distintos para a maioria dos ttulos, escolheram-se aqueles casos cuja cotao subiu mais do que 15% em um (1) dia, tendo-se obtido os resultados do quadro 2 a seguir:

Quadro 2: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior aconteceu uma valorizao superior a 15% [7]

Como se pode verificar pelo quadro anterior, logo aps uma valorizao forte a tendncia de queda no primeiro dia, mas nos dias seguintes a tendncia para a valorizao sobrepe-se chegando a 59% de valorizao 15 dias aps a forte subida. 39

Considerando a sua aparente relao com o comportamento da bolsa, a evoluo nos dias anteriores deve ser considerada como um indicador valioso. Evoluo da Cotao aps Grandes Desvalorizaes Nos perodos que se seguem a grandes desvalorizaes (>15% em 1 dia) observou-se o comportamento patente no quadro 3 a seguir:

Quadro 3: Distribuio da evoluo em duas classes (valorizao e desvalorizao) quando no dia anterior aconteceu uma desvalorizao superior a 15% [7]

Tambm as grandes desvalorizaes mostram uma forte relao com o comportamento da bolsa nos dias seguintes. Aps uma forte desvalorizao a tendncia sempre de recuperao sendo mais evidentes 15 dias aps a ocorrncia. Processo de Data Mining na Bolsa de Valores A seguir a figura 12 ilustra um exemplo do processo de Data Mining:

40

Figura 12: Exemplo de Aplicao de Data Mining na Bolsa de Valores [7]

CONCLUSO O processo KDD e a Minerao de Dados fazem parte de uma evoluo natural da tecnologia da informao e tendem a aumentar esse nvel de crescimento 41

com o passar do tempo. A alta competitividade existente atualmente no mercado far com que as organizaes busquem cada vez mais esse tipo de soluo. Grandes organizaes utilizam esse tipo de ferramenta hoje em dia e a tendncia que se torne uma prtica cada vez mais comum alm de evoluda. A tecnologia de Data Mining est acessvel a diversos ramos empresariais e se trata de uma tcnica que realmente pode trazer muitos benefcios, ganhos e lucros. Existem atualmente no mercado ferramentas de auxlio ao processo de Data Mining. A utilizao de um software de Minerao de Dados pode trazer descobertas inovadoras aos seus usurios, porm, deve ficar claro que nenhuma destas ferramentas trabalha por si s e elimina a necessidade de conhecimento e entendimento do negcio e a compreenso dos dados a serem minerados. A utilizao das tcnicas de Data Mining na Bolsa de Valores possvel, porm, esta abordagem sofre interferncias de fatores imprevisveis que inclusive podem influenciar nos resultados finais. Com a juno de um volume de dados significativo, e o auxlio de uma ferramenta de alto nvel, h possibilidade de extrair informaes teis para uma futura aplicao na Bolsa de Valores utilizando as tcnicas de Data Mining.

REFERNCIA BIBLIOGRFICA [1] BORTOLI, Joel De. Data Maning (Minerao de Dados). Disponvel em http://www.guiafar.com.br/portal/index.php? 42

option=com_content&view=article&id=159%3Adata-mining-mineracao-dedados&catid=43%3Atecnologia-da-informacao&Itemid=169&lang=pt. Acessado em 29/10/2011. [2] NEGREIROS, ngelo Vidal de, Data Mining. Joo Pessoa: Instituto Federal de Educao, Cincia e Tecnologia. 2009. [3] CORTS, Sergio da Costa. ROSA, Maria Porcaro. LIFSCHITZ, Srgio. Minerao de Dados Funcionalidades, Tcnicas e Abordagens. Rio de Janeiro: PUC. 2002. [4] SILVA, Marcelino Pereira. Minerao de Dados Conceitos, Aplicaes e Experimentos com WEKA. Rio Grande do Norte: Universidade do Estado do Rio Grande do Norte. [5] STAHNKE, Fernando Rafael. Uso de Data Mining no Mercado Financeiro. Novo Hamburgo: FEEVALE. 2008. [6] SFERRA, Heloisa Helena. CORRA, ngela M. C.. Conceitos e Aplicaes de Data Mining. Piracicaba: UNIMEP. 2003. [7] SANTOS, Jos Carlos. BASTOS, Felipe Pereira. Sistema de Apoio Deciso para Investimento na Bolsa de Valores usando Data Mining. Monte da Caparica: Faculdade de Cincia e Tecnologia. 2004

43