You are on page 1of 94

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

Ji-Paran 2006

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

Trabalho apresentado ao Centro Universitrio Luterano de Ji-Paran CEULJI, como requisito para obteno de grau de Bacharel no curso de Sistemas de Informao, sob orientao da professora Mestre Letcia Carvalho Pivetta.

Ji-Paran 2006

Cestaro, Romeu C422m Minerao de dados aplicada identificao de alunos propensos evaso do CEULJI/ULBRA de Ji-Paran/RO. / Cestaro Romeu. Ji-Paran : ULBRA, 2006 92. : il. ; 30cm Trabalho de Concluso de Curso TCC (Graduao) Centro Universitrio Luterano de Ji-Paran ULBRA, Ji-Paran, 2006. 1 Sistemas de Informao. 2 Minerao de Dados. 3 Inteligncia Artificial. 4 Tcnica de Minerao de Dados. I. Autor II. Ttulo CDU 681.3: 007.52

ROMEU CESTARO

MINERAO DE DADOS APLICADA IDENTIFICAO DE ALUNOS PROPENSOS EVASO DO CEULJI/ULBRA DE JI-PARAN/RO

AVALIADORES

______________________________________________________ - ___________________ Prof. M.Sc. Letcia Carvalho Pivetta (Orientadora) Nota

______________________________________________________ - ___________________ Prof. M.Sc.Willian Bolzan dos Santos Nota

______________________________________________________ - ___________________ Prof. M.Sc. Milcades Alves de Almeida Nota

Ji-Paran 2006

Dedico a Deus, pela fora que mesmo eu desconhecia.

Agradeo a minha famlia, no s pelo apoio financeiro, mas tambm pela motivao que, em muitos momentos, infelizmente, eu no soube notar e/ou apreciar; aos meus amigos verdadeiros, em especial os que estiveram ao meu lado todos os momentos: Ilma Fausto, Hildeleidy Moreno, Fabiana Wensing, Lisiane Nunes e Fbio Pereira (sem contar muitos outros colegas de curso que foram amveis e gentis comigo, os quais no citarei aqui, sob pena de esquecer alguns); professora Letcia, que sempre me transmitiu segurana durante os anos de Faculdade no a toa a escolhi para ser minha Orientadora; e, por fim, agradeo a companhia e a amizade da galera do nibus (em especial, Gracinha, Elaine, Ione Teles, Cleide e tantos outros).

Estamos afogados em informao, mas morrendo de fome por conhecimento (John Naisbett).

RESUMO

O objetivo do presente trabalho a construo de um sistema inteligente que seja capaz de identificar alunos propensos evaso, realizando um estudo de caso no mbito do curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran/RO. Para tanto, alm de pesquisas bibliogrficas sobre assuntos relacionados, tais como Inteligncia Artificial e Minerao de Dados e da realizao do estudo de caso real, tambm foi realizada uma aplicao simulada, com o objetivo de complementar os argumentos levantados no referido estudo de caso. A metodologia utilizada baseada nos processos de Minerao de Dados (identificao do problema, pr-processamento, extrao de padres, ps-processamento e a utilizao do conhecimento). O cumprimento de todos os processos citados foi marcado por uma srie de problemas que acabaram por definir os rumos do presente trabalho, entretanto, a Minerao de Dados revelou-se uma tcnica inteligente facilitadora do processo de anlise e busca de padres dentro de conjuntos de dados; a realizao das etapas do processo de Minerao de Dados na busca de padres nos dados dos alunos do curso de Sistemas de Informao do CEULJI/ULBRA gerou bons resultados, classificando os exemplos de alunos corretamente (cerca de 80% no estudo de caso real e 100% na aplicao simulada) como formados ou evadidos, e tambm trouxe tona alguns pontos com relao aos dados de alunos e ao desempenho do sistema utilizado pela instituio que devem ser considerados e/ou melhorados (com relao a dados de alunos que deveriam ser armazenados e melhoria de acesso aos dados do sistema utilizado). Palavras-chaves: Evaso na Universidade, Inteligncia Artificial, Minerao de Dados.

ABSTRACT

The goal of this work is the development of an intelligent system capable to identify students that have propensity to be dropouts, making a case study in the course of Information Systems from CEULJI/ULBRA in Ji-Paran/RO. Besides bibliographic researches on related topics, such as Artificial Intelligence and Data Mining and the realization of the real case study, it was also made a simulated application, aiming to complement the arguments from the referred case study. The methodology used is based on the processes of Data Mining (problem identification, pre-processing, pattern extraction, post-processing and the knowledge utilization). The realization of all the mentioned processes revealed a range of problems that ended up defining the directions of this work, however, the Data Mining revealed itself as an intelligent technique that makes the process of analysis and search of patterns from data sets become easier; the realization of the processes of Data Mining in searching of patterns from the dataset of the students of the course of Information System from CEULJI/ULBRA generated good results, classifying the instances of students correctly (about 80% in the real case study and 100% in the simulated application), and also brought out some points related to the students data and the performance of the software system used by the institution that must be considered and/or improved (related to the students data that should be stored and the improving of the data access from the used software system). Key-words: Artificial Intelligence, Data Mining, Evasion in University.

SUMRIO

LISTA DE FIGURAS ......................................................................................................................................... 10 LISTA DE TABELAS......................................................................................................................................... 11 LISTA DE QUADROS........................................................................................................................................ 12 LISTA DE SIGLAS E ABREVIATURAS ........................................................................................................ 13 INTRODUO ................................................................................................................................................... 14 1 MINERAO DE DADOS .......................................................................................................................... 16 1.1 DADOS, INFORMAO E CONHECIMENTO .................................................................................................. 17 1.2 PROCESSOS DE MINERAO DE DADOS .................................................................................................... 18 1.2.1 Identificao do problema ............................................................................................................... 19 1.2.2 Pr-processamento .......................................................................................................................... 20 1.2.3 Extrao de Padres........................................................................................................................ 22 1.2.4 Ps-processamento .......................................................................................................................... 23 1.3 TAREFAS DE MINERAO DE DADOS ........................................................................................................ 24 1.4 TCNICAS DE MINERAO DE DADOS ...................................................................................................... 26 1.4.1 Escolha da Tcnica de Minerao de Dados................................................................................... 28 1.5 TECNOLOGIAS DE SUPORTE MINERAO DE DADOS ............................................................................. 31 1.5.1 Aprendizado de Mquina ................................................................................................................. 31 1.5.1.1 Avaliao de algoritmos ............................................................................................................... 36 1.5.1.2 Avaliao de predio numrica .................................................................................................. 37 1.5.2 Ferramentas de Minerao de Dados.............................................................................................. 38 1.5.2.1 Ferramenta Weka.......................................................................................................................... 40 1.5.2.1.1 O formato ARFF ........................................................................................................................ 44 2 ESTUDO DE CASO ...................................................................................................................................... 47 2.1 - IDENTIFICAO DO PROBLEMA .................................................................................................................. 47 2.2 PR-PROCESSAMENTO............................................................................................................................... 49 2.3 EXTRAO DE PADRES ........................................................................................................................... 49 2.4 PS-PROCESSAMENTO............................................................................................................................... 50 2.4.1 Desempenho sobre o conjunto de treinamento ................................................................................ 52 2.4.2 Desempenho sobre o conjunto de teste ............................................................................................ 53 2.4.3 Definio do perfil dos alunos evasores .......................................................................................... 56 2.5 CONSIDERAES SOBRE O ESTUDO DE CASO ............................................................................................. 56 3 APLICAO SIMULADA .......................................................................................................................... 57 3.1 DESEMPENHO SOBRE O CONJUNTO DE TREINAMENTO ............................................................................... 59 3.2 DESEMPENHO SOBRE O CONJUNTO DE TESTE............................................................................................. 61 3.3 DEFINIO DO PERFIL DOS ALUNOS EVASORES NUM CENRIO HIPOTTICO .............................................. 63

3.4 CONSIDERAES SOBRE A APLICAO SIMULADA .................................................................................... 63 CONCLUSO ..................................................................................................................................................... 65 REFERNCIAS .................................................................................................................................................. 68 ANEXOS .............................................................................................................................................................. 69

LISTA DE FIGURAS

Fig.1: Etapas do processo de Minerao de Dados....................................................................................... Fig.2: Tarefas de Minerao de Dados......................................................................................................... Fig.3: Ferramenta WEKA verso 3.4.7........................................................................................................ Fig.4: Mdulo WEKA Knowledge Explorer Fig.5: Mdulo WEKA Experiment Environment. Fig.6: Mdulo WEKA KnowledgeFlow Environment. Fig.7: Mdulo WEKA SimpleCLI Fig.8: Arquivo ARFF para dados sobre clima.. Fig.9: Desempenho dos classificadores Fig.10: Desempenho dos classificadores (aplicao simulada)....................................................................

19 22 40 41 42 43 43 45 51 58

LISTA DE TABELAS

Tabela 1: Dados, informaes, conhecimento.. Tabela 2: Tarefas realizadas por tcnicas de Minerao de Dados.............................................................. Tabela 3: Tcnicas de Minerao de Dados. Tabela 4: Caractersticas de dados Tabela 5: Conjunto de exemplos no formato atributo-valor. Tabela 6: Matriz de Confuso de um classificador... Tabela 7: Matriz de Confuso para a classificao com duas classes.......................................................... Tabela 8: Medidas de desempenho para predio numrica (p para valores preditos e a para valores atuais)............................................................................................................................................................ Tabela 9: Algumas ferramentas para Minerao de Dados.......................................................................... Tabela 10: Atributos extrados na coleta de dados... Tabela 11: Atributos para aplicao simulada..

18 25 28 30 34 34 35 38 39 48 57

LISTA DE QUADROS

Quadro 1: Sada do classificador KSTAR sobre o conjunto de treinamento................................................ Quadro 2: Sada do classificador IB1 sobre o conjunto de treinamento....................................................... Quadro 3: Sada do classificador IBK sobre o conjunto de treinamento...................................................... Quadro 4: Sada do classificador KSTAR sobre o conjunto de teste........................................................... Quadro 5: Sada do classificador IB1 sobre o conjunto de teste................................................................... Quadro 6: Sada do classificador IBK sobre o conjunto de teste.................................................................. Quadro 7: Sada do classificador KSTAR sobre o conjunto de treinamento (aplicao simulada)............. Quadro 8: Sada do classificador IB1 sobre o conjunto de treinamento (aplicao simulada)..................... Quadro 9: Sada do classificador IBK sobre o conjunto de treinamento (aplicao simulada).................... Quadro 10: Sada do classificador KSTAR sobre o conjunto de teste (aplicao simulada)....................... Quadro 11: Sada do classificador IB1 sobre o conjunto de teste (aplicao simulada).............................. Quadro 12: Sada do classificador IBK sobre o conjunto de teste (aplicao simulada).............................

52 52 53 54 54 55 59 60 60 61 62 62

LISTA DE SIGLAS E ABREVIATURAS

ARFF CSV IB1 IBK KDD OLAP SimpleCLI

Attribute-Relation Format File Comma separated value Instance-based (1 nearest neighbor) Instance-based (K nearest neighbor) Knowledge discovery in database On-line Analytical Processing Simple Command Line

14

INTRODUO

O uso de computadores nas mais diversas reas, e com os mais diversos propsitos, vem crescendo nos ltimos tempos. Conseqentemente, a quantidade de dados produzida pelos sistemas e seus respectivos usurios, segundo Frank e Witten (2000), parece crescer ininterruptamente. Aplicaes baseadas em Inteligncia Artificial so cada vez mais utilizadas como ferramenta no processo decisrio nas organizaes. Dentre as vrias reas da Inteligncia Artificial, destaca-se a Minerao de Dados, definida basicamente por Frank e Witten (2000) como o processo de descobrir padres em dados; a Minerao de Dados, ento, trata de resolver problemas pela anlise de dados j presente em base de dados, que por sinal no carece de matria-prima, tendo visto o crescimento iminente do volume de dados produzidos mundialmente, fato anteriormente mencionado. De acordo com Amo (2004), a Minerao de Dados um ramo computacional que surgiu nos anos 80, com a preocupao de vrias empresas com o imenso volume de dados informticos estocados e inutilizados dentro da empresa. Assim, a Minerao de Dados seria responsvel por minerar estes dados e buscar padres interessantes, capazes de responder a perguntas capazes de suprir as necessidades atuais de grandes empresas. Frank e Witten (2000) destacam que a Minerao de Dados abrange uma extensa gama de aplicaes, tais como: decises envolvendo julgamento, como o aceite ou a recusa de

15

um candidato a um emprstimo qualquer; monitoramento de imagens de satlite; diagnstico; marketing; e tantas outras. Tendo observado a extensa abrangncia da Minerao de Dados, percebeu-se a possibilidade da aplicao da mesma no combate evaso escolar, que configura um problema grave, observado j h algum tempo, recorrente em todas as modalidades de ensino no pas, inclusive dentro do Ensino Superior, tanto pblico quanto privado. Conforme pode ser observado no anexo 1, contido no presente trabalho, so vrios os motivos que ocasionam a evaso, como a repetncia, decepo com o curso escolhido, (des)prestgio da profisso, dificuldade na conciliao da jornada de trabalho com o horrio escolar, entre tantos outros. O objetivo do presente trabalho utilizar a Minerao de Dados para a construo de um sistema inteligente que seja capaz de identificar acadmicos do curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran que tm propenso evaso, como uma ferramenta que pretende ao menos levar ao conhecimento da equipe diretiva do CEULJI/ULBRA os padres descobertos a partir dos dados dos alunos. O presente trabalho est dividido em trs captulos: o captulo 1 fornece um embasamento terico sobre Minerao de Dados, apresentando seus principais conceitos relacionados; o captulo 2 descreve o estudo de caso realizado no curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran; e, por fim, o captulo 3 apresenta os resultados de uma aplicao simulada, como complemento aos argumentos apresentados no captulo 2.

16

1 MINERAO DE DADOS

Com a evoluo da computao, que promoveu o aumento da capacidade de processamento e armazenamento, tornou-se possvel para uma aplicao gerar gigabytes ou terabytes de dados dentro de poucas horas, ultrapassando significativamente a quantidade de horas que pesquisadores levariam para realizar uma anlise sobre esses dados gerados. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). A necessidade atual transcende as aplicaes relativamente simples, utilizadas anos atrs, as quais foram projetadas para gerao de relatrios simplificados, como relatrios de produtos vendidos ao dia, relatrios de estoque, entre outros. Segundo os autores supracitados, o analista de negcio atual necessita de ferramentas capazes de responder a perguntas como qual produto de alta lucratividade venderia mais com a promoo de um item de baixa lucratividade, analisando os dados dos ltimos dez anos de venda?. Nos tempos atuais, a resposta para uma pergunta como essa pode ser primordial para a sobrevivncia de uma empresa. Melanda, Paula, Pugliesi e Rezende (2003) afirmam que um primeiro passo na anlise dos dados para fins de tomada de deciso seria o Data Warehousing, que consiste em um depsito que armazenar dados limpos, agregados e consolidados, prontos para serem analisados por ferramentas OLAP, que realizam consultas complexas em banco de dados multidimensionais com facilidade. Entretanto, segundo os autores, o usurio no poder ser capaz de imaginar todas as possveis relaes e associaes existentes em um grande volume de dados. Assim, faz-se necessria a utilizao de tcnicas computacionais na extrao automtica, ou semi-automtica de conhecimento a partir de um grande repositrio de dados.

17

A Minerao de Dados o ramo da computao que busca extrair o conhecimento de grandes quantidades de dados. Segundo Amo (2004), a Minerao de Dados surgiu nos anos 80, com a preocupao de algumas empresas com o imenso volume de dados informticos estocados e inutilizados dentro da empresa. Assim, a Minerao de Dados ser responsvel pela anlise da grande quantidade de dados gerados, objetivando responder s perguntas complexas que configuram as necessidades atuais de grandes empresas. A extrao de conhecimento automtica de Bases de Dados chamada de Extrao de Conhecimento de Base de Dados, referenciado na literatura como Knowledge Discovery in Database (KDD) ou Minerao de Dados. Alguns autores como Amo (2004) consideram o KDD como um processo mais amplo, do qual a Minerao de Dados uma etapa. Porm, assim como Melanda, Paula, Pugliesi e Rezende (2003), a conceituao a seguir dever tratar os referidos termos sem quaisquer distines ao descrever os processos da descoberta de conhecimento a partir dos dados.

1.1 Dados, informao e conhecimento

De acordo com Rezende (2003), os dados podem ser considerados como elementos em seu estado puro, quantificvel sobre um determinado evento, que por si s no oferecem embasamento para o entendimento da situao na qual esto inseridos (como o preo do dlar de determinado dia ou o valor do faturamento mensal). A informao so os dados analisados e contextualizados. Envolve a interpretao de um conjunto de dados, onde ser definida qual a sua relevncia a partir da contextualizao em relao situao envolvida (um exemplo a ser tomado o impacto do faturamento mensal em empresas diferentes; um determinado valor de faturamento pode ser insatisfatrio para uma empresa, mas o mesmo valor pode ser acima da mdia para uma outra empresa). O conhecimento trata da habilidade de formao de um modelo mental que descreva o objeto e determine que decises tomar. As diferenas entre dados, informaes e conhecimento so tambm ilustradas por Jamil (2001), atravs de uma tabela de exemplos apresentada a seguir:

18

Tabela 1: Dados, informaes, conhecimento. __________________________________________________________________________________________ Dado


Quantia em dinheiro, capital

Informaes
Coleo de quantias, Salrios de funcionrios, Saldos de correntistas, Perfil mdio de ganhos, Quantias de dinheiro ( possvel comparar se cada quantia ou no destacvel para anlise)

Conhecimento
Mecanismos de aplicao de dinheiro, Polticas e regras de investimento, Perfis de gasto e consumo, Prazos de investimento, Capitalizao, Tcnicas de investimento, Histrico de investimentos

Temperatura ambiente

Amostragem da temperatura para este perodo nos ltimos seis anos, Evoluo das temperaturas nos ltimos dois anos, em perodos seis anos diversos, Temperaturas de territrios vizinhos ao nosso, no perodo de

Tcnicas de plantio, Tcnicas de colheita, Funcionamento de maquinaria para plantio e colheita, Adaptao de infra-estrutura para plantio e colheita, Distribuio, Adaptao das sementes aos fatores climticos, Rendimento do plantio, Valor econmico do plantio, Mercado para venda dos produtos agrcolas

Valores das vendas de hoje

Histrico de vendas no ms, Histrico das vendas deste ms nos ltimos anos, Crescimento do mercado, Posio dos concorrentes

Estudo

do

perfil

do

consumidor,

Receptividade do consumidor a novas ofertas e promoes, Retorno de campanhas publicitrias, Estudos de Ciclo de Vida do produto

___________________________________________________________________________
Fonte: Jamil, 2001.

1.2 Processos de Minerao de Dados

Alguns autores citados por Melanda, Paula, Pugliesi e Rezende (2003) adotam diversas abordagens quanto diviso de etapas do processo de Extrao de Conhecimento de Bases de Dados. No entanto, Melanda, Paula, Pugliesi e Rezende (2003) consideram o processo em trs etapas: pr-processamento, Extrao de Padres e ps-processamento. H ainda uma fase anterior ao processo (a identificao do problema, inerente ao estudo do domnio da aplicao) e uma posterior ao mesmo, referente utilizao do conhecimento obtido; estas fases so ilustradas na Figura 1. Os usurios do processo de Minerao de Dados so classificados em Especialista do Domnio, que dever ter amplo conhecimento acerca do domnio do problema e apoiar a execuo do processo; O Analista, que dever ter profundo conhecimento do processo de

19

Minerao de Dados e ser responsvel pela execuo da Extrao do Conhecimento e o Usurio Final, que utilizar o conhecimento obtido para auxlio no processo de tomada de deciso este usurio no dever ter conhecimento profundo do domnio da aplicao. ___________________________________________________________________________

___________________________________________________________________________
Figura 1: Etapas do Processo de Minerao de Dados.

1.2.1 Identificao do problema

Esta etapa diz respeito ao estudo do domnio da aplicao e da definio dos objetivos e metas a serem alcanadas, conforme Melanda, Paula, Pugliesi e Rezende (2003). Parte do sucesso do processo de Extrao de Conhecimento deve-se participao do Especialista do Domnio, tanto no fornecimento do conhecimento sobre o domnio em questo, quanto no auxlio dispensado ao analista na tarefa de encontrar os padres. Esta fase poder responder a questes como:

20

Quais so as principais metas do processo? Quais critrios de desempenho so importantes? O conhecimento extrado deve ser compreensvel a seres humanos ou um modelo do tipo caixa-preta apropriado? Qual deve ser a relao entre simplicidade e preciso do conhecimento extrado? Enfim, o conhecimento sobre o domnio da aplicao fornece um subsdio para as demais etapas do processo de Extrao de Conhecimento, provendo maior segurana e critrio aos usurios do processo durante a execuo de suas tarefas.

1.2.2 Pr-processamento

No raro, os dados disponveis para anlise no esto formatados adequadamente para a Extrao de Conhecimento, alm do que algumas limitaes, sejam de memria ou processamento impedem a aplicao direta dos algoritmos de extrao de padres aos dados. Assim, faz-se necessrio lanar mos de mtodos para a limpeza desses dados antes de iniciar a etapa de Extrao de Padres. Melanda, Paula, Pugliesi e Rezende (2003) salientam a importncia de observar os objetivos do processo no momento de fazer as transformaes, de modo que os dados gerados apresentem as caractersticas necessrias para que os objetivos sejam cumpridos. Segundo os autores, as transformaes a serem executadas nessa etapa so: Extrao e Integrao, Transformao, Limpeza, Seleo e Reduo de Dados. Extrao e Integrao: Os dados para anlise podem ter originado de diferentes fontes, como arquivos do tipo texto, planilhas, Bancos de Dados ou Data Warehouse. Ento, ser necessrio unificar esses dados, modelando-os no formato atributo-valor, gerando uma nica fonte de dados que servir como entrada para o algoritmo de Extrao de Padres. Transformao: Os dados extrados e integrados devero ser adequados para serem utilizados nos algoritmos de Extrao de Padres. As transformaes podem ser por resumo, por exemplo o agrupamento dos dados sobre vendas para gerao de resumos dirios;

21

transformao de tipo, quando o atributo tem seu tipo transformado em outro tipo, para melhor ser utilizado pelo algoritmo de Extrao de Padres; a normalizao de atributos contnuos, estabelecendo seus valores em intervalos definidos, como por exemplo entre 0 e 1. As transformaes podem ser extremamente importantes em domnios que tratem sries temporais, como por exemplo a previso no mercado financeiro. Limpeza: Os dados disponveis podem apresentar problemas advindos da coleta, como erros de digitao ou de leitura por sensores. Desse modo, tcnicas de limpeza devem ser aplicadas, pois a qualidade dos dados um fator extremamente importante. A limpeza pode ser realizada utilizando o conhecimento do domnio. Seleo e Reduo de Dados: Devido a possveis restries de memria e tempo de processamento, o nmero de exemplos e de atributos disponveis pode inviabilizar a utilizao de algoritmos de Extrao de Padres. Para se resolver esse problema, pode-se aplicar alguns mtodos antes de iniciar a busca por padres: Reduo do nmero de exemplos: utiliza-se a amostragem aleatria, por mostrar-se mais eficaz na produo de amostras mais representativas. Trata-se de um importante fator, pois se a amostra no for representativa, os exemplos possivelmente no sero capazes de refletir a realidade; Reduo do nmero de atributos: Dever ser selecionado um subconjunto dos atributos existentes, de modo que isso no comprometa a qualidade da soluo final. Esse processo poder ser executado com o apoio do Especialista do Domnio. Deve-se remover apenas aqueles atributos que certamente no tero nenhuma importncia para o modelo final; Reduo do nmero de valores de um atributo: Consiste na discretizao ou na suavizao dos valores de um atributo contnuo. A discretizao substitui um atributo contnuo (inteiro ou real) por um atributo discreto, por meio de agrupamento de seus valores, estabelecendo intervalos na forma [Vinferior : Vsuperior], respectivamente os limites inferior e superior do intervalo. A suavizao consiste na reduo do valor de um atributo, sem discretiz-lo. Os valores de um determinado atributo sero agrupados, e cada grupo de valores ser substitudo por um valor nmero que o represente, sendo que este valor poder ser a mdia, mediana ou valor de borda de cada grupo.

22

1.2.3 Extrao de Padres

A Extrao de Padres dever abranger a escolha, configurao e execuo de um ou mais algoritmos para a Extrao do Conhecimento. Para Melanda, Paula, Pugliesi e Rezende (2003), essa uma etapa iterativa, o que significa que podero ser necessrias vrias repeties a fim de se ajustar os parmetros, visando resultados mais adequados aos objetivos preestabelecidos. Essa etapa compreende a escolha da tarefa, a escolha do algoritmo e a extrao dos padres em si. A escolha da tarefa ser feita de acordo com os objetivos desejveis para a soluo a ser encontrada (ver as principais tarefas e suas respectivas descries e exemplos na seo 1.3). As tarefas possveis de um algoritmo de extrao de padres podem ser agrupadas em atividades preditivas e descritivas, conforme Figura 2: ___________________________________________________________________________

___________________________________________________________________________
Figura 2: Tarefas de Minerao de Dados

As atividades de predio focam a generalizao de exemplos ou experincias anteriores com respostas conhecidas numa linguagem que ser capaz de reconhecer a classe de um novo exemplo. J as atividades de descrio lidam com a identificao de comportamentos intrnsecos do conjunto de dados, que no possuem uma classe especfica.

23

A escolha de um algoritmo realizada de acordo com a linguagem de representao de padres a serem encontrados. Por exemplo, se for um caso de classificao, algoritmos de rvore de Deciso ou regras de produo podem ser utilizados. Entre os tipos mais comuns de representao esto as rvores de Deciso, regras de produo, modelos lineares, modelos no-lineares (Redes Neurais Artificiais), modelos baseados em exemplos (K-Nearest Neighbor, Raciocnio Baseado em Casos) e modelos de dependncia estatstica (Redes Bayesianas). Um ponto importante a complexidade da soluo encontrada pelo algoritmo, que est diretamente associada capacidade de representao dos conceitos embutidos nos dados. Quando os parmetros de um algoritmo esto ajustados de modo a encontrar solues mais complexas que o conceito efetivamente existente nos dados, esse algoritmo pode ter um desempenho bom para esse conjunto de treinamento, mas ruim para novos exemplos, ocorrendo overfitting. Em contrapartida, se o ajuste insuficiente para adequar o conceito representado nos dados, o modelo induzido poder no ser representativo, ocorrendo underfitting, sendo que, neste caso, o modelo encontrado provavelmente no ter bom desempenho tanto sobre os dados de treinamento quanto sobre novos exemplos. Assim, faz-se necessrio uma criteriosa configurao dos parmetros dos algoritmos; poder ser feita a escolha de vrios algoritmos para a realizao da tarefa, o que originar vrios modelos a serem tratados na fase de ps-processamento, a fim de fornecer o conjunto de padres mais adequados ao usurio final. A etapa de extrao de padres visa a aplicao dos algoritmos de Minerao escolhidos para a Extrao dos Padres; esses algoritmos devero ser executados diversas vezes, dependendo da funo escolhida. A disponibilizao dos padres extrados ou sua incorporao a um Sistema Inteligente dever ocorrer aps a anlise e/ou processamento dos mesmos na etapa de ps-processamento.

1.2.4 Ps-processamento

Obter o conhecimento a partir dos dados ainda no a ltima etapa de Minerao de Dados; o conhecimento obtido ser, finalmente, utilizado na resoluo de problemas do mundo real. Todavia, importante observar algumas questes, tais como, se o conhecimento extrado realmente representa o conhecimento do especialista, como o conhecimento extrado

24

difere do conhecimento do especialista, ou em que parte o conhecimento do especialista est correto. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Um dos objetivos primordiais da extrao de conhecimento que o usurio possa compreender e utilizar o conhecimento obtido. O fator compreensibilidade mostra-se essencial nesse processo. A compreensibilidade de um certo conjunto de regras est relacionada com a facilidade com que o usurio pode interpret-las ou compreend-las exemplos desse fator podem compreender o nmero de regras e suas respectivas condies, ambos em nmero limitado, ou mesmo modelos que no contradizem o conhecimento prvio de um usurio especialista. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Outro notvel fator a interessabilidade, a qual busca avaliar o quanto h de conhecimento interessante. O fator interessabilidade engloba duas medidas as objetivas, apenas relacionadas com estruturas de padres e do conjunto de dados de teste, sendo algumas delas, de acordo com Horst apud Melanda, Paula, Pugliesi e Rezende (2003) modelos de regras, coberturas de regras mnimas, custo da classificao incorreta e tamanho do disjunto; as subjetivas, medidas que consideram que fatores especficos do conhecimento do domnio e de interesse do usurio devem ser tratados ao selecionar um conjunto de regras interessantes ao usurio, sendo algumas dessas, de acordo com Silberschatz e Tuzhilin apud Melanda, Paula, Pugliesi e Rezende (2003), a inesperabilidade e utilidade. Se o conhecimento, aps feita a anlise, no for interessante para o usurio final ou no cumprir com os objetivos propostos, o processo de extrao poder se repetido com o ajuste dos parmetros ou com a melhoria do processo de escolha dos dados, para obteno de melhores resultados numa prxima iterao.

1.3 Tarefas de Minerao de Dados

As tarefas de Minerao de Dados devero representar o que se quer minerar dentro dos dados, quais padres podero ser considerados interessantes dentro de um determinado contexto. Essas tarefas devero ser definidas logo no incio do processo de Minerao de Dados.

25

Dias (2002) ilustra de forma breve as principais tarefas de Minerao de Dados na Tabela 2:
Tabela 2: Tarefas realizadas por tcnicas de Minerao de Dados. __________________________________________________________________________________________ Tarefa Classificao Descrio Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz-los em classes, o objetivo descobrir um relacionamento entre o atributo meta (cujo valor ser previsto) e um conjunto de atributos de previso. Usada para definir um valor para alguma varivel contnua desconhecida. Exemplos Classificar pedidos de crdito. Esclarecer pedidos de seguros fraudulentos. Identificar a melhor forma de tratamento de um paciente. Estimar o nmero de filhos ou a renda total de uma famlia. Estimar o valor em tempo de vida de um cliente. Estimar a probabilidade de que um paciente morrer baseandose nos resultados de diagnsticos mdicos. Prever a demanda de um consumidor para um novo produto. Determinar que produtos costumam ser colocados juntos em um carrinho de supermercado. Agrupar clientes por regio do pas. Agrupar clientes com comportamento de compra similar. Agrupar sees de usurios Web para prever comportamento futuro de usurio. Tabular o significado e desvios padro para todos os itens de dados. Derivar regras de sntese.

Estimativa (ou regresso)

Associao

Usada para determinar quais itens tendem a ser adquiridos juntos em uma mesma transao. Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos.

Segmentao (ou Clustering)

Sumarizao

Envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados.

___________________________________________________________________________
Fonte: Dias, 2002.

A tarefa de classificao consiste no mapeamento de um conjunto de exemplos, ou conjunto de dados de entrada, de um estrito nmero de categorias. Cada exemplo faz parte de uma classe, dentro de um conjunto predefinido de classes, e os exemplos so constitudos de um conjunto de atributos e um atributo-classe (ou atributo-meta) discreto. Um algoritmo de classificao objetiva encontrar relacionamentos entre os atributos e uma classe, de modo que seja capaz de predizer a classe de um exemplo novo e desconhecido. A tarefa de regresso

26

segue basicamente o mesmo conceito de tarefa de classificao, entretanto o atributo a ser predito contnuo, e no discreto. (MELANDA; PAULA; PUGLIESI e REZENDE, 2003). Regras de associao investigam o quanto a presena de um conjunto de atributos em registros de uma Base de Dados implica a presena de outro conjunto de atributos. O formato da regra apresentado como L R, o lado esquerdo (Left Hand Side) e o lado direito (Right Hand Side), respectivamente. A tarefa de segmentao (ou clustering) objetiva formar agrupamentos a partir dos dados. Esse processo feito de maneira que os exemplos com atributos similares sejam inseridos num mesmo cluster, sendo que os mesmos podem ser mutuamente exclusivos ou sobrepostos. A tarefa de sumarizao lana mo de mtodos para descrever de forma compacta um subconjunto de dados. A definio da mdia e desvio padro de todos os campos um exemplo de sumarizao.

1.4 Tcnicas de Minerao de Dados

Inteligncia Artificial o ramo da computao preocupado com a automao de comportamento inteligente Luger & Stubblefield (apud FERNANDES, 2003, p.2). Feigenbaum apud Fernandes (2003), destaca que a Inteligncia Artificial a rea da computao direcionada ao desenvolvimento de sistemas de computadores que sejam capazes de exibir caractersticas associadas inteligncia no comportamento humano, como a linguagem natural, o raciocnio, a aprendizagem, entre outros. A Inteligncia Artificial uma tentativa de reproduo computacional da capacidade humana de raciocnio e compreenso do mundo sua volta, emulando assim processos pelos quais os seres humanos chegam s solues para os mais variados tipos de problemas. A Inteligncia Artificial pode ser classificada em vrios modelos, os quais podem assumir o papel de tcnica de Minerao de Dados. De acordo com Ganascia apud Fernandes (2003), os principais modelos de Inteligncia Artificial so os Algoritmos Genticos, a

27

Programao Evolutiva, Lgica Fuzzy, Sistemas Baseados em Regras, Raciocnio Baseado em Casos, Programao Gentica e Redes Neurais Artificiais, brevemente descritos a seguir: Algoritmos Genticos: so modelos inspirados na teoria da evoluo da espcie, ilustrada no livro Origem das Espcies, escrito por Charles Darwin no ano de 1859. Darwin foi o criador da teoria evolucionista, segundo a qual os seres mais aptos so os que tm maiores chances de sobrevivncia. Algoritmos Genticos objetivam a emulao das operaes genticas (cruzamento, mutao e reproduo), tal qual so observadas na natureza. Para tal, uma mquina cria uma populao de indivduos que representam os cromossomos, que passam por um processo simulado de evoluo, seleo e reproduo, gerando novas populaes; Programao Evolutiva: So semelhantes aos Algoritmos Genticos, salvo a nfase dada relao comportamental entre os parentes e seus descendentes; Lgica Fuzzy: Tambm chamada de lgica difusa ou nebulosa, trata-se de um modelo responsvel pela representao, manipulao e modelagem de informaes com certo grau de incerteza; Sistemas Baseados em Regras: Tratam da implementao de comportamento Inteligente de especialistas humanos; Programao Gentica: Objetiva a construo de programas que visam imitar o processo natural da Gentica. Trabalha com mtodos de busca aleatria; Raciocnio Baseado em Casos: Utiliza uma extensa biblioteca de casos que esto disponveis para consulta e resoluo de problemas, os quais so resolvidos atravs da recuperao e consultas desses casos, j solucionados, e da conseqente adaptao das solues encontradas; Redes Neurais Artificiais: Procuram emular o processamento cerebral humano. Consiste em um nmero de elementos interconectados (os neurnios) dispostos em camadas que aprendem pela modificao da conexo firmemente conectando as camadas. De acordo com Dias (2002), no existe uma tcnica que resolva plenamente todos os problemas de Minerao de Dados. Existem vrios mtodos para diferentes propsitos, e cada um deles apresenta vantagens e desvantagens.

28

Na Tabela 3, Dias (2002) sumariza as tcnicas de Minerao de Dados comumente utilizadas:


Tabela 3: Tcnicas de Minerao de Dados. __________________________________________________________________________________________ Tcnica Descoberta de Regras de Associao rvores de Deciso Descrio Estabelece uma correlao estatstica entre atributos de dados e conjuntos de dados. Hierarquizao dos dados, baseada em estgios de deciso (ns) e na separao de classes e subconjuntos. Baseado no mtodo do vizinho mais prximo, combina e compara atributos para esclarecer hierarquia de semelhana. Mtodos gerais de busca e otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de terem descendentes. Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes. Tarefas Associao Exemplos Apriori, AprioriTid, AprioriHybrid. C5.0, Quest.

Classificao Regresso

Raciocnio Baseado em Casos ou MBR

Classificao Segmentao

BIRCH, CLARANS e CLIQUE.

Algoritmos Genticos

Classificao Segmentao

Algoritmo Gentico Simples, Genitor, Algoritmo de Hills.

Redes Artificiais

Neurais

Classificao Segmentao

Perceptron, Redes de Kohonen, Rede Hopfield, Rede Counterpropagation, Rede Time Delay, Neocognitron.

___________________________________________________________________________
Fonte: adaptado de Dias, 2002.

1.4.1 Escolha da Tcnica de Minerao de Dados

A escolha da tcnica para a Minerao de Dados no uma tarefa fcil, a qual depender da tarefa especfica a ser executada e dos dados disponveis para anlise. Berry e Linoff apud Dias (2002) sugerem dois passos para seleo da tcnica de Minerao de Dados:

29

1. Traduzir o problema de negcio a ser resolvido em sries de tarefas de minerao de dados: Este primeiro passo trata a definio de uma espcie de meta comercial, como por exemplo manter os clientes. Objetiva-se aqui identificar os assinantes que tenham pretenso de desistir de suas respectivas assinaturas e tambm os assinantes que no pretendem faz-lo, executando uma classificao. Assim, usando um conjunto de dados de treinamento com exemplos de clientes que cancelaram a assinatura e exemplos de outros clientes que no o fizeram, ser possvel a construo de um modelo que seja capaz de rotular cada cliente como fiel ou instvel; 2. Compreender a natureza dos dados disponveis em termos de contedo e tipos de campos de dados e estrutura das relaes entre os registros: O segundo passo compreende a determinao das caractersticas dos dados em anlise, a fim de selecionar a tcnica de Minerao de Dados para diminuir o nmero e dificuldade de transformao de dados. A Tabela 4 sumariza as caractersticas de dados, bem como suas respectivas tcnicas de Minerao.

30

Tabela 4: Caractersticas de dados. _________________________________________________________________________________________ Caracterstica Variveis de categorias Descrio So campos que apresentam valores de um conjunto de possibilidades limitado e predeterminado Variveis numricas So aquelas que podem ser somadas e ordenadas. Muitos registro campos por Este pode ser um fator de deciso da tcnica correta para uma aplicao especfica, uma vez que os mtodos de minerao de dados variam na capacidade de processar grandes nmeros de campos de entrada. Variveis mltiplas Registro de comprimento varivel dependentes Caso em que desejado prever vrias variveis diferentes baseadas nos mesmos dados de entrada. Apresentam dificuldades na maioria das tcnicas de minerao de dados, mas existem situaes em que a transformao Dados ordenados para registros de Rede Neural intervalar (time-delay). Descoberta de regras de associao. comprimento fixo no desejada. Apresentam dificuldades para todas as tcnicas e, geralmente, requerem aumento dos dados de teste com marcas Texto sem formatao ou avisos, variveis de Raciocnio (MBR). baseado em casos diferena, etc. A maioria das tcnicas de minerao de dados incapaz de manipular texto sem formatao. cronologicamente Descoberta de regras de associao. Redes Neurais Raciocnio (MBR). rvores de deciso. rvores de deciso. baseado em casos Tcnicas de Minerao de Dados Descoberta de regras de associao. rvores de deciso.

___________________________________________________________________________
Fonte: Dias, 2002.

31

1.5 Tecnologias de Suporte Minerao de Dados

De acordo com Melanda, Paula, Pugliesi e Rezende (2003), a Minerao de Dados lana mo de diversas tcnicas, de diferentes reas, como o Aprendizado de Mquina, Data Warehousing, Banco de Dados, Estatstica e Visualizao de Dados. Dessas tcnicas, o Aprendizado de Mquina o mais utilizado, no decorrer da fase de Extrao de Padres, e as demais so tidas como ferramentas de apoio ao processo de Minerao de Dados.

1.5.1 Aprendizado de Mquina

Para Monard e Baranauskas (2003), o aprendizado de mquina uma rea da Inteligncia Artificial que objetiva desenvolver tcnicas computacionais sobre o conhecimento e construir sistemas que so capazes de adquirir conhecimento de forma automtica; os sistemas de aprendizado de mquina basearo suas decises sobre experincias acumuladas atravs da soluo bem-sucedida de problemas anteriores. Os autores frisam que, apesar do aprendizado de mquina ser poderoso na aquisio automtica do conhecimento, no h um nico algoritmo que apresente melhor desempenho para todos os problemas. A forma de extrair o conhecimento utilizado a inferncia indutiva; a induo, conforme discorre Monard e Baranauskas (2003), obtm o raciocnio a partir de um conjunto particular de exemplos, caracterizando raciocnio originado de conceitos especficos e generalizados da parte para o todo. O aprendizado indutivo pode ser dividido em aprendizado supervisionado e aprendizado no-supervisionado. No aprendizado supervisionado, fornecido ao indutor (ou algoritmo de aprendizado) um conjunto de exemplos de treinamento, o qual o rtulo da classe associada conhecido. J no aprendizado no-supervisionado, o indutor analisa o exemplo fornecido para treinamento, forma agrupamentos e tenta classificar cada um destes, a fim de determinar o que cada um dos agrupamentos significa dentro do problema em questo.

32

Monard e Baranauskas (2003) afirmam que, no processo de classificao, o conhecimento do domnio poder ser utilizado na escolha dos dados ou no fornecimento de alguma informao previamente conhecida, como entrada ao indutor. Aps a induo, o classificador geralmente avaliado e o processo de classificao poder ser repetido, se necessrio, por exemplo, no ajuste de parmetros ou adio de novos exemplos. Monard e Baranauskas (2003) frisam que o grau de compreensibilidade proporcionado ao ser humano um fator de relevncia. Michalski e Kubat, Bratko, & Michalski apud Monard e Baranauskas (2003) dispem os sistemas de aprendizados em duas categorias: Os sistemas do tipo caixa-preta: desenvolvem sua prpria representao dos conceitos; so sistemas cujas representaes internas no podem ser facilmente interpretadas pelos seres humanos e no fornecem esclarecimento, tampouco explicao de seu processo de reconhecimento; Os sistemas orientados ao conhecimento: so sistemas que fornecem estruturas simblicas compreensveis aos seres humanos. Quanto aos paradigmas de Aprendizado de Mquina, Monard e Baranauskas (2003) citam alguns exemplos destes, a seguir: Simblico: Buscam aprender construindo representaes simblicas de um conceito. Esto tipicamente na forma de rvores de deciso, regras ou redes semnticas; Estatstico: Utiliza modelos estatsticos na aproximao do conceito induzido. Entre os mtodos estatsticos, destacam-se os de aprendizado Bayesiano, que utilizam modelos probabilsticos baseados no conhecimento prvio do problema; Baseados em exemplos: Classifica exemplos desconhecidos com base em exemplos similares. So denominados sistemas lazy (preguioso), os quais necessitam manter os exemplos na memria para classificar novos exemplos. Uma das tcnicas mais conhecidas neste paradigma o Raciocnio Baseado em Casos. Conexionista: Utiliza Redes Neurais Artificiais, que so inspiradas no modelo biolgico do sistema nervoso, na resoluo de problemas;

33

Evolutivo: Consiste no modelo biolgico de aprendizado. Possui analogia direta com a Teoria da Evoluo proposta por Darwin, onde os mais fortes e com maior facilidade de adaptao sobrevivem. Uma tcnica utilizada neste paradigma so os algoritmos genticos. O aprendizado supervisionado possui diversos conceitos e definies; alguns desses esto contidos no escopo deste projeto e so descritos a seguir: Indutor: Algoritmo de induo que dever extrair um bom classificador a partir de exemplos rotulados; o classificador ser utilizado para classificar exemplos novos (no rotulados) a fim de predizer o rtulo de cada um. Exemplo: Tupla de valores de atributos, o exemplo descreve o objeto de interesse, como dados de um paciente de determinada clnica, entre outros. Atributo: Caracterstica ou aspecto de um exemplo. Os atributos podem ser classificados normalmente em nominal ou discreto (quando no existe ordem entre valores, por exemplo: vermelho, azul) e contnuo (quando h uma ordem linear de valores , por exemplo: peso , um nmero real). Classe: Tambm denominado rtulo, descreve o fenmeno de interesse, isto , o conceitometa. Nos casos de classificao, os rtulos tipicamente pertencem a um conjunto de atributos discretos. Conjunto de exemplos: Composto por exemplos contendo valores de atributos, bem como a classe associada, tal como mostrado na tabela abaixo:

34

Tabela 5: Conjunto de exemplos no formato atributo-valor. __________________________________________________________________________________________

X1 T1 T2 ... Tn x11 x21 ... xn1

X2 x12 x22 ... xn2

... ... ... ... ...

Xm x1m x2m ... xnm

Y y1 y2 ... yn

___________________________________________________________________________
Fonte: Monard e Baranauskas, 2003.

A ltima coluna, Y, contm o atributo-meta, tambm chamado de classe. Classificador: Tambm chamado de hiptese. A partir do classificador, a classe de um novo exemplo dever ser predita com maior preciso possvel. Rudo: Trata-se de imperfeies nos dados, que podem ser derivados, por exemplo, no processo de aquisio ou transformao desses dados. Matriz de confuso: A matriz de confuso oferece medida efetiva do modelo de classificao, ao mostrar o nmero de classificaes corretas contra as classificaes preditas para cada classe sobre um conjunto de exemplos T. Cada elemento M(Ci, Cj) da matriz, i, j: 1, 2, ..., k, calculado pela equao M(Ci, Cj) = ((x,y)T : y = Ci) representa o nmero de exemplos de T que pertencem classe Ci, mas foram classificados como sendo da classe Cj.
Tabela 6: Matriz de Confuso de um classificador. __________________________________________________________________________________________

Classe verdadeira C1 verdadeira C2 ... verdadeira Ck

Predita C1 M(C1, C1) M(C2, C1) ... M(Ck, C1)

Predita C2 M(C1, C2) M(C2, C2) ... M(Ck, C2)

... ... ... ... ...

Predita Ck M(C1, Ck) M(C2, Ck) ... M(Ck, Ck)

__________________________________________________________________________________________ Fonte: Monard e Baranauskas, 2003.

35

O nmero de acertos para cada classe localiza-se na diagonal principal M(Ci,Ci) da matriz de confuso, sendo que os demais representam erros de classificao. A matriz de confuso de um classificador ideal possui todos esses elementos iguais zero, o que significa que nenhum elemento de uma classe foi predita como sendo de outra classe, ou seja, o classificador no cometeu erros. Para melhor ilustrar tais assertivas, consideram-se duas classes usualmente rotuladas como + (positiva) e - (negativa), onde os dois erros possveis so denominados como falso positivo (FP) e falso negativo (FN), conforme ilustrado na tabela 7, onde TP o nmero de exemplos positivos classificados corretamente e TN o nmero de exemplos negativos classificados corretamente, no total de n= (TP + FN + FP + TN) exemplos.

Tabela 7: Matriz de Confuso para a classificao com duas classes. __________________________________________________________________________________________

Classe verdadeira C +

Predita C+ Verdadeiros positivos TP Falsos positivos

Predita CFalsos negativos FN Verdadeiros negativos TN

verdadeira C -

FP

__________________________________________________________________________________________ Fonte: adaptado de Monard e Baranauskas, 2003.

A seguir, so apresentadas frmulas para o clculo de taxas de correo de classificao, com base em Frank e Witten (2000):

Taxa de verdadeiros positivos (ou TP Rate):

TP TP + FN

Taxa de falsos positivos (ou FP Rate):

FP FP + TN

36

Precision: nmero de instncias classificadas corretamente como X


nmero total de instncias classificadas como X

Recall:

nmero de instncias classificadas corretamente como X nmero total de instncias para Classe X

F-Measure:

2TP 2TP + FP + FN

1.5.1.1 Avaliao de algoritmos

Monard e Baranauskas (2003) frisam o poder do Aprendizado de Mquina ressaltando, contudo, que no h um nico algoritmo que apresente o melhor desempenho para todos os problemas. A seguir, so descritos mtodos para estimar medidas de erro e preciso, com base nos mesmos autores: Resubstituio: consiste em construir um classificador a partir de um conjunto de instncias e utiliz-las para testar seu desempenho, ou seja, o conjunto de teste idntico ao conjunto de treinamento. Esse mtodo fornece uma medida aparente, com medidas de preciso bastante otimistas, afinal o processo de classificao tenta maximiz-la. Para algoritmos que geralmente classificam todas as instncias corretamente, como o caso do 1-Nearest Neighbors (vizinhos mais prximos), o presente mtodo bastante otimista, podendo a estimativa de preciso atingir at 100%; Holdout: o presente mtodo divide os exemplos em uma porcentagem fixa de exemplos p para treinamento e (p 1) para teste, considerando normalmente p > ;

37

Amostragem aleatria: no presente mtodo, L hipteses, L<<n, so induzidas a partir de cada conjunto de treinamento, sendo o erro final a mdia dos erros de todas as hipteses induzidas, calculados em conjuntos de testes independentes e extrados aleatoriamente; Cross-validation: consiste em dividir as instncias aleatoriamente em r parties de tamanho aproximadamente igual a r / n exemplos, sendo as instncias contidas nas (r 1) parties utilizadas para treinamento, e a hiptese induzida testada na partio remanescente. Tal processo executado n vezes, cada vez considerando uma partio diferente para teste; Leave-one-out: trata-se de um caso especial de cross-validation, sendo computacionalmente dispendioso e freqentemente usado em amostras pequenas; para uma amostra de n instncias, uma hiptese induzida utilizando (n 1) instncias; Bootstrap: consiste em repetir o processo de classificao vrias vezes e estima-se, ento, valores como o erro, a partir dos experimentos replicados.

1.5.1.2 Avaliao de predio numrica

Frank e Witten (2000) mencionam diversas medidas de desempenho para predio numrica, descritas na tabela 8. Dentre essas medidas, os mesmos autores denominam a medida de desempenho Mean-squared error como uma medida principal, a mais comumente utilizada.

38

Tabela 8: Medidas de desempenho para predio numrica (p para valores preditos e a para valores atuais).

___________________________________________________________________________
Mean-squared error

( p1 a1 )2 + ... + ( p n a n )2
n

Root mean-squared error

( p1 a1 )2 + ... + ( p n a n )2
n
p1 a1 + ... + p n a n n

Mean absolute error

Relative squared error

( p1 a1 )2 + ... + ( p n a n )2

(a
Root relative squared error

a + ... + a n a

, onde

a=

1 ai n i

( p1 a1 )2 + ... + ( p n a n )2

(a
Relative absolute error

a + ... + a n a

p1 a1 + ... + p n a n a1 a + ... + a n a

Correlation coefficient (Kappa Statistic)

S PA SPS A SP

, onde

S PA =

(p
i

p ai a
n 1

)(

(p =
i

n 1

SA

(a =
i

n 1

___________________________________________________________________________
Fonte: Frank e Witten, 2000.

O valor ideal para cada uma das medidas de desempenho vistas na tabela 8 zero, com exceo da Correlation Coefficient, cujo valor ideal 1.

1.5.2 Ferramentas de Minerao de Dados

Para Melanda, Paula, Pugliesi e Rezende (2003), as ferramentas para Minerao de Dados devem ser intuitivas e amigveis, alm de oferecer suporte a todos os processos de Minerao de Dados e disponibilizar apoio para diversas tarefas e tcnicas.

39

A Tabela 9 lista algumas ferramentas para Minerao de Dados, de acordo com Melanda, Paula, Pugliesi e Rezende (2003):

Tabela 9: Algumas ferramentas para Minerao de Dados.

___________________________________________________________________________
Nome PolyAnalyst Tcnicas disponveis Classificao, regresso, regras de associao, clustering, sumarizao e modelagem de dependncia Classificao, regras de associao e clustering Classificao e clustering Classificao e regras de associao Classificao, regresso e clustering Classificao, regresso e regras de associao Regras de associao, padres seqenciais, classificao, clustering, sumarizao e modelagem de dependncia Classificao, regras de associao, clustering e padres seqenciais. Fabricante Site Megaputer Intelligence www.megaputer.com

XpertRule Miner Microsoft Data Analyzer 2002 Oracle 9i Data Mining Darwin Weka Intelligent Miner

Attar Software Ltd. www.attar.com Microsoft Corp. www.microsoft.com Oracle Corp. www.oracle.com Oracle Corp. www.oracle.com University of Waikato www.cs.waikato.ac.nz IBM Corp. www.ibm.com

Clementine

SPSS Inc. www.spss.com

___________________________________________________________________________
Fonte: adaptado de Melanda, Paula, Pugliesi e Rezende, 2003.

Para o desenvolvimento do sistema inteligente, foi escolhida a ferramenta Weka, a qual est descrita no tpico subseqente. A escolha dessa ferramenta deve-se, inicialmente, ao fato da mesma ser gratuita1. Alm disso, a ferramenta oferece uma extensa gama de algoritmos de diversas tcnicas de Inteligncia Artificial, possibilitando a comparao do desempenho de cada um deles sobre determinado conjunto de dados.

Com relao aos preos das demais ferramentas, estes no foram fornecidos pelos respectivos fabricantes e/ou representantes at o fechamento do presente trabalho.

40

1.5.2.1 Ferramenta Weka

Desenvolvida na Universidade de Waikato em Nova Zelndia, a ferramenta Weka (Waikato Environment for Knowledge Analysis) um software para Minerao de Dados que engloba uma coleo de algoritmos de Aprendizado de Mquina. O sistema escrito em Java, que uma linguagem orientada a objetos largamente disponvel para a maioria das plataformas, entre elas os Sistemas Operacionais Windows, Linux e Macintosh, nos quais o sistema Weka j foi testado. (FRANK; WITTEN, 2000). O Weka possui vrias verses para seu sistema, dentre elas a verso 3.0, chamada de
book version (verso descrita no livro lanado pelos seus criadores), voltada linha de

comando; a verso 3.2, direcionada ao provimento de interface grfica ao usurio, a verso 3.3, chamada verso de desenvolvimento e, por fim, a verso 3.4.7 (mostrada na Figura 3), a qual traz diversas melhorias sobre as verses antecessoras.

___________________________________________________________________________

___________________________________________________________________________
Figura 3: Ferramenta WEKA verso 3.4.7.

O site oficial Weka (2004) faz uma sucinta abordagem ao Weka, apresentando os mdulos da ferramenta em sua verso 3.4.7:

41

Weka Knowledge Explorer: Esse mdulo, mostrado na Figura 4, o responsvel por

explorar o conhecimento a partir da base de dados. Engloba as seguintes funcionalidades: o pr-processamento, a partir do qual realizada a preparao dos dados para o processo de Minerao, oferecendo inclusive filtros, como exemplo, discretizao e normalizao de atributos; classificao, a qual dispe de diversos algoritmos para predio de quantidades nominais ou numricas, como rvores de deciso, Redes Bayesianas, Redes Neurais Artificiais (Redes Multi-Layer Perceptron), entre muitos outros; Clusterizao, onde algoritmos como o K-Means tero a funo de encontrar grupos de instncias similares em um conjunto de dados; a associao, destinada ao aprendizado de regras de associao, utilizando uma implementao do algoritmo Apriori; a Seleo de Atributos, onde feita a investigao de quais atributos so melhores preditivos; e Visualizao de Dados, muito til na prtica, fornece a possibilidade de visualizao de um s atributo e/ou combinao de vrios deles. Alm de tudo, vlido ressaltar que, com relao aos parmetros dos algoritmos, o Weka os tm pr-definidos, facilitando assim o trabalho do analista no momento de extrair os padres;

___________________________________________________________________________

___________________________________________________________________________
Figura 4: Mdulo WEKA Knowledge Explorer.

42

Weka Experiment Environment: A figura 5 retrata este mdulo, o qual torna fcil a

comparao de diferentes performances de diferentes esquemas de aprendizado. voltado para os problemas de classificao ou regresso. Os resultados gerados por esse mdulo podem ser gravados em um arquivo ou em um banco de dados.

___________________________________________________________________________

___________________________________________________________________________
Figura 5: Mdulo WEKA Experiment Environment.

Weka KnowledgeFlow Environment: Este mdulo prov interface grfica ao usurio,

baseado em interface Java-Beans, para a execuo dos experimentos em Aprendizado de Mquina. Os classificadores e Data Sources, por exemplo, so tidos nesse mdulo como componentes beans, podem ser conectados graficamente, conforme se pode observar na Figura 6, e os layouts nele elaborados podem ser salvos e consultados mais tarde.

43

___________________________________________________________________________

___________________________________________________________________________
Figura 6: Mdulo WEKA KnowledgeFlow Environment.

No obstante as opes supracitadas, a verso 3.4.7 do Weka ainda oferece uma verso voltada simples linha de comando, conforme pode ser observado na figura abaixo: ___________________________________________________________________________

___________________________________________________________________________
Figura 7: Mdulo WEKA SimpleCLI.

44

1.5.2.1.1 O formato ARFF

Com base em Frank e Witten (2000), conhecida uma maneira comum de representar conjuntos de dados que consistem em instncias independentes e no ordenadas sem relao umas com as outras, chamada de arquivo ARFF, que o formato no qual o conjunto de dados dever estar, para ser processado pelo Weka. Pode-se observar, de acordo com a figura 8, como o esquema de um arquivo ARFF. As linhas que comeam com um % so comentrios quaisquer que podero ser inseridos pelo analista. Seguindo-se aos comentrios, no comeo do arquivo, so o nome da relao (clima, neste caso) e um bloco definindo os atributos (previsao, temperatura, umidade, ventoIntenso, brincar?). Atributos nominais so seguidos por um conjunto de valores possveis, delimitados por chaves { }. Os atributos numricos so seguidos pela palavrachave numeric. Frank e Witten (2000) dizem que, embora o problema do clima seja predizer o valor da classe brincar? do valor de outros atributos, o atributo-classe no distinguido de modo algum no arquivo de dados. O formato ARFF apenas fornece um conjunto de dados, no especifica quais dos atributos o atributo que deve ser predito. Isso significa que o mesmo arquivo pode ser usado para investigar de que maneira cada atributo pode ser predito a partir dos demais, ou encontrar regras de associao, ou para clusterizao.

45

___________________________________________________________________________

___________________________________________________________________________
Figura 8: Arquivo ARFF para dados sobre clima.

Seguindo as definies de atributo, ainda sobre o exemplo em questo, est uma linha @data que sinaliza o incio das instncias no conjunto de dados. As instncias no conjunto de dados so escritas linha por linha, com valores definidos para cada atributo, separados por vrgulas. Caso um valor seja inexistente, este ser representado por ?. As especificaes de atributo em arquivos ARFF permitem que o conjunto de dados seja checado para que se certifique que ele contm valores legais para todos os atributos, e programas que lem arquivos ARFF o fazem automaticamente.

46

Uma maneira na qual se pode converter um conjunto de dados para o formato ARFF e, assim, adequ-lo ferramenta Weka, d-se nos seguintes passos, com base em Frank e Witten (2000): O conjunto de dados dever, originalmente, estar armazenado em um arquivo do Microsoft Excel; A partir deste arquivo, dentro do Microsoft Excel, o usurio dever clicar no menu Arquivo e selecionar a opo Salvar Como; Na opo Salvar como Tipo, escolher CSV (separado por vrgula), e confirmar, clicando em Salvar; Utilizar o editor de texto Microsoft Word para abrir o arquivo salvo no formato CSV; Dentro do editor de texto, o usurio poder notar o arquivo ARFF estruturado em parte. Logo, o mesmo dever acrescentar os blocos de cdigo restantes, de acordo com instrues j vistas anteriormente, contendo as definies de relao, atributos, sinalizao de instncias, bem como comentrios pertinentes; Aps tal processo, o usurio dever salvar as alteraes, clicando no menu Arquivo e selecionando a opo Salvar Como. A opo Salvar como Tipo dever ser o Texto sem Formatao; Salvar o arquivo, definindo seu nome seguido da extenso .arff; Imediatamente aps o clique em Salvar, uma janela ser aberta. Especificar a opo Terminar o Texto Com, escolhendo Somente com Retorno de Carro e, ento, confirmar a opo. Vale frisar que os passos supracitados foram concebidos com base na utilizao do Windows XP e verso 2003 do Microsoft Office. Logo, poder haver algumas diferenas em outras verses, com relao a formato de arquivos, nomenclaturas utilizadas e afins.

47

2 ESTUDO DE CASO

2.1 - Identificao do problema

A evaso escolar no ensino superior um problema latente nos dias atuais, um fenmeno grave que pode ser observado tanto nas instituies pblicas quanto nas privadas; trata-se de um problema relativamente antigo, que anos atrs motivou o surgimento de alguns estudos, conforme pode ser constatado no anexo 1, contido no presente trabalho, que tambm mostra, entre outros nmeros, a percentagem de alunos no-concluintes aps 4 anos, que em 2003 chegou a 27,5% no Ensino Pblico e 46% no Ensino Privado no pas, segundo o Ministrio da Educao e Cultura. Tendo sido notada a gravidade do problema da evaso escolar no ensino superior brasileiro, reconhece-se tal problema no mbito do CEULJI/ULBRA de Ji-Paran-RO, problema esse que representa um fator preocupante para a instituio, especialmente de como se chegar aos alunos propensos evaso e lanar mo de polticas e estratgias para ao menos tentar mant-los na instituio. Assim, partiu-se para a coleta dos dados dos alunos do CEULJI/ULBRA para sua utilizao nos processos de Minerao de Dados. Porm, todo esse processo, aparentemente simples, representou uma srie de dificuldades que acabaram por definir os rumos do presente trabalho.

48

A primeira dificuldade deu-se na obteno de autorizao para se ter acesso aos dados dos alunos, pelo carter sigiloso destes; tal autorizao levou meses at ser finalmente liberada. A dificuldade seguinte foi o acesso aos dados em si, pela indisponibilidade de pessoal da instituio que pudesse faz-lo, impasse que levou diversas semanas para ser solucionado. A soluo, ento, foi prover acesso direto ao analista, que pde, finalmente, coletar tais dados. Entretanto, o sistema utilizado pela instituio apresentou uma srie de inconsistncias, desde problemas de impresso at problemas de navegao, desperdiando dessa forma boa parte do tempo disponvel para a coleta de dados. Assim, s foi possvel coletar dados dos quais puderam ser extrados os atributos que se seguem, conforme visto na tabela abaixo:
Tabela 10: Atributos extrados na coleta de dados.

___________________________________________________________________________
Atributos Sexo Idade viveJP Situacao Tipo Nominal Inteiro Nominal Nominal Valores {m , f} 0...n {sim , nao} {formado , evadido} m - masculino F feminino sim o aluno vive em Ji-Paran No o aluno vive em outra cidade formado no-evasor evadido evasor Observao

___________________________________________________________________________

Outros dados importantes como as notas dos alunos ou o nmero de reprovaes ficaram de fora, no propositadamente, mas em decorrncia de todos os problemas anteriormente citados. Reconhece-se a carncia de atributos, entretanto optou-se por realizar a extrao de padres normalmente, a fim de se descobrir o quanto de conhecimento se pode extrair dos dados coletados. Por fim, tendo em vista a dificuldade de se acessar o volumoso nmero de registros de alunos da instituio, optou-se por trabalhar somente com os dados dos alunos do curso

49

Sistemas de Informao. Resultou-se, ento, num conjunto de 131 alunos, sendo 56 alunos formados e 75 alunos evadidos.

2.2 Pr-processamento

Aps coletados os dados, estes tiveram de ser inseridos manualmente em planilhas do Microsoft Excel. Em seguida, os dados j armazenados nas planilhas foram convertidos para o formato ARFF2, para que pudessem ser aceitos pela ferramenta Weka.

2.3 Extrao de padres

Tendo sido os dados coletados e adequados ferramenta Weka, a extrao de padres iniciou-se na escolha da tarefa de Minerao de Dados; aqui, a tarefa escolhida foi a tarefa de classificao, afinal a proposta do trabalho implica na identificao de alunos propensos evaso, baseando-se na predio do atributo-classe discreto situacao. Quanto escolha dos algoritmos para a extrao de padres, decidiu-se por realizar um teste com os diversos algoritmos disponibilizados pelo Weka, a fim de se escolher 3 classificadores que obtivessem um melhor desempenho com relao aos demais. Atravs dessa seleo, foram escolhidos os algoritmos, os quais so partes da classe de algoritmos lazy (preguiosos), paradigma de aprendizado de mquina baseado em exemplos, o qual classifica exemplos desconhecidos com base em exemplos similares, os quais esto descritos abaixo, de acordo com informaes fornecidas pela prpria ferramenta Weka: IB1: Classificador do vizinho mais prximo. Utiliza a distncia Euclidiana normalizada para encontrar a instncia de treinamento mais prxima da instncia de teste fornecida, e prediz a mesma classe dessa instncia de treinamento. Se mltiplas
2

Formato de arquivo no qual um conjunto de atributos e respectivas instncias dever estar para ser manipulado pela ferramenta Weka.

50

instncias tm a mesma (menor) distncia da instncia de teste, a primeira encontrada utilizada; IBK: Classificador dos K-vizinhos mais prximos. Normaliza atributos por default. Pode selecionar valor apropriado de K baseado no cross-validation; KSTAR: Classificador baseado em instncia, isto , a classe de uma instncia de teste baseada na classe daquelas instncias de treinamento similares a esta, como determinado por algumas funes de similaridade. Difere de outros aprendizes baseados em instncia, na qual utiliza uma funo de distncia baseada em entropia. Quanto aos dados, estes foram divididos em 1 conjunto de treinamento (composto de 131 alunos, ou instncias) e 1 conjunto de teste (composto de 65 alunos, ou instncias, selecionados ao acaso, a partir do conjunto total de 131 alunos), cujos respectivos formatos ARFF encontram-se descritos nos anexos 2 e 3. Com relao extrao de padres, optou-se pela correo dos dados em detrimento da predio em si; por isso, todos os exemplos do conjunto de teste j esto classificados, tendo assim, como objetivo, validar o modelo inteligente obtido a partir do conjunto de treinamento. Dentre os vrios tipos de mtodos de avaliao de algoritmos, escolheu-se o mtodo da Resubstituio, que utiliza o mesmo conjunto de treinamento para executar testes, por este se apresentar o mais preciso dentre os demais. No obstante, tal mtodo, aliado utilizao dos algoritmos lazy (preguiosos), que o caso do presente trabalho, pode representar um excelente desempenho, caso as instncias no forem conflitantes.

2.4 Ps-processamento

Tendo sido extrados os padres, a prxima etapa do processo de Minerao de Dados o ps-processamento dos padres extrados na etapa anterior, ou seja, analis-los a fim de se descobrir se os mesmos so vlidos, possuem um bom desempenho e, alm disso, refletem a realidade.

51

___________________________________________________________________________
80 70 60 50 40 30 20 10 0 KSTAR IB1 IBK KSTAR IB1 Conjunto de Teste IBK Conjunto de Treinamento 61 56 47 56 56 52 5756 75 75 75

53 Evasores reais Evasores preditos No-evasores reais No-evasores preditos

32 33 29 28

32

33 33 24

32

33 26

30

___________________________________________________________________________
Figura 9: Desempenho dos classificadores.

Como pode ser observado na figura 9, quando da utilizao do conjunto de treinamento como entrada para os classificadores, o algoritmo IBK o vencedor, tendo classificado 110 instncias corretamente (57 alunos evasores e 53 alunos no-evasores). J se tratando do conjunto de teste classificado tendo como base o modelo inteligente obtido a partir do conjunto de treinamento, o algoritmo IBK foi o que classificou menos instncias corretamente (56 instncias, sendo 26 alunos evasores e 30 alunos no-evasores). No caso dos testes, em desempenho ficaram empatados os algoritmos KSTAR e IB1 (57 instncias classificadas corretamente, sendo 29 alunos evasores e 28 alunos no-evasores no caso do algoritmo KSTAR e 24 alunos evasores e 33 alunos no-evasores no caso do algoritmo IB1). Vale destacar, contudo, que a anlise supracitada baseia-se to-somente no nmero de instncias classificadas corretamente. Logo, prope-se uma anlise mais aprofundada, tendo como indicadores medidas de desempenho para predio, apresentada nos tpicos subseqentes.

52

2.4.1 Desempenho sobre o conjunto de treinamento

Os quadros 1, 2 e 3, mostrados abaixo exibem os resultados da classificao das instncias, bem como medidas de desempenho e taxas de correo por classe relacionados, resultantes da execuo de cada algoritmo tendo o conjunto de treinamento como entrada.

Quadro 1: Sada do classificador KSTAR sobre o conjunto de treinamento

___________________________________________________________________________
Classificador weka.classifiers.lazy.KStar -B 20 -M a Instncias classificadas corretamente 108 (82,4427%) Mean Absolute error 0,3107 Instncias classificadas incorretamente 23 (17,5573%) Root Meansquared error 0,3671 Total de instncias 131

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,6453

Relative Absolute error 63,4581%

Root Relative Squared error 74,2143%

TP Rate 0,839 0,813

FP Rate 0,187 0,161

Precision 0,77 0,871

Recall 0,839 0,813

F-Measure 0,803 0,841

___________________________________________________________________________
Quadro 2: Sada do classificador IB1 sobre o conjunto de treinamento

___________________________________________________________________________
Classificador weka.classifiers.lazy.IB1 Instncias classificadas corretamente 108 (82,4427%) Mean Absolute error 0,1756 Instncias classificadas incorretamente 23 (17,5573%) Root Meansquared error 0,419 Total de instncias 131

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,659

Relative Absolute error 35,8575%

Root Relative Squared error 84,6981%

TP Rate 1 0,693

FP Rate 0,307 0

Precision 0,709 1

Recall 1 0,693

F-Measure 0,83 0,819

___________________________________________________________________________

53

Quadro 3: Sada do classificador IBK sobre o conjunto de treinamento

___________________________________________________________________________
Classificador weka.classifiers.lazy.IBk -K 1 -W 0 Instncias classificadas corretamente 110 (83,9695%) Mean Absolute error 0,1912 Instncias classificadas incorretamente 21 (16,0305%) Root Meansquared error 0,3071 Total de instncias 131

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,6832

Relative Absolute error 39,0488%

Root Relative Squared error 62,0772%

TP Rate 0,946 0,76

FP Rate 0,24 0,054

Precision 0,746 0,95

Recall 0,946 0,76

F-Measure 0,835 0,844

___________________________________________________________________________ Observando os quadros mostrados acima, pode-se notar que o desempenho dos classificadores IBK e IB1 est aberto disputa: o classificador IBK obteve maior ndice para
Kappa Statistic (0,6832) e menores ndices para Root Mean-Squared error (0,3071) e Root Relative Squared error (62,0772%), enquanto que o classificador IB1 obteve menores ndices

para Mean Absolute error (0,1756) e Relative Absolute error (35,8575%). Com relao a todos os classificadores, suas respectivas taxas de correo para cada classe oscilaram entre 0,693 e 1 (TP Rate, Precision, Recall e F-Measure) e entre 0,307 e 0 (FP Rate).

2.4.2 Desempenho sobre o conjunto de teste

Os quadros 4, 5 e 6, mostrados abaixo exibem os resultados da classificao das instncias, bem como medidas de desempenho e taxas de correo por classe relacionados, relativos aos testes realizados tendo como base os modelos inteligentes obtidos a partir do conjunto de treinamento.

54

Quadro 4: Sada do classificador KSTAR sobre o conjunto de teste

___________________________________________________________________________
Classificador weka.classifiers.lazy.KStar -B 20 -M a Instncias classificadas corretamente 57 (87,6923%) Mean Absolute error 0,313 Instncias classificadas incorretamente 8 (12,3077%) Root Meansquared error 0,3639 Total de instncias 65

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,754

Relative Absolute error 62,4719%

Root Relative Squared error 71,9028%

TP Rate 0,848 0,906

FP Rate 0,094 0,152

Precision 0,903 0,853

Recall 0,848 0,906

F-Measure 0,875 0,879

___________________________________________________________________________

Quadro 5: Sada do classificador IB1 sobre o conjunto de teste

___________________________________________________________________________
Classificador weka.classifiers.lazy.IB1 Instncias classificadas corretamente 57 (87,6923%) Mean Absolute error 0,1231 Instncias classificadas incorretamente 8 (12,3077%) Root Meansquared error 0,3508 Total de instncias 65

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,7529

Relative Absolute error 24,5614%

Root Relative Squared error 69,3103%

TP Rate 1 0,75

FP Rate 0,25 0

Precision 0,805 1

Recall 1 0,75

F-Measure 0,892 0,857

___________________________________________________________________________

55

Quadro 6: Sada do classificador IBK sobre o conjunto de teste

___________________________________________________________________________
Classificador weka.classifiers.lazy.IBk -K 1 W 0 Instncias classificadas corretamente 56 (86,1538%) Mean Absolute error 0,1837 Instncias classificadas incorretamente 9 (13,8462%) Root Meansquared error 0,2916 Total de instncias 65

Instncias

Medidas de Desempenho para predio Correo detalhada por classe Formado Evadido

Kappa Statistic 0,7226

Relative Absolute error 36,6517%

Root Relative Squared error 57,6041%

TP Rate 0,909 0,813

FP Rate 0,188 0,091

Precision 0,833 0,897

Recall 0,909 0,813

F-Measure 0,87 0,852

___________________________________________________________________________

Observando os quadros mostrados acima, pode-se notar que o desempenho dos classificadores IB1, KSTAR e IBK est aberto disputa: o classificador IB1 obteve menores ndices para Mean Absolute error (0,1231) e Relative Absolute error (24,5614%), enquanto que o classificador KSTAR obteve maior ndice para Kappa Statistic (0,754) e o classificador IBK obteve menores ndices para Root Mean-Squared error (0,2916) e Root Relative Squared
error (57,6041%).

Com relao a todos os classificadores, suas respectivas taxas de correo para cada classe oscilaram entre 0,75 e 1 (TP Rate, Precision, Recall e F-Measure) e entre 0,25 e 0 (FP
Rate).

56

2.4.3 Definio do perfil dos alunos evasores

Para a definio de um perfil dos alunos evasores do CEULJI/ULBRA de JiParan/RO, decidiu-se por utilizar o algoritmo NNge (tambm da classe de algoritmos baseados em exemplos, que extrai regras do tipo se - ento). Tendo sido extradas as regras (contidas no anexo final), observou-se que a maior incidncia de evasores encontra-se na faixa etria entre 18 e 21 anos, podendo ser este aluno do sexo masculino ou feminino, sendo ou no morador da cidade de Ji-Paran.

2.5 Consideraes sobre o estudo de caso

Apesar do bom resultado obtido pelos classificadores a partir dos dados dos alunos coletados no curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran-RO, o que prova o poder dos algoritmos de Inteligncia Artificial na extrao de padres de um conjunto de dados, ainda assim se reconhece a carncia de atributos, isto , existe a necessidade de se ter mais atributos para que mais padres interessantes sejam extrados e melhores desempenhos sejam atingidos. Dados importantes como o nmero de reprovaes de cada aluno, suas notas, entre tantos outros, por todos os problemas j mencionados, no puderam ser acessados, acabando por restringir drasticamente o nmero de atributos interessantes. Ento, tendo em vista essa lacuna no processo de Minerao de Dados aplicado na identificao de alunos propensos evaso no CEULJI/ULBRA de Ji-Paran, decidiu-se por realizar uma aplicao simulada (a qual descrita no prximo captulo), agregando-se dois atributos hipotticos ao conjunto de atributos reais, com o objetivo de analisar o desempenho dos classificadores com relao aos novos conjuntos de treinamento e teste, reforando a idia da carncia de atributos anteriormente mencionada.

57

3 APLICAO SIMULADA

A aplicao simulada deu-se na agregao de dois novos atributos (totalRep e medTotal) hipotticos, ao conjunto de atributos reais obtidos, conforme tabela a seguir:

Tabela 11: Atributos para aplicao simulada.

___________________________________________________________________________
Atributos Sexo Idade totalRep medTotal Tipo Nominal Inteiro Inteiro Real Valores {m , f} 0...n 0...n 0,0...n m - masculino F feminino Total de reprovaes de cada aluno. Resultado da soma das mdias gerais de todas as disciplinas cursadas por cada aluno, dividida pelo nmero de disciplinas cursadas. viveJP Situacao Nominal Nominal {sim , nao} {formado , evadido} sim o aluno vive em Ji-Paran No o aluno vive em outra cidade formado no-evasor evadido evasor Observao

___________________________________________________________________________

Tais atributos foram escolhidos por serem julgados importantes no processo e seus valores foram inseridos manualmente, sem nenhum critrio especfico, apenas o bom senso, ou seja, procurou-se, na medida do possvel, inserir valores que fossem condizentes ao perfil

58

de cada instncia (p.e.: alunos com histricos de reprovaes tm mdias naturalmente mais baixas que os demais, na maioria dos casos). Assim, foram criados novos conjuntos de treinamento e teste, cujos formatos ARFF encontram-se disponveis, respectivamente, nos anexos 4 e 5. Com relao tarefa de Minerao de Dados, aos algoritmos para a extrao de padres e ao mtodo para avaliao dos algoritmos, foram escolhidos os mesmos utilizados na etapa de extrao de padres realizada no estudo de caso real descrito no captulo 2.

___________________________________________________________________________
80 70 60 50 40 30 20 10 0 KSTAR IB1 IBK KSTAR IB1 Conjunto de Teste IBK Conjunto de Treinamento 28 37 37 27 28 37 37 27 28 37 27 37 56 56 56 56 56 56 Evasores reais Evasores preditos No-evasores reais No-evasores preditos 75 75 75 75 75 75

___________________________________________________________________________
Figura 10: Desempenho dos classificadores (aplicao simulada).

Como pode ser observado na figura 10, os 3 classificadores escolhidos para a extrao de padres obtiveram um desempenho mximo, ou seja, estes classificaram todas as instncias que compem o conjunto de treinamento corretamente. Quanto s instncias referentes ao conjunto de testes, apenas uma delas foi classificada incorretamente, desempenho este obtido tambm por todos os classificadores.

59

Assim como feito no estudo de caso, abordado no captulo anterior, foi realizada uma anlise das medidas de desempenho para predio, apresentada nos tpicos subseqentes.

3.1 Desempenho sobre o conjunto de treinamento

Os quadros 7, 8 e 9, mostrados abaixo exibem os resultados da classificao das instncias, bem como medidas de desempenho e taxas de correo por classe relacionados, resultantes da execuo de cada algoritmo tendo o conjunto de treinamento como entrada.

Quadro 7: Sada do classificador KSTAR sobre o conjunto de treinamento (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.KStar -B 20 -M a Instncias classificadas corretamente 131 (100%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0,067 Root Meansquared error 0,1192 Instncias classificadas incorretamente Total de instncias 131

Instncias

Kappa Statistic 1

Relative Absolute error 13,6917%

Root Relative Squared error 24,0944%

TP Rate 1 1

FP Rate 0 0

Precision 1 1

Recall 1 1

F-Measure 1 1

___________________________________________________________________________

60

Quadro 8: Sada do classificador IB1 sobre o conjunto de treinamento (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.IB1 Instncias classificadas corretamente 131 (100%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0 Root Meansquared error 0 Instncias classificadas incorretamente Total de instncias 131

Instncias

Kappa Statistic 1

Relative Absolute error 0%

Root Relative Squared error 0%

TP Rate 1 1

FP Rate 0 0

Precision 1 1

Recall 1 1

F-Measure 1 1

___________________________________________________________________________

Quadro 9: Sada do classificador IBK sobre o conjunto de treinamento (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.IBk -K 1 -W 0 Instncias classificadas corretamente 131 (100%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0,0072 Root Meansquared error 0,0073 Instncias classificadas incorretamente Total de instncias 131

Instncias

Kappa Statistic 1

Relative Absolute error 1,4658%

Root Relative Squared error 1,467%

TP Rate 1 1

FP Rate 0 0

Precision 1 1

Recall 1 1

F-Measure 1 1

___________________________________________________________________________ Observando os quadros mostrados acima, pode-se notar que o classificador IB1 obteve excelente performance, suas medidas de desempenho atingiram ndices mximos, o que denota a obteno de um modelo inteligente extremamente consistente.

61

Com relao a todos os classificadores, suas respectivas taxas de correo para cada classe atingiram ndices perfeitos.

3.2 Desempenho sobre o conjunto de teste

Os quadros 10, 11 e 12, mostrados abaixo exibem os resultados da classificao das instncias, bem como medidas de desempenho e taxas de correo por classe relacionados, relativos aos testes realizados tendo como base os modelos inteligentes obtidos a partir do conjunto de treinamento.

Quadro 10: Sada do classificador KSTAR sobre o conjunto de teste (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.KStar -B 20 -M a Instncias classificadas corretamente 64 (98,4615%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0,0786 Instncias classificadas incorretamente 1 (1,5385%) Root Meansquared error 0,1619 Total de instncias 65

Instncias

Kappa Statistic 0,9685

Relative Absolute error 15,4145%

Root Relative Squared error 31,4515%

TP Rate 1 0,964

FP Rate 0,036 0

Precision 0,974 1

Recall 1 0,964

F-Measure 0,987 0,982

___________________________________________________________________________

62

Quadro 11: Sada do classificador IB1 sobre o conjunto de teste (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.IB1 Instncias classificadas corretamente 64 (98,4615%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0,0154 Instncias classificadas incorretamente 1 (1,5385%) Root Meansquared error 0,124 Total de instncias 65

Instncias

Kappa Statistic 0,9685

Relative Absolute error 3,0172%

Root Relative Squared error 24,095%

TP Rate 1 0,964

FP Rate 0,036 0

Precision 0,974 1

Recall 1 0,964

F-Measure 0,987 0,982

___________________________________________________________________________

Quadro 12: Sada do classificador IBK sobre o conjunto de teste (aplicao simulada)

___________________________________________________________________________
Classificador weka.classifiers.lazy.IBk -K 1 W 0 Instncias classificadas corretamente 64 (98,4615%) Medidas de Desempenho para predio numrica Correo detalhada por classe Formado Evadido Mean Absolute error 0,0223 Instncias classificadas incorretamente 1 (1,5385%) Root Meansquared error 0,1238 Total de instncias 65

Instncias

Kappa Statistic 0,9685

Relative Absolute error 4,3677%

Root Relative Squared error 24,0434%

TP Rate 1 0,964

FP Rate 0,036 0

Precision 0,974 1

Recall 1 0,964

F-Measure 0,987 0,982

___________________________________________________________________________

Observando os quadros mostrados acima, pode-se notar que o desempenho dos classificadores IB1 e IBK est aberto disputa: os classificadores IB1 e IBK obtiveram ndices iguais para Kappa Statistic (0,9685), enquanto que o classificador IB1 obteve menores

63

ndices para Mean Absolute error (0,0154) e Relative Absolute error (3,0172%) e o classificador IBK obteve menores ndices para Root Mean-Squared error (0,1238) e Root
Relative Squared error (24,0434%).

Com relao a todos os classificadores, suas respectivas taxas de correo para cada classe oscilaram entre 0,964 e 1 (TP Rate, Precision, Recall e F-Measure) e entre 0,036 e 0 (FP Rate).

3.3 Definio do perfil dos alunos evasores num cenrio hipottico

Num cenrio hipottico, utilizando o mesmo processo realizado na obteno do perfil de alunos evasores no estudo de caso real, observou-se que a maior incidncia de evasores encontra-se na faixa etria entre 19 e 39 anos, podendo ser este aluno do sexo masculino ou feminino, sendo ou no morador da cidade de Ji-Paran.

3.4 Consideraes sobre a aplicao simulada

A realizao da presente aplicao simulada norteou-se pela agregao de novos atributos aos conjuntos de atributos reais, de modo a formar conjuntos de treinamento e teste mais consistentes que os trabalhados no estudo de caso real, com o objetivo de encontrar padres mais interessantes e melhores desempenhos que os observados no referido estudo de caso. Logo, pela anlise dos padres extrados, realizada nos tpicos anteriores, pode-se observar que o objetivo proposto ao final do captulo anterior foi atingido, ou seja, obteve-se um desempenho notavelmente superior na presente aplicao simulada, comparada aplicao realizada no estudo de caso real, pela agregao de dois atributos hipotticos, considerados importantes ao processo, aos atributos j existentes, chegando inclusive

64

obteno de um modelo inteligente perfeito, de timos ndices de medidas de desempenho e taxas de correo por classe.

65

CONCLUSO

Ao longo dos anos, a evaso escolar sempre representou um grave fenmeno para as instituies brasileiras de ensino, especialmente no mbito do Ensino Superior pblico ou privado, que apresentam elevados percentuais de alunos que no concluram seus cursos de graduao. Naturalmente, poder identificar grupos de alunos que tendem a evadir, atravs de uma anlise de caractersticas em comum com os alunos que evadiram em semestres anteriores, um fator de notvel interesse para as instituies de ensino, pois elas podem tomar medidas ou realizar programas para evitar tal evaso. A Minerao de Dados tem como objetivo encontrar padres dentro de um determinado conjunto de dados e revelou-se como uma tcnica inteligente eficaz, facilitando o processo de anlise e busca de padres a partir de conjuntos de dados, padres estes que propem ser teis nas tomadas de decises de uma instituio. Diante de tais assertivas e tendo sido reconhecido tal problema no mbito do curso de Sistemas de Informao do CEULJI/ULBRA de Ji-Paran, a realizao do presente trabalho teve como objetivo a construo de um sistema inteligente, capaz de identificar alunos propensos evaso na referida instituio, para ser usado como uma ferramenta de suporte nas tomadas de deciso. Para tanto, adotou-se como parmetros metodolgicos os processos de Minerao de Dados, descritos no captulo 1, que so a Identificao do Problema, o Prprocessamento, a Extrao de Padres, o Ps-processamento e, por fim, a utilizao do conhecimento obtido.

66

Durante o cumprimento das etapas que compem o processo de Minerao de Dados, foram observadas algumas dificuldades corriqueiras, comuns ao processo; entretanto, a etapa da Identificao do Problema foi a que demandou maior esforo e apresentou maiores dificuldades em sua realizao, desde a burocracia envolvida com a liberao dos dados dos alunos at inconsistncia no sistema da instituio e indisponibilidade de pessoal que pudesse coletar os dados, o que acabou por modificar os rumos do presente trabalho, pois tais problemas desperdiaram boa parte do tempo til disponvel para a realizao do mesmo. Em decorrncia de tais impasses, o nmero de atributos interessantes extrados a partir dos dados foi reduzido drasticamente, gerando conjuntos de treinamento e teste com certo grau de deficincia; entretanto, resolveu-se prosseguir com as outras etapas do processo de Minerao de Dados a fim de se descobrir o quanto se poderia extrair desses dados. Assim, chegou-se um desempenho em torno de 80% com relao classificao de instncias corretamente. Contudo, apesar do bom desempenho dos classificadores obtidos no estudo de caso, resolveu-se reforar e justificar a idia da deficincia quanto aos dados reais, pela realizao de uma aplicao simulada, na qual foram agregados ao conjunto de atributos reais dois atributos hipotticos, considerados importantes ao processo. Como resultado a esse processo complementar, pde-se observar que os classificadores atingiram melhores desempenhos se comparados ao resultado observado no estudo de caso real, sendo que um dos classificadores atingiu a perfeio, classificando corretamente todas as instncias e obtendo timas medidas de desempenho. Logo, a Minerao de Dados mostrou-se competente na identificao de alunos propensos a evaso, fator de utilidade no combate evaso escolar para o CEULJI/ULBRA. Quanto ao perfil de alunos propensos evaso do CEULJI/ULBRA de Ji-Paran, h uma maior incidncia de evasores na faixa etria entre 18 e 21 anos, podendo ser estes alunos do sexo masculino ou feminino, moradores ou no de Ji-Paran. J num cenrio hipottico, observando-se a aplicao simulada, a maior incidncia de alunos evasores encontra-se na faixa etria entre 19 e 39 anos, podendo ser os evasores do sexo masculino ou feminino, moradores ou no de Ji-Paran. Sugere-se, a partir da simulao realizada, que o sistema utilizado pela instituio se preocupe em obter melhores mtodos de recuperao dos dados armazenados, tais como as

67

notas dos alunos e total de reprovaes, alm de armazenar outros dados que no constam nos registros, como a renda mensal do aluno, entre outros. Considera-se, por fim, que o presente trabalho possui uma relevante importncia ao que se prope, representando uma contribuio comunidade cientfica, pela iniciativa em si. Entretanto, reconhecem-se diversos pontos que podem ser aprofundados, a fim de se melhorar o produto final, o que se pretende tomar doravante como trabalhos futuros, tais como: Aprofundamento do estudo de conceitos concernentes Minerao de Dados; Obteno de maior nmero de exemplos de alunos para os conjuntos de treinamento e teste; Desenvolvimento de interface para o Sistema Inteligente em questo; Entre outros.

68

REFERNCIAS

AMO, Sandra de. Tcnicas de Minerao de Dados. In: CONGRESSO DA SOCIEDADE BRASILEIRA DE COMPUTAO, 24., 2004, Salvador, BA. Anais do SBC Integrao e Diferenas Regionais: O papel da Computao. Salvador: UFBA, 2004. v.2, p.196-8. DIAS, Maria Madalena. Parmetros na escolha de tcnicas e ferramentas de minerao de dados. Revista Acta Scientiarum. Maring, PR, v.24, n.6, p.1716-21, dez. 2002. FERNANDES, Anita Maria da Rocha. Inteligncia Artificial Noes Gerais. Florianpolis, SC: Visual Books, 2003. FRANK, Eibe. WITTEN, Ian H.. Data Mining: Practical Machine Learning Tools with Java Implementations. San Francisco: Morgan Kaufmann, 2000. JAMIL, George Leal. Repensando a TI na empresa moderna Atualizando a gesto com a Tecnologia da Informao. Rio de Janeiro: Axcel Books, 2001. MELANDA, Edson Augusto. PAULA, Marcos Ferreira de. PUGLIESI, Jaqueline Brigladori. & REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicaes. Solange Oliveira Rezende (coord.). Barueri, SP: Editora Manole, 2003. MONARD, Maria Carolina. BARANAUSKAS, Jos Augusto. Sistemas Inteligentes: Fundamentos e Aplicaes. Solange Oliveira Rezende (coord.). Barueri, SP: Editora Manole, 2003. REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicaes. Solange Oliveira Rezende (coord.). Barueri, SP: Editora Manole, 2003. WEKA. Organizao de Eibe Frank. Machine Learning with WEKA. 2004. Apresenta, em slides, um tutorial bsico que mostra ao usurio como operar os mdulos oferecidos pelo Weka. Disponvel em: http://www.cs.waikato.ac.nz/~ml/weka/. Acesso em 20 mai. 2005.

69

ANEXOS

70

ANEXO I Evaso no Ensino Superior3

A evaso escolar no ensino superior brasileiro um fenmeno grave que acontece tanto nas instituies pblicas quanto nas privadas e requer medidas eficazes de combate. Braga (1996) e Andriola (2003) afirmam que a partir de 1972, o Ministrio da Educao/MEC e as universidades pblicas manifestaram preocupaes com o assunto, o que ocasionou o surgimento de alguns estudos. Informaes estatsticas vieram a pblico indicando o nmero relevante de desistentes nessa modalidade de ensino. Ao observarmos a evoluo do nmero de ingressantes nos ltimos anos, fica evidente que a matricula tem aumentado significativamente; no entanto, no tem garantido a freqncia do aluno at o final do curso. Os dados do censo escolar indicam que o nmero de titulados no acompanha o quantitativo de matriculados (INEP, 2004).
Tabela 4. Graduao Presencial Percentual do Nmero de Alunos que Ingressaram e no se titularam no perodo mnimo previsto 1994 - 2002 Ingressos por processo seletivo. % de no concluintes aps 4 anos Ano Total Pblica Privada Total Pblica Privada 1994 463.240 159.786 303.454 42.4 38.5 44.3 1995 510.377 158.012 352.365 38.1 36.6 39.0 1996 513.842 166.494 347.348 40.8 35.1 43.9 1997 573.900 181.859 392.041 40.8 33.6 44.5 1998 651.353 196.365 454.988 41.1 33.3 44.5 1999 787.638 217.497 570.141 36.8 57.5 38.9 2000 897.557 233.083 664.474 38.6 35.9 39.9 2001 39.2 32.5 42.1 2002 40.8 30.5 44.7 2003 41.2 27.5 46.0 Fonte: MEC / INEP / CAPES

A evaso um problema complexo, resultante de uma conjuno de vrios fatores que pesam na deciso do aluno de permanecer ou no no curso. H modelos complexos que tentam explicar esse problema, como a teoria de Tinto (1975), cuja idia central a de que a evaso ocorre pela falta de identificao com o grupo. Explica como

Fonte: GAIOSO, Natalcia Pacheco de Lacerda. O fenmeno da evaso escolar na educao superior no Brasil. 2005. 75 f. Monografia de Especializao Pr-reitoria de ps-graduao e pesquisa, Universidade Catlica de Braslia, Distrito Federal.

71

as situaes de adaptao, contradio e isolamento influenciam as diferentes formas de evaso nessa modalidade de ensino. A teoria tem carter social, explicativo longitudinal e interacional, centrada nos acontecimentos no interior da instituio e/ou que antecedem entrada na universidade, assim como no afastamento voluntrio, a nfase, portanto, est no indivduo e na instituio (Kipnis, 2000). O modelo pretende ser pertinente em nvel da poltica, de tal forma que os gestores possam utiliz-lo, a fim de fazer funcionar estruturas institucionais com o objetivo de garantir a permanncia do aluno at o final do curso. Ao se referir ao contedo, Tinto (1975), citado por Sganzerla (2001), descreve que este deve ser centrado no aluno, que h necessidade de informaes sobre os atributos e as atividades do estudante, a fim de se adquirir um perfil vlido dos calouros (capacidades, aptides de estudos, origem social, finalidade e engajamentos educacionais e profissionais, aspiraes, inquietaes e expectativas institucionais), das experincias institucionais e o carter das experincias na comunidade externa, alm do julgamento dos estudantes em relao s prprias vivncias. Se essas informaes forem adquiridas de forma vlida, podero contribuir para o sucesso educacional e institucional. Afirma ainda que, as IES devem reunir informaes consistentes anteriores ao ingresso do aluno na universidade, no decorrer e no momento do abandono do curso. Tais subsdios podero ser utilizados na anlise de dados para responder as questes que dizem respeito ao impacto da poltica de manuteno do estudante. Trata-se de um modelo que busca encontrar meios para que a IES encontre meios para aumentar o nmero de alunos que se titulem. Outros estudos, principalmente dissertaes de mestrado e teses de doutorado tentam ilustrar vrios desses aspectos, que embora no estejam integrados acabam se complementando, em funo dos objetivos comuns relacionados ao estudo do fenmeno. No caso brasileiro, apesar de vrios estudos focalizarem a questo da no integrao, com base na teoria citada, no h um referencial terico definido, como poderia ser o de Tinto (1975), j que vrias pesquisas apontem-no como varivel principal. A reviso da literatura levantou vrios fatores que poderiam justificar o alto ndice de desistncias. Autores chamam a ateno para evidncias em que a referida teoria no apropriada, em funo da situao scio-econmica da populao brasileira. Com o significativo crescimento da iniciativa privada na educao superior brasileira, fatores econmicos ligados ao trabalho e ao estudo podem ser mais decisivos que a qualidade da integrao, sendo esta, mais voltada aos pases que apresentam situao econmica mais estabilizada, com iguais oportunidades de acesso e que contam com programas que garantem a permanncia do aluno na educao superior, como por exemplo, o de bolsas de estudos. As causas econmicas e sociais no esto vinculadas idia da integrao na IES e refletem a existncia de problemas margem das instituies, portanto, que independem das decises dos gestores educacionais. Conforme Sganzerla (2001), as razes das diferentes formas de abandono so distintas e as aes preventivas para tratarem desses comportamentos tambm devem ser diferentes. Antes de iniciar programas de manuteno dos estudantes na

72

universidade, indispensvel conhecer as formas de evaso. No basta saber quem e quantos abandonam, mas o porqu da deciso e avaliar o grau de integrao universitrio, a fim de buscar o desenvolvimento dos sistemas. Deve-se reconhecer, no entanto, que a dimenso e as caractersticas do fenmeno so pouco conhecidas, bem como as causas da evaso em diferentes contextos educacionais e sociais. Em seus trabalhos, Prado (1990); e Sganzerla (2001) afirmam que 74% dos estudantes declararam o desejo de fazer cursos concomitantes ou posteriores ao que faziam, quando entrevistados. Isto parece sugerir que a desistncia, na maioria das vezes, indica insatisfao do aluno quanto estrutura do curso, ao enfoque pedaggico ou com o futuro profissional na carreira escolhida. Referindo-se situao de vrios tipos de perdas pessoais e sociais, em funo das desistncias, Paredes (1994) sugere que os responsveis pelas polticas educacionais e gestores das instituies de ensino tm a obrigao de conhecer o problema em profundidade, para que as IES possam propor alternativas concretas de reduo de tais prejuzos. Diaz (1996) e Gonalves (1997), fundamentados no modelo terico de Tinto (1975), afirmam ser possvel identificar cinco categorias de causas da evaso: as psicolgicas, as sociolgicas, as organizacionais, as interacionais e as econmicas. As psicolgicas, resultantes das condies individuais como imaturidade, rebeldia, dentre outras, desconsideram o impacto que fatores externos podem ter sobre a personalidade, ocasionando uma predisposio evaso. As sociolgicas entendem que o referido fenmeno no pode ser encarado como um fato isolado; contudo, apesar de considerar os fatores externos, no levam em conta os que esto mais prximos do estudante, tais como a necessidade de ingresso no mercado de trabalho e a repetncia, dentre outras. As categorias organizacionais procuram identificar os efeitos dos aspectos das instituies sobre a taxa de evaso. As categorias interacionais avaliam a conduta do aluno em relao aos fatores interacionais e pessoais, que representam um aspecto dinmico e interativo da experincia do estudante, com origem na antropologia social e nos estudos etnometodolgicos do comportamento do indivduo. Por isso possvel concluir que a permanncia ou no no curso influenciada tambm pela categoria econmica, considerando-se os custos e benefcios ligados deciso, que dependem de fatores individuais e institucionais. Outro empecilho a dificuldade de adaptao vida universitria que, s vezes, requer mudanas de cidade e adaptao a novos ritmos de trabalho acadmico e metodologias de ensino. Mais adiante, Gonalves (1997) assegura que a deciso de persistir ou no no curso depende dos custos e benefcios associados deciso. Esse tipo de anlise deve considerar os fatores individuais e institucionais, de tal forma que sejam consideradas as experincias e caractersticas dos alunos, dentro da realidade de cada um. No mesmo estudo, o autor cita Tinto (1975) ao afirmar que apesar dos alunos freqentemente citarem problemas financeiros como razes do abandono, estas usualmente refletem outros fatores, como insatisfao com a instituio. Quando os estudantes esto satisfeitos com a experincia institucional, freqentemente aceitam grandes nus econmicos e prosseguem nos estudos. Sabe-se que o desejo de titulao superior est fortemente associado busca de melhoria da qualidade de vida e estabilidade

73

financeira, embora nem sempre isso acontea. Gomes (1998) enfatiza que o desejo de cursar a educao superior est intensamente vinculado a projetos de ascenso social e a bons salrios. Quando esses projetos no se viabilizam na rea escolhida, como o caso do magistrio, o aluno tende a abandonar o curso de licenciatura em busca de outro mais valorizado socialmente. A evaso parte de uma questo mais ampla da opo profissional e envolve questes que vo definir as atitudes e motivaes do estudante universitrio. Isso no significa que as dificuldades de adaptao e as falhas na escolha profissional representem deficincias nas atividades de formao dos estudantes. Mas trata-se de problemas que necessitam ser adequadamente diagnosticados e enfrentados pelos diversos cursos universitrios (BEISIEGEL, 1992). Considerando-se as possibilidades de aproveitamento dos conhecimentos adquiridos na educao superior, a evaso nem sempre significa uma perda total, pois os estudos realizados, mesmo incompletos, facilitam a insero no mercado de trabalho e representam um aprimoramento cultural e social. A Lei de Diretrizes e Bases da Educao/LDB (1996) oportuniza mudanas no ensino de graduao, flexibilizao dos currculos e a possibilidade de redimensionamento dos estudos. Segundo a LDB, em princpio o aluno desistente do curso superior poder aproveitar os conhecimentos por meio de diplomas intermedirios, depois de determinado ciclo de estudos no profissionalizante. O aluno evadido beneficiado com um vasto campo de atuao profissional de nvel superior, que no exige o bacharelado. O portador do diploma intermedirio pode voltar universidade, quantas vezes almejar, para completar os estudos nos ciclos profissionalizantes. Esses diplomas podem ser considerados mecanismos que reduzem as possveis perdas derivadas da evaso. A maioria dos estudos consultados sobre o referido tema se refere s causas da evaso. Tais estudos podem ser agrupados, conforme as principais razes apontadas pelos autores, como as responsveis pela evaso, tais como: a repetncia; a desistncia do curso em uma IES por haver conquistado nova vaga na mesma ou em outra instituio, via vestibular; a falta de orientao educacional no ensino mdio; o desprestgio da profisso; a (des)motivao e o horrio de trabalho incompatvel com o do estudo. 1 Causas da evaso tratadas na literatura 1.2 Evaso e repetncia H evidncias que aps a reprovao em uma ou mais disciplinas os alunos so mais propensos a desistirem de seus cursos. Segundo a Unesco (2004), repetncia e evaso so fenmenos que, em muitos casos, esto interligados e ocasionam o abandono dos cursos. Diaz (1996) analisou o problema da evaso no curso de Economia da Faculdade de Economia, Administrao e Cincias Contbeis da USP, centra o estudo nos aspectos econmicos do problema, ocasionados pela permanncia prolongada na universidade. Verificou que 12% dos gastos na universidade correspondem aos recursos aplicados no ensino de graduao que no foram aproveitados, por causa da reprovao, por manter os estudantes mais tempo que o necessrio na IES, ou por causa da desistncia dos cursos ou, ainda, pela demora exagerada para se formar.

74

Ressalta que os de menor renda familiar apresentam maior probabilidade de se evadir, quando mantidos por longo perodo no curso no se beneficiando com os investimentos a eles destinados. Manrique (1997) realizou estudo no perodo compreendido entre 1990 e 1995 para conhecer o curso de Qumica da Universidade Federal de Gois e as dificuldades enfrentadas pelos alunos. Verificou que a evaso se relaciona com a reprovao, uma vez que os evadidos apresentaram desempenho escolar inferior ao dos ativos. Outro dado relevante o fato de grande parte dos que deixaram o curso o fizeram depois da primeira reprovao. Os resultados indicam que a evaso tem causas endgenas e exgenas, evidenciando a necessidade de polticas eficazes soluo do problema. Sganzerla (2001), em pesquisa sobre a evaso de estudantes no curso de graduao em Estatstica da Universidade Federal do Paran, constata que a evaso bastante acentuada, variando entre 57% e 87%, no perodo compreendido entre 1974 a 2000. Verifica tambm que 50% dos alunos tiveram uma permanncia igual ou superior a dez semestres na universidade, at a graduao, embora o curso esteja previsto para nove perodos letivos. A principal causa da evaso apontada a reprovao em duas disciplinas bsicas, consideradas muito difceis pelos estudantes, por requererem certo grau de abstrao e formalismo matemtico. Ressalta a influncia dos currculos longos, com disciplinas muito especficas e o ensino que no acompanha as rpidas transformaes sofridas pelo mercado de trabalho. Fregoneis (2002) busca, por meio de pesquisa quantitativa envolvendo os ingressantes em 1995, conhecer os problemas inerentes repetncia, ao represamento nas disciplinas e evaso, nos cursos de graduao dos centros de cincias exatas e de tecnologia da Universidade Estadual de Maring. Conclui que a reprovao nas disciplinas consideradas difceis influencia na deciso de continuar ou no os estudos e que os critrios de avaliao ento adotados pela instituio contribuam para que o aluno desistisse do curso. 1.3 Evaso e orientao vocacional/profissional A falta de informaes sobre a profisso e o curso em que os alunos ingressam leva muitos evaso. Ao perceberem que agiram movidos por expectativas infundadas a respeito da instituio ou da profisso escolhida, se decepcionam com o curso superior e a universidade e passam a considerar a possibilidade de desistncia. Na Pontifcia Universidade Catlica de Campinas (PUCCAMP), foram realizados estudos sobre o fenmeno da evaso por Armbrust (1995), no curso de Enfermagem, com o uso de questionrios e de entrevistas e por Polydoro (1995), no de Psicologia, por meio de anlise documental e questionrios. As causas indicadas como determinantes do abandono, em ordem decrescente, foram: as questes econmicas; a falta de conhecimento sobre curso e a profisso; os cursos considerados difceis; nmero significativo de disciplinas no ciclo bsico no relacionadas com a profisso. Verificouse, tambm, que a maioria das desistncias ocorreu nos primeiros semestres do curso. Martins (1979) realiza estudo, por meio de questionrio, na Universidade Federal de So Carlos e verifica ndices de evaso na ordem de 43,4% em 1978 e de 38,4%, em 1979, superando os 50% nos cursos de cincias e educao; no entanto, os da rea de sade apresentam as menores taxas. Conclui que a maioria dos desistentes sai por ter se decepcionado com o curso e pela a falta de orientao profissional no Ensino Mdio.

75

Beisiegel (1992), estudou a evaso nos cursos de graduao da Universidade de So Paulo (USP). Afirma que o fenmeno pode ser entendido a partir da escolha do curso associada ao projeto de vida. Conforme o autor, h os que continuam estudando, porm insatisfeitos; se diplomados sero desajustados no exerccio da profisso. Isso se deve s escolhas feitas pelo candidato muito jovem, e pelo fato de poucos serem assistidos em servios de orientao vocacional nas escolas de Ensino Mdio. Aguiar (2001), com o objetivo de compreender o fenmeno da evaso universitria, na concepo institucional, realiza estudo na Universidade Federal de Mato Grosso, Campus de Cuiab, do qual participaram coordenadores dos cursos de Administrao Escolar, Processamento de Dados e a Pr-Reitoria de Ensino de Graduao. Foram feitas anlises das Resolues Internas que regulamentam o processo de evaso e do Sistema Computadorizado de Informao Acadmica; questionrios e entrevista semi-estruturada. Realizou-se uma anlise quantitativa equalitativa das informaes, onde se verificou que a maioria dos desistentes do sexo masculino, na faixa etria de 25 anos e que os cursos de demanda maior apresentam menor evaso. Na viso dos entrevistados, a evaso se caracteriza como um problema do aluno, ligado situao scio-econmica, aos conhecimentos adquiridos no ensino mdio e ao desconhecimento do curso que escolheu. Andriola (2003) diz que a mudana de curso nas universidades brasileiras alarmante e, no s sinaliza os equvocos na orientao profissional dos estudantes, como tambm, representa um nus para a sociedade, pela ocupao indevida das vagas to escassas, sobretudo nas universidades pblicas e pelo desperdcio financeiro que acarretam. O autor alerta que o adolescente precisa conhecer as prprias habilidades, considerar e avaliar as sugestes familiares e reconhecer as implicaes decorrentes da profisso escolhida, alm do mercado de trabalho e, para isso, ele precisa de orientao vocacional. A evaso ocorre em duas situaes bem distintas: como ato administrativo, decorrente de critrios internos da prpria IES; e como opo do aluno, ao cancelar a matrcula. Pode ser ocasionada pela desinformao em relao carreira escolhida, pelo desconhecimento das prprias capacidades e interesses, pelas influncias de demanda do mercado de trabalho; alm de presses sociais e familiares (ibid). 1.4 Evaso e mudana de curso H estudos que chamam a ateno sobre o significativo nmero de alunos que mudam de curso na mesma IES ou cancelam a matrcula por terem sido aprovados em outra instituio, pblica ou privada, assim como, sobre os prejuzos decorrentes desta deciso. Santos (1992), utilizando-se de um questionrio, procurou levantar a histria do aluno da evadido na Universidade de So Paulo. Procurou conhecer os hbitos de estudos, referncias famlia, as condies e locais de moradia, hbitos e costumes. Concluiu que o nmero de alunos que desistiram por terem ingressado em outros cursos vem crescendo a cada ano; 18,8% dos desistentes no ano 1991 se enquadravam nesta justificativa. Segundo o autor, a esse nmero podia-se acrescentar 16,2% do total de evadidos que freqentavam simultaneamente outro curso universitrio e depois de alguns semestres optam por apenas um. Paredes (1994) estudou a evaso, no perodo de 1980 a 1989, em duas instituies de Curitiba, uma pblica (UFPR) e outra particular (PUCPR). Constata que a evaso atinge 34% dos alunos da PUC e 35% dos UFPR;

76

afirma, contudo, que ela no pode ser vista como fenmeno isolado, sem se considerar as deficincias no processo de ensino-aprendizagem, como a baixa qualidade dos cursos, as falhas na assiduidade e capacidade didtica dos professores, a inadequao dos currculos e dos horrios. O autor enfatiza que o nmero de desistncias nos cursos muito maior do que a percepo que se tem dela. O fenmeno subestimado, no que se refere ao rendimento dos cursos de cada instituio, e superestimado, quando a evaso vista como abandono definitivo da formao. Afirma que cerca de 64% dos que abandonaram os cursos obtiveram a titulao em outra instituio, uma vez que o sistema permite a mobilidade dos alunos entre as IES e aceita matrculas de baixo comprometimento, e que as prprias deficincias do sistema induzem a esses comportamentos. A diversidade de causas apresentadas no estudo de Paredes (1994) destaca a ocorrncia de fatores institucionais, raramente encontrados na maioria dos estudos. Tambm digna de nota a rejeio da hiptese que vincula a evaso da educao superior a motivos de natureza financeira:
Entre as representaes estudadas, a que mais foi desmentida pela anlise mais profunda do discurso dos depoentes foi a relativa s dificuldades econmicas dos alunos que, no caso da UFPR, apareciam como necessidades de trabalhar e estudar simultaneamente e para os alunos da PUCPR, como o custo exorbitante dos cursos. Na maioria dos casos, tais justificativas encobriam dificuldades de acompanhamento dos cursos (PAREDES, 1994:20).

Gonalves (1997), em estudo similar realizado na Faculdade de Medicina da Universidade de So Paulo e verifica que somente 57,7% dos alunos so titulados na instituio na qual fazem a primeira matrcula. Os motivos do desligamento informados pela secretaria so ocasionados por afastamentos do curso maiores que o prazo permitido; por desistncia a pedido do prprio estudante ou por transferncia para outra IES. Mantm comparaes que revelam ndices menores e decrescentes nos cursos de Sade e evaso diferenciada nos de Medicina da USP e hipteses relativas a aspectos psicolgicos na formao mdica. 1.5 Evaso e o (des)prestgio da profisso Outra razo, comumente evidenciada nas pesquisas sobre o abandono dos cursos, relaciona-se ao mercado de trabalho e ao prestgio da profisso escolhida, no momento da inscrio no vestibular. Pimenta e Anastasiou (2002) argumentam que a universidade deve estar integrada ao universo do trabalho e ministrar um conhecimento tcnico eficiente, contextualizado e cientfico e buscar a qualificao tcnica do aprendiz, que se concretiza na qualificao profissional universitria. Rosa (1977) realizou estudo na Universidade Federal de Gois, objetivando avaliar as conseqncias da evaso sobre os custos do aluno da graduao. Considerou a evaso como a diferena entre o nmero de matriculados e o nmero dos que concluram o curso, independentemente de trancamento de matrcula, de abandono ou da mudana de curso. Tratou como evadido quele que no foi graduado nos seis meses subseqentes ao perodo normal de concluso do curso. Os resultados mostraram que h grande diferena entre o nmero de matriculados no primeiro e no ltimo semestres e que a evaso no deriva de uma nica causa na universidade: cada curso perde alunos por razes peculiares. As causas mais relevantes referem-se ao prestgio da profisso, ao mercado de trabalho, qualificao dos professores, alm das caractersticas pessoais,

77

como aptido e motivao. Sobressaem-se tambm as dificuldades financeiras. O autor afirma que h um aumento em torno de 58% nas vagas no vestibular para os cursos que requerem menos despesas, como os de Direito, Cincias Sociais, Pedagogia e os de licenciatura como Histria, Letras, dentre outros. Rozenstraten (1992) enfatiza que algumas profisses incluem traos altamente valorizados, como Direito, Engenharia e Medicina e geram expectativas de altos salrios, emprego garantido, inteligncia elevada, dificuldade nos estudos e riqueza. Outros, como as licenciaturas e bacharelado, so marcados pela falta de prestgio social, levando reduo da demanda nos vestibulares, pois as atividades profissionais so socialmente pouco reconhecidas, vinculadas a salrios menores e a falta de garantia de emprego. Ressalta que os estudantes que se preparam para tais carreiras tm maiores probabilidades de optarem pela evaso. Para Beisiegel (1992), a possibilidade do exerccio de profisso liberal gera expectativas de estabelecer o prprio negcio que, quando reconhecido, proporciona estabilidade financeira, prestgio social e sucesso profissional. Essas expectativas podem manter o aluno na IES at a concluso do curso. No entanto, os baixos ndices de evaso no representam, por si s, satisfao e ajustamento do estudante, podendo ser conseqncia das presses sociais e familiares. Neste caso, problemas podero se manifestar depois da formatura, frente s dificuldades reais da profisso ou de desempenho. Bueno (1993) focalizou a escolha profissional dos alunos na USP de Ribeiro Preto, nos cursos de cincias biolgicas e humanas. Concluiu que a evaso est relacionada ao prestgio da profisso escolhida, imaturidade dos alunos no momento da escolha do curso, s expectativas de realizao e sucesso profissional, falta de prestgio social de algumas profisses, s dificuldades de adaptao universidade e ao curso, alm da falta de aptides para a carreira. 1.6 Evaso e horrio de trabalho A dificuldade de conciliar a jornada de trabalho e o horrio escolar fator de suma importncia na deciso de abandonar a faculdade. Quando as obrigaes profissionais entram em conflito com os compromissos dos estudos, so estes, na maioria das vezes, que so adiados. Slomp (1984), em estudo no curso de estatstica da Universidade Federal do Paran (UFPR), levantou informaes, por meio de questionrio, sobre a histria do aluno evadido, em relao aos estudos, famlia, s condies e local de moradia, aos hbitos e aos costumes. Verificou que 79,1% dos alunos haviam prestado vestibular para outro curso; 55,8% trabalhavam em tempo integral; 18,6% em tempo parcial e 25,6% no exerciam nenhuma atividade profissional. Dentre as causas apontadas para a evaso foram destacadas as obrigaes familiares, a coincidncia do horrio de trabalho e de estudo e a falta de tempo para dedicar-se ao curso. O Departamento de Pesquisa Institucional da Pr-Reitoria de Planejamento da Universidade Federal do Rio Grande do Sul (UFRGS, 1991) realizou pesquisa, englobando o perodo compreendido entre 1985 a 1987, a fim de analisar o funcionamento da universidade e oferecer subsdios ao planejamento institucional. A populao de alunos evadidos foi ouvida por meio de questionrio. Identificou como causa mais freqente da evaso o fato dos horrios de trabalho e estudo serem os

78

mesmos. Os autores recomendam que se efetivem estudos de forma continuada e que sejam tomadas medidas administrativas viveis para diminuir a evaso. Em 1998, Kira investigou as causas da desistncia no curso de Pedagogia da Universidade Estadual de Maring (UEM), no perodo de 1992 a 1996. Aps anlise documental da evaso geral na instituio, com nfase no curso escolhido, entrevistou oito ex-alunos do referido curso. As causas mais significativas da desistncia apontadas foram a falta de identificao com o curso, a ineficincia da ao docente e a dificuldade de conciliar o trabalho com o de estudo. Jacob (2000) tratou da evaso escolar na educao superior por meio de estudo de caso, com o objetivo de identificar os fatores que mais contriburam para a evaso de alunos no curso de Cincias Econmicas, da Fundao Educacional Dom Andr Arcoverde (FAA), no municpio de Valena - RJ, no perodo entre 1992-1996. Concluiu que as principais causas da evaso so as relacionadas s condies financeiras dos estudantes; dificuldade de conciliar o horrio de trabalho com o de estudo; ausncia de vantagem imediata com a titulao; aos problemas familiares; e ao curso desinteressante. 1.7 Evaso e (des)motivao Ao ingressar na Educao Superior, o aluno motivado, dentre outras razes, pela expectativa de melhores condies de vida e de realizao profissional. Porm, a aprovao e a matricula em uma IES no garantem que a motivao permanea e que o aluno continue no curso. Maia (1984), com o objetivo de caracterizar o aluno evadido do curso de graduao/licenciatura, investigou quatorze cursos da Universidade Federal da Paraba, nas reas de tecnologia, biologia e humanidades. Considerou como evadido o aluno que no efetivou matrcula em dois semestres consecutivos. Com o uso de questionrios enviados pelo correio, verificou que os principais motivadores do ingresso na educao superior so o desejo de ascenso profissional, a expectativa de boa remunerao e de melhoria das condies de vida. Observou que o desejo de ter um ttulo de nvel superior leva o candidato a procurar cursos menos concorridos e que as principais justificativas encontradas para a desistncia foram a falta de motivao, problemas pessoais e casamento. Constatou, ainda, que a evaso ocorre ao longo do curso, mas que mais acentuada no primeiro ano. Mendes (2002) estudou como a integrao acadmica do aluno se relaciona ao fenmeno da evaso no ensino superior, em cursos noturnos da Universidade de Braslia e da Universidade Catlica de Braslia. Utilizando o modelo referencial terico de Tinto (1975), conclui que, quanto mais alta a percepo que o estudante tem de sua integrao acadmica menores so as probabilidades de abandonar o curso. Verifica tambm que reformulaes de polticas institucionais especficas podem influir diretamente na evaso.

79

ANEXO II Conjunto de treinamento para estudo de caso real em formato ARFF

@relation alunos @attribute @attribute @attribute @attribute sexo {f,m} idade numeric viveJP {sim,nao} situacao {formado,evadido}

@data f,25,sim,formado f,39,sim,formado f,24,sim,formado m,48,nao,formado f,36,sim,formado m,41,sim,formado f,27,nao,formado m,28,sim,formado f,24,sim,formado m,26,sim,formado m,25,nao,formado m,38,nao,formado m,29,sim,formado m,25,sim,formado m,49,sim,formado f,28,sim,formado f,27,sim,formado m,27,nao,formado m,28,sim,formado m,41,sim,formado m,31,sim,formado m,24,sim,formado m,27,sim,formado m,28,sim,formado m,28,nao,formado f,27,nao,formado m,25,nao,formado m,33,sim,formado f,27,sim,formado f,30,nao,formado m,37,sim,formado f,40,sim,formado m,25,sim,formado

80

m,29,sim,formado m,28,sim,formado f,26,nao,formado m,25,nao,formado m,22,nao,formado m,23,nao,formado m,30,sim,formado m,23,sim,formado m,24,sim,formado m,25,sim,formado m,57,sim,formado m,25,sim,formado m,27,sim,formado f,24,nao,formado m,26,sim,formado f,27,sim,formado m,27,sim,formado f,25,sim,formado m,26,sim,formado m,25,nao,formado m,22,nao,formado m,25,sim,formado m,26,sim,formado m,21,sim,evadido m,37,sim,evadido m,18,nao,evadido m,39,sim,evadido m,24,nao,evadido m,19,nao,evadido m,34,sim,evadido m,24,nao,evadido f,24,sim,evadido m,24,nao,evadido m,19,sim,evadido m,25,sim,evadido m,21,nao,evadido m,26,sim,evadido f,19,sim,evadido m,29,nao,evadido m,19,nao,evadido f,21,nao,evadido m,21,sim,evadido m,22,sim,evadido f,21,sim,evadido f,20,sim,evadido m,19,nao,evadido m,21,sim,evadido m,25,nao,evadido m,24,sim,evadido m,21,nao,evadido m,25,sim,evadido f,24,nao,evadido m,36,sim,evadido m,19,nao,evadido m,20,sim,evadido m,23,sim,evadido f,32,sim,evadido m,26,sim,evadido m,21,sim,evadido m,20,nao,evadido m,22,nao,evadido

81

m,25,sim,evadido f,23,sim,evadido f,22,sim,evadido m,18,sim,evadido m,21,sim,evadido m,39,sim,evadido f,30,sim,evadido f,21,sim,evadido m,29,sim,evadido m,22,sim,evadido f,18,nao,evadido m,18,sim,evadido f,25,sim,evadido f,27,sim,evadido m,22,sim,evadido f,24,sim,evadido f,20,sim,evadido m,34,sim,evadido m,24,nao,evadido m,22,nao,evadido m,37,nao,evadido m,39,nao,evadido m,21,sim,evadido m,26,sim,evadido m,22,nao,evadido m,23,sim,evadido m,23,nao,evadido m,27,nao,evadido f,21,nao,evadido f,23,nao,evadido m,19,sim,evadido m,21,sim,evadido f,19,sim,evadido m,25,sim,evadido m,18,nao,evadido m,20,sim,evadido m,18,sim,evadido

82

ANEXO III Conjunto de teste para estudo de caso real em formato ARFF

@relation alunos

@attribute @attribute @attribute @attribute

sexo {f,m} idade numeric viveJP {sim,nao} situacao {formado,evadido}

@data m,48,nao,formado f,36,sim,formado m,41,sim,formado f,27,nao,formado m,28,sim,formado m,39,nao,evadido m,21,sim,evadido m,26,sim,evadido m,22,nao,evadido m,23,sim,evadido m,23,nao,evadido m,27,nao,evadido f,21,nao,evadido f,23,nao,evadido m,19,sim,evadido m,21,sim,evadido f,19,sim,evadido m,25,sim,evadido m,18,nao,evadido m,20,sim,evadido m,23,nao,formado m,30,sim,formado m,23,sim,formado m,24,sim,formado m,25,sim,formado m,57,sim,formado m,25,sim,formado m,27,sim,formado f,24,nao,formado m,26,sim,formado f,27,sim,formado m,27,sim,formado

83

f,25,sim,formado m,26,sim,formado m,25,nao,formado m,22,nao,formado m,25,sim,formado m,26,sim,formado m,21,sim,evadido m,37,sim,evadido m,18,nao,evadido m,39,sim,evadido m,24,nao,evadido m,19,nao,evadido m,34,sim,evadido m,28,sim,formado m,28,nao,formado f,27,nao,formado m,25,nao,formado m,22,nao,formado m,25,sim,formado m,26,sim,formado m,21,sim,evadido m,37,sim,evadido m,18,nao,evadido m,39,sim,evadido m,24,nao,evadido m,19,nao,evadido m,34,sim,evadido m,24,nao,evadido m,49,sim,formado f,28,sim,formado f,27,sim,formado m,19,nao,evadido m,21,sim,evadido

84

ANEXO IV Conjunto de treinamento para aplicao simulada em formato ARFF

@relation alunos @attribute @attribute @attribute @attribute @attribute @attribute @data f,25,sim,0,9,formado f,39,sim,0,8.7,formado f,24,sim,0,9.2,formado m,48,nao,1,9.8,formado f,36,sim,2,8.1,formado m,41,sim,0,8,formado f,27,nao,1,8.7,formado m,28,sim,0,9,formado f,24,sim,0,10,formado m,26,sim,0,8.2,formado m,25,nao,0,8.1,formado m,38,nao,0,8.7,formado m,29,sim,0,9,formado m,25,sim,0,10,formado m,49,sim,0,8.2,formado f,28,sim,3,8.1,formado f,27,sim,0,8,formado m,27,nao,2,8.4,formado m,28,sim,0,8.1,formado m,41,sim,1,9.1,formado m,31,sim,1,9,formado m,24,sim,1,8.7,formado m,27,sim,0,10,formado m,28,sim,0,9,formado m,28,nao,0,8,formado f,27,nao,0,8,formado m,25,nao,0,8,formado m,33,sim,0,7.8,formado f,27,sim,0,7.8,formado f,30,nao,0,8.2,formado sexo {f,m} idade numeric viveJP {sim,nao} totalRep numeric medTotal numeric situacao {formado,evadido}

85

m,37,sim,0,7,formado f,40,sim,0,9,formado m,25,sim,0,10,formado m,29,sim,1,8.2,formado m,28,sim,0,8.1,formado f,26,nao,0,8.7,formado m,25,nao,0,9,formado m,22,nao,0,10,formado m,23,nao,0,8.2,formado m,30,sim,2,8.1,formado m,23,sim,1,8,formado m,24,sim,1,8.4,formado m,25,sim,0,8.1,formado m,57,sim,0,9.1,formado m,25,sim,0,9,formado m,27,sim,0,8.7,formado f,24,nao,0,10,formado m,26,sim,1,9,formado f,27,sim,1,8.7,formado m,27,sim,1,7.5,formado f,25,sim,1,8.5,formado m,26,sim,1,9.2,formado m,25,nao,0,10,formado m,22,nao,0,8.2,formado m,25,sim,0,8.1,formado m,26,sim,0,8,formado m,21,sim,2,7,evadido m,37,sim,4,6,evadido m,18,nao,0,7.5,evadido m,39,sim,5,4.5,evadido m,24,nao,2,6,evadido m,19,nao,1,7.5,evadido m,34,sim,0,8,evadido m,24,nao,0,7.5,evadido f,24,sim,0,9,evadido m,24,nao,1,6.5,evadido m,19,sim,3,5,evadido m,25,sim,3,6.5,evadido m,21,nao,0,10,evadido m,26,sim,2,8.2,evadido f,19,sim,0,6.5,evadido m,29,nao,1,5.5,evadido m,19,nao,1,7.5,evadido f,21,nao,0,7.5,evadido m,21,sim,0,9,evadido m,22,sim,0,6.5,evadido f,21,sim,0,8.5,evadido f,20,sim,1,7.5,evadido m,19,nao,1,6,evadido m,21,sim,1,6,evadido m,25,nao,2,6.2,evadido m,24,sim,2,5.9,evadido m,21,nao,1,6,evadido m,25,sim,1,6,evadido f,24,nao,1,6,evadido m,36,sim,0,6,evadido m,19,nao,0,6,evadido m,20,sim,0,6,evadido m,23,sim,0,8,evadido f,32,sim,0,7.5,evadido m,26,sim,0,8.7,evadido

86

m,21,sim,0,9,evadido m,20,nao,0,9,evadido m,22,nao,0,8.7,evadido m,25,sim,1,7.8,evadido f,23,sim,1,6,evadido f,22,sim,1,8,evadido m,18,sim,1,7.5,evadido m,21,sim,1,8.7,evadido m,39,sim,4,5.6,evadido f,30,sim,2,7.5,evadido f,21,sim,1,6.5,evadido m,29,sim,1,7.5,evadido m,22,sim,1,6.5,evadido f,18,nao,0,9.1,evadido m,18,sim,1,7.8,evadido f,25,sim,1,7,evadido f,27,sim,0,7,evadido m,22,sim,0,6,evadido f,24,sim,0,7.7,evadido f,20,sim,0,8.8,evadido m,34,sim,0,10,evadido m,24,nao,0,6.7,evadido m,22,nao,0,7.8,evadido m,37,nao,0,9,evadido m,39,nao,0,8,evadido m,21,sim,0,6.5,evadido m,26,sim,2,6.5,evadido m,22,nao,0,9.1,evadido m,23,sim,0,7.8,evadido m,23,nao,1,7,evadido m,27,nao,0,7,evadido f,21,nao,1,6.4,evadido f,23,nao,1,6.2,evadido m,19,sim,1,6.5,evadido m,21,sim,0,7.8,evadido f,19,sim,0,7.9,evadido m,25,sim,0,6.7,evadido m,18,nao,0,7.8,evadido m,20,sim,0,8,evadido m,18,sim,0,8,evadido

87

ANEXO V Conjunto de teste para aplicao simulada em formato ARFF

@relation alunos @attribute @attribute @attribute @attribute @attribute @attribute @data f,25,sim,0,9,formado f,39,sim,0,8.7,formado f,24,sim,0,9.2,formado m,48,nao,1,9.8,formado f,36,sim,2,8.1,formado m,41,sim,0,8,formado f,27,nao,1,8.7,formado m,28,sim,0,9,formado f,24,sim,0,10,formado m,26,sim,0,8.2,formado m,25,nao,0,8.1,formado f,24,nao,1,6,evadido m,36,sim,0,6,evadido m,19,nao,0,6,evadido m,20,sim,0,6,evadido m,23,sim,0,8,evadido f,32,sim,0,7.5,evadido m,26,sim,0,8.7,evadido m,21,sim,0,9,evadido m,20,nao,0,9,evadido m,22,nao,0,8.7,evadido m,25,sim,0,10,evadido m,26,sim,1,9.2,formado m,25,nao,0,10,formado m,22,nao,0,8.2,formado m,25,sim,0,8.1,formado m,26,sim,0,8,formado m,21,sim,2,7,evadido m,37,sim,4,6,evadido m,18,nao,0,7.5,evadido sexo {f,m} idade numeric viveJP {sim,nao} totalRep numeric medTotal numeric situacao {formado,evadido}

88

m,39,sim,5,4.5,evadido m,24,nao,2,6,evadido m,19,nao,1,7.5,evadido m,23,sim,1,8,formado m,24,sim,1,8.4,formado m,25,sim,0,8.1,formado m,57,sim,0,9.1,formado m,25,sim,0,9,formado m,27,sim,0,8.7,formado f,24,nao,0,10,formado m,26,sim,1,9,formado f,27,sim,1,8.7,formado m,27,sim,1,7.5,formado f,25,sim,1,8.5,formado f,22,sim,1,8,evadido m,18,sim,1,7.5,evadido m,21,sim,1,8.7,evadido m,39,sim,4,5.6,evadido f,30,sim,2,7.5,evadido f,21,sim,1,6.5,evadido m,29,sim,1,7.5,evadido m,22,sim,1,6.5,evadido f,18,nao,0,9.1,evadido m,18,sim,1,7.8,evadido f,25,sim,1,7,evadido m,25,sim,0,10,formado m,49,sim,0,8.2,formado f,28,sim,3,8.1,formado f,27,sim,0,8,formado m,27,nao,2,8.4,formado m,28,sim,0,8.1,formado m,41,sim,1,9.1,formado m,31,sim,1,9,formado m,24,sim,1,8.7,formado m,28,sim,0,9,formado

89

ANEXO FINAL

Perfil do aluno evasor - Regras geradas pelo algoritmo NNge4


Classe: evadido (57 instncias) 1) Aplicao real Conjunto de Treinamento
class evadido IF : sexo in {f,m} ^ 18.0<=idade<=21.0 ^ viveJP in {sim,nao} (32) class evadido IF : sexo in {f,m} ^ 25.0<=idade<=26.0 ^ viveJP in {sim} (8) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=23.0 ^ viveJP in {nao} (5) class evadido IF : sexo in {m} ^ idade=27.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {f,m} ^ idade=24.0 ^ viveJP in {nao} (5) class evadido IF : sexo in {m} ^ idade=25.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {m} ^ idade=29.0 ^ viveJP in {sim,nao} (2) class evadido IF : sexo in {f} ^ idade=27.0 ^ viveJP in {sim} (1) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=23.0 ^ viveJP in {sim} (7) class evadido IF : sexo in {m} ^ idade=39.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {f} ^ 30.0<=idade<=32.0 ^ viveJP in {sim} (2) class evadido IF : sexo in {m} ^ idade=37.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {m} ^ 34.0<=idade<=39.0 ^ viveJP in {sim} (6) class evadido IF : sexo in {f} ^ idade=24.0 ^ viveJP in {sim} (1)
4

NNge: algoritmo do tipo vizinho mais prximo que usa exemplares generalizados (que so hiper-retngulos que podem ser vistos como regras do tipo se - ento)

90

class evadido IF : sexo in {m} ^ idade=24.0 ^ viveJP in {sim} (1) class evadido IF : sexo in {f} ^ idade=24.0 ^ viveJP in {sim} (1)

Conjunto de Teste
class evadido IF : sexo in {f,m} ^ 18.0<=idade<=21.0 ^ viveJP in {sim,nao} (32) class evadido IF : sexo in {f,m} ^ 25.0<=idade<=26.0 ^ viveJP in {sim} (8) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=23.0 ^ viveJP in {nao} (5) class evadido IF : sexo in {m} ^ idade=27.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {f,m} ^ idade=24.0 ^ viveJP in {nao} (5) class evadido IF : sexo in {m} ^ idade=25.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {m} ^ idade=29.0 ^ viveJP in {sim,nao} (2) class evadido IF : sexo in {f} ^ idade=27.0 ^ viveJP in {sim} (1) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=23.0 ^ viveJP in {sim} (7) class evadido IF : sexo in {m} ^ idade=39.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {f} ^ 30.0<=idade<=32.0 ^ viveJP in {sim} (2) class evadido IF : sexo in {m} ^ idade=37.0 ^ viveJP in {nao} (1) class evadido IF : sexo in {m} ^ 34.0<=idade<=39.0 ^ viveJP in {sim} (6) class evadido IF : sexo in {f} ^ idade=24.0 ^ viveJP in {sim} (1) class evadido IF : sexo in {m} ^ idade=24.0 ^ viveJP in {sim} (1) class evadido IF : sexo in {f} ^ idade=24.0 ^ viveJP in {sim} (1)

2) Aplicao simulada Conjunto de Treinamento


class evadido IF : sexo in {f,m} ^ 18.0<=idade<=21.0 ^ viveJP in {sim,nao} ^ 0.0<=totalRep<=2.0 ^ 7.0<=medTotal<=10.0 (21) class evadido IF : sexo in {f,m} ^ 19.0<=idade<=39.0 ^ viveJP in {sim,nao} ^ 0.0<=totalRep<=5.0 ^ 4.5<=medTotal<=6.7 (31) class evadido IF : sexo in {f,m} ^ idade=27.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ medTotal=7.0 (2) class evadido IF : sexo in {f,m} ^ 23.0<=idade<=25.0 ^ viveJP in {sim,nao} ^ totalRep=1.0 ^ 7.0<=medTotal<=7.8 (3)

91

class evadido IF : sexo in {f,m} ^ 22.0<=idade<=24.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ 7.5<=medTotal<=8.0 (5) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=24.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ 9.0<=medTotal<=9.1 (2) class evadido IF : sexo in {m} ^ 34.0<=idade<=39.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ medTotal=8.0 (2) class evadido IF : sexo in {m} ^ idade=37.0 ^ viveJP in {nao} ^ totalRep=0.0 ^ medTotal=9.0 (1) class evadido IF : sexo in {m} ^ idade=34.0 ^ viveJP in {sim} ^ totalRep=0.0 ^ medTotal=10.0 (1) class evadido IF : sexo in {m} ^ idade=22.0 ^ viveJP in {nao} ^ totalRep=0.0 ^ medTotal=8.7 (1) class evadido IF : sexo in {m} ^ idade=26.0 ^ viveJP in {sim} ^ totalRep=0.0 ^ medTotal=8.7 (1) class evadido IF : sexo in {m} ^ idade=26.0 ^ viveJP in {sim} ^ totalRep=2.0 ^ medTotal=8.2 (1) class evadido IF : sexo in {f,m} ^ 29.0<=idade<=32.0 ^ viveJP in {sim} ^ 0.0<=totalRep<=2.0 ^ medTotal=7.5 (3) class evadido IF : sexo in {f} ^ idade=22.0 ^ viveJP in {sim} ^ totalRep=1.0 ^ medTotal=8.0 (1)

Conjunto de Teste
class evadido IF : sexo in {f,m} ^ 18.0<=idade<=21.0 ^ viveJP in {sim,nao} ^ 0.0<=totalRep<=2.0 ^ 7.0<=medTotal<=10.0 (21) class evadido IF : sexo in {f,m} ^ 19.0<=idade<=39.0 ^ viveJP in {sim,nao} ^ 0.0<=totalRep<=5.0 ^ 4.5<=medTotal<=6.7 (31) class evadido IF : sexo in {f,m} ^ idade=27.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ medTotal=7.0 (2) class evadido IF : sexo in {f,m} ^ 23.0<=idade<=25.0 ^ viveJP in {sim,nao} ^ totalRep=1.0 ^ 7.0<=medTotal<=7.8 (3) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=24.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ 7.5<=medTotal<=8.0 (5) class evadido IF : sexo in {f,m} ^ 22.0<=idade<=24.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ 9.0<=medTotal<=9.1 (2) class evadido IF : sexo in {m} ^ 34.0<=idade<=39.0 ^ viveJP in {sim,nao} ^ totalRep=0.0 ^ medTotal=8.0 (2) class evadido IF : sexo in {m} ^ idade=37.0 ^ viveJP in {nao} ^ totalRep=0.0 ^ medTotal=9.0 (1) class evadido IF : sexo in {m} ^ idade=34.0 ^ viveJP in {sim} ^ totalRep=0.0 ^ medTotal=10.0 (1) class evadido IF : sexo in {m} ^ idade=22.0 ^ viveJP in {nao} ^ totalRep=0.0 ^ medTotal=8.7 (1) class evadido IF : sexo in {m} ^ idade=26.0 ^ viveJP in {sim} ^ totalRep=0.0 ^ medTotal=8.7 (1) class evadido IF : sexo in {m} ^ idade=26.0 ^ viveJP in {sim} ^ totalRep=2.0 ^ medTotal=8.2 (1) class evadido IF : sexo in {f,m} ^ 29.0<=idade<=32.0 ^ viveJP in {sim} ^ 0.0<=totalRep<=2.0 ^ medTotal=7.5 (3)

92

class evadido IF : sexo in {f} ^ idade=22.0 ^ viveJP in {sim} ^ totalRep=1.0 ^ medTotal=8.0 (1)

You might also like