You are on page 1of 22

A Classificao Hierrquica Implicativa e Coesiva

R. Couturier, A. Bodin, R.Gras

Apresentao
O software CHIC tem por funes essenciais extrair de um conjunto de dados, cruzando sujeitos e variveis (ou atributos), regras de associao entre variveis, fornecer um ndice de qualidade de associao e de representar uma estruturao das variveis obtida por meio destas regras. A verso 2.3 de CHIC apresenta melhoras importantes no que diz respeito a convivialidade e as possibilidades de tratamento (por exemplo, possvel tratar tabelas de contingncia de tamanho 100*10000). Alm de mais, certos erros das verses anteriores foram corrigidos. Do jeito que est atualmente, o software CHIC j deveria servir de modo importante para a pesquisa assim como para a formao. A divulgao do software CHIC feita pela ARDM (Associao para a Pesquisa em Didtica da Matemtica). possvel obt-lo junto a Regis Gras (endereo na ltima pagina). As atualizaes do software sero asseguradas gratuitamente durante um ano para toda pessoa ou instituio tendo regularmente obtido uma verso do CHIC. A verso 2.3 s funciona de modo autnomo com Windows 95 ou mais. Um PC 486 (ao menos) recomendvel. Assim sendo, para grandes tabelas de contingncia, prefervel ter uma maquina potente (Pentium III com mais de 100 Mo de memria viva). Para o resto, uma familiaridade com Windows necessria (se no, recomendvel ser acompanhado por um usurio competente). necessrio tambm ter um mnimo de conhecimento sobre a anlise implicativa para poder interpretar corretamente os resultados de diversos tratamentos permitidos pelo CHIC (ver referncias e apndice).

Instalao de CHIC
Para instalar CHIC, criar um repertorio (que nomearemos, por exemplo, CHIC) e copiar os elementos do disquete ou dos arquivos fornecidos. Este disquete ou arquivos contm em particular um ou vrios arquivos de demonstrao que tm a particularidade de ter a extenso *.csv (ver mais adiante a questo do formato dos arquivos). No decorrer desta apresentao, o arquivo wa392.csv que ser usado como arquivo de demonstrao. Este arquivo comporta 22 variveis e 130 indivduos e estudado mais completamente em um artigo citado em referncia. No que segue significa CLICAR, significa obtemos.

Iniciando o CHIC
Para iniciar o CHIC, lanar primeiramente Windows, seguido do programa nomeado CHIC.exe.

A barra de opes do CHIC aparece assim:

Escolha das opes: CHIC contm numerosas opes que permitem de configur-lo como o usurio quiser. Para definir as opes:

Opo Aparece uma janela permitindo varias regulagens:

Esses parmetros so globais. Se eles so modificados, eles agem no prximo tratamento e no no tratamento atual. Mas esta modificao deve ser anterior ao tratamento do arquivo. - 1 Respeite as ocorrncias do grfico:!!ATENO ESTA OPO NO TEM, NO MOMENTO, NENHUM EFEITO EM RAZO DO USO DO ALGORITMO DE DESENHOS DE GRFICO AUTOMTICO!! Esta opo diz respeito ao grfico implicativo. Se ela escolhida, um eixo vertical localiza as ocorrncias (ou freqncias). Ser possvel mover horizontalmente as variveis, ou melhor, isto , mover o nome destas variveis, (ento temos um s grau de liberdade). Seno os elementos do grafo ficaro livres (dois graus de liberdade).

Lembremos que o respeito das ocorrncias permite evitar contra-sentidos e outros erros de leitura do grfico. Mas em contra-partida, o no respeito permite toda reorganizao desejada no grfico. - 2 Ns significativos: Esta opo, se for assinalada, permite calcular os ns significativos de uma rvore hierrquica, isto , os que correspondem uma classificao mais compatvel aos valores e qualidade dos valores de implicao e de coeso. - 3 Clculo longo: Esta opo permite fazer com que aparea todo o clculo intermedirio. Ela tem, sobretudo uma funo didtica e verificadora, mas no indispensvel. - 4 Clculo dos intervalos: esta opo diz respeito s variveis-intervalos, ou seja, as variveis, como por exemplo, os tamanhos ou os pesos dos indivduos, cujos valores pertencem a um intervalo de nmeros reais positivos. O usurio est encarregado de definir o nmero de intervalos, esses ltimos no tendo necessariamente a mesma amplitude, e desse fato maximizando a varincia interclasse da partio. Em outras palavras, esta partio, calculada pelo programa, separa ao melhor, pelo critrio de varincia, o conjunto dos valores observados de cada uma das variveis. Em seguida, ela permite calcular as implicaes das reunies destes intervalos. - 5 Salvando os resultados: !! ATENO ESTA OPO NO MOMENTO NO TEM NENHUM EFEITO EM RAZO DO USO DO ALGORITMO DE DESENHO DE GRFICOS AUTOMTICO!! Esta opo pode se revelar muito til quando desejamos tratar um volume importante de dados, isto , quando os tempos dos clculos so muito importantes. Ela permite ao CHIC de salvar automaticamente o ltimo clculo efetuado e de us-lo em um prximo clculo. Assim o clculo das correlaes efetuado uma s vez e o resultado desse reaproveitado se formos escolher a construo de uma rvore de similaridades ou de um grfico. - 6 Tipo de implicao: preciso escolher entre o mtodo clssico e o mtodo entrpico (ver Rgis Gras 1997). Este ltimo permite melhor satisfazer ao objetivo de modelagem da incluso conjuntista na base da teoria da implicao estatstica, mas mais severa no diz respeito intensidade de implicao. - 7 Tipo de lei: Duas modelagens do nmero aleatrio de contra-exemplos implicao ou regra so propostas: lei binomial e lei de Poisson. O usurio faz sua escolha sabendo que a lei de Poisson a mais restritiva quanto ao valor da implicao ou da regra (ver Lerman I.C., R. Gras e Rostam H., 1981). - 8 Janela de trabalho: Esta opo permite escolher a superfcie do trabalho. O usurio define uma rea de trabalho que ele pode depois modificar durante o clculo. Assim ele pode escolher uma grande superfcie de trabalho no comeo que ele reduz em seguida porque certas variveis no parecem interessantes aps o estudo. - 9 ndice de confiana mnimo de pesquisa: Esta opo tem tambm por objetivo reduzir o tempo de clculo quando o nmero de variveis importante. Neste caso, definimos um ndice sob o qual no procuraremos mais as implicaes entre variveis. Se o usurio souber de antemo que somente as implicaes superiores a um dado ndice lhe interessam, esta opo permite a operao. - 10 Opo de conjuno de variveis (ou item-set em ingls): CHIC permite agora calcular conjunes entre variveis premissas da implicao e isto de maneira automtica. Assim, obtemos regras da forma a b c d .

A opo nmero de variveis permite especificar quantas variveis intervm nas regras. Se escolhermos 2, teremos ento somente as regras da forma a b . Se escolhermos 3, teremos regras da forma a b c e assim em diante. O clculo das conjunes pode rapidamente gerar um nmero considervel de regras. Isto tem por conseqncia tornar delicada a interpretao do grfico implicativo. Assim, possvel levar em considerao unicamente as regras tendo um carter original, o que justifica a opo prevista para este efeito, opo essa que permite editar somente as regras superiores ao ndice escolhido pelo usurio. Os quadrados coloridos permitem definir as cores associadas aos diferentes ndices do grfico implicativo.

Escolha da lngua
Lngua
Ateno: esta opo deve ser escolhida antes da abertura do arquivo que ser trabalhado. No momento a verso inglesa provisria, mas, a termos, podemos prever o espanhol, o italiano, o portugus...

Ajuda
O menu Ajuda pode ser consultado, mas ele no muito completo. A ajuda se abre na lngua escolhida (por enquanto a ajuda em ingls no foi ainda feita). Sobre CHIC...

Formato dos arquivos


Esta questo essencial: CHIC tratara somente de arquivos tendo um formato compatvel com suas possibilidades de tratamento. Alm de mais, os arquivos devem ter um nome do tipo *.csv (a extenso sendo obrigatoriamente csv). O formato que convm o formato conhecido por Excel sob o nome de CSV. O meio mais seguro de obter um tal arquivo de digitar os dados ou de transferir um arquivo de dados sobre Excel (Excel 7, 5 ou 4) e depois salvar o arquivo no formato CSV (usando Excel). O arquivo de dados (uma coluna por varivel e uma linha por indivduo) deve obrigatoriamente ser completado por uma primeira linha contendo os nomes das variveis e por uma primeira coluna contendo o nome dos indivduos. Obtemos assim uma tabela do tipo da figura abaixo, na qual a casa 4

situada na primeira linha, primeira coluna vazia ( essencial). WB1; WB2; WB3;...so as variveis. Todo tipo de denominao convm: a; b; c....mas tambm ; amor; delicias; rgos; ...

e1; e2; e3;...; designam os indivduos. Todo tipo de denominao convm igualmente. O quadro abaixo d um exemplo de arquivo tal como ele lido no Word.

Podemos tambm fazer de tais arquivos no Word, mas no muito prtico. Ateno: todos os pontos e virgula so necessrios, em particular o primeiro da primeira linha. Se o arquivo do Excel PC, basta grav-lo tomando por opo de formato separador virgula (csv). Isto bastara para que o arquivo seja no bom formato. Se o arquivo vem de um Macintosh, o problema mais delicado. 5

Ateno: O formato csv de um Macintosh no convm. O conveniente seria transferir para um PC o arquivo previamente gravado em formato normal no Mac. Em seguida, no PC, abrir o arquivo com Excel e salv-lo no formato separador virgula (csv). Respeitando estas instrues, o usurio poder passar sem problemas de um universo a outro e de um software a outro. Mesmo assim, a passagem de Mac para PC pode conduzir a dificuldades considerveis. Todas as casas de valores da tabela devem, obrigatoriamente, ser preenchidas por nmeros compreendidos entre 0 e 1 (menos para as variveis intervalos). Assim, todo nmero decimal do intervalo [0;1] pode figurar, no caso das variveis freqenciais como por exemplo: 0,80. Se uma casa est vazia ou tem um formato que no convm, o software se bloqueia e assinala o erro, assim como o lugar onde este erro se encontra. No momento, ele no ir mais longe nos clculos.

Variveis
CHIC permite realizar a anlise de dados a partir de variveis. Existem vrios tipos de variveis que podem ser tratadas por este software. As variveis podem ser dos seguintes tipos: binria, modal, freqencial ou intervalo. Elas podem ser principais ou secundrias (ou suplementares). Variveis binrias: toda varivel binria, como indica o nome, assume unicamente dois valores, 0 ou 1. Ela significa a antinomia entre estes dois valores, como por exemplo, a presena e a ausncia, o verdadeiro e o falso, a posse e a no posse, etc. A soma dos elementos de uma coluna representa a ocorrncia da varivel em questo (nmero de vezes que ela satisfeita). A soma dos elementos de uma linha representa o nmero de variveis que o sujeito em questo possui ou satisfaz. Variveis modais e freqenciais: na seqncia do nosso trabalho, ampliamos a noo de implicao estatstica a outras variveis alm das binrias. o caso das variveis modais que so associadas a fenmenos nos quais os valores a(x) (valores atribudos pelos sujeitos x varivel a) so nmeros pertencentes ao intervalo [0, 1] e que descrevem o grau de pertinncia ou de satisfao como na lgica fuzzy. Por exemplo, as modalidades: concordncia plena, concordncia, concordncia parcial, no concordncia, reveladas em um questionrio de opinies, so levadas em considerao e transformadas em valores de intensidade ordenados, como por exemplo, as modalidades definidas pelos respectivos nmeros: 1, 0.75, 0.50, 0.25 e 0. tambm o caso das variveis freqenciais, como as porcentagens, que so associadas aos fenmenos em que os valores de a(x) so nmeros reais positivos quaisquer. J. B. Lagrange (1998) deu, nestes casos, novos ndices que coincidem com os ndices de implicao entre variveis binrias. Variveis quantitativas ou efetivas: estas variveis, a valores reais positivos, descrevem situaes nas quais aos elementos x de E faz-se corresponder uma quantidade a(x), por exemplo, o nmero de vezes que a varivel a observada em x. Para tratar essas variveis, basta, com a ajuda de uma planilha, transformar os valores observados, por uma normalizao utilizando o valor mximo observado, em valores do intervalo [0, 1]. A frmula que calcula o ndice de implicao entre variveis binrias ento utilizada no caso das variveis freqnciais. Variveis- intervalo: Este tipo de varivel uma extenso do tipo precedente. Trata-se aqui de uma varivel numrica positiva (ou negativa) cujos valores esto contidos num intervalo conhecido. Por exemplo, a varivel altura ou peso em um conjunto de indivduos uma varivel-intervalo que a teoria implicativa trata, respondendo a duas interrogaes do usurio: o Qual a melhor subdiviso do intervalo em p sub-intervalos maximizando um critrio informacional? o Entre duas variveis-intervalo, transformadas em dois conjuntos de p sub-intervalos, quais implicaes se pode evidenciar reunindo, se for necessrio, alguns destes p sub-intervalos? 6

Os valores figurando na tabela .csv so numricos: so os valores assumidos pela varivel-intervalo. O software faz, ele mesmo, a partio timo do conjunto dos valores segundo uma sub-diviso em um nmero de sub-intervalos escolhidos pelo usurio. As variveis-intervalos devem dispor de uma codificao literal ou numrica seguida de um espao e de um i. Assim, uma varivel Idade de tipo intervalo ser, por exemplo, codificada por: Idade i em Excel. Variveis principais e secundrias ou suplementares: qualificamos uma varivel de principal toda varivel considerada normalmente pelo CHIC. Como padro, todas as variveis so principais. As variveis suplementares (em geral so as descritivas), so variveis que no interferem no clculo das contribuies das categorias. Por exemplo, se desejamos saber se uma implicao na maior parte formada por pessoas do sexo feminino ou masculino, definimos para cada indivduo a varivel sexo. Em seguida, estas variveis so consideradas apenas quando da procura da contribuio ou da tipicidade das categorias. Para definir uma varivel secundria ou suplementar, acrescentamos ao nome da varivel um espao e um s. Assim, o atributo Feminino , por exemplo, codificada Fem como varivel principal e Fem s como varivel suplementar. No momento, deve-se fazer esta transformao manualmente fora do CHIC, mas est previsto poder faz-lo com CHIC (em um futuro prximo).

Efetuar um tratamento
Para efetuar um tratamento: Arquivo

Vrias funes esto disponveis: Novo tratamento (clicar duas vezes) sobre o nome do arquivo escolhido

Os tratamentos propostos so:

Similaridade: efetua a anlise das proximidades segundo I. C. LERMAN, e produz uma janela de resultados numricos (ndices, ...) e uma janela apresentando a rvore hierrquica de similaridades. Grafo implicativo: efetua os clculos dos ndices de implicao no sentido da anlise implicativa, clssica ou entrpica, segundo a opo escolhida, em seguida apresenta uma janela de resultados numricos (ocorrncias, desvio-padro, coeficientes de correlao) e, em cima, uma janela apresentando um grafo. Os resultados numricos aparecero igualmente com os outros tratamentos. rvore coesiva: efetua os clculos dos ndices de coeso implicativa no sentido da anlise implicativa, depois apresenta uma janela de resultados numricos e uma janela apresentando uma rvore ascendente segundo o ndice decrescente das coeses.

Abrir um arquivo salvo


Permite aplicar um modelo ou estado (parmetros visuais tais que a seleo e a posio dos itens) salvo anteriormente sob o grafo implicativo em uso. O interesse de aplicar um modelo sobre um clculo est no fato de podermos salvar vrios modelos ou estados para o mesmo arquivo. Assim, se desejamos passar de uma representao a outra de um mesmo grafo, no somos obrigados a relanar todos os clculos. Para apagar os arquivos da lista de arquivos recentes: Apaga os arquivos recentes

Selecionar um ou vrios arquivos e depois clicar sobre Suprimir. Para todos os clculos, os elementos das parties obtidas pelas variveis-intervalo so reunidos por adjacncias sucessivas. Se por exemplo, uma varivel P (como peso) organizada segundo uma partio de 4 intervalos, P1, P2, P3 e P4, e uma varivel T (como altura) organizada segundo uma partio de 3 intervalos, T1, T2 e T3, o programa tratar, como novas variveis, todas as reunies possveis dos intervalos adjacentes: por exemplo, P23 obtido pela reunio de P2 e P3; P24 obtido pela reunio de P2, P3 e P4. ATENO !!! Por enquanto, as variveis-intervalo so limitadas a uma nica letra como P e T. CHIC mune estas variveis de um ndice correspondente ao sub-intervalo da varivel-intervalo. Para passar de um tratamento a outro: Se for de um arquivo ainda no tratado por CHIC (ou muito anteriormente tratada), ir ao sub-menu Novo tratamento do menu Arquivo e selecionar como anteriormente o arquivo escolhido. Se for um dos ltimos arquivos tratados por CHIC, basta retom-lo na janela do menu Arquivo. No curso dos tratamentos, a barra de menu aparece da seguinte maneira:

Aspectos particulares que dizem respeito aos clculos e s sadas correspondentes: Quando do lanamento de um dos diferentes tratamentos, a freqncia de cada item ou varivel exibida, assim como os coeficientes de correlao linear entre todas as variveis principais, duas a duas. Em seguida, os ndices do tratamento escolhido so exibidos (ndice de similaridade, de implicao, ...)

rvore de similaridades e rvore coesiva.

A rvore aparece em uma janela que dissimula parcialmente ou totalmente os resultados numricos que figuram em uma outra janela. Passamos facilmente de uma janela a outra, transitando, por exemplo, pelo menu Janela. Os resultados numricos dos clculos so exibidos em uma janela do tipo texto e estes podem ser compreendidos unicamente em referncia ao tratamento executado. A figura mostra uma rvore hierrquica com os nveis significativos (flechas mais grossas ou em vermelho). A cada tratamento est associada uma janela de texto que contm os resultados do clculo inicial. Obs.: A hierarquia, mesmo que dita ascendente, representada por um grfico descendente: a base da hierarquia colocada no alto do grfico. Eis a janela de texto:

Alm disso, uma caixa de ferramentas nomeada barra de itens aparece.

Barra de itens.
Esta caixa apresenta as codificaes dos itens tratados. Clicando em um ou mais destas codificaes, e clicando em seguida sobre OK, as variveis correspondentes so deixadas de lado no clculo, que retomado para a construo da rvore, desta vez sem estas variveis. Clicando novamente sobre um item selecionado, este retomado para um novo clculo.

Podemos igualmente inverter os itens selecionados, isto , selecionar os itens no selecionados e reciprocamente:

Ao Inverter os itens selecionados


Ou Desfazer selecionar todos os itens:

Ao Desfazer selecionar todos os itens.

10

Grafo implicativo
Assim como nas funes similaridade e rvore hierrquica, a funo grafo traz uma janela na tela. Essa ltima contm o grafo implicativo. Ateno, possvel que o grafo esteja vazio. Esta situao se produz quando os parmetros do grafo no esto corretamente ajustados. Ver logo abaixo.

Somente uma janela verdadeiramente nova em relao ao que vem sido escrito acima: a Barra de Parmetros...

Barra de parmetros do grafo implicativo


A janela abaixo aparece, o grafo substitui a janela da rvore anterior. Uma das originalidades desta verso do CHIC a possibilidade de trabalhar diretamente sobre o grafo e de transform-lo.

11

Reorganizao do grafo Basta selecionar um item (clicar e manter pressionado) para poder mov-lo. Esse movimento pode somente ser efetuado horizontalmente se escolhermos a opo respeito das ocorrncias (opo no ativada no momento); ele pode ser efetuado em qualquer direo se escolhermos no respeitar as ocorrncias. O item se movimenta ento, mas TODAS AS LIGAES SO CONSERVADAS (mesmo as quais no aparecem na tela!). Tambm possvel selecionar, um a um, um conjunto de itens, ou ainda clicar na janela, movimentar o mouse mantendo o boto pressionado, para selecionar um grupo que ser possvel de movimentar globalmente. Esta nova verso do CHIC possui agora um algoritmo que permite desenhar o grafo implicativo de maneira automtica. O resultado interessante em alguns casos, porque obtemos grafo mais rapidamente que movimentando os itens manualmente. Entretanto, em algumas situaes, prefervel modific-lo. porque o algoritmo chamado automaticamente e unicamente na criao do grafo com um ndice 99. Isto explica que em certos casos, se nenhuma implicao superior a 99, o grafo vazio. Uma outra novidade devido utilizao deste algoritmo que agora, possvel usar curvas de Bzier para representar as implicaes. Uma curva de Bzier permite traar uma curva entre dois itens em vez de uma reta. Ela possui pontos de controle que permitem agir sobre sua forma. Os pontos de controle so visveis unicamente quando um dos dois itens que compem a implicao selecionado. Assim para modificar uma curva, preciso selecionar um dos dois itens das duas extremidades da implicao, os pontos de controle aparecendo, possvel moviment-los como movimentamos os itens. Como padro, quando feita a movimentao de um item, CHIC traa uma reta entre o item movimentado e todos os itens a ele ligado. Ento os pontos de controle de diferentes curvas seguem as retas. Se desejarmos conservar os pontos de controle nos seus lugares originais, preciso clicar no boto c e o manter pressionado enquanto movimentamos um ou vrios itens. Quando modificamos os ndices do grafo implicativo, novas implicaes aparecem ou desaparecem. No momento, quando elas aparecem, CHIC coloca os novos itens no alto esquerda da tela e superpe os nomes. o usurio que os movimenta seguindo suas vontades. Se mesmo assim quisermos usar o algoritmo de desenho de grafo automtico, chamar: Ao Desenha o grafo de maneira automtica ou pressionar Control + D. Ateno 1 Se constatarmos que temos implicaes demais (muitas para que possamos manipul-las com o mouse), preciso saber que para que o algoritmo as localiza melhor (seguindo os critrios que ele usa), este pode levar um tempo que varia como uma funo exponencial com o nmero de arcos no grafo. Ento, de acordo com a potencia do computador usado, este procedimento pode demorar muito tempo (vrias horas em certos casos). Ateno 2 Usando esse algoritmo, o grafo pode ficar grande, ou mesmo muito grande para CHIC. Neste caso, uma janela de dialogo aparecer pedindo a reduo do tamanho do grafo. Por conseqncia, uma parte do grafo no ser representada. Essa situao se produz quando manipulamos grafos muito complexos e, da parece evidente que no tiraremos uma informao

12

pertinente desse grafo, esta a razo do porque suprimir variveis ou usar ndices de implicao maiores. Ateno 3 Quando usamos o algoritmo de desenho de grafo automtico, CHIC nem sempre conserva a localizao inicial dos itens. a razo pela qual que este procedimento s aparecer ao pedido do usurio. Barra de parmetros do grafo implicativo Quando fazemos um primeiro tratamento, esta barra aparece ao mesmo tempo que o grafo. Seno, ir a Exibir e clicar no menu correspondente. O esquema abaixo ilustra o funcionamento da barra de parmetros do grafo. (mettre la copie dcran correspondente, la version portuguaise semble imcomplete)

Ateno: Aps ter modificado as opes da caixa de parmetros, sempre confirmar clicando em OK. Quatro bandas de desfilamento permitem associar cores diferentes a ndices diferentes. Se, por exemplo, um primeiro ndice regulado a 99 e associado cor vermelha, possvel modificar o ndice e a cor. Simultaneamente, podemos selecionar um segundo ndice (linha abaixo da primeira seleo), por exemplo 95 e associ-lo a uma cor diferente da anterior. As opes: - T fl: ela permite modificar o tamanho das flechas normais (no pontilhadas). possvel modificar o tamanho das flechas dos 4 ndices, para isso preciso clicar no pequeno mais ao lado de T fl, selecionar uma flecha e modificar o tamanho com o elevador. - T fer: ATENO OPO NO VALIDA ATUALMENTE Esta opo permite modificar o tamanho das flechas transitivas (em pontilhado). - Fer transi: Ela permite, escolhendo 1, obter um traado de todos os arcos associados s implicaes transitivas nos ndices escolhidos, respeitando as cores. Esses novos arcos aparecem em pontilhado. - Com occ.: ATENO OPO NO VALIDA ATUALMENTE

13

Esta opo permite respeitar ou no as ocorrncias no tratamento em curso. Se o valor 1 os itens podem se mexer somente no sentido horizontal. Se no menu opo, especificamos respeite as ocorrncias do grafo, um referencial aparece a direita para diferenciar os itens segundo suas ocorrncias. Mas assim que pedimos para no respeitar mais as ocorrncias do grafo, o referencial desaparece mesmo se recolocarmos a opo Com occ. - T crculo: ATENO OPO NO VALIDA ATUALMENTE Ela permite modificar o tamanho dos crculos do grafo. IMPORTANTE: Os nomes das variveis que aparecem no grafo na primeira sada de tela so os que introduzimos no arquivo. Esses nomes aparecem na barra de itens. As pequenas janelas que podem incomodar na leitura da tela podem ser movimentadas a vontade. Ou ento elas podem ser, segundo o caso, fechadas ou abertas usando os comandos a seguir: -F2 para a barra de itens -F3 para a barra de parmetros do grafo Nos j vimos que, para que isto seja feito, podemos tambm ir ao menu Exibir. No tratamento grafo implicativo, a caixa de ferramentas barra de itens funciona como no caso das rvores.

Clculo das tipicalidades / contribuies associadas a um caminho


O clculo das tipicalidades e das contribuies dos indivduos possvel em relao aos caminhos do grafo implicativo. Clicamos sobre UM pico considerado como origem do caminho. depois Ao

Tipicalidade do indivduo ou

Contribuio dos indivduos

Escolher um ndice, e enfim clicar sobre procure os caminhos. Os caminhos conexos, de origem o pico escolhido e o ndice retido, aparecem ento na janela. Podemos selecionar um ou mais, que se sigam ou no (tcnica Windows), e depois clicar em OK. Os resultados aparecem ento na janela de texto associada ao clculo. Obtemos assim a contribuio ou a tipicalidade de cada indivduo para o(s) caminho(s) escolhido(s), e depois a lista de riscos associados a cada varivel suplementar (um risco fraco o ndice de uma forte contribuio ou uma forte tipicalidade) e enfim a varivel que contribui mais ou a mais tpica. 14

Clculo das tipicalidades / contribuies associadas a uma classe


Para obter esta informao quando a rvore aparece, basta pedir a contribuio ou a tipicalidade na opo Ao. Se escolhermos uma, ela vem acompanhada de nomes de indivduos com o grau de contribuio ou de tipicalidade, e do grupo de indivduos que mais contribuiu a esta classe ou do grupo mais tpico desta classe (grupo timo).

Clculo das tipicalidades / contribuies das categorias de um grafo coesivo


Para obter esta informao quando a rvore aparece, mesmo depois do clculo precedente, basta pedir na opo Ao o clculo das contribuies das variveis suplementares ou o clculo das tipicalidades das variveis suplementares. As classes aparecem na ordem de suas constituies, acompanhadas das contribuies ou tipicalidades respectivas de cada uma das variveis, e depois o grupo de variveis que contribui mais ou o mais tpico com seu risco estatstico (repetimos: mais o risco fraco, mais a confiana forte).

Complementos
Podemos SALVAR um grafo implicativo, ou IMPRIMIR uma janela (resultados numricos ou grficos): Arquivo salvar como... uma barra de dialogo de salvar se abrir propondo uma extenso .gra (como grafo) indispensvel para que CHIC reconhea o arquivo. Neste caso, CHIC salva a posio dos itens e permite obter o ltimo estado do grafo que tnhamos salvado. No sero as janelas estatsticas que sero abertas quando abriremos o arquivo usando a funo Abrir um arquivo salvo...(tomando o cuidado de pedir os arquivos tendo uma extenso .gra) Podemos tambm Copiar um grafo de CHIC para inseri-lo num aplicativo: Editar Copiar Em seguida podemos colar o grafo em um aplicativo procedendo assim no aplicativo: Editar

Colar

15

Podemos INTERROMPER um clculo a qualquer momento (ou quase) pressionando o boto Esc possvel mudar o tamanho da superfcie sobre a qual as variveis do grafo ou da rvore esto localizadas. Ao Modificar superfcie de trabalho...

Ns significativos
Se escolhermos esta opo na caixa de dialogo Opo, durante os clculos relativos construo do grafo de similaridades e do grafo coesivo, CHIC efetua os clculos necessrios para a determinao dos ns significativos. Os resultados aparecem no fim do texto da janela de resultados.

e na janela do grafo onde cada nvel significativo aparece com uma flecha mais grossa e vermelha. A seguir... Referencias Ag Almouloud , S., (1992) : L'ordinateur: outil d'aide l'apprentissage de la dmonstration et de traitement d'analyse de donnes didactiques. Thse de l'Universit de Rennes 1. Bailleul M. (1994) : Analyse statistique implicative : application la modlisation de l'enseignant dans le systme didactique. Thse, Universit de Rennes 1. Bodin, A (1996) : Modles sous-jacents l'analyse implicative et outils complmentaires,

16

cahiers du sminaire de didactique de l'IRMAR de Rennes. Bodin, A., Couturier, R. et Gras, R (1996) : 'Analyse d'une preuve de concours par la mthode implicative'. Communication aux journes de la Socit Franaise de Classification, Vannes Bodin, A. (1996), 'Improving the Diagnostic and Didactic Meaningfulness of Mathematics Assessment in France' Annual Meeting of the American Educational Research Association AERA - New-York Bodin, A., Gras, R. et Lagrange, J.B. (1997) : Implication statistique, Prpublication IRMAR n 97-32, Rennes Couturier, R. et Gras R. (1999) : Introduction de variables supplmentaires dans une hirarchie de classes et application CHIC, Actes des 7mes Rencontres de la Socit Francophone de Classification, 87-92, Nancy, 15-17 septembre 1999 Gras, R et al (1996) : L'implication statistique. Nouvelle mthode exploratoire de donnes. La Pense Sauvage. Grenoble Gras, R et Pcal, M. (1995) : L'valuation en mathmatiques : perspectives institutionnelles, pdagogiques et statistiques. Actes de l'universit d't de l'APMEP - Sophia Antipolis 10-14 juillet 1995 - Brochure N 102 de l'APMEP. Gras, R. (1986) : Recherches sur l'apprentissage : Analyse des correspondances et mthodes statistiques apparentes - Cahier du Cirade - Universit du Quebec Montral. Gras, R. (1992) : Data analysis : a method for the processing of didactic questions. In Research in Didactique of mathematics - selected papers - Douady, R. & Mercier, A. Ed - La Pense Sauvage Grenoble Gras, R. (1995), Mthodes d'analyses statistiques multidimensionnelles en didactique des mathmatiques. Actes du colloque ARDM de Caen (27 - 29 janvier 1995) - publi par l'ARDM Gras, R. , Larher, A. (1992) : 'L'implication statistique, une nouvelle mthode d'analyse de donnes', Mathmatique, Informatique et Sciences Humaines, n 120. Gras, R.(1992) : L'analyse des donnes: une mthodologie de traitement de questions de didactique, Recherches en Didactique des Mathmatiques, Vol. 12-1. Gras, R et Ratsimba-Rajohn (1996) : Analyse non symtrique de donnes par l'implication statistique, RAIRO, Recherche Oprationnelle, n3-96, AFCET Paris. Gras R., Briand H., Peter P., Philippe J. (1997) : Implicative statistical analysis, Proceedings of International Congress I.F.C.S., 96, Kobe, Springer-Verlag, Tokyo. Gras R., Richeton J.P. (2000) : Elments d'analyse de l'exprimentation d'preuves de mathmatiques en classe de premire, Bulletin n 427 de l'Association des Professeurs de Mathmatiques de l'Enseignement Public, 187-201, Paris, ISSN 0240-5709 Gras R. (2000) : Quelques principes majeurs pour l'laboration d'un programme de mathmatiques pour le second cycle, Bulletin n 429 de l'Association des Professeurs de Mathmatiques de l'Enseignement Public, 522-527, Paris, ISSN 0240-5709 Gras R., Kuntz P., Couturier R. et Guillet F. (2001) : Une version entropique de l'intensit d'implication pour les corpus volumineux, Proceedings des Journes E.C.D. de Nantes (2001), Herms Gras Robin, Gras Rgis, et al : Classification automatique de protines par un algorithme gntique pour l'optimisation d'un outil d'identification de protines par empreinte de masses peptidiques, soumis Mathmatiques et Sciences Humaines Gras R., Kuntz P. et Briand H. (2001) : Les fondements de l'analyse statistique implicative, Mathmatiques et Sciences Humaines, n 154-155 Gras R., Diday E., Kuntz P. et Couturier R. (2001) : Variables sur intervalles et variablesintervalles en analyse implicative, Actes du 8me Congrs de la SFC de Pointe Pitre, 17

17-21 dcembre 2001, pp 166-173 Gras Rgis, Guillet F., Gras Robin et Philipp J. (2002) : Rduction des colonnes d'un tableau de donnes par quasi-quivalence entre variables, Extraction des connaissances et apprentissage, Herms, Volume 1, n4/2001, p 197-202, ISBN 2-7462-0406-1 Larher A. (1991) : Implication statistique et applications l'analyse de dmarches de preuve mathmatique, Thse de l'Universit de Rennes 1. Lerman I.C., Gras R. et Rostam H., (1981) : Elaboration et valuation d'un indice d'implication pour des donnes binaires, I et II, Mathmatiques et sciences Humaines, n75, Paris Peter P., Gras R., Philipp J. et Baqudano S. (2001): L'analyse implicative pour l'tude d'un questionnaire de personnalit, Proceedings des Journes E.C.D. de Nantes 2001, Herms Polo, M. (1996) : Le repre cartsien dans les systmes scolaires franais et italien : tude didactique et application de mthodes d'analyse statistique multidimensionnelle, Thse de l'Universit de Rennes 1 Ratsimba-Rajohn, H. (1992) : Contribution l'tude de la hirarchie implicative, application l'analyse de la gestion didactique des phnomnes d'ostension et de contradiction, Thse de l'Universit de Rennes 1 Totohasina, A. (1992) : Mthode implicative en analyse de donnes et application l'analyse de conceptions d'tudiants sur la notion de probabilit conditionnelle, Thse de l'Universit de Rennes 1

Apndice
Mtodos de analise de dados praticados no software CHIC
Estas notas, intuitivas e poucas tcnicas, tm por finalidade guiar o usurio em suas primeiras interpretaes. Os argumentos tericos so apresentados nas obras e artigos citados nas referncias acima.

Anlise das similaridades segundo I.C. Lerman


Indcios de similaridade Como em todos os mtodos de classificao, procuramos constituir, em um conjunto V das variveis, parties de V cada vez menos finas, construdas de maneira ascendente. Essas parties encaixadas so representadas por uma rvore construda usando um critrio de similaridade ou de semelhana estatstica entre variveis. A similaridade se define a partir do cruzamento do conjunto V das variveis com um conjunto E de sujeitos (ou de objetos). Este tipo de anlise permite ao usurio estudar e depois interpretar, em termos de tipologia e de semelhana ( e no semelhana) decrescente, classes de variveis, constitudas significativamente a certos nveis da rvore e se opondo a outros nestes mesmos nveis. O critrio de similaridade se exprime da maneira seguinte nos casos das variveis binrias (presena ausncia, verdadeiro falso, sim no, etc...): 2 variveis a e b, satisfeitas respectivamente por sub-conjuntos (suportes) A e B de E, so muito semelhantes quando o nmero k dos sujeitos que os verificam simultaneamente (ou seja os 18

elementos de A B ) importante de um lado, pelo que teria sido no caso da ausncia de ligao entre a e b, e por outro lado, com relao aos cardinais de E, A e B. Medimos esta semelhana pela probabilidade que k seja superior ao nmero aleatrio esperado nesta situao na qual somente o acaso interviria. O ndice correspondente entre as variveis no ento modificado, desviado pelo tamanho de A B e no coincide ento com o coeficiente de correlao linear. A modelagem probabilista da varivel aleatria, cujo k a realizao presente, pode ser binomial ou de Poisson escolha do usurio. A segunda supe que E seja uma amostra de uma populao me mais ampla, o que a primeira no supe. Se E no tem nenhuma razo estatstica a priori de ser representativo, prefervel usar o modelo binomial que analisa a estrutura de E enquanto tal. Quando os parmetros o permitem, uma aproximao gaussiana destas duas leis efetuada. O ndice de similaridade entre variveis serve em seguida para definir um ndice de similaridade entre duas classes de variveis segundo este mesmo princpio de comparao entre a observao e o que seria dado pelo acaso. Um ndice, dito de coeso, permite no mais reagrupar as classes quando esse reagrupamento feito contra natureza, isto , quando o ndice de similaridade entre as classes, em processo de reagrupamento, apresenta um ndice de coeso muito fraco. rvore de similaridade

Assim, para construir uma rvore de similaridade, reunimos em uma classe de primeiro nvel, primeiramente, as 2 variveis que so mais similares no sentido do ndice de similaridade, depois 2 outras variveis ou uma varivel e a classe j formada no sentido do ndice da classe, e depois outras variveis ou classes de variveis.

Na situao acima b e d so mais semelhantes que todos os outros pares de variveis. Elas so reunidas no nvel 1 da rvore hierrquica. Depois a classe (a, b, d) apresenta uma melhor agregao que todos os outros pares. Ela formada no nvel 2. Em seguida, o par (e, f), reunido no nvel 3, tem mais semelhana que toda a extenso de (a, b, d). Depois a extenso (a, b, d, c), formada no nvel 4, melhor que toda a extenso de (e, f). As duas classes (a, b, d, c) e (e,f) se opem neste nvel e, sua reunio tendo uma coeso nula, no se reagrupam.
Nveis e ns significativos

Um critrio estatstico permite saber quais so os nveis significativos da rvore de similaridade entre todos os nveis constitudos. So os nveis em que se formam uma partio e classes que esto mais em acordo com os indcios de similaridade iniciais. Cada n significativo est associado classe obtida nesse nvel. A partio pode corresponder tipologia mais consistente para o nmero de classes que se formaram. Por exemplo, acima, os nveis 1 e 4 so significativos.

19

Duas outras informaes so susceptveis de ajudar na interpretao da rvore: a tipicalidade e a contribuio. Falaremos do assunto um pouco mais adiante com a teoria implicativa.
Tipicalidade

Certos sujeitos so tpicos do comportamento do conjunto da populao no sentido seguinte: no estudo da similaridade, eles atribuem ao conjunto das variveis valores compatveis com as similaridades constitudas sobre essas variveis pela populao. Se as variveis suplementares foram definidas pelo usurio, obteremos assim a tipicalidade dessas variveis a partir das tipicalidades dos indivduos que as satisfazem. Por exemplo, no decorrer de uma pesquisa scioprofissional, sero os auxiliares administrativos que sero tpicos do comportamento de uma populao de pessoas ativas.
Contribuio

possvel conhecer a contribuio a cada uma das classes de cada um dos sujeitos e ento das variveis suplementares. Cada umas dessas ltimas contribui mais ou menos na formao da classe: isto significa que os valores que eles do s variveis vo no sentido de suas similaridades. R. Gras e H. Ratsimba-Rajohn elaboraram um critrio que permite avaliar essa contribuio relativamente a cada uma das classes. Cada uma delas contribui. Por exemplo, em um questionrio de atitude, podemos evidenciar, a responsabilidade das mulheres de idade entre 30 e 40 anos na existncia de uma certa classe de variveis principais (ou ativas), o que quer dizer que elas participaram na construo da hierarquia.

Anlise das implicaes entre variveis e classe de variveis


ndices de implicao

O estudo continua sendo feito sobre o cruzamento de um conjunto de variveis V e de um conjunto de sujeitos E. No caso prototpico das variveis binrias, queremos dar um sentido estatstico a expresses como: quando se observa sobre um sujeito de E a varivel a, em geral observa-se a varivel b. Trata-se ento de procurar um modelo estatstico de uma quase implicao do tipo: Se a ento quase b, a implicao lgica estrita sendo raramente satisfeita. A esta quase implicao associada semanticamente uma regra, um tipo de teorema que liga uma premissa e uma concluso. Vemos assim a diferena entre o mtodo de anlise de similaridades que simtrico e o mtodo implicativo que , por essncia, no simtrico. Partindo dos sub-conjuntos A e B, suportes respectivos de a e b, ns interessamos na medida do sub-conjunto dos contra-exemplos da implicao, a saber as ocorrncias da propriedade ( a b ) do suporte A B ( B sendo o complementar de B em E). O nmero k de contra-exemplos considerado como a realizao de uma varivel aleatria de um modelo de Poisson ou de um modelo binomial, um e outro aproximados pela lei de Gauss quando legitimado pelos parmetros. O modelo de Poisson mais severo que o modelo binomial. Intuitivamente, diremos que a implicao admissvel no ndice de confiana se a probabilidade que essa varivel aleatria seja superior a k ela mesma superior a 1-. Isto , quanto mais k for pequeno, em relao as ocorrncias de a e b e o tamanho de E, mais a implicao surpreendentemente grande, ento admissvel e , sem dvidas, portadora de um sentido. O nmero1- o ndice de implicao dito da teoria clssica. O valor 0.95 representa um bom valor de admissibilidade quando n, a e b ultrapassam muitas dezenas de unidades. 20

Portanto, quando o tamanho das amostras alcana vrias centenas, ver milhares ou mesmo centenas de milhares, dispomos de uma modelagem mais complexa, mas mais adequada, pois ela permite estimar no somente a qualidade da implicao direta de a b , mas igualmente sua recproca b a . Esta modelagem chamada entrpica, pois ela faz apelo a qualidade da informao recolhida pelos desequilbrios respectivos dos casos ( (a b) e (a b) , e depois ( (a b) e (a b) , desequilbrio que mede a entropia no sentido de Shannon. O ndice que o corresponde chamado de ndice de implicao - incluso pois ele mede mais fielmente a quase incluso de A em B.
Grafo implicativo

Um grafo implicativo traduz graficamente a rede de relaes quase implicativas entre as variveis de V. O intervalo de confiana da apario de arcos ou flechas do grafo controlvel pelo usurio que pode, a sua vontade, aumentar ou diminuir seu nmero. A transitividade, que pilota a interpretao em termos de caminhos, aceita a um intervalo de confiana de 0,50. Durante a anlise, podemos nos concentrar unicamente na procura de arcos em Amon (pais ou fontes) de um pico de um grafo e em aval (filhos ou crianas) deste mesmo pico. Para isto, basta pedir um cone de origem o pico escolhido. A partir da opo de menu, mas igualmente durante este trabalho, possvel mudar o tamanho da janela de trabalho, o que permite se concentrar na organizao dos arcos sobre uma parte do grafo. Alm disso, o software sendo bem conhecido APRIORI, CHIC permite estudar as conjunes das variveis. Para isto, procuraremos entre as conjunes de 2 variveis (ento 3 variveis em jogo: conjuno de 2 variveis implicando uma varivel), 3,4, etc. (respectivamente 4, 5, etc. variveis em jogo), as que apresentam uma originalidade dada. Esse ndice leva em considerao a implicao, implicao entrpica, o suporte das variveis e uma certa confidncia. Por exemplo, se pedimos, a um intervalo de confiana de originalidade de 0.80, considerar todas as conjunes pondo 5 variveis em jogo, seja a conjuno de 4 para a qual procuramos a implicao com a 5, CHIC calcular todas as implicaes possveis das conjunes de 2, 3 e 4 variveis retendo as que aparecem no intervalo de confiana de 0.80. Se este intervalo mudado, o grafo logicamente tambm o ser.
rvore

O ndice de implicao entre duas variveis estendido ao clculo da coeso da classe. Esta ltima d conta da qualidade da implicao orientada dentro de uma classe de variveis e traduz a noo de meta-regra ou regra sobre regra. Uma hierarquia ascendente ou rvore coesiva traduz graficamente o encaixamento sucessivo das classes constitudas segundo o critrio de coeso que decrescente segundo os nveis (no sentido contrrio da formao das classes de variveis) da hierarquia. Um intervalo de confiana de parada sobre a coeso permite evitar a constituio das classes que no tm sentido implicativo, o que no se produz nas hierarquias clssicas, mas fica mais conforme a semntica.
Nveis e ns significativos

As noes de nvel e de ns significativos, como precedentemente, sublinhados por uma flecha vermelha assinala ao usurio as classes sobre os quais ele deve ter mais ateno no fato de sua melhor conformidade com os indcios de implicao iniciais. Na representao abaixo, observamos que no primeiro nvel, se forma uma classe ordenada (b,c) do fato que a implicao de b sobre c a mais forte entre todas as implicaes possveis entre variveis. A ele, corresponde necessariamente um n significativo. Em seguida, no nvel 2 uma

21

meta-regra aparece de a sobre (b,c). Ela se interpreta, por exemplo, da maneira seguinte: se a verdadeiro ento (se b verdadeiro ento c) geralmente; (a b) c)) equivalente a a b c . No nvel 4 se forma a regra (e,f). A varivel d no implica e no implicada por nenhuma outra.

Tipicalidade e contribuio
Que se trate dos caminhos do grafo implicativo ou das classes coesivas, interessante conhecer qual a responsabilidade dos sujeitos e das variveis suplementares em suas formaes, como foi feito para a similaridade. Esta opo possvel, de duas maneiras: primeiramente, pelo clculo do valor da tipicalidade de um sujeito x caracterizando sua conformidade ou sua quase conformidade tendncia geral dada pela intensidade da implicao incluso de uma varivel a sobre uma varivel b. Por exemplo, se x toma o valor a(x)=0,2 segundo a e o valor b(x)=0,9 segundo b, sua responsabilidade com relao implicao a b 0,73. Alm de mais, se a intensidade da implicao de a sobre b 0,75, x mais tpico que o sujeito y que teria a responsabilidade de 0,95. Definimos alias a distncia de x regra a b a partir desta responsabilidade. Essa distncia varia entre 0 e 1. O valor da tipicalidade o complemento a 1 desta distncia. Ela pode ser estendida ao conjunto de relaes de um caminho do grafo implicativo ou ao de uma classe da hierarquia coesiva. Os sujeitos que teriam um valor muito bom de tipicalidade poderiam ser considerados como prototpicos da populao. Podemos saber qual o grupo timo dos sujeitos que so os mais tpicos de um caminho ou de uma classe e tirar a varivel suplementar a mais tpica deste caminho ou desta classe. Em seguida, pelo clculo da conformidade lgica de um sujeito x existncia de um arco do grafo levando em considerao o intervalo de confiana escolhido, ou da hierarquia. Por exemplo, se o arco (a, b) aparece sobre o grafo ou na rvore, qual que seja a intensidade da implicao de a sobre b, diremos que esta conformidade igual a 1 e que ela igual a 0 no caso a b igual ao contrrio. Da deduz-se a distncia de x e a contribuio de x regra complemento desta distncia. Estendida a um caminho e a uma classe, ela permite estabelecer o grupo timo contributivo, e depois a varivel suplementar a mais contributiva ao caminho ou classe. Essas informaes so teis para orientar o usurio para analisar a ligao de tal ou tal grupo de sujeitos relativamente s regras ou meta-regras particulares.

22

You might also like