You are on page 1of 80

Sistemas Neuro-fuzzy

Germano C. Vasconcelos
Centro de Informtica - UFPE
Variaes da Lgica Clssica: Lgica Fuzzy

Grande parte da compreenso humana sobre os acontecimentos dos fatos


imprecisa
Em muitos casos, a preciso pode ser um tanto intil, enquanto instrues
vagas podem ser melhor interpretadas e realizadas
Exemplo de compreenso humana
Formal:
Comece a frear 10 metros antes do sinal PARE
Corriqueira:
Comece a frear perto do sinal PARE
Outro exemplo:
Ao utilizar-se a lgica clssica, definem-se regras como: Pessoas jovens so
aquelas cujas idades esto entre 0 e 20
Nesta lgica, uma pessoa com 20 anos e 1 dia no considerada uma pessoa jovem
Porm, sabemos que isso no verdade no mundo real
Da a necessidade de se utilizar mecanismos para descrever o grau de pertinncia de
uma pessoa ao conjunto de jovens
2
Caractersticas: Lgica Fuzzy

Resulta de dois estgios de fuzificao


A passagem da lgica bivalente para a lgica no-
enumervel multi-valorada
Introduo de predicados "vagos" na linguagem
A passagem para muitos valores de verdade difusos como
resultado de se tratar como vago o prprio predicado meta-
lingstico "verdadeiro
Verdadeiro, muito verdadeiro, no muito verdadeiro,...
Desenvolvida por Lofti A. Zadeh da Universidade da
Califrnia em Berkeley na dcada de 60

3
Caractersticas: Lgica Fuzzy

Trabalha com uma grande variedade de informaes vagas e


incertas: a maioria, mais ou menos, talvez...
Antes do surgimento da lgica fuzzy essas informaes no
tinham como ser processadas
Contm como casos especiais no s os sistemas lgicos
binrios, como tambm os multi-valorados
Vem sendo aplicada em:
Anlise de dados
Construo de sistemas especialistas
Controle e otimizao
Reconhecimento de padres

4
Conjuntos Fuzzy

Conjuntos com limites imprecisos

A = Conjunto de pessoas altas

Conjunto Clssico Conjunto Fuzzy


1.0 1.0
.9
.8

.5
Funo de
pertinncia

1.75 Altura 1.60 1.70 1.75 Altura


(m) (m)

5
Conjuntos Fuzzy

Definio formal
Um conjunto fuzzy A em X expresso como um conjunto
de pares ordenados:

A = {( x , A ( x )) | x X }
Funo de Universo ou
Conjunto
pertinncia Universo de discurso
fuzzy
(MF)

Um conjunto fuzzy totalmente caracterizado


por sua funo de pertinncia (MF)
6
Funo de Pertinncia
Reflete o conhecimento que se tem em relao intensidade com que o
objeto pertence ao conjunto fuzzy
Caractersticas das funes de pertinncia:
Medidas subjetivas
Funes no probabilsticas monotonicamente crescentes,
decrescentes ou subdividida em parte crescente e parte
decrescente.

FPs alto no Brasil

.8
.5 alto nos EUA

alto na Itlia
.1
7
1.75 Altura (m)
Formulao da Funo de Pertinncia

(a) Triangular (b) Trapezoidal

1 1

Grau de Pertinncia
Grau de Pertinncia

0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 20 40 60 80 100 0 20 40 60 80 100

(c) Gaussiana (d) Sino Gerneralizada

1 1
Grau de Pertinncia

Grau de Pertinncia
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0 8
0 20 40 60 80 100 0 20 40 60 80 100
Universo Discreto

X = {SF, Boston, LA} (discreto e


(a) Universo Discreto no ordenado)
C = Cidade desejvel para se
viver
1
C = {(SF, 0.9), (Boston, 0.8),
0.8 (LA, 0.6)}
Grau de Pertinncia

0.6
X = {0, 1, 2, 3, 4, 5, 6} (discreto)
0.4 A = Nmero ideal de filhos
0.2 A = {(0, .1), (1, .3), (2, .7), (3, 1),
(4, .6), (5, .2), (6, .1)}
0
0 2 4 6
X = Nmero de filhos

9
Universo Contnuo

X = (Conjunto de nmeros
(b) Universo Contnuo reais positivos) (contnuo)
1
B = Pessoas com idade em
Grau de Pertinncia

0.8

0.6
torno de 50 anos
0.4

0.2 B = {(x, B(x) )| x em X}


0
0 50 100
X = Idade
1
B(x) = 2
x 50
1+ 10
10
Partio Fuzzy

Partio fuzzy do universo de X representando idade,


formada pelos conjuntos fuzzy jovem, maduro e idoso.

1.2
Jovem Maduro Idoso
Grau de Pertinncia

0.8

0.6

0.4

0.2

0
0 10 20 30 40 50 60 70 80 90
X = Idade

11
Variveis Lingsticas

Uma varivel lingstica possui valores que no so nmeros,


mas sim palavras ou frases na linguagem natural.
Idade = idoso
Um valor lingstico um conjunto fuzzy.
Todos os valores lingsticos formam um conjunto de termos:
T(idade) = {Jovem, velho, muito jovem,...
Maduro, no maduro,...
Velho, no velho, muito velho, mais ou menos velho,...
No muito jovem e no muito velho,...}

12
Representao

(a) Conjuntos Fuzzy A e B (b) Conjunto Fuzzy no A

A B
1 1
A est contido em B
0.8 0.8
Grau de Pertinncia

0.6 0.6
1 B
0.4 0.4
0.8 A 0.2 0.2
0.6
0 0
0.4
0.2 (c) Conjunto Fuzzy "A ou B" (d) Conjunto Fuzzy "A e B"
0
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
13
0 0
Grau de Crena x Grau de Verdade

Grau de Crena x Teoria das Probabilidades


80% dos pacientes com dor de dentes tm cries
Uma probabilidade de 0.8 no significa 80% verdade mas sim
um grau de crena de 80% na regra
Grau de verdade x Lgica Fuzzy
Mrio alto
A proposio verdadeira para uma altura de Mario 1.65m ?
...mais ou menos....
Observar que no h incerteza, estamos seguros da altura de Mario
O termo lingustico alto vago, como interpret-lo?
O grau de pertinncia de um objeto a um conjunto fuzzy representado
por algum nmero em [0,1]
14
Sistemas Fuzzy

Entradas Crisp Classificao


Estimar uma medida
com maior preciso

Aplicao das
Fuzificao Defuzificao das
regras
das variveis variveis

Definir Funes Atribuir Graus Sada Crisp


de Pertinncia de pertinncia

15
Fuzzificao
Etapa na qual os valores numricos so
transformados em graus de pertinncia para um valor
lingstico

Cada valor de entrada ter um grau de pertinncia em


cada um dos conjuntos fuzzy. O tipo e a quantidade
de funes de pertinncia usados em um sistema
dependem de alguns fatores tais como: preciso,
estabilidade, facilidade de implementao...

16
Determinao das regras
Descrio das situaes nas quais h reaes atravs
de regras de produo (If - then). Cada regra na sada
especifica uma ou vrias concluses.

17
Regras If - then

Estilo Mamdani
Se a presso alta, ento o volume pequeno
alta pequeno

Estilo Sugeno
Se a velocidade mdia, ento a resistncia = 5 * velocidade

mdia
resistncia = 5*velocidade

18
Sistema de inferncia

Se velocidade baixa ento resistncia = 2


Se velocidade mdia ento resistncia = 4 * velocidade
Se velocidade alta ento resistncia = 8 * velocidade
MFs baixa mdia alta
.8

.3
.1
2 Velocidade
Regra 1: w1 = .3; r1 = 2
Regra 2: w2 = .8; r2 = 4*2 Resistncia = (wi*ri) / wi
Regra 3: w3 = .1; r3 = 8*2 = 7.12 19
Avaliao das regras

Cada antecedente (lado if) tem um grau de pertinncia. A ao


da regra (lado then) representa a sada fuzzy da regra. Durante
a avaliao das regras, a intensidade da sada calculada com
base nos valores dos antecedentes e ento indicadas pelas
sadas difusas da regra.
Alguns mtodos de avaliao:
MinMax, MaxMin, MaxProduto, MinMin, MaxMedia, MaxMax e
Soma dos produtos.

20
Agregao das Regras

So as tcnicas utilizadas na obteno de um conjunto


fuzzy de sada x a partir da inferncia nas regras.
Determinam quanto a condio de cada regra ser
satisfeita.

21
Defuzzificao

Processo utilizado para converter o conjunto difuso


de sada em um valor crisp correspondente.
Alguns mtodos de defuzzificao:
Centride,
Mdia dos mximos,
Distncia de Hamming,
Mtodo da altura, etc.

22
Fuzzificao e Certeza
Lgica Fuzzy um clculo de compatibilidade. Ela trabalha com
a descrio das caractersticas das propriedades ;
Lgica Fuzzy x Probabilidade ;
Descreve caractersticas que variam continuamente, associando
partes dos valores a significados semnticos ;
Poder relacionado a existncia de overlap;
Representa uma medida de pertinncia de um elemento a um
conjunto Fuzzy;
No acaba com o tempo. uma propriedade intrnseca de um
evento ou objeto.
23
Fuzzificao e Impreciso

Por que impreciso:


Ela existe devido a nossa incoerncia em compreender um
fenmeno do mundo real.
Ferramentas baseadas na viso formalizada de Aristteles.

O que dizer da seguinte declarao:

O CARRO EST RPIDO

24
Fuzzificao e Impreciso

O CARRO EST RPIDO


O que significa rpido?
A qual conjunto rpido pertence?

Modelo Dependente do Contexto

25
Fuzzificao e Impreciso

Curiosidade do Cotidiano:
Dilogo entre Glauber e Carina para decidir
O quo rpido um carro rpido

26
Fuzzificao e Impreciso

Glauber: ... ento podemos criar uma categoria para


carros rpidos uRPIDO [x] = { velocidade 100 };
Carina: ... e um carro a 99.5 km/h no rpido?
Glauber: ... vamos aumentar o limite para 99, combinado?
Carina: ... ainda no. E 98.5?
Glauber: Temos que parar em algum ponto !
Carina: Porque?
Glauber: ... concordar em algum ponto onde os carros no
esto rpidos.
27
Fuzzificao e Impreciso

Carina: verdade. Ento vamos dizer que carros abaixo


de 35 km/h no so rpidos.
Glauber: ... conclumos que u RPIDO [x] = { velocidade 35 e
velocidade 100 }. No, no podemos ter dois
limites para rpido. Ento u RPIDO [x] = { velocidade 35 }.
Carina: No! Carros a 35 km/k so lentos para serem
considerados rpidos.
Glauber: Sem problemas. 35 ser o mnimo para ser
considerado rpido - no em todos os casos, e

28
Fuzzificao e Impreciso

Glauber: 100 ser a velocidade que ns dois


consideramos ser rpido. Qualquer valor entre
eles ter o seu grau de rapidez.

CONCLUSES ?

29
Fuzzificao e Certeza

Esta variao de grau de rapidez significa que alguns carros estaro


mais fortemente associados com a categoria rpido do que outros;

Este grau pode assumir qualquer valor em um determinado


intervalo, no ficando restrito apenas a PERTENCER ou NO
PERTENCER aquele intervalo;

Finalmente Glauber e Carina conseguiram entender o princpio da


lgica Fuzzy.

30
Fuzzificao

Etapa no qual as variveis lingsticas so definidas de forma


subjetiva, bem como as funes membro (funes de pertinncia).

Engloba:
Anlise do Problema;
Definio das Variveis;
Definio das Funes de Pertinncia; e
Criao das Regies.

31
Fuzzificao

Na definio das funes de pertinncia para cada varivel,


diversos tipos de espao podem ser gerados.

Os mais comuns so: Triangular, Trapezoidal, Singleton e


Shouldered

32
Fuzzificao

TRIANGULAR:

Frio Normal Quente


33
Fuzzificao

TRAPEZOIDAL:

Lento Rpido

34
Fuzzificao - Exemplo

35
Inferncia

Etapa na qual as proposies (regras) so definidas e depois so


examinadas paralelamente.

Engloba:
Definio das proposies;
Anlise das Regras; e
Criao da regio resultante.

36
Inferncia

O mecanismo chave do modelo Fuzzy a proposio.

A proposio o relacionamento entre as variveis do modelo e


regies Fuzzy

Na definio das proposies, deve-se trabalhar com:

PROPOSIES CONDICIONAIS
PROPOSIES NO CONDICIONAIS

37
Inferncia

PROPOSIES CONDICIONAIS:
if W is Z then X is Y

PROPOSIES NO-CONDICIONAIS:
X is Y

38
Inferncia

AGREGAO:
Calcula a importncia de uma determinada regra para a situao
corrente.
COMPOSIO:
Calcula a influncia de cada regra nas variveis de sada.

39
Inferncia

Regras de Inferncia:

1 - IF durao = longa AND qualidade = alta THEN risco = mdio

2 - IF durao = mdia AND qualidade = alta THEN risco = baixo

3 - IF durao = curta AND qualidade = baixa THEN risco = baixo

4 - IF durao = longa AND qualidade = mdia THENA risco = alto

40
Defuzzificao

Etapa no qual as regies resultantes so convertidas em valores para


a varivel de sada do sistema;

Esta etapa corresponde a ligao funcional entre as regies


Fuzzy e o valor esperado;

Dentre os diversos tipos de tcnicas de defuzzificao destacamos:


Centride, First-of-Maxima, Middle-of-Maxima e Critrio Mximo.

41
Defuzzificao

Exemplos:

z0 z0 z0

Centride First-of-Maxima Critrio Mximo

42
Lgica Fuzzy no Mundo

Lgica Fuzzy tornou-se tecnologia padro e tambm aplicada em


anlise de dados e sinais de sensores;
Tambm utiliza-se lgica fuzzy em finanas e negcios;
Aproximadamente 1100 aplicaes bem sucedidas foram publicadas
em 1996; e
Utilizada em sistemas de Mquinas Fotogrficas, Mquina de Lavar
Roupas, Freios ABS, Ar Condicionado e etc.

43
Sistemas Neuro-fuzzy
 Redes neurais e lgica fuzzy so ferramentas
naturalmente complementares
 Redes neurais desempenham bem o tratamento de
dados e lgica fuzzy com raciocnio em mais alto
nvel, usando informao lingustica de
especialistas no domnio
 Sistemas fuzzy no possuem habilidade de
aprendizagem e adaptao a novos ambientes
 Redes Neurais podem aprender mas no explicam
o conhecimento adquirido
44
 Sistemas neuro-fuzzy integrados combinam
computao paralela com capacidade de
aprendizagem das redes neurais e habilidade de
representao de conhecimento e explicao dos
sistemas fuzzy

 Redes neurais se tornam mais transparentes e


sistemas fuzzy capazes de aprender

45
 Um sistema neuro-fuzzy uma rede neural
funcionalmente equivalente a um modelo de
inferncia fuzzy

 Pode ser treinado para desenvolver regras fuzzy


SE-ENTO e determinar funes de pertinncia
para as variveis de entrada e sada do sistema

 Conhecimento especialista pode ser incorporado


dentro da estrutura

46
 A estrutura de um sistema neuro-fuzzy similar
a uma rede neural multi-camadas

 Em geral, um sistema neuro-fuzzy possui


camadas de entrada e sada e trs camadas
escondidas que representam as funes de
pertinncia e as regras fuzzy

47
Rede Neuro-fuzzy
Layer 1 Layer 2 Layer 3 Layer 4 Layer 5

A1 A1 R1
x1 R1

x1 x1
A2 R2
x1 A2 R2
wR3 C1
C1
A3 A3 R3 R3 wR6
y
wR1
B1 B1 R4 R4 wR2
x2 C2
wR4
C2
R5 wR5
x2 x2 B2
B2 R5
x2
R6
B3
B3 R6
48
Camada 1 a Camada de Entrada. Cada neurnio
transmite sinais crisps diretamente para a
prxima camada:

yi(1) = xi(1)

Camada 2 a Camada de Fuzificao. Neurnios


nesta camada representam conjuntos fuzzy usados
nos antecedentes das regras fuzzy. Um neurnio
de fuzzificao recebe uma entrada crisp e
determina o grau de pertinncia da entrada ao
conjunto fuzzy do neurnio. 49
A funo de ativao de um neurnio de pertinncia
definida como a funo que especifica o conjunto fuzzy
do neurnio. Usando funes de pertinncia
triangulares, por exemplo, pode-se definir a funo
com base em dois parmetros {a, b}:

( 2) b
0, if xi a
2

2 xi( 2) a
b b
yi( 2) = 1 ( 2)
, if a < xi < a +
b 2 2
( 2) b
0, if xi a +
2
50
Funes de Ativao Triangulares

1 1
a = 4, b =6 a = 4.5, b =6 a = 4, b =6
0.8 0.8
a = 4, b =4
0.6 0.6

0.4 0.4

0.2 0.2

0
0 1 2 3 4 5 6 7 8
X 0
0 1 2 3 4 5 6 7 8
X

(a) Effect of parameter a. (b) Effect of parameter b.

51
Camada 3 a Camada de Regras Fuzzy. Cada
neurnio nesta camada corresponde a uma simples
regra fuzzy. Um neurnio de regra fuzzy recebe
entrada dos neurnios de fuzificao que
representam os conjuntos fuzzy nos antecedentes
das regras. Por exemplo, neurnio R1, que
corresponde Regra 1, recebe entradas dos
neurnios A1 e B1
A interseo pode ser implementada pelo operador
produto. Sada do neurnio i na Camada 3 dada por:

yi(3) = x1(i3) x2(3i ) K xki


(3) y R(31) = A1 B1 = R1
52
Camada 4 a Camada de Pertinncia de Sada.
Neurnios nesta camada representam conjuntos
fuzzy usados nos consequentes das regras fuzzy.
Um neurnio de pertinncia de sada combina
todas suas entradas usando a operao fuzzy unio
A operao pode ser implementada pelo OU
probabilstico:
( 4) ( 4) ( 4) ( 4) ( 4)
yi = x1i x2i K xli yC1 = R3 R 6 = C1

O valor de C1 representa a fora de disparo


integrada dos neurnios de regras fuzzy R3 e R6

53
Camada 5 a Camada de Defuzificao. Cada
neurnio nesta camada representa uma sada
simples do sistema neuro-fuzzy. Toma-se os
conjuntos fuzzy de sada clipados pelas
respectivas foras de disparo e as combina em um
conjunto fuzzy nico.

Sistemas neuro-fuzzy podem aplicar mtodos de


defuzificao padres como a tcnica de centroid

E o mtodo de composio Soma-produto.


54
A composio soma-produto calcula a sada crisp
como a mdia ponderada dos centroides de todas as
funes de pertinncia. Por exemplo, a mdia
ponderada dos centroides dos conjuntos fuzzy
clipados C1 e C2 dada por:

C1 aC1 bC1 + C 2 aC 2 bC 2
y=
C1 bC1 + C 2 bC 2

55
Como um Sistema Neuro-fuzzy aprende?
Um sistema neuro-fuzzy essencialmente uma
rede multi-camadas, portanto, algoritmos de
aprendizagem padres para redes neurais como o
backpropagation podem ser aplicados

 Quando um exemplo de treinamento apresentado, o


algoritmo bakpropagation computa a sada, verifica o erro
cometido e propaga para trs da camada de sada
camada de entrada. Os pesos dos neurnios so
modificados e para tal, o algoritmo calcula a
diferenciao das funes de ativao dos neurnios.
56
Exemplo: padres de treinamento

0
1

0
0
57
O conjunto de dados usado para treinar o sistema neuro-fuzzy de
cinco regras abaixo:

Sistema neuro-fuzzy de cinco regras


1
S 1 wR1
x2 0.99 wR5
0.8
L 2 0
S y 0.6
wR3 wR4

Weight
3 0.72
L 0.4
0.61
S 4
x2 0.2 wR2
0.79
L 5 0
0 10 20 30 40 50
Epoch

(a) Five-rule system. (b) Training for 50 epochs.

58
Sistema neuro-fuzzy de oito regras
0.8
S 1 0 wR2 wR8
x1 2
0.7
0.78
3
0.6 wR3 wR5
L 0.69 S
0.5
4 0
y
0.4
5 0.62
0.3 wR6 & wR7
S 6 0 L
0.2
x2 0 wR1
7
0.80
0.1 wR4
L 8 0
0 10 20 30 40 50
Epoch

(a) Eight-rule system. (b) Training for 50 epochs.

59
A Comparative Analysis of Hybrid Neural
Systems in a Large Scale Credit Risk
Assessment Application
Bruno P. de Amorim, Germano C. Vasconcelos
Center for Informatics, Federal University of Pernambuco
{bpa, gcv}@cin.ufpe.br

Lourdes M. Brasil
Post-Graduation Program in Knowledge Management and Information
Technology,Catholic University of Brasilia
lmb@pos.ucb.br
Introduction
Despite the potential advantages of HNS, their performance
in large- scale situations have not been yet fully proved

The goals of this paper are:


To perform a comparative analysis of the neuro-fuzzy models
FWD and FuNN, together with their rule extraction techniques,
and the TREPAN algorithm
To compare the results attained to those observed with MLP
networks
To investigate feature selection using the FWD network and the
decision tree extracted by TREPAN
To use a large scale real-world credit risk assessment problem
with an extensive database
61
Hybrid Neural Models
FWD
Solves simultaneously two major problems in pattern
recognition: pattern classification and feature selection
The knowledge acquired can be described as a set of fuzzy rules
FuNN
Fuzzy rule extraction and insertion
Combination of data and rules into one system
Adaptation of the membership functions and initial fuzzy rules
according to new data
MLP and TREPAN
The MLP network was selected to be employed as:
Reference model to be compared with the models FWD and FuNN
62
Oracle for the TREPAN algorithm
Feature Selection Techniques
Two feature selection techniques were selected to be
applied in conjunction with the neural models:
The technique of the FWD network - analysis of the weight
connection values (feature relevance for each class)
Defines the features not present in the tree extracted by TREPAN
algorithm as irrelevant

63
Rule Extraction Techniques
FWD
It is performed in a very simple way through the memory connections mji which are used
in the fuzzy predicates (nearly mij)
Produces one rule for each class and all the relevant features must be present in the rules
REFuNN and AREFuNN
Proposed for extracting fuzzy rules from the FuNN model
Use the architecture and weights of the network to extract the rules and make use of
thresholds to reduce the number of rules and features in the antecedent part

TREPAN
Extracts a decision tree that approximates the function represented by the network
Is scalable with respect to the database size, model complexity and execution time
Produces decision trees that maintain a high level of fidelity with their respective oracles,
while being comprehensible and accurate
Does not impose requirements on either the architecture or training method

64
Experimental Comparative Analysis
Financial credit-risk evaluation
A large scale, real-life and complex application
A classification problem that defines whether a credit will
be given or not to an applicant
Database obtained from a Brazilian financial company
27 input features (the database coded has 68 features)
2 classes (good and bad payers)
60,141 records (48,218 good cases and 11,923 bad cases)
It contains personal and financial data about credit applications
and the history of defaulting on the credit approval
It was divided into three sets (training 50%, validation 50%
and test 25%)

65
Experimental Comparative Analysis
Experimental Methodology
Several configurations were analyzed using the same
initial weights
The best configuration found (lowest validation MSE)
was used to perform 30 runs with different initial weights
Analysis of the models FWD, FuNN, and MLP with
respect to:
Error rates
ROC curves
Portfolio on maintained clients

66
Experimental Comparative Analysis
Error rates

Average (%) Standard deviation


Model Total Good Bad Total Good Bad
FWD 67.32 71.63 49.90 0.00 0.00 0.00
FuNN 65.83 68.36 55.62 1.15 2.03 2.83
MLP 66.44 69.41 54.43 1.17 2.13 2.79

67
Experimental Comparative Analysis
ROC Curves
Comparisons based on the test accuracy omits two important aspects:
Usually the class distribution can not be precisely specified
The costs associated with the types of error (Type I and Type II) can be
different and change over time

It is necessary to apply some technique that is able to determine the best


model independently of these aspects

ROC (Receiver Operating Characteristics) curves


Show the relation of the false positive rate with the true positive rate varying
according to a threshold applied to the model outputs
This relation predicts the model performance independently of the class
distribution and costs associated with the types of error
Make possible a visual comparison of a set of models
68
Experimental Comparative Analysis
ROC curves
ROC Curves MLP FuNN FWD
r1 r2 r3 r4 r5 r6 r7
1.0
T 0.9
r
u
0.8
e 0.7
0.6
P 0.6
o 0.5
s
i 0.4
t 0.3
i 0.2
v 0.2
e
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
False Positive
69
Experimental Comparative Analysis
Portfolio of maintained clients
The classification rates and ROC curves are technical
measures commonly used for performance evaluation
An aspect of practical importance is to observe how the
model decision affects the number of clients in the
companys client portfolio when a credit decision is taken
This can be obtained by considering the continuous
network responses at the output layer and varying a
threshold (from 0 to 100) as the cutpoint for credit approval
If an applicant receives a score (network response) above
the threshold then its credit application is approved,
otherwise it is rejected
70
Experimental Comparative Analysis
Portfolio of maintained clients
MLP Portfolio of clients graph
FuNN Portfolio of clients graph

P 100 P 100
e e
r 80 r 80
c c
60 60
e e
n 40 n 40
t t
a 20 a 20
g g
0 e 0
e 0 6 12 17 23 29 34 40 46 51 57 63 69 74 80 86 91 97 0 6 12 17 23 29 34 40 46 51 57 63 69 74 80 86 91 97

Cutpoint Cutpoint
Bad payers Total clients Bad payers Total clients

Portfolio of clients graph


FWD
P 100
e
r 80
c
60
e
n
40
t
a 20
g
e 0
0 6 12 17 23 29 34 40 46 51 57 63 69 74 80 86 91 97

Cutpoint
Bad payers Total clients

71
Experimental Comparative Analysis
Feature Selection
Feature selection process of the FWD model
The features with relevance higher than 0.3 were considered relevant
26 final relevant features
Decision tree extracted by TREPAN
29 final relevant features

Technique Model Average (%) Standard deviation

Total Good Bad Total Good Bad


FWD FWD 67.3 72.1 47.9 0.0 0.0 0.0
FuNN 66.0 68.8 54.7 1.1 2.1 3.0
MLP 66.5 69.7 53.6 0.3 0.7 1.0
Using the FWD 65.1 67.5 55.1 0.5 0.8 1.0
decision
FuNN 65.0 67.7 53.8 0.0 0.0 0.0
tree
MLP 65.1 67.7 54.8 0.6 1.2 2.0

72
Experimental Comparative Analysis
Comprehensibility of the extracted rules -
FWD
The FWD rule extraction technique produced extensive rules for the high
dimensional credit concession problem
Another problem is the semantic representation of boolean features. All the
features are manipulated as numerical and the semantic representation of
boolean variables becomes inappropriate

IF sex is nearly 0.587 AND


marital_status1 is nearly 0.285 AND
num_additional_cards is nearly 0.537
THEN client is good payer
IF sex is nearly 0.135 AND
marital_status1 is nearly 0.731 AND ...
num_additional_cards is nearly 0.763
THEN client is bad payer

73
Experimental Comparative Analysis
Comprehensibility of the extracted rules REFuNN and
AREFuNN
REFuNN extracted 5 rules (3 rules IF marital_status1 is false (0,81) AND
for the good payers and 2 rules for marital_status4 is false (0,77) AND
the bad payers) residencial_city2 is false (0,53) AND
AREFuNN extracted 9 rules (5 residencial_ddd1 is false (0,64) AND
rules for the good payers and 4 zip_code1 is high (0,85) AND
rules for the bad payers) zip_code2 is medium (0,63) AND
Although the set extracted by type_client1 is true (0,85) AND
AREFuNN was larger than that spouse_income is high (0,66) AND
given by REFuNN, the rules income is small (0,82)
obtained by AREFuNN are simpler THEN client is good payer (0,62)
The extracted rule sets were larger
than those extracted from the FWD IF marital_status5 is true AND
network, but the number of residencial_ddd4 is false AND
conditions per rule is small income is small AND
zip_code2 is medium AND
employment_time is small
THEN client is bad payer

74
Experimental Comparative Analysis
Comprehensibility of the extracted rules -
TREPAN
A small and very comprehensible tree was produced from
which 13 rules were derived (7 rules for the good payer
class and 6 rules for the bad payer class)
Although the rule set given by TREPAN was larger than
those extracted by the other techniques, the number of
conditions per rule is small and the rule application is
very direct
IF age > 0.26 AND flag_residencial_phone 0
THEN client is good payer

IF age <= 0.26 AND sex 0 AND


flag_residencial_phone = 0
THEN client is bad payer

75
Conclusions
The results obtained indicate that
HNS are very attractive to be used in real- world applications
HNS can be considered as an alternative to the traditional
neural models without performance loss and with the
additional functionality of representing the learned knowledge
in a comprehensible way
Further works can be conducted to
Test and validate the neuro
- fuzzy models, feature selection
and rule extraction techniques in other real- world problems
Extent the FWD model in order to make it able to solve non -
linearly separable problems, to produce more than one rule per
class and to support more than one membership function per
feature 76
Bibliografia

R. Turner. Logics for Artificial Intelligence. John


Wiley, 1985.
E. Rich e K. Knight. Inteligncia Artificial. Makron
Books, 2a. Edio, 1994.
S. Haack. Filosofia das Lgicas. UNESP Editora,
1998.
P. Almeida e A. Evsukoff. Sistemas Fuzzy em
Sistemas Inteligentes. Manole, 2003
J. Jang, C. T. Sun e E. Mizutani. Neuro-Fuzzy and
Soft Computing. Prentice Hall, 1997. 77
 Suppose that fuzzy IF-THEN rules incorporated
into the system structure are supplied by a
domain expert. Prior or existing knowledge can
dramatically expedite the system training.
 Besides, if the quality of training data is poor,
the expert knowledge may be the only way to
come to a solution at all. However, experts do
occasionally make mistakes, and thus some rules
used in a neuro-fuzzy system may be false or
redundant. Therefore, a neuro-fuzzy system
should also be capable of identifying bad rules.

78
 Given input and output linguistic values, a neuro-
fuzzy system can automatically generate a complete
set of fuzzy IF-THEN rules.
 Let us create the system for the XOR example.
This system consists of 22 2 = 8 rules. Because
expert knowledge is not embodied in the system
this time, we set all initial weights between Layer 3
and Layer 4 to 0.5.
 After training we can eliminate all rules whose
certainty factors are less than some sufficiently
small number, say 0.1. As a result, we obtain the
same set of four fuzzy IF-THEN rules that
represents the XOR operation.
79
Neuro-fuzzy systems: summary
 The combination of fuzzy logic and neural
networks constitutes a powerful means for
designing intelligent systems.
 Domain knowledge can be put into a neuro-fuzzy
system by human experts in the form of linguistic
variables and fuzzy rules.
 When a representative set of examples is available,
a neuro-fuzzy system can automatically transform
it into a robust set of fuzzy IF-THEN rules, and
thereby reduce our dependence on expert
knowledge when building intelligent systems.
80