Simulao e Avaliao de Comportamentos em Sistemas Multi-Agentes baseados em Modelos de Reputao e Interao
So Leopoldo
2008 1
Andrio dos Santos Pinto
Simulao e Avaliao de Comportamentos em Sistemas Multi-Agentes baseados em Modelos de Reputao e Interao
Proposta de dissertao submetida avaliao como requisito parcial para a obteno do grau de Mestre em Computao Aplicada
Orientador Prof. Dr. Fernando Santos Osrio
UNIVERSIDADE DO VALE DO RIO DOS SINOS PROGRAMA INTERDISCIPLINAR DE PS-GRADUAO EM COMPUTAO APLICADA
So Leopoldo 2008 2
Pinto, Andrio dos Santos Simulao e Avaliao de Comportamentos em Sistemas Multi- Agente Baseados em Modelos de Reputao e Interao / Andrio dos Santos Pinto So Leopoldo: Unisinos / Cincias Exatas e Tecnolgicas 2008. 147 f. : Il.
Orientador: Prof. Dr. Fernando Santos Osrio Dissertao (mestrado) Unisinos / Cincias Exatas e Tecnolgicas 2008. Referncias bibliogrficas: f. 140 147
1. Sistemas Multi-Agente. 2. Modelos de Reputao.
3
Dedico este trabalho minha me, Jussan Goreti dos Santos Pinto e minha irm, Andressa dos Santos Pinto, que sempre me apoiaram em todos os momentos da minha vida. 4
Agradecimentos A Deus por me dar a vida. Aos meus pais por toda dedicao, carinho e amor incondicional. A todos os familiares que de alguma forma me apoiaram. Em especial FINEP-RBV (Rede Brasileira de Visualizao), que financiou o meu estudo. Ao meu orientador, Prof. Dr. Fernando Santos Osrio, pela sabedoria, pacincia, confiana e disposio. Prof. Soraia Raupp Musse, que juntamente com a Prof. Renata Vieira me auxiliaram com seus conhecimentos, para enriquecer o meu trabalho. E aos meus amigos e colegas, que estiveram presentes comigo nesta jornada.
5
Sumrio Lista de Abreviaturas Lista de Figuras Lista de Tabelas Resumo (+ Palavras-Chave) Abstract (+ Key-Words)
2.1 Agentes e Sistemas Multi-Agentes: Simulao................................................ 20 2.2 Modelos de Reputao....................................................................................... 24 2.3 Jogos Administrativos ....................................................................................... 31 2.3.1 A Histria dos Jogos Administrativos .......................................................... 31 2.3.2 Tipos de Jogos Administrativos .................................................................... 32 2.3.3 O Uso dos Jogos Administrativos ................................................................. 32 2.3.4 Exemplos de Jogos Administrativos ............................................................. 32 2.4 Teoria dos Jogos e o Dilema do Prisioneiro ..................................................... 35 2.4.1 Teoria dos Jogos ........................................................................................... 35 2.4.2 O Dilema do Prisioneiro ............................................................................... 36 2.4.3 Dilema do Prisioneiro Iterado (PDI) ............................................................. 39 6
2.5 Discusso sobre o Modelo Cooperativo Multi-Agente com Reputao e Interao .............................................................. 41
3.1 Modelo do Agente ............................................................................................... 43 3.1.1 Conhecimento Global do Agente (K) ............................................................ 44 3.1.1.1 Conhecimento (C) ................................................................................... 44 3.1.1.2 Reputao Global (Rg) ............................................................................ 44 3.1.2 Estado (S) ....................................................................................................... 44 3.1.2.1 Personalidade (P) ..................................................................................... 44 3.1.2.2 Estado Emocional (EE) ........................................................................... 45 3.1.3 Influncia (INF) ............................................................................................. 45 3.1.4 Inteno (I) ..................................................................................................... 46 3.2 Comportamento dos Agentes............................................................................. 46 3.3 Interao Entre os Agentes ................................................................................ 47 3.4 Ambiente de Simulao e Implementaes....................................................... 48 3.5 Ferramentas Implementadas ............................................................................. 49 3.5.1 Simulador do IPD.......................................................................................... 49 3.5.2 Simulador de Interaes................................................................................. 53 3.6 Resultados Esperados ......................................................................................... 56
Captulo 4 Resultado dos Experimentos.................................................................. 57
4.1 Experimentos com comportamentos homogneos ........................................... 58 4.1.1 Objetivo.......................................................................................................... 59 4.1.2 Descrio dos Experimentos .......................................................................... 59 4.1.3 Resultados ...................................................................................................... 59 4.1.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos .......................................................................... 62 4.2 Experimentos com comportamentos mistos (50% de cada) ........................... 63 4.2.1 Objetivo.......................................................................................................... 63 4.2.2 Descrio dos Experimentos .......................................................................... 64 7
4.2.3 Resultados ...................................................................................................... 65 4.2.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos .......................................................................... 72 4.3 Experimentos com comportamentos comparando quando a quantidade de agentes de um tipo varia................................................. 74 4.3.1 Objetivo.......................................................................................................... 75 4.3.2 Descrio dos Experimentos .......................................................................... 75 4.3.3 Resultados ...................................................................................................... 76 4.3.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos ................................................................................ 80 4.4 Experimentos com comportamentos misturados............................................. 82 4.4.1 Objetivo.......................................................................................................... 82 4.4.2 Descrio dos Experimentos .......................................................................... 83 4.4.3 Resultados ...................................................................................................... 84 4.4.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos ................................................................................ 88 4.5 Experimentos com comportamentos mistos com interao ............................ 89 4.5.1 Objetivo.......................................................................................................... 89 4.5.2 Descrio dos Experimentos .......................................................................... 89 4.5.3 Resultados ...................................................................................................... 90 4.5.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos ................................................................................ 90
4.6 Discusso Final Sobre os Experimentos ............................................................ 91
Captulo 5 Concluses e Perspectivas ...................................................................... 95
Lista de Abreviaturas IPD Dilema do Prisioneiro Iterado (Iterated Prisoner Dilemma)
SMA Sistema Multi-Agente
CR Reputao Certificada
TRAVOS Modelo de Reputao e Confiana de Organizaes Virtuais Baseado em Agentes
TRUMMAR Modelo de confiana baseado na reputao que os sistemas de agentes mveis podem usar para proteger agentes dos anfitries maliciosos
MIT Instituto de Tecnologia de Massachusetts (Massachusetts Institute of Technology)
COPPEAD Instituto de Pesquisa e Ps-Graduao em Administrao de Empresas da Universidade Federal do Rio de Janeiro
PD Dilema do Prisioneiro (Prisoner Dilemma)
RAND Corporao estadunidense
BASIC Linguagem de Programao
MAPD Dilema do Prisioneiro para Multi-Agentes (Multi-Agent Prisoners Dilemma) 11
MAIPD Dilema do Prisioneiro Iterado para Multi- Agentes (Multi-Agent Iterated Prisoners Dilemma)
12
Lista de Figuras 2.1 Cadeia de Suprimentos do Jogo da Cerveja ............................................................. 30 3.1 Modelo do Agente .................................................................................................... 43 3.2 Influncia Positiva .................................................................................................... 45 3.3 Influncia Negativa .................................................................................................. 46 3.4 Interao entre dois agentes...................................................................................... 48 3.5 Ciclo ........................................................................................................................ 50 3.6 Arquivo partidas.txt .................................................................................................. 51 3.7 Arquivo repglobal.txt ............................................................................................... 51 3.8 Arquivo Pontuao.txt .............................................................................................. 52 3.9 Arquivo repglobal.txt aps o trmino da rodada...................................................... 53 3.10 Tela do Simulador de Interaes ............................................................................ 53 3.11 Arquivo interao_agentes.txt ................................................................................ 54 3.12 Arquivo situao.txt ............................................................................................... 55 3.13 Arquivo influncias.txt ........................................................................................... 56
13
Lista de Tabelas TABELA 2.1: Trabalhos relacionados: Modelos de Reputao .................................... 33 TABELA 2.2: Anlise simulatria de resultados no jogo O Dilema do Prisioneiro.. 37 TABELA 2.3: Matriz de pagamento .............................................................................. 38 TABELA 4.1: Simulaes com comportamentos homogneos..................................... 58 TABELA 4.2: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 59 TABELA 4.3: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 60 TABELA 4.4: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 61 TABELA 4.5: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 61 TABELA 4.6: Simulaes com comportamentos mistos ............................................... 63 TABELA 4.7: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 65 TABELA 4.8: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 65 TABELA 4.9: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .... 66 TABELA 4.10: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 66 TABELA 4.11: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 67 TABELA 4.12: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 67 TABELA 4.13: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 68 TABELA 4.14: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 68 TABELA 4.15: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 69 TABELA 4.16: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 69 TABELA 4.17: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 70 TABELA 4.18: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 70 TABELA 4.19: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 71 TABELA 4.20: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 71 TABELA 4.21: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 72 TABELA 4.22: Simulaes com comportamentos variando a cada rodada .................. 74 TABELA 4.23: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 76 TABELA 4.24: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 77 14
TABELA 4.25: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 77 TABELA 4.26: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 78 TABELA 4.27: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 78 TABELA 4.28: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 78 TABELA 4.29: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 79 TABELA 4.30: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 79 TABELA 4.31: Simulaes com comportamentos misturados...................................... 82 TABELA 4.32: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 84 TABELA 4.33: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 84 TABELA 4.34: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 85 TABELA 4.35: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 85 TABELA 4.36: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 86 TABELA 4.37: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 86 TABELA 4.38: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 86 TABELA 4.39: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 87 TABELA 4.40: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 87 TABELA 4.41: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 88 TABELA 4.42: Simulao com comportamentos mistos com interao....................... 89 TABELA 4.43: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas .. 90
15
Resumo O presente trabalho se insere no contexto da simulao dos comportamentos e das interaes entre grupos de humanos virtuais, e tem por objetivo maior, propor, estudar e avaliar um modelo multi-agente cooperativo utilizando um modelo de Reputao e Interao. Nesta dissertao visamos realizar um estudo sobre: (i) questes relacionadas reputao, formao de grupos e relacionamentos em sistemas multi- agentes, considerando a cooperao, a traio e a confiana nas relaes entre agentes; (ii) o uso da simulao do problema do IPD (Iterated Prisoners Dilemma, um problema clssico estudado na rea da Teoria dos Jogos) como ferramenta para a anlise do desempenho do comportamento de agentes, individualmente e em grupos; (iii) um modelo de agente capaz de incluir em seu modelo atributos relacionados com a sua reputao, persona- lidade e capacidade de influenciar outros agentes; (iv) o estudo da interao agente x agente e de seu impacto no comportamento dos agentes junto ao problema do IPD. Mais especficamente, neste estudo proposta uma avaliao experimental do problema do MAIPD (Multi-Agent Iterated Prisoners Dilemma). Isto obtido atravs da simulao de agentes com diferentes comportamentos e interaes, onde analisada a pontuao obtida no problema do IPD neste sistema multi-agente, onde so considerados fatores como: cooperao, traio, reputao, interao, influncias e formao de grupos. Esta combinao Multi-Agentes + IPD + Interao entre Agentes permite que sejam consideradas questes relacionadas com: (i) a reputao, a personalidade e a formao de grupos de agentes; (ii) o impacto de um determinado comportamento no desempenho dos agentes, considerados individualmente, em grupo ou como um todo; (iii) o impacto das interaes entre agentes que podem influenciar na dinmica de todo o sistema, uma vez que podem levar a uma mudana no comportamento individual dos agentes. Os resultados dos experimentos so detalhados, sendo posteriormente discutidas e apresentadas as concluses obtidas em relao a cada grupo de experimento e de forma geral. Ao final so ressaltadas as principais contribuies e possveis trabalhos futuros.
Palavras-chave: Simulao do Comportamento de Grupos de Humanos Virtuais, Reputao, IPD (Iterated Prisoners Dilemma), Multi-Agente. 16
Abstract This work was developed in the context of human behavioral simulation and group interaction study. Our main goal was to propose, to study, to simulate and to evaluate a cooperative multi-agent model based on Interaction and Reputation models. This Master Thesis aims to study and discuss about: (i) questions related to multi-agent systems concerning reputation, agents grouping and relationships between agents (cooperation, betray, trust); (ii) the adoption of the simulated IPD (Iterated Prisoners Dilemma a classical problem studied in Game Theory) as a tool for agents behavior analysis, which act individually or in groups; (iii) a behavioral agent model that includes attributes and properties, as for example, reasoning about reputation, personality and ability to influence (or be influenced) by other agents; (iv) the agent x agent interaction, considering different agent behaviors, analyzing the impact of their behaviors when faced to the Iterated Prisoners Dilemma problem. In this work we propose an experimental evaluation of the MAIPD problem (Multi-Agent Iterated Prisoners Dilemma). Simulations were made testing different agent behaviors and interactions, in order to analyze the performance (gained points) of this multi- agents system, considering aspects like: cooperation, betray, reputation, interaction, influence and grouping. This combination of Multi- Agents + IPD + Agents Interaction allowed us to study questions related to: (i) the reputation, the personality and the relations in groups of agents; (ii) the impact of a specific behavior in the performance of the whole group, or for a specific sub-group, or even considering agents individually; (iii) the impact of the interactions between agents, which can affect the overall dynamic of the system, since these interactions can lead to changes in the individual agent behavior. The experimental results are detailed and discussed, where some important conclusions and analysis of the simulations are also presented. We conclude presenting the main contributions of this work, as well as, some possible future works.
Captulo 1 Introduo Vivemos em uma sociedade onde, devido ao convvio e interao com diferentes pessoas e grupos, somos cobrados a cada instante por nossas decises e aes. Tudo o que fazemos ou deixamos de fazer pode representar determinada influncia sobre esta sociedade onde estamos inseridos, mas tambm iremos sofrer diversos tipos de influncias vindas das aes de outros indivduos com os quais convivemos e interagimos. Nossas atitudes e comportamentos so estabelecidos de acordo com nossa personalidade e de acordo com regras de comportamento e conduta que adotamos. Algum que ingresse em um grupo especfico e de pessoas selecionadas precisar moldar seu comportamento de acordo com as regras estabelecidas por esta rede de agentes para que seja acolhido, respeitado e reconhecido como integrante deste sistema de relaes humanas e sociais. Alm disto, quando interagimos com outras pessoas e grupos nosso comportamento est sendo avaliado, assim como ns tambm estamos analisando o comportamento alheio, isto , participamos de forma intrnseca de um processo concomitante, de mo dupla, da anlise do comportamento humano. Desta forma composta a imagem (reputao) que ns temos das outras pessoas e que estas tm em relao a ns. De um modo geral, as regras de comportamento e de convvio em uma sociedade se justificam para evitar que no fossem causados conflitos maiores entre os membros desta sociedade, onde fossem respeitados os limites de individualidade.
1.1 Motivao e Justificativa A partir da reflexo acima, partimos para o vis de que pode ser de grande importncia o desenvolvimento de estudos e pesquisas que levem criao de novos modelos comportamentais de grupos, podendo ser validados atravs do uso de 18
ferramentas computacionais de simulao: simulao do comportamento de grupos de humanos virtuais. Portanto, estas pesquisas tm por objetivo permitir uma melhor compreenso dos mecanismos intrnsecos ligados interao e aos comportamentos de grupos e de multides (crowds) que convivem em sociedade. Uma das principais motivaes deste trabalho foi justamente o estudo e desenvolvimento de modelos que permitissem compreender melhor questes relacionadas s interaes e aos comportamentos de uma sociedade de agentes.
1.2 Objetivo Geral Propor, estudar, simular e avaliar o modelo multi-agente cooperativo desenvolvido para este trabalho utilizando o Modelo Cooperativo Multi-Agente com Reputao e Interao.
1.3 Objetivos Especficos Realizar um estudo sobre questes relacionadas: reputao, formao de grupos e aos relacionamentos em sistemas multi- agentes (grupos e crowds); ao uso da simulao do problema do IPD (Iterated Prisoners Dilemma) como ferramenta para a anlise do desempenho do comportamento de agentes, individualmente e em grupos; a um modelo de agente capaz de incluir em seu modelo atributos relacionados com a sua reputao, personalidade e influncia; ao estudo da interao agente x agente e de seu impacto no comportamento dos agentes junto ao problema do IPD. Alm disto, este trabalho visa implementar ferramentas de simulao que permitam testar e avaliar as questes estudadas e relacionadas acima: Implementar um simulador para o problema do IPD (Iterated Prisoners Dilemma), considerando um sistema multi-agente (N-Players IPD Simulation); Implementar um simulador para o estudo da interao entre agentes (agente x agente), que permita sua integrao junto ao simulador do IPD. Por fim, este trabalho visa realizar e avaliar as simulaes considerando a dinmica do sistema multi-agente, da reputao e das interaes. 19
1.4 Escopo do trabalho A reputao de um agente a forma com que outros agentes o vem perante suas atitudes. Esta viso pode ser de forma positiva ou no, e ter grande impacto na formao de grupos, onde agentes com iguais interesses em comum buscam se agrupar e cooperar. O problema do IPD ser utilizado para avaliar o agente de forma individual e em grupos. O desempenho do agente pode ser analisado atravs do seu comportamento quando este toma decises sozinho e quando toma decises em conjunto com outros agentes. A incluso dos atributos relacionados com a reputao, personalidade e a influncia entre os agentes, far com que os agentes sejam mutuamente influenciados por estes atributos e aes. A influncia poder ser positiva, negativa ou no existir. Agentes influenciados agiro conforme seus influenciadores.
1.5 Organizao do trabalho Esta dissertao ser apresentada da seguinte forma: Captulo 2 Reviso Bibliogrfica: descreve os principais conceitos e a base terica relacionada ao tema tratado na dissertao. Sero descritas cinco subsees, sendo estas: Agentes e Sistemas Multi-Agentes: Simulao, Modelos de Reputao, Jogos Administrativos, Teoria de Jogos e o Dilema do Prisioneiro e Modelo Cooperativo Multi-Agente com Reputao e Interao. Captulo 3 Modelo Proposto: descreve o modelo proposto, juntamente com suas caractersticas e prottipo. Sero descritas quatro subsees, sendo estas: Modelo do Agente, Aes e Comportamentos dos Agentes, Interao entre os Agentes e Ferramentas Implementadas, Aplicao das Simulaes e Resultados Esperados. Capitulo 4 Resultados dos Experimentos: descreve os resultados encontrados e a concluso dos mesmos. Captulo 5 Concluses e Perspectivas: faz o fechamento do trabalho e demonstra algumas perspectivas a partir da anlise do tema estudado nesta dissertao.
20
Captulo 2 Reviso Bibliogrfica Este captulo descreve os principais conceitos e a base terica relacionada ao tema tratado na dissertao. Sero descritas subsees sobre: 1) Agentes e Sistemas Multi-Agentes: Simulao; 2) Modelos de Reputao; 3) Jogos Administrativos; 4) Teoria de Jogos e o Dilema do Prisioneiro; e, 5) o Modelo Cooperativo Multi-Agente com Reputao e Interao.
2.1 Agentes e Sistemas Multi-Agentes: Simulao Sistemas multi-agentes (SMA) se constituem em uma sub-rea da Inteligncia Artificial Distribuda e se propem ao estudo do comportamento de agentes autnomos em um ambiente multi-agente, tendo estes agentes uma existncia prpria e independente da existncia de outros agentes. O principal conceito de um SMA que a partir do comportamento individual de cada agente que o grupo de agentes alcanar o seu grau de comportamento inteligente. Assim, nestes sistemas no apresenta-se a necessidade de cada agente ser inteligente para que se alcance o comportamento global inteligente. Um agente entidade computacional autnoma decide suas prprias aes levando em considerao as mudanas que ocorrem no ambiente de atuao e o desejo de alcanar seus objetivos, j que carrega um conjunto de capacidades comportamentais (que definem sua competncia e possibilidades de aes), um conjunto de capacidades sensoriais (que permitem sentir estmulos do ambiente), um conjunto de objetivos, e a autonomia necessria para alcanar seus objetivos atravs de suas capacidades comportamentais [Alvares 1997, Ferber 1991]. Para o sistema multi-agente o comportamento social a base para garantir a inteligncia da comunidade. A Inteligncia Artificial Clssica utiliza a metfora 21
basicamente de ordem psicolgica, enquanto a Inteligncia Artificial Distribuda apresenta uma metfora de origem sociolgica ou etolgica, que ganha relevncia medida em que se busca resolver problemas complexos, que possivelmente envolvam dados fisicamente distribudos, que requerem conhecimentos de diversos domnios, e onde possivelmente h uma interao (cooperao) entre os agentes. Conforme destaca Demazeu [Demazeu 1995], um sistema pode ser decomposto segundo uma metodologia da Inteligncia Artificial Distribuda. Em um sistema, denominamos agentes as entidades ativas (so capazes de controlar suas aes), que formam uma sociedade. J as entidades passivas so denominadas ambiente ou elementos do ambiente (so noes estticas e sem capacidade de tomada de deciso prpria). O agente recebe informaes, raciocina sobre o ambiente e outros agentes, e decide as aes que realizar de acordo com os objetivos que tm. Agentes interagem entre si ou com o ambiente quando h uma troca de informaes (pode ser realizada de forma direta comunicao explcita, ou de forma indireta ambiente emite sinais). O projetista do sistema garante que cada agente seja capaz de desejar e de realizar a resoluo de problemas. Mesmo no existindo uma definio para agente que seja concenso entre os membros da comunidade da Inteligncia Artificial Aplicada, podemos destacar: Ferber e Gasser [Ferber 1991]: agente uma entidade real ou abstrata que tem capacidade de agir sobre si e sobre seu ambiente, do qual possui uma representao parcial e pode estabelecer comunicao com outros agentes em um universo multi- agente. Seu comportamente resulta das observaes, conhecimento e interaes com outros agentes. Gasser [Gasser 1992]: agente uma entidade na qual se pode encontrar uma nica identidade, e tem capacidade de realizar tarefas formalizadas, com base nos conhecimentos e mecanismos internos prprios que possui. Podemos classificar os sistemas multi-agentes em dois grupos: 1) Sistemas Multi-Agentes Reativos: tem como objeto sistemas que utilizam muitos agentes simples para a resoluo de um problema especfico, podendo chegar a milhares de agentes, e so baseados em um modelo de ordem biolgica/ etolgica (modelo caracterizado por assemelhar-se organizao de animais que vivem em grandes comunidades). 22
Um agente reativo apresenta um modelo de funcionamento por ao x reao / estmulo x resposta. Conforme Ferber e Gasser [Ferber 1991], as caractersticas mais relevantes desta espcie de sistema multi-agente so assim descritas: No h representao explcita do conhecimento, sendo que sua manifestao externada atravs do seu comportamento e o dos demais agentes; No h representao explcita e interna do ambiente medida que o processo resposta x estmulo ocorre a partir da percepo do agente a cada instante; Os agentes reativos no possuem memria de aes, isto , a ao presente no foi diretamente influenciada pela ao anterior e no influenciar diretamente a ao futura; O modelo destes sistemas concebe o problema como sendo um conjunto de agentes interagindo entre si, onde cada membro possui seus prprios objetivos. Geralmente o comportamento dos agentes representado por um conjunto de regras. Por exemplo, se um agente faz alguma ao contra um outro agente, este poder reagir fazendo uma ao de defesa ou mesmo de ataque (retaliao) ao agente que lhe atacou. Do mesmo modo, se um agente percebe um estmulo positivo, ele usualmente ir reagir de modo positivo a este estmulo. Um agente (puramentes) reativo ir sempre reagir, executando aes que so diretamente resultantes dos estmulos por ele percebidos. As principais aplicaes que podem ser modeladas atravs de sistemas multi- agentes reativos so: 1) Vida artificial, so aplicaes nas quais o sistema multi-agente reativo possui um grande grau de similaridade e aplicabilidade, onde determinadas caractersticas podem se destacar, como a criao de entidades simples, independentes e capazes de atuar num meio complexo. O agente reativo concebido como um ser independente, que possui a capacidade de gerar agentes descendentes se uma determinada condio necessria acontecer; 2) Recuperao de informaes altamente especficas em ambientes de troca de dados heterogneos; 3) Telecomunicaes, onde os sistemas multi-agentes reativos podem ser utilizados na construo destes sistemas, que so mais abertos, flexveis e interativos. Conforme as aes realizadas nos pontos de transmisso e recepo, os agentes tm a capacidade de reconfigurar o sistema, fazendo com que se adequem ao ambiente atual. 23
2) Sistemas Multi-Agentes Cognitivos: so sistemas que geralmente contam com poucos agentes, mas que realizam tarefas mais complexas que os agentes dos sistemas multi-agentes reativos. Estruturados em organizaes sociais humanas (grupo, hierarquia, mercado), possuem como principais caractersitcas, conforme destaque de Ferber e Gasser [Ferber 1991]: Geralmente estes sistemas contm poucos agentes, no ultrapassando a ordem das dezenas, e possuem representao explcita do ambiente e dos outros agentes da sociedade; Planejam aes futuras conforme a capacidade de memria que possuem, pela qual armazenam um histrico das comunicaes e aes passadas; O sistema de percepo (permite anlise do ambiente) distinto do sistema de comunicao (permite troca de mensagens). A comunicao entre os agentes ocorre de forma direta (envio e recebimento de mensagens); O mecanismo de controle deliberativo, isto , seus agentes pensam e decidem juntos sobre as aes que sero executadas, o plano de ao e a meta de seus objetivos (caracteriza este tipo de sistema como modelo sociolgico por se assemelharem s organizaes humanas). Por exemplo, um agente cognitivo pode ser implementado por um sistema baseado em regras, onde estas regras definem seu comportamento e o processo de tomada de decises/aes: se o agente conhece seu o oponente, ele age de acordo com o modelo que possui deste seu oponente (e.g. cooperando ou no com ele). J para Sichman [Sichman 1995], apud Alvares e Sichman [Alvares 1997, p.29], as caractersticas mais relevantes destes sistemas foram assim descritas: O agente do sistema multi-agente cognitivo tem em sua composio mecanismos de percepo e recepo por onde ocorre a entrada de dados e mecanismos de ao e emisso de mensagens pelos quais ocorrem a sada de dados; Este agente ainda possui mecanismos de reviso (revisa as crenas do agente utilizando informaes que possui sobre o restante dos agentes e que ficam armazenadas na estrutura descrio externa) e mecanismos de racicnio e deciso (seu raciocnio possui carter social sobre os outros agentes); 24
Como exemplos dos diversos estados internos que este agente possui destacam-se o estado de raciocnio, o de deciso e o de engajamento. Atravs da execuo dos mecanismos internos que estes estados sofrem alteraes. Nesta dissertao vamos trabalhar principalmente com agentes cognitivos, cujo comportamento baseado em regras (comportamentos) e na memria das interaes passadas com os demais agentes (reputao). Os agentes simulados neste trabalho possuem a capacidade de percepo, interao e tomada de deciso a fim de executar uma determinada ao. Entretanto, esta interao entre os agentes ir permitir tambm que eles possam alterar seu modo de se comportar, se adaptando e passando a agir de modo diferente. Portanto, o comportamento dos agentes tambm pode ser considerado como um comportamento esttico (regras estticas) ou dinmico (adaptando-se as interaes e as aes executadas pelos demais agentes ao longo do tempo). A simulao da dinmica de um sistema multi- agente, e da riqueza de aes e de interaes neste tipo de sistema, que ir permitir o estudo de questes importantes relacionadas : cooperao, colaborao, criao de grupos, formas de interao, adoo de regras sociais, etc. Diversos outros trabalhos podem ser encontrados na literatura, relacionados simulao de comportamentos e da dinmica de populaes, onde podem ser destacados os seguintes trabalhos desenvolvidos por Ferber [Ferber 1999], Weiss [Weiss 2000], Reynolds [Reynolds 2008] e Musse e Thalmann [Thalmann 2007], tendo estes servido tambm de inspirao para o desenvolvimento deste trabalho. As interaes entre agentes, como descrito por Musse, Thalmann e Reynolds, e a dinmica de comportamentos, levam- nos ao estudo de comportamentos que envolvam interaes atravs da cooperao, colaborao e formao de grupos. Neste contexto, onde grupos interagem, conforme veremos a seguir, um tema muito pesquisado diz respeito criao de modelos de reputao, que tem sido muito estudado em sistemas multi-agentes onde existe cooperao, competio e interaes entre grupos. Na seo seguinte iremos abordar uma reviso de trabalhos relacionados interao em sistemas multi-agentes e que abordaram esta questo referente ao uso de modelos de reputao.
2.2 Modelos de Reputao Encontramos na literatura diversos modelos de reputao utilizando diversas tcnicas, dentre os quais descreveremos abaixo alguns considerados mais relevantes: 25
Oh, et al. [Oh 2004] desenvolveram um modelo terico de jogo para a distribuio e alocao do recurso multi-agente, onde os agentes no ambiente devem ajudar uns aos outros a sobreviver. Segundo eles, cada agente possui um valor de amizade, representando a amizade real e a amizade percebida. O modelo dirige-se diretamente a problemas com a gerncia da reputao em sistemas multi-agente e em sistemas distribudos P2P. Portanto, este trabalho aborda a questo da cooperao (ajuda e amizade) entre agentes. Muitos sistemas multi-agentes consistem em uma rede complexa de agentes autnomos, contudo interdependentes. Nestes sistemas, os agentes tm um seleto conjunto de outros agentes com quem eles interagem baseados no conhecimento ambiental, capacidades cognitivas, limitaes de recursos, e restries das comunicaes. Descobertas precedentes tm demonstrado que a estrutura de uma rede social artificial que governa as interaes dos agentes est fortemente correlacionada com a performance organizacional. Como sistemas multi-agentes so tipicamente encaixados em ambientes dinmicos, Gaston e desJardins [Gaston 2005] desenvolveram mecanismos de adaptao de redes online para descobrir estruturas eficazes da rede e avaliaram suas eficincias para aumentar a performance organizacional. Portanto, este trabalho aborda a questo da formao de grupos que atuam formando uma rede social. O modelo de confiana/honestidade inicialmente proposto por Lam e Leung's [Lam 2004], entre outros modelos de reputao existentes, no eram adaptveis. Com isto, agentes podem perder muito porque no podem aprender de suas experincias e no podem se adaptar aos novos ambientes. Para resolver o problema, eles introduziram uma estratgia adaptvel ao modelo confiana/honestidade. A estratgia adaptvel permite aos agentes serem mais reativos. Ao mesmo tempo, a estratgia adaptvel tambm aumenta o grau de pr-atividade dos agentes. Alm disso, eles relacionaram a taxa adaptvel utilidade que um agente ganhou e perdeu. Portanto, este trabalho aborda a questo da reputao (confiana e honestidade) associada adaptao de estratgias. Conforme Yu e Singh [Yu 2002], para agentes funcionarem efetivamente em redes grandes e abertas, eles devem assegurar-se de que seus correspondentes, isto , os agentes que interagem com eles, so dignos de confiana. J que nenhuma autoridade central pode existir, a nica maneira que os agentes podem encontrar correspondentes dignos de confiana colaborando com outros para identificar aqueles cujo 26
comportamento passado foi indigno de confiana. Em outras palavras, achar correspondentes dignos de confiana reduz o problema da gerncia distribuda da reputao. A aproximao deles adapta a teoria matemtica da evidncia para representar e propagar a avaliao que os agentes do a seus correspondentes. Enquanto avaliam a lealdade de um correspondente, um agente - baseado em interaes prvias diretas com o correspondente - combina sua evidncia local com os testemunhos de outros agentes considerando o mesmo correspondente. Portanto, este trabalho aborda a questo da interao (correspondentes) visando criao de uma relao de confiana. Os modelos computacionais de confiana atuais so construdos geralmente na experincia direta da interao de um agente com um scio (interao de confiana) ou dos relatrios fornecidos por terceiros sobre suas experincias com um scio (reputao da testemunha). Entretanto, ambas aproximaes tm suas limitaes. Os modelos que usam a experincia direta resultam freqentemente no desempenho pobre, at que um agente tenha um nmero suficiente de interaes a construir um retrato de confiana de um scio particular e relatrios da testemunha, confiando nas prprias interaes dos agentes que esto dispostos a compartilhar livremente de sua experincia. Para este fim, Huynh, et al. [Huynh 2006] apresentam a Reputao Certificada (CR), um modelo novo de confiana que possa superar estas limitaes. Especificamente, a CR trabalha permitindo que os agentes forneam ativamente referncias third-party (para terceiros) sobre seu desempenho anterior como meio de construir a confiana. Os relacionamentos da confiana podem rapidamente ser estabelecidos com custo muito pequeno aos partidos envolvidos. Aqui eles avaliam empiricamente a CR e mostram que ela ajuda os agentes a escolherem mais rapidamente scios melhores de interao do que os modelos que no incorporam esta funo de confiana. Portanto, este trabalho aborda a questo da criao de uma reputao global (compartilhar experincias), que vai alm das reputaes estabelecidas individual- mente. Sistemas de reputao evoluem como um mecanismo para construir confiana em comunidades virtuais. Schlosser, et al. [Schlosser 2004] avaliaram diferentes mtricas para computar a reputao em sistemas multi-agentes. Eles apresentaram um modelo formal descrevendo mtricas em sistemas de reputao e mostraram como diferentes mtricas bem conhecidas de reputao global so expressas por ele. Baseado no modelo, um framework genrico de simulao de mtricas de reputao foi implementado e usado para comparar diferentes sistemas de reputao global para encontrar sua fora e fraqueza. A fora da mtrica medida por sua resistncia contra 27
diferentes modelos de ameaa, isto , diferentes tipos de agentes hostis. Portanto, este trabalho aborda questes sobre a possibilidade de usar diferentes mtricas para avaliar a reputao. Segundo Bitting e Ghorbani [Bitting 2004], os riscos e os benefcios de confiar em outros em um contexto cooperativo so discutidos, e a noo da racionalidade social usada para estabelecer estas idias no reino dos agentes autnomos racionais (maximizador de utilidade). Teacy, et al. [Teacy 2005] fizeram uma pesquisa em que o objetivo era desenvolver um modelo de confiana e de reputao que assegurasse boas interaes entre os agentes de software em sistemas abertos de grande escala, onde se pode observar: 1) agentes podem estar interagindo com si mesmos e podem fornecer experincias de clientes falsos com outros agentes se for benfico para eles fazerem isto; 2) agentes necessitaro interagir com outros agentes que tenham pouca ou nenhuma experincia passada. Frente a isto, eles desenvolveram TRAVOS (Modelo de Reputao e Confiana de Organizaes Virtuais Baseado em Agentes), que modela a confiana de um agente em interao com um scio. Especificamente, a confiana calculada usando a teoria da probabilidade pegando interaes passadas entre agentes. Quando h uma falta de experincia pessoal entre agentes, o modelo extrai informao da reputao recolhida de terceiros. Yu e Singh [Yu 2003] previamente desenvolveram um mecanismo social de gerncia de reputao distribuda, nas quais um agente une testemunhos de vrias testemunhas para determinar suas avaliaes dos outros agentes. Entretanto, essa aproximao no protege inteiramente contra falsas avaliaes geradas por agentes maliciosos. Este trabalho focaliza no problema da decepo na propagao e na agregao do testemunho. Eles introduziram alguns modelos de decepo e estudaram como eficientemente detectar agentes decepcionantes seguindo estes modelos. Portanto, os trs trabalhos acima abordam, respectivamente, questes sobre cooperao e ganho global (bem comum), reputao de terceiros e o problema da decepo. Segundo Fullam e Barber [Fullam 2006], a estratgia de deciso da confiana de um agente consiste nas polticas do agente para fazer decises relacionadas confiana, tais como em quem confiar, quanto confivel , que reputaes acreditar, e quando dizer reputaes verdadeiras. Em redes de troca de reputao, aprender as estratgias de deciso da confiana complexo, comparado aos sistemas de comunicao no 28
reputveis. Quando os scios potenciais podem trocar informao sobre um agente, as interaes de reputao do agente com um scio no independente das interaes com outros. Os scios podem dizer-se sobre suas experincias com o agente, influenciando o comportamento futuro. A pesquisa destes estudiosos enumera os tipos de decises que um agente enfrenta na troca de redes de reputao, explica as interdependncias entre estas decises e recompensas correlacionadas a cada deciso. A variao no desempenho da aprendizagem baseada na reputao vs. a aprendizagem baseada em experincias sobre diferentes oponentes, ilustra a necessidade de determinar dinamicamente quando utilizar reputaes vs. experincia na hora de fazer decises de confiana. Portanto, este trabalho aborda questes sobre em quem e quanto confiar (incluindo a troca de reputaes), e o seu impacto na dinmica do sistema. Sabater e Sierra [Sabater 2001] consideram que a reputao de um agente no um conceito nico e abstrato, mas sem dvida ele um conceito multi- faceta. A combinao destas facetas para construir reputaes de conceitos complexos chamada de dimenso ontolgica da reputao. A aproximao seguida no trabalho deles se difere radicalmente de outros trabalhos no sentido que eles assumem a postura de que a estrutura social do agente um fator essencial na pesagem das opinies dos outros agentes. Outra maior contribuio desse trabalho a maneira com que eles modelam a reputao com um conceito de multi- facetas. Portanto, este trabalho aborda a questo de reputaes com mltiplas facetas levando em conta a estrutura social do agente. O uso de interaes diretas precedentes provavelmente a melhor maneira para calcular uma reputao, mas, infelizmente, esta informao no est sempre disponvel. Isto especialmente verdadeiro nos grandes sistemas multi-agentes onde a interao escassa. Por isso, Sabater e Sierra [Sabater 2002] apresentaram um sistema de reputao que tomava vantagem, entre outras coisas, das relaes sociais entre agentes para superar este problema. Portanto, este trabalho considera questes sobre as relaes sociais entre agentes. Carter, et al. [Carter 2002] propuseram que atravs da formalizao do conceito relacionado confiana, um modelo mais exato de confiana pode ser implementado. O trabalho deles apresenta um novo modelo de confiana que baseado na formalizao da reputao. Uma aproximao multidisciplinar levada a compreender a natureza da confiana e sua relao com a reputao. Atravs desta aproximao, uma definio prtica de reputao adotada do contexto sociolgico e um modelo de reputao desenhado e apresentado. A reputao definida como o cumprimento do papel 29
(cinco papis so definidos de modo que estes papis sejam objetivamente cumpridos). Para formalizar a reputao, necessrio formalizar as expectativas colocadas em um agente dentro de um sistema multi-agente particular. Neste caso, os agentes so partes de uma sociedade que compartilha informao. Portanto, este trabalho considera a reputao como um cumprimento de um papel por parte do agente. Baranski, et al. [Baranski 2006] desenvolveram uma pesquisa que apresenta resultados de estudos extensivos de simulao no Dilema do Prisioneiro Iterado. Dois modelos foram desenvolvidos: um modelo no grupal a fim de estudar os princpios fundamentais da cooperao e um modelo para imitar o etnocentrismo. Algumas extenses do modelo elementar de Axelrod implementaram a reputao individual. Alm disso, eles introduziram a reputao do grupo para fornecer um cenrio mais realstico. Em um ambiente com reputao do grupo, o comportamento de um agente afetar a reputao do grupo inteiro e vice-versa. Quando agentes desse tipo (por exemplo, aqueles com comportamento cooperativo) perdem reputao enquanto esto em um grupo, nas quais as estratgias defectivas so mais comuns, agentes com comportamento defectivo por outro lado beneficiam-se de um grupo com mais estratgias cooperativas. Com isso eles demonstraram que a reputao do grupo diminui a cooperao dentro do grupo e aumenta fora do grupo. Portanto, este trabalho aplica a simulao do Dilema do Prisioneiro Iterado para o estudo de estratgias cooperativas. Derbas, et al. [Derbas 2004] apresentam TRUMMAR, um modelo de confiana baseado na reputao que os sistemas de agentes mveis podem usar para proteger agentes dos anfitries maliciosos. TRUMMAR original em ser um modelo verdadeiramente detalhado que explica, em um framework unificado, uma extensa gama de conceitos, tais como: a reputao prvia derivada, a primeira impresso, a perda da informao da reputao com o tempo, a hierarquia de sistemas de anfitries (vizinhos, amigos e desconhecidos), e a incluso da interao. TRUMMAR tambm bastante geral para ser aplicado a algum sistema distribudo. Portanto, este trabalho aborda a integrao de diferentes conceitos relativos a modelos de confiana, inclusive com interao. Klos e Poutr [Klos 2003] apresentaram um mecanismo completamente descentralizado da reputao para aumentar a exatido de avaliaes dos agentes, e a confiana em outros agentes, como fornecedores de informao de confiana. Por fim, este trabalho aborda a questo da exatido da informao de confiana. 30
A tabela abaixo (Tabela 2.1) apresenta um resumo dos trabalhos relacionados com os modelos de reputao que foram apresentados acima, destacando os elementos considerados mais importantes destes trabalhos. Os temas abordados nestes trabalhos serviram para levantar importantes discusses e foram uma importante fonte de inspirao para o desenvolvimento dos trabalhos e estudos aqui realizados, e que esto descritos nas sees seguintes desta dissertao.
TABELA 2.1: Trabalhos relacionados: Modelos de Reputao Referncia Importantes Temas Abordados e Discutidos no Referido Trabalho [Oh 2004] Cooperao (ajuda e amizade) entre agentes. [Gaston 2005] Formao de grupos que atuam formando uma rede social. [Lam 2004] Reputao (confiana/honestidade) associada adaptao de estratgias. [Yu 2002] Interao (correspondentes) com criao de uma relao de confiana. [Huynh 2006] Reputao global que vai alm das reputaes individuais. [Schlosser 2004] Possibilidade de usar diferentes mtricas para avaliar a reputao. [Bitting 2004] Cooperao e ganho global (bem comum). [Teacy 2005] Reputao recolhida de terceiros . [Yu 2003] Problema da decepo na propagao e agregao de testemunhos. [Fullam 2006] Em quem e quanto confiar (incluindo a troca de reputaes), e o seu impacto na dinmica do sistema. [Sabater 2001] Reputaes com mltiplas facetas considerando a estrutura social do agente. [Sabater 2002] Relaes sociais entre agentes. [Carter 2002] Reputao como um cumprimento de um papel por parte do agente. [Baranski 2006] Simulao do Dilema do Prisioneiro Iterado para o estudo de estratgias cooperativas 31
[Derbas 2004] Conceitos relativos a modelos de confiana, inclusive com interao [Klos 2003] Questo da exatido da informao de confiana
2.3 Jogos Administrativos Uma definio simples oferecida por Greene e Sisson [Greene 1959], onde os jogos administrativos so atividades realizadas por cooperao ou competio, buscando conquistar, dentro das regras, seus objetivos. Outras definies tm sido sugeridas. Alternativamente, h uma definio oferecida por Greenblat [Greenblat 1988], que enfatiza a forma com que os jogos podem ser usados para simular elementos da vida real.
2.3.1 A Histria dos Jogos Administrativos Os Jogos Administrativos tornaram-se reconhecidos durante a Primeira Guerra Mundial e continuam se disseminando atravs dos anos. A extenso dos jogos se deu pelo grande interesse da comunidade acadmico- cientfica. A maioria, entretanto, foi influenciada por dois jogos. O primeiro apareceu em 1957 e foi um jogo baseado em computador, desenvolvido pela American Management Association. Ele foi publicado no livro Top Management Decison Simulation, escrito por Ricciardi et al. [Ricciardi 1957]. O segundo foi o manual do jogo desenvolvido por Andlinger [Andlinger 1958] e tornou-se amplamente conhecido aps sua publicao no Harvard Business Review. Como um resultado destes dois jogos, muitas universidades e escolas de graduao de negcios comearam a desenvolver seus prprios jogos. Ao mesmo tempo, menos ateno foi dada adaptao destes jogos em ambientes computacionais. Shubik [Shubik 1968] publicou um artigo sobre o custo de jogar. Ele analisou que o uso dos computadores era visto pelos usurios como de difcil manuseio e os softwares eram caros demais. E, alm disso, a comunidade acadmica da poca no tinha o conhecimento especfico para desenvolver modelos de computadores mais acessveis. Foi apenas aps a introduo da calculadora programvel da HP (Hewlett-Packard) que o primeiro sinal de uma revoluo dos microcomputadores apareceu, e quando Greenblat e Duke [Greenblat 1981] incluram uma HP em seu pacote de jogos. Atravs destes saltos na tecnologia, mais usurios podem agora usar computadores de forma mais acessvel. 32
2.3.2 Tipos de Jogos Administrativos difcil nesta vasta rea categorizar os jogos, pois eles no so todos apropriados. Muitos deles vm de forma ampla, enquanto outros claramente pertencem a uma categoria particular. Entretanto necessrio agrupar os jogos para que os usurios possam facilmente localizar o tipo necessrio. A diviso feita por Elgood [Elgood 1997] usualmente a mais detalhada, como podemos conferir:
Jogos baseados em modelos; Jogos de computadores; Jogos progressivos subdivises desta categoria incluem: labirinto, jogos de tabuleiro\dados\cartas, estudos de inqurito e jogos de fases; Jogos de discusso este pode ser subdividido em exploratrio, exerccios in-tray e simulaes programadas; Simulaes de atividade as subdivises desta categoria so experincias estruturadas, modelos de organizao, tarefas prticas e atividades realizadas ao ar livre.
2.3.3 O Uso dos Jogos Administrativos Os jogos podem ser usados por um nmero de razes baseadas nos objetivos de ensinar e treinar. Geralmente, eles permitem com que os indivduos ensinem e treinem, praticando o que eles tm aprendido. Os benefcios dos jogos para ambos, treinador e participante, so numerosos. Elgood agrupa o uso sob trs formas: preparar, examinar a performance e experimentar. Greenblat [Greenblat 1988] descreve em cinco benefcios: aumentar a motivao e interesse, ensinar e treinar, desenvolver a habilidade, mudar a atitude, e propor a avaliao de si mesmo ou a avaliao pelos outros. Na rea de jogos digitais e entretenimento, so chamados de serious games, quando possuem uma finalide como estas descritas acima (treinar, ensinar, simular, ...).
2.3.4 Exemplos de Jogos Administrativos
O Jogo da Cerveja Apesar do termo Gerenciamento da Cadeia de Suprimentos (Supply Chain Management) ter ganhado destaque e se tornado popular na dcada de 90, nos anos 60 o 33
MIT (Massachucetts Institute of Technology) j tinha desenvolvido um jogo no computadorizado para simular a gesto de estoque em uma cadeia de suprimento, denominado Jogo da Cerveja, o qual at hoje continua a ser um dos jogos de empresa mais utilizados em todo mundo. Tem como objetivo principal evidenciar a importncia da integrao e da troca eficiente de informaes em uma cadeia de suprimentos. Para tanto, o jogo simula um processo de administrao de estoques de empresas que compem os diversos estgios de uma cadeia produtiva de cerveja (varejo, distribuidor, revendedor e fbrica) conforme exposto na figura 2.1.
Figura 2.1 Cadeia de Suprimento do Jogo da Cerveja
A grande diferena entre e os demais jogos de empresa que a princpio no se trata de um jogo competitivo, mas sim colaborativo, uma vez que todas as empresas de uma mesma cadeia de suprimentos tm um objetivo comum, o de minimizar o custo total da cadeia. Para manter o carter competitivo comum neste tipo de atividade, pode- se simular simultaneamente diversas cadeias de suprimentos competindo entre si.
Jogos de Logstica Integrada Para evidenciar a necessidade de uma integrao no s entre as funes logsticas, mas tambm entre estas e a estratgia de marketing, alguns jogos simulam um ambiente competitivo no qual cada equipe responsvel pelo gerenciamento (estratgia) de uma das empresas concorrentes que atuam em mercados comuns (so exemplos os jogos LOG, o LOG-Advanced, o BR-LOG e o LOGA - os trs primeiros desenvolvidos no COPPEAD - Instituto de Pesquisa e Ps-Graduao em Administrao de Empresas da Universidade Federal do Rio de Janeiro e o ltimo na Universidade do Estado de Michigan). Estes jogos envolvem decises relativas ao suprimento e transporte de matria-prima, apoio produo, distribuio de produtos acabados e estratgia de marketing.
Fbrica
Distribuidor
Revendedor
Varejo Fluxo de Material Fluxo de Informao 34
Um grande atrativo destes jogos o alto grau de motivao por parte dos participantes decorrente da competio entre as equipes ao disputarem uma parcela destes mercados, fazendo com que o resultado de cada perodo no seja fruto apenas de suas decises, mas tambm das decises e das estratgias dos demais grupos. Assim, uma determinada empresa pode, por exemplo, aproveitar o problema de disponibilidade de produto de um dos seus competidores para ganhar mercado. Conseqentemente cada grupo tem a oportunidade de aprender no apenas com os seus erros e acertos, mas tambm com os da concorrncia.
Westrek a leadership and planning game Uma equipe levada por um helicptero fechado em vo noturno e deixada em um lugar desconhecido. Cada um dos integrantes tem uma mochila nas costas com um saco de dormir, comida suficiente e raes de sobrevivncia para 10 dias, gua para dois dias, um relgio, uma bssola, um machado e 10 metros de corda. O piloto do helicptero d a cada membro um envelope antes de levantar vo s 6h sobre a luz do amanhecer de forma repentina. Ele explica que todos devem iniciar a caminhada em relao a um marco natural no horizonte e que, ao meio-dia precisamente, devem parar e abrir seus envelopes. meio-dia, eles alcanaram o marco e tm que abrir seus envelopes. Os participantes constatam que contm um nmero de cartas com dicas algumas explcitas, algumas enigmticas e um mapa da rea na qual eles foram deixados. A tarefa deles responder as seguintes questes o mais preciso possvel: De onde eles vieram? (Marcar o ponto de aterrisagem do helicptero no mapa); Onde eles esto agora? (Marcar a localizao atual no mapa); Aonde eles chegaro se continuarem se dirigindo nesta direo que eles esto agora? (Marcar a direo atual e a direo provvel no mapa); Onde eles querem chegar? (Circular o destino/ objetivo planejado); Quando eles querem estar l? (Qual o prazo final?); Em quanto tempo eles chegaro l? (Traar a rota no mapa e calcular a durao da jornada). Os objetivos deste treinamento so treinar os cinco passos essenciais no planejamento de algum projeto e demonstrar o necessrio de cooperao, 35
compartilhamento, e sinergia em uma equipe, especialmente durante o planejamento de um projeto. Nota-se que os trs exemplos de jogos administrativos citados acima, possuem em comum uma preocupao com a estratgia adotada pelos diferentes participantes dos jogos, privilegiam a cooperao e o resultado coletivo (incluindo questionamento sobre estratgias de colaborao e interaes), e por fim, utilizam-se de um jogo, usualmente avaliado por algum tipo de pontuao ou recompensa que permite medir o sucesso ou fracasso de um determinado jogador ou estratgia adotada. Estes elementos presentes nos Jogos Administrativos so tambm fonte de inspirao e um dos focos deste trabalho de dissertao. Cabe lembrar que h um exemplo de jogos administrativos de extrema importncia, que o Dilema do Prisioneiro (PD), e sobre o qual daremos mais nfase na prxima subseo, dado que este foi o problema escolhido para ser adotado em nossos estudos, implementaes e simulaes.
2.4 Teoria dos Jogos e o Dilema do Prisioneiro
2.4.1 Teoria dos Jogos A teoria dos jogos, hoje vista e estudada em diferentes campos acadmicos (passando de ferramenta para anlise do comportamento econmico a instrumento para definio de estratgias nucleares), um ramo da matemtica aplicada que se prope a estudar situaes estratgicas onde os jogadores realizam suas variadas escolhas de aes buscando um melhor retorno. No se detendo somente a nvel acadmico, a cultura popular tambm est atenta teoria dos jogos conforme observamos em manifestaes artsticas (filme Jogos de Guerra Estados Unidos, 1983, direo de John Badham/ biografia de John Nash matemtico e pesquisador da teoria dos jogos 1998, Sylvia Nasar/ filme Uma Mente Brilhante Estados unidos, 2001, direo de Ron Howard). Considerando o grande interesse em jogos como o Dilema do Prisioneiro, que se caracterizam basicamente por interesses prprios e racionais prejudicarem a todos envolvidos na relao, a teoria dos jogos j pode ser observada aplicada em uma gama de conhecimentos especficos, como nas cincias polticas, na biologia, na administrao e na economia, na tica e na filosofia e, mais recentemente, no jornalismo, onde se concentram diversos jogos competitivos e cooperativos. Nas 36
cincias da computao, por conseguinte, a teoria dos jogos ganha espao impulsionada por projetos voltados Inteligncia Artificial e ciberntica. A teoria dos jogos se diferencia da teoria da deciso 1 medida em que estuda decises que so tomadas em um ambiente onde vrios jogadores interagem. A teoria dos jogos estuda as escolhas de comportamentos em um cenrio onde o custo e o beneficio de cada opo no so fixos porque dependem da escolha dos outros participantes, ou seja, se depara com resultados que dependem da prpria estratgia de um agente e das condies de mercado e tambm das estratgias escolhidas por outros agentes que possivelmente tm estratgias diferentes ou objetivos comuns.
2.4.2 O Dilema do Prisioneiro O Dilema do Prisioneiro foi originalmente idealizado por Merril Food e Melvin Dresher trabalhando nos laboratrios da corporao estadunidense RAND em 1950. Albert W. Tucker formalizou o jogo com pagamentos de sentenas de priso e deu o nome de Dilema do Prisioneiro [Poundstone 1992]. Este problema particularmente importante e ser utilizado em nosso trabalho. Uma das principais razes de sua adoo pelo fato de ser um problema clssico, e devido ao fato de permitir que sejam implementadas partidas, como em um jogo de cartas, por exemplo, com a possibilidade de participao de mltiplos jogadores, e principalmente com um inteligente sistema de pontuao que permite avaliar as diferentes estratgias de jogo adotadas pelos participantes do jogo, conforme descreveremos a seguir. O dilema do prisioneiro (Prisoners Dilemma) trata de um problema clssico abordado na rea de Teoria dos Jogos (Game Theory), estando diretamente relacionado a questes como cooperao, confiana e traio. Este tipo de problema onde existe uma deciso a ser tomada, com diferentes conseqncias que afetam os demais agentes, e onde existem conceitos de confiana e traio que fazem parte da estratgia do jogo, tem um papel muito importante nas pesquisas atuais da aplicao da Teoria dos Jogos em diversas reas. Pesquisas nesta rea vm possibilitando o estudo de novos modelos na economia, aplicados na simulao em biologia e aplicados tambm em estudos
1 A teoria da deciso (Herbert Simon - 1945) fundamenta-se em explicar o comportamento humano nas organizaes. Na Teoria Comportamental da Administrao a organizao considerada como um sistema de decises em que cada pessoa participa racional e conscientemente, escolhendo e tomando decises a respeito de alternativas mais ou menos racionais de comportamento.
37
sociolgicos. Existe uma farta bibliografia que aborda o dilema do prisioneiro e suas variantes. Tambm encontramos na Internet diversos sites com ferramentas de simulao deste problema, como, por exemplo, o site Game Theory.net 2 , que possui um applet em Java disponibilizando um jogo interativo baseado neste problema. O dilema do prisioneiro clssico (PD) funciona da seguinte forma: Dois suspeitos, A e B, so presos pela polcia. A polcia tem provas insuficientes para conden- los, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros testemunhar para a procuradoria contra o outro e o outro permanecer em silncio, o dedo-duro sai livre enquanto o cmplice silencioso cumpre 10 anos de sentena. Se ambos ficarem em silncio, a polcia s pode conden- los a 6 meses de cadeia cada um. Se ambos trarem o comparsa, cada um leva 2 anos de cadeia. Cada prisioneiro faz sua deciso sem saber que deciso o outro vai tomar e nenhum tem certeza da deciso do outro. A questo que o dilema prope : o que vai acontecer? Como o prisioneiro vai reagir? O dilema pode ser resumido assim:
TABELA 2.2: Anlise simulatria de resultados no jogo O Dilema do Prisioneiro. Prisioneiro B fica em silncio Prisioneiro B trai Prisioneiro A fica em silncio Cada prisioneiro serve seis meses Prisioneiro A serve dez anos Prisioneiro B sai livre Prisioneiro A trai Prisioneiro A sai livre Prisioneiro B serve dez anos Cada prisioneiro serve dois anos
Podemos expor o princpio bsico do jogo para permitir que seja aplicado em outras situaes alm desta dos prisioneiros. A forma generalizada do jogo tem sido usada frequentemente em experimentos econmicos, onde por exemplo, podemos associar a idia de silenciar (cooperar) e de testemunhar contra (trair) com conceitos como em uma transao comercial onde dois parceiros compram e vendem
2 Site Game Theory.net. Disponvel em http://www.gametheory.net/Web/PDilemma/, acessado em 15/6/2007. 38
mercadorias: se um dos agentes vender uma mercadoria e entregar o produto (cooperou) ou se no entregar (traiu); e se o outro agente que comprou a mercadoria pagar por ela (cooperou) ou se no pagar (traiu). Vrios outros exemplos de situaes podem ser associados a este modelo. Temos, por exemplo, dois jogadores e um banqueiro (jogo de cartas). Cada jogador mantm um jogo de duas cartas: uma impressa a palavra Coopera, a outra impressa com Trai (a terminologia padro para o jogo). Cada jogador coloca uma carta com a face virada para baixo em frente ao banqueiro. Pela colocao das cartas, a possibilidade de um jogador saber a seleo do outro eliminada. Ao fim do torneio, o banqueiro desvira ambas as cartas e paga em conformidade. Se o jogador 1 (vermelho) trai e o jogador 2 (azul) coopera, o jogador 1 ganha o pagamento de 5 pontos enquanto o jogador 2 recebe o pagamento de 0. Se ambos cooperam, eles ganham o pagamento de trs pontos cada, enquanto se ambos se trarem recebero o pagamento de 1 ponto. A matriz de pagamento mostrada abaixo:
TABELA 2.3: Matriz de pagamento Jogador 2 Coopera Jogador 2 Trai Jogador 1 Coopera Cada jogador ganha trs pontos Jogador 1 ganha 0 pontos Jogador 2 ganha 5 pontos Jogador 1 Trai Jogador 1 ganha 5 pontos Jogador 2 ganha 0 pontos Cada jogador ganha um ponto
Esta matriz de pontuao uma das peas-chave do PD clssico, pois ela permite codificar de modo bastante realista as punies e recompensas recebidas pelos jogadores quando cooperam mutuamente, quando um trai ao outro, ou quando ambos so prejudicados pelas aes mtuas de traio. Como foi visto, o dilema do prisioneiro trabalha como um jogo, e pode ser implementado atravs de uma simulao, onde pontua os jogadores conforme a ao executada, usa confiana e traio, sendo que atravs destas aes e estratgias podemos analisar a tomada de rumo do jogo, que pode inclusive ser jogado por mltiplos jogadores, dando nfase abordagem multi-agente.
39
2.4.3 Dilema do Prisioneiro Iterado (IPD) Axelrod [Axelrod 1984], em A evoluo da cooperao, estuda uma extenso ao cenrio clssico do dilema do prisioneiro que classificou como Dilema do Prisioneiro Iterado (IPD). (Iterated Prisoners Dilemma - IPD). Neste contexto, os participantes escolhem a sua estratgia e disputam uma srie de rodadas deste jogo, onde podem possuir um comportamento que faz uso da memria dos seus encontros prvios a fim de planejar sua estratgia. O IPD pode ser considerado um sistema dinmico, cuja anlise da evoluo do jogo pode ser realizada atravs da implementao de uma simulao da dinmica do sistema (sujeito as diferentes regras e mudanas de comportamento adotadas pelos participantes do jogo). Em torneio promovido por Axelrod, onde participaram acadmicos de diversas instituies distribudas em todas as partes do mundo concebendo estratgias automatizadas para competir num torneio de IPD (os programas participantes denotaram extrema variao na complexidade do algoritmo: hostilidade inicial, capacidade de perdo e similares), o cientista descobriu que por estes encontros repetitivos durante um longo perodo, na presena de muitos jogadores, tendo cada indivduo suas estratgias prprias, a longo prazo as estratgias altrustas eram melhores que as egostas, julgando-as unicamente em considerao ao prprio interesse do agente. Fez uso deste mecanismo para exemplificar um possvel esquema que explicasse o que antes tinha sido um entrave na teoria da evoluo: como um comportamento altrusta evolui na seleo natural a partir de artefatos puramente egostas? Anatol Rapoport apresentou o programa mais simples, o tit for tat (olho por olho ou retaliao equivalente) [Wikipedia 1], que continha somente quatro linhas de BASIC, e ganhou o concurso por ter sido considerado a melhor estratgia determinista, que consiste em cooperar na primeira iterao do jogo, e, nas prximas, optar pelo o que o oponente escolheu na rodada anterior. Esta estratgia evolui para a tit for tat com capacidade de perdo, onde o oponente deserta (trai) e na seguinte rodada coopera-se por vezes com ele com uma pequena probabilidade, o que permite a recuperao ocasional de ficar encerrado em um crculo vicioso de deseres (traies). A probabilidade exata depende do alinhamento dos oponentes, mas deve variar de 1% a 5%. Esta a melhor estratgia a ser adotada quando se introduzem problemas de comunicao no jogo. Isto porque h vezes em que a jogada transmitida incorretamente ao openente, isto , o oponente pensa que se desertou quando ocorreu a cooperao. 40
Conforme Axelrod, esta estratgia se destaca por dois motivos: 1) amvel, apenas deserta como resposta desero de outro jogador, nunca responsvel pelo incio de um ciclo de deseres mtuas; 2) pode ser provocado por sempre responder o que faz o oponente, castiga imediatamente o outro indivduo se este deserta, mas responde adequadamente se coopera de novo. O comportamente claro, tico e direto possibilita o fcil entendimento do outro jogador quanto lgica da estratgia, que fica confortvel para um relacionamento produtivo com o outro membro. Por outro lado, nem sempre pode-se dizer qual a melhor estratgia para o IPD, o que varia conforme o cenrio. Em uma ambiente onde todos desertam sempre e apenas um indivduo mantm a estratgia tit for tat, este j sai em desvantagem porque perde a primeira jogada. Em outro exemplo onde parte dos indivduos desertam sempre e outra parte dos indivduos seguem a estratgia tit for tat, a melhor estratgia depende de variveis como a porcentagem e a durao do jogo. As estratgias pior classificadas no torneio de Axelrod no estavam programadas para responder s escolhas dos outros jogadores. Contra estes opositores a melhor alternativa desertar (trair) sempre, j que se inviabiliza a certeza de uma cooperao mtua. Axelrod estabeleceu determinadas condies necessrias para o sucesso de uma estratgia ao analisar a performance das estratgias melhor sucedidas no torneio: Amabilidade a condio mais importante: ser amvel significa no desertar antes que o opositor. A maioria das estratgias melhor pontuadas eram amveis, sendo que minimizam o poder de uma estratgia egosta.
Retaliao A estratgia vencedora precisa recuar na amabilidade porque colaborar sempre d vazo para que as estratgias oportunistas explorem esta fraqueza a todo o momento.
Perdo Uma qualidade das estratgias vencedoras que so capazes de cooperar com o opositor logo que retaliem, evitando um ciclo vicioso de vinganas e otimizando os resultados.
41
No-inveja Uma estratgia amvel no pode querer fazer mais pontos que seus opositores.
Para Axelrod, os indivduos egostas, aniquilados pelo seu prprio egosmo, tendero a ser amveis, colaborantes, indulgentes e no invejosos. Uma das mais significativas concluses e contribuies do estudo de Axelrod quanto a esta problemtica que os indivduos amveis so os melhores classificados.
2.5 Discusso sobre o Modelo Cooperativo Multi-Agente com Reputao e Interao Nas subsees anteriores podemos observar um apanhado geral sobre os trabalhos com modelos de reputao e jogos administrativos de forma separada. Vimos que o problema do Dilema do Prisioneiro (PD) uma ferramenta interessante de anlise sobre questes de comportamento, interao, cooperao e traio entre agentes. Foi apresentado que este problema pode ser apresentado em diferentes configuraes, onde se destacou: PD clssico Dilema do Prisioneiro (Prisoners Dilemma), onde dois agentes tomam uma deciso sobre se devem cooperar ou trair, sendo pontuados em relao a sua ao. IPD Dilema do Prisioneiro Iterado (Iterated Prisoners Dilemma), onde dois agentes disputam uma seqncia de partidas do PD clssico. Desta forma possvel analisar o comportamento dos agentes ao longo do tempo, assim como podemos tambm avaliar o acmulo da pontuao ao longo de diversas rodadas do jogo. MAPD Dilema do Prisioneiro para Multi- Agentes (Multi-Agent Prisoners Dilemma), onde diversos agentes jogam entre si uma partida do PD clssico. Neste caso, podemos tambm computar a pontuao acumulada de um agente em relao as N partidas de PD que ele realizou com cada agente. MAIPD Dilema do Prisioneiro Iterado para Multi- Agentes (Multi-Agent Iterated Prisoners Dilemma), onde diversos agentes jogam entre si diversas rodadas de partidas do PD clssico. Esta dissertao est focada na aplicao do MAIPD como ferramenta para o estudo do comportamento em sistemas multi-agentes. Indo mais alm, numa anlise mais profunda, no encontramos trabalhos sobre o tema que estamos propondo: um modelo cooperativo multi-agente utilizando reputao e interao, aplicado ao problema do IPD. Em alguns jogos administrativos 42
que aqui descrevemos, at encontramos cooperao ou ento um modelo de reputao com cooperao, mas pretendemos desenvolver um modelo que utilize o dilema do prisioneiro iterado como base, para que os diversos jogadores possam jogar mais vezes seguidas, criando assim suas estratgias atravs de interaes com os demais jogadores e mecanismos de reputao e cooperao.
43
Captulo 3 Modelo Proposto Neste captulo ser descrito o modelo do agente que est sendo proposto, juntamente com seus atributos, os comportamentos dos agentes e a interao entre os agentes. Tambm ser apresentado o ambiente de simulao, as ferramentas implementadas, bem como o modo como ele se integra ao IPD, alm de serem abordadas as possveis aplicaes das simulaes e os resultados esperados.
3.1 Modelo do Agente Cada agente possui um conjunto de variveis composto por K = conhecimento global (conhecimento e reputao global), S = estado (personalidade e estado emocional) e I = Inteno (ao), onde este modelo inspirado no proposto por Musse [Musse 2000]. A partir destas variveis citadas e descritas na figura 3.1, notadamente EE (Estado Emocional), P (Personalidade) e Rg (Reputao Global), obtida uma varivel adicional denominada de Influncia (INF). Estas variveis sero detalhadas a seguir.
FIGURA 3.1 Modelo de Agente
44
3.1.1 Conhecimento Global do Agente(K) O conhecimento global de um agente est dividido em: Conhecimento (C) e Reputao Global (Rg).
3.1.1.1 Conhecimento (C) O conhecimento tudo o que o agente foi capaz de aprender sobre os demais agentes e sobre o ambiente onde est inserido.
3.1.1.2 Reputao Global (Rg) A reputao global a mdia da reputao dada pelos demais agentes ao agente em questo e tem como valor inicial o mesmo percentual para todos os agentes. Podemos ter posteriormente agentes com reputao global alta e agentes com reputao global baixa. O valor da reputao, nas simulaes que realizamos com um conjunto de 10 agentes, varia de 0 a 100, onde uma reputao com valor 10 considerada uma m reputao e uma reputao com valor 90 considerada uma boa reputao. Os valores intermedirios podem ser considerados bons ou ruins dependendo do limiar de tolerncia adotado pelos agentes.
3.1.2 Estado (S) O estado de um agente dividido em: Personalidade (P) e Estado Emocional (EE)
3.1.2.1 Personalidade (P) A personalidade dos agentes ser setada no incio da simulao e permanecer igual durante todo o experimento, onde cada agente ter sua prpria personalidade setada individualmente. Um agente pode ter personalidade forte, capacidade de formar suas prprias opinies e assim se tornar um influenciador; personalidade fraca, capacidade de deixar- se levar muitas vezes pelas opinies dos outros, desconsiderando as suas, e assim ser influenciado; e personalidade mdia, capacidade de analisar o que certo e errado e tomar suas decises de forma consciente. O agente com personalidade forte pode influenciar um agente de personalidade fraca de forma positiva ou negativa, o que vai depender do tipo de ao que ele estiver executando no momento da interao. 45
3.1.2.2 Estado Emocional (EE) O estado emocional de um agente identifica se o agente est triste ou feliz. A reputao global afeta o estado emocional: quando aquela est alta, o agente fica mais feliz, e quando est baixa, o agente fica mais triste. Isto abre a possibilidade de posteriormente analisar o estado emocional sendo afetado por outros parmetros, como por exemplo, a personalidade e a sua interao com os demais agentes.
3.1.3 Influncia (INF) A influncia de um agente calculada atravs de uma funo que utiliza o estado emocional (EE), a personalidade (P) e a reputao global (RG).
INF A = f (EE A , P A , RG A ) (1)
Calculando a influncia, podemos dizer se o agente tem influncia positiva, negativa ou no tem influncia sobre os demais agentes sua volta. No IPD a influncia positiva quando um agente induz os outros agentes a terem um bom comportamento (ser honesto e cooperar) com os demais agentes em uma jogada. Por outro lado, a influncia negativa quando um agente usa de sua influncia para levar outros agentes a trarem a confiana de outros, e a no influncia quando um agente ora trai, ora coopera. Aps passar pelo teste de influncia, o agente em questo avalia os agentes que esto sua volta, com o intuito de influenci- los.
FIGURA 3.2 Agente dentro do quadro branco influenciar de forma positiva os demais agentes sua volta. Agentes com influncia positiva Agentes com influncia negativa Agentes sem influncia 46
FIGURA 3.3 Agente dentro do quadro branco influenciar de forma negativa os demais agentes sua volta.
Os agentes que foram influenciados passaro a agir como aqueles que os influenciaram, de forma positiva ou negativa, j os que no sofreram nenhum tipo de influncia continuaro agindo normalmente.
3.1.4 Inteno (I) A inteno nada mais do que as aes que os agentes executam. Foram estipuladas duas aes. Como no IPD, se um dos prisioneiros testemunharem para a procuradoria contra o outro e o outro permanecer em silncio, o dedo-duro sai livre enquanto o cmplice silencioso cumpre 10 anos de sentena, se ambos ficarem em silncio, a polcia s pode conden- los a seis meses de cadeia cada um, e se ambos trarem o comparsa, cada um leva dois anos de cadeia. Resolvemos definir as aes levando isto em considerao: trair um agente ou cooperar com um agente. As aes so executadas pelos agentes em suas trajetrias e sofrem influncia de acordo com o comportamento que eles estiverem adotando. As aes so simbolizadas respectivamente pelos numerais 1 (trair) e 2 (cooperar).
3.2 Comportamento dos Agentes O comportamento do agente informado atravs de um arquivo de configurao em formato texto e estipulado para cada um dos agentes. Foram criados seis tipos de comportamentos, sendo que um deles utiliza como atributo para a tomada de deciso sobre a ao a realizar, a reputao global do agente. Os comportamentos iro influenciar as aes de forma positiva ou negativa. Agentes com influncia positiva Agentes com influncia negativa Agentes sem influncia 47
Comportamento 1: Aleatrio, ora leva o agente a trair, ora a cooperar. O comportamento aleatrio foi considerado nas simulaes como o comportamento baseline, aquele que servir de referncia em termos de desempenho no jogo (no usa nenhum tipo de inteligncia na tomada de suas decises sobre como agir); Comportamento 2: Sempre trair, leva o agente a agir de forma negativa e a executar a ao de sempre trair; Comportamento 3: Sempre cooperar, leva o agente a agir de forma positiva e a executar a ao de sempre cooperar; Comportamento 4: Se baseia na jogada anterior para jogar a prxima alternando as aes, ou seja, ora trai, ora coopera, dependendo da ao executada na partida anterior; Comportamento 5: Cooperar com os demais para se defender contra um agente traidor. Os agentes cooperam entre si para se defenderem de um agente que os est traindo sempre, ou seja, um agente com comportamento do tipo 2 (sempre trai); Comportamento 6: Cooperar com os demais, levando em considerao a reputao para se defender de agentes traidores. Os agentes cooperam entre si para se defenderem de um agente que os est traindo, levando em considerao ainda sua reputao. Usa um limiar que pode ser configurado, com o intuito de formar grupo com agentes de boas reputaes. Nas simulaes apresentadas no prximo captulo, foi usado um limiar com o valor 70, ou seja, o agente que mais cooperou do que traiu considerado confivel (coopera, aceitando inclusive um baixo nvel de traio) e trai sempre o agente que teve um fraco nvel de cooperao (reputao abaixo do limiar). importante destacar que as ferramentas implementadas foram projetadas de modo bastante modular e flexvel, a fim de que novos tipos de comportamentos pudessem ser adicionados ao ambiente de simulao. Estudos futuros podero ser feitos usando o modelo proposto, mas incorporando novos modelos de comportamento dos agentes, assim como, podem tambm ser ajustados os parmetros, como o limiar de reputao, adotados nos experimentos prticos detalhados no prximo captulo.
3.3 Interao Entre os Agentes Os agentes pertencem ao mundo/ambiente de interao e nele fazem suas trajetrias de forma aleatria. Todos partem de uma posio inicial e tm uma posio final, que sorteada a cada vez que eles se encontrarem perto da posio final anterior. Ao se aproximarem de outros agentes eles interagem trocando informaes e 48
atualizando seus conhecimentos e atributos, e podendo sofrer influncias dos demais agentes (e.g. afetando a reputao ou o comportamento). Essas interaes so executadas por todos os agentes, sendo que cada um ter a sua lista de reputaes, em que fica registrada a reputao dos demais agentes com os quais se interagiu. Na ilustrao abaixo o agente A est interagindo com o agente B e ambos esto alimentando os seus conhecimentos (Ka e Kb) com a reputao (Ra e Rb) do outro.
FIGURA 3.4 Interao entre dois agentes
A interao entre agentes permite que um agente influencie e at modifique o modo de agir (comportamento) de um outro agente, ou re-avalie a reputao deste agente. Esta mudana no comportamento do agente tambm ter um impacto indireto na sua reputao, pois a reputao obtida a partir do modo como o agente se comporta. Por exemplo, um agente pode mudar do Comportamento 1 (aleatrio) para o Comporta- mento 2 (sempre trai) por influncia de algum outro agente que o leva a agir desta forma.
3.4 Ambiente de Simulao e Implementaes O ciclo da simulao est dividido em duas etapas. A primeira etapa quando ocorre a interao entre os agentes no mundo/ ambiente, onde eles trocam informaes e atualizam seus conhecimentos e atributos (e.g. influncia). Na outra etapa, que pode ocorrer aps cada interao, ou mesmo iniciar diretamente por ela, os agentes jogam uma partida da aplicao baseada no problema do IPD (Dilema do Prisioneiro Iterado - Iterated Prisoners Dilemma), e com um conjunto de partidas podemos avaliar as diferentes estratgias dos agentes. O IPD ser utilizado com o objetivo de avaliar as jogadas dos agentes (so disputadas diversas partidas entre os diversos pares de agentes), fornecendo uma avaliao quantitativa do desempenho dos agentes (individualmente, por grupos, ou medindo o desempenho mdio global de todos). Com isso poderemos obter uma anlise mais apurada do desempenho dos agentes, e ser possvel avaliar a 49
influncia do uso de diferentes percepes (e.g. reputao, formao de grupos), bem como tambm ser possvel avaliar a evoluo no tempo das estratgias, determinando se houve uma melhoria no comportamento do agente ou no (se pontuou mais ou menos). Este ambiente de simulao, atravs deste ciclo composto de duas etapas (Figura 3.5), uma de interao e a outra de disputa (MA-IPD), permite que possamos realizar simulaes e estudos envolvendo: (i) anlise e implementao de diferentes comportamentos dos agentes, bem como avaliao do seu desempenho nas disputas atravs da pontuao; (ii) anlise do impacto de certos atributos, como a reputao, na tomada de deciso do agente afetando seu modo de agir; (iii) anlise do impacto da interao entre agentes, envolvendo questes como a influncia de um agente sobre o outro, seja afetando sua reputao (re-avalia a reputao), ou at mesmo atravs de uma influncia que leve um determinado agente a mudar de comportamento. A evoluo de estratgias , portanto, o resultado de uma mudana de comportamento dos agentes, onde esta mudana do comportamento do agente pode ter sido gerada de modo direto por influncia das interaes com os demais agentes, ou de modo indireto, ao afetar as reputaes, que podem levar a mudanas no comportamento.
3.5 Ferramentas Implementadas Foram desenvolvidas duas ferramentas, o Simulador do IPD e o Simulador de Interaes, ambos implementados utilizando a linguagem de programao C++. O Simulador de Interaes contou ainda com o suporte da biblioteca grfica OpenGL.
3.5.1 Simulador do IPD O Simulador do IPD recebe como entrada dois arquivos textos, um contendo o comportamento de cada agente (conforme exemplo da Figura 3.6) e o outro com a reputao global dos agentes (conforme exemplo da Figura 3.7). A reputao global do agente uma reputao inicial configurada pelo usurio, ou aps uma rodada do IPD, esta reputao ir refletir a avaliao da reputao da rodada anterior.
51
FIGURA 3.5 Ciclo 51
FIGURA 3.6 Arquivo partidas.txt contendo os comportamentos dos agentes
O arquivo partidas.txt descreve o comportamento dos agentes para cada rodada do jogo. Sendo assim, no exemplo da Figura 3.6, temos 10 agentes que mantm o seu comportamento constante ao longo de 10 partidas, onde o primeiro tem um comportamento aleatrio (Comportamento 1, conforme descrito na seo 3.2), do segundo ao quarto agentes estes tem um comportamento do tipo 5, do quinto ao stimo agentes estes tem um comportamento do tipo 6 e os trs ltimos agentes tem um Comportamento 2 (sempre trai).
FIGURA 3.7 Arquivo repglobal.txt contendo a reputao global dos agentes
Nas simulaes que realizamos, relatadas no Captulo 4, foram utilizados 10 agentes, onde cada rodada era composta de 10 partidas realizadas contra cada um dos demais agentes, obtendo assim um total de 100 partidas por rodada. importante destacar que o nmero de agentes, assim como o nmero de partidas em cada rodada pode ser facilmente reconfigurado no simulador. Podemos 52
facilmente configurar as ferramentas implementadas para trabalhar com um nmero maior de agentes e de partidas por rodada. Cada agente joga contra todos os demais e ao final de cada confronto gerado um arquivo texto com o resumo deste confronto informando as jogadas de cada agente, juntamente com as aes executadas, a pontuao no confronto, a pontuao geral, a reputao do agente aps o confronto e a reputao acumulada do mesmo. A pontuao foi calculada baseada na Tabela 2.2 do Captulo 2 (pontuao adotada no problema do PD), onde:
- Traio x Traio = 1 ponto a cada agente; - Traio x Cooperao = 5 pontos ao agente que traiu e 0 pontos para o outro agente que cooperou; - Cooperao x Cooperao = 3 pontos a cada agente.
So disputadas N partidas (onde N=10 em nossas simulaes) e ao final da rodada temos um arquivo texto com a pontuao geral dos agentes (Fig. 3.8), e no arquivo que contm a reputao global j citado anteriormente obteremos a reputao geral dos agentes (Fig. 3.9), pois o mesmo sobrescrito a cada novo confronto. A comunicao entre o Simulador do IPD e o Simulador de Interaes feita atravs destes arquivos, que contm as informaes das reputaes e a configurao dos agentes.
FIGURA 3.8 Arquivo Pontuao.txt com a pontuao final da rodada.
53
FIGURA 3.9 Arquivo repglobal.txt com a reputao global dos agentes aps o trmino da rodada
Analisando, por exemplo, os arquivos desta rodada, podemos demonstrar que o agente 8 foi o que obteve a maior pontuao, pois ele estava utilizando o comportamento 2 (sempre trair), e, como conseqncia, sua reputao ficou inferior em relao aos demais agentes.
3.5.2 Simulador de Interaes O Simulador de Interaes, por sua vez, inicia sua simulao com um arquivo de configurao dos agentes (contm dados sobre o comportamento, estado emocional, personalidade, etc), e o arquivo texto da reputao global, gerado no Simulador do IPD, como entrada. Em seguida os agentes seguem suas trajetrias durante o tempo da simulao e interagem com os demais agentes trocando informaes e alimentando sua reputao global.
FIGURA 3.10 Tela do Simulador de Interaes 54
Agentes da cor azul so ditos como agentes de boa reputao perante aos demais, os vermelhos so os com baixa reputao, e os amarelos so os que ainda no interagiram. Ao final da simulao temos o arquivo das reputaes dos agentes atualizado e mais trs arquivos: um arquivo com todas as interaes que os agentes fizeram (interao_agentes.txt), um arquivo da situao dos agentes (situao.txt) indicando como evoluram as reputaes, e um arquivo que lista todos os agentes junto ao agente que mais lhe influenciou durante as interaes.
FIGURA 3.11 Arquivo interao_agentes.txt com a demonstrao dos agentes que interagiram
A Figura 3.11 apresenta o formato do arquivo interao_agentes.txt que contm 2 colunas (2 valores por linha), as colunas indicam os ndices dos agentes que interagiram. Por exemplo, na primeira linha do exemplo da Fig. 3.11 est indicado que o agente 3 interagiu com o agente 2, e pouco mais abaixo constatamos a interao do agente 7 com o agente 5.
55
FIGURA 3.12 Arquivo situao.txt com a descrio dos agentes a cada cinco tempos da simulao
A Figura 3.12 mostra que as reputaes dos agentes foram afetadas de tal forma durante as interaes, que uma das reputaes consideradas negativa (estava abaixo do limiar de reputao) passou a ser considerada positiva (ficou acima do limiar). Durante as interaes os agentes podem mudar suas reputaes devido ao fato de estarem se relacionando com agentes influenciadores. Eles podem aumentar ou diminuir suas reputaes. A Figura 3.13 mostra o arquivo influncias.txt, que contm 2 colunas (2 valores por linha), as colunas indicam os ndices dos agentes que interagiram, onde a primeira coluna o nmero do agente influenciado, e a coluna ao lado o nmero do agente que mais influenciou este agente. Como podem ocorrer vrias interaes entre agentes durante a simulao, a segunda coluna ir sempre representar o agente responsvel pela efetiva mudana no comportamento de outro, ou seja, o ltimo e mais influente agente com quem o agente influenciado teve contato. Caso um agente no tenha tido interaes, ou caso este agente tenha tido interaes, mas com outros agentes que no foram capazes de influenci- lo, ento este agente ir ter na segunda coluna o valor -1 (sem alterao no comportamento). Este arquivo permite que atravs da integrao dos simuladores implementados, possamos fazer, por exemplo, que um 56
agente influenciado copie o comportamento de seu influenciador, permitindo assim o estudo da evoluo de estratgias de uma populao de agentes e a formao de grupos.
FIGURA 3.13 Arquivo influncias.txt com quais agentes foram influenciados por quais outros agentes
3.6 Resultados Esperados As ferramentas de simulao do problema do IPD e da interao permitem o estudo e a avaliao experimental da evoluo do comportamento em um sistema multi- agente. Esta combinao IPD + Interao entre Agentes permite que sejam consideradas questes relacionadas com: (i) a reputao, a personalidade e a formao de grupos de agentes; (ii) o impacto de um determinado comportamento no desempenho dos agentes, considerados individualmente, em grupo ou como um todo; e, (iii) a busca da melhoria do comportamento dos agentes atravs da evoluo do conjunto de regras (estratgia). Com o intuito de estudar questes relativas ao comportamento dos agentes, do uso da reputao, dos impactos das interaes e sobre a dinmica do comportamento de grupos, foram realizados diversos experimentos cujos resultados sero apresentados e discutidos no prximo captulo.
57
Captulo 4 Resultado dos Experimentos Neste captulo sero apresentados os resultados dos experimentos, acrescido do objetivo e a descrio dos mesmos. Lembramos que os comportamentos citados nas simulaes abaixo so aqueles descritos no Captulo 3, seo 3.2: Comportamento 1: Aleatrio. Comportamento 2: Sempre trai. Comportamento 3: Sempre coopera. Comportamento 4: Inverte (alternncia). Comportamento 5: Trai apenas Comportamento 2, coopera com os demais. Comportamento 6: Considera Reputao, coopera se Reputao > Limiar. As simulaes foram realizadas sempre considerando um conjunto total de 10 agentes que disputam partidas entre si (cada um contra todos os demais, compondo uma rodada), sendo que so disputadas 10 rodadas compostas cada uma de um total de 90 partidas. Portanto, so realizadas 900 partidas a cada experimento: 10x10x9, 9 partidas dos 10 agentes entre si, com cada agente executando 10 rodadas de 10 partidas cada, em srie e contra os mesmos oponentes. Cada partida sempre pontuada, de acordo com as regras tradicionais do PD (descrito na seo 2.4.2), alm tambm de ser computada a reputao de cada agente e uma mdia de pontos acumulados pelos agentes. Sendo assim, os dados coletados e apresentados sobre os experimentos so relativos a: Pontuao dos agentes aps as 9 partidas de cada uma das 10 rodadas; Pontuao acumulada dos agentes ao final do experimento; Mdia e desvio padro da pontuao de cada agente ao final do experimento; Evoluo da reputao do agente aps as partidas das 10 rodadas e a mdia. Dividimos as simulaes em grupos: experimentos com comportamentos homogneos, com comportamentos mistos (50% de cada), com comportamentos 58
comparando quando a quantidade de agentes de um tipo varia, com comportamentos misturados e com comportamentos mistos com interao. Resumindo temos: Comportamentos homogneos: visam caracterizar como os agentes, todos de um mesmo tipo, agem e tambm permitem validar a implementao do simulador; Comportamentos mistos (50% de cada): se procurou ver como se comportam os agentes quando 2 grupos de comportamentos diferentes so confrontados, e assim podemos avaliar se um comportamento se impe (ganha mais pontos) sobre outro, bem como podemos avaliar se existem comportamentos que privilegiam mais o grupo como um todo (comportamento coletivo: analisando se a mdia geral aumentada ou reduzida); Comportamentos comparando quando a quantidade de agentes de um tipo varia: permite verificar como os agentes ao trocarem de comportamento influenciam as simulaes, testando o aumento ou diminuio da proporo de um tipo de comportamento (grupo) em relao a outro. Comportamentos misturados: permite estudar como se comporta um sistema multi-agente onde existem diversos grupos com diversos comportamentos, todos interagindo uns com os outros. Estas simulaes permitem complementar e validar as experincias anteriores, onde foram feitos experimentos mais focados (verificar sua validade tambm para populaes mais heterogneas). Comportamentos mistos com interao: visa verificar e analisar a pontuao dos agentes incluindo a interao entre eles. De um modo geral a mudana de comportamentos atravs da interao j foi tambm analisada no conjunto de experimentos 3 onde foram testados grupos que variam a quantidade de agentes de um mesmo tipo (resultado tpico das interaes e formaes/adaptaes dos grupos).
4.1.1 Objetivo Demonstrar como se comporta uma populao de agentes que possuem o mesmo modo de agir e analisar a pontuao destes agentes aps diversas rodadas. O objetivo deste experimento ser o de verificar a pontuao e a mdia destas populaes, comparando os resultados finais e discutindo sobre a influncia de comportamentos nicos na populao, junto ao problema do dilema do prisioneiro. No foi considerada a interao.
4.1.2 Descrio dos Experimentos Nas simulaes foram utilizados dez agentes e executadas dez rodadas. Na simulao 1 todos os agentes utilizaro o comportamento 1 (aleatrio); Na simulao 2 todos utilizaro o comportamento 2 (sempre trai); Na simulao 3 todos utilizaro o comportamento 3 (sempre coopera); Na simulao 4 todos utilizaro o comportamento 6 (c/reputao, limiar: 70).
TABELA 4.2: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 197,5 208,4 199,7 206,0 203,0 196,3 211,9 196,8 202,7 207,0 202,9 D: 20,16 18,46 22,65 14,08 14,90 13,64 19,15 20,65 19,99 14,01 18,7 *O maior e menor valor esto em negrito
Na simulao 1, com agentes de comportamento randmico, o agente 1 foi o que mais traiu e obteve trs vitrias (ver Apndice A.1), entretanto, como era de se esperar, devido ao comportamento aleatrio dos agentes, percebe-se que no existe uma distino muito grande entre as pontuaes mdias finais de cada agentes. A pontuao dos agentes, juntamente com a reputao dos mesmos, ficou distribuda ao redor do valor mdio da populao, ou seja, os valores da mdia de pontuaes dos agentes esto 60
distribudos em torno de mais ou menos um desvio padro (17,8 desvio padro mdio) do valor mdio geral de pontuao dos agentes (202,9 mdia geral das mdias por agente). Podemos verificar que o menor valor mdio de pontuao de um agente foi de 196,3 (agente 5) pontos e o maior valor mdio de pontuao foi de 211,9 (agente 6). Sendo assim, o comportamento 1, que o nosso comportamento base (baseline behavior), faz com que a populao cujo comportamento totalmente descoordenado e sem regras especficas, obter uma pontuao final mdia de 202,9 pontos com um desvio padro de 17,8 pontos. A reputao tambm obteve valores medianos, com uma mdia geral de 55,29 (ver Apndice A.1) e um desvio de 1,03, conforme o esperado. Estes valores sero importantes ao se considerar uma comparao com outras populaes e com outros comportamentos, em relao a este comportamento aleatrio (baseline).
Na simulao 2 todos os agentes traem, onde obtiveram a mesma pontuao em todas as rodadas (ver Apndice A.2), conseqentemente tiveram todos a mesma mdia (90,0 pontos), o mesmo desvio padro (0,0), e ainda a mesma reputao global (10) (ver Apndice A.2). Este resultado est perfeitamente de acordo com o que esperado, pois em cada partida que os agentes realizam contra um outro agente eles ganham uma pontuao baixa devido a traio (note que um agente no realiza uma partida contra si mesmo, por isso sua pontuao totaliza 90 pontos). A reputao tambm baixa, pois em todas partidas o agente traiu.
Na simulao 3, de modo oposto a anterior, todos os agentes sempre cooperam, onde obtiveram a mesma pontuao em todas as rodadas, com isto todos tiveram a mesma mdia (270,0 pontos), o mesmo desvio (0,0), e ainda a mesma reputao global (100) (ver Apndice A.3). Este resultado o esperado, pois em cada partida que os agentes realizam contra um outro agente eles ganham uma pontuao alta pois cooperaram. O agente totaliza 270 pontos por rodada, pois so 9 adversrios, 10 partidas e 3 pontos por partida. A reputao tambm alta, pois em todas partidas o agente cooperou. No h interao.
Na simulao 4, a exemplo da simulao 3, os agentes que consideraram a reputao tambm obtiveram os mesmos resultados dos agentes que sempre cooperaram (ver Apndice A.4). Como os agentes iniciam cooperando, sua reputao boa, e por isso continuam a cooperar. Logo, neste caso, os agentes que consideraram a reputao, por todos terem uma boa reputao, acabaram tendo o mesmo comportamento da simulao 3, ou seja, sempre cooperam. As pontuaes finais e as mdias neste caso so as mesmas da simulao anterior: 270 pontos em mdia por agente.
62
4.1.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos O que se pode analisar nestas 4 simulaes de experimentos homogneos foi: Na simulao 1 (random) os resultados ficaram distribudos em torno dos valores mdios, uma vez que o comportamento dos agentes era aleatrio. A mdia geral das pontuaes dos agentes ficou em 202,93 pontos, com desvio padro de 17,77. As mdias individuais dos agentes aps as 10 rodadas variaram de 196,3 pontos at 211,9 pontos. A reputao tambm ficou com um valor mdio de 55,29 pontos e um desvio de 1,03. O resultado desta simulao servir como referncia para as demais, sendo considerado o nosso comportamento base (baseline behavior); A simulao 2 (sempre trai), em que todos agentes sempre traiam (todos traem a todos), foi a que obteve a menor pontuao (ver Apndice A.2). Os agentes obtiveram todos a mesma mdia de 90,0 pontos, o mesmo desvio padro (zero, sem variao), e ainda a mesma reputao global com 10 pontos para todos (ver Apndice A.2). Constata-se que um comportamento onde todos agentes tendem a trair uns aos outros leva o grupo para o seu pior desempenho, abaixo inclusive da pontuao do baseline. Em conseqncia disto, a reputao de todos tambm ser a mais baixa; As simulaes 3 (sempre coopera) e 4 (c/reputao), comparadas s simulaes 1 e 2, obtiveram as maiores pontuaes e como conseqncia de uma maior cooperao entre os agentes, isto tambm implicou em maiores reputaes (ver Apndice A.3). Na simulao 3 e 4, todos os agentes acabaram agindo da mesma forma, ou seja, sempre cooperando. Na simulao 4, os agentes com reputao alta acabam cooperando entre si, o que levou ao mesmo resultado do comportamento de cooperar sempre da simulao 3 (ver Apndices A.3 e A.4). Nestas duas simulaes, todos agentes ficaram com a mesma mdia (270,0 pontos), o mesmo desvio (0,0), e ainda a mesma reputao global (100); De um modo geral, como as simulaes assumiram populaes com comportamento homogneo (todos agentes iguais) e esttico (o comportamento sempre o mesmo), isto faz com que os resultados reflitam diretamente a forma de pontuar as jogadas definidas para o IPD: traio dupla, pontuao mais baixa; cooperao mtua, pontuao mais alta; comportamento aleatrio, mistura traio com cooperao, ficando entre ambas na pontuao; importante destacar que no PD a maior pontuao possvel obtida quando um agente trai e os seus oponentes cooperam com ele. Este tipo de situao ser 63
analisado em outros experimentos com grupos de agentes que tem comportamentos mistos.
4.2 Experimentos com comportamentos mistos (50% de cada)
4.2.1 Objetivo Demonstrar como se comporta uma populao de agentes dividida em dois grupos constitudos pela mesma quantidade de agentes, tendo cada grupo o seu modo de agir, e avaliar como evolui a pontuao destes agentes neste cenrio. Este experimento permite colocar dois grupos a competir um contra outro, verificando se um tipo de comportamento pode se impor (levar vantagem) sobre o outro. Alm disto, este experimento permite discutir a questo referente a formao de grupos, onde supomos que aps uma interao entre os agentes seja usual a formao de grupos por afinidade, ou seja, de comportamentos similares. Em outro experimento posterior (seo 4.3) vamos realizar simulaes para analisar o impacto da variao do nmero de agentes em cada grupo, aumentando ou diminuindo os agentes de um determinado grupo em 64
relao aos demais. No foi considerada de modo direto a interao entre agentes, onde os agentes possuem um comportamento esttico (sem variaes nas diversas rodadas).
4.2.2 Descrio dos Experimentos Nas simulaes foram utilizados dez agentes e executadas dez rodadas. Na simulao 1 a metade dos agentes possui o comportamento 1 (aleatrio) e a outra metade possui o comportamento 2 (sempre trai); Na simulao 2, a metade dos agentes possui o comportamento 1 (aleatrio) e a outra metade possui o comportamento 3 (sempre coopera); Na simulao 3, a metade dos agentes possui o comportamento 1 (aleatrio) e a outra metade possui o comportamento 4 (alternado); Na simulao 4, a metade dos agentes possui o comportamento 1 (aleatrio) e a outra metade possui o comportamento 5 (trai quem sempre trai); Na simulao 5, a metade dos agentes possui o comportamento 1 (aleatrio) e a outra metade possui o comportamento 6 (usa reputao); Na simulao 6, a metade dos agentes possui o comportamento 2 (sempre trai) e a outra metade possui o comportamento 3 (sempre coopera); Na simulao 7, a metade dos agentes possui o comportamento 2 (sempre trai) e a outra metade possui o comportamento 4 (alternado); Na simulao 8, a metade dos agentes possui o comportamento 2 (sempre trai) e a outra metade possui o comportamento 5 (trai quem sempre trai); Na simulao 9, a metade dos agentes possui o comportamento 2 (sempre trai) e a outra metade possui o comportamento 6 (usa reputao); Na simulao 10, a metade dos agentes possui o comportamento 3 (sempre coopera) e a outra metade possui o comportamento 4 (alternado); Na simulao 11, a metade dos agentes possui o comportamento 3 (sempre coopera) e a outra metade possui o comportamento 5 (trai quem sempre trai); Na simulao 12, a metade dos agentes possui o comportamento 3 (sempre coopera) e a outra metade possui o comportamento 6 (usa reputao); Na simulao 13, a metade dos agentes possui o comportamento 4 (alternado) e a outra metade possui o comportamento 5 (trai quem sempre trai); Na simulao 14, a metade dos agentes possui o comportamento 4 (alternado) e a outra metade possui o comportamento 6 (usa reputao); 65
Na simulao 15, a metade dos agentes possui o comportamento 5 (trai quem sempre trai) e a outra metade possui o comportamento 6 (usa reputao).
TABELA 4.7: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 117,2 114,2 118,0 108,3 116,5 188,8 186,4 191,6 186,8 190,0 151,8 D: 8,68 13,30 10,23 7,47 14,67 14,43 15,94 9,16 16,38 11,73 39,1 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 1 os agentes com comportamento 1 (aleatrio) ficaram com uma pontuao abaixo da mdia geral de 151,8 pontos (de 108 a 118 pontos), e os agentes com comportamento 2 (sempre trai), destacados no Apndice B.1, ficaram com uma pontuao acima da mdia (de 186 a 191 pontos). A reputao dos agentes aleatrios permaneceu como antes, com um valor entre 52 e 55 pontos e os agentes que sempre traem, tambm como antes, ficaram todos com 10 pontos.
TABELA 4.8: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 290,4 293,7 296,0 281,7 290,0 195,6 193,5 198,0 195,6 190,5 242,5 D: 7,75 12,29 16,88 19,15 18,85 11,76 11,16 7,94 5,33 11,64 49,8 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 2 os agentes com comportamento 1 (aleatrio), destacados na Tabela 4.19, ficaram com uma pontuao acima da mdia geral de 242,5 pontos, e os agentes com comportamento 3 (sempre coopera), ficaram com uma pontuao abaixo da mdia. A reputao dos agentes aleatrios permaneceu como antes, com um valor entre 54 e 55 pontos e os agentes que sempre cooperam, tambm como antes, ficaram todos 66
com 100 pontos. As traies aleatrias do comportamento 1 contra o comportamento 2 que sempre coopera responsvel pela pontuao superior destes agentes (ver Apndice B.2).
Na simulao 3 os agentes de comportamento aleatrio e os agentes que alternam de comportamento acabam se comportando de modo similar (ora traem, ora cooperam). A pontuao final de todos agentes fica ao redor do valor mdio geral de 194,4 pontos, ou seja, para os agentes de comportamento 1 os valores de pontuao variam entre 181 e 200 pontos, e para os agentes de comportamento 4 os valores ficam entre 187 e 202 pontos. A reputao, a exemplo das simulaes anteriores, fica no ponto mdio, ou seja, para todos agentes (comportamento 1 ou 4) varia entre 51 e 55 pontos (ver Apndice B.3).
TABELA 4.10: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 286,3 289,2 290,2 286,6 290,7 196,2 200,1 192,3 191,1 195,9 241,9 D: 7,63 15,17 15,06 12,99 15,73 14,15 9,10 7,76 6,98 9,00 48,3 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 4, o comportamento 5 (trai quem sempre trai) acaba equivalente ao comportamento 3 (sempre coopera), pois os oponentes por possurem um comporta- mento aleatrio levam os agentes com comportamento 5 a sempre cooperar, visto que as traies destes no ocorrem sempre de forma contnua. O resultado da simulao 4 (ver Apndice B.4) equivalente ao resultado da simulao 2 (comportamento 1 contra 3, Apndice B.2). 67
TABELA 4.11: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 183,8 177,0 190,8 184,6 188,8 208,2 199,5 204,6 205,2 209,0 195,2 D: 15,70 11,58 5,58 14,89 11,61 20,90 21,63 14,31 9,05 11,18 18,1 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 5 os agentes de comportamento 1 (aleatrio) ficam com uma reputao baixa (entre 51 e 55) (ver Apndice B.5), e como o limiar de reputao do comportamento 6 adotado foi 70, isto faz com que os agentes de comportamento 6 sempre traiam os agentes aleatrios. Os prprios agentes que consideram a reputao tem em certos casos uma reputao baixa por estarem traindo os outros agentes aleatrios, e por isso eles mesmos tambm acabam no cooperando sempre entre si, mas pontuam melhor que os aleatrios.
TABELA 4.12: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 290,0 290,0 290,0 290,0 290,0 120,0 120,0 120,0 120,0 120,0 205,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 85,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 6 os agentes que utilizavam o comportamento 2 (sempre trai) tiveram as pontuaes significativamente maiores (290 pontos) do que os agentes com comportamento 3 (sempre coopera, 120 pontos), e estes agentes receberam as menores reputaes (10) se comparados s reputaes dos agentes de comportamento 3 (100). Os agentes que sempre traem levam vantagem (tiram proveito) quando jogam partidas contra agentes que cooperam sempre de modo independente da ao de seu oponente (ver Apndice B.6).
TABELA 4.13: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 270,0 270,0 270,0 270,0 270,0 85,0 85,0 85,0 85,0 85,0 177,5 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 92,5 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 7 os agentes que utilizavam o comportamento 2 (sempre trai) tiveram as pontuaes significativamente maiores (270) que as pontuaes dos agentes de comportamento 4 (alternado, com 85 pontos) e as menores reputaes (10 pontos) se comparados aos agentes de comportamento 4 (75 pontos). Notamos tambm que nesta simulao os agentes que sempre traem pontuaram menos do que quando disputavam com agentes que sempre cooperavam, conforme apresentado na simulao anterior (ver Apndice B.7).
TABELA 4.14: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 90,0 90,0 90,0 90,0 90,0 170,0 170,0 170,0 170,0 170,0 130,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 40,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 8 os agentes que utilizavam o comportamento 5 (trai quem sempre trai) tiveram as maiores pontuaes e as maiores reputaes se comparados aos agentes de comportamento 2 (sempre trai). Como os agentes de comportamento 5 cooperam entre si, mas traem os agentes que traem eles, acabaram todos eles pontuando mais (170 pontos). Neste caso, o agente que trai sai perdendo devido a reao de seus oponentes (ver Apndice B.8).
TABELA 4.15: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 90,0 90,0 90,0 90,0 90,0 98,0 98,0 98,0 98,0 98,0 94,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 9 os agentes que utilizavam o comportamento 6 (reputao) tiveram as pontuaes um pouco maiores (98 pontos) que seus oponentes de comporta- mento 2 (sempre trai, 90 pontos). Tambm obtiveram as maiores reputaes se comparados aos agentes de comportamento 2, mas cabe ressaltar que a diferena na pontuao e na reputao foi muito pequena entre estes grupos de agentes. Como as reputaes dos agentes de comportamento 6 so baixas (traem muito) eles tambm traem entre si (ver Apndice B.9).
TABELA 4.16: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 120,0 120,0 120,0 120,0 120,0 330,0 330,0 330,0 330,0 330,0 225,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 105,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 10 os agentes que utilizavam o comportamento 4 (alternado) tiveram uma das maiores pontuaes (330) e as reputaes menores (30) se comparados aos agentes de comportamento 3 (sempre coopera, com 120 pontos) (ver Apndice B.10). Novamente, constata-se que realizar traies contra um agente que sempre coopera de modo independente a ao de seu oponente, acaba resultando em uma pontuao superior (ver Apndice B.2), em uma populao com comportamentos mistos.
Na simulao 11 todos os agentes obtiveram os mesmos resultados e atingiram os mesmos valores nas pontuaes (270) e nas reputaes globais (100) (ver Apndice B.11). Esta simulao equivalente a uma simulao onde todos os agentes cooperam (Apndice A.3), pois a metade da populao composta de agentes que sempre cooperam (comportamento 3) e a outra metade vai cooperar sempre, dado que o comportamento 5 s trai aqueles que sempre traem, mas vai cooperar sempre com quem sempre coopera.
Na simulao 12 os agentes obtiveram os mesmos resultados que na simulao anterior, pois todos sempre cooperam entre si. Os agentes de comportamento 3 sempre cooperam e os agentes de comportamento 6 (reputao), acabam tambm sempre cooperando, pois a reputao de todos fica com uma pontuao alta, acima do limiar, em funo de que no ocorrem traies. Todos agentes atingiram valores altos tanto nas suas pontuaes (270), como nas suas reputaes globais (100) (ver Apndice B.12), do mesmo modo que ocorreram nos Apndices A.3 e A.4.
TABELA 4.19: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 330,0 330,0 330,0 330,0 330,0 120,0 120,0 120,0 120,0 120,0 225,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 105,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 13 os agentes que utilizavam o comportamento 4 (alternado) tiveram as maiores pontuaes (330 contra 120 pontos) e as menores reputaes (30 contra 100 pontos) se comparados aos agentes de comportamento 5 (trai quem sempre trai). Os agentes que traem alternadamente levam vantagem (tiram proveito) quando jogam partidas contra agentes que cooperam sempre, como no caso do comportamento 5 nesta simulao que cooperou em todas as partidas (ver Apndice B.13).
TABELA 4.20: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 160,0 160,0 160,0 160,0 160,0 178,0 178,0 178,0 178,0 178,0 169,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 9,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 14 os agentes que utilizavam o comportamento 6 (reputao) tiveram as maiores pontuaes (178 contra 160) e as menores reputaes (34 contra 60) se comparados aos agentes de comportamento 4 (alternado), mas cabe ressaltar que as diferenas na pontuao e de certa forma na reputao foram muito pequenas (ver Apndice B.14). A pontuao mdia de todos agentes foi de 169,0 pontos com um pequeno desvio padro de 9,0. O comportamento 6 acaba traindo quase sempre dadas as baixas reputaes.
Na simulao 15 os agentes obtiveram todos exatamente os mesmos resultados e atingiram os mesmos valores nas pontuaes (270) e nas reputaes globais (100) (ver Apndice B.15). Isto se explica pelo fato do comportamento 5 (trai quem sempre trai), cooperar sempre com agentes que cooperam com ele, e o mesmo ocorre com o comportamento 6 (reputao) que coopera com quem sempre coopera com os demais, e por conseqncia tem alta reputao. Este resultado equivalente ao obtido no Apndice A.3.
4.2.4 Anlise e Discusso Sobre os Resultados das Simulaes dos Experimentos O que se pde constatar atravs destas quinze simulaes de experimentos com comportamentos mistos (50% de cada) foi que: Os agentes de comportamento 1 se sobressaram sobre os agentes de comportamentos 3, 4 e 5, conforme as simulaes 1, 3 e 4 (ver Apndices B.1, B.3 e B.4); Os agentes de comportamento 2 se sobressaram sobre os agentes de comportamentos 1, 3 e 4, conforme as simulaes 1, 6 e 7 (ver Apndices B.1, B.6 e B.7); Os agentes de comportamento 3 obtiveram os mesmos resultados que os agentes de comportamento 5 e 6, conforme as simulaes 11 e 12 (ver Apndices B.11 e B.12); Os agentes de comportamento 4 se sobressaram sobre os agentes de comportamentos 3 e 5, conforme as simulaes 10 e 13 (ver Apndices B.10 e B.13); Os agentes de comportamento 5 se sobressaram sobre os agentes de comportamentos 2, conforme a simulao 8 (ver Apndice B.8), e obtiveram os mesmos 73
resultados que os agentes de comportamento 3 e 6, conforme as simulaes 11 e 15 (ver Apndices B.11 e B.15); Os agentes de comportamento 6 se sobressaram sobre os agentes de comportamentos 1 e 4, conforme as simulaes 1 e 9 (ver Apndices B.1 e B.9), e obtiveram os mesmos resultados que os agentes de comportamento 3 e 5, conforme simulaes 12 e 15 (ver Apndices B.12 e B.15).
Alm disto, em uma anlise mais global, foi possvel constatar que: Comportamentos de traio, quando confrontados com comportamentos que sempre cooperam independentemente do comportamento do seu oponente, tendem a tirar proveito deste tipo de situao, pontuando mais. Quando a reputao no considerada, aqueles que traem pontuam mais do que os que cooperam; Comportamentos de traio so prejudicados quando todos traem ou quando existe um conjunto de agentes que buscam penalizar as traies, como o caso dos comportamento 5 e 6, que acabam pontuando mais; Comportamentos de cooperao, quando confrontados com comportamentos que sempre traem, ou que traem de forma espordica tendem a pontuar menos que estes. Constata-se uma grande importncia do limiar de tolerncia para traies de agentes que penalizam as traies, como o comportamento 5 (s no tolera a traio contnua em todas jogadas) e o comportamento 6 (que considera a reputao e depende do limiar adotado); Comportamentos que consideram a reputao podem acabar tendo uma avaliao prejudicada onde os agentes que usam a reputao, ou algum outro mecanismo de avaliao dos oponentes, ficam penalizando (traindo) os agentes que usualmente traem os demais. A quantidade de agentes que traem em relao ao total de demais agentes, e o limiar de reputao adotado so fatores decisivos neste tipo de situao. Em funo disto, no prximo experimento iremos analisar justamente este tipo de situao, onde a distribuio dos agentes varia ao longo do tempo; Uma pontuao superior (mais alta) pode ser alcanada por agentes que traem esporadicamente seus oponentes, quando estes seus oponentes permanecem sempre cooperando. Isto pode ser observado pelas altas pontuaes dos comportamentos 1 e 4 quando confrontados aos comportamentos do tipo coopera 74
sempre, como o 3 e o 5. Uma pontuao alta tambm obtida pelo comportamento 2 quando confrontado com o 3. Um outro tipo de anlise pode ser feito em relao pontuao mdia global de toda a populao de agentes, a denominada mdia geral apresentada junto a tabela de mdias de cada agente aps as 10 rodadas. Esta pontuao permite comparar quando uma populao se beneficia mais como um todo, alcanando uma mdia geral maior. Podemos dizer que este valor indica o ganho coletivo: quanto mais alta esta mdia, maior o ganho coletivo. Um ganho individual elevado pode no contribuir para que o grupo como um todo tenha um ganho maior. Os resultados da mdia geral esto resumidos listados a seguir: Simulao 1 = 151,8; Simulao 2 = 242,5; Simulao 3 = 194,4; Simulao 4 = 241,9; Simulao 5 = 195,2; Simulao 6 = 205,0; Simulao 7 = 177,5; Simulao 8 = 130,0; Simulao 9 = 94,0; Simulao 10 = 225,0; Simulao 11 = 270,0; Simulao 12 = 270,0; Simulao13 = 225,0; Simulao 14 = 169,0; Simulao 15 = 270,0 (ver Apndices B.1 ao B.15). Podemos constatar que as simulaes 11, 12 e 15 (ver Apndices B.11, B.12 e B.15) so as que tm uma melhor contribuio coletiva para todos os agentes (270 pontos), onde estas so simulaes onde a cooperao a ao que predomina. Por outro lado, as simulaes 10 e 13 (ver Apndices B.10 e B.13) que tiveram uma alta pontuao (330 pontos) por parte dos agentes de comportamento 4 (alternado), no foram to benficas para o grupo como um todo, pois a mdia final ficou em 225 pontos para toda a populao. A pior pontuao foi a da simulao 9 (ver Apndice B.9), onde ocorreu um grande nmero de traies, resultantes do comportamento 2 (sempre trai) e do comportamento 6 (reputao), que considerou todos com uma reputao baixa.
4.3 Experimentos com comportamentos comparando quando a quantidade de agentes de um tipo varia
4.3.1 Objetivo Demonstrar como se comporta uma populao de agentes que varia a quantidade de indivduos de um determinado comportamento a cada rodada, e como evolui a pontuao destes agentes. Com isto, nosso objetivo verificar como se comportam os grupos de agentes de mesmo comportamento quando a quantidade de agentes em cada grupo varia. Atravs da alterao da composio da populao e dos grupos podemos verificar o efeito da mudana de comportamento, onde a populao aumenta ou diminui a quantidade de agentes com um mesmo tipo de comportamento. Este tipo de mudana da composio da populao, com agentes que passam de um grupo para outro (mudam de comportamento) tpico em sociedades onde existe uma interao entre agentes, com agentes que influenciam outros agentes a mudar de comportamento. Conforme foi discutido na seo anterior, a quantidade de agentes que traem em relao ao total de demais agentes um fator decisivo no jogo quando est sendo adotado um comportamento que considera a reputao, sendo esta pontuao tambm afetada tambm pelo limiar de reputao adotado. Em funo disto, neste experimento iremos analisar justamente este tipo de situao, onde a distribuio dos agentes varia ao longo do tempo e existe um grupo de agentes que consideram a reputao (comportamento 6) na tomada de deciso de suas aes. As simulaes deste experimento no consideraram as interaes de modo direto, mas os resultados das simulaes nos permitem inferir como se comportar a populao quando houver interaes e mudanas de comportamentos dos agentes.
4.3.2 Descrio dos Experimentos Nas simulaes foram utilizados dez agentes e executadas dez rodadas: Na simulao 1 foi utilizado um agente com o comportamento 1 e nove agentes com o comportamento 6; Na simulao 2, foram utilizados dois agentes com o comportamento 1 e oito agentes com o comportamento 6; 76
Na simulao 3 foram utilizados trs agentes com o comportamento 1 e sete agentes com o comportamento 6; Na simulao 4 foram utilizados quatro agentes com o comportamento 1 e seis agentes com o comportamento 6; Na simulao 5 foi utilizados um agente com o comportamento 2 e nove agentes com o comportamento 6; Na simulao 6 foram utilizados dois agentes com o comportamento 2 e oito agentes com o comportamento 6; Na simulao 7 sero utilizados trs agentes com o comportamento 2 e sete agentes com o comportamento 6; Na simulao 8 foram utilizados quatro agentes com o comportamento 2 e seis agentes com o comportamento 6. Destacamos que j foram apresentados os resultados de simulaes onde existe uma populao dividida meio a meio, com comportamentos do tipo 1, 2 e 6: Experimento 2 - Simulao 5 (agentes com comportamento 1 e comportamento 6) e Experimento 2 Simulao 9 (agentes com comportamento 2 e comportamento 6). Alm disto tambm j foram apresentados experimentos onde todo o grupo de agentes possui o mesmo comportamento, descritos na seo 4.1: Experimento 1, simulaes 1, 2 e 4.
Na simulao 1 os nove agentes que tinham o comportamento 6 (reputao) tiveram as maiores pontuaes (de 258 a 261 pontos) e as maiores reputaes globais (de 93 a 94 pontos) se comparados ao agente de comportamento 1 (aleatrio) (ver Apndice C.1). O agente de comportamento 1 ficou com 179,4 pontos em mdia e 77
reputao de 54,7 pontos (ver Apndice C.1), abaixo portanto da mdia alcanada pelos demais agentes e abaixo da mdia geral.
TABELA 4.24: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 184,3 183,8 251,2 248,4 251,6 251,0 248,8 252,0 249,4 250,6 237,1 D: 9,96 11,44 3,12 2,50 3,07 4,12 2,86 4,73 3,10 3,58 27,2 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 2 os oito agentes que tinham o comportamento 6 (reputao) tiveram as maiores pontuaes (de 248 a 251 pontos, entretanto um pouco abaixo da pontuao da simulao 1) e as maiores reputaes globais (de 89 a 90 pontos) se comparados ao agente de comportamento 1 (aleatrio) (ver Apndice C.2). Ressaltamos que comparado simulao 1, as pontuaes e as reputaes diminuram nos agentes de comportamento 6 e aumentaram nos agentes de comportamento 1. A agente 1 obteve 184 pontos e o agente 2 obteve 183 pontos, com reputaes de 55 e 56 pontos respectivamente. (ver Apndices C.1 e C.2)
TABELA 4.25: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 191,3 187,5 181,2 239,6 239,6 238,3 239,2 239,2 241,6 242,8 224,0 D: 10,41 6,38 12,25 6,50 4,88 5,33 2,04 4,92 3,88 3,92 25,5 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 3, novamente os sete agentes que tinham o comportamento 6 tiveram as maiores pontuaes e as maiores reputaes globais se comparados aos trs agentes de comportamento 1 (ver Apndice C.3). Ressaltando que as pontuaes e as reputaes dos agentes de comportamento 6 tambm diminuram se comparadas s simulaes 1 e 2. (ver Apndices C.1, C.2 e C.3)
TABELA 4.26: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 193,0 182,3 186,6 186,3 228,7 227,1 231,9 226,7 222,2 228,2 211,3 D: 12,81 8,72 11,05 8,15 5,29 5,77 4,91 11,42 12,66 14,65 22,5 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 4 os seis agentes que tinham o comportamento 6 tiveram as maiores pontuaes e as maiores reputaes globais se comparados aos quatro agentes de comportamento 1 (ver Apndice C.4). Ressaltando que as pontuaes e as reputaes dos agentes de comportamento 6 tambm diminuram se comparadas s simulaes 1, 2 e 3. (ver Apndices C.1, C.2, C.3 e C.4)
TABELA 4.27: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 90,0 250,0 250,0 250,0 250,0 250,0 250,0 250,0 250,0 250,0 234,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 48,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 5 os nove agentes que utilizaram o comportamento 6 (reputao) tiveram todos os mesmos valores de pontuao (250 pontos) e de reputao (90 pontos), se sobressaindo sobre o agente que utilizou o comportamento 2 (sempre trai, que obteve 90 pontos e reputao 10 em todas rodadas). (ver Apndice C.5)
TABELA 4.28: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 90,0 90,0 230,0 230,0 230,0 230,0 230,0 230,0 230,0 230,0 202,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 56,0 *Nmeros destacados em negrito so as pontuaes acima da mdia 79
Na simulao 6 os oito agentes que utilizaram o comportamento 6 (reputao) tiveram todos os mesmos valores de pontuao (230 pontos) e de reputao (80 pontos), se sobressaindo sobre os dois agentes que utilizaram o comportamento 2 (sempre trai, que obtiveram ambos 90 pontos e reputao com 10 pontos em todas rodadas, exatamente como ocorreu na simulao anterior) (ver Apndice C.6). Ressaltamos que a pontuao e a reputao dos agentes com comportamento 6 caiu em relao simulao 5, onde no exemplo anterior havia apenas 1 agente com comportamento 2 (sempre trai). (ver Apndice C.5 e C.6)
TABELA 4.29: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 90,0 90,0 90,0 210,0 210,0 210,0 210,0 210,0 210,0 210,0 174,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 55,0 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 7 os sete agentes que utilizaram o comportamento 6 tiveram os mesmos valores de pontuao (210) e reputao (70), se sobressaindo sobre os trs agentes que utilizaram o comportamento 2, que tambm tiveram os mesmos resultados de pontuao (90) e reputao (10) (ver Apndice C.7). Ressaltamos que, se comparadas s simulaes 5 e 6, a pontuao e a reputao dos agentes de comportamento 6 diminuiu, e a dos agentes de comportamento 2 se manteve igual, sem alteraes. (ver Apndices C.5, C.6 e C.7)
TABELA 4.30: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia M: 90,0 90,0 90,0 90,0 100,0 100,0 100,0 100,0 100,0 100,0 96,0 D: 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,9 *Nmeros destacados em negrito so as pontuaes acima da mdia
80
Na simulao 8 os seis agentes que utilizaram o comportamento 6 tiveram os mesmos valores de pontuao (100) e reputao (15), se sobressaindo um pouco sobre os quatro agentes que utilizaram o comportamento 2, que tambm tiveram os mesmos resultados de pontuao (90) e reputao (10) (ver Apndice C.8). Ressaltamos que, se comparadas s simulaes 5, 6 e 7, a pontuao e reputao dos agentes de comportamento 6 caiu bastante (traiu mais), e a dos agentes de comportamento 2 se manteve igual, sem alterao. A reputao dos agentes de comportamento 6 diminuiu bastante devido ao limiar adotado. (ver Apndices C.5, C.6, C.7 e C.8)
4.3.4 Anlise e Discusso Sobre os Resultados dos Experimentos O que se pode analisar atravs destas oito simulaes de experimentos com comportamentos comparando quando a quantidade de agentes de um tipo varia : Nas simulaes 1, 2, 3 e 4, onde o nmero de agentes com o comportamento 1 variava a cada simulao, podemos observar que os agentes de comportamento 6 se sobressaram sobre os agentes de comportamento 1, mas que suas parcelas de pontuao e reputao foram diminuindo (ver Apndices C.1, C.2, C.3 e C.4); Nas simulaes 5, 6, 7, e 8, onde o nmero de agentes com o comportamento 2 variava a cada simulao, podemos observar que os agentes de comportamento 6 se sobressaram sobre os agentes de comportamento 2, mas que suas parcelas de pontuao e reputao tambm foram diminuindo, enquanto as dos demais se mantinham iguais (ver Apndices C.5, C.6, C.7 e C.8); Na simulao 8 tivemos uma peculiaridade que foi o fato das parcelas de pontuao e reputao dos agentes de comportamento 6 diminurem e ficarem prximas s parcelas dos agentes de comportamento 2 (ver Apndice C.8). Alm disto, em uma anlise mais global, foi possvel constatar que: Comportamentos baseados em reputao tendem a pontuar mais, entretanto isso depende do limiar adotado, que no caso de nossas simulaes foi ajustado para 70. Em nossas simulaes constatamos que quanto mais agentes com comportamentos que considerem a reputao, mais estes tm chance de pontuar acima dos comportamentos que incluem a traio, como o comportamento 1 (aleatrio) e 2 (sempre trai); Comportamentos baseados em reputao podem vir a praticamente empatar, em termos de pontuao, com um comportamento de traio, o que ocorreu em nossas simulaes onde os grupos de agentes eram divididos meio a meio: Experimento 2, simulao 5 e 9 (ver Apndices B.5 e B.9); 81
Comportamento 2 (sempre traio), no aumenta nem diminui sua pontuao quando confrontado com comportamentos que penalizam a traio, a exemplo do comportamento 6 (reputao). A pontuao do comportamento 2 no Experimento 3, para 1, 2, 3, 4 ou at 5 agentes foi sempre a mesma: 90 pontos (o que se explica, pois em todas disputas ambos agentes se traem). Nestas mesmas situaes, a pontuao mdia de todo o grupo, a mdia geral, cai medida que o nmero de agentes com comportamento 2 cresce de 234 pontos para 1, 202 para 2, 174 para 3, e chegando a 96 para 4 agentes (ver Apndices C.5, C.6, C.7 e C.8). Portanto, algumas das concluses que podemos tirar destes experimentos so: Manter o sistema desorganizado, com agentes que no possuem uma estratgia definida (ou que cooperam sempre) uma estratgia que beneficia aqueles que traem. Quanto mais agentes do tipo que cooperam existir, desde que estes no se organizem a fim de penalizar os agentes que traem, melhor para os agentes que sempre traem. Este tipo de estratgia poderia ser usado por agentes que queiram influenciar os demais. Note que se todos traem, mesmo os agentes que traem saem perdendo, e quanto mais agentes que traem, tambm pior para estes agentes; A pontuao mxima que pode ser obtida nas simulaes ocorre quando um agente nico sempre trai onde todos os demais sempre cooperam, inclusive com ele. Em uma simulao realizada com um agente de comportamento 2 e nove agentes de comportamento 3 (Simulao 2 3 3 3 3 3 3 3 3 3) constatou-se que o agente que sempre trai (comportamento 2) pontua sempre 450 pontos e os agentes que sempre cooperam (comportamento 3) pontuam sempre 240 pontos; Uma situao similar a descrita logo acima, com apenas 1 agente que sempre trai, mas onde os demais agentes cooperam apenas se a reputao do oponente for boa, conforme foi avaliado no Experimento 3, Simulao 5 (Simulao 2 6 6 6 6 6 6 6 6 6), constata-se que o agente que sempre trai obtm uma pontuao mnima de 90 pontos (ver Apndice C.5). Logo, algumas importantes concluses que podemos tirar destes experimentos 3
so de que: (i) ser sempre bonzinho (cooperar) pode no ser uma boa estratgia se temos agentes que traem e tiram proveito desta situao; (ii) ser sempre mau (traidor) uma boa estratgia quando a sociedade (populao e grupos) no se encontra organizada e os agentes no penalizam as traies de forma mais coordenada e forte; (iii) ser sempre
3 Todos estes resultados derivaram de simulaes numricas do PD, no sendo meras especulaes. 82
mau (traidor) vantajoso se o nmero de traidores no muito superior aos demais, logo, quanto menos traidores, em um sistema que no penaliza estes, melhor para eles; (iv) para maximizar o bem comum para toda a sociedade, ou seja, para maximizar a pontuao mdia geral, a melhor estratgia forar que os agentes atuem de modo organizado, cooperando para penalizar e reduzir o nmero de agentes que traem, at que todos possam cooperar sempre entre si: quanto mais agentes que consideram a reputao em suas decises, e que prezam por uma boa reputao, melhor ser para todos do grupo de um modo geral. Todas estas concluses enfatizam a importncia das interaes e das influncias que um agente pode exercer sobre o comportamento dos demais.
4.4.1 Objetivo Demonstrar como se comporta uma populao de agentes com comportamentos misturados, e como evolui a pontuao destes agentes. Uma vez que j foram feitas simulaes para analisar o comportamento de populaes com apenas 2 grupos de agentes, resta analisar ainda se populaes com diversos grupos de agentes, cada um com seu comportamento prprio, possuem tambm propriedades iguais, ou pelo menos prximas, das propriedades apresentadas nas simulaes anteriores. 83
As simulaes deste experimento no consideraram as interaes de modo direto, mas os resultados das simulaes nos permitem inferir como se comportar a populao quando houver interaes e mudanas de comportamentos dos agentes.
4.4.2 Descrio dos Experimentos Nas simulaes foram utilizados dez agentes em dez rodadas: Na simulao 1 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 3 e trs com o comportamento 4; Na simulao 2 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 3 e trs com o comportamento 5; Na simulao 3 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 3 e trs com o comportamento 6; Na simulao 4 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 4 e trs com o comportamento 5; Na simulao 5 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 4 e trs com o comportamento 6; Na simulao 6 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 2, trs agentes com o comportamento 5 e trs com o comportamento 6; Na simulao 7 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 3, trs agentes com o comportamento 4 e trs com o comportamento 5; Na simulao 8 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 3, trs agentes com o comportamento 4 e trs com o comportamento 6; Na simulao 9 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 3, trs agentes com o comportamento 5 e trs com o comportamento 6; 84
Na simulao 10 foram utilizados um agente com o comportamento 1, trs agentes com o comportamento 4, trs agentes com o comportamento 5 e trs com o comportamento 6.
TABELA 4.32: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 194,4 341,2 338,0 336,0 73,5 72,9 73,7 216,6 218,6 220,3 208,5 D: 12,14 4,66 5,93 7,85 5,41 4,85 4,80 7,39 8,56 5,59 103,2 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 1 os agentes de comportamento 2 (sempre trai) tiveram as maiores pontuaes (entre 336 e 341 pontos) e as menores reputaes (10), enquanto que os agentes de comportamento 3 (sempre coopera) tiveram as maiores reputaes (100) e as menores pontuaes (entre 72 e 73 prontos) (ver Apndice D.1). Os agentes de comportamento 2 e 4 ficaram acima da mdia geral e os de comportamento 1 e 3 ficaram abaixo da mdia.
TABELA 4.33: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 255,5 228,4 231,6 231,2 164,7 162,6 166,2 195,6 195,9 193,8 202,6 D: 8,32 6,50 5,12 3,60 5,60 5,16 3,34 4,61 4,46 2,75 31,5 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 2 o agente de comportamento 1 (aleatrio) obteve a maior pontuao (255,5 pontos), seguido bem de perto dos agentes de comportamento 2 (sempre trai) com pontuaes entre 228 e 231 pontos, sendo que ambos ficaram acima da mdia geral. Os agentes de comportamento 3 (piores pontuaes) e os de comportamento 5 ficaram abaixo da mdia. Os agentes de comportamento 3 tiveram as 85
maiores reputaes, enquanto que os agentes de comportamento 2 tiveram as menores (ver Apndice D.2).
TABELA 4.34: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 191,1 232,8 229,6 230,4 164,1 162,0 163,5 193,5 190,4 193,2 195,1 D: 3,01 3,12 2,80 4,54 4,66 4,24 3,85 10,44 8,36 9,52 27,1 *Nmeros destacados em negrito so as pontuaes acima da mdia
Na simulao 3 o agente 1 foi o que mais traiu e obteve oito vitrias e a maior pontuao (232,8 pontos). Os agentes de comportamento 2 (sempre trai) tiveram as maiores pontuaes, onde apenas estes agentes ficaram acima da mdia global, e as menores reputaes (10 pontos), enquanto que os agentes de comportamento 3 tiveram as maiores reputaes e as menores pontuaes (ver Apndice D.3).
Na simulao 4 os agentes 0 6 (comportamentos 1, 2 e 4) tiveram as maiores pontuaes, com uma pequena superioridade para o comportamento 2 (sempre trai). Os agentes de comportamento 5 foram os que tiveram as maiores reputaes (70), porm, com as menores pontuaes, sendo os nicos que tiveram pontuaes abaixo da mdia geral. Os agentes de comportamento 2 tiveram as menores reputaes (10) (ver Apndice D.4).
Na simulao 5 os agentes de comportamento 2 foram os que tiveram as maiores pontuaes (entre 204 e 219) e as menores reputaes (10), ficando bem acima da mdia geral. Estes foram seguidos pelos agentes de comportamento 6, que ficaram com uma pontuao inferior (entre 164 e 169), porm, ainda acima da mdia. Os demais comportamentos (1 e 4) ficaram abaixo da mdia. Os agentes de comportamento 4 tiveram as maiores reputaes, em torno de 70 pontos (ver Apndice D.5).
Na simulao 6 a pontuao foi bem distribuda, mas predominaram os agentes de comportamento 1, 5 e 6, com pontuaes acima da mdia. Apenas os agentes de comportamento 2 ficaram com as pontuaes mais baixas e abaixo da mdia geral. Os agentes de comportamento 5 foram os que tiveram as maiores reputaes (70), enquanto os de comportamento 2 tiveram as menores (10) (ver Apndice D.6).
Na simulao 7 o agente 5 (comportamento 4) foi o que mais traiu (pior reputao, com 23,6 pontos) e obteve mais pontos com seis vitrias (367,8 pontos). Os agentes de comportamento 4 foram os que tiveram as maiores pontuaes e as menores reputaes, enquanto os de comportamento 3 e 5 tiveram as maiores reputaes (100) e as menores pontuaes, ficando todos estes abaixo da mdia geral (ver Apndice D.7).
Na simulao 8 o agente 6 foi o que mais traiu (pior reputao) e o que obteve a maior pontuao (272,5 pontos) com quatro rodadas em que venceu. Os agentes de comportamento 4 foram os que tiveram as maiores pontuaes (entre 270 e 272 pontos) e as menores reputaes (entre 38 e 39), porm um agente de comportamento 1 e um nico agente de comportamento 6 ficaram com pontuaes acima da mdia. Os agentes de comportamento 6 ficaram praticamente sobre a mdia geral. Os agentes de comportamento 3 tiveram as maiores reputaes (100) (ver Apndice D.8).
Na simulao 9 o agente 0 (comportamento 1) foi o que mais traiu (pior reputao) e o que obteve vitria em todas as rodadas, com a maior pontuao (295,8 pontos), sendo o nico agente a pontuar acima da mdia geral. Os agentes de comportamento 3 e 5 tiveram as maiores reputaes (100), onde os agentes de 88
comportamento 6 tambm tiveram uma reputao bem prxima a esta (entre 94 e 95) (ver Apndice D.9).
Na simulao 10 os agentes de comportamento 4 foram o que mais traram (reputao mais baixa com 40 pontos) e obtiveram as melhores pontuaes (entre 265 e 266 pontos), bem acima da mdia. O agente com comportamento 1 tambm ficou acima da mdia geral, assim como um nico agente de comportamento 6 (o agente 9), que ficou pouco acima da mdia geral. Os agentes de comportamento 6 ficaram quase sobre a mdia geral. Os agentes de comportamento 5 tiveram as maiores reputaes (100) (ver Apndice D.10).
4.4.4 Anlise e Discusso Sobre os Resultados dos Experimentos O que se pode analisar atravs destas dez simulaes de experimentos com comportamentos misturados foi: Nas simulaes 1, 2, 3, 4 e 5, em que os agentes de comportamento 2 enfrentaram os agentes de diversos comportamentos, eles sempre pontuaram mais, mas cabe ressaltar que nestas simulaes havia sempre poucos agentes com comportamentos que penalizavam os agentes que traem (ver Apndices D.1, D.2, D.3, D.4 e D.5); Nas simulaes 2 e 9, em que os agentes de comportamento 1 enfrentaram agentes de comportamento 3, 5 e 6, eles foram vitoriosos pontuando mais (ver Apndices D.2 e D.9); Na simulao 6, em que os agentes de comportamento 6 e 5 enfrentaram os agentes de comportamento 2, os agentes de comportamento 6 e 5 foram vitoriosos e pontuaram mais, apesar de que o nico agente de comportamento 1 ter pontuado mais que todos os outros (ver Apndice 6); 89
Nas simulaes 7 e 8, em que os agentes de comportamento 4 enfrentaram os agentes de comportamento 3, 5 e 6, eles foram vitoriosos com maior pont uao (ver Apndices D.7 e D.8). De um modo geral foi possvel constatar com estas simulaes de populaes com grupos misturados de agentes e comportamentos que: Em diversas simulaes os agentes que possuam reputaes mais baixas acabavam obtendo pontuaes mais elevadas do que os demais, o que caracteriza o fato de no estarem sendo penalizados de forma sistemtica pelos demais agentes em funo de suas traies; Em diversas simulaes a mistura de comportamentos privilegiou os agentes que possuam um comportamento que inclusse a traio, resultante provavelmente do fato de que a populao no possua uma organizao que privilegiasse uma maior punio destes agentes.
4.5 Experimentos com comportamentos mistos com interao
4.5.1 Objetivo Demonstrar como se comporta uma populao de agentes que possuem comportamentos diversos e analisar a pontuao destes agentes aps diversas rodadas incluindo a interao entre eles.
4.5.2 Descrio dos experimentos Na simulao foram utilizados dez agentes e executadas dez rodadas tanto do IPD, quanto do Simulador de Interaes. As simulaes do Simulador de Interaes levaram 5 min. em cada rodada. Na simulao 1 e nica foram utilizados dois agentes de comportamento 1, dois agentes de comportamento 2, dois agentes de comportamento 3, dois agentes de comportamento 5 e dois agentes de comportamento 6.
TABELA 4.43: Mdia (M) e Desvio Padro (D) de cada Agente aps as 10 rodadas Agente 0 1 2 3 4 5 6 7 8 9 Mdia Geral M: 239,2 233,8 209,6 207,2 181,5 179,1 197,3 194,9 210,4 213,8 206,7 D: 7,33 10,38 6,31 9,13 5,41 7,83 7,40 4,46 5,26 3,52 19,9 *O maior e menor valor esto em negrito
Na simulao 1 os agentes de comportamento 2 (sempre trai) foram o que mais traram (com a reputao mais baixa com 30 pontos), e os agentes de comportamento 1 obtiveram as melhores pont uaes (mdia de 239,2 e 233,8 pontos), bem acima da mdia geral. Os agentes com comportamento 2 e 6 tambm ficaram acima da mdia geral. Os agentes de comportamento 3 e 5 tiveram as maiores reputaes (ver Apndice E.1).
4.5.4 Anlise e Discusso Sobre os Resultados dos Experimentos O que se pode analisar atravs desta simulao de experimentos com comportamentos mistos com interao foi: Que os agentes de comportamento 1 enfrentaram os agentes de diversos comportamentos e sempre pontuaram mais, devido ao auxilio dos comportamentos 5 e 6 que penalizavam os agentes de comportamento 2.
De um modo geral foi possvel constatar com esta simulao de populaes com grupos mistos de comportamentos de agentes que: Em diversas simulaes os agentes que possuam reputaes mais baixas no acabavam obtendo pontuaes mais elevadas do que os demais, pois estavam sendo penalizados de forma sistemtica pelos demais agentes, que utilizavam da cooperao; Em diversas simulaes a mistura de comportamentos privilegiou os agentes que possuam um comportamento aleatrio, resultante provavelmente do fato de que a populao no possua uma organizao que privilegiasse uma maior punio destes agentes; 91
Um maior nmero de experimentos deste tipo precisaria ser realizado para que pudessem ser tiradas concluses mais apuradas sobre a influncia da interao no comportamento e na evoluo da reputao dos agentes.
4.6 Discusso Final Sobre os Experimentos Nossos experimentos foram bem produtivos, isto , nos levaram a grandes concluses que sero mostradas a seguir:
Experimentos Homogneos: Analisamos a simulao baseline, utilizada pelo comportamento aleatrio; Constatamos que um comportamento onde todos agentes tendem a trair uns aos outros leva o grupo para o seu pior desempenho; Verificamos que os agentes que cooperam jogando contra agentes que cooperam com reputao, tero os mesmos resultados de pontuao e reputao, favorecendo assim o bom desempenho na partida; As simulaes tiveram resultados que refletiram diretamente na forma de pontuar as jogadas definidas para o IPD. A maior pontuao possvel obtida quando um agente trai e todos os seus oponentes cooperam com ele.
Experimentos com comportamentos mistos (50% de cada): Comportamentos de traio, quando confrontados com comportamentos que sempre cooperam independentemente do comportamento do seu oponente, tendem a pontuar mais. Quando a reputao no considerada, aqueles que traem pontuam mais do que os que cooperam; Comportamentos de traio so prejudicados quando todos traem ou quando existe um conjunto de agentes que buscam penalizar as traies; Comportamentos de cooperao, quando confrontados com comportamentos que sempre traem, ou que traem de forma espordica tendem a pontuar menos que estes; Comportamentos que cooperam, mas que consideram a reputao podem acabar tendo uma avaliao prejudicada, pois podem ficar penalizando (traindo) os agentes que usualmente traem os demais e acabam eles prprios com uma baixa reputao tambm; 92
Uma pontuao superior (mais alta) pode ser alcanada por agentes que traem esporadicamente seus oponentes, quando estes seus oponentes permanecem sempre cooperando. Uma pontuao alta tambm obtida pelo comportamento 2 quando confrontado com o 3; Um outro tipo de anlise pde ser feita em relao pontuao mdia global de toda a populao de agentes, a denominada mdia geral. Quanto mais alta a mdia, maior o ganho coletivo. Um ganho individual elevado pode no contribuir para que o grupo como um todo tenha um ganho maior.
Experimentos com comportamentos comparando quando a quantidade de agentes de um tipo varia: Comportamentos baseados em reputao tendem a pontuar mais, entretanto isso depende do limiar adotado. Em nossas simulaes constatamos que quanto mais agentes com comportamentos que considerem a reputao, mais estes tm chance de pontuar acima dos comportamentos que incluem a traio; Comportamentos baseados em reputao podem vir a praticamente empatar, em termos de pontuao, com um comportamento de traio, onde os grupos de agentes foram divididos meio a meio; Comportamento 2 (sempre traio), no aumenta nem diminui sua pontuao quando confrontado com comportamentos que penalizam a traio; Manter o sistema desorganizado, com agentes que no possuem uma estratgia definida (ou que cooperam sempre) uma estratgia que beneficia aqueles que traem. Quanto mais agentes do tipo que cooperam existir, desde que estes no se organizem a fim de penalizar os agentes que traem, melhor para os agentes que sempre traem; A pontuao mxima individual que pode ser obtida nas simulaes ocorre quando um agente nico sempre trai onde todos os demais sempre cooperam, inclusive com ele; Usualmente a pontuao mxima coletiva ser obtida quando todos os agentes cooperarem entre si e a pontuao mnima coletiva ser obtida quando todos os agentes trarem entre si.
93
Experimentos com comportamentos misturados: Em diversas simulaes os agentes que possuam reputaes mais baixas acabavam obtendo pontuaes mais elevadas do que os demais, o que caracteriza o fato de no estarem sendo penalizados de forma sistemtica pelos demais agentes em funo de suas traies; Em diversas simulaes a mistura de comportamentos privilegiou os agentes que possuam um comportamento que inclusse a traio, resultante provavelmente do fato de que a populao no possua uma organizao que privilegiasse uma maior punio destes agentes.
Experimentos com comportamentos mistos com interao: Em diversas simulaes os agentes que possuam reputaes mais baixas no acabavam obtendo pontuaes mais elevadas do que os demais, pois estavam sendo penalizados de forma sistemtica pelos demais agentes, que utilizavam da cooperao; Em diversas simulaes a mistura de comportamentos privilegiou os agentes que possuam um comportamento aleatrio, resultante provavelmente do fato de que a populao no possua uma organizao que privilegiasse uma maior punio destes agentes; Um maior nmero de experimentos deste tipo precisaria ser realizado para que pudessem ser tiradas concluses mais apuradas sobre a influncia da interao no comportamento e na evoluo da reputao dos agentes.
94
Captulo 5 Concluses e Perspectivas O propsito deste trabalho foi propor, estudar, simular e avaliar o modelo multi- agente cooperativo desenvolvido. Para atingirmos este objetivo, foram pesquisados os conceitos de Agentes e Sistema Multi- Agente (grupos e crowds), IPD (Iterated Prisoners Dilemma), Reputao, e Jogos Administrativos. Alm disto, uma extensa pesquisa sobre tcnicas do estado-da-arte relacionadas a estes temas foi realizada, na qual foram investigados vrios trabalhos sobre os principais temas desta dissertao, dentre eles o trabalho de Baranski et al. [2006]. Este trabalho um dos mais importantes relacionados ao tema desta dissertao, sendo uma pesquisa que apresenta resultados de estudos extensivos de simulao no Dilema do Prisioneiro Iterado, implementados atravs de dois modelos: um modelo no grupal a fim de estudar os princpios fundamentais da cooperao e um modelo para imitar o etnocentrismo. Nesta dissertao, de modo similar ao trabalho de Baranski et al. [2006], usamos o problema do IPD e a formao de grupos, porm focamos nosso estudo nas questes relativas ao uso da reputao e sobre o impacto da interao entre agentes que pode levar a criao dinmica de grupos e mudanas de comportamento. Alm disto, tambm foi proposto um conjunto de comportamentos bem particular e bem definido que foi aplicado em nossos experimentos. Atravs deste estudo foi proposta a avaliao experimental de um modelo multi- agente considerando a cooperao (e a traio) e sendo aplicado ao problema do IPD, implementado sob a forma de um MA-IPD (Multi-Agent Iterated Prisoners Dilemma). O simulador do IPD foi criado de forma a simular a evoluo do comportamento dos agentes em um sistema multi-agente. Esta combinao IPD + Modelo de Comportamento + Interao Entre Agentes permitiu que fossem consideradas questes relacionadas com: (i) a reputao, a personalidade e a formao de grupos de agentes; (ii) o impacto de um determinado comportamento no desempenho dos agentes, 95
considerados individualmente, em grupo ou como um todo; (iii) a busca da melhoria do comportamento dos agentes atravs da evoluo do conjunto de regras (estratgia). Alm disto, junto a este trabalho foram implementadas duas ferramentas de simulao que permitiram testar e avaliar as questes estudadas e relacionadas acima: Implementar um simulador para o problema do IPD (Iterated Prisoners Dilemma), considerando um sistema multi-agente (MA- IPD Simulation); Implementar um simulador para o estudo da interao entre agentes (agente x agente), que permita sua integrao junto ao simulador do IPD. Os resultados obtidos em diversas simulaes ficaram dentro do previsto, validando assim a implementao. Por exemplo, em simulaes onde todos agentes possuem o mesmo comportamento e este comportamento esttico (no muda de uma rodada para outra sem interao), verificou-se que a pontuao final dos agentes coerente com a pontuao padro adotada no PD, bem como a reputao tambm indica de modo coerente como o agente se comportou. Alm destas simulaes, diversas outras simulaes nos apresentaram resultados que no eram to bvios e previsveis como estes primeiros, permitindo assim que chegssemos a uma srie de concluses interessantes levantadas a partir dos resultados prticos obtidos. Determinados resultados provaram que a unio faz a fora, e, outros ainda, que nem sempre trair a melhor escolha (ainda mais quando se considera a reputao). Por outro lado, demonstraram tambm que um traidor pode vir a tirar benefcios prprios e individuais em detrimento do bem comum, quando no h um maior controle ou organizao da sociedade a fim de punir os traidores. No captulo 4 foi apresentada uma extensa srie de simulaes, juntamente com uma detalhada anlise dos resultados destas simulaes, apresentada nas sees 4.14, 4.2.4, 4.3.4, 4.4.4 e 4.4.5 e ao final deste captulo.
Assim, as principais contribuies deste trabalho que merecem ser destacadas so: A realizao de uma importante pesquisa bibliogrfica de tcnicas do estado da arte sobre Modelos de Reputao, IPD, Sistema Multi-Agentes e Jogos Administrativos; A proposta de um Modelo Cooperativo Multi-Agente com Reputao e Interao; 96
A implementao de dois simuladores capazes de simular o comportamento de agentes e suas interaes atravs de um ambiente 2D; A utilizao do IPD em sistema multi-agentes utilizando mltiplos jogadores; A elaborao de estratgias definidas atravs dos comportamentos dos agentes, e validadas atravs de diversos experimentos de simulao; A possibilidade de integrao entre o IPD e a interao entre agentes, permitindo uma avaliao quantitativa; A anlise dos resultados das diversas simulaes, validando as ferramentas de simulao e apresentando uma srie de concluses a respeito das melhores formas de se comportar em um sistema multi-agente sujeito s regras do jogo do IPD.
Como perspectivas e trabalhos futuros a serem realizados a partir dos trabalhos desenvolvidos nesta dissertao, se destacam as seguintes possibilidades:
A utilizao de um ambiente de simulao de interaes mais realstico: incluindo obstculos, trajetrias, coliso entre elementos da cena, e at mesmo fazendo uso de um ambiente virtual 3D; Um estudo mais detalhado do uso e impacto de atributos como os fatores influenciveis no comportamento dos agentes (estado emocional e personalidade); A elaborao de outros tipos de comportamentos (expanso da base de comportamentos), com intuito de analisar a reao e desempenho dos agentes; A realizao de experimentos que realmente fechem o loop, permitindo uma maior integrao entre os 2 simuladores: Interao e IPD. Anlise mais aprofundada do impacto das interaes na reputao e no comportamento dos agentes; O uso de algoritmos evolutivos, Algoritmos Genticos, por exemplo, para otimizar o ganho final de acordo com diferentes critrios: maximizar o ganho individual. maximizar o ganho coletivo, maximizar ambos (individual e coletivo); Desenvolver simulaes com um nmero maior de agentes, variando dos 10 agentes atuais para simulaes com mais de 1000 agentes, por exemplo.
Sem dvida este trabalho servir como inspirao para trabalhos futuros que continuem a investigar o impacto de diferentes comportamentos e da interao na forma 97
como os agentes colaboram entre si em um sistema multi-agente. As implementaes serviro de suporte para estes estudos e trabalhos futuros que podem a vir a ser desenvolvidos no contexto desta dissertao.
Referncias Bibliogrficas [Alvares 1997] L.O.C. Alvares; J.S. Sichman, Introduo aos Sistemas Multiagentes. Braslia: XVI Jornada de Atualizao em Informtica, 1997.
[Andlinger 1958] G. R. Andlinger, Business games play one!, Harvard Business Review, Vol. 36 No 2.
[Axelrod 1984] R. Axelrod, The Evolution of Cooperation. New York: Basic Books, 1984.
[Baranski 2006] B. Baranski, T. Bartz-Beielstein, R. Ehlers, T. Kajendran, B. Kosslers, J. Mehnen, T. Polaszek, R. Reimholz, J. Schmidt, K. Schmitt, D. Seis, R. Slodzinski, S. Steeg, N. Wiemann, M. Zimmermann, The Impact of Group Reputation in Multiagent Environments. IEEE Congress on Evolutionary Computation. 2006.
[Bitting 2004] E. Bitting, A. A. Ghorbani, Cooperative Multiagent Systems for the Optimization of Urban Traffic. In Proceedings of the IEEE/WIC/ACM International Conference on Intelligent Agent Technology. 2004.
[Booker 1985] L. B. Booker, Improving the Performance of Genetic Algorithms in Classifier Systems . In Proceedings of the International Conference on Genetic Algorithms and Their Applications. pp. 80-92. 1985.
142
[Booker 1989] L. B. Booker, D. E. Goldberg, J. H. Holland, Classifier Systems and Genetic Algorithms, Artificial Intelligence, vol. 40, pp. 235-282, 1989.
[Carter 2002] J. Carter, E. Bitting, A. A. Ghorbani, Reputation Formalization for an Information-Sharing Multi- Agent. Computational Inteligence, Volume 18, Number 4, pp. 515-534, 2002.
[Castro 2002] L. N. Castro, F. J. V. Zuben, Notas de aula da disciplina Computao Evolutiva, DCA/FEE/Unicamp, Campinas SP, 2002. Disponvel em: ftp://ftp.dca.fee.unicamp.br/pub/docs/vonzuben/ia707_02/ topico13_02.pdf, acessado em 30/11/2006.
[Thalman 2007] D. Thalmann; S.R. Musse. Crowd Simulation. 1. ed. London: Springer-Verlag, 2007. v. 1. 245 p.
[Demazeu 1995] Y. Demazeau, From interactions to collective behaviour agent -based system. In Proceedings of the 1st European Conference on Cognitive Science, St. Malo, 1995.
[Derbas 2004] G. Derbas, A. Kayssi, H. Artail, A. Chehab, TRUMMAR A Trust Model for Mobile Agent Systems Based on Reput. In Proceedings of the IEEE/ACS International Conference on Pervasive Services. 2004.
[Elgood 1997] C. Elgood, Handbook of management games and Simulations, 6 th ed., Gower, England, 1997.
[Ferber 1991] J. Ferber; L. Gasser, Inteligence Artificielle e Distribute. International Workshop on Expert Systems & Their Applications, Avihnon, France, 1991. Cours no. 9. 143
[Ferber 1999] J. Ferber, Multi-Agent Systems: An Introduction to Distributed Artificial Intelligence. Addison-Wesley, New York, 1999.
[Fullam 2006] K. K. Fullam, K. S. Barber, Learning Trust Strategies in Reputation Exchange Networks. In Proceedings of the 6 th International Conference on Autonomous Agents and Multiagent Systems (AAMAS06). 2006.
[Gasser 1992] L. Gasser, Boundaries, Identity, and Aggregation: Plurality Issues in Multiagent Systems ; (In) Decentralized A.I. 3 (Proceedings of 3rd Workshop on Modelling Autonomous Agents in a Multi-Agent World, Kaiserlauten, Germany, 5-7th August 1991); E. Werner and Y. Demazeau (Eds.); 199-213; Elsevier Science Publishers B.V. (North-Holland), Amsterdam, Holland.
[Gaston 2005] M. E. Gaston, M. desJardins, Agent-Organized Networks for Dynamic Team Formation. In Proceedings of the 5 th International Conference on Autonomous Agents and Multiagent Systems (AAMAS05). 2005.
[Goldberg 1983] D. E. Goldberg, Computer-Aided Gas Pipeline Operation Using Genetic Algorithms and Rule Learning, Ph.D. Thesis, University of Michigan, Ann Arbor, MI., 1983.
[Greenblat 1981] C. S. Greenblat, R. D. Duke, Principles and Practice of Gamming/Simulation, Sage, Beverly Hills, 1981.
[Greenblat 1988] C. S. Greenblat, Designing Games and Simulations, Sage Publications, London, 1988.
144
[Greene 1959] J. Greene, R. Sisson, Dynamic Management Decision Games, Chapman & Hall, London, 1959.
[Holland, 1975] J. H. Holland, Adaptation in Natural and Artificial Systems, University of Michigan Press, 1975.
[Holland, 1992] J. H. Holland, Adaptation in Natural and Artificial Systems, 2 nd edition, The MIT Press, 1992.
[Holland, 1995] J. H. Holland, Hidden order: how adaptation builds complexity, Addison Weslwy, Inc, 1995.
[Holland, 1998] J. H. Holland, Emergence: from chaos to order, Addison Weslwy, Inc, 1998.
[Huynh 2006] T. D. Huynh, N. R. Jennings, N. R. Shadbolt, Certified Reputation: How an Agent Can Trust a Stranger. In Proceedings of the 6 th International Conference on Autonomous Agents and Multiagent Systems (AAMAS06). 2006.
[Klos 2003] T. Klos, H. L. Poutr, Using Reputation-based Trust for Assessing Agent Reliability. In Proceedings of 7 th
International Workshop on Trust in Agent Societies. 2004.
[Kovacs 1995] T. Kovacs, P. L. Lanzi, A Learning Classifier Systems Bibliograph, Technical Report : CSRP-99-19, Stanford University, 1995. http://www.stanford.edu/~buc/SPHINcsX/book.html
[Lan 2004] K. Lam, H. Leung, An Adaptative Strategy for Trust/Honesty Model in Multi-agent Semi-competitive Environments. In Proceedings of the 16th IEEE 145
International Conference on Tools with Artificial Intelligence. 2004.
[Michalewikz 1996] Z. Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, 3 rd edition, Springer, 1996.
[Musse 2000] S. Musse, Human Crowd Modelling with Various Levels of Behaviour Control. PhD Thesis, 2000.
[Oh 2004] J. C. Oh, N. Gemelli, R. Wright, A Rationality-based Modeling for Coalition Support. In Proceedings of the Fourth International Conference on Hybrid Intelligent Systems. 2004.
[Poundstone 1992] W. Poundstone, Prisoners Dilemma, Doubleday, NY, 1992.
[Reynolds 2007] C. W. Reynolds, Boinds Steering Behaviors and OpenSteer Reynolds Homepage. Disponvel em: http://www.red3d.com/cwr/, acessado em: 15/01/2008.
[Ricciardi 1957] Ricciardi, F. M., Craft, C. J., Malcolm, D. G., Bellman, R., Clark, C., Kibbee, J. M., Rawdon, R.H. Top management decision simulation, American Management Association, New York, 1957.
[Richards 1995] R. A. Richards, Zeroth-Orde r Shape Optimization Utilizing Learning Classifier Systems , Ph.D. Thesis, Stanford University, 1995. http://www.stanford.edu/~buc/SPHINcsX/book.html
[Sabater 2001] J. Sabater, C. Sierra, REGRET: Reputation in gregarious societies. In Proceedings of the 1 st
146
International Conference on Autonomous Agent s and Multiagent Systems (AAMAS01). 2001.
[Sabater 2002] J. Sabater, C. Sierra, Reputation and Social Network Analysis in Multi-Agent Systems. In Proceedings of the 2 nd International Conference on Autonomous Agent s and Multiagent Systems (AAMAS02). 2002.
[Schlosser 2004] A. Schlosser, M. Voss, L. Brckner, Comparing and Evaluating Metrics for reputation Systems by Simulation. RAS-2004, A Workshop on Reputation in Agent Societies as part of 2004 IEEE/WIC/ACM International Joint Conference on Intelligent Agent Technology (IAT'04) and Web Intelligence (WI'04). 2004.
[Schubik 1968] M. Schubik, Gaming: Costs and Facilities, Management Science, 14, 11, July 1968, 629-660.
[Sichman 1995] J.C. Sichman, Du Raisonnement Social Chez les Agents: Un Approche Bas sur la Thorie de la Dpendance. Thse de doctorat, Institut National Polytechnique de Grenoble, Grenoble, France. Forthcoming.
[Teacy 2005] W. T. L. Teacy, J. Patel, N. R. Jennings, M. Luck, Coping with Inaccurate Reputation Sources: Experimental Analysis of a Probabilistic Trust Model. In Proceedings of the 5 th International Conference on Autonomous Agents and Multiagent Systems (AAMAS05). 2005.
[Yu 2002] B. Yu, M. P. Singh, An Evidential Model of Distributed Reputation Management. In Proceedings of the 2 nd
147
International Conference on Autonomous Agent s and Multiagent Systems (AAMAS02). 2002.
[Weiss 2000] G. (Ed.) Weiss. Multiagent systems: A modern approach to distributed artificial intelligence. London: MIT Press, 1999.
[Wikipedia 1] Wikipdia, Site do Wikepedia.org. Disponvel em: http://en.wikipedia.org/wiki/Prisoner_dilemma, acessado em 15/6/2007.
[Wikipedia 2] Wikipdia, Site do Wikepedia.org. Disponvel em: http://pt.wikipedia.org/wiki/Sistema_multiagente, acessado em 06/01/2008.
[Wikipedia 3] Wikipdia, Site do Wikepedia.org. Disponvel em: http://pt.wikipedia.org/wiki/Teoria_dos_jogos, acessado em 05/01/2008.
[Yu 2003] B. Yu, M. P. Singh, Detecting Deception in Reputation Management. In Proceedings of the 3 rd International Conference on Autonomous Agents and Multiagent Systems (AAMAS03). 2003.
CASTILLO, Ana Regina GL RECONDO, Rogéria ASBAHR, Fernando R and MANFRO, Gisele G. Transtornos de Ansiedade. Rev. Bras. Psiquiatr. (Online) - 2000, Vol.22, Suppl.2, Pp. 20-23 PDF
CASTILLO, Ana Regina GL RECONDO, Rogéria ASBAHR, Fernando R and MANFRO, Gisele G. Transtornos de Ansiedade. Rev. Bras. Psiquiatr. (Online) - 2000, Vol.22, Suppl.2, Pp. 20-23 PDF