You are on page 1of 11

Para

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO PRÓ-REITORIA REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PÓS GRADUAÇÃO COORDENADORIA DE PROGRAMAS ESPECIAIS

RELATÓRIO FINAL DE ATIVIDADES DO BOLSISTA
TÍTULO DO PROJETO: Análise e Aplicação de Critérios de Qualidade em um PDMS

Aluna: Elizangela de Lima Lucena. Lucena Curso: Bacharelado em Sistemas de Informação. Programa: PIBIC/PIC. Orientador: Profa Dra. Maria da Conceição Moraes Batista. Departamento/Área: Departamento de informática – DEINFO.

Recife – PE Julho 2013

qualidade da Informação e Integração de dados. Em seguida houve um estudo mais aprofundado sobre que critérios seriam utilizados para quantificar a degradação e o enriquecimento das consultas em um PDMS. sistemas PDMS. Um objetivo específico do trabalho é o estudo e implementação do cálculo da perda ou enriquecimento semântico no processo de reformulação de consultas em um Peer Data Management Systems (PDMS). Esse tipo de sistema caracteriza-se por possuir uma infraestrutura descentralizada e dinâmica. Por fim foram realizados estudos sobre comunicação e roteamento de consultas em um PDMS existente. buscando minimizar alguns problemas existentes neste ambiente e trazer alternativas para trabalhos atuais em relação a reformulações e enriquecimento de consultas.RESUMO Este trabalho de iniciação científica está inserido no projeto “Análise e Aplicação de Critérios de Qualidade em um PDMS” que tem como objetivo geral inserir Qualidade da Informação (QI) nas reformulações de consultas aplicadas em um PDMS. o SPEED. Página 2 de 11 . Na primeira etapa foram realizadas atividades como o estudo de sistemas distribuídos.

.................... 11 Página 3 de 11 .............................................................................................................. 10................................................................................. 11 OBSERVAÇÕES DO PROFESSOR ORIENTADOR............................................................................................................................ 5 MATERIAIS .......................................................................... 10 ATIVIDADES RELEVANTES DESENVOLVIDAS PELO BOLSISTA ..........1 4.............................................2 5........................................... 8............................................................. 2........... 7 METODOLOGIA.......................................................................................................... 4............................................................................................ 9 REFERÊNCIAS BIBLIOGRÁFICAS ........................... 9............................Sumário 1...... 6................................................. INTRODUÇÃO .......... 7 ESPECÍFICOS .................................. 7....... 4 TECNOLOGIAS...... 8 RESULTADOS .......................................................... GERAL .... 3................... 9 CONCLUSÕES......................................................... 7 4................. 7 OBJETIVOS .....................................................................................................

Em um PDMS. PDMS são a evolução de sistemas de integração de dados (Souza. heterogêneos. os pontos no sistema funcionam como fontes de dados que poderão ser usadas para troca de dados. uma meta-informação) que descreve a semântica dos dados facilitando o reuso e o compartilhamento de conhecimento (Fensel 2001). Uma ontologia oferece uma conceituação (isto é. obtenção de respostas a consultas e compartilhamento de informações. diversidade e compartilhamento de dados têm sido discutidos com frequência. muitas vezes distribuídas e autônomas. heterogêneas. A procura por sistemas que utilizem tecnologias que promovam o acesso fácil a dados distribuídos. a principal tarefa de um sistema de integração de dados é fornecer uma interface uniforme para responder consultas que requerem extração e combinação de dados originários de múltiplas fontes distintas. dar significado aos dados facilitando seu gerenciamento. (Halevy et al. Página 4 de 11 . O sistema disponibiliza através de um esquema uma visão integrada sobre os dados distribuídos em múltiplas fontes de dados (Batista. Cada ponto compartilha uma vizinhança semântica estabelecida por meio de mapeamentos semânticos entre os pontos (associações entre pontos que possuem similaridade semântica) (Zhao 2006). Os PDMS são um exemplo desse tipo de sistema. INTRODUÇÃO Atualmente temas como distribuição. Em síntese. Uma ontologia é um modelo de dados que representa um conjunto de conceitos dentro de um domínio e os relacionamentos entre estes. 2003). com um nível de abstração sobre o gerenciamento e consulta destas informações vem se tornando um fator de grande importância.1. Provê o acesso a fontes distribuídas realizando operações de manipulação de dados oferecendo transparência em operações de consultas e gerenciamento. Os Peer Data Management Systems (PDMS) foram introduzidos como uma extensão natural dos bancos de dados distribuídos em um ambiente de sistemas P2P. 2006). Em ambientes distribuídos as ontologias podem ser usadas como esquemas e assim. 2009).

O matching é um exemplo de processo responsável por alinhar os relacionamentos entre elementos de diferentes ontologias (Souza 2009). elementos contextuais são analisados através da ontologia de contexto denominada CODI (Contextual Ontology for Data Integration). que é o resultado de todas os outros tipos de correspondências entre os conceitos (isSubConceptOf. 2012). errados. TECNOLOGIAS Speed . Pires. Quando um usuário submete uma consulta SPARQL em um determinado ponto. Reformulação de consultas do Speed .Para corrigir problemas com heterogeneidade. Pode-se definir como qualidade da Informação (QI) um conjunto de critérios que indicam o grau de qualidade geral de uma informação em um sistema (Batista. formando agrupamentos semânticos (Freire. 2008).(Semantic Peer Data Management System) é um PDMS que adota uma abordagem semântica baseada em ontologias e informações contextuais com o propósito de prover soluções para problemas críticos de gerenciamento de dados (Souza. 2009). fato que ocorre em integração de dados e quando várias ontologias são utilizadas simultaneamente.Definido o conjunto de correspondências. esses dados podem estar desatualizados. a QI das respostas das consultas depende não somente da qualidade dos dados de uma fonte de dados em particular (ponto). é possível executar dois tipos de reformulação da consulta: a reformulação exata. Página 5 de 11 . que considera apenas as correspondências de equivalência (isEquivalentTo) entre conceitos extraídos das consultas. 2009. Pontos podem armazenar dados de baixa qualidade. Para obter melhores resultados no roteamento de consultas. e a reformulação enriquecida. a alguns PDMS organizam seus pontos de acordo com a similaridade semântica entre eles. utilizam-se processos de associação ou correspondências entre os elementos das ontologias. 2006). 2005). mas também da qualidade dos mapeamentos entre os pontos vizinhos (Yatskevich et al. 2. isSuperConceptOf. Em um PDMS. incompletos ou ter procedência duvidosa (Heese et al.

Essa reformulação vai levar em conta as variáveis de enriquecimento da consulta (Q): • Aproximação . or) e por meio do modo de reformulação da consulta (estabelecido pelo usuário).indica a inclusão de conceitos que são sub-conceitos de alguns conceitos de Q. isDisjointWith). Para cada chamada do algoritmo.isPartOf. A figura 1 representa esse processo de roteamento e as respostas das consultas realizadas. • Especialização . Página 6 de 11 . O resultado da consulta é obtido por meio da análise de sua semântica (operadores utilizados: and.possui quatro parâmetros principais: a consulta (Q). ao final.indica a inclusão de conceitos que são próximos dos conceitos em Q. • Composição . isCloseTo. o resultado (R) da execução da consulta naquele ponto é enviado para o peer de origem da consulta e integrado aos resultados de cada vizinho semântico que já havia recebido a consulta e enviado seu resultado. Roteamento semântico do Speed. isWholeOf. • Generalização .indica a inclusão de conceitos que são parte-de ou todode alguns conceitos de Q. o ponto de destino da consulta e o valor de TTL para interrupção do roteamento. o ponto de origem da consulta.indica a inclusão de conceitos que são super-conceitos de alguns conceitos de Q.

3. o mecanismo de reformulação de consultas considera não apenas conceitos equivalentes mas também subconceitos. o P2178) e pode ser propagada no sistema através de reformulações entre os esquemas de peers vizinhos percorrendo um caminho. próximos e disjuntos (isSubConceptOf. O controle de versão foi realizado através do software o Apache Subversion também conhecido como SVN.. A consulta é submetida em um peer de origem (na figura. isCloseTo.1 Este trabalho tem como objetivo geral estabelecer novos critérios que ajudem na Qualidade da Informação (QI) nas consultas aplicadas em um PDMS. As ligações mostram que peers se conectam através das correspondências semânticas entre seus esquemas. quando os conceitos da consulta original não possuem equivalentes nos peers seguintes. isPartOf. OBJETIVOS GERAL 4. No exemplo da figura.. E o enriquecimento ocorre quando o usuário requisita uma consulta enriquecida. Q pode ser reformulada ao longo de dois caminhos P2178-P2478-P2278-P2678 e P2178-P2478-P2378-P2578. Para fornecer as ferramentas de apoio necessárias no processo de desenvolvimento utilizamos o Eclipse. isWholeOf. MATERIAIS Para trabalhar no Speed foi necessário realizar a instalação e configuração da linguagem de programação Java. cada retângulo representa um peer conectado ao PDMS. 4. demonstrando de forma quantitativa o enriquecimento ou a perda semântica de conceitos nas consultas SPARQL através do processo de reformulações.Na figura. partes-de. 4.2 ESPECÍFICOS Página 7 de 11 . isSuperConceptOf. superconceitos. todo-de. Neste caso. isDisjointWith). A perda semântica pode ocorrer ao longo do caminho.

já que esta é uma área com inúmeras aplicações práticas. Também foram realizadas diversas atividades práticas para conhecer melhor o projeto Speed. Divulgar nos meios de divulgação científica os resultados obtidos. Etapa 2: Identificação dos critérios quantitativos. Etapa 1: Identificação e formalização Durante esta etapa foram realizadas atividades envolvendo o estudo conceitual de um PDMS esclarecendo seu funcionamento e todo o processo de execução de consultas. METODOLOGIA Para que os objetivos fossem satisfatórios foi realizado um estudo inicial sobre processamento de consultas SPARQL em PDMS e critérios de QI. Contribuir para a formação científica da aluna com o estudo de problemas de Qualidade da Informação. o desenvolvimento do pensamento abstrato. despertandolhe o interesse pelo estudo de processamento. cujo objetivo foi identificar critérios para quantificar os resultados das consultas semanticamente. os critérios para quantificar os resultados das consultas. foi feito estudos sobre perda semântica e enriquecimento de consultas levando em consideração critérios de relacionamento. 5. levando em Página 8 de 11 . facilitando assim o entendimento da lógica existente em seu algoritmo. reformulação. O cálculo. 3. desenvolvimento dos algoritmos e implementação de protótipos Nesta etapa foram definidos. Estimular na aluna. 4. através da atribuição de pesos. na tentativa de adequar os critérios de qualidade investigados ao problema do processamento de consultas SPARQL em PDMS. enriquecimento e perda semântica de consultas. E logo após. Propiciar à aluna uma formação interdisciplinar. 2.1.

PDMS. sistemas distribuídos. A partir daí as correções e os ajustes necessários foram feitos. 7. perda semântica. Acoplamos o protótipo desenvolvido na atividade anterior em um PDMS existente. Página 9 de 11 . foi o momento de realizar testes iniciais em um ambiente limitado a dois peers. Além do relatório técnico final. enriquecimento de consultas. artigos serão submetidos para publicação em conferências de iniciação científica. ontologias. Etapa 4: Publicação dos resultados Esta etapa está sendo realizada em paralelo com as outras e compreende a publicação dos resultados obtidos ao longo do desenvolvimento deste projeto. Etapa 3: Validar os resultados obtidos no sistema Speed O objetivo desta etapa consiste em validar os resultados obtidos nas etapas anteriores através da utilização de exemplos práticos e reais. qualidade da informação. RESULTADOS O resultado destes estudos possibilitou a aluna que incorporasse aos seus conhecimentos. Em seguida foram estabelecidos os critérios que possibilitariam a mensuração da perda ou do enriquecimento semântico de conceitos em consultas SPARQL a um PDMS. temas como: gerenciamento de dados. Após a elaboração das classes necessárias para efetuar esse processo. e os ajustes necessários foram efetuados. 6.consideração esses pesos pôde estabelecer o enriquecimento ou perda semântica dessas consultas. Para isso foi necessário um amplo estudo sobre sua estrutura de roteamento e de comunicação. o sistema Speed. Implementada as classes. CONCLUSÕES Na primeira etapa do projeto foram realizados estudos que favoreceram a melhor compreensão contextual do projeto. essas classes foram executadas e os resultados foram analisados. Os resultados dessas consultas foram analisados. em um ambiente de teste. roteamento semântico de consultas SPARQL em PDMS entre outros.

Ordille J. 2009.. Centro de Informática – UFPE. Tese de Doutorado.. C. 65 of LNI. (2006). REFERÊNCIAS BIBLIOGRÁFICAS Batista. Ontologies: A Silver Bullet for Knowledge Management and Electronic Commerce. Último acesso em Março de 2013. Springer. Yatskevich M. 9-16. Seoul. Roteamento Semântico de Consultas em Sistemas Gerenciadores de dados P2P. Otimização de Acesso em um Sistema de Integração de Dados através do uso de Caching e Materialização de Dados. Batista. M. In Proceedings of The German Conference on Datenbanksysteme in Business. 2008. (2001). Serão realizadas alterações nesse roteamento adequando-o para essa nova necessidade. Ontology-based Clustering in a Peer Data Management System. McNeill F.. identificamos de que forma é estabelecida a comunicação entre os peers de dados e o funcionamento do roteamento de consultas.Com o propósito de realizar a mensuração de consultas dentro do Speed. 2003..ac. Giunchiglia F. C. Heese R. Tese de Doutorado.informatics. M.E. Freire. C. Naumann F. (2006).3: Amethodology for ontology matching quality evaluation. Souza D. C..UFPE. Self-extending Peer Data Management.uk/OK/Deliverables/D3. OpenKnowledge Deliverable 3.UFPE. GI. Proceedings of the 32nd International Conference on Very large data bases. Available at http://www. (2005).. Página 10 de 11 .. Using Semantics to Enhance Query Reformulation in Dynamic Distributed Environments. Tese de Doutorado. 2012.A.3. Shvaiko P. Technologie und Web. Centro de Informática – UFPE. p. Fensel D. 2009. M. Pires. v. Rajarama A.cisa. Halevy A. “Schema Quality Analysis in a Data Integration System”. Ed. Proposta de Tese. Centro de Informática . Dissertação de Mestrado. 8. Centro de Informática UFPE.ed. O trabalho futuro consiste em adequar a estrutura de roteamento existente no Speed para atender o requisito de mensuração da perda e do enriquecimento semântico em consultas envolvendo vários peers de dados. Centro de Informática . Data Integration: The Teenage Years. Roth A. Korea.. Herschel S. M. ISBN: 3540416021.

Dra. The University Of British Columbia. Estudo sobre reformulações de consultas em PDMS.Zhao J. Análise do Speed (parte teórica). Master Thesis. considero o trabalho da aluna. ATIVIDADES RELEVANTES DESENVOLVIDAS PELO BOLSISTA • • • • • • • Estudo de conceitos de PDMS (estado da arte). por questões de redirecionamento do próprio projeto de pesquisa. cujo principal método queryDegradationMeasure é responsável em realizar os cálculos para degradação ou enriquecimento da consulta inicial. Esses cálculos utilizam as variáveis fornecidas pela classe ReformulationManager que teve sua estrutura inicial alterada agregando essa nova atribuição. (2006). OBSERVAÇÕES DO PROFESSOR ORIENTADOR Apesar de ter fugido um pouco ao plano de trabalho. 10. Maria da Conceição Moraes Batista Página 11 de 11 . Schema Mediation and Query Processing in Peer Data Management Systems. na linguagem Java. As análises executadas e a ferramenta implementada são valiosos artefatos para o projeto. Recife. Elizangela de Lima Lucena Profa. 08 de Julho de 2013. extremamente relevante e satisfatório para o projeto de pesquisa no qual este PIBIC está inserido. Estudo de conceitos de Qualidade da Informação. Estudo sobre enriquecimento e degradação de consultas. Implementação no sistema Speed da classe IQQueryAnalysis. 9. Estudo sobre roteamento e comunicação entre peers de dados.