You are on page 1of 3

Simulação do nível de atualização de um repositório de páginas Web, utilizando a métrica Age.


Rodrigo Girão de Freitas1, Prof. Críston Pereira de Souza2 1,2 Universidade Federal do Ceará – Campus Quixadá, Quixadá, Ceará, Brasil. rodrigogirao7@gmail.com, criston@ufc.br

Resumo. O projeto consiste em encontrar boas estratégias de atualização de repositórios de páginas Web mantido por uma máquina de busca, como por exemplo, Google e Yahoo!. Neste artigo é mostrada a parte do projeto em que é feito o cálculo do tempo médio de desatualização do repositório, usando a métrica “age”. Foram simuladas as modificações e revisitações das páginas do repositório. No final foi calculado o “age” do repositório e o total de revisitações realizadas.

1 – Introdução
Para manter um repositório de páginas Web atualizado, é necessário fazer revisitações (downloads) frequentes a estas páginas. Isto é necessário, pois as páginas Web estão sendo modificadas constantemente, e estas modificações não são comunicadas às máquinas de busca. Para fazer essas revisitações é preciso respeitar uma taxa limite de revisitações, senão os servidores Web podem tratar essas revisitações como ataque. Para isso não acontecer, as revisitações devem respeitar um tempo mínimo entre elas. Chamamos esse tempo mínimo de restrição de politeness. Então é preciso respeitar a restrição de politeness e ao mesmo tempo fazer com que o repositório fique o mais atualizado possível. A isso chamamos de política de revisitação. Para entender essas políticas de revisitações, foi estudado o trabalho (Souza, 2010) no qual foi considerada a métrica freshness (Cho & Garcia-Molina, 2003). Neste projeto levamos em conta outra métrica chamada age que também aparece em (Cho & Garcia-Molina, 2003) e procuramos ver como ficaria o comportamento dessas políticas. A métrica age consiste basicamente no tempo médio que as páginas de um repositório ficam desatualizadas. Este artigo relata as atividades realizadas até então neste projeto, que está ainda em fase inicial. Temos até aqui um simulador do ambiente encontrado por uma política de revisitação, que consiste em um conjunto de páginas Web que se modificam segundo um processo de Poisson, conforme evidenciado na literatura (Walpole, 2009), e um escalonador de revisitações que segue a política MERGE proposta em (Souza, 2010). Temos também uma rotina de cálculo do age, que utiliza os instantes de modificação e revisitação de cada página. Apresentamos a seguir a metodologia empregada e resultados experimentais preliminares indicando o age do repositório que está sendo simulado.

2 – Metodologia
A simulação foi realizada utilizando a linguagem de programação C, e bibliotecas para geração de números aleatórios e manipulação da estrutura de dados heap (Cormen, 2002). As bibliotecas utilizadas foram GSL (GNU Scientific Library) (GSL, 2011) para a geração dos números aleatórios e GDSL (Generic Data Structures Library) (GDSL, 2006) para manipular a estrutura de dados heap.

Projeto financiado com recursos da FUNCAP

quando revisitamos uma página. 2003). de acordo com a política MERGE (igualmente espaçadas) Na política MERGE. Portanto. 4 – Resultados experimentais Para comparar os resultados experimentais com os teóricos. para testar o cálculo do age. as revisitações à uma mesma página são igualmente espaçadas no tempo. retornando logo em seguida para a heap com sua chave atualizada para o instante de sua próxima revisitação. 3. A página retirada do topo da heap é revisitada. Ela também garante que as revisitações sejam igualmente espaçadas no tempo.1). podemos determinar o instante em que ocorrerá sua próxima revisitação.2 – Geração dos instantes de modificação das páginas Mantemos na estrutura de cada página o instante em que ocorrerá a próxima modificação desta página.4 – Cálculo das frequências de revisitações A frequência de revisitação de cada página é determinada pela política MERGE. então atualizamos o instante da próxima modificação da página com um número aleatório com distribuição exponencial e parâmetro igual ao tempo médio entre modificações da página. onde é o taxa de modificação da página e t é o tempo entre revisitações consecutivas: . que são utilizados para comparar com os resultados experimentais. usamos a fórmula abaixo do age demonstrada em (Cho & Garcia-Molina. 3. O age da página p é então obtido no final da simulação através do tempo total de desatualização de p. armazenado no instante em que a página p entrou na heap.1 – Geração dos instantes de revisitação das páginas. foi fixado o valor da frequência em 1. Para determinar de forma eficiente a próxima página a ser revisitada. 3 – Simulador Os principais módulos do simulador desenvolvido são apresentados a seguir. Se m < t.m. e o instante atual de simulação é superior ao instante da próxima modificação da página.3 – Cálculo do age Considere uma página p retirada do topo da heap no instante t. mantemos uma heap de páginas. dividido pelo tempo total de simulação. 3. 2009). onde o topo dessa estrutura consiste na próxima página que será revisitada. mas esta rotina ainda não foi implementada neste projeto. Se uma página está retornando para a heap. 3. podemos então incrementar o tempo total de desatualização de p com o valor da expressão t . A motivação dessa escolha foi porque esse valor facilitava os cálculos teóricos. Portanto. onde a chave de cada página é seu próximo instante de revisitação. Note que esta forma de atualizar o instante da próxima modificação só está correta pelo fato da distribuição exponencial possuir a propriedade de ser “sem memória” (Walpole. Seja m o instante da próxima modificação de p.A heap é utilizada pela política MERGE (Seção 3.

& Garcia-Molina. H.6 0. Os resultados obtidos são mostrados na Figura 1. Cormen. Para cada simulação foi incrementado o valor de em .). variando a taxa de modificações.Teoria e Prática (2ª ed. (2002).61.4 3 3. Probabilidade e estatística : para engenharia e ciências (8ª ed. com frequências calculadas a partir de uma fórmula e com as taxas de modificações coletadas de páginas reais.6 Taxas de modificações Figura 1 – age da página (experimental e teórico). Walpole. . H.Stanford. Experimental Teórico 5 – Conclusões Foi visto que os resultados práticos convergiam para os teóricos.21. São Paulo. Algoritmos .27. (2006). Effective Page Refresh Policies for Web Crawlers.67.4 0.24. (2010).5 0. iniciando em e terminando em 10. Campus Editora.. isso mostra que o projeto está no caminho correto.Stanford University.gna.7 0. Los Angeles. Políticas Eficientes para Revisitação de Páginas Web.org/s/gsl/ Souza. E.9 0. J.64. PUC-Rio. California: University of California. (2009). Futuramente serão feitos testes com mais páginas.8 0. SP: Pearson/ Prentice Hall. Fonte: http://home.88.). GDSL.gnu.85. (2011). T.org/gdsl/ GSL. California. empregamos a fórmula simplificada abaixo: ( ) Para obter os resultados experimentais foram feitas 100 simulações com cada uma tendo 1000 dias. C. GNU Scientific Library. Generic Data Structures Library. bem como o age teórico esperado: Age 1 0.4 9 9. Tese de Doutorado. 6 – Referências Cho. R.3 0.4 6 6. (2003).( ) Como fixamos o valor de t em 1.2 0. Fonte: http://www.1 0 0.82.