FACULTAD DE INGENIERIA ESCUELA DE INFORMATICA Y SISTEMAS

IMPLEMENTACIÓN DE UNA WEB MINING SOBRE RECONOCIMIENTO DE PATRONES DE COMPORTAMIENTO DE USUARIOS PARA LA CAJA MUNICIPAL DEL SANTA

CURSO

:

PROYECTO DE TESIS

DOCENTE

:

MG. LIZBETH BRIONES PEREYRA

CICLO

:

X

INTEGRANTES

: y y JULIO GARCÍA SEMINARIO DAVID CASANOVA GAMBOA

2010

Página 1

Página 2 . Año donde se dec ide dar inicio a operaciones con Crédito a la micro y pequeña empresa. B olognesi en el centro comercial y financiero de la ciudad. Al año siguiente. la Caja del Santa continúa su crecimiento habiendo inaugurado -el 26 de febrero . en la ciudad de Huaraz. Al año siguiente apertura su segunda agencia en Chimbote. apertura su Agencia en el distrito de Nuevo Chimbote. En el 2008. la Caja del Santa instala su Agencia en la ciudad de Huánuco y Oficina Especial en Tingo María.su nuevo y moderno Centro de Promoción en Pucallpa. Huarmey y Caraz. permite vislumbrar un futuro con optimismo para constituirse en el mediano plazo en una de las principales instituciones financieras de la región y del sistema de cajas. lo que le posibilitó ampliar y diversificar su mercado. en el Departamento de Ancash . y Crédito Personal. esta importante fin anciera inicia sus actividades en el departamento de Lima con la apertura de dos agencias: Barranca y Huacho. Posteriormente.con el propósito de ser una alternativa real para aquellos sectores de la comunidad local y regional. que tradicionalmente no han sido atendidos por la banca. En el 2006. Su funcionamiento fue autorizado con operaciones de Crédito Prendario y Ahorros. siendo autorizada por la Superintendencia de Banca y Seguros (SBS) para realizar operaciones activas y pasivas en moneda extranjera. ubicada en la Av. se produce la conversión de la Caja del Santa en Sociedad Anónima acontecimiento que le abre la oportunidad necesaria para desarrollarse. así como -el 26 de marzo. y en el 2009 inaugura su Agencia en la ciudad de Huancayo en el departamento de Junín. En el presente año.apertura Oficinas Especializadas en las ciudades de Casma. A partir del año 1999. la Caja del Santa comienza su Plan de Expansión instalando su primera Agencia fuera de Chimbote. Esta suma de acontecimientos.ETAPA I: DATOS GENERALES DE LA ORGANIZACIÓN Caja Municipal De Ahorro Y Crédito Del Santa RESEÑA HISTORICA La Caja Del Santa inició sus actividades un 3 de marzo de 1986 en la ciudad de Chimbote -capital de la Provincia del Santa. en el año 1998. productos con los que se mantuvo hasta diciembre de 1993. En el año 2002 . en especial a la micro y pequeña empresa.su agencia en la ciudad de Trujillo.

proporcionando servicios de máximo valor. MISION Ofrecer a nuestros clientes servicios financieros de alto valor agregado. Organigrama de la CMACS (Anexo Organigrama) Página 3 .VISION Posicionarnos como la mejor opción en Micro finanzas en los lugares donde nos ubiquemos. priorizando nuestra atención en las micro y pequeñas empresas y en aquellos que tienen acceso limitado al Sistema Bancario. empleando tecnología moderna y basados en los valores y compromiso profesional de nuestros colaboradores.

PICTOGRAMA Página 4 .

Desarrollar un modelo solución en la cual se describan los procedimientos para determinar un patrón de comportamiento. Entender el comportamiento de navegación del usuario.DESCRIPCION DEL PROBLEMA La necesidad de saber cómo se comportan los usuarios de paginas es debido a que no siempre las páginas Web son desarrolladas y diseñadas de una manera adecuada para que pueda ser fácilmente utilizada por los usuarios. La no disposición de los usuarios a navegar por paginas que no sean fáciles de usar . y no se conoce las necesidades y el comportamiento de los usuarios cuando navegan en las páginas web El incremento del uso de paginas web. permitiendo adaptar los sitios Web a sus necesidades Realizar mejoras en el sistema Modificar el sitio acorde a los patrones descubiertos Página 5 . Los usuarios no están dispuestos a aprender el funcionamiento de un sitio web concreto. Obtener la información para la personalización de los sitios Describir conceptos relacionados con las técnicas de reconocimiento de patrones de comportamiento. los programadores y diseñadores de pagina Web se enfocan mas en cómo es la lógica de negocio y como plasmarla en una página Web. Desarrollar un prototipo en base al modelo solución y que tenga como finalidad determine un parámetro que me identifique un patrón de comportamiento. pero no se toma en consideración como hacer más fácil su utilización para los usuarios en tal sentido muchas veces se le hace tedioso navegar por las paginas lo cual no es bueno para el dueño de la pagina. lo que hace necesario hacer un estudio sobre el comportamiento de los usuarios. y y y y OBJETIVO GENERAL Determinar el patrón de comportamiento de los usuarios de páginas Web. comenzar a operar y obtener resultados de manera inmediata. OBJETIVOS ESPECIFICOS         Entender la metodología para determina un patrón de comportamiento de un usuario de pagina Web. los usuarios quieren comprender el funcionamiento del sitio desde el primer momento.

. Justificación Tecnológica y La Caja Municipal del Santa Cuenta Con la tecnología necesaria para la implementación de una web mining. Justificación Económica y La caja Municipal del Santa cuenta Con Pagina Web lo que minimizaría los costos de implementación de una web Mining.JUSTIFICACION DEL PROYECTO La necesidad de identificar patrones de comportamientos de los usuarios Web es debido a que se necesita saber como es navegación de estos a través de una pagina Web para saber cuales son las preferencias del usuario y predecir lo que se está buscando para facilitar la tarea de navegación en una pagina Web a través de la modificación de esta como parte de los requerimientos que se tienen de los usuarios. Página 6 . además Justificación Operativa y La empresa tendrá mayor seguridad de la informac ión obtenida para los clientes. etc. y Mayor y mejor nivel de información dirigida al usuario. se necesita saber cómo los usuarios perciben la pagina Web si realmente tienen la información que requieren. etc. ANTECEDENTES Modelado de patrones de comportamiento Este estudio fue desarrollado por el departamento de Informática de Sistemas y Computadores de Universidad Politécnica de Valencia este estudio consiste en comprender y administra de una mejor manera la carga generada por los usuarios web. para poder saber cómo los usuarios percibe la pagina Web debemos saber cómo es que estos se comporta cuando navegan a través de esta. de noticias. el servicio que reciben por parte de pagina es el adecuado. en tal sentido la aplicación de este estudio está enfocado en la necesidad de saber cómo es el comportamiento de los usuarios Web de esta manera se busca mejorar la estructura de nuestra página en base a sus necesidades que se tenga de los usuarios. La comprensión de las características de la carga es un aspecto importante cuando se diseña y provee servicios web. Toda aquellas pág inas Web donde se comercialice algo o se quiera informar como por ejemplo en las páginas científicas. La mayoría de las técnicas para la caracterización de la carga actual de la web presenta limitaciones cuando tratan de representar las características dinámicas del comportamiento de los usuarios. proveedores y productos.

Puerto: Es por donde entran y salen las peticiones a la página Web. URL: Es la dirección secuencial de todos los módulos por donde ha navegado el usuario en la página Web. Parámetro de salida: es un parámetro numérico que nos indica si como es que ha sido la conexión del usuario con la pagina Web. como host.Cada petición o cada clic generan una entrada de un usuario en este archivo. IP del servidor: Es la dirección lógica donde está guardado la página Web.MARCO TOERICO 1. IP de usuario: Es la dirección lógica del host del usuario que ha ingresado a la página Web. 2xx: Nos Indica que el pedido de pági na ha sido exitoso. Nombre de Browser: Es el nombre de la interface con la cual el usuario puede contactarse con la pagina Web. 3xx: La transferencia de archivos a través de la página ha sido correcta. 5xx: Nos Indica que el pedido de página ha fallado. Hora de ingreso: Es la hora la cual ha ingresado el usu ario a la página Web.Archivo log Es un grupo de datos de un servidor web relacionado con la conexión. Aquel archivo es guardado en un servidor y en donde se registra ciertos parámetros como: y Fecha de ingreso: Es la fecha en la cual ha ingresado el usuario de la pagina Web.. y y y y y y y y Un archivo log físicamente es cómo podemos ver en la figura: Lectura del Archivo log: Para que nuestra data pueda ser leída por nuestro prototipo tanto el archivo log que esta nombrado por archlog y nuestro archivo log limpio (archlim) donde supuestamente se va ingresar nuestra información procesada y limpia deben ser cargadas a las siguien tes direcciones: Página 7 . identidad y autentificación de usuarios . Nombre de directorio: Nombre del directorio donde se guarda el archivo log.

es una poderosa tecnología nueva con gran potencial para ayudar a concentrarse en la información más importante de las bases de datos .Servidor web Es el lugar donde se almacena los archivos log. llamado Servidor Web.Patrón de Comportamiento El patrón de comportamiento es la representación de un comportamiento ante un determinado contexto y tiene como finalidad poder dar solución a un problema en específico.. etc.Data Mining Data Mining. iconos. el servidor escribe un alinea en el archivo log (access log) si la transacción falla. Página 8 . 4. estas herramienta explota n las bases de datos en busca de patrones ocultos.log C:\Data\archlim. redes neuronales o otra técnica.Pagina web Una página web es una fuente de información adaptada para la World Wide Web (WWW) y accesible mediante un navegador de Internet. pagina html y cada elemento nos contextual que contiene como botones.log 2.. ¿Cómo trabaja Data Mining? La técnica usada por Data Mining se llama modelado. 3. la extracción de información oculta y predecible de grandes bases de datos (DataWarehouse). Ejemplo: Para poder encontrar un patrón de comportamiento de los usuarios de paginas debemos estructurar un modelo es decir un conjunto de procesos a seguir para lograr el objetivo que es el reconocimiento de patrones de comportamiento para esto cada paso que se debe seguir en el Web Minig corresponde un proceso del modelo así también este modelo esta influenciado por la técnica con que se realiza el Web Minig que puede ser árboles de decisiones . modelado es simplemente el acto de construir un modelo en una situación donde se conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta.. las acciones que realiza el servidor en relaciona a los registro del archivo log son los siguiente: para cada fichero enviado al cliente (esto es. constituyendo la red enlazada de la World Wide Web. 5. vale recalcar que Web Mining es una tipo de Data Minig que esta orientado para el estudi o de datos en la Web. Las páginas web pueden ser cargadas de un ordenad or o computador local o remoto.y y C:\Data\archlog.. encontrando información predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. Esta información se presenta generalmente en formato HTML y puede contener hiperenlaces a otras páginas web.). Las herramientas de Data Mining predicen futuras tendencias y comportamientos. algunos servidores escriben en la línea en otro archivo: el registro de errores (error log).

-Este análisis es una extensión del modelo de regresión. En este sentido podemos definir el Web Mining en tres variantes: Web Content Mining (Minería de Contenido Web). de si la catalogación que usamos sirve para mejorar un ranking. Secuencias de patrones.-Esta extracción se refiere a patrones de navegación que podemos descubrir en nuestros usuarios y nos pueden servir para mejorar la misma. Web Usage Mining (Minería de Uso Web)..-Por lo general esta técnica es utilizada para descubrir la correlación ente los accesos de los clientes a varios archivos disponibles en el servidor. si la navegación se entiende. Página 9 . Path análisis.. si los temas que se tratan interesan o no.Técnicas del Data Mining Dependiendo de escenario y el entorno así como del tipo de estudio que se quiere realizar se escoge una determinada técnica para el proceso de Data Minino. -Esta técnica se basa en descubrir patrones en los cuales la presencia de un conjunto de ítems en orden temporal. Clustering. cuáles son las secciones menos visitadas y su relación con el lugar qu e ocupan en la página central.7. ). El Web Mining es una metodología de recuperación de la información que usa herramientas de la minería de datos para extraer información tanto del contenido de las páginas.. Cada transacción está conformada por un conjunto de URL accedidas por el cliente en una visita al servidor. si los elementos están colocados en los lugares adecuados dentro de la página. por ejemplo si el 80 % de nuestros usuarios re curren al campo de búsqueda cuando entran a nuestro sitio es que deberemos poner énfasis en la mejora de esa interfaz y que el motor que se encuentre detrás devuelva la información deseada.Web Mining En el presente estudio utilizaremos las técnicas de Web Mining es una tipo de Data Minig pero está orientado para el estudio de datos en la Web. si la estructura de sitio es demasiado ancha o demasiado profunda. comentaremos las más importantes. y podemos obtener datos acerca de la forma de escribir que sea más atractiva para el usuario. usada para probar las correlaciones entre dos a más modelos causales que están siendo comparados.Se centra en el contenido. Web Structure Mining (Minería de Estructura Web ).-La agrupación aromática de l os de clientes o datos con características similares sin tener una clasificación predefinida . Regla de asociación.-Obtenemos información acerca de si los usuarios encuentran la inf ormación. de su estructura de relaciones (enlaces) y de los registro de navegación de los usuarios. Analizando estos datos se puede determinar el comportamiento de los usuarios con respecto al tiempo. 8.

VARIABLES Variables Independientes Implementación de una Web Mining.Formulación del Problema ¿Cuál es el nivel de reconocimiento de patrones de comportamiento de usuarios para la Caja municipal del santa ? Hipótesis Implementación de una web M ining para el reconocimiento de patrones de comportamiento de usuarios para la Caja Municipal del santa. Hora de ingreso por usuario. Tipo de navegador Número de Usuarios que ingresan a la página por día. Población Todos los usuarios que ingresan a la página de la CMS Muestra La muestra es una muestra aleatoria = 915 Usuarios. Indicadores y y y y y y y y Fecha de ingreso por usuario. Hora de cierre por usuario. Variables Dependientes Reconocer los patrones de comportamiento de usuarios. Total de clics por usuario. IP de usuario Tiempo total de navegación por usuario. Página 10 .

Grupo 1 USUARIO Usuario 1 Usuario 2 Usuario 3 Usuario 4 Usuario N TIEMPO 100 s 250 s 90 s 85 s 95 s Grupo 2(Var. INDP. CLIC¶S 6 4 8 10 8 Grupo 2(Var.) USUARIO Usuario 1 Usuario 2 Usuario 3 Usuario 4 Usuario N NUM. en este caso la Implementación de una Web Mining INDICADOR: Número de usuarios que ingresan a la página por día Grupo 1 Fecha 25/08/2010 26/08/2010 27/09/2010 28/09/2010 29/09/2010 30/09/2010 Numero Usuarios 5 4 5 3 5 4 Grupo 2(Var. Grupo 1 USUARIO Usuario 1 Usuario 2 Usuario 3 Usuario 4 Usuario N NUM.) Fecha 07/10/2010 08/10/2010 09/10/2010 10/10/2010 11/10/2010 12/10/2010 Numero Usuarios 15 12 10 15 16 14 INDICADOR: Tiempo total de navegación por usuario /Segundos. INDP. INDP. CLIC¶S 12 15 16 13 14 Página 11 .) USUARIO Usuario 1 Usuario 2 Usuario 3 Usuario 4 Usuario N TIEMPO 115 s 300 s 120 s 115 s 130 s INDICADOR: Total de clics por usuario.DISEÑO EXPERIMENTAL Experimento En las siguientes Graficas se muestra el resultado de haber aplicado la variable independiente .

00 ----100.00 2000.00 2000.00 1500.00 2000.00 28.00 80. Bienes Descripción Unidad Cantidad Costo unitario U$$ Equipos: Costo total U$$ Unidad Meses Meses Meses Citas Cantidad 2 1 1 1 Costo unitario U$$ 1500.00 2000.PRESUPUESTO El Proyecto de Tesis Esta planificado para 4 Meses Recursos: 1.00 100.00 2000.00 Costo total U$$ 3000.00 7.00 9000.00 Software: ----100.00 50.00 Total Impresora Scanner Computadora Memoria USB MYSQL WAMP-Server Dream Weaver Papel Cartuchos Tinta libros de Equipo Equipo Equipo Equipo Licencia Licencia Licencia Millar 1 libros 1 1 1 1 1 1 1 2 2 4 100.00 2000. Personal Descripción Investigador Analista de BD Desarrollador Web Asesoría Técnica TOTAL 2.00 100.00 50.00 100.00 2008.00 Materiales: Página 12 .00 20.00 100.00 1500.

00 2428.00 120.00 80.00 10 200.00 800.00 1.00 800.00 $ 10728.00 480.00 Página 13 . Servicio Descripción Asesoría Energía Internet Transporte Fotocopiad TOTAL Horas Horas Viajes Hoja 150 150 80 100 50.3.00 40.00 Unidad Cantidad (Mes) Costo unitario U$$ Costo total U$$ RESUMEN: COSTO TOTAL: Personal Bienes Servicios Total 7500.

CRONOGRAMA DE ACTIVIDADES (Anexo MS-Project) Página 14 .

Página 15 . lo cual facilita aun más la implementación de una web mining.RECOMENDACIONES  Se Debe implementar una web mining ya que nos brinda la posibilidad de tener acceso a información detallada de los usuarios de las páginas web obteniendo así los datos necesarios para poder fidelisar a nuestros clientes.  El Desarrollo de una web mining no demanda de un gran presupuesto y su implementación es a corto plaxo lo que lo hace fácil de implementar en cualquier organización .  La web mining deben verse como oportunidades sinprecedentes para la obtención de información que antes no estaba a la mano y el mejoramiento de los procesos dentro de una página web.  El número de usuarios de la web cada día es mayor lo cual hace urgente la implementación de una web mining. esto hace indispensable la implementación de una web mining.  La web mining juega un rol importante para lograr la efectividad en las relaciones de patrones interesantes de comportamiento de usuarios ante una web.  La web es uno de las aplicaciones o fenómenos más importantes que han surgido en los últimos tiempos.  La Gran parte de Empresas y Organizaciones ya cuentan con una página web o sitio web. y la web mining nos da la oportunidad de descubrir un medio significativo para exponer riquezas de información.  En la actualidad la Web es muy utilizada por diferentes tipos de us uarios y con diferentes necesidades.

De estos porcentajes podemos conc luir que la mayor cantidad de usuarios solamente estuvieronnavegando por la pagina principal esto puede ser debido a que los usuarios no encontraron la información y por ende solo se dedicaron a navegar por la pagina principal se puede afirmar estopor que el tiempo de las sesiones que ha navegado solo en la pagina principal es en promedio 3 minutos. Usuarios que ingresaron directamente a una pagina determinada sin necesidad de pasar previamente por la pagina principal. La web mining en los últimosaños esto se ha potenciado fuertemente en virtud del gran aumento en volumen deltráfico. características. La web mining es un área con expectro amplio de investigación. tamaño y complejidad de las fuentes de información disponibles en la Web yel reciente interés en el desarrollo aplicaciones para el comercio electrónico. En estedocumento se hace una simple aproximación para tener ciertas bases en proyectosprofundos de investigació n. teniendo en cuenta características común cada uno de estos grupos est án conformadas por sesiones que tienen características que están determinadas por la secuencia de paginas que han navegado los usuarios de las sesiones. estas secuencias estar determinadas por tres criterios que son : y y y Usuarios que solo visitaron la pagina principal y no ingresa ron a otra pagina. El presente estudio tiene como finalidad determinar el comport amiento de un usuario de página Web estableciendo para esto una metodología basada en el Web Mining mediante la cual desarrollamos un conjunto de etapas que tiene como finalidad ex traer información importante de fuentes de datos habitualmente no explotadas. Lainiciativa privada actualmente es el principal precursor de que la información seaparticular para cada individuo creando sistemas que incorporan personalizaciónconstruyen modelo s de los objetivos. La técnica utilizada es la Clustering mediante la cual se generan grupos de sesiones. Página 16 . para nuestro caso estas fuentes son los archivos log de los servidores Web que a través de uso de la metodología Web Mining y la técnica Clustering se busca extraer la información sobre el comportamiento de los usuarios Web. particularmente debido alos avances de la comunidad científica en distintas líneas de investigaciónrelacionadas con Data Mining orientado a la www.CONCLUSIONES La Web Mining ha despertado gran interés en la actualidad. Usuarios que ingresaron a una pagina determinada a través de la página principal. preferencias y conocimientos decada usuario. Se puede Observarque hubo un aumento en la cantidad de usuarios que visitaron la páginadespués de la implementación de web Mining .

QUETGLÁS Gregorio. Man and Cybernetics (SMC '99). [CONCYTEC] Consejo Nacional de Ciencia. Página 17 . 7. Huang. 137-141.39 -48.di. Page 1 -9. Park J. Ingeniería) 3. Kosala. [CER2002] CERNUDA del Río Agustín. R. El modelo de desarrollo para un Proyecto Fin de Carrera en Ingeniería Técnica en Informática. 6.pdf. 2.(1996) Data mining for path traversal patterns in a web environment . 81 4.concytec. Disponible en www. Int'l Conf. and Blockeel. 2005. B. Pobrete. Newsletter of the Special Intere st Group on Knowledge Discovery andData Mining.org. pp. Departamento de Informática Universidad de Oviedo. vol. pp.gob.es/~cernuda/pubs/jenui2002 -1. Web Mining: Knowledge Discoveryon the Web Proc. ³Una herramienta de minería de consultas para eldiseño del contenido y la estructura de un sitioWeb´ Actas del III Taller Nacional deMinería de Datos y Aprendizaje TAMIDA2005´. y Yu P. 2000. ISBN 84 -205-3560-5. Wang.wikipedia. www. G. Escuela Universitaria de Ingeniería Técnica en Informática de Oviedo. 385 ± 392 2. Tecnología e Innovación Tecnológica http://portal. 16 th International conference on distributed computing system Pág.pe/portal/paginas/index.En : Proc. tér 3. and F. 2002. Frequent Pattern Mining in Web Log Data : Budapest University of Technology and Economics. Hungary Autor: Renata Ivancsy. H -1111 Budapest. Wu. Web Mining Research: A Survey. QA 76. 9. Baeza-Yates.jsp 5. R.uniovi. Istvan Vajk Pag. 8.27 D199 (Bib. El proyecto Fin de Carrera en Ingeniería Informática: Una Guía para el Estudiante. J. Madrid: Prentice Hall.BIBLIOGRAFÍA 1. [DAW2002] DAWSON Christian. Systems. H. Y. ACM SIGKDD Explorations. Zhang. Chen M. Goldmann Gy.

87 % . .EX S m E m i l E I I E S i i Usuari Usuari Usuari Usuari 4 « Usuario N / / / / 13/11/10 14/11/10 « 14/11/10 .70 % etS ape 17 1.1.65 % era 158 17.156.162. .12 « 84.87 % ila iref 253 27.00 1747 P i 18 £¢ ¡   . 123. . : : : 12:13: 01:00:15 « 03:05:10 am am am m m .65 % snboort 43 4. 10. . .69. % A suarios Internet Explore Mozila Firefox Opera Safari Msnboort NetScape Especificaci de Datos mes) Parámetro otal e Visitas ontadas iempo Promedio(Segundos) ínimo de tiempo(Segundos) imo de iempo(Segundos) Valor 915 200.168 IP i I I i m l li 09 12 « 08 E l re iref E l re era « Safari mes) i : mi : mi 04: mi 07:53 mi « 09:58 mi m arati a avegadores sados or los Grafi a VEGADOR S ARIOS PORCE AJE I ternet E l re 374 40.53 0. . : : : 12:18: 2 01:08:12 « 03:15:08 am am am m m .27 % Safari 70 7.

Sign up to vote on this title
UsefulNot useful

Master Your Semester with Scribd & The New York Times

Special offer: Get 4 months of Scribd and The New York Times for just $1.87 per week!

Master Your Semester with a Special Offer from Scribd & The New York Times