Selección de Caracteristicas Usando Algoritmos Geneticos para La Clasificacion de Vinos Chilenos

Seleccin de Caractersticas usando Algoritmos Genticos para Clasificacin de Vinos Chilenos
S.A. Salah+, M.A. Duarte-Mermoud+* , N.H. Beltrn+, M.A. Bustos +, A.I. Pea-Neira++, E.A. Loyola ++, and J.W. Jalocha ++ + Depto. de Ing. Elctrica, Universidad de Chile Av. Tupper 2007, Casilla 412-3, Santiago, Chile ++ Depto. de Agroindustria y Enologa, Universidad de Chile Av. Santa Rosa 11315, Santia go, Chile e-mail: mduartem@cec.uchile.cl
Resumen
En este trabajo se presentan los resultados de aplicar algoritmos genticos, para seleccionar las caractersticas ms relevantes presentes en cromatogramas de compuestos polifenlicos obtenidos mediante un HPLC-DAD, para el caso de muestras de vinos tintos chilenos Cabernet Sauvignon, Carmenere y Merlot. De los 6751 puntos originales del cromatograma, el algoritmo gentico fue capaz de seleccionar finalmente 29 de ellos, con los cuales se obtuvo un resultado superior, desde el punto de vista de clasificacin, comparado con el caso en que se emplea la informacin completa. El porcentaje de clasificacin correcta alcanzado con estas 29 caractersticas result ser 99,1%. Palabras Claves: Procesamiento de seales, Algoritmos Genticos, Clasificacin de Vinos.
1.0 Introduccin
La industria del vino chileno ha experimentado un notable crecimiento en el ltimo tiempo, acorde con la expansin del mercado de los vinos en el mundo entero. Chile export del orden de US $ 570 millones en el 2000, casi US $ 600 millones en el 2001 y se espera que en el 2002 esa cifra llegue a 650 millones de dlares, constituyndose en un sector importante en cuanto a exportaciones, de acuerdo a cifras de Vias de Chile. Simultneamente, la industria vitivincola chilena ha tenido un gran desarrollo en el ltimo tiempo incorporando nuevas tecnologas tanto en el proceso cosecha como en el de vinificacin. Es as como el vino est siendo sometido a diversos controles de calidad, para asegurar que el producto que se est ofreciendo corresponda realmente al que se est entregando. Los mtodos de clasificacin de las variedades de las uvas con las que se elaboran los vinos juegan un importante papel en este sentido. Durante las dos ltimas dcadas ha habido un inters creciente en el empleo de tcnicas de clasificacin de vinos que permitan clasificar tanto la variedad de los vinos como su lugar de produccin (denominacin de origen). Dicha clasificacin se ha realizado procesando informacin correspondiente a caractersticas fsicas (color, densidad, conductividad, etc.), qumicas (fenoles, antocianos, aminocidos, etc. [19,20]) y organolpticas (aromas, sabores, etc. [21]). Esta informacin ha sido procesada mediante una serie de tcnicas, entre las que se pueden citar mtodos estadsticos (tales como anlisis discriminante, componentes principales, transformacin de Fisher, etc. [17]), redes neuronales artificiales (perceptrones, RNA multicapas, RNA con funciones de base radial, etc. [18]) y algoritmos genticos [12,13,14,15]. 1
Por otra parte, la importancia del proceso de seleccin de caractersticas en cualquier problema de clasificacin, se pone de manifiesto puesto que permite eliminar las caractersticas que puedan inducir a error (caractersticas ruidosas), las caractersticas que no aporten mayor informacin (caractersticas irrelevantes) o aquellas que incluyen la misma informacin que otras (caractersticas redundantes) [1]. Este proceso tiene como ventaja la obtencin de una disminucin en los tiempos de procesamiento de los datos, menor requerimiento en los espacios donde se almacena la informacin, menor costo en la obtencin de los datos (la definicin de caractersticas especficas permite desarrollar sensores especficos para obtenerlas) y lo ms importante es la seleccin de un subconjunto de las caractersticas originales que aportan la mayor cantidad de informacin para un problema en particular. En este trabajo se presenta una metodologa para seleccionar las variables ms importantes para fines de clasificacin de cepas de vinos, provenientes de la informacin obtenida de cromatogramas de compuestos polifenlicos de muestras de vinos, obtenidos mediante un HPLC-DAD. En la Seccin 2 de este trabajo se realiza una breve explicacin de los mtodos de seleccin de caractersticas actualmente en uso. En la Seccin 3 se describe la informacin utilizada para este estudio, indicando de manera general la forma de generar los datos. En la Seccin 4 se describe la metodologa utilizada para realizar la seleccin de caractersticas y en la Seccin 5 se muestran los resultados obtenidos. Finalmente en la Seccin 6 se presentan las principales conclusiones acerca de este trabajo y las futuras lneas de desarrollo que se advierten.
2.0 Mtodos de Seleccin de Caractersticas

En general, en los procedimientos de seleccin de caractersticas se distinguen cuatro etapas esenciales [2]: 1. Procedimiento de Seleccin: en esta etapa se determina el posible subconjuto de caractersticas para realizar la representacin del problema 2. Funcin de Evaluacin: en esta etapa se evala el subconjunto de caractersticas escogidas en el punto anterior. 3. Criterio de Detencin: se chequea si el subconjunto seleccionado satisface el criterio de detencin de la bsqueda. 4. Procedimiento de Validacin: esta etapa se utiliza para verificar la calidad del subconjunto de caractersticas que se determinaron. El procedimiento general de seleccin de caractersticas se ilustra en la Figura 1. Los mtodos de seleccin de caractersticas se clasifican desde el punto de vista de la manera en que se determina el nuevo subconjunto a evaluar, lo que conduce a 3 clases mtodos [2]. 1. Mtodos Completos. Estos mtodos examinan todas las posibles combinaciones de caractersticas. Son muy costosos computacionalmente (espacio de bsqueda de orden O(2N) para N caractersticas) pero se asegura encontrar el subconjunto ptimo de caractersticas. Como ejemplos de estos mtodos se puede citar Branch and Bound[3] y Focus [4]. 2. Mtodos Heursticos. Utilizan una metodologa de bsqueda de forma tal que no es necesario evaluar todos los subconjuntos de caractersticas. Ello significa una mayor velocidad del mtodo, ya que el espacio de bsqueda es menor que en los mtodos 2
anteriores. Estos mtodos no aseguran la obtencin del mejor sub-conjunto. A modo de ejemplo es interesante citar en esta categora los mtodos Relief [5] y DTM [6]. 3. Mtodos Aleatorios. Son aquellos mtodos que no tienen una forma especifica de definir el subconjunto de caractersticas a analizar, sino que utilizan metodologas aleatorias. Con ello se produce una bsqueda probabilstica en el espacio de caractersticas. El resultado obtenido utilizando este tipo de mtodos depender del nmero de intentos, no asegurndose la obtencin del ptimo. Pertenece a este grupo los mtodos presentados en LVW [7] y algunos que utilizan algoritmos genticos [8].
Set Original de Caractersticas
Subconjunto de Caracterticas
Seleccin
Evaluacin
Validacin
NO
Criterio de Detencin
SI
Subconjunto de Caractersticas Seleccionado
Figura 1.- Procedimiento general de seleccin de caractersticas. Desde el punto de vista de la funcin de evaluacin, los procedimiento de seleccin de caractersticas se pueden clasificar en 2 categoras [9]. 1. Mtodos de filtraje. Estos son mtodos donde el procedimiento de seleccin es realizado en forma independiente a la funcin de evaluacin (clasificacin). Se pueden distinguir 4 diferentes medidas: distancia, informacin, dependencia y consistencia. Como ejemplo de estos mtodos tenemos Relief [5], DTM [6], POE&ACC [10] y Focus [4] respectivamente. 2. Mtodos dependientes (wrapped). En estos mtodos el algoritmo de seleccin utiliza como medida la tasa de error del clasificador. Se obtienen generalmente mejores resultados que en el caso anterior, pero trae consigo un costo computacional mucho mayor. En esta categora se tienen mtodos como Oblivon [11].
3.0 Datos Experimentales

La informacin utilizada en este estudio corresponde a la contenida en los cromatogramas de compuestos fenlicos de pequeo peso molecular de muestras de vinos tintos chilenos. Estos fueron obtenidos mediante un anlisis por cromatografa lquida de alta eficacia (HPLC) acoplada a un detector de fotodiodos alineados (DAD) [19]. El equipo es un cromatgrafo de lquidos MerckHitachi, modelo L-4200 UV-Vis Detector con bomba modelo L-600 y portacolumna Thermostat. La columna utilizada correspondi a una Novapack C18 , de 300 mm de longitud y 3,9 mm de dimetro 3
interno. Para la separacin de los diferentes compuestos fenlicos en el equipo se utilizaron como solventes: A: 98% H O, 2% cido actico; B: 78% H2 O, 20% acetonitrilo, 2% cido actico; C: 2 100% acetonitrilo. El gradiente utilizado fue: 0-55 min. 100% de A (flujo de 1 mL/min); 55-57 20% de A y 80% de B (flujo de 1 mL/min); 57-90 min. 10% de A y 90% de B (flujo de 1,2 mL/min). Cada cromatograma consta de 6751 puntos y cada peak presente corresponde a un compuesto fenlico especfico. Estos compuestos han sido mayoritariamente estudiados e identificados por qumicos y agrnomos que trabajan en esta rea [19,22,23]. Antes de procesar la informacin se procedi a normalizar la informacin contenida en los cromatogramas, a objeto de evitar distorsiones, esto debido a que el tamao de los peaks depende de la cantidad de vino que se inyecte al cromatgrafo. En algunos casos se inyectaron 20 ml y en otros casos se inyectaron hasta 100 ml de muestra preparada. Esto trae como consecuencia que los peaks (que corresponden a las concentraciones de cada componente) tengan diferentes magnitudes. Debido a esto se rest a cada cromatografa el mnimo de cada una y luego se dividi por el valor del peak ms grande, obtenindose luego los valores de las cromatografas entre 0 y 1, lo que permite comparar los peaks de las diferentes cromatografas. A modo de ejemplo, en la Figura 2 se muestra un cromatograma fenlico tipo para vinos chilenos de la cepa Cabernet Sauvignon.
Cromatografia de Polifenoles para un vino Cabernet Sauvignon 1 0.9 0.8 Concentracion normalizada 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
10
20
30
40 50 Tiempo [min]
60
70
80
90
Figura 2.- Cromatograma fenlico tipo normalizado de un vino chileno Cabernet Sauvignon.
Para la realizacin de este estudio se dispone de datos de vinos tintos de distintos valles y de distintas cepas, los cuales se resumen en la Tabla 1.
Cepa Carmenere Cabernet Sauvignon Merlot Total
Muestras N 1-49 50-74 75-111
Cantidad de Muestras 49 25 37 111
Tabla 1.- Distribucin de las muestras empleadas en el estudio.
4.0 Descripcin de la Metodologa utilizada

Debido al alto numero de caractersticas que posee cada muestra, la bsqueda de las caractersticas que contengan mayor informacin acerca del problema, se puede transformar en un proceso que necesita demasiados clculos. A esto se debe agregar el problema introducido por el escaso nmero de muestras existentes para realizar la clasificacin (lo que impide utilizar algunos clasificadores debido a que el nmero de caractersticas por muestra es mayor que el nmero total de muestras). Por esta razn en este estudio se opt por realizar esta bsqueda mediante una metodologa que produzca un procesamiento en paralelo de las posibles soluciones a escoge r, utilizando para ello algoritmos genticos. Los algoritmos genticos [12] corresponden a una de las distintas tcnicas conocidas bajo el nombre de computacin evolucionaria, que estn inspiradas en el concepto de la evolucin biolgica. La idea principal es que cada individuo de una poblacin representa una posible solucin al problema de optimizacin que se desea resolver y de acuerdo a la adaptacin de cada individuo al problema presentado (medida dada por una funcin objetivo determinada), se producir la evolucin de la poblacin. Con ello se generan nuevas posibles soluciones que correspondern al resultado de procesos de recombinacin de los distintos individuos iniciales. Tambin se puede considerar la introduccin de nuevas soluciones realizando mutaciones sobre los individuos existentes. Existen diversas formas de aplicar los algoritmos genticos. Estas varan de acuerdo a los mtodos de seleccin empleados (mtodos con los cuales se seleccionan los individuos que darn paso a la siguiente generacin), donde destacan los mtodos de seleccin proporcional [13], seleccin por torneo [14] y seleccin mediante ranking [15]. Tambin se puede utilizar distintas metodologas crossover (proceso mediante el cual se crean dos nuevos individuos a partir de dos padres) y de mutacin (modificacin aleatoria de individuos ya existentes). Para determinar el mejor subconjunto de caractersticas, se escogi algoritmos genticos de nichos y en particular los denominados Deterministic Crowding [16], los cuales permiten encontrar mltiples soluciones. Esta ltima caracterstica puede ser particularmente atractiva en el problema que aqu se est estudiando. En efecto, la obtencin de un subconjunto de caractersticas de los vinos (que corresponde a un conjunto de compuestos fenlicos especficos), podra significar un grado de dificultad mayor en su determinacin experimental que otro subconjunto de caractersticas diferente, pero que otorgue un desempeo similar desde el punto de vista de clasificacin.
Para la utilizacin un algoritmo gentico se debe realizar una secuencia de pasos que se describe a continuacin. 1. Codificacin de los individuos. Para realizar la codificacin de cada individuo, que corresponde a un posible sub-conjunto de caractersticas, se ut ilizan tiras binarias de largo N, donde N corresponde al nmero de caractersticas existentes para la descripcin del problema ( Ver Figura 3). En el presente caso cada caracterstica corresponde a un punto del cromatograma y N=6751. La existencia de un 1 en la posicin i indica que la caracterstica i de la muestra debe ser considerada para realizar la clasificacin. Car N1 1 Car N6571 0
...
Figura 3.- Ejemplo de un individuo a considerar. Para comenzar el desarrollo del algoritmo se debe definir el nmero de individuos Ni que se considerar en cada generacin. Esta determinacin tendr directa relacin con la cantidad de cmputos que se deber realizar y con la convergencia del algoritmo a una solucin ptima. Dado un mayor nmero de individuos, se realizar una mayor exploracin por cada generacin, lo que necesita tambin un mayor nmero de cmputos. En el caso de un algoritmo gentico que no fuese de nichos, este nmero Ni tambin tendr relacin con la presin selectiva que se puede medir segn el nmero de generaciones que tarda el mejor individuo de una poblacin en llenar de copias de s mismo toda la poblacin. En el caso particular de la metodologa utilizada, luego de una serie de consideraciones y ensayos se defini que el nmero de individuos sera Ni=150. Segn la funcin de evaluacin que se considere, la cantidad de clculos para determinar el desempeo (fitness) de cada individuo podra variar obtenindose un algoritmo que tarde un tiempo mayor o menor en realizar los clculos por cada generacin. Otro factor a considerar es la diversidad gentica que se introduce en la poblacin inicial. Por ejemplo, si en un problema de seleccin con N=50 caractersticas se utilizan Ni=4 individuos que representen subconjuntos de a lo ms 10 caractersticas cada uno, en el mejor de los casos (si es que los subconjuntos fuesen disjuntos) se estaran considerando en la bsqueda 40 caractersticas (10 por cada individuo) y habran 10 caractersticas que no estaran siendo consideradas en el espacio de bsqueda. Es por eso que mientras ms grande sea la poblacin inicial se introducir una mayor diversidad gentica, puesto que en el mismo ejemplo si se utilizasen 10 individuos en donde sus caractersticas fuesen elegidas de forma aleatoria, existe una alta probabilidad que se estn considerando todas las caractersticas en la bsqueda al menos en una oportunidad, siendo esta otra herramienta que se puede utilizar para introducir esta diversidad es la mutacin. Una vez definido el nmero de individuos Ni de la poblacin, se deben definir las caractersticas de los individuos de la poblacin inicial. Esto se realiz en forma aleatoria, procurando que cada individuo no incluyese un nmero de caractersticas mayor que 80 (Nc = 80), debido a que se dispone de slo 111 muestras y al tener un nmero mayor de caractersticas que de muestras no se puede utilizar el clasificador LDA (Linear Discriminant Analysis) seleccionado para este estudio. 6
2. Funcin de adaptacin de cada individuo (Fitness). Para definir el desempeo o fitness de cada individuo, dado que el objetivo es de seleccionar las caractersticas que aportan mayor informacin para la clasificacin de los vinos, se utiliz el desempeo de un clasificador LDA, que corresponde al clasificador lineal de Fisher [17]. Este clasificador utiliza la Transformacin de Fisher, que corresponde a la transformacin lineal que maximiza la distancia entre clases y minimiza la distancia de cada clase, y se consider adems la metodologa leave-one-out, que consiste en disear el clasificador utilizando todas las muestras menos una y posteriormente se evala la clasificacin de la muestra que se excluy del diseo del clasificador. Este procedimiento se realiza excluyendo todas las muestras y se calcula el error correspondiente al nmero de muestras mal clasificadas dividido por el nmero de muestras totales. Esto ltimo se decidi debido a que no se dispone de un nmero suficientemente grande de muestras, lo que hubiese permitido utilizar diferentes conjuntos para el diseo del clasificador y un conjunto de prueba ms grande. Esta metodologa corresponde a una metodologa del tipo wrapped, puesto que se utiliza como medida de desempeo el porcentaje de clasificacin correcta del clasificador. 3. Seleccin de la poblacin de la siguiente generacin. Con el objeto de seleccionar la poblacin de la siguiente generacin, se utiliz el denominado crowding determinstico. Ello corresponde a realizar una seleccin aleatoria de dos padres (permitindose solamente una vez la eleccin como padre de cada individuo, lo que permite que todos los individuos de una generacin sean en algn momento considerados como padres para la generacin siguiente) recombinndolos en forma discreta, es decir para cada variable de cada individuo de la poblacin intermedia se escoge aleatoriamente con igual probabilidad la variable que posee uno de los padres. La poblacin intermedia corresponde a una poblacin de individuos que son posibles candidatos a ser considerados como parte de la generacin siguiente y recibe este nombre puesto que se genera cada vez entre la generacin n y n+1. Cada par de padres dar origen a dos individuos de la poblacin intermedia, los cuales se evalan con respecto a aquel padre ms parecido (en distancia de Hamming sobre los individuos [16]), escogindose para la prxima generacin los dos individuos de mejor performance de cada una de las comparaciones entre padres e individuos de la poblacin intermedia. Esto asegura que se mantengan los distintos posibles subconjuntos de caractersticas que solucionan el problema, puesto que si existen individuos que consideran una caracterstica similar (lo que implica que su distancia de Hamming sea menor) estos se compararn entre si y no con un individuo que considere caractersticas extremadamente diferentes.
5.0 Resultados Obtenidos

Aplicando la metodologa explicada en la Seccin 4 a la informacin descrita en la Seccin 3, se obtuvo una serie de resultados que se presentan a continuacin. Inicialmente se logr correr el algoritmo hasta un punto en el cual se obtena una clasificacin correcta de un 89%, considerando solamente 64 de las 6571 caractersticas. A partir de ese momento no se poda seguir ejecutando el algoritmo, debido a que se encontraban subconjuntos de caractersticas en los cuales la matriz de correlacin de los datos no era invertible, lo que indicaba que esas caractersticas eran linealmente dependientes. Para solucionar este problema, cada vez que 7
apareca un individuo que planteaba como potencial solucin una de ese estilo, simplemente se eliminaba, puesto que no es de inters encontrar subconjuntos de caracterstica que estn correlacionados entre s. Posteriormente se obtuvo un resultado que consideraba tan solo 26 caractersticas, el cual entregaba un porcentaje de clasificacin correcto de un 98,2%, lo que fue bastante alentador. Otra soluci n posible encontrada gener un sub-conjunto de 32 caractersticas que tambin entreg un porcentaje de clasificaciones correctas de 98,2%. Pero, debido al tamao de la poblacin utilizada (150) y al gran tamao de los datos (6751), posiblemente no se haban considerado todas las opciones para la bsqueda del ptimo o bien alguna opcin haba sido eliminada tempranamente. Por ello se defini una nueva poblacin obtenida en forma aleatoria, en la cual se incluyeron los tres mejores individuos de las simulaciones anteriores (mejores individuos obtenidos despus de 270 generaciones, ya que como se aprecia en la Figura 4 no se tenan mayores mejoras en los porcentajes de clasificaciones correctas al aumentar el nmero de generaciones por sobre 270), los cuales eran diferentes pero entregaban distintos resultados. Este mismo efecto podra haberse logrado si se hubiera incluido mutacin en el algoritmo para aumentar la diversidad gentica, es decir incluir nuevas posibles soluciones. Este proceso entreg como resultado dos posibles subconjuntos de individuos que entregaban un 99.1% de clasificacin correcto, utilizando uno 29 caractersticas y el otro subconjunto de 34 caractersticas. En la Figura 4 se puede apreciar como la poblacin del algoritmo gentico va mejorando su performance a medida que aumentan las generaciones. En la Figura 4 se muestran tres curvas; la superior corresponde al porcentaje de clasificacin correcto del mejor individuo de cada generacin (subconjunto de caractersticas utilizadas), la segunda corresponde al promedio de clasificacin correctos de la poblacin completa, y la curva inferior corresponde al porcentaje de clasificacin correcto del peor individuo de cada generacin.
Evolucion del Algoritmo Genetico 100 90 Porcentaje de clasificaciones correctas 80 70 60 50 40 30 20 10 0 Mejor individuo de la poblacion Promedio de la poblacion Peor individuo de la poblacion 0 50 100 150 Generacion 200 250 300
Figura 4.- Evolucin del porcentaje de clasificacin correcto en funcin de las generaciones. 8
Tal como se coment con anterioridad, la gracia de utilizar algoritmos genticos de nichos es la posibilidad de encontrar ms de una solucin factible al problema de optimizacin planteado. Luego de introducir los tres mejores individuos de las simulaciones anteriores en una nueva poblacin, se obtuvo 2 nuevos conjuntos de caractersticas diferentes que entregaban un porcentaje de clasificaciones correctas de un 99,1%. Este porcentaje de clasificacin correcta indica que slo una de las 111 muestras fue mal clasificada cuando le fue presentada al calsificador. En la Figura 5 se muestra un posible sub-conjunto con 29 caractersticas que entrega este porcentaje de clasificacin. Posteriormente en la Figura 6 se muestra otro posible sub-conjunto con 34 caractersticas que entrega el mismo porcentaje de clasificaciones correctas, en ambas figuras l s a lneas verticales corresponden a las caractersticas seleccionadas en cada caso.
Caracteristicas seleccionadas (29 caracteristicas) 1 0.9 0.8 Concentracion normalizada 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
10
20
30
40 50 Tiempo [min]
60
70
80
90
Figura 5.- 29 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un porcentaje de clasificaciones correctas de un 99,1%.
Caracteristicas seleccionadas (34 caracteristicas) 1 0.9 0.8 Concentracion normalizada 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
10
20
30
40 50 Tiempo [min]
60
70
80
90
Figura 6.- 34 mejores caractersticas seleccionadas por el AG. para la muestra 50 y que entregan un porcentaje de clasificaciones correctas de un 99,1%. El caso mal clasificado que se obtiene utilizando la metodologa leave-one-out, ocurri cuando se entren el clasificador con todas las muestras menos la muestra 53, que corresponde a un Cabernet Sauvignon, y luego se intent clasificar esa muestra con el clasificador obtenindose como resultado que sta era un vino Merlot. Esta situacin se representa en la Figura 7, en la cual se han graficado las clases transformadas linealmente utilizando la transformacin de Fisher donde se aprecia claramente al individuo mal clasificado.
10
Distribucion de los individuos despues de la transformacion de Fisher 4 3 2 Segunda componente de Fisher 1 0 -1 -2 -3 -4 -5 -6 -6 Carmenere Cabernet Sauvignon Merlot Individuo mal evaluado
-4
-2 0 2 Primera componente de Fisher
Figura 7.- Situacin en la que se produce un problema de clasificacin.
6.0 Conclusiones
De los resultados obtenidos se aprecia que se puede escoger un conjunto pequeo de 29 ( 34) caractersticas de la muestra inicial (0.4%) que sirve para discriminar adecuadamente (99.2%) las clases de la muestra (1 error de clasificacin de las 111). Estas 29 caractersticas corresponden a 29 compuestos qumicos que contienen la mayor informacin que permiten diferenciar entre una cepa y otra. Otro punto interesante del estudio es que se pueden determinar distintos sub-conjuntos de caractersticas que entregan el mismo porcentaje de clasificacin correcta, lo que permite dar cierta flexibilidad en relacin a los componentes que aparecen como los ms importantes. Ello permite entregar informacin a enlogos sobre los compuestos ms importantes que determinan a cada clase. Del estudio surge la necesidad de contar con un mayor nmero de datos para poder generalizar los resultados, utilizando este nuevo sub-conjunto como conjunto de prueba, para afirmar que los componentes (caractersticas) determinadas a travs de esta metodologa son los que realmente determinan un las clases de vinos estudiadas en este paper. Una alternativa interesante es incorporar al procedimiento empleado una funcin objetivo que penalice el nmero de caractersticas relevantes. Con ello no slo se considerara el porcentaje correcto de clasificacin sino tambin el nmero ms pequeo posible de caractersticas que cumplen con ese objetivo. 11
Agradecimientos
Los resultados obtenidos en este trabajo han sido financiados por CONICYT-Chile, a travs del proyecto FONDEF D01-1016 Identificacin varietal de vinos chilenos mediante instrumentacin inteligente
Bibliografa
[1] Blum A. L. and Langley P., Selection of relevant features and examples in machine learning Artificial Intelligence, Vol. 97, Nos. 1-2, 1997, pp. 245-271. [2] Dash M. and Liu H., Feature selection for classification Intelligent Data Analysis, Vol. 1, 1997, pp. 131-156. [3] Narendra P. M. and Fukunaga K., A branch and bound algorithm for feature selection. IEEE Transactions on Computers, Vol. 26, September 1977, pp. 917-922. [4] Almuallin H. and Dietterich T. G., Learning with many irrelevant features. Proceedings of Ninth National Conference on Artificial Intelligence, MIT Press, Cambridge, Massachusetts, 1992, pp. 547-552. [5] Kira K. and Rendell L. A., The feature selection problem: Traditional methods and a new algorithm. Proceedings of Ninth National Conference on Artificial Intelligence, MIT Press, Cambridge, Massachusetts, 1992, pp. 129-134. [6] Cardie C., Using decision trees to improve case-based learning. Proceedings of Tenth International Conference on Machine Learning, Morgan Kaufmann Prublishers, University of Massachusetts, Amherst, June 1993, pp. 25-32. [7] Liu H. and Setiono R., Feature selection and classification A probabilistic wrapper approach. Procedings of Ninth International Conference on Industrial and Engineering Applications of AI and ES, Fukuoka, Japan, June 1996, pp. 419-424. [8] Vafaie, H. and Imam, I.F., "Feature selection methods: Genetic algorithm vs. greedy-like search," Proceedings of the 3rd International Fuzzy Systems and Intelligent Control Conference, Louisville, KY, March 1994. [9] John G. H., Kohavi R. and Pfleger P., Irrelevant features and the subset selection problem. Proceedings of the Eleventh International Conference on Machine Learning. New Brunswick, Morgan Kaufmann, 1994, pp. 121-129. [10] Mucciardi A. N. And Gose E.E., A comparison of seven techniques for choosing subsets of pattern recognition, IEEE Transactions on Computers, Vol. 20, September 1971, pp.1023-1031. [11] Langley P. and Sage S., Oblibious decision trees and abstract cases. Working Notes of the AAAI94 Workshop on Case-Based Reasoning, Seattle, WA: AAAI Press, 1994, pp.113-117. 12
[12] Holland J.H., Adaptation in natural and artificial systems, MIT Press, Cambridge, Second Edition, 1992. [13] Goldberg D., Genetic algorithms in search, optimization, and machine learning. AddisonWesley, New York. 1989. [14] Michalewicz Z., Genetic algorithms + Data structures = Evolution programs. Springer-Verlag, New York, Third Edition. 1996. [15] Mitchell M., An introduction to genetics algorithms. MIT Press, Cambridge. 1996. [16] Mahfoud S.W., Niching methods for genetic algorithms. Ph.D. Thesis, University of Illinois at Urbana-Champaign, Illinois Genetic Algorithms Laboratory (IlliGAL) Report No. 95001, May 1995. [17] Fukunaga K., Introduction to statistical pattern recognition. Academic Press, San Diego, Second Edition, 1990. [18] Ripley B. D., Pattern recognition and neural networks. Cambridge University Press, Cambridge, First Edition, 1996. [19] Pea-Neira A.I., Hernndez T., Garca-Vallejo C., Estrella I. and Suarez J., A survey of phenolic compounds in spanish wines of different geographical origins. Eur. Food. Res. Technol., Vol. 210, 2000, pp. 445-448. [20] Marx R., Holbach B. and Otteneder H., Determination of nine characteristics anthocyanins in wine by HPLC. Off. Int. Vigne Vin. Bulletin. Paris. August 2000. [21] Flazy, C. Enologa: Fundamentos cientficos y tecnolgicos. Ed. Mundi Prensa. Madrid. 2000. [22] Alamo V.S. Caracterizacin de la composicin fenlica de vinos comerciales Merlot y Sauvignon Blanc de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de Ingeniero Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002. [23] Muoz L.P. Caracterizacin de la composicin fenlica de vinos comerciales Cabernet Sauvignon y Chardonnay de la vendimia 2002, provenientes de cinco valles de Chile. Memoria de Ingeniero Agrnomo, Facultad de Ciencias Agronmicas, Universidad de Chile, 2002.
13

Selección de Caracteristicas Usando Algoritmos Geneticos para La Clasificacion de Vinos Chilenos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Selección de Caracteristicas Usando Algoritmos Geneticos para La Clasificacion de Vinos Chilenos

Uploaded by

Copyright:

Available Formats

Seleccin de Caractersticas usando Algoritmos Genticos para Clasificacin de Vinos Chilenos

2.0 Mtodos de Seleccin de Caractersticas

Set Original de Caractersticas

Subconjunto de Caractersticas Seleccionado

3.0 Datos Experimentales

Cepa Carmenere Cabernet Sauvignon Merlot Total

Muestras N 1-49 50-74 75-111

Cantidad de Muestras 49 25 37 111

Tabla 1.- Distribucin de las muestras empleadas en el estudio.

4.0 Descripcin de la Metodologa utilizada

5.0 Resultados Obtenidos

-2 0 2 Primera componente de Fisher

Figura 7.- Situacin en la que se produce un problema de clasificacin.

You might also like