Informática y biodiversidad: el caso de la e-taxonomía

Layla Michán Departamento de Biología Evolutiva, Facultad de Ciencias, UNAM. laylamichan@ciencias.unam.mx

Contenido
• Introducción
– Taxonomía – E-ciencia

• Informática y taxonomía
– – – – – – – Aplicaciones WEB Acceso Abierto Semántica Interoperatividad Colecciones Meta-análisis E-taxonomía

Informática y biodiversidad: el caso de la e-taxonomía

INTRODUCCIÓN

Laboratorio de Ciencimetría, Información e Informática en Ciencias Biológicas Facultad de Ciencias, UNAM
PROBLEMAS 1. (R)evolución digital en las ciencias biológicas 2. Características de la E-biología 3. Dinámica, estructura y relaciones de la biología reciente 4. Publicación científica en la Web 5. Recursos web y ciberinfraestructura para biología 6. Colecciones de datos 7. Meta-análisis de literatura: bibliometría, análisis de redes, minería de textos, semántica

TIPOS 1.Biológica 2.Bibliográfica 3.Institucional ÁREAS 1.Biodiversidad 2.Biomedicina

INFORMACIÓN BIOLÓGICA

ENFOQUE MULTIDISCIPLINARIO 1.Biología 2. Ciencias de la información y documentación 3. Tecnologías de la Información y comunicación 4.Ciencias de la computación e informática 5.Historia, sociología y filosofía de la ciencia.

APLICACIONES 1.Análisis de la ciencias biológicas actuales: desarrollo, estructura, relaciones y tendencias 2.Información e informática en ciencias biológicas, relacionadas y afines 3.Obtención de nuevo conocimiento biológico 4.Planeación, evaluación, gestión y política científica

La sistemática y/o taxonomía
• Es la subdisciplina de la biología encargada de la descripción, la nomenclatura, la clasificación, la teoría y la historia de la clasificación de los seres vivos (Wiley, 1981), incluyendo sus bases, principios, procedimientos y reglas (Simpson, 1961). • Constituye el sistema de referencia de la biología, porque entre sus tareas principales están: descubrir, identificar, nombrar y clasificar a los seres vivos.

Informática Biológica
•Ciencias de la Información biológica: La recopilación, clasificación, almacenamiento, recuperación y difusión de la información biológica, en especial la literatura. •Bioinformática: Investigación, desarrollo o aplicación de herramientas computacionales y enfoques para ampliar el uso de datos biológicos, médicos, de comportamiento o de salud, incluidos los de adquirir, almacenar, organizar, archivar, analizar o visualizar estos datos. •Biología computacional: El desarrollo y aplicación de métodos de datos analíticos y teóricos, modelos matemáticos y técnicas computacionales de simulación para el estudio de sistemas biológicos, conductuales y sociales. •Informática biológica: estudio de los problemas sobre la información biológica para su sistematización, recuperación, manejo, análisis, publicación, difusión e intercambio.

e-science/ cyberinfraestructure
• • cyberinfraestructure (USA) United States National Science Foundation (NSF) blue-ribbon committee in 2003 .

• Describe el nuevo ambiente de investigación apoyado por la adquisición de datos avanzados, el almacenamiento, gestión, integración, minería, visualización, computación y servicios de procesamiento de información a través del Internet.

• e-science (europe) • United Kingdom's Office of Science and Technology in 1999.

• Se refieren a la ciencia a gran escala, que se lleva a cabo a través de colaboración global habilitada por el Internet.

Ciberinfraestructura
•Entorno tecnológico-social que permite crear, difundir y preservar los datos, información y conocimientos mediante la adquisición, almacenamiento, gestión, integración, informática, minería, visualización y otros servicios a través de Internet (NSF 2003, 2007). •Incluye un conjunto interoperable de diversos elementos:
–1) Infraestructura, los sistemas computacionales (hardware, software y redes), servicios, instrumentos y herramientas. –2) Colecciones de datos. –3) Grupos virtuales de investigación (colaboratorios y observatorios).

E-ciencia (ciberciencia)
• Resulta del uso y aplicación de la Ciberinfraestructura en la práctica cientifica, • Se caracteriza por la inter y multidisciplinariedad. • Colaboración, la participación de un gran número de investigadores (en algunos casos cientos) localizados en diversas regiones y con diferentes especialidades que se forman grupos trabajo (Hey y Trefethen, 2005; Barbera et al.,2009).

E-ciencia
• Transformación en 30 años:
– Tecnológica
• Computadoras • Web • Documentos digitales

– Teórica
• Nuevos campos del conocimiento

– Metodológica
• In sílico

– Social
• Colaboración • Democratización • Masiva

– Cultural:
• Acceso abierto

Explorar Buscar

I Generales
Buscadores Metabuscadore Buscadores especializados s Editores Proveedores

II Colecciones de datos bibliográficas

I. Aplicaciones Web y programas
Marcar (marck) Sistematizar / Organizar

FUNCIONES Web 2.0 y 3.0 • Etiquetar (Tagging) • Compartir (share) • Calificar (ranking) • Suscribirse (feeds) • Comentar

II. Colecciones bibliográficas
CARACTERÍSTICAS •Personalización •Inmediatez •Automatización •Eficiencia

Difundir

III. Meta-análisis de III literatura Meta-análisis
Layla Michán, 2010

• Infometría • Análisis de Redes • Descubrimiento basado en literatura

Informática y biodiversidad: el caso de la e-taxonomía

APLICACIONES WEB Y PROGRAMAS

Web 2 y 3 para taxonomía
Actualizar

Buscar Marcar Analizar

Manejar

Explorar




• •

La Web 2.0 (Social) Se centra en la capacidad de las personas para colaborar y compartir información en línea. Transición de la Web estática a una dinámica, que es más organizada. Comunicación abierta con un énfasis en comunidades de usuarios e intercambio de información. Ya no sólo se trata de ofrecer la posibilidad de encontrar información, sino de lograr objetivos específicos, pues es factible, crear, etiquetar jerarquizar y compartir datos. Lenguaje HTLM. Web 3.0 (Semántica) Basada en la idea de añadir metadatos semánticos e información (a través de mapas cognitivos). Desarrollar nuevos sistemas de interoperabilidad que permitan interpretar metadatos para adaptarse a las acciones de los usuarios . Minería de textos y ontologías. Lenguajes: XML (etiquetas) y RDF (metadatos).

Navegadores Google, Bing 1 Navegar

Alertas Correos electrónicos Listas de discusión Agregadores Recomendación

COLECCIONES DE DATOS Bases de datos Sistemas de información Proveedores

Buscar

Meta-análisis
Selección 2 Recuperación 3

Bibliometría Análisis de redes Descubrimiento Basado en Literatura

PUBLICACIÓN

PDF HTLM TXT 5

Lectura

Guardar 4 Obtener metadatos

Referencias Comentar 6 Comentar PDFs Acrobat PDF Exchange*

Citar 7 Citar mientras escribo 1/100

Gestores de bibliografía Endnote Refworks Mendeley* Zotero Citeulike*

Marcadores Google marcadores y block Facebook Folkosomias Delicious Citeulike Gestores de bibliografía

Ciberinfraestructura

Modificado de Hull, 2009

Marcadores/Guardar etiquetar
Marcador bibliografía Marcador web Marcador imágenes

Manejador bibliografíaca

Library

Torres-Salinas, D. and E. Delgado-López-Cózar (2009, September). Estrategia para mejorar la difusión de los resultados de investigación con la web 2.0. El Profesional de la Informacion 18 (5), 534-539.

Redes sociales/Marcar compartir

Artículos de vanguardia
c
Bibliometría Calificar Ranking

c

c
Buscar

Marcar Compartir

Varios

http://www.tolkin.org/

Aplicación para publicación de datos taxonómicos

http://www.gbif.org/informatics/primary-data/publishing/

La Web semántica
• (del inglés semantic web) es la "Web de los datos".1 • Se basa en la idea de añadir metadatos semánticos y ontológicos a la World Wide Web. • Esta información adicional —que describen el contenido, el significado y la relación de los datos— se deben proporcionar de manera formal, para que así sea posible evaluarlas automáticamente por máquinas de procesamiento. • El objetivo es mejorar Internet ampliando la interoperabilidad entre los sistemas informáticos usando "agentes inteligentes". Agentes inteligentes son programas en las computadoras que buscan información sin operadores humanos.

Tim Berners-Lee, el creador de la idea, la expresó de la siguiente manera: "Mi sueño es una Web en la que las máquinas sean capaces de analizar todos los datos –contenido, enlaces y transacciones entre la gente y los ordenadores–. La 'Web Semántica', que haría esto posible, está todavía por llegar, pero cuando llegue, la rutina de nuestras compras, burocracia y vida diaria será gestionada por máquinas hablando con máquinas. Los 'Agentes Inteligentes' que han sido anunciados durante décadas se harán por fin realidad".

Interoperatibilidad
La interoperabilidad es la propiedad de un producto o sistema, cuyas interfaces se conocen por completo, para trabajar con otros productos o sistemas, presentes o futuros, sin ningún tipo de acceso restringido o de ejecución.

Estándares
• XML (eXtensible Markup Language) • RDF (Resource Description Framework) • SPARQL (an RDF Query Language)

XML
XML, siglas en inglés de eXtensible Markup Language ('lenguaje de marcas extensible'), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C).

Ontologías taxonomía
• Una ontología es una manera formal de representar el conocimiento en el que los conceptos son descritos por su significado y su relación con los demás. • Se asignan identificadores únicos que se asocian con cada concepto en ontologías biológicas (bioontologías) puede ser utilizada para enlazar información de diversas bases de datos.

http://richard.cyganiak.de/2007/10/lod/lod-datasets_2010-09-22_colored.html

Dublin Core Metadata Element Set (DCMES)
• 15 elementos de meta-datos básicos.

http://www.tdwg.org/standards/

Leong, L. K. W., Coddington, P., & Wendelborn, A. (2005). Data grid services for biodiversity informatics. URL http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.86.9774

http://www.gbif.org/documents/ss5hobern.pdf

Guralnick, R., & Hill, A. (2009). Biodiversity informatics: automated approaches for documenting global biodiversity patterns and processes. Bioinformatics , 25 (4), 421-428. URL http://dx.doi.org/10.1093/bioinformatics/btn659

Cómputo en grid
• No hay otro gran avance tecnológico que haya demostrado el poder de los individuos que el grid computing. • Donar su tiempo en la computadora sin usar. •

Cloud computing (cómputo en nube)
Es un enfoque transformador de la computación que involucra muchos aspectos, entre los que se incluyen:
algoritmos a gran escala que se ejecutan en diversos conjuntos de datos (estructurados, semi-estructurados y no estructurados), almacenados en grandes equipos con enormes cantidades de datos de enorme, utilidades basadas en la rápida provisión de recursos informáticos personalizados, y la web ubicua con aplicaciones accesibles desde cualquier lugar.

Sin embargo, es mucho más que lo que la tecnología promete: transformar radicalmente nuestra manera de interactuar con la información.

Ecosistemas digitales
• En el mundo de Internet, el rápido crecimiento y el uso exponencial de los medios digitales ha dado lugar a la aparición de entornos virtuales denominados ecosistemas digitales. • Están integrados por varias entidades independientes, como: individuos, organizaciones, servicios, software y aplicaciones para compartir una o varias misiones y centrarse sobre las interacciones e interrelaciones entre ellos. • Permiten la auto-organización de los ambientes, gracias a la recombinación y la evolución de sus "componentes digitales", en los que los recursos proporcionados por cada entidad están bien conservadas y son factibles de gestionar y utilizar en conjunto. • Debido a la naturaleza multidisciplinar de los ecosistemas digitales y sus características, son muy complejos para el estudio y diseño. http://130.102.71.54/medes

Programas informáticos
Software para : • Sistematizar información taxonómica, • Realizar claves de indentificación, • Analizar grandes cantidades de caracteres (moleculares y morfológicos), • Manejar grandes volúmenes de imágenes, • Hacer análisis fenéticos y filogenéticos complejos.

Ventajas/Desventajas
• Estos avances tecnológicos han tenido sus ventajas y desventajas (Godfray et al. 2007). • Entre las primeras están que permiten el uso de estándares internacionales, • Aumentan la eficiencia de los procesos y la capacidad de almacenar información, • Optimizan el meta-análisis • Integran información que se encuentra dispersa en tiempo y espacio.

Informática y biodiversidad: el caso de la e-taxonomía

COLECCIONES

Colecciones
• Colecciones de datos digitales (megabases de datos) taxonómicas, curatoriales, bibliográficas y de distribución (Shanmughavel 2007) que se pueden consultar en línea; • resaltan iniciativas mundiales como encyclopedia of life (http://www.eol.org/), • tree of life (http://tolweb.org/tree/), • genBank (http://www.ncbi.nlm.nih.gov/Genbank/), • barcode of life (http://www.barcoding.si.edu/), • Biodiversity Heritage Library (www.biodiversitylibrary.org/) y • Global Biodiversity Information Facility (http://data.gbif.org/welcome.htm). • Biosis, Zoological Record y Epic

Colecciones/Sistematizar

Clasificación de las Colecciones digitales para biodiversidad
• Tipos de datos – Texto, números e imágenes – Video , películas y audio – Software, algoritmos y ecuaciones, – Animaciones modelos, simulaciones, etc • Tipo de información – Bibliográfica – Curatorial – Nomenclatural – Biológica (morfológica bioquímica, molecular) – Geográfica – Ecológica – Institucional – – – –
– – –

Regional Local Institucional Personal
Siglo XIX 1975-2010 1865-2010

Cobertura temporal

Origen de la información – Éndogena (A.L) – Exógena Iniciativa – Académica – Gubernamental – Privada


Cobertura temática – Gupos y/o taxones
Nivel de organización – Genes – Especies – Ecosistemas Cobertura geográfica – Mundial

Acceso

– Libre – Restringido – Cantidad de registros – Memoria virtual (Teras o Gigas)

Tamaño

669 al 7 agosto 2011

http://www.animalbase.de/

Entrez

Colecciones bibliográficas
Repositorios Editoriales y revistas Catálogos e índices Sistemas de información E-bibliotecas

http://epic.kew.org/searchepic/searchpage.do;jsessionid=F E84A5745BC3C8E853696798AB4D8D00

Algunas cifras
•Ulrichs´s 300, 000 revistas. •DOAJ: 6, 715 •La revista científica PLoS ONE publicó su artículo número 10.000 (1 dic 2006- 2 abril 2010, 41 meses) •PubMed Central 2.2 millones de artículos. •PubMed 20 millones de registros. •Scopus más de 40 millones de registros. •ISI Web of Knowledge (WOK) 40 millones de registros. •Google Scholar •Arif Jinha en la Universidad de Ottawa ha estimado recientemente que el número de artículos publicados desde siempre es alrededor de 50 millones. –Desde 1665, cuando inició la Philosophical Transactions of the Royal Society,
•http://duncan.hull.name/2010/07/15/fifty-million/

http://www.botanicus.org/About.aspx

Mundiales
BIOLÓGICA INSTITUCIONAL Investigación sobre biodiversidad DOCUMENTAL

Genetic databases
Organismos y sus partes Diarios y Etiquetas índices y abstracts

Páginas electrónicas

Memorias Artículos Catálogos Checklist Libros Revisiones Libros de texto Enciclopedias Manuales

Colecciones Bibliotecas y hemerotecas

Catálogos

Bases de datos biológicas

Bases de datos bibliográficas

Bases de datos institucionales

Science Citation Index®

The Tree of Life

Zoological Record BIOSIS Previews Biological Abstracts

2002 1996 1990 1984 1978

Taxonomía AL

1972 1966 1960 1954 1948 1942 1936 1930 1924

Periodica

Scopus

1918 1912 1906 1900 1894 1888

Biosis CAB

SCI

SCI

ZR

1882 1876 1870 1864

10

1000

100000

10000

log Documentos

100

1

Boquím y biol mol

Periódica

Biosis

ZR CAB SCI

Agricultura Forestal Enfer infecc Fisiología

Taxonomía América Latina

Biol reprod Parasitología

Taxonomía AL

Genética y herencia Biodiv y conserv Biol mar y acuát Paleontología Botànica Anat y morf Cienc biolog Ecol y cienc amb Zooloogía Biol Evolut

90

80

70

60

50

40

30

20

100

10

0

%

Acceso abierto
• Costo de la literatura científica. • La ciencia se subvenciona con fondos gubernamental (públicos). • Mandatos
– Welcome trust – NIH

• No hay mandatos para biodiversidad.

• All research would be more useful if it were OA. But I’m an incrementalist. I’ll take what we can get when we can get it. I don’t expect OA to classified military research, and I don’t even argue for it. I don’t expect OA to patentable discoveries until after the discoverers voluntarily decide to publish. I don’t expect OA to copyrighted books except when OA would increase net sales or bring benefits that exceed royalties.

Gratuito: se refiere a que la consulta del documento completo en línea es sin costo

Repositorio

Acceso abierto
Libre: ofrece algunos derechos de uso adicionales como el de modificar y distribuir la obra siempre y cuando se cite a el o los autores

Acceso abierto vía oro (Gold Route) Acceso abierto vía verde (Green Route) Licencia que especifica los derechos de uso: Creative Commons (http://creativecommons.org.mx/ )

e-print (e-impreso)
Es la versión digital de un documento de investigación (generalmente un artículo de revista, pero también podría ser una tesis, ponencias, capítulos de libros, o un libro) que está accesible en línea porque ha sido depositado en un repositorio digital Interactividad Diseño Integración Agregación

e-print

Movilidad

Pre-prints (artículos antes de que sean evaluados por pares)

Post-prints (la versión resultado de la revisión por pares)

Revistas electrónicas de vanguardia
• Formato electrónico – Datos complementarios – Barato – Múltiples formatos – Identificadores digitales – Interactividad – Sin límites de extensión Eficiencia e inmediatez Acceso abierto Uso libre Evaluación por pares identificados (no anónimos) Indización y archivo en bases de datos Indicadores bibliométricos – Las medidas de impacto – Información sobre la Cita – artículos relacionados Web 2.0 social – Marcadores sociales – Comentarios y notas – Blog de ​cobertura Código de ética de publicación científica explícito Políticas explícitas de Autoarchivo

• • • • • •

• •

(Hull, D. et al., 2008)
Figure 1. A mind map [207] summarizing the contents of this article in a convenient manner. doi:10.1371/journal.pcbi.1000204.g001

The Advantages
• • Unmatched speed of publication In this era of elevated extinction rates of World's living animal species, rapid publications of taxonomic papers are not only desirable to authors, but also important to our science. Zootaxa aims to publish most manuscripts within a month or two after the final revisions are accepted by editors. Great flexibility Unlike many other journals, Zootaxa does not restrict the length of manuscripts. A paper of a few pages describing a new species is not too short and a monograph of a few hundred pages is not too long. The only requirement is that peers/editors consider it a quality paper that is well-presented and makes a good contribution to animal diversity research. As an option for monographs, ISBNs are assigned to papers of 60 pages or more. Subscription is also flexible. You can have a standing order to the online or print edition, or both. You can also have a standing order to a subset of papers (e.g. papers on insects, papers on fishes). You can also purchase individual papers and both PDF or paper copies can be ordered this way. Maximal online exposure Accessed daily by more systematic zoologists daily than any other zoology journal, your papers are more likely to be read and cited if you publish them in Zootaxa. Minimized cost to authors and readers No page charge is required for publication of papers or monographs. Free e-reprint (a printable, high-resolution PDF) is also provided for authors' personal use (including exchange with other individual scientists, but not for deposition in libraries/websites/ftp-sites for public access). Authors with funding for publication can opt to pay a fee of US$20 per printed page to make his/her paper free online at this site. Colour images can be published in the online edition without any fees to authors. Unlike many other journals, which require subscribers to buy a full issue or volume containing many papers not needed by a particular reader, Zootaxa allows subscribers to purchase each individual paper based on his/her needs and budget. An issue cost as little as US$4.00. Optimized use of technology Internet will be used to maximize the benefits of online journals: reduced cost in production and delivery, enhanced access, and interactive links in online files. The print edition is also produced concurrently for permanent records, using state-of-the-art printing technology. Environmental soundness The use of paper is minimized to save our forests and environment: free e-reprint is provided to authors instead of paper ones so that authors can print out only enough paper copies that are needed; paper reprints can be ordered as few as 25 copies to avoid waste; correspondence /invoices to subscribers are sent electrically without paper whenever possible; submissions and reviews of manuscripts are handled electronically whenever possible. • • •

• •

• •

Informática y biodiversidad: el caso de la e-taxonomía

META-ANÁLISIS

Browse
Web Browsers

I Aplicaciones Web
Metabrowser s web browsers specialized Editors Suppliers

II Colecciones bibliográficas
Libraries

Search

Information systems

Bookmark

Indexes and catalogs

Manage

Share

III Meta-analisis
• Scientometrics • Network Analysis • Text mining • Semantics

Repositories

Meta-análisis
• Simultáneo al desarrollo de ciencias de la información (CI) y las tecnologías la información y la comunicación (TICS), en especial con el desarrollo de las bases de datos y la Internet, se han producido formas sistémicas de análisis de cantidades colosales de información (terabites). • Técnica cuantitativa que usa mediciones específicas para indicar la fuerza (tendencias) de relaciones variables en los estudios incluidos en el análisis. • La técnica enfatiza los resultados entre múltiples estudios en oposición a los resultados obtenidos de una sola investigación.

Meta-análisis

Meta-análisis
1. Análisis evolutivos 2. Bibliometría (cienciometría, infometría, cienciometría, cibermetría, alt-metría): Volumen de publicaciones, productividad y temática de la investigación 3. Análisis de Redes: Conexiones entre nodos que muestran información y sus relaciones. 4. Minería de Textos (Descubrimiento Basado en Literatura, descubrimiento basado en bases de datos) : Vinculación de conceptos para la obtención de nuevo conocimiento 5. Semántica: Es un conjunto de estándares y tecnologías que proporciona herramientas para una caracterización explícita de la semántica de la información para encontrar información distribuida heterogéneamente y relacionada.

Propósitos
1. 2. 3. 4. Recuperación de información. Obtención de nuevo conocimiento. Evaluación. Análisis, desarrollo, estructura y relaciones de la dinámica científica.

http://bioinfo.dacya.ucm.es/

Entomology

E-taxonomía
• • • • • • • • • • Aplicaciones web y programas Colecciones Grids, nube y semántica Meta-datos Meta-análisis Estándares e interoperatividad Resignificado Acceso abierto y creative commons Colaboratorios y observatorios Principales iniciativas GBIF, Vibrant, iplant, Edit

•E-taxonomía muchas herramientas •Poco impacto en la práctica taxonómica, •En las publicaciones no se reporta

http://biiiogeek.blogspot.com/

• Esta investigación se lleva a cabo gracias al financiamiento de: • DGAPA, UNAM. Proyecto PAPIME PE 201509 • CONACYT, Ciencia Básica. Proyecto 13276 2011-2014.

Licencia Creative Commons
Forma de citar este trabajo
Michán, L. 2011. Presentación

http://creativecommons.org/licenses/by/3.0/deed.es_GT

Sign up to vote on this title
UsefulNot useful