You are on page 1of 29

Llenguatge de marques i sistemes de gesti d'informaci

UF 1: Programaci amb XML Part 1

Introducci a XML

Xavier Sala Pujolar IES Cendrassos

Llenguatges de marques

Un llenguatge de marques combina dades i etiquetes que les marquen i que contenen informaci addicional sobre l'estructura del text o la seua presentaci. Les marques estan barrejades amb el propi text.
<persona> <nom> Xavier </nom> <cognom> Sala </cognom> </persona>
Administraci de Sistemes Informtics i Xarxes

Llenguatges de marques

Tot i que els sistemes de marques en que ens concentrarem sn els d'estil web cal no oblidar que n'hi ha d'altres:

Wikitext, TeX, DocBook, RTF, JSON


= Intercanvi de dades = * [[ XML ]] * [[ JSON ]] * [[ LDIF ]] { persona: { nom: Xavier, cognom: Sala }}

Administraci de Sistemes Informtics i Xarxes

Llenguatges de marques

El llenguatge de marques ms conegut s l'HTML

s el que es fa servir en les pgines web


<html> <head> <title>Pgina</title> </head> <body> Hola! </body> </html>

Per no s el primer que ha existit , ni l'nic


Administraci de Sistemes Informtics i Xarxes

SGML

La primera tecnologia estandarditzada de llenguatges de marques va ser lSGML Es va fer servir com estndard de la informaci de propsit general Partia de la idea de que s'han de separar les dades d'un document de la seva forma Per:

La majoria dels documents estaven destinats a la impressi Era terriblement complex de manera que noms el feien servir els especialistes

Administraci de Sistemes Informtics i Xarxes

HTML

El 1989, Tim Berners-Lee i Anders Berglund, dos investigadors del CERT, van crear un llenguatge basat en etiquetes destinat a compartir informaci per Internet: HTML

HTML s un format que descriu la visualitzaci d'una pgina web

HTML est molt orientat a la visualitzaci


Administraci de Sistemes Informtics i Xarxes

Tecnologia web
HTML ha tingut un xit extraordinari i molt rpid

Aix ha fet que les tecnologies web no parin d'evolucionar HTML ha sofert molts canvis al llarg dels anys El suport HTML dels navegadors cada vegada s ms complexe

Administraci de Sistemes Informtics i Xarxes

Tecnologia web

Les pgines HTML no sempre es veuen igual en els diferents navegadors

Administraci de Sistemes Informtics i Xarxes

Tecnologia Web

Tot i aix la web s'ha fet cada vegada ms i ms popular

Cada dia es generen milions de pgines web amb informaci Aix implica que cal buscar per trobar la informaci que ens interessa

Administraci de Sistemes Informtics i Xarxes

Tecnologies web

Per l'HTML s molt difcil de reutilitzar

s molt difcil representar-hi informaci que es pugi reutilitzar en altres llocs


Poder presentar la informaci de diferents formes Personalitzar les dades

Fa falta alguna forma de poder fer-hi recerques intelligents i seleccionar-ne el resultats


Com pot una mquina determinar automticament qu s el nom, qu el cognom, ...?

<html> <head><title>Professor</title></head> <body> <p>Nom: Federicu Pi</p> </body> </html>

Administraci de Sistemes Informtics i Xarxes

Tecnologia web
Feia falta una forma de:

Buscar, moure, visualitzar i manipular la informaci continguda en els documents HTML

Administraci de Sistemes Informtics i Xarxes

Naixement d'XML

El consorci W3C va desenvolupar una alternativa a lHTML que pods satisfer les necessitats futures del web. El 1996 el consorci W3C es va proposar introduir el poder i la flexibilitat de lSGML al web. SGML oferia tres avantatges que lHTML no tenia:

Extensibilitat Estructura Validaci


Administraci de Sistemes Informtics i Xarxes

Especificacions XML

Extensible Markup Language

El febrer de 1998 es llena l'especificaci 1.0 dXML:

http://www.w3.org/TR/2004/REC-xml-20040204/

L'ultima especificaci dXML s la 1.1 que va sortir el 2004:

http://www.w3.org/TR/xml11/

Totes les especificacions es revisen peridicament


Administraci de Sistemes Informtics i Xarxes

Qu s XML?

XML s un simple llenguatge de descripci d'informaci

s una estndard que permet dissenyar i desenvolupar llenguatges de marques.

XML s un format de text estandarditzat que serveix per representar i transportar informaci estructurada.

Administraci de Sistemes Informtics i Xarxes

Presentaci

Una de les idees ms importants s

Separar les dades de la presentaci

XML no es preocupa de com es presentaran les dades als usuaris Per fer la presentaci ja s'han desenvolupat mecanismes:

CSS XSL-FO ...


Administraci de Sistemes Informtics i Xarxes

Etiquetes

A HTML li ha anat b amb un nmero finit d'etiquetes Per tots els intents per crear un conjunt finit d'etiquetes van fallar

Cada conjunt d'usuaris en necessita un de diferent (matemtics, qumics, etc.. )

La soluci adoptada va ser la ms lgica:

Un nmero infinit d'etiquetes


Administraci de Sistemes Informtics i Xarxes

Estructuraci de dades

Un altre dels objectius s donar una estructura a les dades

Les dades estructurades sn ms fcils d'interpretar

Tradicionalment les dades dels ordinadors es guarden en dos tipus de formats:


Fitxers

binaris Fitxers de text


Administraci de Sistemes Informtics i Xarxes

Fitxers binaris

Els fitxers binaris sn simplement una tira de bits La informaci que contenen noms la entenen els programes que l'han generat

Per aix els fitxers binaris noms es poden llegir amb els programes que els han creat

Els fitxers binaris estan molt b perqu sn llegits fcilment pels ordinadors

Les dades es llegeixen i guarden d'una forma molt eficient

Administraci de Sistemes Informtics i Xarxes

Fitxers binaris

A vegades els fitxers binaris contenen informaci sobre el seu contingut per diferents motius
2B2N3B1N2B1N2B1N2B1N2B4N2 B1N2B1N2B1N2B1N1B

Alg ho entendria sense informaci?

Si el creador no ho explica s complicat

En l'exemple els nmeros sn metadades

Les metadades sn dades sobre les dades


Administraci de Sistemes Informtics i Xarxes

Fitxers de text

Els fitxers de text tamb sn tires de bits per estan agrupats de forma estandarditzada

ASCII, UTF-8, UTF-16, EBCDIC, Windows-1250

Grcies a l'estndard aquests fitxers es poden obrir en diferents programes La informaci es comparteix ms fcilment amb fitxers de text que amb fitxers binaris

Administraci de Sistemes Informtics i Xarxes

Fitxers de text

Per tamb tenen desavantatges:

Els sistemes operatius tracten de forma diferent alguns dels seus aspectes (com els salts de lnia) s complicat afegir-hi informaci sobre les dades, metadades, ja que no seran interpretades

Poden arrunar-ne totalment la facilitat de lectura No existeix una forma estndard d'afegir-les

Administraci de Sistemes Informtics i Xarxes

Fitxers de text

Antigament per representar dades es feia separant els valors amb comes o algun altre smbol
Nom,Cognom,Ofici,Naixement,Poblacio,Punts Filomenu,Garcia,Professor, 10/04/1902,Cabanes,12 Mariano,Puigdevall,Informtic,19/05/1972,Cabanes,23 Federicu, Pi, Mestre,20/03/1968,Girona,40

S'ha de saber que la primera lnia sn metadades Afegir-hi noves dades pot ser molt problemtic pel programa que les llegeixi

Probablement haurem de canviar el programa

Administraci de Sistemes Informtics i Xarxes

Fitxers de marques

Els llenguatges de marques recullen el millor dels dos tipus de fitxers:

Dels fitxers binaris

La facilitat de posar metadades en el contingut La facilitat d'intercanvi d'informaci L'estandarditzaci

Dels fitxers de text:


Els llenguatges de marques estan basats en text


Poden ser creats amb qualsevol editor de textos Per no estan pensats per ser llegits
Administraci de Sistemes Informtics i Xarxes

Transport de dades

XML est pensat per transportar dades

A diferncia d'HTML si que es pot determinar de forma automtica qu signifiquen les dades
<professors> <professor> <nom>Federicu</nom> <cognom>Pi</cognom> </professor> <professor> <nom>Mariano</nom> <cognom>Po</cognom> </professor> </professors>

<html> <head><title>Professors</title></head> <body> <p>Federicu Pi</p> <p>Mariano Po</p> </body> </html>

Podem respondre:

Quina informaci cont el fitxer? Quina s la estructura de la informaci?

Quins tags s'han creat per descriure'n la informaci?


Administraci de Sistemes Informtics i Xarxes

Formats Estndards

Tenim la capacitat de crear un vocabulari que noms entengui el nostre programa

No necessita llicncia Al fer servir el mateix format la comunicaci de dades s ms fcil Ja hi ha vocabularis estndards XML:
Pensat per grfics vectorials escalables 2D Representaci de frmules matemtiques Intercanvi d'informaci qumica Tractament de la informaci multimdia Sntesi de la veu
Administraci de Sistemes Informtics i Xarxes

O podem fer-lo obert perqu l'entengui tothom

SVG

MathML CML SMIL SSML

Formats estndard

Molts programes que feien servir formats binaris han passat a algun tipus d'XML:

Microsoft Office

Va passar de guardar els documents en binari .DOC a XML .DOCX (OOXML) al estandaritzar-lo

OpenOffice.org

Molts dels documents de configuraci dels sistemes operatius estan en XML!


Linux Windows XP
$ locate .xml | wc -l 21829 C:\> dir /a-d /s *.xml | find /c /v 698

Administraci de Sistemes Informtics i Xarxes

Extensible

Un altre dels avantatges de XML s que es fcilment extensible i adaptable


Creem els tags que tinguin significat per nosaltres Podem crear el vocabulari que ens faci falta per all que busquem

Per hi ha formes de definir quina s la estructura que nosaltres definim

Hi ha diversos estndards DTD, XML Schema Language, Relax NG, etc.. Ens serviran per comprovar que el document compleix amb les normes del vocabulari
Administraci de Sistemes Informtics i Xarxes

Perqu es fa servir?

XML s'est fent servir en mltiples camps:

Contingut de pgines web

Un dels estndards que es fan servir en pgines web XHTML est basat en XML Per XML de forma inherent t mltiples formes en que pot ser representat (XSL-FO, CSS, ...) L'intercanvi de dades entre sistemes diferents que permetin les crides entre objectes entre mquines Bussines to Bussines, Bussines to Consumer

Computaci distribuda

Comer electrnic

Reduir la crrega de servidors


Administraci de Sistemes Informtics i Xarxes

Problemes

XML ocupa ms espai a disc que els seus equivalents en format binari

Hi ha tendncia a crear fitxers molt grans Aix pot tenir un impacte en el rendiment dels programes

El fitxer s molt gran! En format text!

Per aix a vegades s compensat per:


La facilitat d'interoperatibilitat entre programes El preu de l'emmagatzematge s baix

Administraci de Sistemes Informtics i Xarxes

You might also like