You are on page 1of 12

INFORMÀTICA – Qüestions bàsiques

PROGRAMA INFORMÀTIC

És una llista d’instruccions ordenades (algoritme) que processen informació: transformen unes
dades d’entrada en unes dades de sortida. // Llista ordenada d’instruccions, l’algoritme,
expressada en un llenguatge de programació

Processament automàtic: li donem unes dades (matèria primera), fa una sèrie de


transformacions i ens dona una cosa elaborada, el que nosaltres volem que faci.

Ex: Com fem que funcioni un corrector automàtic? Tenim un diccionari amb totes les
paraules ben escrites. Per cada paraula del text, mira si està entre les paraules ben escrites.

- Tasca 1: identificar si la paraula està ben escrita


(Input: text. Output: paraules mal escrites)
- Tasca 2: identificar com corregir-la (Input: paraules
mal escrites. Output: text amb les paraules ben
escrites)

La feina de definir quines dades, com s’han de transformar i per a quin objectiu no ho fa la
informàtica, ho fa la gent que vol automatitzar la programació per determinades tasques.

ALGORITME (https://www.youtube.com/watch?v=U3CGMyjzlvM)

Seqüència d’instruccions que descriuen pas per pas com aconseguir un determinat resultat. //
Un algoritme és la descripció de la solució d’una tasca en una seqüència de passes, una
després de l’altre, de forma que al final es resolgui la tasca efectivament.

EX: trucades que et demanen “pulse 1 / 2”

EX: recepta de cuina (Input: ingredients. Output: resultat)

Els nous algoritmes busquen les similituds entre els diferents elements.

EX: Descobrir càncer en ecografies de mama: els donem un milió d’ecografies amb
càncer i 1 milió q no n’hi ha. Quan tenim una ecografia, l’algoritme busca les similituds amb les
ecografies amb càncer i sense.

Un PROGRAMA (o APLICACIÓ) informàtic és el codi (en un llenguatge de programació


determinat) de les passes descrites amb què fem que l’ordinador executi les instruccions.

Així doncs, abans d’escriure el codi del programa hem de saber com es resol la tasca i descriure
la solució en un algoritme.

A l’ordinador se li ha d’explicar TOT

GRANS ALGORITMES:
- Classificació: spam

REPRESENTACIÓ BINÀRIA DE LA INFORMACIÓ A L’ORDINADOR

- Fins ara, un ordinador solament pot emmagatzemar i manipular símbols en


representació binària.
- Les instruccions que pot executar són les aritmètiques i les de la lògica booleana (AND,
OR, NOT)

El sistema binari, B=2, és "el" sistema de representació de la informació en els computadors.


Utilitzem com a símbols 0 i 1, perquè representin els estats d'encès-apagat.

Cada un d'aquests símbols s'anomena BIT (de l'anglès


Binary digIT), mentre que 1 byte són seqüències de 8
bits (8 posicions omplertes amb 0/1)

Va comparant cada xifra de les dues seqüències

Informc3a0tica --- accent --- Pq el diccionari q estan utilitzant x codificar no és el mateix q


estan usant x a descodificar

INFORMÀTICA – Ordinadors
COMPONENTS BÀSICS

• Part física: hardware, maquinari


• Part lògica: software, programari
• Part humana: programadors i usuaris

CPU (Unitat central de processament): on es fan les coses d lògica booleana


HARDWARE (PART FÍSICA DE L’ORDINADOR)

Emmagatzema el software que és realment el que el fa funcionar.

SOFTWARE: SISTEMA OPERATIU

Els sistemes operatius (operating systems, OS) són un conjunt de programes que
s’encarreguen de controlar l’ordinador (hardware) i tenen una interfície d’usuari, que pot ser
gràfica (GUI) o per línia de comandes (cmd). Què fa? Gestió dels perifèrics, control d’entrades i
sortides de dades a programes, copiar fitxers, imprimir per pantalla, etc..

EX: Windows, MacOS, Linux... Android, iOS...

Presenten problemes de compatibilitat. Cadascú fa les coses a la seva manera. No es posen


d’acord pq tots volen imposar el seu. (Tant Windows com MAC amaguen els diccionaris i la
programació x a q ningú els pugui copiar. Linux: sistema operatiu en què tot és lliure, tothom
veu quins codis de programació es fan servir).

Funcions d’un sistema operatiu

• Oferir una interfície d’usuari (Graphical User Interface)


Comandes (command line), menús i gràfiques

• Administració d’arxius: crear, eliminar, i mantenir el registre d’ubicació física als discos
L’emmagatzemament al disc està organitzat com un arbre de carpetes i fitxers,
a les que es pot accedir mitjançant la interfície d’usuari del SO. Es poden
localitzar els fitxers per la ruta o nom encadenat de les carpetes (pathname).
Carpetes o directoris, fitxers o arxius, Pathname o Camí o Ruta
-A Windows els noms de carpetes o documents no poden contenir els següents
símbols: / \ : * ? ” < > |
-Cal evitar també usar espais PATHNAME

X saber on està un document, hem de


• Administració de recursos de hardware i xarxes:
descriure quin és el camí x trobar-lo. Sempre
CPU, memòria, disc, perifèrics d’entrada i sortida
des de l’arrel.

• Administració de tasques: distribueixen l’ordre C:/Documents/carta.doc – per a trobar la carta


d’arribada a la CPU

• Servei de suport: actualitzacions, seguretat, etc.

SOFTWARE: LLENGUATGES DE PROGRAMACIÓ

Cal passar les instruccions com les coneixem els humans a llenguatge binari que entenen els
ordinadors

EX: C++, Java, PASCAL...


SOFTWARE: APLICACIONS

Són programes o conjunts de programes desenvolupats per a realitzar tasques concretes. En


moltes, l’usuari és l’últim programador: fa comandes via les interfícies d’usuari.

EX: Word, calendari, Facebook...

Aplicacions d’ús general (aplicacions horitzontals o software de base)

Són programes que es poden usar en moltes activitats diferents.

Les més usades són:

- Processadors de textos, per a l'edició de textos (word).


- Full de càlcul (excel), per a la creació de taules amb dades relacionades entre elles, i
inicialment pensat per al càlcul numèric. Tenen un format matricial en el que es poden
definir operacions i funcions sobre les dades que hi ha a les cel·les de les taules.
- Gestors de bases de dades, usats per a gestionar dades: permeten cercar, classificar o
llistar les informacions.

BD documentals, especialitzades en la gestió de grans volums d'informació documental

BD relacionals gestió de dades estructurades segons relacions lògiques.

- Gestor de comunicacions, Les aplicacions generals tenen la possibilitat d’afegir funcions


transmeten correus, navegadors, programades pels usuaris, i així cobrir totes les seves necessitats.
client de correu electrònic, etc.
• Funcions matemàtiques ...

• Macros (seqüències d'instruccions d'ús freqüent)

• Llenguatge de les Expressions Regulars per fer cerques

• etc.

Aplicacions específiques

Són les que s’usen per activitats molt concretes: disseny gràfic i arquitectura, càlcul financer,
correcció gramatical, traducció...

PROGRAMADORS

Ideen/creen els algoritmes per resoldre tasques

Escriuen conjunts d’instruccions que l’ordinador executa: els programes.

Per poder desenvolupar un programa que faci una tasca, primer algú ha
d’haver creat un algoritme que descrigui, en forma de llista ordenada
d’instruccions, la forma de resoldre-la.

El programador solament ho tradueix al llenguatge de programació que al seu


torn es traduirà a les comandes i dades binàries que pot executar l’ordinador.
BASE DE DADES: manera d’organitzar les dades x a q pugui recuperar-les més ràpidament.

Tot té mooolta programació al darrere

Exercici

- Fitxers > Imatges > Seleccionar imatge amb botó esquerre > Defineix com a fons
d’escriptori
- C:/Documents/2022-RTIC-UD2-3.pdf

INFORMÀTICA – Representació i llenguatges de marques


REPRESENTACIÓ DEL TEXT

Codificació de caràcters

Els caràcters es representen com un codi numèric, en forma d’una agrupació de bits i amb una
taula de correspondències.

Com acaben representats els caràcters que piquem al teclat?

Lluita per veure qui imposa la seva manera de traduir els caràcters. En un cas la A es tradueix
d’una manera i en un altre, d’una altra. Si s’emmagatzema d’una manera i es llegeix d’una
altra, això dona problemes.

1r intent de fer un codi estàndard

Només pels caràcters de l’anglès. L’ASCII (American Standard Code for Information
Interchange) és la primera representació única dels símbols gràfics usada per tots els
ordinadors i programes (1967).

La codificació o assignació d’una representació permet la traducció al codi binari que


és, en últim terme, el que processa l’ordinador.

Pot representar solament 128 caràcters.

PROBLEMA: com que només podem utilitzar 8 bits per byte, les combinacions eren
limitades. No se’n podien fer per altres llengües.

L’ISO-8859 van començar a pensar com crear un estàndard / diferents diccionaris de


codificació per a representar els caràcters de totes les llengües.

La creació de l’estàndard ISO-8859 per a les llengües alfabètiques, el 1987, va ser el


reconeixement internacional de que les aplicacions informàtiques havien de pensar-se
per poder funcionar per a usuaris amb diferents llengües i per tant amb diferents
caràcters gràfics.
Ampliava a 256 combinacions.

PROBLEMA: et feia seleccionar taules diferents depenent de la llengua

Finalment es va crear l’UNICODE per a que tothom utilitzés el mateix codi de


codificació per a tothom. És una representació única de tots els caràcters de totes les
llengües del món.

No va ser fins el 1991 que no es va arribar a la representació UNICODE com a


codificació estàndard que assigna una representació única a tots els caràcters i símbols
per escriure totes les llengües del món, inclosos els 2160 kanjis i els emojis!!

Ara l’UNICODE, però, té problemes amb la representació dels emojis.

PROBLEMA: Molts sistemes i aplicacions van ser desenvolupades per a ASCII i ara han de
poder llegir i produir UNICODE.

S’han creat conversors com a solució tècnica per a passar, per exemple, de l’UNICODE a
l’ASCII: UTF (Unicode Transformation Format) de 8 bits és un conversor. UTF8 és una
representació que serveix per a UNICODE i per a ASCII

UTF-16 usa dos bytes de 8 bits i representa millor els caràcters complexos del xinès i el
japonès. També hi ha UTF-32

REPRESENTACIÓ DE LA INFORMACIÓ NO TEXTUAL D’UN DOCUMENT

Codi amb informació sobre l’estructura i presentació del text:

- Format (negretes, tipus de lletra, colors, etc.)


- Paràgrafs, espaiats, etc.
- Referències a altres objectes (imatges, gràfics, etc.)

Llenguatge de marques o d’etiquetes (ex: html): manera de codificar el text de manera que,
per mitjà de marques, s’hi incorpora informació de com s’ha de representar el text (informació
no textual)

Codifica de forma explícita la informació que després s’utilitza per convertir-ho en codi (ex:
<b>nena</b> --- això és la marca explícita per a escriure en negreta).
.html (HyperText Markup Language) marques / etiquetes per declarar la visualització
de documents per a navegadors del www.

Per escriure html useu un editor, com ara Bloc de notes, Llibreta (Windows) o
TextEdit

Hem de configurar-lo “plain text” o “sense format” perquè volem saber


exactament què codifica. En canvi, els altres no ho especifiquen

Exemples de llenguatges de marques:

• SGML (Standard Generalized Markup Language)


Llenguatge de marques genèric. S’usa en formats d’edició de documents impresos.

• HTML (HyperText Markup Language)


Una implementació concreta de l’SGML, que defineix un format hipermèdia usat en el
WWW. Permet incloure hipervincles a altres documents identificats en la Xarxa. És un
tipus de SGML. Hi ha diferents versions!! Llenguatge restringit, vocabulari i sintaxi. Per
navegació.

• XML (eXtensible Markup Language)


o Un estàndard per a l'intercanvi d'informació estructurada entre diferents
plataformes. Es pot utilitzar per a bases de dades, editors de text, fulls de
càlcul i per moltes altres aplicacions diverses.
o És un llenguatge per fer explícit el format de dades, no solament per text.
o Són formats de dades dissenyats perquè d'altres programes o aplicacions en
puguin fer ús, per exemple, per a analitzar-los, creuar-los amb d'altres fonts de
dades, o crear-ne visualitzacions en gràfics o mapes.
o Podem convertir-ho en un excel, una base de dades ...

EXERCICI 1:

- A A AI
- UU UU E

EXERCICI 2: 20 anys
EXERCICI 4 :

- Accents
- Ç
- l·l
- Totes les majúscules

EXERCICI 5: serveix per a que l’ordinador no distingeixi entre una a i una à, per exemple.

Input: text

Instruccions:

Revisem cada caràcter

Si hi ha un espai, sumem una xifra al comptador

Si no hi ha espai, revisem el següent caràcter

Output: el nombre de paraules

------------------------------------------------------------------------------------------------------------------------------

Eines informàtiques de corpus


Lingüística de corpus: realitza les seves investigacions sobre un corpus, un conjunt de textos
seleccionats per ser una mostra q proporciona evidència d’una llengua o subllengua. Per
realment veure’n les característiques, hem de tenir representacions de tots els tipus de llengua
(premsa, informal...).

és una línia de treball molt important en la lingüística funcionalista actual, que es distingeix per
la seva metodologia: té un caràcter empíric, i realitza les seves investigacions sobre la base de
col·leccions extenses de textos, a les que denominen corpus. Aquestes mostres de textos són
analitzades mitjançant l’ús intensiu de programes informàtics.

Programes de corpus: Programes específics per consultar i extreure dades de corpus lingüístics

Els corpus lingüístics són col·leccions de gran quantitat de textos seleccionats amb un criteri
específic per ser mostres representatives d’una llengua o una variant específica de la mateixa.

Els corpus són font de dades per a diferents disciplines de la lingüística:

- Lingüística de corpus
- Lexicografia
- Traducció
- Comparació de llengües
- Lingüística computacional

KWIC = key word in context

El DIEC es fa tenint en compte les aparicions de les paraules en diversos contexts


CONCEPTES CLAU I TERMINOLOGIA

Digitalització

Representativitat del corpus: conjunt de textos que forma una mostra apropiada d’una
llengua o d’una llengua usada en unes condicions específiques.

Ex: vull estudiar l’ús de la llengua a twitter. No utilitzem el corpus de l’IEC, pq no


tindran corpus de twitter.

Ex: si busquem 2es persones del plural, no buscarem al corpus de l’IEC, buscarem
corpus de textos literaris.

Concordances (KWIC – Key Word in context), una paraula i el context en el qual apareix en un
corpus de textos.

Col·locacions: paraules que apareixen juntes amb més freqüència del normal. Combinació
d’unes formes particulars que funcionen en bloc: “llibre blanc”, “banc de sang”...

Ocurrència: que ha aparegut, l’aparició d’una paraula en un text.

Freqüència absoluta: nombre de vegades que apareix una paraula en un corpus.

Paraula

- FORMES: totes les possibles formes d’una paraula (paradigma flexiu)(taula –


taules)(ros – rossa – rosses – rossos)
- LEMA: representant lèxic d’una paraula (com al diccionari)(no busquem corríem,
busquem córrer). L’aplicació s’encarrega de buscar totes les formes del lema q hi
introduïm.
- SÍMBOLS (types): formes úniques en un text. Paraules no repetides. Si repeteixes una
paraula 5 cops en un text, segueix sent 1 type.
- OCURRÈNCIA (token): aparició de qualsevol forma d’una paraula (lema).

La nena menja la galeta (5 tokens, 4 types)

Freqüència relativa: relació entre la freqüència d’aparició i la magnitud del corpus en què
apareix. No és el mateix que una paraula es repeteixi en un text de 5 paraules que en un de
100. Quan volem comparar, la freqüència absoluta no és molt significativa. Cal consultar-ne la
freqüència relativa.

Per a calcular la freqüència relativa fem una divisió. Per exemple, si la freqüència absoluta és
10 i tenim 20 documents, dividim 10/20. La freqüència relativa és, doncs, 50%.

Distribució d’una paraula: conjunt de contextos en què apareix una paraula.

Formes: totes les possibles formes d’una paraula (paradigma flexiu)

- Informació morfosintàctica:
Categoria gramatical (nom, verb, adjectiu, etc.)
Informació morfosintàctica (persona, nombre, gènere, etc.)
Tot això serveix per fer més eficient la cerca d’informació

Són evidència, les dades, per poder trobar coses de la llengua.

La quantitat de textos que formen un corpus pot variar, però ha de tenir-ne molts per recollir
quantes més paraules (i els seus contextos) millor. Normalment els corpus són de milions de
paraules!

La freqüència de les paraules en textos sempre segueix el mateix patró: unes poques surten
moltes vegades als textos i moltes surten molt poques vegades [En tots els textos que mirem,
en totes les llengües, llei de Zipf]

EX: “el” vs “geomètric”. Per trobar una ocurrència de ‘geomètric’ hem de mirar molts
textos. Per això els corpus han de contenir grans quantitats de textos: per contenir
moltes paraules diferents i els contextos en què poden aparèixer.

La meitat de les paraules d’un corpus (sigui quina sigui la seva extensió) apareix
solament un cop. (Sánchez, A. i Cantos, P. , 1977).

DADES MONOLINGÜES I MULTILINGÜES

Els corpus poden ser una recopilació de textos en una única llengua, o poden ser compilacions
de textos en una llengua i la seva traducció a una o més llengües

¡ En els casos de textos i traduccions, els documents, i en alguns casos, les frases dels
documents estan alineats (a aquesta frase del document en anglès, correspon aquesta frase
del document en castellà): s’inclou informació explícita de la correspondència de traducció
entre unitats: document, paràgraf, oració, frase.
CORPUS DE REFERÈNCIA:

- Corpus textual Informatitzat de la llengua catalana (IEC)


- Corpus de Referencia del Español Actual. CREA i Corpus del Español XXI. CORPES
- Das Deutsche Referenzkorpus

DADES QUE ES PODEN EXTREURE D’UN CORPUS

Un corpus proporciona dades de:

- Paraules
- Seqüències de paraules (bi-grames, tri-grames, n-grames...)
- Combinació de paraules (distribució: paraules davant, darrera, en una determinada
finestra o radi)

Bàsicament el que podem fer és observar al freqüència de les dades. Quants cops surt...

- Una paraula
- Dues paraules o més surten juntes

Això dels corpus existeix des del 1946

PQ POSA h* estat?

Eines informàtiques de corpus


- Eines de recollida de textos per a la creació de corpus
- Eines de processament de textos (segmentar i identificar paraules, anotar o enriquir
els textos amb informació lingüística explícita...)
- Eines de consulta (indexació de textos – per recuperar més ràpidament la informació,
interfícies de consulta...)

EINES INFORMÀTIQUES DE CONSULTA DE CORPUS

Terminologia
CAZADORA

Com a lema: la xupa (sortiria cazadora, cazadoras...)

Com a forma: només sortiria cazadora, però tindria més lemes (la xupa, cazador -a...)

Com a forma tindria més ocurrències

Creative commons – normalment no hi ha problemes amb copiar, però depèn de les llicències
q t’atorgui

You might also like