Professional Documents
Culture Documents
PROGRAMA INFORMÀTIC
És una llista d’instruccions ordenades (algoritme) que processen informació: transformen unes
dades d’entrada en unes dades de sortida. // Llista ordenada d’instruccions, l’algoritme,
expressada en un llenguatge de programació
Ex: Com fem que funcioni un corrector automàtic? Tenim un diccionari amb totes les
paraules ben escrites. Per cada paraula del text, mira si està entre les paraules ben escrites.
La feina de definir quines dades, com s’han de transformar i per a quin objectiu no ho fa la
informàtica, ho fa la gent que vol automatitzar la programació per determinades tasques.
ALGORITME (https://www.youtube.com/watch?v=U3CGMyjzlvM)
Seqüència d’instruccions que descriuen pas per pas com aconseguir un determinat resultat. //
Un algoritme és la descripció de la solució d’una tasca en una seqüència de passes, una
després de l’altre, de forma que al final es resolgui la tasca efectivament.
Els nous algoritmes busquen les similituds entre els diferents elements.
EX: Descobrir càncer en ecografies de mama: els donem un milió d’ecografies amb
càncer i 1 milió q no n’hi ha. Quan tenim una ecografia, l’algoritme busca les similituds amb les
ecografies amb càncer i sense.
Així doncs, abans d’escriure el codi del programa hem de saber com es resol la tasca i descriure
la solució en un algoritme.
GRANS ALGORITMES:
- Classificació: spam
INFORMÀTICA – Ordinadors
COMPONENTS BÀSICS
Els sistemes operatius (operating systems, OS) són un conjunt de programes que
s’encarreguen de controlar l’ordinador (hardware) i tenen una interfície d’usuari, que pot ser
gràfica (GUI) o per línia de comandes (cmd). Què fa? Gestió dels perifèrics, control d’entrades i
sortides de dades a programes, copiar fitxers, imprimir per pantalla, etc..
• Administració d’arxius: crear, eliminar, i mantenir el registre d’ubicació física als discos
L’emmagatzemament al disc està organitzat com un arbre de carpetes i fitxers,
a les que es pot accedir mitjançant la interfície d’usuari del SO. Es poden
localitzar els fitxers per la ruta o nom encadenat de les carpetes (pathname).
Carpetes o directoris, fitxers o arxius, Pathname o Camí o Ruta
-A Windows els noms de carpetes o documents no poden contenir els següents
símbols: / \ : * ? ” < > |
-Cal evitar també usar espais PATHNAME
Cal passar les instruccions com les coneixem els humans a llenguatge binari que entenen els
ordinadors
• etc.
Aplicacions específiques
Són les que s’usen per activitats molt concretes: disseny gràfic i arquitectura, càlcul financer,
correcció gramatical, traducció...
PROGRAMADORS
Per poder desenvolupar un programa que faci una tasca, primer algú ha
d’haver creat un algoritme que descrigui, en forma de llista ordenada
d’instruccions, la forma de resoldre-la.
Exercici
- Fitxers > Imatges > Seleccionar imatge amb botó esquerre > Defineix com a fons
d’escriptori
- C:/Documents/2022-RTIC-UD2-3.pdf
Codificació de caràcters
Els caràcters es representen com un codi numèric, en forma d’una agrupació de bits i amb una
taula de correspondències.
Lluita per veure qui imposa la seva manera de traduir els caràcters. En un cas la A es tradueix
d’una manera i en un altre, d’una altra. Si s’emmagatzema d’una manera i es llegeix d’una
altra, això dona problemes.
Només pels caràcters de l’anglès. L’ASCII (American Standard Code for Information
Interchange) és la primera representació única dels símbols gràfics usada per tots els
ordinadors i programes (1967).
PROBLEMA: com que només podem utilitzar 8 bits per byte, les combinacions eren
limitades. No se’n podien fer per altres llengües.
PROBLEMA: Molts sistemes i aplicacions van ser desenvolupades per a ASCII i ara han de
poder llegir i produir UNICODE.
S’han creat conversors com a solució tècnica per a passar, per exemple, de l’UNICODE a
l’ASCII: UTF (Unicode Transformation Format) de 8 bits és un conversor. UTF8 és una
representació que serveix per a UNICODE i per a ASCII
UTF-16 usa dos bytes de 8 bits i representa millor els caràcters complexos del xinès i el
japonès. També hi ha UTF-32
Llenguatge de marques o d’etiquetes (ex: html): manera de codificar el text de manera que,
per mitjà de marques, s’hi incorpora informació de com s’ha de representar el text (informació
no textual)
Codifica de forma explícita la informació que després s’utilitza per convertir-ho en codi (ex:
<b>nena</b> --- això és la marca explícita per a escriure en negreta).
.html (HyperText Markup Language) marques / etiquetes per declarar la visualització
de documents per a navegadors del www.
Per escriure html useu un editor, com ara Bloc de notes, Llibreta (Windows) o
TextEdit
EXERCICI 1:
- A A AI
- UU UU E
EXERCICI 2: 20 anys
EXERCICI 4 :
- Accents
- Ç
- l·l
- Totes les majúscules
EXERCICI 5: serveix per a que l’ordinador no distingeixi entre una a i una à, per exemple.
Input: text
Instruccions:
------------------------------------------------------------------------------------------------------------------------------
és una línia de treball molt important en la lingüística funcionalista actual, que es distingeix per
la seva metodologia: té un caràcter empíric, i realitza les seves investigacions sobre la base de
col·leccions extenses de textos, a les que denominen corpus. Aquestes mostres de textos són
analitzades mitjançant l’ús intensiu de programes informàtics.
Programes de corpus: Programes específics per consultar i extreure dades de corpus lingüístics
Els corpus lingüístics són col·leccions de gran quantitat de textos seleccionats amb un criteri
específic per ser mostres representatives d’una llengua o una variant específica de la mateixa.
- Lingüística de corpus
- Lexicografia
- Traducció
- Comparació de llengües
- Lingüística computacional
Digitalització
Representativitat del corpus: conjunt de textos que forma una mostra apropiada d’una
llengua o d’una llengua usada en unes condicions específiques.
Ex: si busquem 2es persones del plural, no buscarem al corpus de l’IEC, buscarem
corpus de textos literaris.
Concordances (KWIC – Key Word in context), una paraula i el context en el qual apareix en un
corpus de textos.
Col·locacions: paraules que apareixen juntes amb més freqüència del normal. Combinació
d’unes formes particulars que funcionen en bloc: “llibre blanc”, “banc de sang”...
Paraula
Freqüència relativa: relació entre la freqüència d’aparició i la magnitud del corpus en què
apareix. No és el mateix que una paraula es repeteixi en un text de 5 paraules que en un de
100. Quan volem comparar, la freqüència absoluta no és molt significativa. Cal consultar-ne la
freqüència relativa.
Per a calcular la freqüència relativa fem una divisió. Per exemple, si la freqüència absoluta és
10 i tenim 20 documents, dividim 10/20. La freqüència relativa és, doncs, 50%.
- Informació morfosintàctica:
Categoria gramatical (nom, verb, adjectiu, etc.)
Informació morfosintàctica (persona, nombre, gènere, etc.)
Tot això serveix per fer més eficient la cerca d’informació
La quantitat de textos que formen un corpus pot variar, però ha de tenir-ne molts per recollir
quantes més paraules (i els seus contextos) millor. Normalment els corpus són de milions de
paraules!
La freqüència de les paraules en textos sempre segueix el mateix patró: unes poques surten
moltes vegades als textos i moltes surten molt poques vegades [En tots els textos que mirem,
en totes les llengües, llei de Zipf]
EX: “el” vs “geomètric”. Per trobar una ocurrència de ‘geomètric’ hem de mirar molts
textos. Per això els corpus han de contenir grans quantitats de textos: per contenir
moltes paraules diferents i els contextos en què poden aparèixer.
La meitat de les paraules d’un corpus (sigui quina sigui la seva extensió) apareix
solament un cop. (Sánchez, A. i Cantos, P. , 1977).
Els corpus poden ser una recopilació de textos en una única llengua, o poden ser compilacions
de textos en una llengua i la seva traducció a una o més llengües
¡ En els casos de textos i traduccions, els documents, i en alguns casos, les frases dels
documents estan alineats (a aquesta frase del document en anglès, correspon aquesta frase
del document en castellà): s’inclou informació explícita de la correspondència de traducció
entre unitats: document, paràgraf, oració, frase.
CORPUS DE REFERÈNCIA:
- Paraules
- Seqüències de paraules (bi-grames, tri-grames, n-grames...)
- Combinació de paraules (distribució: paraules davant, darrera, en una determinada
finestra o radi)
Bàsicament el que podem fer és observar al freqüència de les dades. Quants cops surt...
- Una paraula
- Dues paraules o més surten juntes
PQ POSA h* estat?
Terminologia
CAZADORA
Com a forma: només sortiria cazadora, però tindria més lemes (la xupa, cazador -a...)
Creative commons – normalment no hi ha problemes amb copiar, però depèn de les llicències
q t’atorgui