Professional Documents
Culture Documents
Academia Play - La Historia Como Nunca Te La Habian Contado
Academia Play - La Historia Como Nunca Te La Habian Contado
7. gaia: Semantika
Gardenkien iturria (ANLP & NLP, David Bamman, UC Berkeley)
Aurkibidea
●
Semantika Lexikoa 1:
Hitzen errepresentazio bektoriala
– Sarrera
– Ikasketa
– Erabilera
●
Semantika Lexikoa 2:
Hitzen errepresentazio ontologikoa
●
Semantika
Hitzen errepresentazio bektoriala
Hiztegia
Bektore-espazioa
Hitz-embeddingak (word embedding)
Errepresentazio banatuak
Bektore dentsoak
3
y
tx
a
katua
ku
rr
a
txakurtxoa
ardoa
garagardoa
4
Errepresentazio banatuak
5
x β
like 0
movie 0 y
love 1
6
x = ezaugarri-bektorea β = koefizienteak
it 0 it 0.01
Ezaugarria Balioa
movie 0
sad 0
love 1
hate 0
it 0
boring 0
8
Errepresentazio banatua
like 0
h1
y
movie 0
h2
love 1
W
like movie love
• Dimentsio baxuko hitz
errepresentazioak zuzenean
4.1 0.7 0.1
pisu matrizetatik irakurrita
-0.9 1.3 0.3
10
Dimentsionalitatea
gutxiagotzea
… …
the 1
a 0 the
One-hot an 0
encoding edo
for 0 Low- 4.1
sparse
(gehienak 0ak) dimensional
in 0 edo dense
-0.9
on 0
dog 0
cat 0
… …
the V-dimentsio espazioan puntu bat da the 2-dimentsioko espazioan puntu bat da
11
Antzekotasuna
Hinton 1984
12
y
tx
a
katua
ku
rr
a
txakurtxoa
ardoa
garagardoa
13
Kosinu-
antzekotasuna
tx
a
katua
ku
rr
a
txakurtxoa
ardoa
garagardoa
15
Errepresentazio banatuak
16
Aurkibidea
●
Semantika Lexikoa 1:
Hitzen errepresentazio bektoriala
– Sarrera
– Ikasketa
– Erabilera
●
Semantika Lexikoa 2:
Hitzen errepresentazio ontologikoa
●
Semantika
Iragarpenetatik bektore
dentsoak ikasten
• Nola ikasi hitz-embeddingak?
* Sailkapena: testuingurua
emanda, zein da falta den hitza?
x = (testuingurua)
y = hitza
20
Hizkuntza-ereduaren idea, hitz-
embeddingak lortzeko
• Klase anitzeko erregresio logistikoa erabil
dezakegu hitzak testuinguruan iragartzeko,
hiztegia (vocabulary) irteerako espazio
moduan kontsideratuz. Adib. “I like ...”
Skipgram eredua x y
(Mikolov et al. 2013):
esaldi batean hitz bakar gin a
bat emanda, inguruko gin cocktail
testuinguru leiho bateko
hitzak iragarri. gin with
gin and
22
Erregresio logistikoa
Irteera-espazioa
Ez digu balio...irteera 0 edo 1 eta
guk klase anitz behar ditugu irteeran
23
Klase anitzeko erregresio
logistikoa
Irteera-espazioa
β1 β2 β3 β4 β5
Ezaugarria Balioa Ezaugarria
k=“a” k=“an” k=“and” k=“ant” k=“anti”
the V-dimentsio espazioan puntu bat da the 2-dimentsio espazioan puntu bat da
27
gin x1 y gin
cocktail x2 y cocktail
globe x3 y globe
Softmax
β1 β2 β3
Ezaugarria
k=“gin” k=“cocktail” k=“globe”
28
gin x1 y gin
h1
cocktail x2 y cocktail
h2
globe x3 y globe
Badabil!
29
W V
gin x1 y gin
h1
cocktail x2 y cocktail
h2
globe x3 y globe
Sarrera Softmax
x W V y
gin x1 y gin
h1
cocktail x2 y cocktail
h2
globe x3 y globe
Sarreretan bakarra W V
da ez-zero
(cocktail). -0.5 1.3 4.1 0.7 0.1
32
Hitz-embeddinga
33
Hitz-embeddinga
• Modu berean, V-k H-dimentsioko bektore bat du
hiztegiko elementu bakoitzarentzako (iragartzen ari
garen hitzentzako)
gin x1 y gin
h1
cocktail x2 y cocktail
h2
globe x3 y globe
x W V y
tx
Hitz-embeddingek
a
katua
ku
semantikoki antzekoak
rr
diren hitzak hurbil
a
kokatzen ditu bektore-
espazioan. Zergatik? txakurtxoa
ardoa
garagardoa
36
• Zergatik portaera hau? dog, cat antzeko
posiziotan agertzen dira
37
• Zergatik portaera hau? dog, cat antzeko
posiziotan agertzen dira
Semantika
distribuzionala
39
Inferentzia analogikoa
• Mikolov et al. 2013-ek erakutsi zuten bektore
errepresentazioek arrazoitze analogikorako
potentziala zutela, horretarako bektore-
aritmetika erabiliaz.
Mikolov et al., (2013), “Linguistic Regularities in Continuous Space Word Representations” (NAACL)
41
Berezko ebaluazioa (Intrinsic
Evaluation)
Urre-patroia
giza-
hitza 1 hitza 2
puntuazioa
• Erlazioa: hitz pareen
bektore midday noon 9.29
helburua
possibly impossibly certain uncertain
generating generated shrinking shrank
think thinking look looking
Baltimore Maryland Oakland California
shrinking shrank slowing slowed
Rabat Morocco Astana Kazakhstan
43
Man is to doctor what woman is to....?
https://ai6034.mit.edu/wiki/images/Narayanan-183.full.pdf
44
Aurkibidea
●
Semantika Lexikoa 1:
Hitzen errepresentazio bektoriala
– Sarrera
– Ikasketa
– Erabilera
●
Semantika Lexikoa 2:
Hitzen errepresentazio ontologikoa
●
Semantika
Dimentsio baxuko
errepresentazio banatuak
46
“Entrenamendurako” bi datu
mota
• Ataza zehatzerako datu etiketatuak (adib.
Pelikula-kritika etiketatuak sentimenduen
analisirako): ~ 2K etiketa/kritika, ~1.5M hitz
→ eredu gainbegiratu bat entrenatzeko
erabilia
47
1 2 3 4 … 50
the 0.418 0.24968 -0.41242 0.1217 … -0.17862
, 0.013441 0.23682 -0.16899 0.40951 … -0.55641
. 0.15164 0.30177 -0.16763 0.17684 … -0.31086
of 0.70853 0.57088 -0.4716 0.18048 … -0.52393
to 0.68047 -0.039263 0.30186 -0.17792 … 0.13228
… … … … … … …
chanty 0.23204 0.025672 -0.70699 -0.04547 … 0.34108
kronik -0.60921 -0.67218 0.23521 -0.11195 … 0.85632
rolonda -0.51181 0.058706 1.0913 -0.55163 … 0.079711
zsombor -0.75898 -0.47426 0.4737 0.7725 … 0.84014
sandberger 0.072617 -0.51393 0.4728 -0.52202 … 0.23096
https://nlp.stanford.edu/projects/glove/ 48
Bektore dentsoak erabiltzen
49
y
- -
2.7 3.1 0.7
1.4 2.3
avg
- - - - - - - - - -
2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7
1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3
Iyyer et al. (2015), “Deep Unordered Composition Rivals Syntactic Methods for Text Classification” (ACL)
50
y
- -
2.7 3.1 0.7
1.4 2.3
max
- - - - - - - - - -
2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7
1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3
51
y
RNN-tan denbora-
urratseko irteeraren
ordez, hitz-
embeddingak jar 2.7 3.1
- -
0.7
daitezke. 1.4 2.3
- - - - - - - - - -
0.7 7.8 9.1 0.7 7.8 9.1 0.7 7.8 9.1 0.7 7.8 9.1 0.7 7.8 9.1
1.1 5.4 1.1 5.4 1.1 5.4 1.1 5.4 1.1 5.4
- - - - - - - - - -
2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7 2.7 3.1 0.7
1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3 1.4 2.3
52
emoji2vec
Eisner et al. (2016), “emoji2vec: Learning Emoji Representations from their Description”
55
Dagoeneko entrenatutako hitz-
bektoreak
• Word2vec
https://code.google.com/archive/p/word2vec/
• Glove
http://nlp.stanford.edu/projects/glove/
57
12.semantika/
WordEmbeddings.ipynb
58