You are on page 1of 18

Zero-Shot Transfer Learning for Event Extraction

4 votes

⻲⽥ 尭宙
京都⼤学 東南アジア地域研究研究所
最先端NLP勉強会 - 2018

1
概要
⽂章中のevent(ある単語によって引き起こされると判定される事
象)について、学習で使⽤していないタイプのイベントについても
抽出ができる⼿法

2
Event Extraction とは

⽂中でイベントを記述するtriggerとそれに付随するargumentsを同
定し、そのタイプを判定する。

イベントのタイプごとに1から学習データを作って学習することが
⼀般的。
それではコストがかかるので転移学習の⼀種である Zero-shot
learning を⽤いた枠組みを提案する。
3
Zero-shot learning とは

学習サンプルに無いタイプを推定する⼿法。転移学習の⼀種。
⾏動推定の場合、例えば下位⾏動の集合として表現を利⽤(⾛る
=⾜を上下に動かす+腕を振る)

from 未学習⾏動推定のためのZero-shot学習法における精度向上の
試み 4
本論⽂のアルゴリズム
イベント表現のベクトルに最も近い、イベントタイプのベク
トルを学習された意味空間内で探す
イベント表現のベクトルを作成する
Wang 2015 の Abstract Meaning Representations
(AMR) Parser を⽤いて、イベント表現(trigger と
arguments)を記述
それを CNN で適切なベクトルに変換
イベントタイプのベクトルを作成する
Automatic Content Extraction (ACE) guideline を⽤い
て、イベントタイプを記述
それを CNN で適切なベクトルに変換

5
本論⽂のアルゴリズム

6
未知のタイプへの適⽤⼿順
未知のタイプの構造(タイプ名、関連語 arguments に割り当
てられる役割名)を決定する
それを学習されたCNNによって分散表現に落とし、⽂から抽
出されたイベントに対するタイプの候補として利⽤する

7
AMRのベクトル表現
<dispatch-01, :ARG0, China>

dispatch (d) と China (d) のベクトルをくっつけて(2d)、それに


:ARG0 に対応した⾏列 M (2d×2d)で変換をかける。

8
ACE Event type のベクトル表現
<Transport_Person, Destination>

Transport_Person (d、単に平均︖︖) と Destination (d) のベクト


ルをくっつけて(2d)、それに共通の⾏列 U (2d×2d×2d)で変換を
かける。

9
CNN の convolution layer

ここがconfusing。私も⾃信がないです。

10
"Negative" event mentions による過学習の防⽌
学習データにあるタイプに対するマッピングを学習しすぎる
学習データに無いタイプに対するマッピングを学習すべき
Huang 2016 の結果から ACE に対応しないデータを追加

損失関数もそれに対応。mはマージン、Cはコサイン距離。
11
実験
単語ベクトルは Continuous Skip-gram model (Mikolov et al.,
2013)
33タイプ中 Top N を seen、残り23を unseen扱い

ACR event type に加えて FrameNet の1161タイプも使った

12
学習に使うタイプの量によって成績がどのくらい
上がっていくか
Base Line は構造を考えないフラットな type / role 等推定
(WSD問題として解く)

少しのタイプを使うだけで shared space を学習できている

13
最新⼿法との学習データ量に着⽬した⽐較

23 unseen type に関して、zero shot で LSTM の半教師アリ 500ア


ノテーション(3000⽂)に相当する成績 14
最新⼿法との結果の良さの⽐較

他の⽐較対象はLSTMベースの A Language-Independent
Neural Network for Event Detection と Joint モデルの Joint
Event Extraction via Structured Prediction with Global Features
双⽅過去の共著
comparable

15
AMR parsing の影響

200⽂を完全AMRアノテーションして特にRecallが上がること
を確認。AMR parsingの精度⼤事
多様なロールが⼤事(core roleでは argument labeling の成績
が悪い

16
まとめ
Zero-shot の Event Extraction
"⾔語で適切に"表現されたモデルがあれば、「そのモデルから
分散表現」&「パージングされた⽂から分散表現」への変換
を整合的に shared CNN で学習することで、モデルに対応する
学習データが無くてもzero-shotで学習できる。
今回はモデルが ACE Event Schema 、
パーザが AMR パーザ
⼯夫がある
過学習を避けるため、Huang 2016 の出⼒のうちモデルに
マッチしないものをOtherとして学習に加えた。
最新の⼿法に匹敵

17
Resources
Zero-Shot Transfer Learning for Event Extraction -ACL Web
wilburOne/ZeroShotEvent -GitHub
Zero-Shot Transfer Learning for Event Extraction · Issue #174 ·
ymym3412/acl-papers
[1707.01066] Zero-Shot Transfer Learning for Event Extraction -
arXiv

18

You might also like