Zero-Shot Transfer Learning For Event Extraction

Zero-Shot Transfer Learning for Event Extraction
4 votes
⻲⽥尭宙
京都⼤学東南アジア地域研究研究所
最先端NLP勉強会 - 2018
1
概要
⽂章中のevent(ある単語によって引き起こされると判定される事
象)について、学習で使⽤していないタイプのイベントについても
抽出ができる⼿法
2
Event Extraction とは
⽂中でイベントを記述するtriggerとそれに付随するargumentsを同
定し、そのタイプを判定する。
イベントのタイプごとに1から学習データを作って学習することが
⼀般的。
それではコストがかかるので転移学習の⼀種である Zero-shot
learning を⽤いた枠組みを提案する。
3
Zero-shot learning とは
学習サンプルに無いタイプを推定する⼿法。転移学習の⼀種。
⾏動推定の場合、例えば下位⾏動の集合として表現を利⽤（⾛る
＝⾜を上下に動かす＋腕を振る）
from 未学習⾏動推定のためのZero-shot学習法における精度向上の
試み 4
本論⽂のアルゴリズム
イベント表現のベクトルに最も近い、イベントタイプのベク
トルを学習された意味空間内で探す
イベント表現のベクトルを作成する
Wang 2015 の Abstract Meaning Representations
(AMR) Parser を⽤いて、イベント表現（trigger と
arguments）を記述
それを CNN で適切なベクトルに変換
イベントタイプのベクトルを作成する
Automatic Content Extraction (ACE) guideline を⽤い
て、イベントタイプを記述
それを CNN で適切なベクトルに変換
5
本論⽂のアルゴリズム
6
未知のタイプへの適⽤⼿順
未知のタイプの構造（タイプ名、関連語 arguments に割り当
てられる役割名）を決定する
それを学習されたCNNによって分散表現に落とし、⽂から抽
出されたイベントに対するタイプの候補として利⽤する
7
AMRのベクトル表現
<dispatch-01, :ARG0, China>
dispatch (d) と China (d) のベクトルをくっつけて(2d)、それに

:ARG0 に対応した⾏列 M (2d×2d）で変換をかける。
8
ACE Event type のベクトル表現
<Transport_Person, Destination>
Transport_Person (d、単に平均︖︖) と Destination (d) のベクト

ルをくっつけて(2d)、それに共通の⾏列 U (2d×2d×2d）で変換を
かける。
9
CNN の convolution layer
ここがconfusing。私も⾃信がないです。
10
"Negative" event mentions による過学習の防⽌
学習データにあるタイプに対するマッピングを学習しすぎる
学習データに無いタイプに対するマッピングを学習すべき
Huang 2016 の結果から ACE に対応しないデータを追加
損失関数もそれに対応。mはマージン、Cはコサイン距離。
11
実験
単語ベクトルは Continuous Skip-gram model (Mikolov et al.,
2013)
33タイプ中 Top N を seen、残り23を unseen扱い
ACR event type に加えて FrameNet の1161タイプも使った
12
学習に使うタイプの量によって成績がどのくらい
上がっていくか
Base Line は構造を考えないフラットな type / role 等推定
（WSD問題として解く）
少しのタイプを使うだけで shared space を学習できている
13
最新⼿法との学習データ量に着⽬した⽐較
23 unseen type に関して、zero shot で LSTM の半教師アリ 500ア

ノテーション（3000⽂）に相当する成績 14
最新⼿法との結果の良さの⽐較
他の⽐較対象はLSTMベースの A Language-Independent
Neural Network for Event Detection と Joint モデルの Joint
Event Extraction via Structured Prediction with Global Features
双⽅過去の共著
comparable
15
AMR parsing の影響
200⽂を完全AMRアノテーションして特にRecallが上がること
を確認。AMR parsingの精度⼤事
多様なロールが⼤事（core roleでは argument labeling の成績
が悪い
16
まとめ
Zero-shot の Event Extraction
"⾔語で適切に"表現されたモデルがあれば、「そのモデルから
分散表現」＆「パージングされた⽂から分散表現」への変換
を整合的に shared CNN で学習することで、モデルに対応する
学習データが無くてもzero-shotで学習できる。
今回はモデルが ACE Event Schema 、
パーザが AMR パーザ
⼯夫がある
過学習を避けるため、Huang 2016 の出⼒のうちモデルに
マッチしないものをOtherとして学習に加えた。
最新の⼿法に匹敵
17
Resources
Zero-Shot Transfer Learning for Event Extraction -ACL Web
wilburOne/ZeroShotEvent -GitHub
Zero-Shot Transfer Learning for Event Extraction · Issue #174 ·
ymym3412/acl-papers
[1707.01066] Zero-Shot Transfer Learning for Event Extraction -
arXiv
18

Zero-Shot Transfer Learning For Event Extraction

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Zero-Shot Transfer Learning For Event Extraction

Uploaded by

Copyright:

Available Formats

Zero-Shot Transfer Learning for Event Extraction

dispatch (d) と China (d) のベクトルをくっつけて(2d)、それに

Transport_Person (d、単に平均︖︖) と Destination (d) のベクト

ACR event type に加えて FrameNet の1161タイプも使った

少しのタイプを使うだけで shared space を学習できている

23 unseen type に関して、zero shot で LSTM の半教師アリ 500ア

You might also like