Professional Documents
Culture Documents
第1回講義: AI導⼊
Lecture 1: Introduction to AI
二宮 崇 (Takashi Ninomiya)
愛媛大学 (Ehime University)
ninomiya@cs.ehime-u.ac.jp
⼈⼯知能とは?
2
⼈⼯知能(Artificial Intelligence; AI)と
は?
コミュニケー 自動翻訳機/ パズルを解く
ションロボット プログラム プログラム 電卓
(候補の全探索)
〇 Sota™
〇 〇 △
形態は問わない 振る舞いが知的で
あればよい
「知的なモノ(機械、プログラム、技術)」
※ 研究者間で共有された明確な定義はない
※ 知性や知能の定義自体がない 3
今期待されているAI
自動運転
証券取引 融資 芸術 4
⼈⼯知能分野
⼈⼯知能(AI)
探索 プラニング 対話 機械学習
(Machine Learning)
制約ソルバー 確率推論 ⾳声認識
ベイジアン
深層学習
ネットワーク (Deep Learning)
命題論理
⼀階述語論理 画像認識
強化学習 物体認識
知識表現
オントロジー ロボティクス
⾃然⾔語処理
機械学習:データから法則を⾒つけ出す⼿法
深層学習:ニューラルネットワーク(NN)を複数層重ねたモデル
Stuart Russell, Peter Norvig (2010) Artificial Intelligence: A Modern
Approach, 3rd Edition. 5
深層学習
l 深層学習 = 多層ニューラルネットワーク(NN)による学習
l ニューラルネットワーク
l ⼈間の脳の神経細胞(ニューロン)の仕組みを模した計算モデル
l パーセプトロン (Rosenblatt 1958)
l 畳み込みNN (福島 1980)(LeCun+ 1989)
l 特徴抽出、表現学習
深層学習では⼊⼒の特徴が⾃動的に学習されることがわかってきた
顔の全体像
多層NN
顔のパーツ
l 深層学習の圧倒的精度
l 2012年のILSVRC (ImageNet Large Scale Visual Recognition
Challenge)における画像分類の精度
l 2010年 71.8% (NEC Labs America, Univ. of Illinois at
Urbana-Champaign, Rutgers Univ.)
l 2011年 74.2% (Xerox Research Center Europe, CIII)
l 2012年 83.6% (Univ. of Toronto) … この年に深層学習が圧勝
l 2013年 88.3% (Clarifai)
l 2014年 93.3% (Google)
l 2015年 96.4% (MSRA) … ⼈間の分類精度(95%)を超えたと⾔
われる
l 2016年 97.0% (公安調査庁第3研究所,中国)
l 2017年 97.75% (Momenta, Univ. of Oxford)
Olga Russakovsky+ (2015) ImageNet Large Scale Visual Recognition Challenge, International Journal of
Computer Vision, Volume 115, Issue3, pp 211–252
http://image-net.org/challenges/LSVRC/2017/index.php 7
深層学習のインパクト (2/3)
従来の機械翻訳 深層学習による機械翻訳
「統計的機械翻訳」 「ニューラル機械翻訳」
• 並べ替え確率と翻訳確率に • ベクトル表現を中間表現とする
よる確率モデル ニューラルネットワーク(NN)
昨⽇、本を読んだ
I read a book yesterday
並べ替え ⽇本語を
⽣成する
I yesterday a book read
NN
翻訳
ベクトル表現
私は 昨⽇ 本を 読んだ
英語を
理解する
従来の統計的機械翻訳の性能を抜いて
NN
⼈間が⾏う翻訳にかなり近くなった
単語の意味表現 シンボルグラウンディング
• 意味の計算ができる単語表現 • 画像とテキスト間の関係を学習
(Mikolov+ 13, Pennington 14) – 画像や動画の説明⽂⽣成
例: King – Man + Woman ≒ Queen
l AIブームと冬の時代
冬の時代を迎えたくない…
10
AIの歴史
l AIブームと冬の時代
データから学習した規則や
人間が考えた規則や手続きに基づく人工知能 手続きに基づく人工知能
11
記号論理に基づく⼈⼯知能
l 命題論理
𝑃⇒𝑄 ∧ 𝑄⇒𝑅 ⊨𝑃⇒𝑅
l 一階述語論理
∀𝑥 𝐻𝑢𝑚𝑎𝑛 𝑥 ⇒ 𝑀𝑜𝑡𝑎𝑙 𝑥 ∧ 𝐻𝑢𝑚𝑎𝑛(𝑆𝑜𝑐𝑟𝑎𝑡𝑒𝑠)
⊨ 𝑀𝑜𝑡𝑎𝑙(𝑆𝑜𝑐𝑟𝑎𝑡𝑒𝑠)
• 1990年ぐらいまで、記号論理や手続き的な規則を基に人工知能を実現
• 様々な知識や推論規則を記号論理で表現(知識ベース)→知識ベースに
対する自動証明によって知的な推論(=人工知能)を実現
しかし、記号論理は、不確実な推論や例外的な知識を表現することが
難しいことから衰退した
(例)「風吹けば桶屋が儲かる」のような推論が成り立ってしまう
(例) 白いカラス、青いリンゴ、ペンギン(飛べない鳥)などを扱えない
12
規則や⼿続きに基づく⼈⼯知能
l 単語分割の問題
l ⽇本語や中国語にはスペースのような単語区切り記号が存在しない
ため、⾃動的に単語に分割する必要がある
l 「すもももももももものうち」→「すもも も もも も も
も の うち」
l 最長一致法
l 辞書を⽤いて、辞書中の単語と可能な限り最⻑⼀致する単語を選ぶ
l 単純には左から順に最⻑⼀致の単語を⾒つけて、それを単語分割の
単語とする
l 単語数最小法、文節数最小法
l ⽂中の単語数/⽂節数が最⼩になるように単語分割の単語を選ぶ。
これらの手法は辞書を用いるが、学習用データ(ただの文書
や単語区切りの正解付き文書)は必要としていない
13
合理主義 vs 経験主義
l 合理主義 (rationalism)
l 世の中には真の法則が存在して、それを規則として抽象化して
(例えば、数学における公理など)、具体例に展開することで、世
の中の仕組みを説明しようとする態度
l 数学、論理
l 理性主義、プラトン主義
l 経験主義 (empiricism)
l 世の中の法則というのは⼈間の知識のことであり、⼈間の知識は
全て経験から得られると考えて、世の中の仕組みを説明しようと
する態度
l ⾃然科学(物理、化学など)
l アリストテレス主義
人工知能分野は2000年あたりを境に合理主義
から経験主義に大きくシフトした
ラファエロ「アテナイの学堂」
14
AIの歴史
l AIブームと冬の時代
第⼆次AIブーム 冬の 第三次AIブーム
(知識表現) 時代 (機械学習)
ルールベース
規則や手続きに基づく人工知能
ヒューリスティクス
データに基づく人工知能 確率モデル 機械学習 深層学習
圧倒的な性能差
がでてきたので、
そんなに性能に差はなかったので、どちら データに基づく
が良いとも悪いとも言えない状況が2010年 人工知能が主流
ぐらいまで続いた に
15
機械学習
l 機械学習 = データから関数を学習する学問分野
大量のデータ 𝑓 𝑥
l 深層学習も機械学習の一種
𝑥 𝑦
𝑓
16
機械学習
l データから関数を学習
l 関数は、⼊⼒(x)と出⼒(y)の関係を表す
𝑥→𝑦
!
l ⼤量の⼊出⼒ペア(x, y)の集まり(データ)から関数𝑓を⾃動的に学習!
データ
𝑥!, 𝑦!
𝑥", 𝑦" 学習には、入力(x)と出力(y)
𝑥#, 𝑦# 学習 𝑓 𝑥 のペアが揃ったデータが必
要!(教師つき学習)
⋮
𝑥$ , 𝑦$
正解を必要としない学習(教師なし学習)もあるけ
ど、そんなに高い精度を実現するわけではない 17
機械学習
例:⽝猫判別機 𝑓(𝑥)
データ
⼊⼒𝑥
出⼒𝑦
:猫 :⽝
⽝
𝑓 :⽝ :猫
:⽝ …
18
機械学習のあれこれ
l 第3次AIブーム以前は、ニューラルネットワークはまったく見込
みのない技術だった
l 機械学習は数学的に説明がつくエレガントな体系だったが、
ニューラルネットワークは数学的に何をやっているのかよくわ
からない。
NN = ブラックボックス?
l 何か役に立つのか?
l 2010年頃は顔認識ぐらいが唯⼀のアプリ?
l 精度100%には(事実上)ならない。いつかかならず判断を間違える。
(つまり、クリティカルな仕事には使えない。)
19
深層学習 (ディープラーニング)
20
深層学習
l 関数:重み付き線形和と非線形変換を多層化したもの
l フィードフォワードニューラルネットワーク
𝑥 𝑦
GoogLeNet (22層) ※画像分類に有効なネットワーク
l リカレントニューラルネットワーク(RNN)
彼 は ⾛る の が 速い </S>
𝑥 𝑦
he runs fast </S> 彼 は ⾛る の が 速い
Encoder Decoder
Encoder-Decoderによる機械翻訳
Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan,
Vincent Vanhoucke, Andrew Rabinovich (2014) Going Deeper with Convolutions, CVPR 2015 21
ニューラル機械翻訳
l 2つのリカレントニューラルネットワークを用いた機械翻訳
l エンコーダー: ⼊⼒⽂(英語)を中間表現(数百次元のベクトル)に変換
l デコーダー: 中間表現から出⼒⽂(⽇本語)に変換
l Google翻訳、DeepLなど
𝑥 𝑦 𝑦 𝑧
ニューラル機械翻訳
彼 は 走る の が 速い </S>
l 畳込みニューラルネットワーク(CNN)とリカレントニューラル
ネットワーク(RNN)を用いたキャプション生成
l エンコーダー: 画像を中間表現(数百次元のベクトル)に変換
l デコーダー: 中間表現から出⼒⽂(⽇本語)に変換
𝑥 𝑦 𝑦 𝑧
畳込みニューラルネットワーク 法被 を 着て 踊っ ている 男性 </S>
(CNN)
深層学習によって、言語や画像、
</S> 法被 を 音声など様々なメディアの情報を
着て 踊っ ている 男性
エンコーダー 同時に扱うことが容易になった
デコーダー
キャプション生成 23
テキストからの画像⽣成 (text-to-image)
l テキストエンコーダーと画像生成デコーダーを組み合わせれ
ば、文書から画像を生成可能
l エンコーダー: テキストを中間表現(数百次元のベクトル)に変換
l デコーダー: 中間表現から画像に変換
畳込みニューラルネットワーク
(CNN)
<S> 法被 を 着て 踊っ ている 男性
デコーダー
エンコーダー
24
テキストからの画像⽣成 (text-to-image)
l Stable Diffusion
https://stablediffusionweb.com/ プロンプト: Illustration of a
beautiful girl in white dress
プロンプト プロンプト: a sitting by the window,
(prompt): a monkey monkey eating a beautifull face, by Alphonse
eating a banana banana in gogh Mucha,body tilted
style
25
⾔語モデル
l 言語モデル
l 次の単語やマスクされた単語を予測するモデル
例: 「今⽇は愛媛⼤学に⾏った」という⽂から次の単語の予測問題を作る
・今⽇ ? 正解: は
・今⽇は ? 正解: 愛媛⼤学
・今⽇は愛媛⼤学 ? 正解: に
・今⽇は愛媛⼤学に ? 正解: ⾏った
l ⾃⼰教師付き学習、事前学習
l ⼈⼿で正解ラベルを付ける必要はなく、ただのテキストがあればいく
らでも単語予測問題を作ることができる
l ウェブテキストなど⼤量のテキストから⼤規模⾔語モデルを学習
l 最終的に解くべきタスクにおいて教師付き学習で再学習(ファインチュー
ニング)
l word2vec, ELMo, GloVe, Skip-thought, BERT, GPT, BARTなど
26
ChatGPT
l ChatGPT https://chat.openai.com/
l ⼤規模⾔語モデルGPTをベースに、様々なタスクでファインチュー
ニングし、さらに⼈⼿評価に基づく強化学習を⾏ったモデル
l 単純なチャットボットに⽐べ、⼈間と対話しているかのような優れ
た応答能⼒があり、質問を抽象的に理解した上で回答することがで
きている
l 様々なタスクに対応
l 会話
l 機械翻訳
l ⾃動要約
l プログラミング
l 原稿作成
27
深層学習
l 機械学習、深層学習が脚光を浴びるようになった理由
1. 学習データの⼤規模化
2. ⾼精度化
3. ⾼速化
l 現在の深層学習は、他の機械学習手法に比べて、素人でも
扱いやすく(End-to-End)、性能も良い
28
学習データの⼤規模化
l 大昔(2000年以前)
l パラメータは⼿で調整、学習はしない
l 学習データなし(専⾨家が作り込んだ少量(数千)の⾼品質な評価⽤データのみ)
l 昔(2000年〜2010年)
l 専⾨家が作り込んだ少量(数万〜数⼗万規模)の⾼品質データ
l ⼤量(数百万、数億規模)の⽣データ
l 最近(2010年〜)
l 素⼈が作った⼤量(数百万、数億規模)の中品質データ
l クラウドソーシング(Amazon Mechanical Turk)など
l ⾃動的に収集できる⼤量のデータ
l 特許やEU議事録などの翻訳データ
29
深層学習のキーテクノロジー:⾼精度
化
l 解きたい仕事の特徴にあったNN
l 画像認識には畳み込みニューラルネットワーク(CNN)
l 系列データ(テキストなど)には注意型⻑・短期記憶(Attention-based
LSTM)やTransformer
l 事前学習
l BERT、BART、GPT マスク付き⾔語モデル
l 正則化(Weight Decay, Dropout)
l 正規化(Batch Normalization)
l 種々の活性化関数(ReLU, Maxout)
l Residual Net
l アンサンブル
30
深層学習のキーテクノロジー:⾼速化
l 学習アルゴリズム
l 計算グラフによる誤差逆伝搬法
l オンライン学習(確率的勾配降下法、モーメンタム、AdaGrad、
Adam)
l GPU (CPU1コアよりも10倍以上速い)
l NVIDIA GeForce RTX 3080 10GB (約10万円)
l NVIDIA RTX A6000 48GB (約75万円)
l NVIDIA A100 80GB (約220万円)
31
深層学習の特⻑:End-to-End (1/2)
l 深層学習以前
l ⼊⼒に対して、様々な処理を加えてから学習を⾏っていた
l 画像認識: 画像(ビットマップ)→特徴量(SIFT, SURF,
HOGなど)抽出
l 機械翻訳: テキスト→単語列→品詞解析→構⽂解析
l どのような特徴を抽出、利⽤するかは⼈⼿で決めていた
各分野の研究者・専門
家の直感や努力が必要
今年は台風が多くて大変だ。
特徴 (0.12, 0.21, 0.05, 0.18, …, 0.01)
ベクトル化
32
深層学習の特⻑:End-to-End (2/2)
l 深層学習
l 解きたい仕事の⼊⼒(end)と出⼒(end)だけをNNに与えて全てま
とめて学習する
l 特徴もデータから⾃動的に学習
l 複数のシステムをつなぐパイプライン処理を(あま
り)しなくてよい
例:⽇本語 → ニューラル機械翻訳 → 英語⽂
l 開発がものすごく楽になった
l 今まで敷居の⾼かった領域の研究がやりやすくなった
l 専⾨家の技術が不要になりつつある
33
近い未来のAI
l 機械学習/深層学習にできそうなこと
l 機械翻訳
l 医療診断
l レントゲン画像/CTスキャンからの診断、⾎液検査からの診断、健康
診断結果からの病気予測、ガン検査、ヘルスケア
l フィンテック
l 融資の判断 (顧客のデータと融資の結果から学習)
l セキュリティ・安全
l 不審者検出、故障検出
l マルチメディア
l ⾼機能な画像検索や動画検索
l ⾃動イラスト⽣成
l アンケートからの予測
l 退職予測、再犯予測、成績不振者予測?
34
近い未来のAI
l 現実世界からの強化学習
l 報酬/罰則のスコアを定義すれば、スコアを最⼤化するように⾏
動を学習する
l 与えられたデータから⼊⼒と出⼒の関係を学習するだけではなく、
現実世界からフィードバックをもらうことで、より⼈間に近い学
習を実現
l ロボットの学習
l 対話の学習
l ⾃動運転の学習
35
まとめ:AIの現状
l 機械学習、深層学習が現在のAIブームを牽引
l 機械学習
l データから関数を学習する
l ⼊⼒と出⼒の両⽅が揃った教師データが必要
l 深層学習
l 機械学習の⼀種、多層ニューラルネットワーク
l ⾼精度
l End-to-End
36
まとめ:AIの展望
l 近い未来のAI
l ⼊⼒と出⼒の両⽅が揃ったデータが⼤量にある分野や仕事
l 機械翻訳、医療診断、融資判断、画像/動画検索、イラ
スト⽣成、危険なドライバー検知、再犯予測、退職予測
など
l 現実世界からの強化学習により⼈間に近い学習が実現され
るかもしれない
l ロボットの学習、対話の学習、⾃動運転の学習など
37