You are on page 1of 42

图像识别(分类)

袁静
大纲
•1 图像分类任务
•2 图像分类难点
•3 基于规则的图像分类
•4 基于数据驱动的图像分类
•5 图像分类的评价指标
图像分类
大多数算法或模型要求输入的是向量。

直方图

局部特征

直接将矩阵转
化为向量
CIFAR-10 是一个更接近普适物体的彩色图像
数据集。 CIFAR-10 是由 Hinton 的学生 Alex
Krizhevsky 和 Ilya Sutskever 整理的一个用于
识别普适物体的小型数据集。一共包含 10
个类别的 RGB 彩色图片:飞机
( airplane )、汽车( automobile )、鸟
类( bird )、猫( cat )、鹿( deer )、
狗( dog )、蛙类( frog )、马
( horse )、船( ship )和卡车
( truck )。
每个图片的尺寸为 32 × 32 ,每个类别
有 6000 个图像,数据集中一共有 50000 张
训练图片和 10000 张测试图片。

输入向量是多少维? 32*32*3=3072
为什么从线性分类器开始?
 形式简单、易于理解
 通过层级结构(神经网络)或高维映射可以形成功能强大的非线性模型。

线性分类器的定义

线性分类器:一种线性映射,将输入的图像特征映射为类别分数。
线性分类器示例
图像表示

线性分类器的决策步骤:
1. 图像表示成向量
2. 计算当前图片每个类别的分数
3. 按类别得分判定当前图像
线性分类器的决策步骤:
1. 图像表示成向量
2. 计算当前图片每个类别的分数
3. 按类别得分判定当前图像

线性分类器的决策步骤:
1. 图像表示成向量
2. 计算当前图片每个类别的分数
猫类
3. 按类别得分判定当前图像

线性代数角度:解释 W,x,b 和 f
𝒇 (𝒙 ,𝑾 )=𝑾𝒙+𝒃

其中,代表输入图像,维度为 d ;

为得分分数向量,维度为类别个数 c ;

向量;

;;
转化为 32*32*3

权重 w :记录了类别的主要信息,可视作类别模
板。
得分 f :输入的图像与模板越匹配,其得分越高。
几何角度解释分类

? ?
0
1
0
y1

𝐿𝑜𝑠𝑠( 𝑓 (𝑾 𝟏,𝑏1), 𝑦 1)
0
1
0
y2

𝐿𝑜𝑠𝑠( 𝑓 (𝑾 𝟐,𝑏2), 𝑦 2)
损失函数
线性回归中的损失函数 ( 代价函数 )
线性回归中的损失函数 ( 代价函数 )
𝑁
1
𝐿= ∑ 𝐿𝑖 ( 𝑓 (𝒙 𝑖 ,𝑾), 𝑦)
𝑁 𝑖
度量
𝒂𝒓𝒈 . 𝒎𝒂𝒙 ( 𝑾 𝒙 𝑖 )
多类支持向量机损失

𝑗 是类别标签 , ( 1 , ...C )
𝑾 𝑗 ,𝑏 𝑗 第 j 类的分类器的参数

𝒙 𝑖第 i 个图像样本

𝑠𝑖𝑗将第 i 个图像样本识别为第 j 类的预测分



𝑠 𝑦 第 i 个图像样本的真实类别的预测分数
𝑖
CASE

i
CASE
i
CASE
i
加入正则项!!!!
过拟合:背题,无学
习能力

You might also like