You are on page 1of 10

产品介绍

天津友盟
DSP 服务平台介绍

FU

2016-8
天津友盟科技有限公司

目录
一、 DPI 介绍....................................................................................................3
1.1 传统的业务识别方法........................................................................3
1.2 深度分组检测-DPI.........................................................................4
1.3 传统业务识别与 DPI 的对比............................................................5
二、 DPI 关键技术介绍....................................................................................5
2.1 业务识别技术....................................................................................6
2.1.1 净荷特征匹配技术.....................................................................6
2.1.2 交互式业务识别技术.................................................................7
2.1.3 行为模式识别技术.....................................................................7
2.1.4 深度流检测技术 DFI..................................................................7
2.2 带宽管理技术....................................................................................8
2.2.1 串联流量控制.............................................................................8
2.2.2 并联干扰控制.............................................................................8
三、 协议识别技术...........................................................................................9
3.1 形式化方法........................................................................................9
3.2 形式化在本系统中的应用..............................................................10
四、 大数据应用.............................................................................................10
五、 加速卡.....................................................................................................10
六、 DSP 未来.................................................................................................11

2 / 10
天津友盟科技有限公司

DSP 的全称是深度协议识别服务平台(Deep Protocol Identification Service


Platform)。即利用 DPI 技术,实现各种协议的自动解析。
天津友盟科技有限公司研发的 DSP 系统,主要基于开源的 DPI 技术(Deep
Packet Inspection),即深度包检测技术,对报文进行深度识别,然后利用语义
和机器学习技术,自动识别各种协议,达到无需人工参与,自动跟踪协议变化
的目的,通过机器学习技术,自动进行协议分析,极大提高协议分析效率,使
得快速部署各种协议识别及协议还原设备成为可能。

一、 DPI 介绍

DPI 中所谓的“Deep”是和传统的报文分析层次相比较而言的,传统的报文
分析技术,仅分析 IP 包的层 4 以下的内容,包括源地址、目的地址、源端口、
目的端口以及协议类型,而 DPI 除了对前面的层次分析外,还增加了应用层分
析,识别各种应用及其内容。 

一.1传统的业务识别方法

    普通的报文检测往往仅分析 IP 分组的四层以下内容,一般包括源地址、
源端口、目的地址、目的端口以及协议类型,如图 1.1 所示。

3 / 10
天津友盟科技有限公司

图 1.1 传统的 IP 头部报文分析


 然而,仅通过分析 IP 地址和端口来识别业务存在很多的问题,包括:
1.端口可变的业务。比如 BT/EDK 等业务,可以由用户自行设定端口;
2.隐藏在合法端口之后的隧道业务。比如为躲避防火墙封锁而隐藏在 80
端口通过隧道传输 VoIP 语音或数据的应用;
3.IP 地址可变业务。比如部分应用为了逃避封锁,不断变换 IP 地址;
4.交互式业务。比如 FTP/流媒体/VoIP 等,其媒体流的端口是通过交互协
商出来的,非固定端口; 

一.2深度分组检测-DPI

DPI,Deep Packet Inspection,深度报文检测,通常简称为 DPI。所谓深度


报文检测是相对普通报文检测而言的一种新的检测技术,即对第七层,也即应
用层的内容(净荷)进行深度分析,从而根据应用层的净荷特征识别其应用类
型或内容。如图 1.2 所示。当 IP 数据包、TCP 或者 UDP 数据流经过基于 DPI 技
术的网络设备时,DPI 引擎通过深入读取 IP 包载荷的内容来对 OSI 7 层协议中
的应用层信息进行重组,从而识别出 IP 包的应用层协议。

图 1.2 DPI 技术对应用特征的分析

4 / 10
天津友盟科技有限公司

一.3传统业务识别与 DPI 的对比

传统的业务识别方法是通过分析 5 元组或 7 元组信息(增加输入输出接口


索引信息),无法细分不同的应用类型,尤其是应用类型不依赖于 5 元组或 7
元组信息的应用。
而 DPI 技术是通过深入重组、分析第七层分组的净荷内容,匹配业务特征 ,
从而判断业务和应用类型,DPI 技术可以细分不同的应用类型。 

二、 DPI 关键技术介绍

DPI 技术主要应用于业务识别和带宽管理领域,下面就分别将这两项主要
技术进行详细阐述。

二.1业务识别技术

二.1.1净荷特征匹配技术

不同的应用通常会采用不同的协议,而各种协议都有其特殊的特征(除加
密应用),这些特征可能是特定的端口、特定的字符串或者特定的 Bit 序列。基
于净荷特征匹配技术,正是通过识别数据报文中的净荷特征来确定业务流所承
载的应用。根据具体检测方式的不同,基于净荷特征匹配技术又可细分为固定
(或可变)位置特征匹配、多连接联合匹配和状态特征匹配四种分支技术。通
过对特征信息的升级,基于净荷特征匹配技术可以很方便地扩展到对新协议的
检测。固定位置匹配是最为简单的一种匹配方法。以 Kazaa 协议的识别为例,
其 握 手 消 息 中 总 包 含 字 符 串 “ User-Agent:Kazaa” 。 因 此 可 以 确 定 , “ User-
Agent:Kazaa”就是 Kazaa 协议的特征字。如图 2.1 所示。

图 2.1 净荷特征匹配(固定位置匹配)
多连接联合匹配是一种需要结合该应用中的多个连接联合匹配特征的方法 。

5 / 10
天津友盟科技有限公司

如 John Doe Protocol 这种协议,其每个连接的相同位置具有相同的特征如下图


2.2 所示。

图 2.2 多连接联合识别技术

二.1.2交互式业务识别技术

目前 VoIP/FTP/网络游戏等业务普遍采用控制流与业务流分离的方式,通过
控制流完成握手,协商出业务流的端口信息然后进行信息流传输,其业务流没
有任何特征。因此通过 DPI 技术首先识别出控制流,并根据控制流协议分析识
别出业务流的端口或对端网关地址等信息,然后对业务流进行解析,从而识别
出 相 应 的 业 务 流 。 典 型 的 业 务 如 SIP 、 H323 协 议 都 属 于 这 种 类 型 的 协 议 。
SIP、H323 通过信令交互过程,协商得到其数据通道,一般是 RTP 格式封装的
语音流。也就是说,纯粹检测 RTP 流并不能确定这条 RTP 流是通过哪种协议建
立起来的,只有通过检测 SIP 或 H323 的协议交互,才能得到其完整的分析。

二.1.3行为模式识别技术

在实施行为模式识别技术之前,运营商必须首先对终端的各种行为进行研
究,并在此基础上建立起行为识别模型。基于行为识别模型,行为模式识别技
术即可根据用户已经实施的行为,判断用户正在进行的动作或者即将实施的动
作。行为模式识别技术通常用于那些无法由协议本身就能判定的业务。例如,
从 Email 的内容看,SPAM(垃圾邮件)业务流与普通邮件业务流两者没有区别,
只有进一步分析才能识别出 SPAM 邮件。具体可通过发送邮件的速率、目的邮
件地址数目、变化频率、源邮件地址数目、变化频率、邮件被拒绝的频率等参
数,建立起行为识别模型,并以此分拣出垃圾邮件。

6 / 10
天津友盟科技有限公司

二.1.4深度流检测技术 DFI

各种业务应用的数据包自身特性及传输特性都有所区别,因此,基于流的
行为特征,通过与已建立的应用数据流的数据模型进行比对,也可以判别出该
流的业务或应用类型。深度流检测法即是基于这种原理,根据各种应用的连接
数、单 IP 地址的连接模式、上下行流量比例关系、数据包发送频率等数据流的
行为特征指标的不同与 DFI 检测模型进行匹配,进而从中区分出 P2P 应用类型。
DFI 检测存在如下优点:能够发现未知 P2P 应用,具有对新 P2P 应用的感知能
力。加密协议对检测算法影响较小。避免查看应用层协议内容,检测效率较高
缺点在于检测准确度与 DPI 相比稍低。有将非 P2P 应用误判为 P2P 应用的情况。

二.2 带宽管理技术

二.2.1串联流量控制

串接流控通常以透明模式串接到网络设备中使用。通过对网络上的各种类
型的应用流量进行分类,并根据控制策略,可将需要控制的 P2P 流量数据包丢
弃。P2P 数据传输的两端客户端由于再一定的时间内未收到数据包或确认信息 ,
将启用 TCP/IP 协议的拥塞控制机制或应用层协议进行降速传输,从而实现对
P2P 流量进行控制的目的。这种方式的优点在于采用丢弃数据包、队列调度等
方式,控制方式比旁路方式直接,不占用额外的干扰接入端口。缺点在于所有
的网络数据流都要经过设备处理在进行转发,容易带来附加延时,引起网络服
务的质量问题。另外,由于检测设备必须部署到网络流量真实路径上,有可能
形成处理瓶颈和单点故障。直路串接方式对设备的处理和转发性能要求都很高
如图 2.3。

图 2.3 串联流控方式

7 / 10
天津友盟科技有限公司

二.2.2 并联干扰控制

旁路干扰控制主要采用数据包伪装技术将伪装的干扰数据包发到正在通信
的 TCP、UDP 连接中降低连接的数据传输速率或者切断连接以达到流量控制的
目的。由于 P2P 数据传输采用 TCP 或 UDP 方式,因此旁路干扰控制的流量控
制方法有如下几种:
 TCP 截断,通过伪造并发送 TCP RST 报文来截断 TCP 连接。
 TCP 降速,通过伪造并发送特殊 sequence 报文来减小 TCP 的滑动窗口
值。
 UDP 截断,通过伪造并发送 P2P 应用层特殊控制命令方式来截断 UDP
连接。
 UDP 降速,通过伪造并发送 P2P 应用层特殊控制命令方式来降低 UDP
连接的传送速率。
这种方法优点在于避免采用串接模式部署 P2P 监控设备,不会对原有网络
性能造成任何影响。缺点在于需要引入分光设备或镜像设备,并且需要占用互
联网现网设备的一个端口用于将干扰信息发送到互联网中。如图 2.4。

图 2.4 并联流控方式
 

三、 协议识别技术

传统的协议分析过程,是采用 Wireshark 等网络报文捕捉工具结合逆向分析


技术,对未知协议进行人工分析,分析的质量和效果,和个人的知识水平、经
验以及技术等密切相关,往往某个协议在发生重大变化的时候,人工分析的方
式无法快速进行相应。面对大量出现的网络协议,人工分析,往往费时、费力
8 / 10
天津友盟科技有限公司

费钱。
利用 DPI 技术,对网络报文的各个部分进行处理,并利用形式化语言进行
建模。通过抽取网络协议的各种属性和约束,达到检测和发现网络协议的目的。

三.1形式化方法

所谓的形式化方法,即采用数学手段,对被分析的目标系统的各种参数进
行描述,利用数学符号和数学法则,对目标系统的结构和流程进行描述和分析
并可以进行综合研究。
具体来说,针对某个协议,比如流行的 IM 协议和加解密协议,通过形式化
分析技术,能用逻辑描述语言,对该协议的结构、协议交互流程,进行充分的
描述,使用计算机能看得懂的语言来进行系统的分析。
将网络协议进行模型化,变成形式化的模型。形式化模型分为以下两种:
 有限状态机模型
本模型为有限状态集、输入状态集以及中间的转移规则集三部分组成,有
限状态集一般对于系统的不同状态进行描述;输入状态集则对系统接受的各种
不同信息进行表述。而状态转移规则集则对各种状态改变进行描述,当系统接
受某个输入时,系统将转移到下一个状态。
 Petri 网模型
系统在并发、异步和分布状态下,可以采用该模型进行描述。目前的网络
协议主要采用这种模型。这种模型兼备静态结构和动态行为两种机制。
 协议时态逻辑模型
本模型和时间相关,当系统产生状态改变、发生某种事件、以及研究期间
的关系时,适用本模型。通过对系统的各个个体变量、常量进行描述,来对协
议整体进行描述。
形式化描述语言有 SDL、LOTOS、ESTELLE、Promela、Petri 网等几种。
我们将使用 SPIN 工具来进行展现。

三.2形式化在本系统中的应用

利用形式化工具,我们将协议进行精确的描述,再利用 DPI 技术,建立每


个协议的指纹档案,然后,利用自动化测试工具,对这些档案进行维护。如果
协议出现新的变化,系统能够第一时间进行感知并通知维护人员。在尽可能的
情况下,系统能自动形成新的协议描述,并直接投入生产环境。

9 / 10
天津友盟科技有限公司

四、 大数据应用

利用大数据技术,我们存储大量的协议特征,并能快速形成未知协议的特
征库。

五、 加速卡

利用天津友盟研发的大规模的 FPGA 集群,我们能够极快的速度完成对协


议的分析,能快速还原协议包含的各种属性。加速卡的应用,给协议快速识别
快速还原提供物理保障。

六、 DSP 未来

DSP 在利用现有高科技手段和数学工具的基础上,搭建了相应的服务平台 ,
为各种协议的快速分析、快速定位以及快速还原奠定了基础,将来,在数据抓
取、数据建模和数据分类存储、快速检索方面,将形成系统的、完善的解决方
案,为越来越大的数据处理需求提高终极保障。

10 / 10

You might also like