1 引言
随着网络技术的不断发展和 Internet 的广泛使用,骨干通信网络及其承载的业务向高速化、多样化、复杂化方向发展,骨干通信网络的异常流量对通信网络本身和用户网络的危害越来越大。为了更好地控制和管理骨干通信网络,减少骨干通信网络中异常流量对骨干通信网络和用户网络的危害,就必须实时准确地进行骨干通信网络异常流量检测,对具有攻击性的异常流量进行拦截或告警。目前骨干通信网络流量异常检测有两大难点:一是异常流量的隐蔽性,由于骨干通信网络的背景流量很大,异常流量相对于较大的背景流量可能很小,甚至相对于背景流量的正常变化量来说也可能是很小的,异常流量的检测犹如“大海捞针”;二是异常检测的实时性要求,要求及时准确地进行骨干通信网络异常流量检测,寻找引起异常流量产生的原因。
现有的流量异常检测方法根据被检测数据的粒度不同可以分为两类:粗粒度信息的检测方法和精细粒度的检测方法。基于粗粒度信息的流量异常检测方法主要运用统计的方法从宏观上分析网络流量行为,例如,Barford P 等人通过小波对网络流量信号进行时频域分解,划分不同时频域特征的网络流量异常;Lakhina A 等人利用子空间的方法融合网络流的测量信息,对检测到的异常进行说明和分类;Chen-M Cheng 等人提出了通过流量信号的能量谱密度分析TCP 流量的周期特征来识别DDOS 攻击的方法。精细粒度的流量异常检测主要通过精细的逐包分析进行流量异常检测。例如: Savage 等人提出概率包追踪方案,利用数据包的细节数据特征及数据内容对攻击流量进行重构;Baoks 等人根据蠕虫扫描过程产生的错误报文的特点进行攻击检测;传统入侵检测系统依靠对单个数据包进行关键字匹配,对异常流量生成告警信息。
在骨干通信网络中粗粒度分析能够满足实时性要求,但是很难在海量的背景流量中检测到相对较小的异常流量;精细粒度的检测方法能够比较准确的检测出流量异常,但无法满足实时性的要求。针对现有方法存在的问题,本文提出一种称为多流多特征的中粒度流量异常检测方法,该方法首先利用协议与TCP 标志位对网络流量进行流分类,使得每条子流的数据量大大减小,并且每条子流都能集中反映网络中的某种或多种行为与特征;通过时频分析工具提取各子流流量信号的瞬时频率与瞬时振幅,分别表征流量的瞬时变化情况与瞬时强度;通过信息熵分析提取各个子流的数据包特征参数,表征数据包的地址聚散程度。将这些特征参数看作随时间变化的信号(以下称为流量特征信号),同时使用多个流量特征信号进行异常检测。美国Internet2 的实际数据检测结果表明:该方法能够快速准确检测出骨干网络中相对较小的异常流量,检测结果与精细的手工检测结果大致相当。
2 骨干通信网中网络业务量的流分类
骨干通信网络的海量流量特性对异常检测主要有两个方面的影响:一是数据的海量特性使得某些非线性时间复杂度的异常检测算法代价太大,例如IP 熵值运算等;二是网络流量异常可能会淹没在骨干通信网的高速流量中。针对这些情况,我们采用多维数据流的思想,将业务量分为若干子流:先根据协议分流,分为ICMP 流,UDP 流,和TCP 流。再根据TCP的标志位进一步细分TCP 数据流,得到更多能够有效反应网络安全状况的子流,例如SYN标志位所组成的连接请求子流、RST标志位组成的连接重置子流、FIN 标志位组成的连接正常终止子流等。各子流在整个流量中所占比例很少,因此在进行异常检测算法时运算开销大大减小;同时各个子流由于其网络用途的特殊性,在观测网络异常现象时往往具有十分重要的意义,表1 给出了部分子流在网络异常时的含义。
3 网络流量特征信号的提取方法
将网络流信号看作一维时变信号,也就是所谓的流量信号。异常会对信号的时间域或者频率域上造成不同的影响,通过瞬时振幅与瞬时频率,发掘流量异常在信号的瞬时突变与瞬时强度上所反映出来的特征;同时,流量异常也会影响数据包某些属性,如IP 地址、包长度等,通过信息熵工具,提取数据包中同一属性的集中和分散情况,用于发掘流量异常对网络中数据包的某些属性的分布造成的影响。通过分析两种不同维的流量特征信号,有助于我们从不同的角度去理解流量异常的特性,实现流量异常更加准确有效的检测。
3.1 基于时频分析的流量特征信号
对任意一连续的时间信号 X(t) , 可得到它的希尔伯特变换Y(t)为,其反变换为, 得到解析信号:。式中,,这样,希尔伯特变换就提供了一个独特的定义幅度与相位的函数。由于定义希尔伯特变换为X(t)与1/t 的卷积,因此它强调了X(t)的局部特性,极坐标表达式进一步表明了它的局部特性:它是一个幅度与相位变化的三角函数X(t) 的最好局部近似。因此, 定义瞬时频率ω 为, 瞬时振幅定义为。瞬时频率与瞬时振幅能够分别表征信号的瞬时变化情况与瞬时强度,是流量异常检测中两种重要的流量特征信号。
3.2 基于信息熵的数据包特征信号
信息熵是对随机事件不确定性的度量。在骨干通信网络中,将高速到达的数据包看作离散数据源,其中的各个属性作为一组随机事件,就可以通过信息熵来来表征各个属性的集中分散情况。数据包属性X 信息熵定义为:
其中,Pi 为某个属性的某个值出现的频率,N 为属性的总实例数。
本文选取数据包的四个属性(源IP,目的IP,目的端口,包大小)进行熵分析。这四个属性能有效的反映骨干通信网络中的异常。以分布式拒绝服务(DDOS)攻击为例,它在攻击时操纵足够数量的傀儡主机在几乎同一时间向被攻击者发送大量的无用分组,这将引起源IP 信息熵突然增大,目的IP 信息熵突然减小,同时,DDOS 攻击工具往往是通过自动复制机制传播,它们发出的数据包往往是相同的,因此,网络上充斥着大量大小相同的数据包,此时数据包大小信息熵PSE(Packets Size Entropy)也会突然下降。
4 多流多特征的流量异常检测方法
4.1 多流多特征检测模型
骨干通信网络流量数据到达后,首先将海量的流量数据进行流分类,分成各个与网络安全密切相关的子流,本文中,流量分为UDP,ICMP,TCP_SYN,TCP_SYN+ACK,TCP_FIN,TCP_RST 六条子流。提取各个子流的流量特征信号。流量特征信息的提取采用基于希尔伯特变换的瞬时振幅与瞬时频率。数据包特征信息的提取采用熵分析,得到源IP,目的IP,目的端口,IP 包大小的聚散程度,然后求取异常系数,进行异常检测。如图1 所示。
图 1:多流多特征异常检测方法模型
4.2 基于多流多特征的流量异常联合判定
网络业务量流分类后,提取各个子流的流量特征信号与数据包特征信号。这些特征信号能够分别反映子流流量的不同特征。各个网络流量特征信号对流量异常的分析都有重要的作用。由于随着导致流量异常的原因朝着多样性与复杂性发展,尤其是DDOS 等网络攻击手段逐渐复杂,对单个的子流或单个的流量特征信号进行异常分析,往往具有一定的局限性与片面性,导致较高的误报率。为此,本文采用“联合”的异常检测方法,同时分析多个子流的多个流量特征信号,即“多流多特征”,更全面,更准确的分析流量异常的内在特征。在本文中,采用一种简单而有效的联合判定方法:当某一个或多个流量特征信号超过预定阀值时,则判定异常,当所有流量特征信号的变化均未超过预定阀值时,则不能判定异常。
5 仿真实验及结果分析
试验中使用来自Internet2 骨干网的采样数据,仿真平台为Intel(R) Core? 2 Quad2.4GHz,内存2GB。Internet2 是美国教育骨干网,连接着美国200 所大学。它包含9 个IP节点,横跨美国大陆。我们收集了某节点2008 年1 月11 日至2008 年1 月13 日共3 天的IP数据包(以100:1,每隔5 分钟进行周期采样)的流量数据,3 天一共864 个时间采样点。
5.1 流分类后数据的约减情况及计算时间的开销
我们统计了 UDP,ICMP,TCP_RST,TCP_FIN,TCP_SYN,TCP_SYN+ACK 的数据量,这些子流在整个网络业务量中所占的比例很少,但携带的网络安全信息量很大。在骨干网络中,TCP 业务量占80%以上,如果我们用TCP_SYN 和TCP_RST 来表征TCP 流量,在不破坏或者少量破坏骨干网络的流量异常检测的完整性的前提下系统的数据分析负担大大减轻。流分类后计算各个子流的瞬时流量,瞬时振幅,源IP 熵,目的IP 熵,目的端口熵,IP 包大小熵等流量特征信号。各子流在整个流量中所占的比例以及计算6 个流量特征信号的时间开销如表2 所示。
由表可见,通过分流后,数据量大大约减,同时,计算6 种子流的时间开销的总和也大大小于对未分流前总流量的时间开销。
5.2 多流多特征的流量异常检测结果分析
为验证多流多特征异常检测的有效性,我们通过手工检测获取网络攻击实例,我们分析两种UDP攻击:UDP Flood攻击和UDP端口扫描。手工检测是一种精细的离线分析。因为这两种攻击对目的IP无法伪造,我们采取的精细分析方式是分析每个UDP包的IP报头,首先获取每个时间点上目的IP的出现次数占总数量的比例超过预设门限,获取该目的IP,再将该目的IP在该时间点上的所有数据包提取出来进行精细分析,最终得到精细检测的结果。通过手工精细分析,我们得到4处UDP端口扫描和8处UDP Flood攻击,用“o”表示出现UDP端口扫描的地方,“x”表示出现UDP Flood攻击的地方。
图2 是未采用分流的Internet2 网络流量的各个流量特征信号。在图中,可以看到,当出现UDP Flood 攻击和UDP 端口扫描时,异常流量被淹没在骨干网络的海量背景流量中,网络总体流量的粗粒度特征信息反应并不明显,异常检测显得“无从下手”。图3 中绘制了采用流分类的方法后,UDP 各子流的特征信号。我们可以看到,在攻击时间点上,多特征信号变化明显。当门限设置恰当时,检测能力与精细检测结果相仿。我们分析其他子流后也会得到相似的结果,限于篇幅限制,这里不再一一叙述。
图2 未分流的骨干网络多特征信号
图 3 分流后UDP 子流的多特征信号
6 结论
针对现有骨干通信网中流量异常检测粗粒度太“粗”,细粒度太“细”的问题,本文提出一种多维多特征的中粒度流量异常检测方法。首先利用协议与TCP 标志位对网络流量进行流分类,使每条子流都能集中反映网络中的某种或多种行为与特征;然后提取各个子流的多种中粒度特征参数信号,通过多维子流的多种特征信号,对流量进行异常检测。实际数据的检测结果表明了该方法的有效性。