Contents

On a Multi-criteria Clustering Approachfor Attack Attribution

论文信息

SigKDD, 2010

阅读目的: 了解攻击溯源相关知识, 主要是为了扩充知识面.

结论: 这个文章中提供的是一个数据挖掘的方法, 针对已有的数据样本通过找它们的相似性簇并通过分析来获得结论, 所以这个文章并不是我想要的. 以下总结阅读时做的一些笔记.

论文基本信息

多准则聚类方法来解决数据挖掘中的攻击溯源问题。使用网络蜜罐数据集和本方法相结合可找到攻击源的IP。方法分为三个步骤:

  1. 特征选择:选择要分析的特征
  2. 为每个选择的特征构建无向带权图
  3. 聚合:对图进行聚合,通过学习为造成现象的行为进行建模

特征选择

这里是人工分析选择的,没有什么特别的技术

基于图的聚类

每个特征假设为p维的向量, 一个有n个样本, 这样对所有的样本,每个特征都可以生成一个矩阵。有n个特征,即有n个这种矩阵, 即如下:

对于某个特征有N个样本, 这些样本的特征值作为一个节点, 不同节点之间的距离作为边从而构建无向带权图. 即对于第k个特征的节点集为: \(V_k = \{x_1^k, X_2^k, …, X_N^k\}\). 这个特征所生成的图记为\(G_k\).

然后在这个图上找到最大的全连通子图,在一个实际的例子中这代表在某一个特征上这些样本有相同的模式。作者采用的是寻找Dominant Sets的方法来实现该目的。

多标准聚集

不同的图进行聚焦, 感觉用处不大.

在一个蜜罐数据集上的应用

通过上面的方法选择特征,构造图,然后聚类最后获得一个一个簇, 如下图:

然后就是作者对这个图的分析了, 因为特征是自己选择的, 所以每个簇是哪个特征的聚焦也是事先知道的.