首先感谢爱学习的大白菜爱学习的大白菜的博客_CSDN博客-刷题,ACM之路,机器学习领域博主对CTU-13数据集的描述的翻译,这使得后面对这份数据集的理解更加容易。

参考CTU-13数据集_爱学习的大白菜的博客-CSDN博客

由于要做僵尸网络检测的工作,但是没有相关数据,需要搜集相关数据集进行算法的验证,通过调研,发现CTU-13数据集开源,且进行了处理分析,减少了数据处理的一些工作,比如对流数据进行了聚合,生成双向流数据文件,也就是后面要用到的文件。

通过查看CTU-13数据集网站和上述博客的分享,了解了数据集的大致情况,但是需要下载数据集时,犯难了,每个数据集下包含多种数据类型多个文件,哪个是我可以用于僵尸网络检测的有标签的数据集,这里先给出答案:

detailed-bidirectional-flow-labels/

 文件夹下的以.binetflow为后缀的文件,如下

 但是发现直接点击这个文件,不能下载,只能查看里面的数据内容

 如何获取这些数据到文件,可以用下面的方法:

scenario_1 = pd.read_csv('https://mcfp.felk.cvut.cz/publicDatasets/CTU-Malware-Capture-Botnet-42/detailed-bidirectional-flow-labels/capture20110810.binetflow')

这个语句直接到相应的网址去下载数据,并且是dataframe格式化的,很好,这就是我想要的。

接下来如果会重复用到该数据,可以使用

scenario_1.to_csv('scenario_1.csv', header = True, index = False)

将数据保存在本地

在这份数据中的label标注了流的类型,如下

 scenario_1是第一个僵尸网络场景的数据,数据量和数据集描述中一致

具体的也可以看下不同类型数据的占比。

对于每个场景,数据集中会告知被感染的僵尸主机IP。

 

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐