【科研】ET-BERT资料库梳理

作者原repo链接

https://github.com/linwhitehat/ET-BERT

0.资料总库

分为数据+模型+语料库
【科研】ET-BERT资料库梳理_第1张图片

1.数据集

包含fine-tuning数据集(cstnet-tls 1.3)与公开数据集(USTC-TFC、VPN-app、VPN-service的数据包级和流级)目录链接
【科研】ET-BERT资料库梳理_第2张图片

1.1 微调-数据集组成

fine-tuning_dataset目录下的数据集,fine-tuning的数据集是tsv的
【科研】ET-BERT资料库梳理_第3张图片

1.2 预训练-数据包级-组成

Open-Datasets目录下的数据集
【科研】ET-BERT资料库梳理_第4张图片

1.3 预训练-流级-组成

Open-Datasets\flow-level目录下的数据集
【科研】ET-BERT资料库梳理_第5张图片

1.4 预训练-组成(不在总资料库的数据集)

这部分应该是预训练使用的数据集(不太确定,等我看看代码先:(

cstnet-tls 1.3 dataset
下面是cstnet-tls 1.3 datasetlabel
【科研】ET-BERT资料库梳理_第6张图片
该数据集包含两个压缩文件,一个是flow级别的,另一个是packet级别的:
【科研】ET-BERT资料库梳理_第7张图片
以flow_dataset为例:
CSTNET-TLS 1.3的流级别的数据集

  1. 该数据集有120个类别
  2. 每个类别有500个样本
  3. 数据部分以x_开头,标签部分以y_开头
  4. 有5种数据类型,包括direction, length, message type, time and datagram
  5. 不同的数据文件分别被划分为train, test, valid三种

【科研】ET-BERT资料库梳理_第8张图片

2. corpora(语料库)

语料库
【科研】ET-BERT资料库梳理_第9张图片

3. 模型

预训练模型
【科研】ET-BERT资料库梳理_第10张图片

你可能感兴趣的:(科研,深度学习,人工智能)