bert 源码解读

一、目录结构

1.预训练三个模块
||—create_pretraining_data.py 构建预训练数据
||—run_pretraining.py 跑预训练文件
||—tokenization.py 各语言分词

2.模型、优化、特征
||—modeling.py 模型文件
||—extract_features.py
||—optimization.py 设置优化器、学习率参数调节

3.fine-tune的两个模块
||—run_classifiter.py
||—run_squad.py

二、预训练

1.构建预训练数据

文件:create_pretraining_data.py
输入为原始文本数据,输出为清洗后的预训练数据的输入数据。
此文件最终的输出为一个.tfrecord 的文件
每个

参考资料:
1.http://fancyerii.github.io/2019/03/09/bert-codes/

你可能感兴趣的:(自然语言处理)