论文复现-3:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer

在这个文件中,
data 是process之后的数据集,用在model的train过程中。
datasets是放置data的zip的文件夹
output是model train和evaluation之后得到的文件
scripts是model train或者test可能会用到的sh文件
sentence_transformers存放的是python tool中的sentence_transformers的具体模块
transformers存放的是python tool中的transformer的具体模块

analysis_rep_space: 正在git中向作者请教
correlation_visualization:计算得到的相似度分值的相关性可视化展示。
data_utils:数据加载的过程,在中文数据加载中使用的是:load_chinese_tsv_data
eval:model 的evaluation过程。
eval_pretrain:这里我感觉也是model的pretrain的一个过程,在model load之后,使用的evaluation函数计算相似度的计算
论文复现-3:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer_第1张图片

main:model 的train和test过程

论文复现-3:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer_第2张图片

if args.no_pair:
    assert args.cl_loss_only, "no pair texts only used when contrastive loss only"
    train_samples.append(InputExample(texts=[row['sentence1']]))
    train_samples.append(InputExample(texts=[row['sentence2']]))
 else:
    train_samples.append(InputExample(texts=[row['sentence1'], row['sentence2']], label=label_id))

你可能感兴趣的:(论文记录,论文复现记录,python,开发语言)