import jieba
selg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(selg_list))
jieba.add_word("贪心学院")
seg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(seg_list))
D:\soft\Anaconda\envs\py3.9\python.exe D:/soft/pycharm/pythonProject2/jieba分词.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Claire\AppData\Local\Temp\jieba.cache
贪心/学院/专注/于/人工智能/教育
贪心学院/专注/于/人工智能/教育
Loading model cost 0.515 seconds.
Prefix dict has been built successfully.
进程已结束,退出代码0
forward-max matching
例子:我们经常有意见分歧
词典:[“我们”,“经常”,“有”,“有意见”,“意见”,“分歧”]
max-len = 5
最大匹配算法,关键词最大
让我匹配到的单词是越长越好的
https://zhuanlan.zhihu.com/p/145521255
去替换原始文本中某一部分,而不改变句子本身的意思
随机去一个单词,将其替换为对应的同义词。
英文当中WordNet数据库来查找同义词
pipeline端到端的管道
把随机一个位置改为mask
让Bert找mask是什么值
缩写和非缩写的形式转换
在文本中加入注入噪声,来生成新的文本,最后使得训练的模型对扰动具有鲁棒性
采样
_
交换顺序
随机选择
tweet被分成两半,文本情绪各自一半
主被动被转换
按比例合成
在一个batchsize中随机取两个随机的句子,之后填充相同的长度,之后按比例混合,之后新的mix-up word embeddings
句子的embedding的混合
给定一个条件,生成一个句子
生成任务!!