2月备忘

1 extractUtils文件夹存储内容说明

rawTxt 初始抽取出的文本
splitWords 分词,词性标注后的文本
wordsRuleSetsPath 通过初始词性规则过滤的结果
filterwordsPath 过滤掉单字、无效动词的结果
delrepwordsPath 去重后的结果
integrationPath 完整性词
stablePath 稳定性和完整性兼容的词
result.dic 所有文章的稳定性和完整性词的总和
resultFilter.dic 去除词性之后的词典
resultDel.dic 去重之后的词典
01.dic 根据第二套规则生成的同现与不同现的词
evalution_del.dic 01.dic去重后的结果
splitIKPath 将去重后的词典导入到IK分词器,并用其进行分词后的结果
wordsTFPath 加入新词典的IK分词器分词之后,计算的TF结果
fliterTF.dic 去重后的TF结果
finalres_Words.dic 计算的fobject的值
avefobject.dic 平均fobject的值
sortObject_result.dic 计算出平均置信度,斜率K之后

2 将文章转换为曲线,然后计算曲线的相似度,聚类、分类

基于离散Frechet距离的判别曲线相似度的算法

1 文章 词的集合
2 词的相似度度量
3 画出变化曲线
4 曲线相似度

但是,没搞懂,如何将文章表示成字符,如果x轴表示字符,y轴表示字符的频次,那代表字符的文章在X轴的顺序应该是什么样子的呢?

3 log的规律

(1)在[-1,1],log是负值[-x,-y];
(2)在[-n,-1)和(1,n]log是正值[x,y];

4 写论文一般的方法

1 修改公式。找到已有的可用公式,发现其中可能存在的问题,修改公式。(使用某种新方法解决当前问题)
2 基于已有的现象、和文章当前的环境,自己定义新的公式。(根据已发现的现象自己定义新的度量公式)
3 自己发现现象,并自己定义新的公式,做实验。()
4 自己发现现象,使用已有的公式解决。

你可能感兴趣的:(2月备忘)