Chindle内容设计【2】

简单的词频统计并不能很好地用于知识发现,例如下面的,高频词汇基本都是垃圾信息。怎么搞?求专业人士指导 O(∩_∩)O


 


--update--


 感谢超哥给的tips,实用stopwords(停用词)果然很给力,能把大部分无意义的词汇过滤掉。


停用词:在基于词的检索系统中,停用词是指出现频率太高、没有太大检索意义的词,如“的、是、太、of、the、什么、可以”等;在基于支持向量机的自动分类中,停用词指没有实意的虚词和类别色彩不强的中性词。 参考文献: http://www.sciencetimes.com.cn/upload/blog/file/2008/10/20081024135512290497.pdf 


--update--


感谢镇锋的建议,TF/IDF应该是一个不错的解决思路。TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。


很多不同的数学公式可以用来计算TF- IDF。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语「母牛」出现了3次,那麽「母牛」一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过「母牛」一词,然後除以文件集里包含的文件总数。所以,如果「母牛」一词在1,000份文件出现过,而文件总数是 10,000,000份的话,其文件频率就是 0.0001 (1000/10,000,000)。最後,TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说,「母牛」一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。


参考:http://lzj0470.iteye.com/blog/306053


-update-

任务的本质是你用几个词,去描述这个人。
目标函数是:
1.尽可能多的覆盖这个人的属性
2.重要属性大字,次要属性小资
约束条件是:
有限的描述词

其中“重要”的定义,是问题的关键。
可以假设认为:
1. 词性是名词、术语、形容词通常比较重要。比如:机器学习、统计、足球、Big Table;介词可能不重要,比如:通过、因为等。
2.  有限的个数,如果词之间多一些 独立、正交、不相关 等 关系,则覆盖较全。假设限定M个关键词,我们可以先找top 2M 个关键词,然后去掉
    其中有一定语义关系的,比如“包含关系”、“近似关系”等。
3. td-idf都只根据了词出现的个数统计重要性。词出现的位置 有时更加重要。比如【又现“艳照门”】
4. 通过 词  出现的 上下文 判定词的 权重。 比如:我转发的微博中,“京东”出现了一次,但是在改微博被其他人转发的时候,也都提到了
”京东“,那么京东的权重应该大些。


这些都是 应用场景的 分析, 算法实现 可以调研下。


 


附,停用词使用前和使用后的对比:


什么 => 6
时代 => 5
这个 => 4
没有 => 4
歪脖 => 3
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2
绝望 => 2
qq => 2
优化 => 2
今天 => 2
欢迎 => 2
因为 => 2
真是 => 2
要是 => 2
别人 => 2
一起 => 2
点点 => 2
积极 => 2
搞起 => 2
疯狂 => 2
容易 => 2
应用 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
不要 => 1
你们 => 1
知道 => 1
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
任何 => 1
答辩 => 1
面对 => 1
所有 => 1
让人 => 1
心平气和 => 1
依靠 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
并不是 => 1
一件 => 1
真正 => 1
得到 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
完成 => 1
470 => 1
惊喜 => 1
谦卑 => 1
这样 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
加入 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
出来 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
大家 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
就是 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
有点 => 1
原则化 => 1
到底 => 1
绝对 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
之一 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
果然 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
一下 => 1
不是 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
行动 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
争取 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
存在 => 1
价值 => 1
一样 => 1
填补 => 1
过去 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
各位 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
以前 => 1
上课 => 1
现在 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1


 


用停用词处理后好了不少,但还是有些词比较蛋疼:


时代 => 5
歪脖 => 3
哈哈哈 => 3
绝望 => 2
qq => 2
优化 => 2
别人 => 2
点点 => 2
搞起 => 2
疯狂 => 2
北京 => 2
强大 => 2
新浪 => 2
关系 => 2
=> 2
无比 => 2
成功 => 2
气馁 => 1
困难 => 1
谅解 => 1
承受 => 1
好事 => 1
救赎 => 1
唯一 => 1
答辩 => 1
面对 => 1
让人 => 1
心平气和 => 1
任何人 => 1
悲伤 => 1
痛苦 => 1
一件 => 1
快乐 => 1
妙手偶得 => 1
刚刚 => 1
470 => 1
惊喜 => 1
谦卑 => 1
带给 => 1
中期 => 1
快速 => 1
褪色 => 1
学习 => 1
两点 => 1
国家 => 1
探雷 => 1
濡以 => 1
赞美 => 1
全都 => 1
上传 => 1
0.5秒 => 1
试用 => 1
多谢 => 1
支持 => 1
66 => 1
第一个 => 1
以内 => 1
发送 => 1
给出 => 1
提示 => 1
真是的 => 1
围观 => 1
俄罗斯 => 1
均衡 => 1
消解 => 1
调度 => 1
原则化 => 1
到底 => 1
毁灭 => 1
大设计 => 1
领悟 => 1
落定 => 1
江南岸 => 1
二月 => 1
终将 => 1
亿万年 => 1
追求 => 1
永恒 => 1
一场 => 1
喝彩 => 1
转化 => 1
系列 => 1
忧愁 => 1
沉思 => 1
值得 => 1
一个 => 1
坚定 => 1
毕业 => 1
送审 => 1
成立 => 1
不少 => 1
悔恨 => 1
试试 => 1
太帅 => 1
关注 => 1
没法 => 1
2010 => 1
纠正 => 1
浮沉 => 1
克服 => 1
拖延 => 1
主动 => 1
好玩 => 1
真人 => 1
免费 => 1
2011 => 1
暑期 => 1
精彩 => 1
10000张 => 1
第二季 => 1
可贵 => 1
懂得 => 1
珍惜 => 1
活动 => 1
大片 => 1
邀请 => 1
起床 => 1
戴文渊 => 1
看透 => 1
细水长流 => 1
分享 => 1
每人 => 1
两张 => 1
有限 => 1
赶快 => 1
评论 => 1
转发 => 1
交互 => 1
入门 => 1
居家 => 1
必备 => 1
东西 => 1
早点 => 1
纳斯达克 => 1
美股 => 1
投资 => 1
几本 => 1
酱紫 => 1
崔浩波 => 1
中午 => 1
1点10分 => 1
睡到 => 1
2点30分 => 1
空白 => 1
国内 => 1
价值 => 1
填补 => 1
五六年 => 1
睡觉 => 1
晚安 => 1
胡说 => 1
寂寞 => 1
细分 => 1
午睡 => 1
包括 => 1
按摩 => 1
小憩 => 1
四月 => 1
一日 => 1
上课 => 1
一晃 => 1
怀念 => 1
地方 => 1
59 => 1
永远 => 1
记忆 => 1
好美 => 1
刘瑜 => 1


 


较旧一篇:Chindle阅读(76)| 评论(23)| 分享(1)评论| 喜欢




Raywill 2011-10-13 00:39
@彭泽映 @熊皓


徐超 2011-10-13 00:39
stopwords 回复


Raywill 2011-10-13 00:41
回复徐超:分词是没有问题的,用的是sina的api,质量还可以。他们的分词给出了词性。


徐超 2011-10-13 00:42
回复Raywill:你要干什么? 回复


Raywill 2011-10-13 00:44
回复徐超:哈哈,我懂了。多谢多谢~ 停用词是比较给力。什么 => 6
这个 => 4
没有 => 4
可以 => 3
哈哈哈 => 3
自己 => 3
每天 => 2


这些都被干掉了。


徐超 2011-10-13 00:45
回复Raywill:词频统不能用于知识发现 => unsupervised learning 回复


Raywill 2011-10-13 00:47
回复徐超:online处理,太高级了跑不动啊。随便搞着玩,有个意思就行了。


徐超 2011-10-13 00:48
回复Raywill: unsupervised learning =>with model parameters 回复


Raywill 2011-10-13 00:48
回复徐超:求中文详解


徐超 2011-10-13 00:50
回复Raywill:google 回复


杨镇锋 2011-10-13 05:36
tf, idf? 回复


陆雪梅 2011-10-13 08:14
呃,肿么感觉你都已经搞起我们专业的东东来了,跟我们当初上的《信息组织与检索》挺像的嘛,哈哈 回复


常佳 2011-10-13 09:21
支持,我也是上次玩分词的时候知道了停用词这个东西。另外,过于过滤蛋疼词有啥新解了没?从词性角度可以吗?是不是名词更能代表个人的标签? 回复


Raywill 2011-10-13 09:33
回复常佳:清华的那个做得不错。基本都是名词。但是,名词中很多没有感情的词汇我还不知道如何过滤掉。Q聊。


Raywill 2011-10-13 09:33
回复陆雪梅:是嘛,求指导。


钟华 2011-10-13 09:37
itf不能解决问题?或者搞个正反集比较? 回复


Raywill 2011-10-13 09:42
回复钟华:ITF好像可以呢,刚才学习了下。我的理解是:TF-IDF的关键是引入多份文件(多个微博用户/多条微博)来对关键词进行统计,然后找出其中比较具有”特色“的词汇。这些特色词汇可能是我们希望的内容。不知道对不对?


钟华 2011-10-13 09:47
回复Raywill: 对的。 回复


朱亚东 2011-10-13 13:08
stopword list的过滤,是必须的;另外如果针对围脖的话,IDF是没有意义的 回复


Raywill 2011-10-13 13:25
回复朱亚东:有何好建议?


朱亚东 2011-10-13 17:01
回复Raywill:关键我不知道你想干嘛啊。。 回复


Raywill 2011-10-13 18:00
回复朱亚东:做一个跟”人人关键词“,”微博关键词“类似的应用。清华NLP实验室做了一个。你可以看看他们的效果。


熊皓 2011-10-13 19:28
关键词抽取,相关文献很多,我没研究这个,我说几个如果我去做的简单思路:
1.词性标注,去除一些ADJ,ADV之类意义不大的词
2.Topic model,用LDA跑一遍,每个topic取概率高的几个词
3.翻译模型,和检索一样,一篇文章对应若干个key words,可以建立翻译模型的。


前面两个比较容易实现
刘志远应该用了topic加上一些语义知识 回复

你可能感兴趣的:(Chindle内容设计【2】)