博客质量分计算(一)

新的启程


上周我正式加入了 CSDN 的 NLP 团队。感谢组织给了这样一个机会,可以和志同道合的同事一起做喜欢的事情。在数理统计专业毕业21年后 ,开始进入 AI 方向,大概也可以算是人生的一种螺旋上升吧。


博客标题质量评估

我的第一个开发任务,是内容质量分。这里的质量,并不是严格遵循主观上的内容质量,而仅仅是一个排序依据,可以说是推荐系统的一部分,我们旨在于基于统计算法而非人工干涉,尽可能在统计上将更优质的内容推荐给用户。
这个结果通常并不能保证对每个读者都是最好的,只能尽可能的向这个目标去接近,关于这一点,算是推荐系统的一个永远的遗憾吧。
对博客标题的评估,是其中一个特殊的子项。标题有其特殊性,它不需要是完整的句子,而应该是尽可能清晰的说明文章内容的要点。而对于标题推荐,主要目标是两个,一个是标题应该符合专栏题材或搜索关键字,这方面要重点对抗通过标题堆砌关键字来提高命中率的行为;一个是标题要能符合文章本身的内容,要对抗“标题党”行为。
我手工采集了一万多篇博客的标题,人工阅读了一遍,感觉 CSDN 博客的质量还是很高的,标题绝大部分都是非常有诚意的。
标题党最喜欢的是通过一些“抓眼球”的文字和标点,吸引读者点击,所以我第一个想法是找出共性最大的标题子集,或许就是一个现成的标题党集合。但是阅读了这一万五千多标题后,我感觉这个方向走不通,因为技术博客是一个特殊的垂直领域,好的标题也会因为在讨论类似的内容而非常相似。相反,对标题的词汇做聚合,可能得到的最大的子集是技术术语集合。
初步来看,对于技术博客,标题质量应尽量靠拢以下目标:

  • 符合自然语言语法的主谓/动宾结构
    • 部分词汇在术语词典中,重点是主语和宾语
    • 如果一个标题只有术语词典中的词,做一定的降权
    • 标题的情感分析结果应趋向于中立,情绪激烈的予以降权
    • 对包含负分数词汇的标题降权

要更完整的评估一篇文章的质量,除了标题,还需要对内容做分析。下一篇文章我们讨论博客文章的内容质量: https://blog.csdn.net/ccat/article/details/123911429

你可能感兴趣的:(CSDN,CSDN,AI,NLP)