原文发表于文东工作室公众号


        前两天东哥看到一篇文章,有个无聊的家伙分析了42万字的歌词,为了搞清楚民谣歌手在唱些什么。我突然想知道《金鱼粼》里侯龙涛最爱的是谁?talk is cheap,show you the code.

  • 用jieba分词(看清楚了是jieba不是jiba),统计一下Top20

    通过采用Trie树进行扫描,将句子中的词语构成有向无环图,接着采用动态规划算法查找最有可能的词语。对于为收录的词,则是Viterbi algorithm(一个动态规划算法),加上HMM模型(隐式马尔可夫模型)。

用Python分析《金鱼粼》,搞清楚侯龙涛最爱谁?_第1张图片

  • 然后调用shell,执行命令

python jinlin.py jinlin.txt

用Python分析《金鱼粼》,搞清楚侯龙涛最爱谁?_第2张图片

  1. 如云

  2. 玉倩

  3. 陈倩

  4. 陈曦

  5. 薛诺

  6. 文龙  ╯﹏╰

  7. 何莉萍

  8. 茹嫣

  9. 清影



结论:男人爱御姐超过初恋,喜欢板着脸的只能排最后,偶尔也搞下基......