自然语言处理的一些工具和书籍文章

         这几天都在起早贪黑的硕士师兄做集成学习的模型,好不容易都搭建好了,却发现没办法喂入数据。无奈之下,向远在天津大学读书的另一个师兄求救,聊天过程中,他知道我本科期间做了一些nlp(自然语言处理)的研究。遂让我写写那时使用的工具、读过的书和看过的文章。所以本文是为了答复师兄而写的。

分词工具

    结巴中文分词
    
  • 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)
  • 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  • 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法
  • 基于tf-idf算法的关键词抽取
  • 基于textrank算法的关键词抽取

     深度学习中文分词  

  •        这个工具没什么好介绍的,点进github主页自己看吧

       目前来看,世面上大多数的分词工具都是基于HMM模型来分词的,只是加载的词典不一样,所以,用好结巴分词就可以搞定HMM类的分词。深度学习类的分词工具发现上面的深度学习中文分词还不错。

词转化为向量的工具

      word2vec

      word2vec的工具也是一个由深度学习构建的网络,主要的功能就是将字符串转化成向量,在此基础上,在进行下一步处理。

句法分析工具

     句法分析工具有好多,有python写的自然语言处理包,也有google出品的SyntaxNet。但中文的句法分析工具就比较少了,目前还没发现一款比较好的。

知识图谱构建工具

     目前来看,世面上没有什么好用的知识图谱工具,说到底,知识图谱的推理是靠知识图谱的结构来实现的。所以,知识图谱的工具也属于知识图谱构建的一部分。建议仔细研究算法、数据结构、别人的知识图谱工具,来自己设计知识图谱构建工具。

     现在已有的知识图谱基本上是3元组模型搭建起来的,或者是3元组的扩展。

看过的一些书籍

     The Elements of AIML Style

     AIML语言规则

     Efficient Random Walk Inference-with Knowledge Bases

     隐马尔可夫模型的文章和word2vec的文章自己找

      csdn不能上传文章,其他小伙伴需要电子版的话,给我发私信吧

好有,要关注中国计算机学会的会议,遇到知识图谱和自然语言处理的会议,最好去参加

你可能感兴趣的:(自然语言处理,书籍,工具)