基于python+window10下的mecab安装配置

说明

  • 由于工作中需要进行一些日语的词频分析,但是数据量在50万条数据;最开始使用了一款日语词频统计软件,尝试用5万条数据进行处理,发现处理时间在3个小时左右,由于数据量比较大,按照5万条数据处理的话需要花费2-3天时间,故采用了python进行日语的词频分析,希望处理数据量以及速度能够快一些吧
  • 如果你需要处理的数据量在万行以下的话,可以采用下面链接里面的软件
  • 链接: https://pan.baidu.com/s/1Xz3ZbuEItpEqvdUGZRnM9Q
  • 提取码: mae9

后续

真实体验:用python处理五十多万条数据真的超级快,大概十分钟不到(也许是五分钟)就处理完整个数据, 两个字真香~后续学完该学的东西,准备学习一下python,先立个flag!(今年的一个小目标)

第一步:安装python

  • 查看此链接python安装教程

第二步:下载 MeCab.exe安装程序并安装

-(1)在官方地址地址链接基于python+window10下的mecab安装配置_第1张图片

  • (2)安装MeCab.exe程序基于python+window10下的mecab安装配置_第2张图片
    基于python+window10下的mecab安装配置_第3张图片
    基于python+window10下的mecab安装配置_第4张图片
    基于python+window10下的mecab安装配置_第5张图片
    基于python+window10下的mecab安装配置_第6张图片
    基于python+window10下的mecab安装配置_第7张图片
    基于python+window10下的mecab安装配置_第8张图片
  • 这样就完成安装啦~
  • (3)复制两个文件
  • 将MeCab\sd下的kllibmecab.lib、MeCab\bin下的文件libmecab.dll
  • 两个文件都复制到python安装文件下的Lib *\site-packages
    基于python+window10下的mecab安装配置_第9张图片
    基于python+window10下的mecab安装配置_第10张图片
    基于python+window10下的mecab安装配置_第11张图片

第三步:用pip安装名为Mecab的软件包

  • 在anaconda prompt中输入
pip install mecab-python3
pip install mecab-python-windows#或者这个

基于python+window10下的mecab安装配置_第12张图片

第四步:检查是否安装成功

 import MeCab
 mecab = MeCab.Tagger ("-Ochasen")
 print(mecab.parse("MeCabを用いて文章を分割してみます。"))

基于python+window10下的mecab安装配置_第13张图片

  • 这样就完成啦~后续如果有使用的心得也会发出来给大家参考滴

参考链接

  • 主要参考文章https://blog.csdn.net/ZYXpaidaxing/article/details/81913708
  • 日文分词器 Mecab 文档 – 我爱自然语言处理 (52nlp.cn)
    日文分词器mecab

你可能感兴趣的:(#,python)