2018-06-13

情感分析

算法大体步骤见:https://github.com/chaoming0625/FineGrainedOpinionMining

现在大致介绍一下代码:


2018-06-13_第1张图片
代码结构

代码结构如上图所示:

code:存放所有的代码

init.py:python 初始化文件,不用管;

common_lib.py:提供项目中常用的方法,如公共文件路径、分词等;

corpus.py:提供语料处理方法,其中GetToTagCorpus用于对原始需要进行人工标记的语料进行处理,输出数据用于人工标记;GetTaggedCorpus对人工标记的数据进行处理,得到用于后续处理的数据,即将人工标记为 E、P、N的数据处理为标记为I-E、B-E、M-E的数据;BootstrappingMaster用于扩充语料;


2018-06-13_第2张图片
标签对照表

HMM.py:训练隐马尔可夫模型,得到模型所需的各种概率,并写入数据文件hmm_data中;

main.py:入口程序,analysis_sentence:对句子进行情感判别;first_use_function:首次使用模型时,需要先训练模型,然后再使用模型进行情感分析;not_first_use_function:非首次使用模型时,可以直接用训练好的模型进行情感分析;

pre_process.py:预处理操作

sentiment_analysis.py:句子情感分类

data:存放数据

corpus:语料数据

bootstrapping_corpus.txt:用于采用 bootstrapping 算法扩充预料时的数据集;

train_corpus.txt:训练数据集;

user_dict.txt:用户词典

hmm_data:HMM 模型训练得到的数据

tags:训练得到的标签数据

你可能感兴趣的:(2018-06-13)