Test

总结-基于新浪财经数据的关系抽取的多分类模型构建

@(Relation Extraction)[svm|jintongsoft]


[TOC]


任务简介


关系抽取属于知识库构建的一个部分,目前常见的做法是通过模板规则方法和机器学习方法(分类算法)。 —— 参考文献下载

本文借助分类算法SVM进行。## 语料说明-------------------- 来源 :新浪财经—— 点击查看;- 标记规则:说明文档—— 点击下载;标记源程序下载—— 点击下载;标记应用程序下载—— 点击下载;- 概况 :6000篇原始文档,2485篇标记文档;标记文档中合法文档为2442篇,非合法文件为43篇;标记格式为类型A和B的句子数分别为43932和2710;标记格式类型A中合法句子数为32858,非合法句子数为11074;数据及详细分析文件—— 点击下载;- 训练数据和测试数据 :训练数据句子数为23595,测试句子数为7865;> 感谢:朱洋峰(原始数据+外部词典),标记小组(标记数据)。## LibSVM说明-------------------> 本文借助libsvm工具实现SVM分类模型的设计。- libsvm下载—— 点击下载- libsvm使用文档—— 点击下载> 感谢:台湾大学林智仁等人(Lin Chih-Jen el.)开发的libsvm工具。## 程序设计-------------------> 开发环境: Eclipse(Luna Release 4.4.0) + JDK 1.7;> 普通Java项目:使用时选择file>Import>General>Existing Projects into Workspace导入即可;> 编码:UTF-8;### 标注器源程序说明--点击下载- 结构说明

Alt text
- 外部资源文件说明
Alt text
### 模型训练阶段源程序说明-- 点击下载- 结构说明
Alt text
- 外部资源文件说明 详见KeyValue.java ### 模型应用源程序说明-- 点击下载- 结构说明
Alt text
- 外部资源文件说明 详见KeyValue.java## 实验结果-------------------- 研究特征说明(基于参考文献) 实体内:实体长度,实体类型,实体内容,实体的语义依存类型 实体间:实体类型组合,实体间距离,实体结构依存组合 实体外:实体距核心谓词的距离,实体前后1、2个词的词性- 实验思路 特征选择:探究每个单独特征、每类特征(内,间,外)、依存特征(语义依存,结构依存,距核心谓词的距离) 参数训练:借助libsvm工具结合训练数据进行参数训练- 实验结果
Alt text
Alt text
- 实验分析1.分类的成功率基本上和训练数据的数据量成正比 2.一般情况下,一个及格的分类所需数据量约为1000 3.Best Feature Group:无实体前后1,2个词的词性的其它特征 4.关系“Describe”和“Cpoint”的训练数据(前者600多条,后者800多条)相较于其它类型过少,导致这两类结果不是太好。 - 后续改进方向1.扩充类型“Describe”和“Cpoint”的训练数据2.修改分类体系## 意见与建议-------------------> 限于自身能力,最终的结果可能并非完美。实验过程中考虑的方面可能也不够全面,设计的程序也可能不是最优。如有问题,还望通过以下方式联系!>- 邮箱: [email protected]>- QQ号:1719027891-------------------感谢吴老师提供的此次实习机会,感谢公司中同事们的帮助!

你可能感兴趣的:(Test)