常用语料库语言学相关软件下载

   常用语料库语言学相关软件下载
1.concapp04 (concapp03的修订版,可支持超大字符集) 软件
下载地址  
http://chinese.hust.edu.cn/Concapp04.exe
          
http://chinese.hust.edu.cn/concapp03.exe  ;(concapp03版)
2.Wconcord----语料库分析软件
软件介绍:A slow but very stable concordancer that can create concordances, collocation tables, and frequency lists. Unfortunately, the output is limited to 16,000 lines.
 下载地址   
http://www.corpus4u.com/down_view.asp?id=1

3.WordSmith Tools 4----语料库分析软件
介绍 Michael Scott's brilliant software.
下载地址  
http://www.corpus4u.com/down_view.asp?id=2
4. 中科院计算所汉语词法分析系统ICTCLAS
软件介绍: 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
下载地址   
http://www.ict.ac.cn/freeware/003_ictclas/ictclas.zip

5. 中科院计算所汉语句法分析系统
软件介绍: 本系统是一个概率型的自然语言句法分析器。系统的分析算法是综合了多种优化策略的改进型chart分析算法。分析结果是概率最大的一棵分析树。在概率模型方面,本系统也在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,是的分析结果正确率有了明显提高。本系统运行在windows环境下。
使用说明:系统运行包括两个环节,即build语法环节和parse句子环节。用户首先要调入语法。方式有两种,一是在底部命令行键入 build [grammar file name], 二是点击语法按钮交互式地选择语法文件。之后,只要点击execute按钮即可。分析句子的启动过程类似。分析命令是 parse [sentence file name].
对于句子文件的格式要求是,每行一句,分好词,标记好一级词性。
如:我/r 是/v 学生/n 。/w
用户可以查看到分析树(treeWindow)和分析过程信息(outputWindow)。
下载地址:(1 
http://www.ict.ac.cn/freeware/002_prop/propexec.zip
          (2 
http://www.ict.ac.cn/freeware/002_prop/propsource.zip
6.海量智能分词研究版FAQ
海量智能分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。其中组合歧义的处理一直是分词领域的难点中的难点,海量经过不懈努力,在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量智能分词在实际应用中所表现出的优秀品质。
下载地址:
    
http://www.hylanda.com/cgi-bin/download/count.asp?id=8&url=1
7.文本文件合并器2.0
 下载地址 
http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
8.CastExe 
由上海交通大学开发的类似Wordsmith的检索工具,备注: 此软件有很多不完善的地方,但对于初入门的同学来说也是有一定的帮助的。
下载地址 
http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
9.TextPro文本处理程序
这是来自中华佛典 
http://www2.fodian.net/tools/index.html )。集成了各种文字处理功能,支持各种文字显示,具有文件合并功能,连在文本中加空格的功能也具备了。有了该软件,似乎很多单一功能的软件要下课了。呵呵!
下载地址 
http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
10.词频分析器
下载地址 
http://www.corpus4u.com/down_view.asp?id=9
11.功能强大的文本分析和索引软件Concordance3.2(极力推荐支持超大字符集)
Concordance是文本分析和索引软件,适用于任何需要深入研究文章和分析语言的人士。使用Concordance,你可以建立索引和单词列表,计算单词使用率,比较一个单词的不同用法,分析关键字,查找短语,发布到网站。
下载地址 
http://www.concordancesoftware.co.uk/
12.C_Corpus_Res_Final语料库教程 (美国洛杉矶加州大学陶红印教授提供)
下载地址:
   
http://chinese.hust.edu.cn/Chinese_Corpus_Resource_Guide.pdf
13.四大古典小说语料库下载:
(下载后请用access软件打开,然后搜索相关的内容即可)
红楼梦:  
http://ling.ccnu.edu.cn/ylk/hlm.mdb
水浒转:  
http://ling.ccnu.edu.cn/ylk/shz.mdb
西游记:  
http://ling.ccnu.edu.cn/ylk/xyj.mdb
三国演义:  
http://ling.ccnu.edu.cn/ylk/sgyy.mdb
14.现代著名小说家作品标注语料库下载
(下载后请用access软件打开,然后搜索相关的内容即可)
下载地址:  
http://ling.ccnu.edu.cn/ylk/xiandai.htm
15.国内语料库建设一览表
下载地址 
http://www.corpus4u.com/down_view.asp?id=8
16.语料库下载,内容如下:
汉英对照古体诗词一百四十五首
计算所机器翻译句法树库
篇章级对齐英汉双语法律语料
双语句对齐语料库(1500句对
北大《人民日报》语料库标注语料举例
北大《人民日报》语料库校对记录
英汉对照例句集(400句
一个小规模汉语树库(1434句
汉英对照例句集(400句
1998年863汉英机器翻译评测试题
《圣经》双语语料库
实验用的数字语音语料库
下载地址:  
http://www.nlp.org.cn/categories/default.php?cat_id=9


3.XML与关系数据库转换系统 v1.0
 随着XML的迅速发展,XML正在逐步成为Internet中描述数据的标准。由于企业电子商务是以Internet为基础的,因此,在将来XML文档势必成为电子商务中数据传输的主要载体。而目前,大多数企业的数据都不是以XML文档来保存的,在很大程度上,大多数企业是采用传统的关系数据库的形式来存储。于是,如何将现关系数据库数据数据转换为XML文档,以便在Internet上进行传输,是一个非常热门的研究课题。同时,企业为了保持现有的业务处理系统,不希望立即、完全更改现有的数据存储形式。于是,如何将从Internet上获取到的XML文档的内容保存到已有的关系数据库中,也是企业急需解决的一个问题。根据这种需求,研究实现XML与关系库转换系统,实现XML文档与关系数据之间的转换,是一个应用方向十分重要,应用领域十分广阔的系统。XTrans系统起到的是一种中间转换处理单元的作用,也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。系统XTrans提供的功能分布于两个功能模块:映射关系定义模块(XTransStudio)和数据转换处理引擎模块(XTransEngine)。
  映射定义功能模块(XTransStudio)能够帮助用户方便地定义XML文档和关系数据库中关系表的映射关系,在这一图形界面的映射关系定义中,用户能的获取XML文档的结构,同时获取关系数据库中的关系表定义,这样就可以方便的定义XML文档和关系数据表之间的映射关系,并可以讲这些定义的映射关系保存在表示映射关系的特定格式的XML映射关系定义文件中。转换处理引擎功能模块(XTransEngine)能根据XTransStudio定义的映射文件处理相应XML文档和关系数据的转换。也就是说,它可以根据这一映射定义文件定义的映射关系控制执行相应XML文档和关系数据库的双向转换。同时,系统能根据所给出的XML文档的DTD定义,采用固定的算法自动生成一系列关系表,并能进一步生成相应的XML文档与这些关系表的映射关系;此外,本模块还能实现简单的XML文档存储功能,用户只需给定XML文档和相应的DTD,系统就能通过转换将XML文档的内容以关系数据的形式存储到关系数据库中;在获取XML文档时,同样通过转换的形式,从关系数据库中获取相关内容,重新构造XML文档。XML与关系数据库转换系统XTrans起到的是一种中间转换处理单元的作用,它负责桥接内部关系数据和外部的XML通信数据。也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。
下载地址: 
http://www.ios.ac.cn/Welcome.html

你可能感兴趣的:(文本处理)