语料库资源————(三)

语料库资源在线:

http://www.cncorpus.org/Resources.aspx

  语料库文档资料
   国家语委现代汉语语料库介绍   ※下载次数:5481 
   国家语委现代汉语语料库词类标记集   ※下载次数:3894 
   国家语委现代汉标注语料库数据及使用说明   ※下载次数:4797 
  在线语料库字词频数据
   现代汉语语料库词频表:在线现代语料库词频数据。   ※下载次数:10266 
   现代汉语语料库分词类词频表:在线现代语料库带词类标注的词频数据。   ※下载次数:6860 
   现代汉语语料库字频表:在线现代汉语语料库字频数据。   ※下载次数:4874 
   古代汉语语料库字频表:在线古代汉语语料库字频数据。   ※下载次数:3256 
  语料处理软件工具
   汉语拼音标注工具:本站开发,用于对汉语文本自动标注拼音。   ※下载次数:3184 
   分词和词性标注工具:本站开发,用于对汉语文本进行分词和词性标注。   ※下载次数:7412 
   字词频率统计工具:本站开发,用于统计汉语文本字、词的出现频率,并生成字、词频率表。   ※下载次数:6252 
  现代汉语字表
   现代汉语常用字表:现代汉语3500常用字表,国家语言文字工作委员会1988年1月发布。   ※下载次数:4326 
   现代汉语通用字表:现代汉语7000通用字表,国家语言文字工作委员会、新闻出版总署1988年发布。   ※下载次数:3374 
   通用规范汉字表:通用规范汉字表收字8105个,其中一级字3500个,二级字3000个,三级字1605个。   ※下载次数:528 

其他

北京大学《人民日报》标注语料库:http://www.icl.pku.edu.cn

北京语言大学的语料库:http://www.blcu.edu.cn/kych/H.htm

清华大学的汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm

山西大学的语料库: http://www.sxu.edu.cn/homepage/cslab/sxuc1.htm

台湾中研院的语料库:

现代汉语平衡语料库:http://www.sinica.edu.tw/SinicaCorpus

 http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 
 http://www.sinica.edu.tw/ftms-bin/kiwi.sh

近代汉语标记语料库:http://www.sinica.edu.tw/Early_Mandarin/

古汉语语料库:http://www.sinica.edu.tw/ftms-bin/ftmsw3

 http://www.eastasian.ucsb.edu/projects/scriptasinica/cgi-bin/ghy/kiwi.cgi 
            
 http://www.sinica.edu.tw/~tibe/2-words/old-words/

台湾南岛语典藏:http://www.ling.sinica.edu.tw/Formosan/

闽南语典藏:http://southernmin.sinica.edu.tw/

汉籍电子文献:http://www.sinica.edu.tw/~tdbproj/handy1/

 http://www.sinica.edu.tw/ftms-bin/ftmsw3

香港城市大学的LIVAC共时语料库:http://www.rcl.cityu.edu.hk/livac/

或 http://www.LIVAC.org

浙江师范大学的历史文献语料库: http://lib.zjnu.net.cn/xueke/hyywzx/xkjj.htm

中国科学院计算所的双语语料库:http://mtgroup.ict.ac.cn/corpus/query_process.php

中文语言资源联盟:http://www.chineseldc.org/xyzy.htm

網站名稱 網址及簡介

古漢語語料庫

http://www.sinica.edu.tw/ftms-bin/ftmsw3 
http://www.sinica.edu.tw/~tibe/2-words/old-words/

古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他、出土文獻。部分資料取自史語所漢籍全文資料庫,故兩者間略有重疊。此語料庫之出土文獻語料庫,全部取自史語所漢簡小組所製作的資料庫。

近代漢語標記語料庫

http://www.sinica.edu.tw/Early_Mandarin/

為應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的重要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注的工作,並視結果逐步提供上線檢索。

現代漢語平衡語料庫

http://www.sinica.edu.tw/SinicaCorpus/ 或
http://www.sinica.edu.tw/~tibe/2-words/modern-words/ 或
http://www.sinica.edu.tw/ftms-bin/kiwi.sh

主要針對語言分析而設計,由中央研究院資訊所、語言所詞庫小組完成,內含有簡介、使用說明,現行的語料庫是4.0的版本。

唐詩三百首

http://cls.admin.yzu.edu.tw/300/

以國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體資料,文字資料包含作者生平、讀音標注、翻譯、註解、評註、典故出處等資料;檢索點包含作者、詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字及多媒體資料。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入詩格律自動檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。

樹圖資料庫 http://treebank.sinica.edu.tw/

「中文句結構樹資料庫」是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。在中文句結構樹中標示了中文句語意和語法的訊息。 目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。

中英雙語知識本體詞網 http://bow.sinica.edu.tw/

結合詞網,知識本體,與領域標記的詞彙知識庫。

搜文解字 http://words.sinica.edu.tw/

包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結到出處,閱讀原文。

文國尋寶記 http://www.sinica.edu.tw/wen/

在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢、水滸傳等文學典籍結合,提供網路上國語文學習的素材。

漢籍電子文獻 http://www.sinica.edu.tw/~tdbproj/handy1/

包含整部25史 整部阮刻13經、超過2000萬字的臺灣史料、1000萬字的大正藏以及其他典籍。

紅樓夢網路教學研究資料中心 http://cls.hs.yzu.edu.tw/HLM/home.htm

元智大學中國文學網路系統研究室所開發的「網路展書讀—中國文學網路系統」,為研究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究資料庫,提供使用者最完整的中國文學研究資料。


你可能感兴趣的:(语料库资源————(三))