复旦大学中文语料库的一些统计信息

复旦大学中文语料库的一些统计信息

复旦大学的中文语料库分为训练集和验证集两部分,两部分的文档数量基本相等,但现在做测评一般都不采用这种预先划分的方法,而多用交叉验证,因此在将训练集与验证集合并之后,得到该语料库的一些基本信息如下:

 

类别总数量:20

 

 

文档总数量:19637

 

 


类别名称(类别代码):文档数量

 

 


Agriculture(C32):2043篇

 

 


Art(C3):1482篇

 

 


Communication(C17):52篇

 

 


Computer(C19):2715篇

 

 


Economy(C34):3201篇

 

 


Education(C5):120篇

 

 


Electronics(C16):55篇

 

 


Energy(C15):65篇

 

 


Enviornment(C31):2435篇

 

 


History(C7):934篇

 

 


Law(C35):103篇

 

 


Literature(C4):67篇

 

 


Medical(C36):104篇

 

 


Military(C37):150篇

 

 


Mine(C23):67篇

 

 


Philosophy(C6):89篇

 

 


Politics(C38):2050篇

 

 


Space(C11):1282篇

 

 


Sports(C39):2507篇

 

 

Transport(C29):116篇

 

同时,在使用ictclas4j分词包对其进行的过程中,发现复旦语料库中存在一些文章会使得ictclas4j报错,其中因为分词包本身字库缺少某些文字,以及一些神秘的字符组合(确实很神秘)会导致分词过程出错,因此能够被成功分词而供后续使用的文档数并不如上面所列这么多,再后续的文章里,我会提供这些能够被分词的文档的相关数据,同时也会提供ictclas4j的一些小bug及解决方法的提示,可能的话,还会提供经过分词的可以直接使用的复旦语料库。

你可能感兴趣的:(科研)