bcc语料库下载_CCL语料库与BCC语料库各自的特点是什么?

对比、分析语料库的特点,需要从语料来源、规模等,加工处理程度,应用系统提供的功能等几个方面进行(只对比汉语语料库):

1. CCL的语料库有部分口语(北京话调查)语料,包含部分影视作品(如百家讲坛、周星驰电影等)语料,网络语料,书面语语料。其中,报纸语料占绝对大比例。CCL最新一次更新,增加了许多学术论文语料;此外CCL还有古代汉语和中英双语语料库,其中双语语料库不对外。BCC包括文学、 报刊、微博、科技、古汉语、学生作文等多个领域,其中报刊、文学、微博、科技、古汉语都有20亿以上的规模,各类别分布相对均衡。

2. CCL语料库规模小于BCC。

3. CCL是生语料库(除了分类、题目、作者等元信息外),正文部分未经过任何加工处理;BCC是熟语料库,语料经过分词、词性标注,少量语料库还做了句法分析。所以,想查和词性、句法结构有关的,只能用BCC啦。(用CCL只能下载后自己再做加工处理、统计分析等等....)

4. CCL提供了丰富的,针对字符串的检索功能,尤其是模式匹配,让生语料库也可以满足多样性的研究需求;BCC与CCL相比,提供了更加丰富的检索功能。用CCL无法查询的不妨试试BCC。

6. CCL可以下载所有检索结果,这一点非常开放(结合左右最多显示字数,可以下载完整的检索结果),BCC最多只能下载10000条结果(太抠门)!

7. CCL没有提供统计功能,BCC提供了部分统计功能,尤其是非普通字符串检索时,该功能尤为有用。(虽然CCL没有提供统计功能,但是可以下载所有检索结果呀,下载后自己统计、分析呗,这也刚好弥补了CCL没有统计功能的不足。)

8. CCL没有提供历时检索功能,BCC有,所有想做历时分析、对比的,就只能选BCC啦。

9. 理念不同(纯如个人臆测,如有雷同,纯属巧合)。CCL:我不加工语料,我只提供原始材料,怎么加工处理、怎么统计分析,使用者自行解决。BCC:我不但有原始语料,我还尽量去满足所有用户的所有需求,能做的我都做。由此,CCL做的少,但不会犯错;BCC做的多,但可能有潜在风险。

总结:二者互补,根据实际需求而选择最合适的!

========================================

小 贱:对不起,CCL真做不到啊!人家没分词有没有标注词类,咋个查法呢?

你可能感兴趣的:(bcc语料库下载)