搜狗实验室文本分类语料库

语料库介绍

文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与检测等。


语料库说明

语料库数据包括:
[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息


下载地址

搜狗分类语料库下载地址:http://www.sogou.com/labs/dl/c.html

分类编码对照表

C000007 汽车
C000008 财经
C000010 IT
C000013 健康
C000014 体育
C000016 旅游
C000020 教育
C000022 招聘
C000023 文化
C000024 军事

你可能感兴趣的:(自然语言处理)