数据搜集经验-- A Topic Model for Hierarchical Documents

Intro

由于模型是对文本层级结构进行建模,而下一层文本的主题部分来自于正文,所以需要同时具有两层文本内容的数据来train模型。

因为需要投英文会议,所以充分的数据验证需要包含至少一个常用英文数据集,而目前我已经拿到的数据集只包含了网易新闻和新浪博客的正文及其跟帖。所以还需要在搜集一个英文数据集。

在数据搜集方面我的经验是,能拿到公开数据集的话一定不要自行搜集,能用API的话一定不要自己写爬虫,依次需要花费更多的时间。当然,写爬虫基本上是做数据挖掘的基本技能,能够按需拿到很多有趣的数据,做一些有趣的project,有空的话还是可以练练手的。我了解统计方向的学生和老师,会异常频繁地找cs方向学生帮忙爬数据,所作问题经常受限于数据集而无法开展或拖累了进程。因而cs的人可以天马行空地发现并解决各种各样有趣和有意义的问题,而statistic的同学这方面的特质就不特别明显。例如某P大统计方向教授(不提名字了,不好),在发表对social network方面的认识、理解和感兴趣的研究方向时,我听起来就有点那义务、老套。甚至于还比不过一些具有统计物理背景的人的思路开阔。

Proc

下面mark一下昨天找英文数据集的过程,然后再补记一下网易新闻和新浪博客数据搜集的基本情况。

恩,要找一个英文数据,具有较长的正文和较短的评论。典型的数据来源就是新闻站点中的news article和comments,博客网站中的blog posts和comments,这些也是我上述两个数据集的来源。英文的,就本能地首先想到了英文博客blogger(谷歌大法)和各种新闻网站。

博客数据有不少开源数据集,但是早期的数据主要关注点是用户的关注关系,也就是社交网络结构数据,没有内容;后来有了内容之后,也只关注正文内容,没有跟帖内容。

关于新闻数据,首先找了一些知名新闻站点,如CNN等。然而它们每篇新闻的跟帖都太少,而且相关研究文章都没有进行数据共享,他们一般只提到数据来自于rss的定期搜集更新,这样是拿不到跟帖内容的;仅有的一个数据集只包含了新闻正文和各个时刻的跟帖数update,没有跟帖内容。雅虎研究院倒是一年前发布了一个符合我要求的yahoo!news数据集,然而现在已经取消开放下载了,各处也找不到共享的链接,也只好放弃。

如果只检索comments的话,只能搜到一个reddit的comments合集数据,然而reddit网站的数据不明显具有长正文、短跟帖结构,所以也是不可用的。

Res

后来就想到,类似的数据集还有电商网站,如亚马逊中商品通常具有较详细的描述内容,而跟帖会做简短地商品评价。当然亚马逊美国的网站中评论经常会非常地长,那么在整理数据集的时候对不符合长度比例要求的data point筛选掉好了,比自己写爬虫怕数据省时间多了。在SNAP上就有共享数据集。

你可能感兴趣的:(爬虫,新浪,数据集,网易)