2019-01-17

共获取贴吧传奇十一人贴子 27423 条数据。

数据保存结构

  • thread.csv

为各帖子的一些基本信息。

属性 类型 备注
id BIGINT(12) "http://tieba.baidu.com/p/4778655068" 的ID就是4778655068
title VARCHAR(100)
author VARCHAR(30)
reply_num INT(4) 回复数量(含楼中楼, 不含1楼)
good BOOL 是否为精品帖
  • post.csv

为各楼层的一些基本信息,包括1楼。

属性 类型 备注
id BIGINT(12) 楼层也有对应ID
floor INT(4) 楼层编号
author VARCHAR(30)
content TEXT 楼层内容
time DATETIME 发布时间
comment_num INT(4) 楼中楼回复数量
thread_id BIGINT(12) 楼层的主体帖子ID,外键
  • comment.csv

楼中楼的一些信息。

属性 类型 备注
id BIGINT(12) 楼中楼也有ID,且和楼层共用
author VARCHAR(30)
content TEXT 楼中楼内容
time DATETIME 发布时间
post_id BIGINT(12) 楼中楼的主体楼层ID,外键

面试的时候说进行数据分析,对文本进行分析。看了一下,主要是对精华帖每次发布版本进行征集意见。

回来这里的舍友说可能会是免费的劳动力,就没有分析下去。这几天都在面试,昨天晚上用了接近两个小时的时间把数据爬了下来。

因为没有经验,不确定是不是不再需要这个岗位。
描述来看倾向于数据清洗的工作,不知道为什么布置这个作业,希望得到解答。

数据放到百度云盘,点我这里获取
提取码:gbst

你可能感兴趣的:(2019-01-17)