新浪微博签到数据集可视化系列(一):数据介绍

        微博签到是指用户在发布微博内容的同时标记自身位置的行为。微博签到数据不仅反映了用户在特定时间的所处位置,还能体现其活动轨迹、兴趣偏好以及与周围环境的互动关系,具有高频性、实时性等特征,以及蕴含丰富的时间、空间和语义等多维信息,在社会科学、地理信息科学、城市研究、市场营销等领域应用广泛。

        微博签到数据主要由用户信息、地点(POI)信息与签到微博信息三部分组成,有用户昵称、性别、生日、注册地、IP归属地、POI名称、类型、地址、经纬度、发布时间、文本内容、图片链接等字段,如下图所示(包含但不限于):

新浪微博签到数据集可视化系列(一):数据介绍_第1张图片

        当前微博签到数据获取成本较高,随着数据量的增加,愈发明显。公开数据中,POI分布较为稀疏且不均匀,历史签到数据获取困难。本人由于科研需求,经过大量的分析与尝试,基于多源接口,以时间换取数据量,爬取到了全国各城市自2019年左右至今千w级的微博签到数据。后续将分多期对研究的可视化结果进行分享,如签到数据的时空分布、POI的受访频次、高频用户的签到轨迹、用户跨城签到情况、情感分布地图等。

        欢迎有相同兴趣爱好及科研需求的朋友多多交流。

你可能感兴趣的:(微博数据爬取,新浪微博,python,爬虫)