信息茧房研究-sql数据清洗实战语句记录

文章目录

  • 前言
  • 数据集内容
  • 需求1. 找出所有根微博用户id去重保存到表“t”
  • 需求2. 发博id有属于表“t”的用户id去重保存到“t1”
  • 需求3. 转博的根微博用户uid属于“t1”的用户id去重保存到“t2”
  • 需求4. 有效用户uid
  • 需求5. 根据有效用户uid进行数据清洗
  • 需求6. 用户uid的替换-基于多表连接
  • 需求7. 性别编码-基于源数据处理
  • 需求8. 原创/转发数据聚合
    • 报错Row row 8 was cut by group_concat()


前言

本文主要记录信息茧房研究-sql数据清洗实战语句操作的相关笔记


数据集内容

数据集为表all_info,有500多万行数据,大致内容示例见下表:

uid Gender full_content root_uid
75a673e5c61 网上车市了解到,哈弗某款新车型预计5月中旬上市 None
673e5c675a1 随着三月份的到来,各地的高校也在陆续开学 None
f37fae1c9ce1 【人大代表#建议鼓励生育要进一步为家长减负#[思考]】 None
e137ff1c9cae 顶不住了@f37fae1c9ce1:【人大代表#建议鼓励生育要进一步为家长减负#[思考]】 f37fae1c9ce1

需求1. 找出所有根微博用户id去重保存到表“t”

你可能感兴趣的:(SQL学习,SQL实战记录,数据分析实战,sql)