2022 个人工作年度总结

目录

  • 1. 自动评论机器人
    • 1.1 [Blink动态](https://blink.csdn.net/)
    • 1.2 博客评论
    • 1.3 [极客日报](https://bbs.csdn.net/forums/csdnnews)社区
  • 2. 热榜/个性化推荐
    • 1.1 热榜
    • 1.2 个性化推荐
  • 3. 技能树
  • 4. 机器学历分类
  • 5. 博客难度等级分类
  • 6. 其他工作
  • 7. 总结


团队博客: CSDN AI小组


光阴似箭,日月如梭,一年的工作转瞬又将成为历史,2022年即将过去,2023年即将来临。新的一年意味着新的起点、新的机遇、新的挑战、“决心再接再厉,更上一层楼”。为了2023年更好地完成工作,扬长避短,现总结如下:

1. 自动评论机器人

2022 个人工作年度总结_第1张图片

自动评论机器人 (没错,就是 programmer_ada) 主要用于减轻人工的工作,并增加 CSDN 各个业务的活跃度,当前主要在 Blink 动态、博客评论、极客日报社区 进行自动评论。大致的策略如下:

1.1 Blink动态

Blink 类似于 CSDN 用户的朋友圈,用户可能发各种各样的帖子,我们首先识别用户的意图(例如:学习、提问、分享等),然后再根据意图选择合适的回答模版对用户进行评论。
2022 个人工作年度总结_第2张图片

1.2 博客评论

  • 对首发博客的用户进行鼓励。
  • 对入选极客日报社区【CSDN 每天最佳新人】的博客进行鼓励。
  • 对新用户的前4篇博客内容进行相关领域的提问、鼓励以及建议。
  • 其他若干策略,这里不一一列出。
    2022 个人工作年度总结_第3张图片

1.3 极客日报社区

  • 对 “每天值得看”、“一周精选”、“月度精选” 榜单中上榜用户的评论进行回复,回复的内容是该用户可能感兴趣的问题。
    2022 个人工作年度总结_第4张图片

  • 对 “每日分享能手”、“一周铁粉增长”、“持续学习” 榜单中上榜用户的评论进行回复,主要是鼓励性质的回复。
    2022 个人工作年度总结_第5张图片

2. 热榜/个性化推荐

1.1 热榜

今年接手了热榜的数据推荐流,在文章的质量、文章的前沿性、行为分计算等多个维度进行了改进和优化,力求让真正“热”的文章上热榜。具体的更新内容请参见这篇文章。

1.2 个性化推荐

个性化推荐流是年底才接手的,所以改进点有限,具体更新内容如下,主要为了提升推荐流数据的质量:

  • 过滤掉低质量分、标题党、软文、封面违规的博客数据;
  • 过滤掉禁言用户、培训个人/培训机构/机器人/测试账号用户对应的数据。

3. 技能树

技能树的基本框架和流程在2021年已经完成,2022年主要对技能树的内容和功能进行升级,具体如下:

  • 负责 12 棵技能树的上线工作,其中技能树的习题和结构由专家用户提供,我主要负责上线、参考资料、课程资料等的支持,包括:neo4j 技能树、云原生技能树、网络技能树、CUDA入门技能树、Vue入门技能树、MySQL入门技能树、MySQL进阶技能树、小程序技能树、Go技能树、Git技能树、Markdown技能树、Linux技能树。
    2022 个人工作年度总结_第6张图片

  • 新增职业路线
    2022 个人工作年度总结_第7张图片

  • 新增技能树相关榜单。
    2022 个人工作年度总结_第8张图片

  • 练习题选项差异比对,使用户更便捷地找出选项之间的差异。
    2022 个人工作年度总结_第9张图片

  • 新增【速查手册】频道,并整理与发布了12个高质量速查手册帖子;
    2022 个人工作年度总结_第10张图片

  • 新增技能树收费功能。

  • 技能树知识点的【付费专栏】频道新增付费课程内容,覆盖率约75%;

  • 技能树企业微信机器人监控预警,每天定时对技能树的一些异常进行报警,保证能够及时对异常问题进行修复。

  • CSDN编程比赛 题目数据流接入并适配技能树管道,使用技能树的更新逻辑对比赛题目数据进行更新。

  • 技能树参考资料的优化。

  • 技能树匹配接口的优化(博客、问答)。

4. 机器学历分类

用户的学历类别是用户画像中用户的一个重要特征,基于该特征可以更好地服务用户,例如:推荐合适的内容给用户等。当前的学历类别主要分为以下8个类别:大学前、大一、大二、大三、大四、研究生、工作(三年内)、工作(三年以上)

分类的具体实施流程如下:

  • 构建机器学历分类模型,并进行多轮优化,效果acc提升:59.63% --> 76.48%。在限制置信度阈值为60时,acc可达85.50%;
  • 共清洗2670万有效用户,其中半年内活跃用户覆盖率达99%以上;
  • 拉通机器学历增量数据清洗管道,每天定时清洗增量用户。

5. 博客难度等级分类

CSDN 每天都会产生数以万计的博客数据,但是这些数据没有难度等级的体系结构,这种体系结构在 个性化推荐、用户画像、榜单 等业务上都有很大的作用和价值。具体细节可参见这篇博客

6. 其他工作

  • 博客摘要优化与上线
    2022 个人工作年度总结_第11张图片

  • 质量分统一接口上线(博客、问答、文库、学院、社区)

  • 全站统一标签的入库与自动化更新,标签相关的接口

  • 文库摘要 (规则+TextRank)、文库标题生成 (PreSumm+规则)

7. 总结

2022年做了很多有意思的工作,主要分类3类:1) 有的上线了,效果达到预期,并且吸引了很多用户;2) 有的上线了,但是效果却没达到预期;3) 有的上线了,但是却没有实际落地。

2023年需要继续努力,针对上述的第 2) 点进行优化,针对第 3) 点分析原因为什么没有落地,改进后续的工作。此外,希望使用 AI 技术,做出更多有意思的功能和模块,提升 CSDN 内容的质量和用户体验。

最后,祝大家新年快乐,万事如意!

你可能感兴趣的:(Alex:,NLP在问答领域的落地与研究,人工智能,nlp,自然语言处理,经验分享)