CSDN-AI小组2023-半年-研发总结

目录

    • 1.丐版「大模型」,Proof of concept
    • 2. LLM和AIGC的各种综述
    • 3. 基于Embedding的应用,问答,AI编程
    • 4. 评论区的AI助手
    • 5. 结合AIGC的各种数据自动计算
    • 6. 个性化推荐的系统重构
    • 7. 基于AIGC的个性化博客创作鼓励
    • 8. 博客质量分V5: 可解释性计算服务
    • 9. CSDN统一标签的持续改进
    • 小结

时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。

1.丐版「大模型」,Proof of concept

我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。

我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。

ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn

  • 主要是在RWKV提供的1.5B参数的基础之上,使用CSDN的问答数据和博客数据进行增量预训练,经过指令微调,得到拥有IT行业知识体系的大语言模型。
  • 原始模型参数地址:https://huggingface.co/BlinkDL/rwkv-4-pile-1b5
  • 微调后的模型参数地址:https://huggingface.co/zxm2023/ChatCSDN

在这个基础上,团队有对应的原理和工程实践的博客介绍:

  • 介绍博客地址:https://blog.csdn.net/zxm2015/article/details/130227450
  • 人类反馈强化学习 (RLHF) 博客:https://blog.csdn.net/u010280923/article/details/130283628

从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。

2. LLM和AIGC的各种综述

CSDN-AI小组2023-半年-研发总结_第1张图片

以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:

  • 10分钟了解向量数据库
    • 事实上,我们在应用里已经有很多该技术的实战应用。
  • 关于 ChatGPT 必看的 10 篇论文
  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
  • NLP 中语言表示 (向量化) 的基本原理和历史演变综述
  • LLaMA及其子孙模型概述
  • 用LangChain实现一个ChatBlog

3. 基于Embedding的应用,问答,AI编程

实际做AIGC的应用,有两个典型的用途:

  • 回答技术问题
  • AI编程

其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下

CSDN-AI小组2023-半年-研发总结_第2张图片

其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.

这里有问答机器人研发介绍

而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。

4. 评论区的AI助手

如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:

  • CSDN 社区(bbs.csdn.net) 评论区支持 @ada 的会员权益功能。
  • CSDN 问答(ask.csdn.net) 回答区支持 @ada 的会员权益功能。

对于@ada 机器人的能力是经过仔细思考的:

  1. 你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.

  2. 解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。

  3. 好的问题,公开解决,可以帮助更多人。

有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。

5. 结合AIGC的各种数据自动计算

技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。

  1. AI前沿社区
  2. 博客之星2023社区
  3. 用户的认可页面
  4. 将社区里,是“问题类型”的帖子,通过分类器识别后,分类出来并同步到问答。同时社区也支持一个「有问题」列表:
    CSDN-AI小组2023-半年-研发总结_第3张图片

6. 个性化推荐的系统重构

个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:

  • [1] 《如何支持研发对CSDN个性化推荐系统重构》
  • [2] 《CSDN个性化推荐系统的设计和演化
  • [3] 《CSDN 个性化推荐的数据治理
  • [4] 《CSDN个性化推荐系统-负反馈测试

CSDN-AI小组2023-半年-研发总结_第4张图片

正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。

7. 基于AIGC的个性化博客创作鼓励

AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念

  • 工作3年内博主写作的红包评论鼓励,结合AIGC自动摘要和写作建议。
  • 新人博客前10-20篇博客的AIGC鼓励评论和建议。
  • 资深老博主的AIGC鼓励和建议。

让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。

8. 博客质量分V5: 可解释性计算服务

我们对博客质量分做了一系列的内部分析和实验,包含了:

  • 影响博客质量分的因子的消融指标矩阵分析
  • 影响博客质量分区间分布迁移的小规模和大规模试验分析

通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。

我们的同事对此会有独立博客介绍: 博客质量分计算——发布 version 5

CSDN-AI小组2023-半年-研发总结_第5张图片

9. CSDN统一标签的持续改进

当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:

  • 能保持最新
  • 准确性靠谱

作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。

小结

实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!

CSDN-AI小组2023-半年-研发总结_第6张图片

–end–

你可能感兴趣的:(NLP,In,Action,人工智能)