时隔6个月,做为一个技术站点的AI团队,我们能做些什么?大模型和AIGC如火如荼,这就是所有做技术的人等待的技术浪潮。不过这个技术浪潮对于一个小团队来说意味着什么,则是需要冷静的思考。我们看下我们做了哪些动作,解决了哪些问题。
我们很快意识到,生成式AI已经彻底崛起。作为AI团队,整个技术栈上需要扭转过来,只有掌握技术的原理,才能更好的使用技术。大模型从一开始就是大厂的战场,但是所有做AI研发的,都应该在原理上对其有深刻的一手理解才能立于不败之地。
我们用非常小的成本,挑选了RWKV模型做为基模型,验证了构建垂直大模型的主要技术栈并开源。
ChatCSDN基于RWKV1.5B基模型: https://gitcode.net/csdn/ai/chatcsdn
在这个基础上,团队有对应的原理和工程实践的博客介绍:
从应用的角度。在实际验证了主要技术栈之后,我们就打破了对大模型的迷思。当有新的开源模型的时候,我们也能第一时间对其做评估和验证。符合条件的模型,则可以在被动式AI应用里做集成使用。
以应用为目标是AI团队的目标。但是在这个基础上,技术平台本身就应该能提供最前沿的技术博客。我们针对性的做了一组综述,包含这些博客:
实际做AIGC的应用,有两个典型的用途:
其中,基于Embedding的技术是其中的一个重要的模式。大概的示意图如下
其中,在CSDN问答上,我们做了许多不断改进的迭代,问答机器人在问答周采纳榜单上稳定进入前3.
这里有问答机器人研发介绍
而,AI编程,则在 https://inscode.csdn.net 上有很系统的集成。AI编程事实上已经改变了未来编程的基本粒度。机器做的更多,人的精力会被更多地解放出来。
如何做基于AIGC的产品功能,则是一个重要的课题。经过思考后的一个设计是:在离用户需求最近的地方支持AI,包含:
对于@ada 机器人的能力是经过仔细思考的:
你自己可能不知道哪里是关键「问题」例如你仔细观察 https://bbs.csdn.net/topics/615834933,提问者自己是不知道「问题在哪」,而我「懒得打字」(GPT帮我打即可,但是我知道「问题在哪」),我的价值在于,我知道「问题在哪」。从前,答者重“答”,未来,答者重“另一个问”.
解决问题需要「多人」讨论,包括human1, human2, 中间可以夹杂ai1, ai2,AI的加持,人与人的讨论更能聊的下去。
好的问题,公开解决,可以帮助更多人。
有了这个功能,如果你希望在私密的地方使用生成式AI学习,也可以在个人的私密社区的评论区里使用。希望这个功能你会喜欢。
技术站点可以做各种榜单。但是在AIGC时代,可以做的更好。我们在结合传统自动化大数据处理+部分AIGC的能力,不断迭代各种推送榜单。
个性化推荐对于内容社区起着举足轻重的作用。对此我们有一系列的研发博客介绍:
正确反馈的系统,才能有真实的数据,才能解决繁杂的用户和平台需求。
AIGC时代,我们可以为每个人做个性化的写作鼓励。每个用户写博客,无论是写笔记(学),还是写专栏(教)。都希望获得正向反馈。为此,我们通过一些列的实验为所有的技术写作者服务,这确实体现了成就一亿技术人的理念。
让所有人都自动地获得AIGC的服务,为技术写作者服务,你的技术写作再也不孤单。AIGC评论只是一个催化剂,让博主们更流畅的互相交流,通过写作获得成长是其核心目标。
我们对博客质量分做了一系列的内部分析和实验,包含了:
通过这些分析,我们改进了博客质量分的计算,近期推出了博客质量分V5,V5版本在解决博客质量可计算方面的能力基础上,进一步增加了可解释性,让博主们能在机器自动辅助建议的基础上持续获得写作质量的提升,这也是平台生态长期良性发展的基石。
我们的同事对此会有独立博客介绍: 博客质量分计算——发布 version 5
当然,我们在技术内容分类器上的传统强项也在持续改进。CSDN的技术分类:
作为一个技术站点,全的新的技术分类体系和准确性,是打底的能力。
实际做的工作远不止这些,有重大技术突破的时代,是一个最好的时代,希望大家都能走的更远,创造更多好的技术和产品。Be greater than average! 希望能有这个勋章!
–end–