iFlyAI

FlyAI资讯：强大如GPT-3，1750亿参数也搞不定中国话

摘要：2019 年，GPT-2 凭借将近 30 亿条参数的规模拿下来“最强 NLP 模型”的称号；2020 年，1750 亿条参数的 GPT-3 震撼发布，并同时在工业界与学术界掀起了各种争论。随着时间的推移，争论的焦点也发生了变化，人们逐渐 …

人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

2019 年，GPT-2 凭借将近 30 亿条参数的规模拿下来“最强 NLP 模型”的称号；2020 年，1750 亿条参数的 GPT-3 震撼发布，并同时在工业界与学术界掀起了各种争论。随着时间的推移，争论的焦点也发生了变化，人们逐渐发现：GPT-3 似乎不仅仅是“越来越大”这么简单。

GPT-3 不仅庞大，还很强大？
照例先放地址：https://github.com/openai/gpt-3

然后就要解答一个重要的问题：GPT-3 是什么？
按照官方介绍：GPT-3 是由人工智能研发公司 OpenAI 开发的一种用于文本生成的自然语言处理（NLP）模型。它的前作 GPT-2 曾被赋予“最强 NLP 模型”的称号，一个重要的原因就是 GPT-2 拥有着非常庞大的规模（见下注）。

注：OpenAI 已经于 2019 年发布了三种 GPT-2 模型：“小型的”1.24 亿参数模型（有 500MB 在磁盘上），“中型的”3.55 亿参数模型（有 1.5GB 在磁盘上），以及 7.74 亿参数模型（有 3GB 在磁盘上）。作为 GPT-2 分段发布中的最后一轮，2019 年 11 月，OpenAI 公开了完整 GPT-2 包含 15 亿条参数，其中包含用于检测 GPT-2 模型输出的全部代码及模型权重。

2020 年 5 月，GPT-3 的论文一经发表就引发了业内的轰动，因为这一版本的模型有着巨大的 1750 亿参数量。

熟悉人工智能的人应该知道，AI 三要素是：算力、算法、数据。在前两者基本固定的情况下，数据量的大小对 AI 模型的效果会起到非常关键的作用，GPT-3 如此庞大的规模能够带来的影响不言而喻。

为了对 GPT-3 有更进一步的了解，InfoQ 采访到了来自小米公司负责开放域对话和生成类任务的技术专家魏晨，作为对 GPT 有过实际应用的技术人，她也研究了 GPT-3 与 GPT-2 相比的一些主要变化：

两者模型和结构是相同的，包括修改的初始化 (modified initialization)，预规范化 (pre-normalization) 和可逆记号化 (reversible tokenization)。不同之处在于，在 transformer 各层中使用了交替稠密（alternating dense）且局部带状稀疏注意力（locally banded sparse attention）模式，类似于 Spare Transformer。GPT-3 模型不仅超级大，且在超大数据集上进行了训练 (45TB，过滤筛选后大约 570GB)。这些使得 GPT-3 可以很好地做其他模型无法做的事情：执行特定任务而无需任何特殊调整，可以做翻译，写程序，作诗，写文章，仅需要提供极少 / 几个的训练样本。

有了 pre-train 的 GPT-3 模型，应用到下游 NLP 任务时，无需执行微调步骤，基本无需训练样本就可以执行自定义自然语言任务。而其他的语言模型 (BERT) 需要精巧的微调步骤，需要准备几千个或者几万个训练数据。

GPT-3 不包含主要的新技术，它基本上是去年 GPT-2 的放大版本，而 GPT-2 本身就是使用深度学习的其他语言模型的大号版本。所有这些都是在文本上训练的巨大人工神经网络，用于预测序列中的下一个单词可能是什么。GPT-3 只是更大：更大 100 倍（96 层和 1,750 亿个参数），并且接受了更多数据的训练（CommonCrawl，一个包含大量 Internet 的数据库，以及一个庞大的图书库和所有 Wikipedia）。

论文中对比了 42 个评估准确率的 benchmarks，模型大小和模型表现的对比：

零样本学习 (zero shot) 模型效果和模型表现提升稳定；小样本学习 (few shot) 模型表现提升较快些。

横轴体现了模型效果与模型大小的幂律分布：GPT2 大约是 1.5B, GPT-3 是 175B。前者在大多数任务上准确率只有 20% 左右，而后者接近 60%。

支持的任务广泛，且旨在测试快速适应不太可能直接包含在训练集中的任务的几个新任务。对于每项任务，论文在“ 零样本学习” (zero-shot learning)，“ 单样本学习” (one-shot learning) 和“ 小样本学习” (few-shot learning) 的条件下进行评估，效果有惊喜。

魏晨本人对 GPT-3 的评价是， GPT-3 模型从看上去更加接近“通用人工智能”(AGI) ，可以动态学习，处理多种不同的任务，只需少量的标注数据。详细来说：

GPT-3 支持多模态交互 (输入 / 输出可以是人类语言 / 图像 / 计算机语言 / 表格等)；

能够处理多种不同的任务 (改语法错误 / 写文章 / 聊天 / 算数 / 答题 / 翻译等)， 1. 支持的任务更加广泛；

可以“动态”的“学习”(零样本 / 单样本 / 小样本学习，给 0/1/ 几个样例就可以处理“新”任务)；

显示语言模型的表现随模型大小，数据集大小和计算量而变化；

经过足够数据训练的语言模型可以解决从未遇到过的 NLP 任务，GPT-3 将作为许多下游任务的通用解决方案，而无需进行微调；

尽管通过增加模型容量可以明显提高性能，但是不清楚引擎里面发生了什么，即该模型是否已经学会推理，还是以更智能的方式记住训练示例。

另一位接受 InfoQ 采访的专家——来自百分点的首席算法科学家苏海波告诉记者， GPT-3 与 GPT-2 相比，模型结构没什么变化，都是基于 Transformer 的 Decoder 模型以及使用单向语言模型训练方式，但是训练数据量和模型规模差异很大。并且 GPT-3 主要聚焦于更通用的 NLP 模型，它的文本生成能力会比 GPT-2 明显要强，可以应用的场景也挺多，包括写文章、翻译、问答、编程、数学推理、做财务报表等，而且这些场景都是一个由通用的模型来实现的。

此外，他这样评价 GPT-3：
从技术的角度来说，GPT-3 的技术思路是大力出奇迹，本身算法上没有什么创新，但是在工程实现上，要实现这么大规模数据量的分布式训练，以及获得这么大尺寸的模型，还是很有技术含量的。

从商业价值的角度而言，GPT-3 目前更多处于宣传阶段，还没有通过实际商业化场景的考验，因此谈不上颠覆性的进步，需要进一步证明。
总而言之一句话：GPT-3 规模确实庞大，但是并不包含太多新技术，目前处在宣传期的 GPT-3 让人感觉其功能强大，但实际情况仍需要不断地实践以证真伪。

“完美”的 NLP 解决方案并不存在
魏晨在采访中表示，GPT-3 虽然是 OpenAI 有史以来较大的语言模型，有 96 层 Transformer Decoder 和 1750 亿个参数 (这里提供一组参数对比：ELMO 9400 万；BERT 3.4 亿；GPT-2 初版 1.1 亿；GPT-2 15.42 亿；GPT-3 1750 亿)，但是规模大也就意味着训练时间和费用也会增长，GPT-3 就需要 355 年的 GPU 时间和至少 460 万美元的训练费用。

此外，GPT-3 短期内比较难支持在线使用，无论是从效率还是可控性的角度；如果只支持离线使用 (with API access)，那么需要考虑下方式方法。GPT-3 的模型结构和算法以及如何提升预训练样本的效率，都仍有提升的空间；对于语境学习 / 常识知识以及指代关系丢失等问题，仍有待提高。
在实际效果层面，尽管 GPT-3 只需很少的信息即可执行新任务的能力令人印象深刻，但在大多数任务上，它离人类水平还很远。甚至在许多任务上，它的表现都无法超过较佳的微调模型。

苏海波也同样认为， GPT-3 的生成表现只是海量文本大数据训练的结果，无法超越文本数据本身，本质上还是一个语言模型，没有通过图灵测试，它和人类的思维能力相比，还是有明显差距的，不具备人类推理的能力，例如处理一些基本的常识和简单的数学推理方面都存在着明显的失误。

不过，魏晨介绍说，GPT-3 的能力在某些任务上的扩展性比其他任务好。例如，在自然语言推理任务中，确定一条语句与一段文字的关系矛盾还是蕴含非常有挑战：这可能是因为很难使模型在较短的上下文窗口中理解该任务（模型需要完成某个任务，并且理解被询问的信息是什么），但是 GPT-3 得益于其自身庞大的数据优势，可以很好地处理这一问题。

与所有深度学习系统一样， GPT-3 也在寻找数据模式。为简化起见，该程序已针对庞大的文本集进行了训练，并根据统计规律进行了挖掘。这些规则对于人类来说是未知的，但是它们被存储为 GPT-3 神经网络中数十亿个加权连接的不同节点之间。重要的是，此过程无需人工干预：该程序无需任何指导即可查找和查找模式，然后将其用于完成文本提示。比如，在 GPT-3 中输入“ fire”一词，程序会根据其网络中的权重知道，“ truck”和“ alarm”一词比“ lucid”或“ elvish”更有可能在“fire”之后出现。

最后，也是目前几乎绝大部分 NLP 模型都存在的问题，即在错误的提示下，可能会得到种族 / 性别歧视的输出结果。

两个月前，GPT-3 发布后不久，一位号称 GPT 系列的铁粉就在个人博客中列举了 GPT-3 令人失望的地方，他的核心观点跟魏晨类似，主要集中在“参数越来越大但一些实际问题仍然得不到解决”等方面。

中文难题，即使强如 GPT-3 也无解？
有人提出问题：GPT-3 再强大，也是英文环境下的强大，面对复杂的中文，GPT-3 还能保持一贯的水准吗？

仅需几个示例，即可解决语言和语法难题，这表明 GPT-3 已在无需任何特殊训练的情况下成功掌握了某些深层的语言规则。正如计算机科学教授 Yoav Goldberg 在 Twitter 上分享的那样，这种功能对于 AI 来说是“新奇的和令人兴奋的”，但这并不意味着 GPT-3 具有“精通”的语言。

魏晨说，在 NLP 任务中，中文语言是很有挑战的。与英文不同，中文需要进行分词，而英文就是天然单词；其次中文的歧义性很强，比如说“喜欢上 / 一个人”，”喜欢 / 上一个 / 人“，”喜欢上 / 一个 / 人“，这些都表达了不同的意思。

GPT 系列语言模型是单项语言模型，用户提供上文，模型可以递归自动生成下文，语言模型天生可以用于自然语言生成的任务。但是对于一系列的自然语言理解 (NLU) 的任务表现则有待确认，魏晨表示，目前一种猜想是将示例和说明作为附加的输入，并使用特定标记将示例和结果分隔开，然后输入模型进行生成。

另外，从 PLM 开始，不少研究就发现很多模型很擅长生成看起来“很符合语言结构特性”但实际并不存在的“词”或者“词组”，GPT-3 应该也难逃这个问题。所以哪怕是输入进了额外的说明信息，也依然可能生成出乍一眼看很像那么回事，但实际不知所云的东西（比如营销号生成器等）。魏晨觉得可能依然需要一些 multi-task 的任务来辅助约束 PLM 模型进行 NLU 理解人物，学习到它应该具备的推理等能力。

而从成本方面来说，苏海波告诉记者，GPT-3 的预训练使用数千亿词（45TB 数据）进行训练，拥有 1750 亿个参数，所需要的算力资源和付出的代价实在太大，为此，Microsoft 和 OpenAI 合力开发了一款超级计算机，专门用于 GPT-3 模型训练，这款计算机拥有超过 285000 个 CPU 内核、10000 个 GPU 和 400Gbps 的网络连接，光是训练费用就高达 460 万美元。

因此，苏海波认为：“ GPT-3 能产生的直接商业价值是否能弥补训练模型消耗的巨大投入，存在很大的未知和不确定性，还没有看到哪一家国内公司和研究机构明确要去实现中文版的 GPT-3。”

他进一步补充道，GPT-3 的目标是做一个通用的语言模型，用更少的领域数据、且不经过精调步骤去解决问题。如果存在中文的 GPT-3 模型，对于标注数据量不足的中文 NLP 场景，GPT-3 有一定的效果改善作用，但是投入产出性价比有待商榷，同时，苏海波还说：“GPT-3 能够带来一定的作用，对标注数据量的依赖会变得更少，但是从投入产出比上而言，我们有比 GPT-3 代价低得多的办法。”

用 AI 来编写代码… 真的能行吗？
分析过 GPT-3 的种种优势与短板后，现在该来聊一聊很多开发者都比较关心的问题了——GPT-3 会不会让一部分程序员“丢了饭碗”？

这个话题的起因是这样的，在陆续取得使用资格后，一些研发组织、公司或者个人开发者搞起来 GPT-3 的各种 demo：

公式生成器：只需要输入文本就可以生成对应的数学公式。

代码生成器：输入文本，如：“生成一个像西瓜的按钮”，即可生成对应的代码及效果。

虽然有些 demo 目前还有些粗糙，但也足以看出 GPT-3 的能力是不容小觑的。作为出品方的 OpenAI 也在官网上放出了一些体验项目，比如常见的聊天机器人、智能客服等等，还有 AI 自动生成的文字闯关游戏，感兴趣的读者也可以在这里体验：https://beta.openai.com/

在这些 demo 当中，各种代码生成工具引发了不小的讨论，除了上面说的简单生成一个按钮之外，GPT-3 还可以完整生成一整个页面及代码：

通过文字描述生成一个谷歌搜索界面
于是就有了一些声音认为，随着 GPT-3 这样强大的模型出现，一部分程序员的工作是可以交给 AI 来处理的；当然反对的声音也很大，认为前一种想法不切实际，AI 目前仍然没有替代人类的能力。

有意思的是，随着全球对 GPT-3 话题讨论热度的攀升，就连 OpenAI 联合创始人 Sam Altman 都站出来表示：“ （网络上的）这类说法过分夸大了 GPT-3 的能力。”

我们也就这一话题请两位专家谈了谈自己的看法，来自小米的魏晨说：
首先，技术的发展进步令人兴奋，但是看问题仍然要回归到理性。这些都是精心挑选的示例，更多只显示有效的结果，而忽略无效的结果。这意味着 GPT-3 的能力总体上比其细节更令人印象深刻。但是 GPT-3 也会出现简单的错误。也许我们可以检验比较一下 GPT、GPT-2 和 GPT-3 的低级错误率，看它们是否真正在避免低级错误（从一个角度讲，掌握基础知识）上有更多的进步。

她补充道，尽管 GPT-3 确实可以编写代码，但很难判断其总体用途。比如，如何判断是整洁可执行的还是一般的代码？这样的代码上线后会不会给人类开发人员带来更多问题？没有详细的测试，这一切都很难说，即使是人类程序员也会犯错误。

其次，魏晨认为很难权衡这些错误的重要性和普遍性。如何判断几乎可以问任何问题的程序的准确性？如何创建 GPT-3 的“知识”的系统地图，然后如何对其进行标记？尽管 GPT-3 经常会出错，但有意思的是，通常可以通过微调所输入的文本（即提示）来解决这些问题。

在一个示例错误中，用户询问 GPT-3：“哪个更重，一个烤面包机或一支铅笔？”它回答说：“铅笔比烤面包机重。”学者 Branwen 指出，如果在问这个问题之前给机器喂食某些提示，告诉它水壶比猫重，海洋比尘土重，它会给出正确的响应。这可能是一个棘手的过程，但是它表明 GPT-3 有能力学习到正确的答案。

对于这类生成代码的 demo，苏海波则表示：“ GPT-3 对某些编程开发工作能够有一定的辅助作用，但完全替代是很困难的。”他认为，目前这些通过输入文字直接生成代码的演示，对于一些逻辑很简单的代码，例如前端开发中的标准化组件生成代码，容易通过文字来描述的，可以采用 GPT-3 来实现，但是逻辑稍微复杂一些的后端开发代码，不好用文字来描述的，就难以通过 GPT-3 来实现了，例如现有的 NLP 产品或者项目的代码开发工作，是很难通过 GPT-3 来替代的。

结语
通过对 GPT-3 的介绍、优缺点分析以及生成代码实践的解析，相信读者对于 GPT-3 的情况已经有了一些了解，最后总结一下两位老师回答的重点：

GPT-3 参数庞大（约 1750 亿参数），能力较之前确实有所提升，但是宣传效果有夸张成分；
受参数大小影响，GPT-3 并不是一款性价比很高的模型，训练成本较高；
中文 GPT-3 的实践尚未出现；
GPT-3 确实可以通过文字输入生成代码，但是仅限于比较简单的情况；
离 AI 真正替代程序员工作，还有较长的路要走。

是的，GPT-3 很庞大，但是离“翻天覆地”似乎仍有一段距离，但不可否认的是，它仍然是自然语言处理甚至人工智能发展史上重要的里程碑。正如那句行业“金句”所说：“ 新技术总是在质疑中成长 ”，真正有价值的技术会最终会被认可，相信随着全行业愈发理性地看待 AI 技术的进步，如深度学习一样颠覆性的技术在不久的将来就会出现。
更多关于人工智能的文章，敬请访问：FlyAI-AI竞赛服务平台学习圈学习；同时FlyAI欢迎广大算法工程师在平台发文，获得更多原创奖励。此外，FlyAI竞赛平台提供大量数据型赛题供学习党和竞赛党参与，免费GPU试用，更多大赛经验分享；如有任何疑问可添加下方微信服务号（FlyAI小助手）进行咨询。

更多福利可添加“FlyAI小助手”获取~

目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
Lua自带库心前阳光 Lua lua
时间系统时间print(os.time())时间转换print(os.time({year=2021,month=10,day=19}))当前时间os.date("*t")fork,vinpairs(os.date("*t"))doprint(k,v)end数学绝对值print(math.abs(-11))弧度转角度print(math.deg(math.pi))三角函数print(math.co
201.HarmonyOS NEXT系列教程之图案锁生命周期管理详解
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁生命周期管理详解效果预览1.生命周期概述@ComponentexportstructPatternLockMainPage{//组件初始化privatepatternLockController:PatternLockC
html脚本语言有哪些,常见的脚本语言(有哪些) 神神九十九 html脚本语言有哪些
常见的脚本语言脚本言语：脚本言语又被称为扩建的言语，或者动态言语，是一种编程言语，用bai来操控软件应用程序，脚本通常以文本(如ASCII)保存，只在被调用时进行解说或编译。言语分类：Shell脚本：此类脚本用于自动化工作操控，即发动和操控体系程序的行为。大多的脚本言语解说器也一起是命令行界面，如Unixshell和MS-DOSCOMMAND.COM。其他如AppleScript，可以为体系添加脚
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
复试英语面试常见问题整理自用，考研复试英语问题汇总旅人_Eric 面试职场和发展复试
更多复试资料获取方式在文末，个人整理，完全免费！更多复试资料获取方式在文末，个人整理，完全免费！Whydidyouchooseouruniversity?Firstly,itprovideshigh-qualitycomputer-relatedknowledgeandagoodacademicatmosphere.Secondly,IthinkChangshaisabeautifulcityan
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
使用AirtableLoader轻松加载数据到Python bavDHAUO python 开发语言
在现代软件开发中，数据的管理与使用非常关键。Airtable作为一种灵活的数据库应用，提供了简便且强大的数据处理方式。而通过使用AirtableLoader这种工具，可以轻松地将Airtable中的数据加载到Python项目中进行处理。技术背景介绍Airtable是一款集电子表格和数据库功能于一体的工具，它以其简单易用、强大的扩展性而受到众多开发者的喜爱。AirtableLoader是一个文档加载
燃爆！程序员如何借助 AI 大模型冲破编程效率枷锁？（以DeepSeek，ChatGPT为例）羑悻的小杀马特. AI学习 chatgpt deepseek AI大模型开发语言
AI大模型已成为程序员提升效率的有力助手。本文聚焦DeepSeek和ChatGPT，探讨程序员如何借其冲破编程效率枷锁。在代码编写阶段，它们能快速生成基础框架、实现特定功能及复杂算法代码；调试时，精准分析错误并给出优化建议；文档生成方面，为函数、类及项目文档助力。程序员需掌握高效交互技巧，结合自身经验，合理利用AI大模型，全面提升编程效率，开启高效编程新境界。目录一·本篇背景：二、AI大模型简介2
lua常用的库(time/math/package) @M_J_Y@ lua lua 开发语言
lua常用的库time/math/packagelua常用的库(time/math/package)lua常用的库(time/math/package)print(os.time())print(os.time({year=2014,month=8,day=7}))--当前时间localnowTime=os.date("*t")fork,vinpairs(nowTime)doprint(k,v)e
使用Yeager.ai轻松构建LangChain工具和代理 qahaj 人工智能 langchain python
技术背景介绍在现代AI开发框架中，如何快速构建、测试和部署AI解决方案是一个重要的课题。Yeager.ai为此提供了一个完整的生态系统，旨在简化AI智能体和工具的创建过程。它的核心组件yAgents是一个无代码的LangChain代理构建器，能够让用户轻松地集成各种语言模型和资源，非常适合开发者、研究人员和AI爱好者在不同应用场景中使用。核心原理解析Yeager.ai利用LangChain框架，通
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Ruoyi报‘com.ruoyi.system.api.RemoteLogService‘ that could not be found. 堕落年代 SpringCloud Springboot spring cloud spring boot
解释这个因为在引包的时候有些包的配置没有导入进去，想要解决这个问题最简单的方式就是注释掉这个的包的导入。解决方法报错***************************APPLICATIONFAILEDTOSTART***************************Description:FieldremoteLogServiceincom.ruoyi.common.log.service.
基于跳表实现的轻量级KV存储引擎项目总结码云笔记后端 KV存储
项目介绍KV存储引擎众所周知，非关系型数据库redis，以及levedb，rockdb其核心存储引擎的数据结构就是跳表。本项目就是基于跳表实现的轻量级键值型存储引擎，使用C++实现。插入数据、删除数据、查询数据、数据展示、数据落盘、文件加载数据，以及数据库大小显示。在随机写读情况下，该项目每秒可处理啊请求数（QPS）:24.39w，每秒可处理读请求数（QPS）:18.41w项目存储文件main.c
vggt 3d重建相机位姿，新视角生成 AI算法网奇 3D视觉人工智能深度学习
vggt动态追踪实时重建https://github.com/facebookresearch/vggtimporttorchfromvggt.models.vggtimportVGGTfromvggt.utils.load_fnimportload_and_preprocess_imagesdevice="cuda"iftorch.cuda.is_available()else"cpu"dtyp
如何使用Langchain加载AZLyrics网页到可用文档格式 dgay_hua langchain python
##技术背景介绍在处理歌词数据时，尤其是从网页上获取歌词文本内容，用于自然语言处理或文本分析是常见的需求。AZLyrics是一个提供歌词的主要平台，为我们提供了大量的歌词数据。如果我们可以将这些网页内容自动加载到结构化的文档格式中，将极大地提升我们处理和分析歌词的效率。##核心原理解析Langchain提供了一种简单的方式来将网页内容转换为可用的文档格式。通过使用其文档加载器（DocumentLo
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
WebRTC建立Description的通信的实际的原理堕落年代 vue 杂论 webrtc 网络
一、正确流程的核心逻辑//发送端正确代码示例constsenderPC=newRTCPeerConnection();//生成Offer时立即开始收集候选✅senderPC.createOffer().then(offer=>{awaitsenderPC.setLocalDescription(offer);//触发icecandidate事件sendToReceiver(offer);});//
华为云计算产品系列 | 云上迁移工具RainBow实战详解降世神童云计算技术专栏华为华为云云计算
华为云计算产品系列|云上迁移工具RainBow实战详解1.迁移方案2.迁移流程3.迁移实验3.1.Windows系统迁移3.2.Linux系统迁移3.3.存储层迁移1.迁移方案 RainBow可以将物理机或者虚拟机上的业务迁移到华为的虚拟化平台和私有云平台（6.5.1以上支持），还可以实现低版本私有云迁移到高版本私有云。 Rainbow是华为自研迁移工具，支持X86架构下主流的Linux、Wi
链接-简介 zhubo_1117 深入理解计算机系统
链接是将代码和数据合成一个文件的一个过程，生成的文件可以直接拷贝到存储器中并且执行。链接可以在程序编译时，加载时，甚至运行时执行。1.编译器的驱动程序编译器系统中包含编译驱动程序，驱动程序主要包含：预处理器，编译器，汇编器和连接器。处理过程如下：预处理器编译器汇编器main.c------------------>main.i----------------------->main.s------
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用 Airbyte Typeform 加载器进行数据文档化 shuoac python
在数据集成的世界中，Airbyte是一个非常强大的平台，它为我们的ETL管道提供了从API、数据库和文件到数据仓库和湖泊的连接器。但是，随着技术的快速发展，某些工具和方法可能会被弃用，例如AirbyteTypeform加载器。不过这并不意味着不能使用其他更好的解决方案。因此，这篇文章就带大家一起了解如何使用Airbyte原生支持的加载器来处理Typeform的数据文档化。技术背景介绍Airbyte
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
协议层攻防战：群联AI云防护为何比传统方案更精准？群联云防护小杜安全问题汇总人工智能 tcp/ip 网络协议网络安全
一、四层/七层攻击防御的核心挑战协议层攻击类型传统方案缺陷四层SYNFlood、UDP反射依赖硬件清洗，误封合法流量七层HTTPCC、SQL注入规则静态，无法适应新型攻击二、群联的协议层定制防御技术1.四层协议防护：智能动态指纹技术原理：基于AI分析TCP/UDP流量特征，动态生成协议指纹库，识别伪造源IP的畸形包。文档引用：“防护模块灵活，支持定制版防护模块，适用于非网站业务”。配置示例：#动态
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

FlyAI资讯：强大如GPT-3，1750亿参数也搞不定中国话

你可能感兴趣的:(人工智能竞赛,自然语言处理,AI竞赛,gpt,自然语言处理,机器学习,深度学习)