一个处女座的程序猿

AI：2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大

AI：2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大型语言模型:从幂律到稀疏性》

导读：《工程化打造AI中的CPU》讲述了基础大模型在AI中的重要性体现在提供计算能力、对产业发展产生重大影响，以及决定后续模型的能力和合规性。 Aquila天鹰语言模型系列旨在打造中英文双语能力的大模型，并采用循环迭代的生产流水线。该系列包括基础模型和针对对话和代码生成进行微调训练的模型。评测对大模型的重要性体现在高昂的训练成本和能力复杂性。FlagEval作为评测体系提供能力-任务-指标三维评测，并辅助模型训练。构建迭代基础大模型的持续生产线是一个周期性发展的路线图，通过不断创新和迭代满足产业需求。
《构建一个AI系统:在LLM上应用带有RLHF来推进定制》中讲述了LM（大型语言模型）在提高生产力和理解特定领域的语言和知识方面具有价值。构建实时AI系统是必要的，因为当前的AI无法完全取代人类，用户反馈对于不断改进至关重要。使用强化学习与人类反馈（RLHF）以及类似PPO的奖励模型对LLM进行训练至关重要。LLM的未来发展涉及将其能力从文本生成扩展到行动自动化，例如自动发送电子邮件和更新日历。
《多模态预训练的进展回顾与展望》中讲述了自监督学习得到大规模发展，大模型不断涌现，但多数模型仍限于单模态。框架主要是基于Transformer，采用自监督学习预训练，然后微调到下游任务。未来需要更多的数据集、更高效的模型结构、更好的自监督策略，以及更多创新下游应用。大模型仍然有很多未解决的问题需要研究。多模态大模型能实现不同模态之间的知识共享和协同，近似类人感知，有助于构建通用人工智能。基于自监督学习的大模型有望突破瓶颈，成为通用人工智能的重要途径。通过预训练模型和微调任务实现多模态融合理解与生成，包括模态内掩码学习、模态间掩码学习和模态间匹配学习。未来需要构建大规模高质量的预训练数据、设计高效计算的大模型网络结构、适合多模态关联建模的自监督学习方法，以及提升预训练模型的下游应用与迁移能力。
《扩展大型语言模型:从幂律到稀疏性》中讲述了LLM（Large Language Model）扩展使用MoE技术，通过分布、正则化和扩展来适应新数据分布。摩尔定律的终结限制了芯片性能的提升，从而推动了对LLM扩展的需求。摩尔定律已经达到物理极限，无法持续提高芯片性能，LLM需要从简单的模型规模扩展转向更复杂的模型架构。T5通过将所有NLP任务定义为文本到文本转换的方式，达到统一框架且简单高效。MoE通过引入专家并采用高级技术如非均匀架构、终身学习等，成功实现LLM的规模扩展与性能提高。通过使用专门化分布的专家和无遗忘学习技术，可以抑制遗忘问题，使LLM在不同分布上具备良好的性能。
实际上，大模型要始于文字，但最后要高于文字。假如我有足够的资金，最想做的事是，特别想要10000张A100卡，去复现一下GPT-4。关于大模型要不要去做reasoning(数学题)，或者是说调用工具去解决？答案是必须的，这是一个基本盘，但是，数学推理是多步骤的问题，而不是简单的QA问题，终极答案还是需要预训练大模型的。在实际应用中，基于RLHF的企业用户获取数据质量是相对比较好，且性价比很高的。从某种角度来讲，自从ChatGPT诞生后，其实是颠覆了以前做的小模型。如果从GPT-4看未来多模态的方向和路径，至于是从头重训练的一个超大多模态模型(因为Transformer可以卷一切，包括NLP和CV)，还是只是基于LLMs的基础上采用MoE策略实现协同，如果猜测的话，GPT-4内部机制大概率上很有可能是后者。
备注：以上内容仅为个人解读与总结，欢迎大家留言建议与指正。

NLP：自然语言处理技术最强学习路线之NLP简介(岗位需求/必备技能)、早期/中期/近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装(更新中)

AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略

13:30-17:20《基础模型前沿技术》

13:30-13:35—论坛背景与嘉宾介绍刘知远

13:35-14:05—基础大模型(语言)——工程化打造AI中的“CPU”林咏华

打造基础大模型的重要性——为什么是AI中的“CPU"

基础模型已经成为AI大模型时代，单一“产品”投入最大的部分

基础模型很大程度决定了后续模型能力、产业落地等因素

Aquila天鹰语言模型系列——目标

Aquila天鹰语言模型系列总体介绍

Aquila天鹰语言模型预训练数据介绍

Aquila天鹰语言模型基础模型

Aquila天鹰语言模型SFT数据打造

指令微调数据集

SFT测试驱动数据迭代

重要指令添加

悟道·天鹰AquilaChat对话模型(7B+33B)

悟道·天鹰 AquilaCode-7B“文本-代码”生成模型

为什么评测十分重要

Aquila天鹰大模型的评测系统

FlagEval (天秤）大语言模型评测体系

FlagEval能力框架详解

FlagEval大模型评测辅助模型训练

基于九鼎平台的训练系统

只是起点——构建迭代基础大模型的持续“生产线”

悟道3.0∶深耕基础模型——大模型树

持续创新、持续迭代、持续产出

14:05-14:50—《Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization构建一个人工智能系统:在LLM上应用带有人类反馈的强化学习(RLHF)来推进定制》

Agenda

Why Do We Need LLMs

Building a Real-Time Al System

Necessities of a Real-time Al System.

Why do we need a real-time Al system.

客服实时系统案例应用

Reinforcement Learning with Human Feedback (RLHF)

InstructGPT，搭建实时系统可以获得高质量的数据集

Reward Model

PPO

The Future of LLMs

14:50-15:35—多模态预训练的进展回顾与展望刘静

多模态预训练的研究背景—为什么关注?

预训练大模型有望突破瓶颈

近年来各种大模型持续涌现

ChatGPT是什么？

ChatGPT以产品为导向,众多技术与成果的集大成者

大模型从单模态迈向多模态成为必然

多模态预训练的研究进展—当前怎么做?

多模态预训练需要解决什么问题?

预训练模型的核心思想

多模态预训练数据集

万级别强关联人工标注→百万/亿级别弱关联无标注

多模态预训练—基础模型Transformer

基于Transformer Encoder—理解任务

基于Transformer Decoder—生成任务

基于Encoder + Decoder—理解+生成

多模态预训练模型-自监督学习

多模态下游任务—模型微调

更大更强的多模态预训练模型

图文音三模态大模型-紫东太初

“紫东太初”大模型：多模态感知与交互

多模态对话实例

多模态关联分析实例

多模态描述实例

紫东太初大模型：多行业应用创新

多模态预训练的几点思考—以后怎么做?

几点思考

●大规模、高质量的预训练数据

●高效计算的大模型网络结构

●适合多模态关联建模的自监督学习

●预训练模型的下游应用与迁移能力

后ChatGPT时代人工智能科研方向

后ChatGPT时代的多模态大模型

15:35-16:20—《Scaling Large Language Models: From Power Law to Sparsity扩展大型语言模型:从幂律到稀疏性》周彦祺

LLM Scaling: From Power Law to Sparsity

Agenda议程

01 Moore's Law and Power Law 摩尔定律和幂律

The End of Moore's Law摩尔定律的终结

Power Law Rules Deep Learning幂律规则深度学习

Exploring the Limits of TransferLearning with a Unified Text-to-Text Transformer通过统一的文本到文本转换器探索迁移学习的极限

02 T5：Unified Text-to-Text Transformer T5：统一的文本到文本Transformer

Text-to-text Simply Works文本到文本的简单运作

C4 DatasetC4数据集

Experiment实验

Objective目标

Model Architectures模型架构

Comparing High Level Approaches for UnsupervisedObjectives对无监督目标的高级方法进行比较

What should you do with 4x compute?有了4倍的计算能力应该做什么？

Scalling Up 扩展

Hitting and End of Dense Model Scaling密集模型扩展的极限

03 Scaling LLM with MoE使用MoE扩展LLM

Hitting an End of Dense Model Scaling达到密集模型扩展的极限

Efficient Scaling of Language Models with MoE使用MoE进行高效扩展语言模型

GLaM Model Architecture GLaM模型架构

Few-shot Results Compared to GPT3与GPT3相比的少样本结果

Learning Efficiency Compared to GPT3与GPT3相比的学习效率

Token-Based MoE hasLimitations...基于标记的MoE有局限性...

MoE with Expert Choice Routing具有专家选择Routing的MoE

Expert Choice Gather专家选择聚合

Comparison with GLaM 与GLaM的比较

04 Advanced MoE techniques先进的MoE技术

MoE architectures aresuboptimal...MoE架构是次优的...

Brainformers: Trading Simplicity for Efficiency Brainformers：以效率换取简单性

How we derive the model search space?我们如何得出模型搜索空间？

Brainformer Search Brainformer搜索

Training Convergence Comparing to GLaM与GLaM相比的训练收敛速度

Fine-tuning and few-shot微调和少样本学习

LLM training isexpensive...LLM的训练成本高昂...

Motivation动机

Forgetting遗忘

Lifelong Language Pretraining with Distribution-specialized Experts使用专门化分布的专家进行终身语言预训练

Lifelong Pretraining on MoE：Distribution 、Regularization、Expansion MoE上的终身预训练：分布、正则化、扩展

Lifelong Pretraining on MoE:Expansion+Regularization MoE上的终身预训练：扩展+正则化

Forgetting ls Suppressed遗忘被抑制

Final Results最终结果

Final Thoughts & QA 最后的思考和问答

16:20-17:20—圆桌讨论

NLP：自然语言处理技术最强学习路线之NLP简介(岗位需求/必备技能)、早期/中期/近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装(更新中)

NLP：自然语言处理技术最强学习路线之NLP简介(岗位需求/必备技能)、早期/中期/近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装(更新中)_nlp算法岗位技能要求_一个处女座的程序猿的博客-CSDN博客

AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略

AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略_一个处女座的程序猿的博客-CSDN博客

13:30-17:20《基础模型前沿技术》

官网地址：2023 北京智源大会
视频回放地址：https://2023-live.baai.ac.cn/2023/live/?room_id=27171

13:30-13:35—论坛背景与嘉宾介绍刘知远

清华大学副教授，智源学者

13:35-14:05—基础大模型(语言)——工程化打造AI中的“CPU”林咏华

智源研究院副院长兼总工程师

打造基础大模型的重要性——为什么是AI中的“CPU"

基础模型已经成为AI大模型时代，单一“产品”投入最大的部分

>>对训练一个语言基础模型进行成本的粗略估算
>>>>包括:训练数据的准备、训练过程、测试评测三大部分。每一部分包括在该部分所需要的人力成本、计算成本等。
>>>>不包括:可以分摊到多个大模型训练的成本项，例如工具的开发、新算法的研发等。
>>一个LLM模型的开发成本十分高昂。

基础模型很大程度决定了后续模型能力、产业落地等因素

>>能力和知识
>>合规性和安全性

基础模型很大程度决定了后续模型能力、产业落地等因素

>>版权和商用许可
>>已经发布的国内外通用语言大模型统计（从2023年1月至5月底)
>>>>国外发布的开源语言大模型有39个，其中可商用、非copyleft协议的大模型有16个
>>>>国内发布的语言大模型有28个，其中开源的语言大模型有11个，其中开源可商用的语言大模型仅有1个(BELLE ——基于BLOOMz-7B进行指令微调的对话模型)

Aquila天鹰语言模型系列——目标

>>为大模型产业打造具备中英文双语能力的
>>天鹰大模型需要符合语言模型的整体能力框架要求。
>>打造端到端、循环迭代的大模型生产流水线
>>语言大模型的整体能力框架定义

Aquila天鹰语言模型系列总体介绍

>>基础模型信息
Aquila-33B：330亿参数中英双语基础模型
Aquila-7B：70亿参数中英双语基础模型
>>对话模型信息——基于Aquila基础模型进行指令微调训练及强化学习
>>代码模型信息——基于Aquila基础模型进行持续训练.

Aquila天鹰语言模型预训练数据介绍

Aquila天鹰语言模型基础模型

>>Aquila语言大模型在技术上继承了GPT-3、LLaMA等的架构设计优点
>>重新设计实现了中英双语的tokenizer
>>并行训练方法:
>>底层算子：Aquila替换了一批更高效的底层算子实现(Flash attention) ,并且集成到BMTrain的训练框架中。

Aquila天鹰语言模型SFT数据打造

数据采集
数据分布分析和调整
SFT测试驱动数据迭代
重要指令添加

Aquila天鹰语言模型SFT数据打造

>>SFT数据采集
>>>>人工写prompt+回复
>>>>>>内部数据标注人员+外部公益者
>>从公开高质量数据集进行指令生成

指令微调数据集

我们通过构造数据类别的分类模型,分析指令数据集的分布情况

SFT测试驱动数据迭代

重要指令添加

悟道·天鹰AquilaChat对话模型(7B+33B)

模型能力与指令微调数据的循环迭代
可扩展的特殊指令规范
强大的指令分解能力

悟道·天鹰 AquilaCode-7B“文本-代码”生成模型

>>基于Aquila-7B的强大基础能力，以小数据集、小参数量，实现高性能
>>同时支持不同芯片架构的模型训练

为什么评测十分重要

每天10万以上的训练成本。。。
>>大船难以掉头
>>大模型的能力复杂性:

Aquila天鹰大模型的评测系统

FlagEval (天秤）大语言模型评测体系

“能力-任务-指标”三维评测体系

FlagEval能力框架详解

FlagEval大模型评测辅助模型训练

>>自动化评测机制,实现边训练边评测:
>>自适应评测机制,实现评测结果指导的模型训练:
>>各阶段效率优化:

基于九鼎平台的训练系统

只是起点——构建迭代基础大模型的持续“生产线”

>>参考tick-tock模式，构建语言大模型的周期性发展的路线图
>>构建可预见+不可预见的创新迭代Roadmap
源源不断的预训练海量数据
各种大模型新技术
产业需求
新版本大模型

悟道3.0∶深耕基础模型——大模型树

没有基础模型的深耕，带不来枝繁叶茂

持续创新、持续迭代、持续产出

开源仓库：https://github.com/FlagAl-Open/FlagAl

14:05-14:50—《Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization构建一个人工智能系统:在LLM上应用带有人类反馈的强化学习(RLHF)来推进定制》

刘胤烩│ Birch.ai核心创始人及CTO

Agenda

The Value of LLMs
Building a Real-Time Al System
Reinforcement Learning with Human Feedback (RLHF)
The Future of LLMs

Why Do We Need LLMs

Boost Productivity
>>Consumer Facing Products.
>>Enterprise Facing Products
>>>>Understand domain language - ex: healthcare lingo-
>>>>Understand industry's knowledge and company policies

Building a Real-Time Al System

Necessities of a Real-time Al System.

Today's Al can't completely replace human.
>>Start with augmentation than complete automation
>>Humans-in-the-loop for critical decisions and final sign-off
>>Real-time performance metrics for generative models - "# Human edits"
>>Collect feedbacks from professionals

Why do we need a real-time Al system.

>> Today's Al can't completely replace human.
>> User feedback is critical, but must be curated.
>> Continuous improvement is the path to automation
>>>>Train Reward Models (RM)
>>>>Apply Reinforcement Learning with Human Feedback (RLHF)

客服实时系统案例应用

Reinforcement Learning with Human Feedback (RLHF)

InstructGPT，搭建实时系统可以获得高质量的数据集

Reward Model

PPO

来自2017年OpenAI的论文

The Future of LLMs

Extend the workflow from text generation to action automation
>>Text Generations:
>>>>Meeting notes
>>Action Automations:
>>>>Send emails
>>>>Update calendars
>>>>Create, assign, and execute tasks

14:50-15:35—多模态预训练的进展回顾与展望刘静

中科院自动化所研究员

多模态预训练的研究背景—为什么关注?
多模态预训练的研究进展—当前怎么做?
多模态预训练的几点思考—以后怎么做?

多模态预训练的研究背景—为什么关注?

预训练大模型有望突破瓶颈

>>开启了基于自监督学习的“大数据+大模型”新范式，从大规模的无标注数据中挖掘隐含的监督信息进行通用知识学习，成为迈向通用人工智能的重要途径。
>>ChatGPT进一步联合人类反馈的强化学习，实现可与人类意图对齐的基础模型。
1、从有监督到自监督
2、从专用小模型到通用大模型：多专多能
3、从数据驱动到人机交互学习：大模型+RL

近年来各种大模型持续涌现

数据量/模型参数量不断增长，并在语言、语音、视觉等通用领域，以及无人车、遥感、生物医药等各领域取得优异性能。
从“大炼模型”转为“炼大模型”
大模型的应用方

ChatGPT是什么？

>>ChatGPT基于大规模语言模型GPT3.5，通过人类反馈学习微调而来的对话生成大模
，通过人类反馈学习微调而来的对话生成大模，而是以自然语言为交互的通用语言处理平台。
>>>>超出预期的交互体验
>>>>通用的意图理解能力
>>>>强大的连续对话能力
>>>>智能的交互修正能力
>>>>较强的逻辑推理能力

ChatGPT以产品为导向,众多技术与成果的集大成者

大模型技术与人类反馈强化学习融合，实现知识逻辑涌现和人类价值观模拟，探索出了发展通用人工智能新路径，成为真正改变AI领域重大突破

大模型从单模态迈向多模态成为必然

面向图文音数据的多模态预训练模型是利
用全网多模态大数据来实现类人多模念感认知的重要途径，有望推动语音、语言、视觉等多领域协同发展
>>多模态数据无处不在:互联网90%以上是图像与音视频数据，文本不到10%
>>多模态协同更符合人类感知与表达方式:让机器实现类人“看懂、听懂、能说、会读”

多模态预训练的研究进展—当前怎么做?

多模态预训练需要解决什么问题?

模型应具有强大的自监督学习与通用知识迁移能力，使不同领域任务在统一框架下实现基于低标注代价的性能提升
重点关注多模态融合表征与跨模态语义关联，提升多模态融合理解与跨模态转换生成性能

预训练模型的核心思想

预训练：采用Transformer作为基本模型，通过设计基于自监督学习的预训练任务，从大量无标注数据中学习与具体任务无关的通用知识。
>>>>训练数据：大规模无标注、结构化知识
>>>>模型框架：Transformer
>>>>学习机制：自监督学习

模型微调Fine-Tune：支持多模态理解与生成的各种下游任务
>>>>下游任务：理解与生成

多模态预训练数据集

无标注成本的网络数据
>>图像文本数据:图像及其相关文本（标签、描述、评论等)
>>视频文本数据:视频及其相关文本(标签、描述、字幕、语音等)
>>音频文本数据

万级别强关联人工标注→百万/亿级别弱关联无标注

多模态预训练—基础模型Transformer

基于Transformer Encoder—理解任务

单流：视觉和文本模态一起输入编码器，代表性工作有VL-BERT，UNITER
双流：视觉和文本模态先单独编码，然后跨模态交互，代表性工作有ViLBERT，CLIP

基于Transformer Decoder—生成任务

联合VQ-VAE图像自编码器与GPT语言模型，将文本和图像分别序列化作为GPT的输入

基于Encoder + Decoder—理解+生成

通过decoder更好的学习不同模态之间关联关系，提升理解判别能力

多模态预训练模型-自监督学习

>>模态内掩码学习
>>>>文本、语音、视觉自身token级别mask
>>模态间掩码学习
>>>>不同模态信息的相互预测
>>>>mask视觉,输出对应文本..

>>模态间匹配学习
>>>>匹配与否的分类问题
>>>>对比学习

多模态下游任务—模型微调

>>预训练模型的最终目标是提高下游任务的性能
>>如何将预训练模型强大的表示能力迁移到特定数据下的特定任务中，显得尤为重要

>>模型微调
√ Pretraining+ Finetune
√Pretraining+Prompt-Tuning
√Pretraining + Adaptor-Tuning
√Pretraining +LoRA

>>多模态下游任务
√生成：文本/语音/视觉内容生成
√理解：跨模态检索/问答/推理

更大更强的多模态预训练模型

>>强大的语言模型：预训练时尽可能冻结语言模型，保留原模型知识
>>更大的视觉模型：利用大规模的图文弱关联数据以及图像数据
>>更大规模的预训练数据：大量图像-文本、视频-文本以及网页数据
>>更多模态形式的数据：图像、视频、音频、文本、红外、雷达。。。

图文音三模态大模型-紫东太初

国际首个千万级规模图文音多模态数据集在图文/文音/视频等20+下游任务数据集上取得SOTA

“紫东太初”大模型：多模态感知与交互

以语言大模型为核心的多模态融合感知与多任务统

多模态对话实例

多模态关联分析实例

多模态描述实例

紫东太初大模型：多行业应用创新

多模态预训练的几点思考—以后怎么做?

几点思考

“大数据+大模型”简洁粗暴但有效的路子还未走到尽头，但终将走到尽头

●大规模、高质量的预训练数据

>>构建大规模不同模态间的对齐数据（弱监督、半监督)>引入知识来筛选大数据

●高效计算的大模型网络结构

>>改进或替代Transformer的高效模型
>>超大规模模型分布式并行训练
>>与下游任务兼容的更优模型
>>显示知识嵌入与隐式知识学习

●适合多模态关联建模的自监督学习

>>单模态、部分模态、全模态混合训练
>>如何实现多模态信息之间更细粒度的对齐建模
>>联合无监督强化学习，引入环境反馈

●预训练模型的下游应用与迁移能力

>>模型压缩与推理加速为特定场景应用提供可能
>>多模态应用更为丰富，如何拓展更多创新下游应用

后ChatGPT时代人工智能科研方向

>>研究大模型∶
大模型的原理、能力来源、可解释可控性研究;探索大模型的能力边界;研究大模型的能力外延和拓展

>>利用大模型
赋能各个研究任务和研究方向，例如赋能科学研究AI4Science，赋能各行各业AI+

>>治理大模型:
让大模型的发展安全可信可控，确保隐私安全，符合人类根本利益，防止其做出危害人类、破坏社会发展的事情

后ChatGPT时代的多模态大模型

>>未来AGI必然是与人类智能相仿，高效协同的多模态智能

>>从多模态信息中学习知识，实现不同模态之间的知识迁移、相互补全、相互验证。

>>充分利用现有语言大模型的认知推理能力，构建通用、安全、可信的多模态大模型

>>上下游任务与所有可能的技术路线之间，将进行各种形式的排列组合拼插，多模态应用创新层出不穷
>>>>跨模态的知识挖掘
>>>>多模态信息展示生成（如产品、年报、课程、演讲)
>>>>多模态融合理解与推理(图文试题、读书看报)
>>>>虚拟现实/混合现实中的自动内容创建
>>>>领域虚拟角色（如虚拟导购、虚拟教师)
>>>>多模态感知决策一体化的新一代机器人技术

15:35-16:20—《Scaling Large Language Models: From Power Law to Sparsity扩展大型语言模型:从幂律到稀疏性》周彦祺

T5作者之一，谷歌研究科学家

LLM Scaling: From Power Law to Sparsity

Agenda议程

01 Moore's Law and Power Law摩尔定律和幂律
02 T5: Unified Text-to-Text Transformer  T5：统一的文本到文本转换器
03 Scaling LLM with MoE  使用MoE扩展LLM
04 Advanced MoE techniques  先进的MoE技术
05 Q&A

01 Moore's Law and Power Law 摩尔定律和幂律

The End of Moore's Law摩尔定律的终结

Gordon Moore postulated that the number oftransistors that can be packed into a givenunit of space will double every two years.
Nowadays we are reaching the physicallimits of Moore's Law because the hightemperature of transistors makes it impossible to create smaller circuits.
Of course, chips performance are not justbounded by transistors, but also bounded bymemory bandwidth (memory wall), andother reasons...
戈登·摩尔提出，在给定空间中可以装入的晶体管数量每两年翻一番。
现在我们正接近摩尔定律的物理极限，因为晶体管的高温使得创建更小的电路成为不可能。
当然，芯片的性能不仅受到晶体管的限制，还受到内存带宽（内存墙）等其他原因的限制。

Power Law Rules Deep Learning幂律规则深度学习

Exploring the Limits of TransferLearning with a Unified Text-to-Text Transformer通过统一的文本到文本转换器探索迁移学习的极限

02 T5：Unified Text-to-Text Transformer T5：统一的文本到文本Transformer

Text-to-text Simply Works文本到文本的简单运作

将每个问题都定义为以文本作为输入并生成文本作为输出。

Formulate every problem as takingtext as input and producing text as output.

C4 DatasetC4数据集

从公开可用的Common Crawl获取源数据，这是一个网络爬取的数据集。
Common Crawl包含很多嘈杂的“网页提取文本”
数据集在外部是完全可用和可再现的

Source data from Common Crawl, a publicly-available web scrape.
>> Common Crawl includes very noisy "web extracted text"
>> Dataset is completely useable and reproducible externally

应用大量的过滤：
删除不以. , ! " ... 结尾的行
删除短行
删除带有不良短语（例如冒犯性词语，"服务条款"，"lorem ipsum"等）的行
在文档之间进行句子级去重复
等等

Apply lots of filtering:
>> Remove lines that don't end in . , ! " ...
>> Remove short lines
>> Remove lines with bad phrases (e.g. offensive terms, "terms of service"""lorem ipsum"...)
>> Sentence-level deduplication across documents
>> etc.

生成约750 GB的干净英文文本+其他语言中的大量文本。
yielding→~750 GB of clean English text + large amounts in other languages.

Experiment实验

we chose parameters and strategies to simplify the pipeline as much as possible.
我们选择参数和策略，以尽可能简化流程。

Objective目标

Model Architectures模型架构

Dark grey lines
correspond to fully-visible masking and light grey lines correspond to causalmasking.
深灰色线表示完全可见掩码，浅灰色线表示因果掩码。

Comparing High Level Approaches for UnsupervisedObjectives对无监督目标的高级方法进行比较

What should you do with 4x compute?有了4倍的计算能力应该做什么？

Training for longer, training a larger model, and ensembling all provide orthogonal boosts in performance
更长时间的训练、训练更大的模型和集成都可以提供性能上的正交增强

Scalling Up 扩展

Hitting and End of Dense Model Scaling密集模型扩展的极限

03 Scaling LLM with MoE使用MoE扩展LLM

Hitting an End of Dense Model Scaling达到密集模型扩展的极限

“GLaM: Efficient Scaling of Language Models with Mixture-of-Experts", Nan Du and others, ICML 2022.
“GLaM：用混合专家的方式有效扩展语言模型”，Nan Du等人，ICML 2022。

Efficient Scaling of Language Models with MoE使用MoE进行高效扩展语言模型

>>Decoder only
>>ln-context few-shot learning
>>Sparsely gated network with GShard Top2 routing
>>Scale up to 1.2T total parameters with 97B activated
仅解码器
ln-context少样本学习
使用GShard Top2路由的稀疏门控网络
总参数量扩展到1.2T，激活参数量为970B

GLaM Model Architecture GLaM模型架构

>>Sparsely activated FFNs
>>GShard top2 gating function
>>lnterleaving dense layers with sparselayers.
稀疏激活的前馈神经网络
GShard Top2门控函数
将密集层与稀疏层交替排列。

Few-shot Results Compared to GPT3与GPT3相比的少样本结果

Average few-shot performance on NLU and NLG tasks when scaling FLOPs (activated parameters)
在缩放FLOPs（激活参数）时的NLU和NLG任务的平均少样本性能

Learning Efficiency Compared to GPT3与GPT3相比的学习效率

Token-Based MoE hasLimitations...基于标记的MoE有局限性...

MoE with Expert Choice Routing具有专家选择Routing的MoE

>> Each expert selects top-k tokens independently.
>> Perfect load balancing
>> Tokens can be received by a variable number of experts.
每个专家独立选择前k个标记。
完美的负载均衡
标记可以由可变数量的专家接收。

Expert Choice Gather专家选择聚合

Comparison with GLaM 与GLaM的比较

训练效率
达到良好困惑度需要多少步骤？
步骤时间
>> Training efficiency
>>>> How many steps to get good perplexity?
>>>> Step time

与GLaM Top-2门控比较
EC-CF2的收敛速度比2倍快
每步时间减少20%
>> Comparing to GLaM Top-2gating
>>>> EC-CF2 converges more than 2x faster
>>>> Per-step time is 20%smaller

Comparison with GLaM 与GLaM的比较

基准：
>>Baselines:
>>>>Switch Transformer Top-1
>>>>GShard Top-2

>>lmproves average scores by 1-2%
>>8B/64E outperforms T5 11B dense
>>100M/32E has better fine-tuningperformance than 100M/64E or10OM/128E.
平均分数提高了1-2%
8B/64E的性能优于T5 11B的密集模型
100M/32E的微调性能优于100M/64E或10OM/128E。

04 Advanced MoE techniques先进的MoE技术

MoE architectures aresuboptimal...MoE架构是次优的...

Brainformers: Trading Simplicity for Efficiency Brainformers：以效率换取简单性

>>Existing MoE architectures scale poorly in terms of step time.
>>Propose a non-uniform architecture, rooting from low-rank, multi-expert primitives.
>>Demonstrate 2x faster training convergence and 5x faster step time than GLaM.
现有的MoE架构在步骤时间上扩展性差。
提出一种非均匀架构，以低秩多专家原语为基础。
展示比GLaM更快的训练收敛速度和更快的步骤时间，速度提升5倍。

How we derive the model search space?我们如何得出模型搜索空间？

Transformer是从低秩和多专家派生出来的特殊情况！
Transformer is a special case derived from low-rank and multi-expert!

Brainformer Search Brainformer搜索

Block-wise architectural searchspace
Compute-efficient search objective
基于块的架构搜索空间
计算高效的搜索目标

Training Convergence Comparing to GLaM与GLaM相比的训练收敛速度

Fine-tuning and few-shot微调和少样本学习

LLM training isexpensive...LLM的训练成本高昂...

Motivation动机

>> Use case 1: temporal datasets
>>>> Keep datasets updated with language trends
Collect new samples every couple of months
Google search, forum, dialog, wikipedia, github, etc.
>>>> Train on large datasets is timelresource consuming
>>>> Train on new samples will be cheap
用例1：时间相关数据集
跟踪语言趋势，保持数据集更新
每隔几个月收集新样本
谷歌搜索、论坛、对话、维基百科、GitHub等等。
在大型数据集上训练耗时资源
在新样本上训练将更加廉价

>> Use case 2: general pretrainining dataset->datasets for dialogue
>>>> Need finetuning on a new mixture of dataset for a target domain, like chatbot.
>>>> There will be forgetting.
用例2：通用预训练数据集->用于对话的数据集
需要在针对目标领域的新数据混合中进行微调，比如聊天机器人。
会出现遗忘现象。

Forgetting遗忘

>> Distribution of original dataset: A
>> Distribution of new samples: B
>> Distribution shift A →B
>> Performance on both A & B matter!
>> >> Building general models is the trend.
原始数据集的分布：A
新样本的分布：B
分布从A到B发生变化
A和B上的性能都很重要！
构建通用模型是趋势。

>> "Forgetting issue": if we only train on B, performance on A willdrop
>> >> Assumption: new data comes in a sequence, we may not have "access" to old
data.
"遗忘问题"：如果我们只在B上进行训练，A上的性能会下降
假设：新数据按序列进入，我们可能无法“访问”旧数据。

Lifelong Language Pretraining with Distribution-specialized Experts使用专门化分布的专家进行终身语言预训练

>> Distribution based MoE
>>>> Progressively add more experts for new data distribution
>>>> Add regularization to mitigate forgetting.
基于分布的MoE
逐渐增加更多专家以适应新数据分布
添加正则化以减轻遗忘。

Lifelong Pretraining on MoE：Distribution 、Regularization、Expansion MoE上的终身预训练：分布、正则化、扩展

>>Distribution A →B=c
>>>>Simulation on Tarzan:"A”= wiki/web,""B” = non-English,"C” = dialog
分布A → B=c
在Tarzan上进行模拟：“A”= 维基/网络，“B”= 非英语，“C”= 对话

>>“Regularization”
>>>>We don't want models to overfit B
>>>>We don't want model weights to be updated too far from A
>>>>Fit B, while regularize model from A
“正则化”
我们不希望模型过度拟合B
我们不希望模型权重过于偏离A
在适应B的同时对模型进行正则化

>>“Expansion”
>>>>Allow models to expand (expert) layers when fitting new distributions
“扩展”
允许模型在适应新分布时扩展（专家）层

Lifelong Pretraining on MoE:Expansion+Regularization MoE上的终身预训练：扩展+正则化

>>Expand experts for new distributions
>>Partially freeze old experts/gatings
>>Train with"Learning without Forgetting”(LwF) loss
为新分布扩展专家
部分冻结旧的专家/门控
使用“无遗忘学习”（LwF）损失进行训练

Forgetting ls Suppressed遗忘被抑制

Final Results最终结果

Final Thoughts & QA 最后的思考和问答

>>Sustainably scaling dense LLM is hitting an end.
>>MoE becomes critical to further advancing LLM scaling.
持续扩展密集LLM已经达到了极限。
MoE变得对进一步推进LLM扩展至关重要。

>>We need better MoE architecture, as well as training strategy.
>>>>Non-uniform architecture
>>>>Lifelong learning
我们需要更好的MoE架构，以及训练策略。
非均匀架构
终身学习

16:20-17:20—圆桌讨论

更新中……

你可能感兴趣的:(AI/AGI,NLP/LLMs,人工智能,智源大会,基础大模型)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
特殊的拜年飘雪的天堂
文/雪儿大年初一，家家户户没有了轰响的鞭炮声，大街上没有了人流涌动的喧闹，几乎看不到人影，变得冷冷清清。天刚亮不大会儿，村里的大喇叭响了起来：由于当前正值疾病高发期，流感流行的高峰期。同时，新型冠状病毒感染的肺炎进入第二波流行的上升期。为了自己和他人的健康安全着想，请大家尽量不要串门拜年，不要在街里走动。可以通过手机微信，视频，电话，信息拜年……今年的春节真是特别。禁止燃放鞭炮，烟花爆竹，禁止出村
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

AI：2023年6月9日北京智源大会演讲分享之基础模型前沿技术论坛—《工程化打造AI中的CPU》、《构建一个AI系统:在LLM上应用带有RLHF来推进定制》、《多模态预训练的进展回顾与展望》、《扩展大

相关文章

NLP：自然语言处理技术最强学习路线之NLP简介(岗位需求/必备技能)、早期/中期/近期应用领域(偏具体应用)、经典NLP架构(偏具体算法)概述、常用工具/库/框架/产品、环境安装(更新中)

AI：大模型领域最新算法SOTA总结、人工智能领域AI工具产品集合分门别类(文本类、图片类、编程类、办公类、视频类、音频类、多模态类)的简介、使用方法(持续更新)之详细攻略

13:30-17:20《基础模型前沿技术》

13:30-13:35—论坛背景与嘉宾介绍刘知远

13:35-14:05—基础大模型(语言)——工程化打造AI中的“CPU”林咏华

打造基础大模型的重要性——为什么是AI中的“CPU"

基础模型已经成为AI大模型时代，单一“产品”投入最大的部分

基础模型很大程度决定了后续模型能力、产业落地等因素

基础模型很大程度决定了后续模型能力、产业落地等因素

Aquila天鹰语言模型系列——目标

Aquila天鹰语言模型系列总体介绍

Aquila天鹰语言模型预训练数据介绍

Aquila天鹰语言模型基础模型

Aquila天鹰语言模型SFT数据打造

Aquila天鹰语言模型SFT数据打造

指令微调数据集

SFT测试驱动数据迭代

重要指令添加

悟道·天鹰AquilaChat对话模型(7B+33B)

悟道·天鹰 AquilaCode-7B“文本-代码”生成模型

为什么评测十分重要

Aquila天鹰大模型的评测系统

FlagEval (天秤）大语言模型评测体系

FlagEval能力框架详解

FlagEval大模型评测辅助模型训练

基于九鼎平台的训练系统

只是起点——构建迭代基础大模型的持续“生产线”

悟道3.0∶深耕基础模型——大模型树

持续创新、持续迭代、持续产出

14:05-14:50—《Build an Al system: Applying Reinforcement learning withhuman feedback (RLHF) on LLM to advance customization构建一个人工智能系统:在LLM上应用带有人类反馈的强化学习(RLHF)来推进定制》

Agenda

Why Do We Need LLMs

Building a Real-Time Al System

Necessities of a Real-time Al System.

Why do we need a real-time Al system.

客服实时系统案例应用

Reinforcement Learning with Human Feedback (RLHF)

InstructGPT，搭建实时系统可以获得高质量的数据集

Reward Model

PPO

The Future of LLMs

14:50-15:35—多模态预训练的进展回顾与展望刘静

多模态预训练的研究背景—为什么关注?

预训练大模型有望突破瓶颈

近年来各种大模型持续涌现

ChatGPT是什么？

ChatGPT以产品为导向,众多技术与成果的集大成者

大模型从单模态迈向多模态成为必然

多模态预训练的研究进展—当前怎么做?

多模态预训练需要解决什么问题?

预训练模型的核心思想

多模态预训练数据集

万级别强关联人工标注→百万/亿级别弱关联无标注

多模态预训练—基础模型Transformer

基于Transformer Encoder—理解任务

基于Transformer Decoder—生成任务

基于Encoder + Decoder—理解+生成

多模态预训练模型-自监督学习

多模态下游任务—模型微调

更大更强的多模态预训练模型

更大更强的多模态预训练模型

图文音三模态大模型-紫东太初

“紫东太初”大模型：多模态感知与交互

多模态对话实例

多模态关联分析实例

多模态描述实例

紫东太初大模型：多行业应用创新

多模态预训练的几点思考—以后怎么做?

几点思考

●大规模、高质量的预训练数据

●高效计算的大模型网络结构

●适合多模态关联建模的自监督学习

●预训练模型的下游应用与迁移能力

后ChatGPT时代人工智能科研方向

后ChatGPT时代的多模态大模型

15:35-16:20—《Scaling Large Language Models: From Power Law to Sparsity扩展大型语言模型:从幂律到稀疏性》周彦祺

LLM Scaling: From Power Law to Sparsity

Agenda议程