oldmao_2000

李宏毅DLHLP.18.BERT and its family.2/2.ELMo,BERT,GPT,XLNet,MASS,BART,UniLM,ELECTRA

文章目录

介绍
How to pre-train
- Context Vector (CoVe)
- Self-supervised Learning
- - Predict Next Token
  - Predict Next Token - Bidirectional
  - Masking Input
  - - 几种MASK的方法
- XLNet
- MASS/BART
- - Input Corruption
- UniLM
- ELECTRA
- Sentence Level
- T5 – Comparison
挖坑
- 另外一个ERNIE
- Audio BERT
引文

介绍

本门课程是2020年李宏毅老师新课：Deep Learning for Human Language Processing（深度学习与人类语言处理）
课程网站
B站视频
公式输入请参考：在线Latex公式
接上节，这节主要将如何进行预训练（如何得到预训练好的模型），并介绍各种预训练模型。

How to pre-train

Context Vector (CoVe)

按预训练的思路，就是要考虑上下文，获得token的embedding表示，最早干这个事情就是CoVe模型（中文是海湾的意思。），这个模型是用Translation的方法来训练模型，一个是这个模型考虑了上下文，二是这个模型训练数据是标注数据（原文与译文）。
模型架构如下图所示，其中的encoder就是预训练模型。

这个模型的缺点是需要大量的语料对进行训练。因此出现了自监督的学习模型Self-supervised Learning。

Self-supervised Learning

原来叫无监督学习Unsupervised Learning，杨力坤曾po文解释要用Self-supervised Learning，因为更加的贴切，是用自己本身的数据来进行预测。注意时间。

下面是两个概念的图解：

Self-supervised Learning的输入和输出都是由x进行构造的。

Predict Next Token

下面以Predict Next Token为例进行讲解。
有一个预训练模型，吃一个token，这里是 $w_1$ 得到embedding： $h_1$ ，然后根据 $h_1$ 预测下一个token： $w_2$

从 $h_t$ 预测下一个token的结构如下图所示，当然，可以把Linear Transform切换为NN模型，经过softmax后得到一个概率分布，我们希望这个概率分布与下一个token的概率分布（这个分布就是 $w_{t+1}是1，其他都是0$ ）的交叉熵越小越好。

得到 $w_2$ 之后，可以用同样的套路继续往下生成 $w_3$ ，以此类推。

这里注意，不能同时吃所有的token，来进行预测：

这样做，模型会耍赖，直接把右边的token作为预测值，例如在用 $w_1$ 预测 $w_2$ 的时候，模型直接把右边一位token拿过来即可，根本不做优化，模型就没有学习到任何信息。
Predict Next Token是最早的无监督的训练方式，这个也就是语言模型language models。
通常预训练模型会采用LSTM，比较有名的就是ELMo，还有一个方法叫Universal Language Model Fine-tuning (ULMFiT)

后来有人把LSTM换成Self-attention，有名的方法是：GPT[Alec, et al., 2018]、GPT-2[Alec, et al., 2019]、Megatron[Shoeybi, et al., arXiv’19]、Turing NLG
但是直接把普通的attention用到这里是不行的，因为普通的attention会对所有的token进行attention计算。因为对下一个token做attention，又预测下一个token就是让模型作弊。因此这里要对attention加上限制，不让它看某些位置。

下面的表格有颜色的部分，就是每个token做attention的限制， $w_1$ 只能看 $w_1$ ， $w_2$ 能看 $w_1$ 和 $w_2$ ， $w_3$ 能看 $w_1$ 和 $w_2$ 和 $w_3$ ， $w_4$ 能看 $w_1$ 和 $w_2$ 和 $w_3$ 和 $w_4$ 。就是避免预测的过程中看到下一个token。

上面的Predict Next Token模型在预测下一个token的时候，会用当前词的embedding来进行预测，当前词的embedding实际上是包含了之前所有上文的信息的。

那下文信息呢？就是要双向LSTM来解决这个问题了

Predict Next Token - Bidirectional

ELMo中就用了Bidirectional LSTM，如下图所示，在生成1号embedding的时候，考虑了 $w_4$ 左边的上文，生成2号embedding的时候，考虑了 $w_4$ 右边的下文（这里的图示有点怪，2号明明是对应 $w_5$ ），然后把1号和2号concat起来就是 $w_4$ 结合了上下文的表示。

但是这个方法还是有缺陷，因为在生成1号或者2号的embedding过程中，都只看了上文或者下文，并没有通盘考虑上下文，因此BERT对此进行了改进。

Masking Input

原来的token序列如下图所示：

然后BERT将要计算的输入token盖住，盖住有两种方式，一种是使用【mask】token，一种是用随机sample的token

然后要用其他token预测盖住的token，BERT用的是Transformer，在这里attention是没有限制的，可以和任何其他token做attention计算，因为要预测的token已经盖起来了。
回顾之前学过的Word2Vec，这个方法和CBoW的思想很像，都是通过周围词预测中心词。

但是二者有几个地方不一样：
1.CBoW看上下文是有窗口大小限制的，BERT想看多长就多长（输入有多长就看多长）。
2.BERT很复杂，有24层的self-attention；CBoW就两层，中间都是linear transform。

几种MASK的方法

第一种：
在原始的BERT论文中，要MASK掉的token是随机决定的。这样是不够好的，尤其对于中文而言，盖住某个字，模型可以随意猜出盖住的字是什么，例如：张【MASK】友、人【MASK】智能。不用看很远的上下文，只用看左右几个字就可以猜出盖住了什么东西，因此模型不会学到比较long-term的关系。
Whole Word Masking (WWM)[Cui, et al., arXiv’19]，就是改进BERT中的MASK，盖住整个词，例如：
[Original Sentence]
使用语言模型来预测下一个词的probability。
[Original Sentence with CWS]
使用语言模型来预测下一个词的probability。
[Original BERT Input]
使用语言[MASK]型来[MASK]测下一个词的pro[MASK]##lity。
[Whold Word Masking Input]
使用语言[MASK ][MASK]来[MASK][MASK]下一个词的[MASK][MASK][MASK]。

第二种：
还有另外一个文章：Enhanced Representation through Knowledge Integration (ERNIE)[Sun, et al., ACL’19]
Phrase-level & Entity-level
从短语的做MASK，或者从实体（就是命名实体识别任务中定义的那种实体）的角度做MASK

第三种：
SpanBert[Joshi, et al., TACL’20]
一次盖一排token，一排有多长？根据下图的几率来定：

下面是SpanBert给出的结果：

在SpanBert中还提出了一种训练方法：Span Boundary Objective (SBO)
本来BERT中是将要预测的内容盖起来，然后通过上下文对盖住的token进行预测。

SpanBert多加了一个SBO模块，如下图所示，将盖住的左右两个token作为SBO的输入，然后给定一个数字，例如3，代表预测盖住的第三个token，于是SBO输出 $w_6$

下面是预测盖住的第二个token

这个SBO方法在coreference任务中表现较好。

XLNet

就是Transformer-XL，可以从两个观点来看，先从LM的角度看：
在预测token的时候，只能看到上文。

XLNet思想是将token随机打算再进行预测：
下面是【习度】预测【学】

下面是【深】预测【学】

这样用不同的序列来进行学习，模型可以学到更多的dependency。（这里让我想起了GNN的随机游走）
再从BERT角度来看，BERT是盖住某个token，再用其他token来预测盖住的token：

而XLNet在盖住某个token之后，并不是用所有的token来预测盖住的token，而是随机用某几个token来预测盖住的token。
下面是用【度习】预测MASK

下面是用【深】预测MASK

此外，在XLNet中，是不给模型看MASK这个token的，只给模型知道MASK的位置。

MASS/BART

对于LM模型而言，就是为了做生成任务的，Given partial sequence, predict the next token

而BERT相对来说就不怎么擅长生成sequence，当然你可以把最后一个词做成MASK，让BERT不断预测这个MASK的值，就得到一个生成模型：

但是这样做效果不好，本来BERT在预测MASK的时候要看上下文的，这样改就看不到未生成的下文，结果当然不行。
这种从左到右的生成句子的方式成为auto-regressive的生成方式，后面还会讲none-regressive的生成方式。
因此，BERT不适合做seq2seq任务，只适合做seq2seq的encoder部分。如何训练pre-train model这样的seq2seq？如下图所示：

要把输入经过encoder，到decoder，然后得到的结果要和输入要越像越好（reconstruction error最小），为了防止模型作弊，直接copy输入，这里要对输入做一些改动，那么这里改动（Corrupted）输入方法有两种：
MAsked Sequence to Sequence pre-training (MASS) [Song, et al., ICML’19]
Bidirectional and Auto-Regressive Transformers (BART) [Lewis, et al., arXiv’19]

Input Corruption

假设我们现在的输入是：
A B [SEP] C D E

MASS，随机盖住一个token
Delete “D”
permutation：互换输入句子的顺序
rotation：做轮换
Text Infilling：可以插入mask，一个mask可以盖住多个token。

以上就是BART采用的方法，最后论文给出的结论是：
• Permutation / Rotation do not perform well.（打乱了原来句子的顺序，打乱后的句子是病句，模型学出来的效果当然不好。）
• Text Infilling is consistently good.

UniLM

[Dong, et al., NeurIPS’19]
这个模型既是Encoder，又是Decoder，还是Encoder+Decoder=Seq2seq

下面就是UniLM原文的示意图，可以看到UniLM就是一个模块，没有分encoder和decoder，但是用不同的attention方法就可以实现不同的模型，例如：
最上面那里允许输入对所有的token进行attention，就是BERT；
中间只允许对左边的token进行attention，就是GPT，实现的是LM的功能；
最下面分为两部分attention，一块attention可以看做是encoder，可以随便和任意的token进行attention（深黄色线），一块做decoder，只能看左边的token（蓝色线）。

ELECTRA

Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA)
模型思想是用二分类任务来替换原来复杂的预测任务
例如有如下句子，对应输出embedding：

然后将输入中的某个词进行替换：

然后模型要根据替换后的结果输出当前token是否被替换：

当然，替换的词不能太突兀，不然模型一眼就看穿你替换的是哪个词，要替换为语法无错误，语义有误的词语，要做到这一点，ELECTRA使用了一个Small BERT来完成替换任务：

注：这里不是GAN，因为两个模型不是联合起来训练，也没有迭代训练。

Sentence Level

在一些任务中不但需要表达单个token的embedding，还需要有整个句子的embedding：

一种方法是：Skip Thought，将一句话经过Encoder，得到一个句子的embedding，然后经过Decoder，预测出下一个句子的token。

当然，这种预测是很难训练的，因此有第二种思路：Quick Thought（这个方法和ELECTRA一样，避开做预测生成这个事情，只用做判断对错比较简单。）

将两个句子分别丢入Encoder中，将得到的结果进行比较，如果两个句子是相邻的上下文关系，希望输出的embedding越相似越好。
在原始的BERT论文中，也给出了预测下一个句子的方法：NSP: Next sentence prediction
这个方法中BERT遇到【CLS】token就会生成一个embedding，这个embedding代表整个BERT的输入的所有token的信息。这个global的信息如何保证？这里用到了【SEP】token，当【SEP】两边的句子是相邻的，不是随机sample出来的句子，那么蓝色embedding经过判定模块后得到的结果是YES，否则是NO，这样模型就会关注整个输入的global的信息。

由于NSP方法中，句子如果是从不同文章里面sample出来的，句子本身的内容就讲的不同的东西，那么模型就不用很费力气就可以分辨出YES和NO，也就没有学到什么有用的信息，效果也就不怎么样。因此有另外一个方法：Sentence order prediction（Used in ALBERT ）
将句子的顺序颠倒，BERT模型要识别出来，由于这个任务中所有句子都是同一个文章里面出来，只是顺序变化而已，模型要进行正确判别就学到一些有用的信息。
还有一个阿里提出来的方法structBERT (aka：Alice，阿里巴巴简称Ali，然后structBERT取c和E) ，结合了NSP和SOP，这里不展开[Want, et al., ICLR’20]。

T5 – Comparison

谷歌做的关于预训练模型的比较的文章，涉及到所有的预训练模型的比较。[Raffel, et al., arXiv’19]
• Transfer Text-to-Text Transformer (T5)
• Colossal Clean Crawled Corpus (C4)这个是实验的数据集
Colossal 巨大的。
两个都是炸药。文章50多页。。。

挖坑

另外一个ERNIE

• Enhanced Language RepresentatioN with Informative Entities
这个是另外一个ERNIE，其思想是为预训练模型中加入额外的知识，例如知识图谱，就得到ERNIE，也就是BERT+KG=ERNIE

Audio BERT

前面讲BERT 都是用在文字上，还有用在语音上的BERT，听大量没有标注的语音，然后用在各种下游任务中。

引文

超多引文，上一个课可以了解到很多模型。
• [Lewis, et al., arXiv’19] Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer, BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension, arXiv, 2019
• [Raffel, et al., arXiv’19] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, arXiv, 2019
• [Joshi, et al., TACL’20] Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy, SpanBERT: Improving Pre-training by Representing and Predicting Spans, TACL, 2020
• [Song, et al., ICML’19] Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu, MASS: Masked Sequence to Sequence Pre-training for Language Generation, ICML, 2019
• [Zafrir, et al., NeurIPS workshop 2019] Ofir Zafrir, Guy Boudoukh, Peter Izsak, Moshe Wasserblat, Q8BERT: Quantized 8Bit BERT, NeurIPS workshop 2019
• [Houlsby, et al., ICML’19] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly, Parameter-Efficient Transfer Learning for NLP, ICML, 2019
• [Hao, et al., EMNLP’19] Yaru Hao, Li Dong, Furu Wei, Ke Xu, Visualizing and Understanding the Effectiveness of BERT, EMNLP, 2019
• [Liu, et al., arXiv’19] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov, RoBERTa: A Robustly Optimized BERT Pretraining Approach, arXiv, 2019
• [Sanh, et al., NeurIPS workshop’s] Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf, DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, NeurIPS workshop, 2019
• [Jian, et al., arXiv’19] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu, TinyBERT: Distilling BERT for Natural Language Understanding, arXiv, 2019
• [Shoeybi, et al., arXiv’19]Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro, Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv, 2019
• [Lan, et al., ICLR’20]Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut, ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, ICLR, 2020
• [Kitaev, et al., ICLR’20] Nikita Kitaev, Lukasz Kaiser, Anselm Levskaya, Reformer: The Efficient Transformer, ICLR, 2020
• [Beltagy, et al., arXiv’20] Iz Beltagy, Matthew E. Peters, Arman Cohan, Longformer: The Long-Document Transformer, arXiv, 2020
• [Dai, et al., ACL’19] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov, Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, ACL, 2019
• [Peters, et al., NAACL’18] Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer, Deep contextualized word representations, NAACL, 2018
• [Sanh, et al., NeurIPS workshop’s] Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf, DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, NeurIPS workshop, 2019
• [Jian, et al., arXiv’19] Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu, TinyBERT: Distilling BERT for Natural Language Understanding, arXiv, 2019
• [Sun, et al., ACL’20] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou, MobileBERT: a Compact Task-Agnostic BERT for ResourceLimited Devices, ACL, 2020
• [Zafrir, et al., NeurIPS workshop 2019] Ofir Zafrir, Guy Boudoukh, Peter Izsak, Moshe Wasserblat, Q8BERT: Quantized 8Bit BERT, NeurIPS workshop 2019
• [Sun, et al., ACL’20] Zhiqing Sun, Hongkun Yu, Xiaodan Song, Renjie Liu, Yiming Yang, Denny Zhou, MobileBERT: a Compact Task-Agnostic BERT for ResourceLimited Devices, ACL, 2020
• [Pennington, et al., EMNLP’14] Jeffrey Pennington, Richard Socher, Christopher Manning, Glove: Global Vectors for Word Representation, EMNLP, 2014
• [Mikolov, et al., NIPS’13] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, Jeff Dean, Distributed Representations of Words and Phrases and their Compositionality, NIPS, 2013
• [Bojanowski, et al., TACL’17] Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov, Enriching Word Vectors with Subword Information, TACL, 2017
• [Su, et al., EMNLP’17] Tzu-Ray Su, Hung-Yi Lee, Learning Chinese Word Representations From Glyphs Of Characters, EMNLP, 2017
• [Liu, et al., ACL’19] Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao, Multi-Task Deep Neural Networks for Natural Language Understanding, ACL, 2019
• [Stickland, et al., ICML’19] Asa Cooper Stickland, Iain Murray, BERT and PALs: Projected Attention Layers for Efficient Adaptation in Multi-Task Learning, ICML, 2019
• [Howard, et al., ACL’18] Jeremy Howard, Sebastian Ruder, Universal Language Model Fine-tuning for Text Classification, ACL, 2018
• [Alec, et al., 2018] Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, Improving Language Understanding by Generative Pre-Training, 2018
• [Devlin, et al., NAACL’19] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL, 2019
• [Alec, et al., 2019] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, Language Models are Unsupervised Multitask Learners, 2019
• [Want, et al., ICLR’20] Wei Wang, Bin Bi, Ming Yan, Chen Wu, Zuyi Bao, Jiangnan Xia, Liwei Peng, Luo Si, StructBERT: Incorporating Language Structures into Pretraining for Deep Language Understanding, ICLR, 2020
• [Yang, et al., NeurIPS’19] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le, XLNet: Generalized Autoregressive Pretraining for Language Understanding, NeurIPS, 2019
• [Cui, et al., arXiv’19] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, Guoping Hu, Pre-Training with Whole Word Masking for Chinese BERT, arXiv, 2019
• [Sun, et al., ACL’19] Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu, ERNIE: Enhanced Representation through Knowledge Integration, ACL, 2019
• [Dong, et al., NeurIPS’19] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon, Unified Language Model Pre-training for Natural Language Understanding and Generation, NeurIPS, 2019

AI对话导出工具 (AI Chat Exporter)——支持 ChatGPT, Grok 和 Gemini 平台 ALGORITHM LOL 人工智能 chatgpt
AI对话导出工具(AIChatExporter)轻松将AI对话导出为标准Markdown格式支持ChatGPT,Grok和Gemini平台相关代码已开源至Github欢迎Star✨功能特点多平台支持：同时支持ChatGPT,Grok和Gemini三大AI平台完整内容保留：精确导出所有对话内容，包括代码块、数学公式、链接和格式化文本标准Markdown格式：输出符合标准的Markdown格式，确保最
ChatGPT驱动的跨学科研究灵感挖掘指南学境思源AcademicIdeas 学境思源 AI写作 ChatGPT chatgpt
跨学科研究已成为解决复杂问题的重要手段。学境思源，无论是人工智能与心理学的结合，一键生成论文初稿！还是生态学与经济学的融合，越来越多的研究者正试图打破学科界限，探索全新问题域。但问题是：acaids.com。我们如何高效发现这些跨学科交叉点？使用传统方式，像文献综述、领域专家访谈或大型头脑风暴虽有效，但耗时，且受限于已有认知。今天为大家分享一种高效、智能、可复制的方法——利用ChatGPT进行跨学
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
事件循环（Event Loop）机制对比：Node.js vs 浏览器
1.共同点：基本事件循环模型两者都基于"任务队列+循环处理"的机制：主线程执行同步代码。异步任务（如I/O、定时器）完成后，回调函数被放入任务队列。事件循环不断检查队列，按规则取出任务执行。2.核心区别（1）任务队列类型不同浏览器Node.js宏任务（Macrotask）：•script（整体代码）•setTimeout/setInterval•DOM事件回调（如点击）•requestAnimat
FTTR（Fiber to the Room）一主一从
FTTR（FibertotheRoom）一主一从是家庭或企业光纤组网中的一种设备配置方式，具体含义如下：1.基本概念FTTR：指光纤直接延伸到每个房间（替代传统网线），实现全屋千兆/万兆覆盖。一主一从：由一台主光猫（主网关）和一台从光猫（从网关）组成的网络架构，通过光纤连接，形成主从协作的网络系统。2.主设备和从设备的作用主光猫（主网关）直接连接运营商的光纤入户线路，负责拨号、路由、Wi-Fi覆盖
7-STM32的模拟IIC 水果里面有苹果嵌入式软件 stm32 单片机嵌入式硬件
STM32的模拟IICvoidIIC_Init(){GPIO_InitTypeDefGPIO_InitStructure;RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOB,ENABLE);//使能GPIOA时钟GPIO_InitStructure.GPIO_Pin=GPIO_Pin_10|GPIO_Pin_11;//PA4->SCL;PA5->SDAGPIO_
Flask(四) 模板渲染render_template @昵称不存在 Flask flask python 后端
文章目录过程详解（路由HTML模板）数据是怎么传过去的？多变量示例✅Jinja2支持条件判断、循环、模板继承：✅安全性Flask默认也会对变量进行HTML转义：{{chart|safe}}在pyecharts中怎么用？模板继承文件结构示例base.html（母板模板）index.html（子模板）login.html（子模板）过滤器宏和模板包含Flask-Login登录系统1、安装Flask-Lo
AI日报-20250627：谷歌Gemma 3n发布，百亿参数只需2G内存！荣耀启动IPO冲刺2000亿估值！大数据AI-ZRL AI日报人工智能业界资讯自然语言处理
1、黑马FLUX.1-Kontext开源！文本一键PS超越GPT-image-1，AI修图新标杆2、谷歌Gemma3n震撼发布：2G内存跑100亿参数多模态模型，端侧AI迎来革命！3、90后清华博士打造AI厨师！获数千万融资，拿下全国首张机器人食品经营证4、蚂蚁CGM代码图模型震撼开源：44%修复率登顶SWE-Bench，碾压所有开源模型5、快手Keye-VL大模型震撼开源！视频理解能力秒杀人类，
COLT_CMDB_linux_userInfo_20250508.sh修复历史脚本输出指标信息中userName与输出信息不一致问题
#!/bin/bash#IT_BEGIN#IT_TYPE=3#ITSYSTEM_LINUX_AGENTUSERDISCOVER|discovery.user[disc]#原型指标#IT_RULESYSTEM_LINUX_AGENTUSERGROUPID|groupId[{#USERNAME}]#IT_RULESYSTEM_LINUX_AGENTUSERHOME|userHome[{#USERNAM
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
ABP VNext + MassTransit：构建分布式事务与异步消息协作 Kookoos Abp vNext .net 分布式 ABP vNext .net 后端 c#MassTransit
ABPVNext+MassTransit：构建分布式事务与异步消息协作目录ABPVNext+MassTransit：构建分布式事务与异步消息协作1.背景与动机️2.环境与依赖3.在ABP模块中注册MassTransit3.1强类型配置绑定3.2模块配置4.完整消息契约5.Saga实体&状态机5.1`OrderState`withRowVersion5.2`OrderSagaDbContext`&`
AutoGPT，自主完成复杂任务小雷FansUnion AI2025 人工智能
AutoGPT是一个开源的AIAgent项目，它的核心目标是让AI能够自主完成复杂任务，而不仅仅是回答单个问题。简单来说，它让AI具备了"自主思考和行动"的能力。1.AutoGPT的核心概念什么是AIAgent？AIAgent（智能代理）是一种能够：自主规划：将大任务分解成小步骤自主决策：根据情况选择最佳行动自主执行：调用各种工具和API完成任务自主反思：评估结果并调整策略AutoGPT的独特之处
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
从指令设计到系统集成：提示词工具链与GPTs插件的效率革命 charles666666 人工智能自然语言处理语言模型知识图谱 transformer
一、提示词工程工具链：概念与架构解析1.1为什么需要工具链？大模型交互的本质是“指令设计”，但人工编写提示词存在三大痛点：效率低（重复调试耗时）、质量不稳定（依赖个人经验）、复用性差（场景迁移成本高）。例如，某电商企业要求AI生成500种商品描述时，人工逐条调整提示词需耗费数周，且风格难以统一。工具链的价值在于通过模块化设计与自动化流程解决上述问题。其核心架构包含三个层级：需求解析层：将用户需求拆
【网络安全】网络安全中的离散数学 flyair_China 安全架构
一、离散数学核心知识点与网络安全映射1.数论（NumberTheory）知识点安全应用场景实例说明质因数分解RSA公钥加密大整数分解难题（2048位密钥需数万年破解）模运算Diffie-Hellman密钥交换利用(gamodp)实现安全协商欧拉定理RSA加密/解密me*d≡m(modn)保障解密还原中国剩余定理高效解密优化RSA-CRT加速解密运算达70%2.代数结构（AlgebraicStruc
2025年AI编程工具推荐小猴崽 AI编程 AI编程 ai编程
以下基于2025年权威技术报告、开发者社区评测及厂商白皮书，对当前主流AI编程工具进行客观综述与推荐。数据来源包括IDC《2025中国生态告》、信通院《AI辅助编程技术成熟度评》、StackOverflow开发者调查及头部企业实测案例。一、国际主流AI编程工具GitHubCopilotX核心能力：基于GPT-4模型升级，支持37种编程语言（Python/Java/JS等），可解析数万行代码库的全局
分布式训练架构解析
一、分布式训练的问题根源与需求驱动在深度学习领域，模型与数据规模呈指数级增长趋势，传统单机训练模式已难以满足日益复杂的业务需求，分布式训练技术应运而生，其核心驱动力源于以下三大关键困境：1.1算力瓶颈与训练效率危机单GPU设备的计算能力存在物理上限。以NVIDIAA100为例，其单卡FP32算力约为19.5TFLOPS，面对GPT-4这样拥有1.8万亿参数的超大型模型，若采用单机单卡训练，仅完成一
c++多线程编写网络聊天室程序（socket） g710710 c++socket 多线程 c++聊天网络 winapi
先版本信息调用函数AfxSocketInit1BOOLCChatDlg::InitSocket(){m_socket=socket(AF_INET,SOCK_DGRAM,0);if(INVALID_SOCKET==m_socket){MessageBox("套接字创建失败！");returnFALSE;}SOCKADDR_INaddrSock;addrSock.sin_family=AF_INET
Python pdfminer.six库【PDF解析库】全面使用指南老胖闲聊 Python库大全 python pdf 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
微调大语言模型(生成任务)，怎么评估它到底“变好”了？茫茫人海一粒沙语言模型人工智能自然语言处理
随着大语言模型（如GPT、LLaMA）的广泛应用，越来越多团队开始基于它们做微调，定制符合自己业务需求的模型。微调虽能让模型更贴合任务，但评估是否真的“变好”却不是简单的事。本文将系统介绍微调过程中和微调完成后，如何科学有效地评估模型效果，帮助你用对指标，做出准确判断。一、微调时的评估：关注训练过程中的模型表现1.验证集Loss（ValidationLoss）微调训练时，我们会准备一部分数据作为验
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Word 中批量转换 LaTeX 公式为标准数学格式的终极方法（附宏设置教程）小灰兔的小白兔 word c#开发语言
在学术写作中，我们常常需要将LaTeX格式的公式插入到Word文档中。但如果你有一大段公式使用$...$或LaTeX命令，手动转换无疑非常耗时。本文将介绍一种“一键转换所有LaTeX公式为Word数学公式”的方法，只需设置一次宏，后续即可像“格式刷”一样使用！原理简介MicrosoftWord实际上内置了对LaTeX的识别能力，但需要配合“公式编辑框”使用。借助宏（Macro）功能，我们可以批量触
Git Worktree 实现 “一边修生产Bug，一边写新需求” 代码里的小猫咪 git git Worktree
1.什么是GitWorktree？传统Git切换分支时，工作区会完全覆盖当前文件。GitWorktree允许在同一个Git仓库中创建多个工作目录，每个工作目录可以独立地检出不同的分支。这意味着可以在一个仓库中同时处理多个任务，而不需要频繁地切换分支。实现：并行开发：同时在不同分支写代码、运行测试隔离环境：每个工作区独立编译/调试互不影响零切换成本：无需gitstash保存临时状态2.核心操作1.创
【通过 emit() 触发的自定义事件】软件205 VUE3API 前端 javascript 开发语言
@[TOC](通过emit()触发的自定义事件)子组件搜索重置constemit=defineEmits();.item-search{margin-left:12px;}父组件使用importFormSearchfrom"@/components/FormSearch/index.vue";consthandleQuery=()=>{console.log("搜索参数:",{...queryPa
深入理解提示词工程：原理、分类与实战应用小雷FansUnion AI2025 人工智能
一、什么是提示词工程（PromptEngineering）提示词工程是指通过设计和优化与大模型（如ChatGPT、文心一言等）交互的“提示词（Prompt）”，以获得更准确、更高效、更符合预期的模型输出结果的技术和方法。它是大模型应用开发中的核心环节。二、提示词的主要类型1.系统提示词（SystemPrompt）由开发者或系统设定，通常在对话开始时就注入，定义AI的角色、行为边界、风格、输出格式等
免费实时AI图片编辑工具-多模态大模型：GPT-4o、grok、豆包、BAGEL、MagicQuill、OmniGen2 loong_XL AIGC aigc
纯自然语言对话实现图像编辑；参考https://zhuanlan.zhihu.com/p/1890036563586577897GPT-4ohttps://chatgpt.com/geminihttps://gemini.google.com/grokhttps://grok.com/?referrer=website
终端里的AI黑魔法：OpenCode深度体验与架构揭秘许泽宇的技术分享人工智能 AICode
“你以为AI只能在网页上点点鼠标？不，真正的极客，AI要在终端里飞！”各位码农、终端党、AI爱好者们，今天我要带你们走进一个神秘的世界——OpenCode。这是一个让AI在你终端里“蹦迪”的神器。你还在用ChatGPT网页版复制粘贴代码？你还在羡慕ClaudeCode的智能补全？醒醒吧，OpenCode已经把AI搬进了终端，开源、可扩展、还不挑AI模型，关键是——它真的很酷！一、什么是OpenCo
java实现chatGPT SDK yusheng_xyb chatgpt 人工智能 java
搭建一个ChatGPT-SDK组件工程，专门用于封装对OpenAI接口的使用。由于OpenAI接口本身较多，并有各类配置的设置，所以开发一个共用的SDK组件，更合适我们在各类工程中扩展使用整个流程为：以会话模型为出口，，驱动整个服务的调用链路。并对外提供会话工厂的创建和使用。通过工厂模式，开启一个使用okhttp3封装的OpenAi会话服务，进行流程的调用。同时这里还包括请求拦截的处理，因为我们需
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p