tzc_fly

基础语言模型LLaMA

LLaMA包含从7B到65B参数的基础语言模型集合。Meta在数万亿个tokens上训练了模型，LLaMA-13B在大多数基准测试中优于GPT-3（175B）。

来自：LLaMA: Open and Efficient Foundation Language Models

背景概述
方法
- 预训练数据
- 架构
- Optimizer
- 有效的实现
主要结果
- 常识推理
- 闭卷问答
- 阅读理解
- 数学推理
- 代码生成
- 大规模多任务语言理解
- 训练期间的性能变化
LLM的预训练和微调
- 预训练
- prompt设计
- NLP指令微调
- 与人类对齐

背景概述

在大量文本语料库上训练的大型语言模型已经显示出它们能够从文本指令或几个示例中执行新任务。当将模型scaling到足够的大小时，few-shot属性首次出现，导致一系列工作的重点是进一步scaling这些模型。这些工作是基于这样的假设：更多的参数将带来更好的性能。然而，大多数研究表明，对于给定的计算预算，最佳性能不是由最大的模型实现的，而是由经过更多数据训练的较小模型实现的（Training Compute-Optimal Large Language Models，Hoffmann）。

Hoffmann提出的目标是确定如何最佳地缩放特定训练计算预算的数据集和模型大小。然而，这个目标忽略了推理预算。在这种情况下，给定一个目标性能水平，首选模型不是训练速度最快的，而是推理速度最快的，尽管训练一个大模型以达到某个水平可能更容易，一个更小、训练时间更长的模型在推理上最终会更容易做到。例如，Hoffmann建议在200B tokens上训练10B的模型，但Meta发现即使在1T tokens之后，7B模型的性能仍在继续提高。

LLaMA的重点是训练一系列语言模型，通过训练比平时使用更多的tokens，在各种推理预算下实现最佳性能。其参数范围从7B到65B，与现有最佳LLM相比具有竞争力。例如，LLaMA-13B在大多数基准测试中优于GPT-3，尽管体积小了10倍。在更大的规模上，65B参数模型也可以与最好的大语言模型（如Chinchilla或PaLM-540B）竞争。

与Chinchilla，PaLM或GPT-3不同，Meta只使用公开可用的数据，从而与开源兼容，而大多数现有模型依赖于非公开可用的数据（例如"Books-2TB"或"Social media conversations")。也有一些例外，比如OPT、GPT-NeoX、BLOOM和GLM（GLM-130B: An Open Bilingual Pre-trained Model），但它们都不能与PaLM-62B或Chinchilla竞争。

方法

预训练数据

图1：7B，13B，33B和65B模型的训练tokens的训练损失。LLaMA-33B和LLaMA-65B在1.4T tokens上进行训练。较小的模型在1.0T tokens上进行训练。所有模型都以4M tokens的批处理大小进行训练。

表1：用于预训练的数据集混合。

LLaMA的训练数据集是几个来源的混合，如表1所示，涵盖了不同的领域。在大多数情况下，Meta重用了用于训练其他LLM的数据源，但限制是只使用公开可用的数据。这将带来以下混合数据及其在训练集中所代表的百分比：

English CommonCrawl：使用CCNet管道预处理了五个CommonCrawl dumps，范围从2017年到2020年。该过程在line级别上处理数据，使用fastText线性分类器执行语言识别以删除非英语页面，并使用n-gram语言模型过滤低质量内容。此外，Meta训练了一个线性模型，将维基百科中用作参考文献的页面与随机抽样页面进行分类，并丢弃被分类为参考文献的页面。
C4：在探索性实验中，发现使用不同预处理CommonCrawl数据集可以提高性能。因此，Meta在数据中包含了公开可用的C4数据集。C4的预处理还包含重复数据删除和语言识别步骤：与CCNet的主要区别在于质量过滤，主要依赖于启发式方法，如标点符号的存在或网页中单词和句子的数量。
Github：使用Google BigQuery上的公共GitHub数据集。只保留在Apache、BSD和MIT许可证下发布的项目。此外，使用基于行长度或字母数字字符比例的启发式方法过滤低质量文件，并使用正则表达式删除样板文件，例如头文件。最后，在文件级别对结果数据集进行重复数据删除，并进行精确匹配。
Wikipedia：添加了2022年6月至8月期间的维基百科dumps，覆盖20种语言。已经删除超链接，注释和其他格式化样板。
Gutenberg and Books3：在训练数据集中包含了两个图书语料库：古登堡项目（Gutenberg Project），其中包含公共领域的图书；ThePile的Books3，这是一个用于训练大型语言模型的公开数据集。Meta在book级别执行重复数据删除，删除内容重叠超过90%的books。
ArXiv：Meta处理了arXiv Latex文件，添加到数据集中。删除了第一节之前的所有内容，以及参考文献，还删除了.tex文件中的注释，以及由用户编写的内联扩展的定义和宏，以增加论文之间的一致性。
Stack Exchange：包括了Stack Exchange的dumps，这是一个高质量的具有问题和答案的网站，涵盖了从计算机科学到化学的各种领域。Meta保留了来自28个最大网站的数据，从文本中删除了HTML标签，并按分数（从最高到最低）对答案进行了排序。

Tokenizer：Meta使用字节对编码算法对数据进行标记，使用来自sentence-piece的实现。值得注意的是，将所有数字拆分为单个数字，并退回到字节来分解未知的UTF-8字符。

总的来说，LLaMA的整个训练数据集在标记化（tokenization）后大约包含1.4T个tokens。对于大多数训练数据，每个token在训练期间只使用一次，除了Wikipedia和Books，Meta在其上执行大约两个epochs。

架构

网络基于transformer架构。并且Meta利用了后来方法提出的各种改进（如PaLM）。以下是与原始架构的主要区别，以及找到这种变化的灵感的地方：

Pre-normalization[GPT3]：为了提高训练的稳定性，Meta对每个transformer子层的输入进行归一化，而不是对输出进行归一化，使用了由Zhang和Sennrich引入的RMSNorm归一化函数。
SwiGLU activation function[PaLM]：为了提高性能，我们用Shazeer引入的SwiGLU激活函数取代了ReLU非线性。使用的维度是 $\frac{2}{3}4d$ ，而不是PaLM中的 $4 d$ 。
Rotary Embeddings[GPTNeo]：删除了绝对位置嵌入（absolute positional embeddings），取而代之的是在网络的每一层添加由Su等人引入的旋转位置嵌入（rotary positional embedding）。
更多细节见表2。

表2：模型大小、架构和优化超参数。

Optimizer

模型使用AdamW优化器进行训练，具有以下超参数： $\beta_1 = 0.9$ ， $\beta_2 = 0.95$ 。使用余弦学习率调度，使得最终学习率等于最大学习率的10%。使用0.1的权重衰减和1.0的梯度裁剪。使用2000个warmup steps，并且根据模型的大小来改变学习率和批处理大小（见表2）。

有效的实现

Meta做了一些优化来提高模型的训练速度。首先，使用causal multi-head attention的有效实现来减少内存使用和运行时间。该实现可在xformers库中获得（https://github.com/facebookresearch/xformers）。这是通过不存储注意力权重和不计算由于语言建模任务的因果性质而被掩盖的key和query分数来实现的。

因果注意力（Causal Attention）是一种注意力机制，用于处理序列数据或图像数据中的因果关系。在传统的注意力机制中，每个位置或节点都可以关注其他位置或节点的信息，但在因果注意力中，只有当前位置或节点能够关注过去的位置或节点，而不能关注未来的位置或节点。

因果注意力主要应用于需要考虑时间顺序或图像中的空间关系的任务。

例如，在序列数据中，如语言模型或机器翻译任务中，因果注意力可以确保模型在生成当前位置的预测时只使用过去的信息，避免了信息泄漏或未来信息的依赖。
在图像数据中，因果注意力可以用于处理具有层次结构的图像数据，确保每个位置只关注其上一层次的位置。

一种常见的因果注意力机制是自回归性质的注意力机制。在自注意力机制中，通过引入遮蔽掩码（Masking）来限制注意力的范围，使得当前位置只能关注之前的位置，从而实现因果性。总之，因果注意力是一种限制了关注范围，使得模型只能关注过去信息的注意力机制，用于处理需要考虑因果关系的任务。

当训练65B模型时，Meta在 2048 A100 GPU 和 80GB RAM 上处理大约380个tokens/秒/GPU。这意味着在包含1.4T tokens的数据集上进行训练大约需要21天。

主要结果

主要测试了两类任务，Few-shot和zero-shot，并在20个基准上测试：

Zero-shot：提供了任务的文本描述和测试示例。该模型要么使用开放式生成（open-ended generation）提供答案，要么对建议的答案（proposed answers）进行排序。
Few-shot：提供了该任务的几个示例（在1到64之间）和一个测试示例。模型将此文本作为输入，并生成答案或对不同选项进行排序。

Meta将LLaMA与其他基础模型进行比较，包括非公开语言模型GPT-3、Gopher、Chinchilla和PaLM，以及开源的OPT模型、GPT-J 和GPTNeo。还简要地比较了LLaMA与指令微调（instruction-tuned）模型，如OPT-IML和Flan-PaLM。

Meta在自由格式生成任务（free-form generation tasks）和多项选择任务（multiple choice tasks）上评估了LLaMA。在多项选择中，目标是根据给定的上下文，从一组给定的选项中选择最合适的completion。在给定上下文的情况下，选择可能性最大的completion。

常识推理

Meta考虑了八个标准的常识推理基准：BoolQ，PIQA，SIQA，HellaSwag，WinoGrande ，ARC easy and challenge和OpenBookQA。这些数据集包括完形填空和Winograd风格的任务，以及选择题答案。Meta在Zero-shot设置中进行评估，就像在语言建模中一样。

在表3中，与现有不同规模的模型进行了比较。首先，LLaMA-65B在所有报告的基准测试中都优于Chinchilla-70B，但BoolQ除外。同样，除了在BoolQ和WinoGrande上，LLaMA-65B在所有方面都超过了PaLM540B。LLaMA-13B模型在大多数基准测试中也优于GPT-3，尽管体积小了10倍。

闭卷问答

Meta在两个闭卷问答基准上将LLaMA与现有的大型语言模型进行了比较：自然问题和TriviaQA。对于这两个基准，模型无法访问包含回答问题的证据的文档。在这两个基准上，LLaMA-65B在zero-shot和few-shot设置中实现了最先进的性能。更重要的是，LLaMA-13B在GPT-3和Chinchilla的这些基准测试中也具有竞争力，尽管它比GPT-3小5-10倍。该模型在推理过程中运行在单个V100 GPU上。

Natural Questions和TriviaQA的格式化数据集示例。

阅读理解

根据RACE阅读理解基准评估模型。这个数据集是从为中国中学生和高中生设计的英语阅读理解考试中收集的。在基准测试中，LLaMA-65B与PaLM-540B具有竞争力，并且LLaMA-13B的性能优于GPT-3几个百分点。

数学推理

根据两个数学推理基准：MATH和GSM8k。MATH是一个用LaTeX编写的12K中学和高中数学问题的数据集。GSM8k是一组中学数学问题。Meta与PaLM和Minerva进行了比较。Minerva是一系列对从ArXiv和Math网页中提取的38.5B tokens进行微调的PaLM模型，而PaLM和LLaMA都没有对数学数据进行微调。maj1@k表示为每个问题生成k个样本并进行多数投票的评估。在GSM8k上，观察到LLaMA65B的性能优于Minerva-62B，尽管它尚未在数学数据上进行微调。

MATH使用k=256个样本，GSM8k使用k=100个样本。

代码生成

Meta评估了模型在两个基准上根据自然语言描述编写代码的能力：HumanEval和MBPP。对于这两项任务，模型都会收到用几句话描述的程序，以及一些输入输出示例。在HumanEval中，它还接收一个函数签名，并且提示被格式化为自然代码，并在文档字符串中包含文本描述和测试用例。模型需要生成一个符合描述并满足测试用例的Python程序。另外，可以通过对特定于代码生成任务的tokens进行微调来提高代码生成的性能。

大规模多任务语言理解

Hendrycks等人引入大规模多任务语言理解基准（MMLU）：由涵盖人文学科、STEM和社会科学等各个知识领域的多项选择题组成。Meta使用基准提供的示例，在5-shot设置中评估模型。在这个基准上，观察到LLaMA-65B在大多数领域中平均落后于Chinchilla70B和PaLM-540B几个百分点。一个潜在的解释是，在训练前的数据中使用了有限数量的书籍和学术论文，即ArXiv、Gutenberg和Books3，总计只有177GB，而其他模型是在高达2TB的书籍上训练的。Gopher、Chinchilla和PaLM使用的大量书籍也可以解释为什么Gopher在这个基准上优于GPT-3。

训练期间的性能变化

在训练过程中，Meta跟踪了模型在一些问答和常识基准上的性能，并在图2中进行了报告。在大多数基准测试中，性能稳步提高，并与模型的训练损失相关（见图1）。SIQA和WinoGrande是例外。最值得注意的是，在SIQA上，观察到性能有很多差异，这可能表明该基准不可靠。在WinoGrande上，表现与训练损失并不相关：LLaMA-33B和LLaMA-65B在训练中表现相似。

图2：训练期间问答和常识推理表现的变化。

关于指令微调：虽然未经微调的LLaMA-65B版本已经能够遵循基本指令，但观察到，非常少量的微调提高了MMLU上的性能，并进一步提高了模型遵循指令的能力。

LLM的预训练和微调

本节内容来自：https://zhuanlan.zhihu.com/p/643611622

预训练

基于Transformer自回归的LM的预训练方法是让模型做 Next Token Prediction 任务。基于GLM（General Language Model Pretraining with Autoregressive Blank Inﬁlling）的LM的预训练方法是让模型做自回归空白填充任务（按照自编码的思路，从输入文本中随机地空白出连续的token，并按照自回归的思路，训练模型来依次重建这些token）。LLM由于规模大，权重维度高，参数量以及数据量多，因此会带来训练不稳定，难以收敛，耗时长，计算资源庞大等问题。

预训练之后，需要评价模型的性能。LM的常用评价指标PPL主要用于评价LM生成的句子是否流畅和通顺。除此之外，更重要的是评测LLM对下游任务的知识蕴含能力，包括常识推理，问答，代码处理，数学推理，阅读理解等多种能力。

prompt设计

和以往专家模型的 “预训练+微调” 范式不同，当前LLM主要采用 “预训练+上下文学习” 的范式，因此需要对每个下游任务选择合适的prompt模板，帮助模型回忆起自己预训练学到的知识，做到下游任务和预训练任务的统一。

模板是一个文本字符串，有两个部分：一个输入槽 [X]，用于输入问题，一个输出槽 [Z]，用于中间生成的答案。在实际操作中，为了让模型理解任务，用问题和答案填充模板得到几个学习样例。然后用实际输入填充模板并和学习样例组合起来，得到完整的prompt一起输入模型。在情感分析任务中，模板的形式可以采用"[X], it is [Z].”。假设 X=“I like this dish” ，则完整的prompt则是“I like this dish, it is [Z].”。填充的答案在文本中间称为完形填空提示（cloze prompt），在文本末尾称为前缀提示（prefix prompt）。然后将生成的答案转换成任务需要的输出。下表展示了更多的示例。

NLP指令微调

经过预训练之后的LLM具有广泛的知识储备，拥有强大的自然语言推理和代码处理能力。但在某些任务上的Zero-Shot能力很差。为了进一步提高LLM在未见任务上的指令泛化能力，即Zero-Shot能力，需要在自然语言众包指令数据上微调预训练模型，参考论文FLAN。微调数据集来自于通用的NLP基准集，通过指令模板改造输入输出的格式得到CoT和非CoT任务的指令数据集。微调后可以显著提高在各种模型类（PaLM、T5、U-PaLM）、各种学习样例设置（Zero-Shot、Few-Shot、CoT）和各种未见评估基准（MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts）上的性能。

与人类对齐

该步骤的目的是使模型和人类对齐。通过使用用户的真实反馈对模型训练（SFT / RLHF），使LLM的输出更符合人类偏好，并与用户意图保持一致。这既包括明确的意图，如遵循指示，也包括隐含的意图，如保持诚实，不偏见，或其他有害的价值观。最关键的步骤是收集真实多样的指令以及回复，得到指令跟随数据集（问答形式）。同时，可以混合一些对话形式的指令跟随数据（把之前发生的所有对话都写进下一个问题的提示中），让LLM能够以对话形式和用户交流。

SFT：首先收集大量的<指令，回复>数据对，得到一个指令跟随数据集。然后用指令数据集通过有监督的方式对前面训练得到的LLM进行指令调优，得到SFT模型。到这一步得到的SFT模型已经能实现和人类很好的对齐。
RLHF：为了实现更好的对齐，可以继续用强化学习训练SFT模型。收集一组真实的指令集合，用SFT模型对每条指令生成回复，基于标注人员对回复按照多个指标进行人类偏好排序。用排序结果训练一个符合人类偏好的打分模型（Reward Model，RM）。最后，使用PPO算法用RM的打分优化SFT模型。

融合多模态
为了进一步让LLM获得图像理解能力，需要在LLM中融合多模态。一种做法是利用预训练的大型语言模型以及视觉编码器来构建多模态的统一模型。

WEBRTC基本概念 starmier
1.AIMDAIMD英文全称：AdditiveIncreaseMultiplicativeDecrease。TCP/IP模型中，属于[运输层]，为了解决[拥塞控制]的一个方法，即：加性增，乘性减，或者叫做“和式增加，积式减少”。示例：当TCP发送方感受到端到端路径无拥塞时就线性的增加其发送速度，当察觉到路径拥塞时就乘性减小其发送速度。TCP[拥塞控制]协议的线性增长阶段被称为避免拥塞。当TCP发送
什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
[特殊字符] HarmonyOS实战：跨设备文件传输系统的「无缝传送」秘籍
作为一个曾在会议室传1GB演示视频传到崩溃的开发者，今天要分享HarmonyOS分布式文件传输的实战！当初用断点续传功能救了我差点被毙掉的方案，现在把这些救命技巧全公开~一、文件传输的「崩溃瞬间」与需求上周给客户演示方案时，3台设备互传视频差点翻车：断网重传：会议室WiFi突然卡，传了一半的视频要重来多设备共享：手机、平板、电脑都要同步最新版PPT权限控制：怕客户误删源文件，得限制编辑权限Harm
Docker实战系列：使用Docker部署AI SSH客户端工具IntelliSSH 江湖有缘 Docker部署项目实战合集 docker 人工智能 ssh
Docker实战系列：使用Docker部署AISSH客户端工具IntelliSSH前言一、IntelliSSH介绍1.1IntelliSSH简介1.2IntelliSSH主要特点1.3主要使用场景二、本次实践规划2.1本地环境规划2.2本次实践介绍三、本地环境检查3.1检查Docker服务状态3.2检查Docker版本3.3检查dockercompose版本四、拉取IntelliSSH镜像五、部署
iOS 解析URL中的参数生成NSMutableDictionary 舒翱
#pragmamark-解析url中的参数，生成NSMutableDictionary-(NSMutableDictionary*)getURLParameters:(NSString*)urlStr{//查找参数NSRangerange=[urlStrrangeOfString:@"?"];if(range.location==NSNotFound){returnnil;}//以字典形式将参数返
Apache Ignite异常处理与故障管理指南张栋涓Kerwin
ApacheIgnite异常处理与故障管理指南概述在分布式系统中，异常处理和故障管理是确保系统稳定性的关键环节。ApacheIgnite作为一个高性能的内存计算平台，提供了完善的异常处理机制和故障管理策略。本文将深入解析Ignite中的异常类型、处理方式以及关键故障处理机制，帮助开发者构建更健壮的Ignite应用。Ignite常见异常类型及处理IgniteAPI定义了多种异常类型，每种异常都有其特
Linux 定时任务全解析：atd 与 crond 的区别及实战案例（含日志备份 + 时间写入）睡觉的时候不会困 Linux linux 服务器运维
1.atd和crond两个任务管理程序的区别atd：用于执行一次性的定时任务，即设置任务在某个特定的时间点仅执行一次，适合处理不需要重复执行的定时操作，比如在未来某个确切时间执行一个脚本、发送一份文件等场景。crond：用于执行周期性的定时任务，可按照设定的周期（如每分钟、每小时、每天、每周等）重复执行任务，常用来做系统监控、日志备份、定期数据清理或生成等周期性需求。对比项atdcrond任务执行
docker构建springboot镜像 frt6668 Spring Docker Springboot docker spring boot java
先在Linux服务器安装docker由于镜像现在访问不了，所以采用其它国内镜像的方法拉去镜像直接运行该命令：dockerpulldocker.1ms.run/library/openjdk:21前面是镜像地址，可以替换的地址有：https://docker.1ms.run毫秒镜像可用https://docker.xuanyuan.me轩辕镜像可用https://dislabaiot.xyz-可用h
重学前端006 --- 响应式网页设计 CSS 弹性盒子
文章目录盒模型一、盒模型的基本概念二、两种盒模型的对比举例三、总结Flexbox弹性盒子布局一、Flexbox的核心概念二、Flexbox的基本语法1.定义Flex容器2.Flex容器的主要属性3.Flex项目的主要属性三、Flexbox的常见布局示例四、FlexboxvsGrid布局五、总结imgobject-fitgapCSS::after伪元素详解1.基本概念2.基础语法3.关键注意事项以下
重学前端007 --- 响应式网页设计 CSS 排版 Sapphire～前端前端
文章目录导入字体总结浏览器给元素添加的默认值text-indent:-8px;1.text-indent属性的作用2.总结其他css导入字体这将导入OpenSans字体系列，字体粗细值为400、700和800。总结浏览器给元素添加的默认值元素默认外边距（Margin）默认内边距（Padding）作用-上下0.5em~1em无标题与内容分隔上下1em无段落间距/上下1em，左右40px无列表缩进上下
Shell脚本编程：从入门到精通的实战指南 Monkey的自我迭代 Linux linux ssh
一、Shell与Shell脚本概述Shell是用户与操作系统内核之间的命令解释器，它接收用户输入的命令并转换为系统调用，是Unix/Linux系统的核心交互界面。Shell脚本(ShellScript)则是将一系列Shell命令组织成文本文件，通过解释器批量执行的自动化工具，广泛应用于系统管理、日志分析和软件部署等领域。主流Shell类型：Bash(Bourne-AgainShell)：Linux
python双引号打不出来_在python 3中使用单引号和双引号时出错 - python weixin_39897749 python双引号打不出来
使用os.system（）函数时，我在python中遇到了EOL错误。以下是代码行生成错误：os.system("catsubdomains.txt|cut-d'"'-f1")基本上，我试图使用分号[“]修改输出字符串（双引号）参考方案如果需要在带"的字符串中编写"，则可以将其写为\""catsubdomains.txt|cut-d'\"'-f1"在PythonCloudFunction中使用错误
android单个页面切换_Android实现界面切换的两种方式 weixin_39939918 android单个页面切换
在初学Android开发过程中，一定会遇到实现两个界面互相切换的问题，有两种方法来实现这个功能，小编带大家一起学习一下；这种方法严格意义上不算是界面切换(纯属小编愚见)，因为它只是重新设置了一下界面的布局文件；比如我们在eclipse中新创建一个项目工程，会默认给我们两个文件，一个为MainActivity.java，另一个就是activity_main.xml，大家可以这样理解，MainActi
linux shell watchdog,使用shell编写的极简WatchDog weixin_39743603 linux shell watchdog
WatchDog-看门狗程序用于自动监测进程的运行状态，并按照需要重启进程。对于嵌入式系统的存储服务、网络服务程序经常因为各种错误出现中断，可以使用WatchDog来自动保持服务的可用。WatchDog可以使用shell来进行编写，这里给出一个极简的实现。1、基本逻辑检查进程是否存在。如果进程不存在，则启动之。如果进程存在，则跳过，休眠给定时间。再次检查进程，重复上面的步骤。2、极简版本编写脚本，
医疗AI应用中的幻觉缓解：案例与经验 AI天才研究院计算 AI人工智能与大数据 Agentic AI 实战人工智能 ai
医疗AI的“说谎”问题：如何让AI不再“信口开河”？——幻觉缓解的案例与经验关键词：医疗AI、幻觉现象、大语言模型、知识Grounding、多模态验证、临床安全、可解释性摘要：医疗AI（如大语言模型、辅助诊断系统）在提升医疗效率的同时，“幻觉”（生成不符合事实的医疗建议）成为其临床应用的致命隐患——比如告诉糖尿病患者“吃蜂蜜能降血糖”、编造不存在的药物副作用。本文用“小朋友乱说话”的类比拆解幻觉的
python办自动化--读取邮箱中特定的邮件，并下载特定的附件宝山哥哥 python办公自动化 python 自动化信息可视化
系列文章目录python办公自动化–数据可视化（pandas+matplotlib）–生成条形图和饼状图python办公自动化–数据可视化（pandas+matplotlib）–生成折线图python办公自动化–数据可视化（pandas读取excel文件，matplotlib生成可视化图表）python办公自动化-openpyxl学习-工资表生成工资条python办公自动化–使用将csv大文件分割
springboot 不加载mybatiesPlus的mapper.xml文件的解决方法奇纳尼 mapper.xml mybatiesPlus springboot
1:在pom.xml中加入src/main/java**/*.xmlfalse2:在application.properties中加入#配置mapperxml文件的路径,这个配置以后mybaties的xml文件就能被编译加载，还需要在pom.xml中配置，这个项目是父工程service#的pom.xml加的配置，，两个配置缺一不可mybatis-plus.mapper-locations=clas
Kafka单条消息长度限制详解及Java实战指南
在分布式消息系统中，Kafka以其高吞吐、低延迟的特性成为主流选择。但很多开发者在使用时会遇到一个常见问题：单条消息长度限制。本文将深入剖析Kafka的消息大小限制机制，并提供Java解决方案。一、Kafka消息长度限制核心参数Kafka通过多级配置控制消息大小，关键参数如下：配置项作用范围默认值说明message.max.bytesBroker1MB(1048588)Broker允许的最大消息尺
阿里P8架构大神分享纯手写“kafka文档”看完直呼太牛！ chenxuyuana kafka java 分布式
什么是KafkaKafka是由Linkedin公司开发的，它是一个分布式的，支持多分区、多副本，基于Zookeeper的分布式消息流平台，它同时也是一款开源的基于发布订阅模式的消息引擎系统。kafka的外在表现很像消息系统，允许发布和订阅消息流，但是它和传统的消息系统有很大的差异：首先，kafka是个现代分布式系统，以集群的方式运行，可以自由伸缩其次，kafka可以按照要求存储数据，保存多久都可以
《金色光芒》泰剧【1080p超清泰语中字】金色光芒(2024)全集完整未删减版免费在线观看夸克网盘高清迅雷网盘百度云 6a3de85245co
泰剧《金色光芒》以女性主角ThongPrakai的视角，讲述了一位勇敢女性为了追求更美好的生活，独自踏足曼谷的励志故事。在这里，她与九位性格迥异的男性角色相遇，他们各自以独特的方式影响着ThongPrakai的命运，成为了她追求成功的媒介。一起来看看《金色光芒》泰剧【1080p超清泰语中字】金色光芒(2024)全集完整未删减版免费在线观看夸克网盘高清迅雷网盘百度云吧。金色光芒链接：https://
如何选择数据库？从真实案例看 PostgreSQL 与 MySQL 的优劣权衡
关系型数据库是几乎所有互联网应用的基础。在众多开源选项中，PostgreSQL和MySQL是最常被拿来对比的一对“老对手”。虽然它们都讲SQL，但在设计哲学、性能表现和功能特性上差异明显。本篇文章结合了包括Uber在内的实际案例、AI辅助建模的开发经验，并推荐一些实际工具，帮助开发者更清晰地做出技术选型。为什么数据库选型至关重要？数据库并不是“越强越好”，关键在于是否匹配你项目的业务模型、数据访问
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
从技术原理到应用场景：优秘AI数字人如何重构虚拟交互逻辑
在数字化浪潮的推动下，虚拟交互已经成为我们生活中不可或缺的一部分。无论是与智能音箱对话、通过虚拟助手处理日常事务，还是在元宇宙中与虚拟角色互动，人类对更自然、更高效的交互体验的需求日益增长。然而，现有的交互方式仍然存在诸多痛点：效率低下、理解能力有限、情感表达缺失……如何突破这些技术瓶颈？优秘AI数字人凭借其领先的技术和创新的应用场景，正在重构虚拟交互的逻辑。本文将从技术原理到应用场景，全面解析优
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
Android-Compose初步学习总结
一、JetpackCompose的生命周期JetpackCompose中，组合是由可组合项构成的树状结构，用于描述应用界面。它通过初始组合生成，并仅能通过重新组合更新——当应用状态变化时，Compose会安排重新组合，仅重新执行受状态变化影响的可组合项，而非整个UI树。可组合项的生命周期包含三个阶段：进入组合、经历0次或多次重新组合、最终离开组合。组合中可组合项的实例由其调用点（即调用可组合项的源
Android-jetpack之DataBinding实战应用
一、DataBinding基础配置1.启动流程在build.gradle中启用：android{dataBinding{enabled=true}}这会让编译器为每个布局文件生成对应的绑定类（如ActivityMainBinding、DetailsFragmentBinding）。2.布局文件转换将普通布局文件转换为DataBinding布局，需要在根标签外包裹标签：二、绑定基础操作1.绑定基本数
Builder.ai的破产：AI独角兽的幻灭与启示
Builder.ai的崛起与资本狂欢Builder.ai的崛起与资本狂欢2016年，当印度裔工程师SachinDevDuggal在伦敦创立Engineer.ai（后更名为Builder.ai）时，这位被媒体称为"AI界马斯克"的连续创业者或许未曾预料，自己将掀起一场持续近十年的资本狂欢。毕业于英国帝国理工学院的Duggal早已是创投圈的"明星人物"——14岁通过组装PC开启职业生涯，17岁为德意志
Word 编写的宏不显示/找不到宏问题解决拂过世俗的风 word 经验分享笔记学习方法
问题原因分析及解决办法总结问题Word显示找不到宏或宏被禁用。使用AI生成的VBA代码在保存后无法再宏列表中找到。原因分析及解决办法由于安全问题，宏被禁用了。如果你信任宏的来源，可以在Word-文件-选项-信任中心-信任中心设置中，选择“启用所有宏”以及勾选“信任对VBA工程对象模型的访问”并保存。VBA代码有问题。如果VBA代码有问题，比如语法错误（如拼写错误、漏掉ENDSub等）、没有正确保存
c++，从汇编角度看lambda Kira Skyler CPP c++汇编
本篇作为c++，从汇编底层角度深入理解带捕获的lambda如何转化为std：：function的开胃小菜#include#includeintmain(intargs,char*argv[]){[](){std::coutint{std::coutint{std::coutint{std::cout:intmain(intargs,char*argv[]){#申请了0x20大小的栈空间401236
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出