wshzd

LLM（一）| 百川智能baichuan7B、13B、53B以及baichuan2总结

之前在文章baichuan-53B VS ChatGLM-6B对比中做过百川大模型53B和ChatGLM 6B模型的效果对比，由于百川大模型的内测模型是53B，因此本次对比参数量差异较大，但仍然可以看到两个模型的效果。百川大模型在benchmark上有超越ChatGLM和LLaMA的迹象，尤其是在中文任务上的表现，下面分别对7B、13B和53B模型进行简单总结：

一、baichuan-7B

2023年6月15日，百川智能发布了baichuan-7B，它基于 Transformer 结构，在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。

项目地址：https://github.com/baichuan-inc/baichuan-7B

预训练模型：https://huggingface.co/baichuan-inc/baichuan-7B

modelscope：https://modelscope.cn/models/baichuan-inc/baichuan-7B/

数据

原始数据包括开源的中英文数据和自行抓取的中文互联网数据，以及部分高质量知识性数据。
参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。我们基于启发式规则和质量模型打分，对原始数据集进行篇章和句子粒度的过滤。在全量数据上，利用局部敏感哈希方法，对篇章和句子粒度做滤重。

整体流程如下所示：

经过不断的调整和多轮测试，最终确认了一个在下游任务上表现最好的中英文配比。
我们使用了一个基于自动学习的数据权重策略，对不同类别的数据进行配比。

训练稳定性和吞吐

在原本的 LLaMA 框架上进行诸多修改以提升训练时的吞吐，具体包括：

算子优化技术：采用更高效算子，如 Flash-Attention，NVIDIA apex 的 RMSNorm 等。
算子切分技术：将部分计算算子进行切分，减小内存峰值。
混合精度技术：降低在不损失模型精度的情况下加速计算过程。
训练容灾技术：训练平台和训练框架联合优化，IaaS + PaaS 实现分钟级的故障定位和任务恢复。
通信优化技术，具体包括：
1. 采用拓扑感知的集合通信算法，避免网络拥塞问题，提高通信效率。
2. 根据卡数自适应设置 bucket size，提高带宽利用率。
3. 根据模型和集群环境，调优通信原语的触发时机，从而将计算和通信重叠。

基于上述的几个优化技术，我们在千卡 A800 显卡上达到了 7B 模型 182 TFLOPS 的吞吐，GPU 峰值算力利用率高达 58.3%。

最终的loss如下图：

二、baichuan-13B

2023年7月11日，百川智能正式发布130亿参数通用大语言模型（Baichuan-13B-Base）。并且官方对此的评价是：性能最强的中英文百亿参数量开源模型。

项目地址：https://github.com/Baichuan-inc/Baichuan-13B

预训练模型：https://huggingface.co/baichuan-inc/Baichuan-13B-Base

对话模型：https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

Model Scope：https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/summary

Baichuan-13B 有如下几个特点：

更大尺寸、更多数据：Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿，并且在高质量的语料上训练了 1.4 万亿 tokens，超过 LLaMA-13B 40%，是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语，使用 ALiBi 位置编码，上下文窗口长度为 4096；
同时开源预训练和对齐模型：预训练模型是适用开发者的『基座』，而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型（Baichuan-13B-Chat），具有很强的对话能力，开箱即用，几行代码即可简单的部署；
更高效的推理：为了支持更广大用户的使用，同时开源了 int8 和 int4 的量化版本，相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛，可以部署在如 Nvidia 3090 这样的消费级显卡上；
开源免费可商用：Baichuan-13B 不仅对学术研究完全开放，开发者也仅需邮件申请并获得官方商用许可后，即可以免费商用；

2.1 推理和部署

2.1.1 GPU直接部署

安装环境

pip install -r requirements.txt

方法一：Python代码方式

>>> import torch>>> from transformers import AutoModelForCausalLM, AutoTokenizer>>> from transformers.generation.utils import GenerationConfig>>> tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-13B-Chat", use_fast=False, trust_remote_code=True)>>> model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", device_map="auto", torch_dtype=torch.float16, trust_remote_code=True)>>> model.generation_config = GenerationConfig.from_pretrained("baichuan-inc/Baichuan-13B-Chat")>>> messages = []>>> messages.append({"role": "user", "content": "世界上第二高的山峰是哪座"})>>> response = model.chat(tokenizer, messages)>>> print(response)乔戈里峰。世界第二高峰———乔戈里峰西方登山者称其为k2峰，海拔高度是8611米，位于喀喇昆仑山脉的中巴边境上

模型加载指定 device_map='auto'，会使用所有可用显卡。如需指定使用的设备，可以使用类似 export CUDA_VISIBLE_DEVICES=0,1（使用了0、1号显卡）的方式控制。

方法二：命令行方式

python cli_demo.py

方法三：web方式

依靠streamlit运行以下命令，会在本地启动一个 web 服务，把控制台给出的地址放入浏览器即可访问。

streamlit run web_demo.py

2.1.2 量化部署

Baichuan-13B 支持 int8 和 int4 量化，用户只需在推理代码中简单修改两行即可实现。请注意，如果是为了节省显存而进行量化，应加载原始精度模型到 CPU 后再开始量化；避免在from_pretrained时添加device_map='auto'或者其它会导致把原始精度模型直接加载到 GPU 的行为的参数。

int8量化

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)model = model.quantize(8).cuda()

int4量化

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)model = model.quantize(4).cuda()

量化前后占用显存情况如下：

Precision	GPU Mem (GB)
bf16 / fp16	26.0
int8	15.8
int4	9.7

量化后在各个 benchmark 上的结果和原始版本对比如下：

Model 5-shot	C-Eval	MMLU	CMMLU
Baichuan-13B-Base	52.4	51.6	55.3
Baichuan-13B-Base-int8	51.2	49.9	54.5
Baichuan-13B-Base-int4	47.6	46.0	51.0

2.1.3 CPU部署

使用CPU进行推理大概需要 60GB 内存

model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float32, trust_remote_code=True)

2.2 微调

开发者可以对 Baichuan-13B-Base 或 Baichuan-13B-Chat 进行微调使用。团队测试了与 Baichuan-13B 兼容的微调工具 LLaMA Efficient Tuning，并给出全量微调和 LoRA微调的两种示范。

输入数据为放置在项目data目录下的 json 文件，用--dataset选项指定（参考下面示例），多个输入文件用,分隔。json 文件示例格式和字段说明如下：

[    {        "instruction": "What are the three primary colors?",        "input": "",        "output": "The three primary colors are red, blue, and yellow."    },    ....]

json 文件中存储一个列表，列表的每个元素是一个 sample。其中instruction代表用户输入，input是可选项，如果开发者同时指定了instruction和input，会把二者用\n连接起来代表用户输入；output代表期望的模型输出。

2.2.1 全量微调

微调环境：8 * Nvidia A100 80 GB + deepspeed

deepspeed --num_gpus=8 src/train_bash.py \    --stage sft \    --model_name_or_path baichuan-inc/Baichuan-13B-Base \    --do_train \    --dataset alpaca_gpt4_en,alpaca_gpt4_zh \    --finetuning_type full \    --output_dir path_to_your_sft_checkpoint \    --overwrite_cache \    --per_device_train_batch_size 4 \     --per_device_eval_batch_size 4 \     --gradient_accumulation_steps 8 \     --preprocessing_num_workers 16 \    --lr_scheduler_type cosine \    --logging_steps 10 \    --save_steps 100 \    --eval_steps 100 \    --learning_rate 5e-5 \    --max_grad_norm 0.5 \    --num_train_epochs 2.0 \    --dev_ratio 0.01 \    --evaluation_strategy steps \    --load_best_model_at_end \    --plot_loss \    --fp16 \    --deepspeed deepspeed.json

deep_speed.json 配置示例：

{  "train_micro_batch_size_per_gpu": "auto",  "zero_allow_untested_optimizer": true,  "fp16": {    "enabled": "auto",    "loss_scale": 0,    "initial_scale_power": 16,     "loss_scale_window": 1000,    "hysteresis": 2,    "min_loss_scale": 1  },    "zero_optimization": {    "stage": 2,    "allgather_partitions": true,    "allgather_bucket_size": 5e8,    "overlap_comm": false,    "reduce_scatter": true,    "reduce_bucket_size": 5e8,    "contiguous_gradients" : true  }}

2.2.2 LoRA微调

微调环境：1 * Nvidia A100 80 GB

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \    --stage sft \    --model_name_or_path baichuan-inc/Baichuan-13B-Base \    --do_train \    --dataset alpaca_gpt4_en,alpaca_gpt4_zh \    --finetuning_type lora \    --lora_rank 8 \     --lora_target W_pack \    --output_dir path_to_your_sft_checkpoint \    --overwrite_cache \    --per_device_train_batch_size 4 \     --per_device_eval_batch_size 4 \     --gradient_accumulation_steps 8 \     --preprocessing_num_workers 16 \    --lr_scheduler_type cosine \    --logging_steps 10 \    --save_steps 100 \    --eval_steps 100 \    --learning_rate 5e-5 \    --max_grad_norm 0.5 \    --num_train_epochs 2.0 \    --dev_ratio 0.01 \    --evaluation_strategy steps \    --load_best_model_at_end \    --plot_loss \    --fp16

同样还有其他微调框架可以支持微调baichuan-13B-Base模型，比如Firefly，想了解的读者可以参考文章微调百川Baichuan-13B保姆式教程，手把手教你训练百亿大模型。

三、baichuan-53B

8 月 8 日，百川智能发布新一代大模型 Baichuan-53B。不同于此前发布的 7B 和 13B 模型，Baichuan-53B 并没有走开源路线。Baichuan-53B 支持中英双语，在知识性上表现优异，相对此前两款模型有更好的表现，擅长知识问答、文本创作等领域。

百川强调了 Baichuan-53B 的三个技术优势：预训练数据、搜索增强和对齐能力，其中前两者与百川团队中丰富的搜索引擎经验有较强相关性。

预训练数据

预训练阶段，王小川表示，此前团队做搜索引擎的经验，让百川能够又快又好地完成前期数据积累，这也是百川此前两款开源模型能够迅速推出的原因之一。

「团队背景做了很多年的搜索，所以整个中文互联网里哪里有好的数据，我们团队是最清楚的，怎么把这些数据收集回来，质量做好，识别出来，我们以前有很强的积累和方法论。」百川智能联合创始人、大语言模型技术负责人陈炜鹏说道。

百川希望构建一个全面的世界知识体系，覆盖各个领域和学科的知识，通过整合各类信息源，确保文化、科学、技术等方面广泛的知识覆盖；
目前百川已经建立了一套系统的数据质量体系，包括低质、优质、类别等，确保整个预训练过程中维持高标准的数据质量，以让数据为最终模型训练的目标服务；
为保证数据的多样性并有效处理重复信息，百川设计了一个多粒度的大规模聚类系统。通过使用先进的聚类算法和方法，识别和整合相似或相关的数据，为去重、采样提供支撑；
百川还开发了一种细粒度的自动化匹配算法，自动配比各类任务，例如课程学习。从而实现个性化的模型学习，使预训练数据能够更精确地匹配用户需求；

搜索增强

王小川始终认为，过去 20 年搜索技术的积累是百川在大模型领域的优势。初期，这样的观点在行业里是一种「非共识」。

这次 Baichuan-53B 的开发过程中，百川应用了更多搜索相关的技术，实现模型优化与改进。

动态响应策略，依赖 Prompt，将指令任务细化为 16 个独立类别，覆盖各种用户指令的场景。
智能化搜索词生成，通过对问答样本进行精细化的人工标注，捕捉和理解用户多元化的志林需求。
高质量搜索结果筛选，百川构建了一个搜索结果相关性模型，对从搜索内容和知识库中获取的信息进行相关性频分，从而筛选出高质量的搜索引用内容，减少在知识抽取阶段引入的无关、低质量的信息。
回答结果的搜索增强，RLHF，让 Baichuan 大模型参照搜索结果，针对用户请求生成高价值且具有实时性的回答。

在采访中，陈炜鹏表示，不同于 ChatGPT 和 Bing 用插件将搜索和模型连接的方式，百川希望大模型和搜索引擎在模型层面有更强的交互。

「搜索和模型的结合从非常底层的地方就开始了。」王小川总结说。

四、baichuan2

9 月 6 日下午的发布会上，百川智能宣布正式开源微调后的 Baichuan-2 大模型。

这是百川自 8 月发布 Baichuan-53B 大模型后的又一次新发布。本次开源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本，并且均为免费可商用。

除了模型的全面公开之外，百川智能此次还开源了模型训练的 Check Point，并公开了 Baichuan 2 技术报告，详细介绍了新模型的训练细节。百川智能创始人兼 CEO 王小川表示，希望此举能够帮助大模型学术机构、开发者和企业用户深入了解大模型的训练过程，更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 大模型开原链接：https://github.com/baichuan-inc/Baichuan2
技术报告：https://cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

Baichuan2-13B-Base 相比上一代 13B 模型，数学能力提升 49%，代码能力提升 46%，安全能力提升 37%，逻辑推理能力提升 25%，语义理解能力提升 15%。

参考文献：

[1] https://mp.weixin.qq.com/s/DY0ZyV6-hVS8VN803K8H4w

[2] https://github.com/hiyouga/LLaMA-Efficient-Tuning

[3] https://mp.weixin.qq.com/s/gkom1eKDnXHzYf7JHG_gSQ

[4] https://mp.weixin.qq.com/s/ivMsRkN8RBq1V6sGJNzrnw

你可能感兴趣的:(ChatGPT,NLP,笔记,chatgpt,AIGC)

【笔记】DIDs 去中心化身份的相关名词释义 m0_47843842 去中心化
Authenticate身份验证是一个过程（通常是某种类型的协议），通过该过程，实体可以使用一种或多种验证方法证明其具有特定属性或掌控特定秘密。对于DID，一个常见的例子是证明对与DID文档中发布的公钥相关联的私钥的控制。Decentralizedidentifier(DID)不需要中心注册机构的全球唯一持久标识符，因为它是通过加密方式生成和/或注册的。DID的通用格式在DID核心规范[DID-C
ECDSA数字签名
ECDSA算法（深入浅出密码学笔记）ECDSA标准中的步骤与DSA方案的步骤在概念上紧密相连，但ECDSA中的离散对数问题是在椭圆曲线群中构建起来的。因此，实际计算一个ECDSA签名所执行的算术运算与DSA中的完全不同。ECDSA标准是针对素数域Zp\mathbb{Z}_pZp和有限域GF(2m)GF(2^m)GF(2m)上的椭圆曲线定义的密钥生成使用椭圆曲线EEE，其中：模数为ppp；系数为aa
【学习】《算法图解》第九章学习笔记：迪杰斯特拉算法程序员
一、迪杰斯特拉算法概述迪杰斯特拉算法（Dijkstra'salgorithm）是一种解决带权有向图上单源最短路径问题的贪心算法，由荷兰计算机科学家艾兹赫尔·迪杰斯特拉（EdsgerW.Dijkstra）于1956年提出。该算法常用于路由协议，也可以用作其他图算法的子程序。（一）算法适用场景迪杰斯特拉算法适用于：带权有向图（每条边都有权重）所有权重都为非负值（不能有负权边）需要找出从一个顶点到图中所
CNN-GRU混合模型学习笔记 weixin_54372988 cnn gru 学习
GRU学习笔记CNN：卷积神经网络GRU（GateRecurrentUnit），门控循环单元CNN：卷积神经网络3个组成部分：1.卷积层——提取图像局部特征2.池化层——降维（防止过拟合）3.全连接层——输出结果一个卷积核扫完整张图片，得到每个小区域的特征值具体应用中通常有多个卷积核CNN可能有多层结构，如LeNet-5：卷积层–池化层–卷积层–池化层–卷积层–全连接层处理时间序列（1D序列）：（
Kyle的天机学堂学习笔记 Z2475269074 学习笔记
本文将展示一个小白从0->1完成项目的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考DAY1Maven子工程会继承父工程所有依赖有三套生命周期，互不干扰且同一生命周期内执行命令会以此完成之前的命令1.clean2.default(compile,test，package,install)3.site(deploy)对象DTO数据传输对象，用于服务端与客户
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
WPF学习笔记（6）——WPF+Stylet+MVVM：ListBox添加项、获取所选项、删除项、删除所选项 billy_gisboy #WPF/MVVM wpf mvvm c#
功能描述使用Stylet框架，对WPF进行MVVM模式下的开发。不在xaml.cs中写业务逻辑，业务逻辑均在VM中，且业务逻辑只针对属性，不涉及ListBox控件。实现功能：（1）ListBox添加一个项，项具有图片、信息（2）展示一个所选项的信息（3）删除一个项（4）删除所选项实现效果首先创建学生类namespaceStyletTest.Model{publicclassStudent{////
WPF学习笔记（8）数据绑定方向与INotifyPropertyChanged 三千道应用题 WPF学习笔记 wpf
数据绑定方向与INotifyPropertyChanged一、数据绑定方向1.OneWayToSource2.OneWay3.TwoWay二、INotifyPropertyChanged总结一、数据绑定方向Binding类的Mode属性可以指定数据绑定的方向：官方文档：https://learn.microsoft.com/zh-cn/dotnet/api/system.windows.data.
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
Qt 各种功能学习笔记栈不收 qt 学习笔记
目录1.Qt关于数据库1.1Qt链接数据库1.2将数据库的模型显示在控件中2.Qt关于控件2.1用正则表达式设置输入框只能输入正浮点数2.2设置QDateTimeEdit的时间格式和设置为当前时间1.Qt关于数据库1.1Qt链接数据库基础教学：使用Qt链接MySql数据库_qt连接mysql_栈不收的博客-CSDN博客需要注意的问题：在链接MySQL的时候，首先要确保MySQL已经安装成功在目录Q
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
数据结构笔记3：双向链表逑之数据结构笔记链表 c语言学习经验分享算法
目录双向链表的方法：双向链表的初始化方法我们可以对比双向链表和单链表方法在实现上的区别：双向链表的实现引进头结点的概念：双向链表的优势：1、尾插尾删2、指定位置的插入和删除双向链表：也叫做有头节点的双向循环链表双向链表的方法：typedefintLTDataType;typedefstructListNode{LTDataTypex;structListNode*next;structListNo
C语言笔记1：编译和链接、算术操作符、转义字符等。逑之笔记学习 c语言经验分享
目录关键字：编译和链接：字符数组:转义字符：负数取模：输入输出函数：关键字：关键字是C语言保留的，具有特殊含义和用途的标识符，也叫作保留字。具体详见下面博主链接：C语言关键字详解-CSDN博客需要注意的一点是：define不是C语言的关键字。因为#define这一段代码是由预处理器来处理的，而不是由编译器来直接解析的，故而不算C语言语法的一部分。同理include也不是C语言的关键字。#defin
加快Dlib人脸检测速度 weixin_46019223 opencv 人脸识别视频处理机器学习
加快Dlib人脸检测速度前言一、让电脑以最大运行效率运行二、开启Dlib自带的加速三、彩色图像转灰度图像四、其它的坑总结前言使用dlib人脸检测接口detector()速度过慢,导致视频只有1帧所以找了一些方法,并解决了一些问题将视频帧数提升到了十几帧。一、让电脑以最大运行效率运行之前笔记本电脑,都是没插电源运行得,插了之后视频变成了两帧(-_-||),但是可以查看电脑电源设置,查看cup是否全速
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
vue项目做导入excel（通过base64）
最近项目的需求，记录下笔记要求：1..xls后缀名文件2.文件不超过10M3.转成base64传给后端导入excel//点击导入exceluploadFile(res){letfile=res.filethis.getBase64(file).then(baseFile=>{letdata=baseFile.split(';')[1]//base64的截取,根据后端要求截取的后半截的this.sa
SerDes学习-提纲 Xuan.Yang serdes serdes 混合信号电路信号完整性
#记录一下学习serdes的笔记首先已有PLL的学习基础，国内serdes体系书籍比较少，大部分外文中文课程：b站，jrilee老师PLL、AIC、equalizer、CDR等均有讲解，较为系统，可按顺序学习，附主页链接：https://space.bilibili.com/1629031600/listsserdes两个很重要的东西PLLCDRDataLink/SerDesAmplifiersl
当语言模型”思考”时，它真的在推理吗？ qq_502428990 语言模型人工智能自然语言处理
最近，每当我看到ChatGPT一步步”推导”数学题，或是Claude条理分明地分析哲学问题时，总忍不住想起图灵测试那个古老的命题：我们是否又一次被表象迷惑了？这些看似严谨的推理过程，到底是一场精妙的模仿秀，还是真正智能的曙光？1.被误解的”思考者”走进任何科技论坛，你都能看到人们对GPT-4解题过程的惊叹：”看这一步一步的推导，它简直像人类一样在思考！”但作为一个长期观察语言模型的研究者，我不得不
vue中导入导出Excel 前端小白一枚笔记 vue导入导出Excel
以下仅个人做笔记使用：简单版导出Excel1、安装依赖：cnpminstall--savexlsxfile-savercnpmiscript-loader-S2、下载两个js文件：Blob.js和Export2Excel.js（放在最后面）3、添加导出按钮：导出数据4、添加导出事件：derive(){this.$http.post('admin/service_list',{pre_page:th
Android笔记（十五）ContentProvider源码浅析 jametang25 andorid
ContentProvider作为四大组件之一，由于业务上用到的地方不多,目前业务是系统界面，属于系统应用，最适合使用ContentProvider来进行少量数据存储，我们业务中涉及到的Settings.system和Settings.Secure等数据库，就是通过ContentProvider来封装、用ContentResolver来访问的//通过ContentResolver来访问Settin
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
AI对话导出工具 (AI Chat Exporter)——支持 ChatGPT, Grok 和 Gemini 平台 ALGORITHM LOL 人工智能 chatgpt
AI对话导出工具(AIChatExporter)轻松将AI对话导出为标准Markdown格式支持ChatGPT,Grok和Gemini平台相关代码已开源至Github欢迎Star✨功能特点多平台支持：同时支持ChatGPT,Grok和Gemini三大AI平台完整内容保留：精确导出所有对话内容，包括代码块、数学公式、链接和格式化文本标准Markdown格式：输出符合标准的Markdown格式，确保最
ChatGPT驱动的跨学科研究灵感挖掘指南学境思源AcademicIdeas 学境思源 AI写作 ChatGPT chatgpt
跨学科研究已成为解决复杂问题的重要手段。学境思源，无论是人工智能与心理学的结合，一键生成论文初稿！还是生态学与经济学的融合，越来越多的研究者正试图打破学科界限，探索全新问题域。但问题是：acaids.com。我们如何高效发现这些跨学科交叉点？使用传统方式，像文献综述、领域专家访谈或大型头脑风暴虽有效，但耗时，且受限于已有认知。今天为大家分享一种高效、智能、可复制的方法——利用ChatGPT进行跨学
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
【算法笔记】红黑树插入操作 PXM的算法星球算法笔记算法笔记
红黑树插入与调整详解一、红黑树的五大性质红黑树是一种自平衡的二叉搜索树（BST），其核心特性如下：颜色属性：每个节点非红即黑根属性：根节点必须为黑色叶子属性：所有的NIL叶子节点都是黑色红节点约束：红色节点的子节点必须为黑色（即无连续红节点）黑高平衡：从任一节点到其所有后代叶子节点的路径中，黑色节点数量相等二、插入操作流程阶段1：标准BST插入从根节点开始查找插入位置新节点总是红色按照BST规则插
Git 学习笔记笑衬人心。 git 学习笔记
Git简介Git是一个分布式版本控制系统，用于跟踪文件更改，协作开发软件项目。特点：分布式：每个开发者本地都有完整仓库。高效：分支和合并操作快速。安全：数据通过哈希存储，不易被篡改。安装GitWindows:下载地址：https://git-scm.com/安装后可使用GitBash。macOS:brewinstallgitLinux:sudoaptupdatesudoaptinstallgitG
路由器对数据包的处理过程分析笔记月生言己笔记智能路由器网络
虽然TCP-IP协议中传输数据会在各个路由器再次经过物理层、链路层、网络层的解封装、加工、封装、转发，但是对于两个主机间的运输层，在逻辑上，应用进程是直接通信的。路由器主要工作在网络层，但它也涉及到物理层和链路层的一些功能。以下是路由器在这三个层面上对数据进行的处理：物理层：在物理层，路由器负责接收和发送比特流（即电信号、光信号等）。这包括编码和解码信号，以及处理接口上的物理连接。路由器的每个端口
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1