QbitAl

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊

编者按：

只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔® Extension for Transformer创新工具包中的LLM Runtime为诸多模型显著降低时延，且首个token和下一个token的推理速度分别提升多达40倍和2.68倍，还能满足更多场景应用需求。

英特尔^® Extension for Transformer是什么？

英特尔® Extension for Transformers[1]是英特尔推出的一个创新工具包，可基于英特尔® 架构平台，尤其是第四代英特尔® 至强® 可扩展处理器（代号Sapphire Rapids[2]，SPR）显著加速基于Transformer的大语言模型(Large Language Model,LLM)。其主要特性包括：

通过扩展Hugging Face transformers API[3]和利用英特尔® Neural Compressor[4]，为用户提供无缝的模型压缩体验；
提供采用低位量化内核（NeurIPS 2023：在CPU上实现高效LLM推理[5]）的LLM推理运行时，支持Falcon、LLaMA、MPT、Llama2、 BLOOM、OPT、ChatGLM2、GPT-J-6B、Baichuan-13B-Base、Baichuan2-13B-Base、Qwen-7B、Qwen-14B和Dolly-v2-3B等常见的LLM[6]；
先进的压缩感知运行时[7]（NeurIPS 2022：在CPU上实现快速蒸馏和QuaLA-MiniLM：量化长度自适应MiniLM；NeurIPS 2021：一次剪枝，一劳永逸：对预训练语言模型进行稀疏/剪枝）。

本文将重点介绍其中的LLM推理运行时（简称为“LLM运行时”），以及如何利用基于Transformer的API在英特尔® 至强® 可扩展处理器上实现更高效的LLM推理和如何应对LLM在聊天场景中的应用难题。

LLM运行时(LLM Runtime)

英特尔® Extension for Transformers提供的LLM Runtime[8]是一种轻量级但高效的LLM推理运行时，其灵感源于GGML[9]，且与llama.cpp[10]兼容，具有如下特性：

内核已针对英特尔® 至强® CPU内置的多种AI加速技术（如 AMX、VNNI）以及AVX512F和AVX2指令集进行了优化；
可提供更多量化选择，例如：不同的粒度（按通道或按组）、不同的组大小（如：32/128）；
拥有更优的KV缓存访问以及内存分配策略；
具备张量并行化功能，可助力在多路系统中进行分布式推理。

LLM Runtime的简化架构图如下：

△图1.英特尔® Extension for Transformers的LLM Runtime简化架构图

使用基于Transformer的API，在CPU上实现LLM高效推理

只需不到9行代码，即可让您在CPU上实现更出色的LLM推理性能。用户可以轻松地启用与Transformer类似的API来进行量化和推理。只需将 ‘load_in_4bit’设为true，然后从HuggingFace URL或本地路径输入模型即可。下方提供了启用仅限权重的(weight-only)INT4量化的示例代码：

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM
model_name = "Intel/neural-chat-7b-v3-1” 
prompt = "Once upon a time, there existed a little girl,"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, load_in_4bit=True)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

△可左滑看完整版

默认设置为：将权重存储为4位，以8位进行计算。但也支持不同计算数据类型(dtype)和权重数据类型组合，用户可以按需修改设置。下方提供了如何使用这一功能的示例代码：

from transformers import AutoTokenizer, TextStreamer
from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig
model_name = "Intel/neural-chat-7b-v3-1” 
prompt = "Once upon a time, there existed a little girl,"

woq_config = WeightOnlyQuantConfig(compute_dtype="int8", weight_dtype="int4")
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
inputs = tokenizer(prompt, return_tensors="pt").input_ids
streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name,quantization_config=woq_config)
outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300)

△可左滑看完整版

性能测试

经过持续努力，上述优化方案的INT4性能得到了显著提升。本文在搭载英特尔® 至强® 铂金8480+的系统上与llama.cpp进行了性能比较；系统配置详情如下：@3.8GHz，56核/路，启用超线程，启用睿频，总内存 256 GB (16 x 16 GB DDR5 4800 MT/s [4800 MT/s])，BIOS 3A14.TEL2P1，微代码0x2b0001b0，CentOS Stream 8。

当输入大小为32、输出大小为32、beam为1时的推理性能测试结果，详见下表：

△表1.LLM Runtime与llama.cpp推理性能比较（输入大小=32，输出大小=32，beam=1）

输入大小为1024、输出大小为32、beam为1时的推理性能的测试结果，详见下表：

△表2.LLM Runtime与llama.cpp推理性能比较（输入大小=1024，输出大小=32，beam=1）

根据上表2可见：与同样运行在第四代英特尔® 至强® 可扩展处理器上的llama.cpp相比，无论是首个token还是下一个token，LLM Runtime都能显著降低时延，且首个token和下一个token的推理速度分别提升多达 40 倍[a]（Baichuan-13B，输入为1024）和2.68倍[b]（MPT-7B，输入为1024）。llama.cpp的测试采用的是默认代码库[10]。

而综合表1和表2的测试结果，可得：与同样运行在第四代英特尔® 至强® 可扩展处理器上的llama.cpp相比，LLM Runtime能显著提升诸多常见LLM的整体性能：在输入大小为1024时，实现3.58到21.5倍的提升；在输入大小为32时，实现1.76到3.43倍的提升[c]。

准确性测试

英特尔® Extension for Transformers可利用英特尔® Neural Compressor中的SignRound[11]、RTN和GPTQ[12]等量化方法，并使用lambada_openai、piqa、winogrande和hellaswag数据集验证了 INT4 推理准确性。下表是测试结果平均值与FP32准确性的比较。

△表3.INT4与FP32准确性对比

从上表3可以看出，多个模型基于LLM Runtime进行的INT4推理准确性损失微小，几乎可以忽略不记。我们验证了很多模型，但由于篇幅限制此处仅罗列了部分内容。如您欲了解更多信息或细节，请访问此链接：https://medium.com/@NeuralCompressor/llm-performance-of-intel-extension-for-transformers-f7d061556176。

更先进的功能：满足LLM更多场景应用需求

同时，LLM Runtime[8]还具备双路CPU的张量并行化功能，是较早具备此类功能的产品之一。未来，还会进一步支持双节点。

然而，LLM Runtime的优势不仅在于其更出色的性能和准确性，我们也投入了大量的精力来增强其在聊天应用场景中的功能，并且解决了LLM 在聊天场景中可能会遇到的以下应用难题：

对话不仅关乎LLM推理，对话历史也很有用。
输出长度有限：LLM模型预训练主要基于有限的序列长度。因此，当序列长度超出预训练时使用的注意力窗口大小时，其准确性便会降低。
效率低下：在解码阶段，基于Transformer的LLM会存储所有先前生成的token的键值状态(KV)，从而导致内存使用过度，解码时延增加。

关于第一个问题，LLM Runtime的对话功能通过纳入更多对话历史数据以及生成更多输出加以解决，而llama.cpp目前尚未能很好地应对这一问题。

关于第二和第三个问题，我们将流式LLM（Steaming LLM)集成到英特尔® Extension for Transformers中，从而能显著优化内存使用并降低推理时延。

Streaming LLM

与传统KV缓存算法不同，我们的方法结合了注意力汇聚(Attention Sink)（4个初始token）以提升注意力计算的稳定性，并借助滚动KV缓存保留最新的token，这对语言建模至关重要。该设计具有强大的灵活性，可无缝集成到能够利用旋转位置编码RoPE和相对位置编码ALiBi的自回归语言模型中。

△图2.Steaming LLM的KV缓存（图片来源：通过注意力下沉实现高效流式语言模型[13]）

此外，与llama.cpp不同，本优化方案还引入了“n_keep”和“n_discard”等参数来增强Streaming LLM策略。用户可使用前者来指定要在KV缓存中保留的token数量，并使用后者来确定在已生成的token中要舍弃的数量。为了更好地平衡性能和准确性，系统默认在KV缓存中舍弃一半的最新token。

同时，为进一步提高性能，我们还将Streaming LLM添加到了MHA融合模式中。如果模型是采用旋转位置编码(RoPE)来实现位置嵌入，那么只需针对现有的K-Cache应用“移位运算（shift operation）”，即可避免对先前生成的、未被舍弃的token进行重复计算。这一方法不仅充分利用了长文本生成时的完整上下文大小，还能在KV缓存上下文完全被填满前不产生额外开销。

“shift operation”依赖于旋转的交换性和关联性，或复数乘法。例如：如果某个token的K-张量初始放置位置为m并且旋转了m×θ_ifor i ∈ [0,d/2），那么当它需要移动到m-1这个位置时，则可以旋转回到（-1）×θ_ifor i ∈ [0,d/2）。这正是每次舍弃n_discard个token的缓存时发生的事情，而此时剩余的每个token都需要“移动”n_discard个位置。下图以“n_keep=4、n_ctx=16、n_discard=1”为例，展示了这一过程。

△图3.Ring-Buffer KV-Cache和Shift-RoPE工作原理

需要注意的是：融合注意力层无需了解上述过程。如果对K-cache和V-cache进行相同的洗牌，注意力层会输出几乎相同的结果（可能存在因浮点误差导致的微小差异）。

您可通过以下代码启动Streaming LLM：

from transformers import AutoTokenizer, TextStreamer  
 from intel_extension_for_transformers.transformers import AutoModelForCausalLM, WeightOnlyQuantConfig  
 model_name = "Intel/neural-chat-7b-v1-1"     # Hugging Face model_id or local model
 woq_config = WeightOnlyQuantConfig(compute_dtype="int8", weight_dtype="int4")
 prompt = "Once upon a time, a little girl"

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 inputs = tokenizer(prompt, return_tensors="pt").input_ids
 streamer = TextStreamer(tokenizer)

model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=woq_config, trust_remote_code=True)

 # Recommend n_keep=4 to do attention sinks (four initial tokens) and n_discard=-1 to drop half rencetly tokens when meet length threshold

 outputs = model.generate(inputs, streamer=streamer, max_new_tokens=300, ctx_size=100, n_keep=4, n_discard=-1)

△可左滑看完整版

结论与展望

本文基于上述实践经验，提供了一个在英特尔® 至强® 可扩展处理器上实现高效的低位(INT4)LLM推理的解决方案，并且在一系列常见LLM上验证了其通用性以及展现了其相对于其他基于CPU的开源解决方案的性能优势。未来，我们还将进一步提升CPU张量库和跨节点并行性能。

欢迎您试用英特尔® Extension for Transformers[1]，并在英特尔® 平台上更高效地运行LLM推理！也欢迎您向代码仓库(repository)提交修改请求 (pull request)、问题或疑问。期待您的反馈！

特别致谢

在此致谢为此篇文章做出贡献的英特尔公司人工智能资深经理张瀚文及工程师许震中、余振滔、刘振卫、丁艺、王哲、刘宇澄。

[a]根据表2 Baichuan-13B的首个token测试结果计算而得。
[b]根据表2 MPT-7B的下一个token测试结果计算而得。
[c]当输入大小为1024时，整体性能=首个token性能+1023下一个token性能；当输入大小为32时，整体性能=首个token性能+31下一个token性能。

参考链接：

[1]英特尔^®Extension for Transformers

https://github.com/intel/intel-extension-for-transformers

[2]Sapphire Rapids

https://www.intel.cn/content/www/cn/zh/products/docs/processors/xeon-accelerated/4th-gen-xeon-scalable-processors.html

[3]Hugging Face transformers

https://github.com/huggingface/transformers

[4]英特尔^®Neural Compressor

https://github.com/intel/neural-compressor

[5]NeurIPS 2023：在CPU上实现高效LLM推理

https://arxiv.org/pdf/2311.00502.pdf

[6]常见LLM：

Falcon： https://falconllm.tii.ae/

LLaMA：https://ai.meta.com/blog/large-language-model-llama-meta-ai/

MPT：https://www.mosaicml.com/blog/mpt-7b

Llama2：https://ai.meta.com/llama/

BLOOM：https://huggingface.co/bigscience/bloom

OPT：https://arxiv.org/abs/2205.01068

ChatGLM2：https://github.com/THUDM/ChatGLM2-6B

GPT-J-6B：https://huggingface.co/EleutherAI/gpt-j-6b

Baichuan-13B-Base：https://huggingface.co/baichuan-inc/Baichuan-13B-Base

Baichuan2-13B-Base：https://huggingface.co/baichuan-inc/Baichuan2-13B-Base

Qwen-7B：https://huggingface.co/Qwen/Qwen-7B

Qwen-14B：https://huggingface.co/Qwen/Qwen-14B

Dolly-v2-3B：https://huggingface.co/databricks/dolly-v2-3b

[7]先进的压缩感知运行时

NeurIPS 2022：在 CPU 上实现快速蒸馏

https://arxiv.org/abs/2211.07715

QuaLA-MiniLM：量化长度自适应 MiniLM

https://arxiv.org/abs/2210.17114

NeurIPS 2021：一次剪枝，一劳永逸：对预训练语言模型进行稀疏/剪枝

https://arxiv.org/abs/2111.05754

[8]LLM Runtime

https://github.com/intel/intel-extension-for-transformers/tree/main/intel_extension_for_transformers/llm/runtime/graph

[9]GGML

https://github.com/ggerganov/ggml

[10]llama.cpp

https://github.com/ggerganov/llama.cpp

[11]SignRound

https://arxiv.org/abs/2309.05516

[12]GPTQ

https://arxiv.org/abs/2210.17323

[13]通过注意力下沉实现高效流式语言模型

http://arxiv.org/abs/2309.17453

2022/5/26随笔 jane与你一起成长
2022/5/26随笔今天，已经是星期四。客户说本周六会下单，希望客户真的会在本周六下单，不然，我5月份又要亏本了。最近体重下降了2斤多，这几天体重一直保持在101.8斤或者102.4斤。这些天不能吃零食，不能喝太多水，中午和晚上不能吃的太饱。希望就一直保持在101.8斤到102.4斤之间。对于这个体重我还是比较满意，只要不达到103斤，我便可以了。现在，每天过得真是很快啊。早上5点半左右起床，然
五大编程竞赛平台终极对比 2401_86601498 c++
LeetCodeLeetCode是一个流行的在线编程平台，提供大量算法和数据结构题目。题目分为简单、中等和困难三个难度级别。LeetCode的题目涵盖各种主题，包括数组、字符串、树、动态规划等。LeetCode支持多种编程语言，包括C++，并提供在线代码编辑器和即时反馈。LeetCode还提供竞赛和面试模拟功能，适合准备技术面试的用户。CodeforcesCodeforces是一个以竞赛为主的在线
日更23天，还在坚持中半夏且舒
今天是我日更的第23天了，就快到我当初给自己定的初步目标：30天了。坚持住，我可以达成，然后继续做得更好的。最近两天陷入了写作倦怠期。两天上班时间，写了三篇稿子给领导。上周五也写了一篇领导的发言稿。这个星期差点就陷入写作PTSD。现在处于一种我说好的要坚持日更，虽然我有点点恐惧写东西了。不过这种情况应该在周末消失吧，我猜。我的工作也不是那种专门写稿子的工作，我其实是一个不擅长写东西的人，当初找这份
李清照与赵明诚荷塘恋雨
看《金石录序》我泪流满面。她的丈夫赵明诚，那个懂她、疼她、欣赏她的男人永远的去了。战乱中，她要带着和丈夫一起收集的金石逃难，这样一个弱女子，往往保护不了这些沉重的金石，每每少了一个，那都是血肉模糊的疼，那是他们共同生活的见证，是他们爱的记忆……李清照，当你看着日渐减少的金石箱，你的苦无边，你的痛无底，“寻寻觅觅，凄凄惨惨戚戚。”赵明诚这个名字是因为李清照我才得知的，然而了解李清照的生活后，我才知道
你提辞职，领导说等做完这个项目给你申请加薪，可信吗？诸葛明职场教练
你是在问领导会不会去给你申请加薪，还是问公司会不会给你加薪，这可是两个完全不一样的概念呀！有时候某些领导为了顺利推进项目，他只能先稳住你，以防你在这个节骨眼上离职或者＂掉链子＂！领导在这样的情况下作出的承诺，多少有点无奈的成分，往往未必出自真心！有些不道德的领导过河拆桥，翻脸比翻书还快；弄不好到时候，他还会来出＂猪八戒倒打一耙＂——说你就是趁上项目讹他，分分钟钟颠覆你的三观！比起明着耍坏的领导，还
永远的女先生杨绛章海萍
图书馆里寻得两本关于杨绛的书，一本是《永远的女先生杨绛》，一本是《杨绛传》，因为第一本书编排的字体大，作为首选先读。这一本《永远的女先生》并非是关于杨绛先生的传记，而是杨绛先生离世后，她曾经的同事、朋友、亲属撰写的纪念文集。文集作者有社科院、清华大学的领导；有和先生晚年打官司的法学专家；有先生的同事、亲属和邻居；有先生的忘年交，有中外友人。。。，51位作者46片文章，不同的人从不同的侧面回忆和先生
坚持锻炼、严格自律，我和儿子的假期功课伍拾范儿
图片发自App书法、英语、素描，这个假期被孩子妈妈安排的满满当当，但无论如何，每天的身体锻炼成了爸爸做主的“必须完成的任务”——俯卧撑、引体向上和深蹲，每天坚持，严格自律，而且是爸爸陪着儿子一起做。假期两周下来，锻炼成绩已达到甚至超出我的预料。上午的锻炼已经结束，孩子利用所学制作了7月15号父子三项的数据柱状图，制作了引体向上这个单项运动父子三天的数据图，从一开始的只能做一个最多两个，每一项都取得
场景压测：真实业务下的性能挑战
文章摘要场景压测通过模拟真实用户的操作路径（如电商的登录-浏览-下单流程），评估系统在多接口协同、复杂业务场景下的性能与稳定性。与单接口压测不同，它更关注全链路瓶颈、资源协作及异常处理。实施需梳理业务流程、设计用户模型、编排压测脚本，并分析系统整体表现。其核心价值在于提前暴露生产环境中可能出现的流程级问题，为业务高峰期的系统承压能力提供保障。1.场景压测和接口压测的区别接口压测：通常只针对单一接口
dos命令driverquery图文教程，显示系统已安装设备驱动程序批处理老盖聊技术
大家好，我是老盖，首先感谢观看本文，本篇文章做的有视频，视频讲述的比较详细，也可以看我发布的视频。今天我们学习dos中driverquery这个命令，输入命令driverquery/?可以查看这个命令的介绍和一些参数，它这个命令就是查看系统已经安装的驱动程序。直接输入命令driverquery，以看到本机已经安装的驱动程序，可以看到模块名，显示名字，驱动程序类型和链接日期。我们也可以通过图形化界面
桃朵官方邀请码是多少?注册桃朵app没有邀请码怎么办? 高省APP珊珊
桃朵是一款专注于电商导购优惠券返利的平台，内测上线红利期。在社交电商上提供一些新的玩法，简单一点说，就是提供优惠券给广大用户在各大平台购物，不仅能优惠购物，而且还能返佣金，省钱加赚钱。实则意义上跟桃朵，桃朵，桃朵，桃朵等等这些是同一类型的网购赚钱app。那么桃朵相比于其他平台有什么优势呢?在这里，小编给大家分享一下。至于我为何从桃朵转到高省呢，当然是高省佣金更高，模式更好。【高省】是一个可省钱佣金
2018-11-09 94min呀
我以为蒙上了眼睛，就可以看不见这个世界；以为捂住了耳朵，就可以听不到所有的烦恼；以为脚步停了下来，心就可以不再远行；以为我需要的爱情，其实只是一个拥抱。。。。。。图片发自App即使这个社会很现实，我们也要过好当下的每一天~晚安~2018.11.9共修（晓敏）
nodejs中process讲解
虽然node对操作系统做了很多抽象的工作，但是你还是可以直接和他交互，比如和系统中已经存在的进程进行交互，创建工作子进程。node是一个用于事件循环的线程，但是你可以在这个事件循环之外创建其他的进程（线程）参与工作。进程模块process模块允许你获得或者修改当前node进程的设置，不想其他的模块，process是一个全局进程(node主进程)，你可以直接通过process变量直接访问它。proc
《谷歌时间管理课》：掌握这个法则，打造自己的高效能人生日月照书时
文|深夏晚晴天ZMH“想做的事情不少，可就是没时间啊！”“我手头的工作都做不完，怎么有空做……”“等我有时间了，我就……”生活中，我们没少听到类似的抱怨。不管是他人还是自己，总是难免会有感觉时间不够用的时刻。按道理来说，近百年来科技与工具的迅猛发展，早已解放了我们的双手，我们应该多出很多时间过上一种悠闲的生活才对。但事实是，科技越发达，我们感觉越焦虑，依然还有一大堆“做不完”的事。为了应对这种情况
七彩人生公益“医护面对面”，关注医护心理健康，给世界一点爱！七彩人生OCL
随着疫情的持续，我们已经习惯当前的生活，但我们之所以有正常的生活生产秩序，是因为有无数医护人员夜以继日的奋斗在抗疫第一线，用大无畏的精神守护我们的生命线。在抗击疫情这个过程中，我们除了向她们致以崇高敬意，能做得并不多，没办法给她们假期,也没办法给以财物，但在他们持续面对巨大的特殊心理压力时，需要我们给予特别的关注。01.聚焦医护心理健康对于一线医护人员来说，长期在高风险、高压力之下工作，因为目睹了
书记东来谭家屋里
书记打浙江来，出差北京，恰逢假日，因此有机会相聚。书记乃研究生同学，因身兼党支部书记，因此大伙以书记相称，几乎没叫过他真名。他现在在浙江家乡的电网上班，入职不久，还是新人，恰逢电网要开大会，被抽调来做新媒体准备工作，也算是个不错的机会。当时求学，因为自己年纪大，玩得到一起的年轻人很少，书记则是少有的小伙伴，吃饭，或者周末游玩，两人常在一起。我几乎不发朋友圈，因此同学戏称:我活在书记的朋友圈里。可见
锦衣之下番外40，陆绎陪夫人去看病，却意外碰到大人最不想见的人 859857d344be
夜晚，树林中静悄悄地，篝火上烤着陆绎打来的野鸡，一阵风吹来，香气四溢。今夏眼睛直勾勾地盯着冒油的野鸡，暗自吞咽口水。陆绎看在眼里，心中划过一丝甜蜜，无论如何，今夏母子总算是平安了。他紧悬着的一颗心，也大可暂时放下。岑福望着自家大人夫妇，心中甚觉自己多余，生平第一次，他也想成家了。岑福看得出大人担忧夫人，心底牵挂远在京城堂子里的小公子，但孑然一身的他，忽然很是羡慕有家人牵挂的感觉。话不多说，三人吃饱
人际关系：想要混得好，表面一定要会装土圭垚六土人生
[cp]人际关系：想要混得好，表面一定要会装即使在你心里，很排斥与人打交道，但要想在这个社会混得更好，与人接触是不可避免的。而在社会上，如果不遇人不淑，交了一个不好的朋友，不仅对自己的成长没有多大帮助，还有可能给自己带来很不好的坑。每个人的成长经历都不一样，所以不要想着去改变别人，这只是一种无用功。我们能做的只是掌握一些与人相处的技巧，更好的保护自己就行了。1、不要什么都说出来俗话说，对人只说三分
从发现学生抽屉里放有手机说起…… 司马喆嚞
从发现学生桌抽屉里放有手机说起我是个副班主任，负责协助班主任工作。班里有个学生叫难小伟，是个舛学生，也是一个小刺头；他还是一个父母离异的孩子。那天，考试语文，他竞然不认真答卷，坐在那里挠乱四周，作文也没写，逼他急了，写了100多个字(谁也认不写来)，后来，他竞然用气体火机点烧一个大蚂蚱，呛死人了。我向班主任做了说明。等到下午我去上课，登楼梯时，他胆敢从后面追上我，从背后用手掌拍打我头部一下。我斥问
2020年锂电池隔膜行业深度分析报告 kdbshi
本文还有配套的精品资源，点击获取简介：锂电池隔膜作为锂离子电池核心组件，其技术与市场需求影响电池性能和行业走向。本年度报告深入分析了隔膜材料原理、技术进步、市场竞争、政策环境以及全球疫情影响，并展望未来发展趋势。报告为业内人士提供行业发展全面视角，助力战略规划与决策制定。1.锂电池隔膜基本原理锂电池隔膜作为电池心脏的重要组成部分，在现代能源储存系统中起着至关重要的作用。其基本功能是物理隔离正负极材
Linux+Python实战课堂：笔记、练习与应用
本文还有配套的精品资源，点击获取简介：本压缩包提供全面的Linux学习资源和Python编程练习，旨在帮助初学者和IT从业者深入理解Linux系统及其技能，并通过Python编程练习巩固相关技能。涵盖Linux基础概念、文件系统、命令行操作、文本编辑器使用、用户和组管理、软件管理、进程监控、网络配置以及系统性能监控等多个方面。同时，包含Python基础语法、函数与模块、面向对象编程、文件操作、异常
QT自制TCP客户端教程：实战演练与注释解析 kdbshi
本文还有配套的精品资源，点击获取简介：本教程将引导您使用QT框架构建一个TCP客户端，涵盖跨平台网络编程和QT库的使用。教程详细解释了QTcpSocket类的实现方法，如何处理连接状态、数据收发事件，以及如何在用户界面中集成网络通信功能。通过学习本教程，您将能够理解QT事件驱动模型，并掌握QT项目配置和UI设计。TCP客户端的源代码带有详细注释，便于学习和理解网络通信的实现细节。1.QT框架概述与
关于NUC+雷达+倍福组网交换机是否完全足够的问题(是否需要一个路由器) Tipriest_ 机器人实际系统网络机器人交换机路由器 IO 网段
你好！这是一个非常经典和常见的工业自动化/机器人系统组网问题。你的想法完全正确。核心答案：只用一个交换机是完全可以的，而且是标准的做法。你不需要路由器来提供网关(Gateway)。下面我为你详细解释一下，并提供具体的操作步骤和注意事项。1.为什么一个交换机就够了？(交换机vs.路由器)为了理解这一点，我们需要明白交换机和路由器的根本区别：交换机(Switch):作用：连接同一个局域网（LAN）内的
Redis 如何保证高并发与高可用笑衬人心。 Redis笔记 redis 数据库缓存
一、Redis高并发的实现机制1.1单线程模型+I/O多路复用Redis使用单线程架构（从Redis6开始引入I/O多线程，但核心命令仍由单线程执行）。采用epoll/kqueue等I/O多路复用机制，非阻塞处理大量连接。避免多线程带来的上下文切换和锁竞争问题。1.2高效数据结构与命令执行内部使用如跳表、字典、压缩列表、整数集合、位图等高效结构。Redis命令执行在内存中，时间复杂度较低（多数为O
原创|《耕牛在田》不勾心的豆角
《耕牛在田》（原创作者：不勾心的豆角)牛气冲天多么喜大普奔的新年祝愿气冲斗牛更是众望所归的豪言壮语然而我喜欢最不牛皮哄哄的那一句——俯首甘为孺子牛人人好好的守着一亩三分地耕牛在田牛转乾坤就不会只是一句神话创作絮语这首原创现代短诗，是我在欣赏了一幅内容为“耕牛在田”的书法作品后，三思而有感——脚踏实地“俯首甘为孺子牛”，才能牛气冲天啊。
【立创泰山派】Linux驱动之UART驱动程序 Monisa_sama linux 单片机运维
Linux串口驱动前言1.串口通信2.调试和测试3.性能分析4.扩展串口功能一、基础知识1.什么是串口1.1波特率2.通信协议2.1UART帧结构2.2校验方式二、硬件接口1.基于TTL的UART通讯2.基于RS232的UART通讯3.基于RS485的UART通讯三、软件框架1.驱动子系统框架1.1串口驱动程序位置1.2使用8250驱动的方式1.3串口设备的调试方法2.注册流程分析3.设备树配置3
祝贺自己坚持打卡21天琴韵无声
一直清楚自己的自律性太差劲，从来都是间歇性的踌躇满志、持续性的自甘平庸。开学前小尘老师发了一个倡议：坚持写300天，直通教育行走大舞台。怪有吸引力的，但又害怕自己没办法坚持下来。最后在忐忑与怀疑中问小尘老师要了一个号跟随他们一起试试，到今天我居然也坚持了21天！人们把一个人的新习惯或理念的形成并得以巩固至少需要21天的现象，称之为21天效应。这是说，一个人的动作、或想法，如果重复21天就会变成一个
越来越不确定的生活 Sherry顾敏
曾有人说过，2019是最好的年份。那年我在西藏晃了半个月，自由而又无虑，之后再无那时的心境与无束。是疫情让世界颠覆？不是，源于世人的贪，人为制造积累出太多的垃圾，让这个世界越来越不确定。桃花树下好嗨哟因为环境的污染，孩子们越来越容易生病。一个妈妈带着3岁的孩子买糕点，“不上学吗”？“刚刚住院出来，又病了，什么都不吃，唉！只有这家的糕点还肯吃一点”。孩子们带病生长仿佛已成常态。得鼻炎的、过敏的、近视
魔力感恩（第十六期第9天）爱之旅心理孙建芳
1、我非常感谢特别的日子和朱总商量，决定8号做线下“爱之旅聚辰湖”读书会，没想到小天才公益赠书书单出来也是在同一天。锦上添花，轻而易举的富足。感谢[爱心]2、我非常感谢读书会最简单纯粹的想法，和朱行同頻的碰撞，体会到了天时地利人和的奇迹，有了今天富足的呈现。我们以《轻而易举的富足》为导读书，给予到来的朋友们做心灵探索之旅，一切都刚刚好。感恩感谢[爱心]3、我非常感谢朱行大能量就有大能量的显化，在她
四面佛废稿画师昊渊
画的不喜欢不喜欢，哈哈，只能重新设计了。有没有感觉会很熟悉，看最后面……我是淏渊，一个异界摄影师！图片发自App图片发自App图片发自App图片发自App没错，就是根据这个画的，整个《四面佛》都是根据这小漫画改来的。图片发自App
路由器类型与接口详解 wespten 网络协议栈网络设备 5G 物联网网络工具开发网络智能路由器
一、路由器简介路由器是构成IP网络的核心，其最基本的作用就是连接不同类型的网络，智能选择最佳的信息传送线路。除此以外，路由器还具有访问控制功能。路由器也可以算作是一台专用计算机，可以听懂并翻译各种网络协议，就像一个会讲各种语言的人一样。1、路由器功能路由和转发：可以决定数据包从来源端到目的端所经过的路由路径（host到host之间的最佳传输路径），这个过程称为路由。将路由器输入端的数据包移送至适当
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司 沈海豪、罗屿、孟恒宇、董波、林俊

英特尔® Extension for Transformer是什么？

LLM运行时(LLM Runtime)

△图1.英特尔® Extension for Transformers的LLM Runtime简化架构图

使用基于Transformer的API，在CPU上实现LLM高效推理

△可左滑看完整版

△可左滑看完整版

性能测试

△表1.LLM Runtime与llama.cpp推理性能比较（输入大小=32，输出大小=32，beam=1）

△表2.LLM Runtime与llama.cpp推理性能比较（输入大小=1024，输出大小=32，beam=1）

准确性测试

△表3.INT4与FP32准确性对比

更先进的功能：满足LLM更多场景应用需求

Streaming LLM

△图2.Steaming LLM的KV缓存（图片来源：通过注意力下沉实现高效流式语言模型[13]）

△图3.Ring-Buffer KV-Cache和Shift-RoPE工作原理

△可左滑看完整版

结论与展望

特别致谢

你可能感兴趣的:(用上这个工具包，大模型推理性能加速达40倍)

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊

英特尔^® Extension for Transformer是什么？