昇思MindSpore

Bert性能提升14.8%，MindSpore算子自动生成技术详解

在Bert网络中，通过使用图算融合技术和算子自动生成技术相结合，可以实现整网的14.8%性能提升。想知道具体技术细节吗？快来看看吧~

为什么需要算子自动生成技术？

有过深度学习项目实践经验的同学会有类似的需求：

以计算机视觉为例，我们可能会使用TensorFlow深度学习框架在Nvidia GPU上训练ResNet神经网络来解决图像分类任务。

在这种情况下我们可以使用CUDA和cuDNN库中的函数来完成网络训练在GPU上的部署及加速。然而，很多时候模型的训练和推理工作不一定会在同样的平台进行，最终我们可能需要把模型部署到CPU甚至手机上去，此时CUDA库便不再适用了。

开发者们往往会根据实际情况选择各种各样的深度学习顶层框架训练模型，例如TensorFlow、PyTorch、Keras、Caffe等等，再把训练好的模型部署到各种各样的设备后端上，除了刚才提到的Nvidia GPU外还包括Intel CPU、Intel GPU、ARM CPU、ARM GPU、FPGA及其它新型的AI加速器。

考虑到不同硬件设备的特性千差万别、现有算子库中算子包含范围不同、新型加速器算子库支持不足、非常规的神经网络中存在不常见的layer等等情况，开发者要完成手写算子并保证性能，学习成本和时间成本都变得很高，所以自动算子生成技术的出现变得非常有必要。

深度学习编译器能通过对编译过程的前端、中端、后端的抽象提取，以及相对统一的中间表达IR，使前端框架和后端优化分离开来，相当于把不同前端到不同后端这样一个C_N^2的组合空间大大简化，并通过自动生成技术完成这其中的中间表达IR生成、针对后端特性的优化、优化过的IR给后端的指令。

主流自动生成技术

目前市面上较为主流的带有自动算子生成技术的深度学习编译器有：

TVM [2]
Facebook研究的Tensor Comprehension (TC) [3]
基于PyTorch的Glow [4]
Google研发的针对TensorFlow进行优化计算的XLA [5]
英特尔开源的NGraph [6]

这些深度学习编译器在架构上一般都分为前端和后端，中间表达（IR）就作为一种程序的抽象化用于优化，high-level IR作用于前端，low-level IR则作用于后端以实现针对硬件的优化、代码生成和编译。

图1：深度学习编译器总览 [1]

大部分深度学习编译器的low-level IR最终都能下沉到LLVM IR这样一种较为标准、成熟且可定制、高模块化的中间表达，如Glow和XLA。Glow的low-level IR包含两种指令性函数，declare和program，来实现对全局内存的声明和对本地区域的分配。XLA也使用自己的HLO IR，但最终都能转换为LLVM IR的形式去完成优化和代码生成。

TVM和TC则使用了另外两类常见的low-level IR。TVM中使用的low-level IR是基于Halide IR的思想，分离算子的定义 (compute) 和调度 (schedule) 过程，并进一步改进形成自己独特的、不依赖LLVM的中间表达，可为不同的硬件结构进行特定优化，实现自动生成。TC在计算阶段也采用了Halide-based IR，同时它还应用了Polyhedral模型中提出的线性编程、仿射变换及其他数学方法实现对深度学习中经常出现的大块循环计算进行优化。

目前来看，TVM的整体维护较好，无论从上层深度学习框架、下层的硬件后端还是可生成的底层语言种类来说，TVM都覆盖得比较全面[1]。

TC在自动生成阶段使用的polyhedral模型，能够实现自动调度（auto-scheduling），是目前效果较好、较为流行的方法。

算子自动生成需解决的问题

自动算子生成需要根据数学表达式自动生成算子，并且要适应不同的硬件特性，能针对特定硬件后端做优化。使算法专家无需关注硬件体系结构、性能优化方面的问题，能专注于AI算法的创新和探索。

在这个过程中算子自动生成就需要解决自动微分、自动并行、深度图优化三个问题。

神经网络训练的后向传递中，通过对每个正向算子求微分形成相应的反向算子来实现梯度下降。自动生成反向算子的技术可以避免开发者手动计算微分，减轻开发者的负担。

在大训练集群的场景下，自动并行可以将网络或tensor拆分执行，充分发挥多个训练节点的算力。如模型并行是将模型中的层切分放到多个节点上执行，数据并行是将数据切分成多块让不同的节点去处理，除了模型和数据的维度，还可以沿tensor的其它维度进行切分，实现更灵活的并行执行。自动算子生成可以自动应对切分后不同形状的算子，降低开发者手动编写的成本。

图 2 ：模型并行（左）与数据并行（右）

深度图优化是指图层和算子层的融合优化。顶层深度学习框架只能做到图层面的融合，将两个算子的中间计算结果保留在内部缓冲区，节省从外部内存来回搬移数据的成本。而自动算子生成技术可以打破图层和算子层的边界，不仅可以实现传统的自动算子融合，还可以实现自动的算子重组，也就是把不同算子内部的计算进行深度的重组与整合，进一步提高性能。

AKG是 Auto Kernel Generator的简称。正如名字所示，AKG是在深度学习框架中的自动算子生成优化器。我们将按照AKG自动生成目标硬件代码的流程，介绍盘点AKG中主要的技术要点以及如何实现自动生成算子中的主要需求。

图3 AKG主要流程图

图3展示了AKG自动生成的几大主要流程和部分优化PASS。

概括来讲，AKG主要流程可以分为用户算子表示、程序规范化、自动调度、后端生成和优化等部分。通过近百个pass的处理变换，AKG可以将类似于数学公式的计算定义一步一步转化为指定的后端代码，如华为公司DaVinCi芯片的CCE代码。这无疑为用户提供了灵活定义计算，无需关注指令细节并生成高性能算子的可能性。

用户算子表示

用户基于TVM Compute DSL或Hybrid进行计算的定义和编写。这部分只需要利用类numpy的数学定义式代码即可完成对算子计算细节的描述。值得一提的是，AKG的自动微分技术可以通过算子计算信息自动求导生成其反向微分算子，以供训练时使用。

程序规范化

规范化操作是自动调度的基础，通过运算符inline，循环拆分等操作，IR将被规范为适用于自动调度的形式，为自动调度中主要用到的Polyhedral技术提供前提准备。

自动调度

基于Polyhedral多面体编译技术，实现了自动向量化，自动切分，数据搬移，依赖分析以及自动多核等功能。在后面的部分将进一步对Polyhedral技术做进一步的介绍。

后端生成和优化

经过自动调度之后我们可以得到一个包括调度、优化等信息的IR, 在此基础上经过指令映射，同步策略生成和内存复用等功能生成指定的后端代码。

图4 CCE代码自动生成流程

以Davinci芯片和CCE代码为例，图4为我们展示了算法IR到CCE代码生成的流程。从流程图可以看出，后端代码生成中依照指定硬件和指令的特点，自动将经过自动调度生成的IR映射为指令IR，在保证计算正确性的基础上最大程度上对计算并行度和存储分配等进行优化从而保证了计算效率。

以上就是AKG如何从计算定义自动生成后端代码的主要流程，更多的技术细节和实现大家可以通过源码[7]深入了解，也期待在开源社区中与各位进行互动交流，一起学习。

Polyhedral 编译技术的理论基础Presburger算术，可以追溯到计算机发明之前。1929年，波兰天才数学家Presburger提出了该算术系统，那年他才25岁，可惜天妒英才，这样一位优秀的数学家在纳粹大屠杀中逝世了，年仅39岁。

Presburger算术系统的特点是只包含加法、不包含乘法。大家一定不知道这样一个不能做乘法的代数系统有什么作用，这里需要提到哥德尔不完备性定理：任何包含整数四则运算的代数系统，都不能是既一致又完备的。哥德尔不完备性定理和图灵的停机问题本质上是一个问题，也就是有些问题没有办法在有限的时间内求解。

Presburger算术通过只允许加法，就同时做到了一致性、完备性和可判定性，也就是说任给一个命题，我们都能在有限的时间内判定它是正确还是错误。

为什么需要多面体技术

Polyhedral编译技术历史悠久，从大型机时代开始，程序自动并行问题就是程序语言领域的研究热点。程序自动并行化，就是用户使用串行的方法编写程序，编译器自动将其转换成一个并行程序。

图灵奖得主 Richard Karp 在 1967 年提出了向量程序的依赖分析理论，另一位图灵奖得主 Leslie Lamport 在 1974 年提出了仿射循环变换方法，以解决向量程序的自动并行问题。

20世纪80年代，程序自动并行化的研究掀起一股热浪。作为Polyhedral调度理论的奠基人之一, Paul Feautrier在90年代初提出了第一个通用的程序自动向量化算法，Feautrier算法。2008年，Uday提出了第一个适用于现代并行体系结构的Polyhedral调度算法，称为Pluto算法。

图5 Polyhedral编译技术简史

Polyhedral编译技术通常采用迭代空间(Domain)、访存映射(Write and Read)、依赖关系(Dependence)，读写关系(Read/Write)和调度(Schedule)等集合和映射关系来表示程序的语义。

深度学习和高性能计算以矩阵和张量计算为主，程序一般是静态控制流，数据访问一般是线性映射关系，容易使用Polyhedral建模。同时GPU和基于DSA架构的深度学习处理器对循环变换、切分、数据搬移等优化有很强的需求，手动优化，难以满足深度学习网络的飞速发展。

因此，业界主流深度学习框架，比如Google的MLIR、Facebook的TC，陈天奇的TVM，都引入了Polyhedral编译技术，来实现自动的程序优化。

Polyhedral技术通过精确的分析程序的迭代空间、以及程序所读写的多面体范围，可以精确的进行各种程序变换的分析和判断。下面我们更详细的向大家介绍，如何利用多面体技术，在基于DSA架构的深度学习芯片上，进行auto schedule。

自动向量化

现代并行体系结构中不仅需要考虑到程序的并行性，还需要考虑程序的数据局部性，以充分利用层次化的缓存、内存结构、以及程序的向量化，这样便于批量操作一定数量的连续数据，以充分利用现代并行体系结构中向量化指令。

利用Polyhedral技术来实现程序的自动向量化，其目标就是提高程序的并行性和程序的数据局部性。所谓提高并行性，就是让程序可以让尽可能多的线程并行处理。而提高数据局部性，是为了减少缓冲区域外存之间的数据搬移。

图6 自动向量化示例

自动向量化的本质是通过一系列的循环变换实现的。向量化所需的常见循环变换，包括：

循环轴重排：将多层循环内外层的循环轴交换顺序
循环轴偏移：将循环轴增加某一偏移量
循环轴倒置：将循环轴由递增改为递减
循环轴合并：将多个循环轴合并成一个循环轴
循环融合：将多个循环融合成一个循环

优化目标	目的	优化方法
最大化并行性	充分利用并行计算单元	尽可能循环融合
最大化数据局部性	减少数据搬移	数据依赖距离之和最短

表1 自动向量化优化目标

如表1所示，设置了两个优化目标，优化了循环变换结果。为了最大化的提升程序的并行性，我们会尽可能的进行循环融合，最小化数据依赖距离之和，使数据的局部性最大化。

自动切分

切分的目的，主要是为了减小数据内存的大小，提升数据的局部性。

图7 切分示例

如图7所示，对于一个大小为500*200*300的张量input_1，如果不做任何切分(500, 200, 300)，就需要分配一个特别大的片上内存，我们可能需要将整个input_1的数据在内存中存下来，再来进行计算，最后再将结果从片上内存中搬出来，而常见的深度学习芯片不可能支持这种计算。

假如，我们给定一组切分(1,1,300)，也就是ax0被切成500份，每次只做ax0中的第一点，k0被切成200份，k1被切成一份，即一次将其作为。这样一次仅需要做1x1x300这样大的一块内存。因此不同的切分大小，会对应程序不同的缓冲区内存大小。

基于Polyhedral技术，我们除了可以实现程序的切分外，还可以分析各切分块之间是否具有循环依赖，以判断切分的合法性。

为了简化切分过程，在AKG中，我们还实现了自动切分算法。自动切分，即给定一段程序，我们会自动的分析这段程序，根据自动向量化的结果来给出一个较优的切分。我们将切分轴分为三种区域：单切域、多切域和整切域。

单切域：该循环轴的切分值为1
多切域：该循环轴的切分值为区间(1, extent)中间的某一个值
整切域：该循环轴的切分值为extent

自动切分有两个主要的关键点：确定合适的多切域和确定多切域内每个轴的切分值。

如何确定合适的多切域呢？

首先要充分利用内存，即域内每个轴单切占用内存小于实际内存，而实际内存要小于每个轴整切占用内存；

然后在保证切分后循环轴满足对齐、或特定切分值限定。

如何确定多切域内每个轴的切分值呢？

我们需要在满足对齐和取值限定前提下，逼近内存最充分的利用。通常来说，内存利用越充分，意味着指令并行度越高。

自动数据搬移

图8 DaVinci芯片架构图[8]

图8是Davinci芯片的架构图，由cube、vector、scalar三个计算单元，其中L0-A/B/C专用于cube计算单元，UB、L1作为两级通用缓冲区，3条并行MTE线路在外部内存、各数据缓冲区间搬移数据，同时进行数据格式转换。

我们看到数据从最外面进来，先到L1 Buffer，再到L0 Buffer，经过计算单元，到L0C Buffer，再到Unified Buffer，最后出来。这是一个非常复杂的过程，需要应用程序手写来完成，无法自动化。

由于Davinci芯片有多个缓冲区，我们需要先对程序进行数据流分析，决定什么数据放在什么类型的缓冲区，以及数据在缓冲区间的搬移顺序。

在自动数据流分析之后，我们需要进行自动内存管理。简单的讲，自动内存管理做的事情就是在一个大数组中根据切分规则，划分出一个小数组。与此同时，我们需要知道小数组中的点和原始数据的中对应关系。这样我们在做计算的时候，就不在使用原来的地址做计算，而是使用小数组，即缓冲区中的数据。

图9 原始数据与缓冲区数据的地址映射关系

自动数据搬移需要插入什么样的语句呢。主要包括了数据的搬入语句和数据的搬出语句。如下图所示，左边是内存提升后的中间表达，右边是插入数据搬移语句后的中间表达。

图10 自动数据搬移示例

第一条语句是数据搬入语句，将原始数据input_1，搬入到input_1_local_UB的片上缓冲区中，然后插入一条数据搬出语句，将数据的计算结果，从片上缓冲区搬出到外部缓冲区。至此，我们完成了自动搬移语句的生成。

以ResNet-50的算子在Ascend910上的性能数据为例。我们可以看一下多面体技术优化前后算子性能的对比，这里的Original表述按照CPU上类C语言的方式生成算子，Optimized表示Polyhedral技术优化后生成的算子。

图11 ResNet50算子性能示例

另外，在Bert网络中，通过使用图算融合技术[9]和算子自动生成技术相结合，可以实现整网的14.8%性能提升。

图12 Bert整网性能示例

算子自动生成技术是自动微分、自动并行、深度图优化三大图层优化问题的技术基础。在MindSpore 0.5版本，我们通过将算子自动生成技术与图算融合技术相结合，实现了Bert整网14.8%的性能提升。

在下一阶段，我们将持续在算子泛化，支持不同的硬件后端等方面进一步优化和增强。欢迎社区的小伙伴参与进来，共同见证MindSpore社区的成长和发展。

参考文献

[1] Li M, Liu Y, Liu X, et al. The Deep Learning Compiler: A Comprehensive Survey[J]. arXiv preprint arXiv:2002.03794, 2020.

[2] Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, et al. 2018. {TVM}: An automated end-to-end optimizing compiler for deep learning. In 13th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 18). 578–594.

[3]Nicolas Vasilache, Oleksandr Zinenko, Theodoros Theodoridis, Priya Goyal, Zachary DeVito, William S Moses, Sven Verdoolaege, Andrew Adams, and Albert Cohen. 2018. Tensor comprehensions: Framework-agnostic high performance machine learning abstractions. arXiv preprint arXiv:1802.04730 (2018).

[4] Nadav Rotem ,Jordan Fix, Saleem Abdulrasool, Garret Catron, Summer Deng, Roman Dzhabarov, Nick Gibson, James Hegeman, Meghan Lele, Roman Levenstein, et al. 2018. Glow: Graph lowering compiler techniques for neural networks. arXiv preprint arXiv:1805.00907 (2018).

[5] Chris Leary and Todd Wang. 2017. XLA: TensorFlow, compiled. TensorFlow Dev Summit (2017).

[6] Scott Cyphers, Arjun K Bansal, Anahita Bhiwandiwalla, Jayaram Bobba, Matthew Brookhart, Avijit Chakraborty, Will Constable, Christian Convey, Leona Cook, Omar Kanawi, et al. 2018. Intel ngraph: An intermediate representation, compiler, and executor for deep learning. arXiv preprint arXiv:1801.08058 (2018).

[7] Auto Kernel Generator: https://gitee.com/mindspore/akg

[8] 梁晓峣. 2019. 昇腾AI处理器架构与编程, 清华大学出版社

[9]MindSpore图算融合官方教程文档 : https://www.mindspore.cn/tutorial/zh-CN/master/advanced_use/graph_kernel_fusion.html

人工智能_大模型091_大模型工作流001_使用工作流的原因_处理复杂问题_多轮自我反思优化ReAct_COT思维链---人工智能工作笔记0236 添柴程序猿大模型开发&神经网络人工智能大模型工作流 COT思维链 ReAct自我反思优化大模型工作流开发
#清理环境信息，与上课内容无关importosos.environ["LANGCHAIN_PROJECT"]=""os.environ["LANGCHAIN_API_KEY"]=""os.environ["LANGCHAIN_ENDPOINT"]=""os.environ["LANGCHAIN_TRACING_V2"]=""#安装所需要使用的包!pipinstallopenailanggraphA
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
数据标注工具及其对预训练模型性能的影响 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1预训练模型的崛起近年来，预训练模型（Pre-trainedModels）在自然语言处理（NLP）领域取得了显著的成功。这些模型通过在大规模无标注文本数据集上进行预训练，学习到丰富的语言知识和语义表示，并在下游任务中展现出优异的性能。BERT、GPT-3等预训练模型的出现，标志着NLP领域进入了一个新的时代。1.2数据标注的重要性尽管预训练模型展现出强大的能力，但它们仍然需要针对特
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
阿里巴巴发布 R1-Omni：首个基于 RLVR 的全模态大语言模型，用于情感识别新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/情感识别一直是AI领域的难题，尤其是视觉与音频信号的融合。单独依赖视觉或音频的模型，往往
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
认知科学：解决复杂问题的5个关键策略 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍认知科学是一门研究人类思维、认知和行为的科学。它涉及到大脑、神经科学、心理学、语言学、人工智能和计算机科学等多个领域。认知科学试图揭示人类如何理解和处理信息，以及如何进行决策和行动。在本文中，我们将探讨5个关键策略，这些策略可以帮助我们解决复杂问题。这些策略包括：模式识别规则抽取推理和逻辑推理知识表示和知识图谱多模态处理我们将在接下来的部分中详细讨论这些策略，并提供代码实例和数学模型公
人工智能：重塑未来生活与工作的科技力量 Geektec 问答专栏人工智能应用创新
方向一：介绍人工智能技术的发展历程和现状，指出它的应用领域和前景一、人工智能技术的发展历程人工智能（ArtificialIntelligence,AI）作为一门学科，其起源可以追溯到20世纪50年代。最初，AI的研究主要集中在逻辑推理、机器学习和自然语言处理等领域，目标是使机器能够模拟人类的智能行为。尽管在早期的探索中，AI遭遇了诸多挑战和瓶颈，但其发展潜力逐渐被认可，并在随后几十年中得到了迅速的
如何优化AI模型的Prompt：深度指南 Earth explosion 人工智能 prompt
随着人工智能（AI）技术的快速发展，AI模型在文本生成、翻译、问答等领域的应用越来越广泛。在使用这些模型时，**Prompt（提示）**的质量直接影响输出结果的好坏。优化Prompt不仅能提升生成文本的准确性，还能显著提高工作效率。作为一个希望提升AI应用效果的普通人，如何才能优化Prompt呢？本文将为你提供一份详细的指南，涵盖从基础知识到高级技巧的各个方面。一、什么是Prompt？1.1定义P
AI 行业发展趋势：科技创新引领未来变革我是阿萌畅聊AI 人工智能科技学习
在当今数字化时代，人工智能（AI）行业正以前所未有的速度蓬勃发展，深刻地改变着我们的生活、工作和社会格局。从基础技术的突破到广泛的应用场景拓展，AI展现出了一系列令人瞩目的发展趋势，预示着一个充满无限可能的未来。一、技术创新持续突破模型规模与性能提升AI模型正朝着更大规模、更复杂的方向发展。以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语
前沿技术有哪些推动行业发展的新技术简介 jiemidashi 经验分享
现在有很多新东西正在改变的生活。比如人工智能。它能帮做很多事情。像写文章、画画还有处理数据。这些都很有用。再说说区块链。它让信息更安全。数据不容易被改掉。这对隐私很有帮助。还有5G网络。速度快得不得了。看视频玩游戏都特别顺畅。感觉和以前完全不一样。再就是新能源车。不用油了。用电就行。省钱又环保。开着还很安静。最后说说虚拟现实。戴上眼镜就能去别的世界。玩游戏或者学习都超级酷。这些东西都在慢慢走进的生
DeepSeek R1有什么不同新加坡内哥谈技术人工智能深度学习机器人科技
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/深度思考实验室（DeepSeek）最近发布了全新的推理模型R1，声称该模型不仅性能超越目
基于RWA 与 AI-Agent 协同的企业数字化生态构建 leijiwen 人工智能
在当前数字经济高速发展的背景下，企业数字化转型已成为提升竞争力和创新能力的必由之路。以实体零售与文旅行业为代表的传统产业，正通过现实世界资产（RWA）数字化与人工智能代理（AI-Agent）的协同应用，构建全新的数字生态系统。正如“无数据不基础、无token不可信、无AI不产品、无产业不应用”这一理念所强调的，数字化生态的建立必须依托数据、信任机制、智能技术以及产业深度融合，才能实现真正的转型升级
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
科技创新：改变生活的力量与未来趋势 jiemidashi 科技生活人工智能经验分享
人工智能在智能客服中的应用越来越普遍。它改变了传统的客服模式。AI可以快速回答用户的问题，提高了客服效率和服务质量。首先，人工智能能够处理大量信息。智能客服可以在几秒钟内回应客户的请求。这比人工客服快得多。客户不需要等待很久就能得到答案。举个例子，某电商平台使用AI聊天机器人来处理用户咨询。这个机器人能够24小时工作，随时解决问题。这样，顾客体验得到了显著提升。其次，人工智能能提供个性化服务。通过
Cursor 终极使用指南：从零开始走向AI编程二川bro 智能AI 前端 AI编程
Cursor终极使用指南：从零开始走向AI编程问什么是cursor?mindmaproot(Cursor核心功能)智能编码代码生成自动补全错误修复项目管理多窗口布局版本控制终端集成个性设置主题定制快捷键配置插件扩展AI协作对话编程知识检索文档生成前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc
大语言模型（LLMs）全面学习指南（非常详细）零基础入门到精通，收藏这一篇就够了网络安全大白科技程序员人工智能语言模型人工智能自然语言处理
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
Gemma 3 发布：最强单 GPU/TPU 可运行模型，性能超 Llama-405B！新加坡内哥谈技术人工智能自然语言处理语言模型深度学习 copilot llama
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/GoogleDeepMind再次掀起AI界的狂潮，正式推出Gemma3——一款轻量级但性
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
[免费送Claude账号密码]ChatGPT的平替——Claude赠送2个免费Claude账号密码卡密！（内附Claude注册教程） NBA首席形象大使阿坤日常小功能实现人工智能 chatgpt claude gpt-3
一、账号说明1.账号格式：登录邮箱—密码—验证邮箱2.登录方式：访问Claude官网，选择登录，输入登录邮箱、密码不多叭叭，上账号！账号1：登录邮箱:[email protected]—登录密码:c934dfqcwuz8g—验证邮箱:[email protected]账号2：登录邮箱:[email protected]—登录密码:jx68
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical 小小帅AIGC information extraction 人工智能自然语言处理语言模型多分类学术领域生物医学
AutomatedTextMiningofExperimentalMethodologiesfromBiomedicalLiterature从生物医学文献中自动挖掘实验方法文本paper：https://arxiv.org/abs/2404.13779github：本文做的就是微调DistilBERT去做多分类任务，训练自己的数据集，分类每个句子对应的实验方法。没有什么讲的。文章目录～1.背景动机
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

Bert性能提升14.8%，MindSpore算子自动生成技术详解

你可能感兴趣的:(技术博客,bert,人工智能,深度学习)