存内计算开发者

AI时代-GPT4 AIGChip框架开发

由深度神经网络(dnn)驱动的人工智能(AI)领域最近经历了翻天覆地的变化，这导致了对专业AI加速器的迫切需求。人工智能卓越的能力和复杂的工作性质进一步放大了这一需求。然而，为各种人工智能任务设计专门的加速器仍然是一项艰巨而耗时的冒险。此外，使用现有的设计探索和自动化工具[11]，[13]，[14]，[17]，[36]，[43]，[45]所需的硬件专业水平对非专家来说是一个巨大的挑战，抑制了AI加速器的创新发展。这个复杂的技术领域目前的特点是陡峭的学习曲线，这限制了AI加速器设计对一般AI开发者的访问和扩展，在AI算法开发和相应的加速器之间造成了越来越大的差距。

一个由llm驱动的通用AI加速器设计自动化管道

面对这些挑战，我们在大型语言模型(LLMs)[16]、[25]、[35]、[44]的新兴功能中找到了灵感，它们具有基于人类语言指令生成高质量内容的惊人能力。这些能力带来了一个诱人的前景，激发了本研究的核心问题:“我们能否利用llm的能力来自动化人工智能加速器的设计?”具体来说，如图所示，llm驱动的AI加速器设计自动化旨在探索加速器设计空间从而生成高质量的加速器实现，既能满足用户需求，又能最大限度地减少人工参与。为了回答上述问题，我们首先对llm在生成AI加速器设计方面的局限性和能力进行了全面的调查。这是为了了解当前的形势，同时也在探索我们如何更好地利用llm的力量来自动化人工智能加速器设计。根据本次调查得出的见解，我们开发了一个名为GPT4AIGChip的框架，表示“GPT for AI Generated Chip”。GPT4AIGChip旨在通过利用人类自然语言作为设计指令，而不是依赖于特定领域的语言，使人工智能加速器设计更加大众化，特别是对那些不精通硬件的人。

我们的贡献总结如下:

•我们深入研究了利用现有llm生成AI加速器设计的局限性和能力，以了解我们目前的位置，并就如何在设计自动化流水线中有效利用现有llm得出有用的见解。作为这些见解的具体应用，我们开发了GPT4AIGChip，这是第一个演示llm驱动的AI加速器设计自动化的框架。

•通过上述综合调查，我们发现了利用现有llm优势的三个关键观点:(1)当前的llm正在努力理解那些显示出长依赖关系的冗长代码，特别是那些不常见的语言，如高级合成语言(HLS)，因此需要在设计空间中解耦不同的硬件功能;(2)考虑到用于开源LLM高效微调的注释数据的稀缺，采用上下文学习和典型的闭源但强大的LLM的逻辑推理能力的混合是一个更有效的选择;洞察-(3)用高质量的演示增强llm的提示是至关重要的，这些演示与输入设计指令的上下文相关。

•我们的GPT4AIGChip通过构建一个用HLS编写的解耦加速器设计模板实例化了上述的Insight-(1)。通过这种方式，它将加速器设计的不同硬件模块和功能解耦，从而首次实现了由llm驱动的AI加速器设计自动化。

•通过为GPT4AIGChip配备一个演示增强的提示生成器，我们实例化了上述的Insight-(2)/-(3)

利用llm进行自动化AI加速器设计。值得注意的是，我们的GPT4AIGChip通过在封闭源代码但功能强大的GPT-4[24]之上实现上下文学习，并结合两个基本组件，实例化三个观点:(1) llm友好的硬件模板，它将复杂的AI加速器代码简化为模块化结构，以及(2)演示增强提示生成器，它增强了llm生成优化AI加速器的能力。

通过精心选择的演示来补充提示进行设计。通过将llm友好型硬件模板与演示增强提示生成器集成，我们的GPT4AIGChip采用迭代方法来增强生成的AI加速器设计，逐步接近最优解决方案。每一次迭代遵循一个四个阶段的工作流程，如下图所示:

Figure1：可视化我们提出的GPT4AIGChip框架的工作流程

•搜索引擎识别下一个设计和llm友好型硬件模板中每个模块的相应指令，利用之前搜索设计的反馈来指导实施和评估。

•演示增强提示生成器为每个模块创建提示，结合相关演示(指令-代码对)，以增强llm的上下文学习。

•具有上述提示的llm依次生成硬件设计实现。

•设计验证流程审查llm生成的代码，执行必要的修改以确保可部署性。

利于LLM的硬件模板设计

为LLM提供硬件设计模板对于弥补其有限的AI加速器设计知识至关重要。然而，现有的HLS加速器模板由于其复杂的设计参数耦合和相互依赖，给基于llm的AI加速器生成带来了重大挑战。为了解决这个问题，我们首先建立一个llm友好的加速器微架构和源代码模板的设计原则。在这些原则的指导下，我们提出了一个独特的模块化AI加速器模板，量身定制来优化LLM生成AI加速器设计的能力。然后，我们将讨论我们的模板的含义和优点。

在更广泛的场景中增强llm辅助设计生成。所期望的模板设计原则。为了确保有效的llm辅助生成加速器设计，我们确定了设计模板的三个关键原则:(1)高模块化，(2)解耦模块设计，(3)深度设计层次，以方便逐步生成设计，以解决llm固有的局限性。

•高模块化:由于LLM的令牌容量限制，在上下文学习时使用的输入样本代码的大小以及每一轮(即单个LLM模型推理)最终生成的设计的代码大小都受到了显著限制。由于具有高模块化，模板被分割成更小的、更易于管理的模块。这种模块化设计生成方法可以大大减少llm的输入和输出所需的代码大小。

•解耦模块设计:将代码模板分割成更小的模块可能会无意中引入配置设置之间的耦合和依赖关系。这与我们通过高模块化来减少输入令牌大小的目标相矛盾，因为LLM必须回忆以前模块的设置。为了解决这个问题，我们提出了独立的模块生成，每个模块维护自己的本地设置。然而，这可能导致整体设计不理想，连接模块之间可能存在数据速率不匹配。造成隔间或死锁。为了协调模块的运行，我们提出了一个附加的搜索引擎和适应性强的模块间通信方案。这些可以优化地协调所有本地设置，调解通信速率和带宽差异。因此，LLM可以生成每个模块根据其本地设置，维护解耦原则。

•为循序渐进的设计类别提供深层的设计层次:加速器的复杂性甚至会导致单个模块内的大量代码，这可能超过一个LLM的处理能力。为了解决这个问题，我们的模板采用了基于层次的、逐个模块生成的方法，简化了过程，并降低了每个阶段的复杂性。每个模块由多个遵循解耦原则的子模块组成，这些子模块可以进一步包含它们自己的子模块。这种递归嵌套一直持续到进一步的划分不可行的时候(见图2(b)中的Level-L)。这使得LLM可以系统地为每个模块生成设计层次结构，限制每个步骤的代码大小和复杂性。

加速器模板的概述。结合上述三个关键原则，我们引入了一种新的、模块化的、解耦的加速器微架构和相应的代码模板，如图2 (b)所示。考虑到GEMM算子在各种AI算法中的广泛应用，这里我们将重点关注广泛使用的GEMM算子，但我们的模板保留了通用结构。由一组通用模块组成，每个模块可以根据提示和本地配置设置灵活地重新设计，提供不同的硬件效率甚至独特的功能。为了指导LLMs精确解耦的代码生成，我们模板中的每个模块都严格对应于源代码中的函数实例化，如图2 (b)所示。每个模块都由嵌套的子模块分层组成，以方便LLMs的逐步生成。模块通过基于流的通信链路和异步数据fifo相互连接，以减少处理不同模块的数据生产和消耗率之间潜在的不匹配的控制开销。每个模块中的处理开始和终止主要取决于数据可用性，这促进了细粒度操作重叠，并简化了控制开销[15]。对于具有多个输入端口的模块，如图2 (b)中的互连模块，我们包括额外的同步逻辑，以确保数据对齐和准确性。

加速器模板的关键组件。我们对不同的模块进行如下图2 (b)所示。

•缓冲模块:这些模块旨在促进后续计算单元的并行数据访问，并利用各种数据重用模式。它们定义了(1)片上内存分区和相应的并行访问数据分配，以及(2)在缓冲区中刷新、重置或保留数据的过程，这些过程由与不同数据重用模式相关的控制信号决定。假设所有可能的设计风格都有双缓冲区，以确保最佳吞吐量。

•计算单元模块:这些模块主要处理计算，例如，乘法和加法，在他们的并行计算单元。作为一个乘法和累加(MAC)单元的集合实现，它们的互连可以根据不同的设计提示进行定制，在空间数据重用、MAC的数据传播延迟和片上缓冲区带宽争用之间取得平衡。我们构建嵌套的设计层次结构，以更容易的llm辅助生成，并适应各种MAC互连风格。因为所提出的模块化和解耦的加速器模板，以层次的方式方便一步一步地生成设计。

Figure2:具有非模块化模板的llm受到一次性设计生成、耦合设计参数和长期依赖的限制;(b)相反

例如，可以将单个mac连接起来形成1D PE- lane子模块，将多个PE lane连接起来形成更大的2D PE-array模块，增强了可扩展性。

•模块互联:实现缓冲模块和计算单元模块之间的数据灵活分布和同步。当计算单元由多个2D PE阵列组成，以及当算法到PE阵列的映射在运行时可以改变时，它们的灵活性就变得至关重要。

•控制(Ctrl)模块:它们处理从主机获取初始控制数据，控制数据解码，以及潜在的运行时控制数据生成，以改变各种模块的模式。

•灵活的通信仲裁器:这些仲裁器旨在管理互联模块之间的数据生产/消费速率和带宽的潜在不匹配，从而促进速率和带宽转换。

提出的模板的含义和优点。该模板具有三个主要优点:(1)通过解耦模块设计减少代码大小，并利用深度设计层次，该模板允许llm使用有限的输入和输出令牌容量，逐步生成复杂的加速器设计，增强llm的上下文学习能力;(2)当使用额外的样本代码和提示对数据集进行微调时，LLMs生成AI加速器设计的潜力可以进一步扩大。我们提出的模板简化了这个微调过程。它允许开发人员在一个模块中按模块、按层次生成数据集，大大降低了设计的复杂性;(3)为建议模板确定的原则超出了HLS的领域。在使用llm为其他编程语言生成设计时，与llm辅助设计生成有关的同样问题仍然存在。因此，上述关键原则通常是适用的，尽管不同领域的技术实现可能有所不同。

演示增强提示生成器的设计精心强化的提示，并辅以演示，可以有效地促进llm的语境学习。这赋予llm重要的特定于任务的知识，解锁他们的全部能力。然而，提示长度限制使得将所有可能的演示合并到一个提示中不切实际。为了解决这个问题，我们的演示增强提示生成器的目标是高效地生成提示，自动从我们精心设计的库中选择最相关的演示，并将它们合并到提示中，平衡提示长度和上下文学习性能。

工作流。受到先前强调llm在不同指令之间识别相似性的能力的研究的启发，我们在我们的演示增强提示生成器中使用llm来促进演示选择，这进一步减少了在人工智能加速器设计中对人类专业知识的需求。具体来说，如图4所示，在每次迭代中，给定一个由搜索引擎生成的设计指令，我们部署一个LLM来识别生成的设计指令与演示库中的设计指令之间的相似性。然后，我们选择两个最相似的指令，将它们与相应的实现配对，作为代码生成迭代的演示。然后，我们使用下面的模板生成演示增强提示符:

•假设你是AI加速器设计的HLS代码的专家，我现在将为你提供关于生成AI加速器设计的[模块名称]的说明。下面是两个演示指令和相应生成的代码。演示A:说明:[演示A说明]。代码:[Demo A代码];演示B:说明:[演示B说明]。代码:[Demo B Code]。现在请按照以下说明。

代码:【设计说明】。

演示库。高质量的演示库是我们的演示增强提示生成器的关键组件。这个库中的演示本质上是llm获取特定领域见解的主要知识来源。我们的目标是为目标领域组装一个包含多种设计选择的演示库，即本文中的GEMM。这确保了库提供具有丰富领域知识的演示，满足从搜索引擎生成的各种设计说明。为此，我们在示范库建设中坚持以下指导原则:

•高度相关的指令和代码对:每个演示包括一个详细的实现指令和相应的代码，并伴随着注释。每一行指令都明确地链接到特定的代码段，从而明确了它们的相关性和原理。

•多样化的设计选择:为了确保llm为给定的设计指令找到具有足够领域知识的演示，我们在我们的搜索空间(第IV-D部分)为每个设计参数生成单独的演示修改。

由于GPT4AIGChip考虑的搜索空间较大，基于上述原则生成大量不同的AI加速器设计需要大量的人力。幸运的是，我们提出的对llm友好的硬件模板使其可行。该模板展示了高模块化，并允许在AI加速器中对每个模块进行解耦生成。这种方法通过两种方式显著地减少了所需的人力:(1)每个模块都是简洁和结构化的实现。

专注于特定的功能。因此，一个模块的实现不需要考虑对其他模块的影响，从而简化了实现过程，减少了劳动密集型;(2)并不是模板中的所有模块都受到搜索空间中所有参数的影响。因此，与整个AI加速器设计相比，每个模块的潜在设计变化大大减少。

其他器件在GPT4AIGChip

硬件设计空间。为了确保生成的加速器在不同设计中的性能，通用加速器设计空间至关重要。它支持灵活的设计过程，为代码生成器提供多个选项来定制每个目标操作符的设计。利用第IV-B部分的模板，我们确定了五个关键的硬件设计参数:

•MAC数组大小:它们表示实例化的加速器的MAC数组中的MAC总数。

•片上网络(NoC)风格:它们决定了数据在计算单元之间的分布，以及数据在计算单元之间的传播。它们可以分为三种主要类型:单播、多播和广播。为了提高设计的多样性，这些风格被独立应用于计算单元的不同层次，包括单个MAC、1D MAC lanes和2D MAC array。此外，NoC样式为不同的数据类型分别配置，例如，GEMM中的两个输入操作数和一个输出，扩大了设计变化。

•片上缓冲区大小:它们表示加速器设计中三个主要缓冲区的容量，包括两个输入缓冲区和一个(部分)输出缓冲区。所有附加的辅助缓冲区和寄存器的大小取决于这三个主要缓冲区的能力。

•片上缓冲区分区风格:它们决定了每个缓冲区内的片上内存块之间的数据分配。通过将数据划分到多个块，可以通过缓冲区分区实现并行访问。这种划分可以采用数据宽度和高度两个维度。

•数据重用模式:它们定义了数据缓存后如何在计算过程中重用。改变缓冲区和DRAM交换数据的方式会导致不同的重用策略，例如，第一次输入操作数重用，第二次输入操作数重用，或输出重用。

采用的搜索算法。GPT4AIGChip的加速器搜索采用一种进化算法，称为锦标赛选择[19]，该算法迭代地进化加速器的设计。这个迭代进化过程从初始化种群P开始，由|p |从可用的设计空间中随机选择的加速器设计{hw}组成。具体地说，在每次迭代中，从p中随机选择一个固定大小的子集S。根据llm生成的实现的顶级硬件性能判断，优秀的设计成为父设计{hw}parent。新型加速器设计{hw}child 然后通过突变(父元素设计参数的随机调整)和交叉(两个父元素之间的随机元素交换)出现。合成物{hw}child 为保持恒定的种群大小|P|，最古老的设计从P逐步淘汰，紧随[32]。最后，一旦达到最大循环数，则选择整个搜索过程中性能最高的加速器设计作为最优解。

设计验证和代码修正流程。GPT4AIGChip还集成了一个验证和确保llm生成设计的功能的过程，包括三个主要阶段:(1)综合能力评估(2)正确性验证(3)性能分析。在综合评价中，我们最初使用标准化的Vivado HLS工具[42]来合成LLM生成的代码。随后，输出日志消息通过一个定制的错误解析器处理，该解析器配备了经过经验测试的错误检测和纠正协议。如果解析器遇到超出其能力的错误，则可能需要(1)llm驱动的设计再生或(2)人为干预来纠正错误。当前的设置包含了检测和寻址未定义变量、不恰当的HLS pragma使用和出界数组(内存)访问的过程。通过结果的正确性检验，保证了设计产生了预期的结果。具体地说，构建一个具有预期输入和输出的测试工作台模板。随后将生成的输出与预期输出进行对比，以确认准确性。考虑到可能出现的各种错误，这一步骤不包括自动更正。如果结果不正确，需要重新设计。最后，我们评估性能指标(例如，延迟)和资源使用，以便向搜索引擎提供反馈，如图1所示。Vivado HLS内置工具在设计综合后生成这些性能和资源估计。

深入研究了llm在人工智能加速器设计自动化方面的能力。作为关键的第一步，我们对llm在自动AI加速器生成方面的优势和局限性进行了深入调查，对llm驱动的设计自动化的前景提出了重要的见解。基于这些见解，我们开发了GPT4AIGChip，该芯片集成了一个自动即时生成的流水线，使用上下文学习来引导llm创建高质量的AI加速器设计。各种实验和烧蚀研究验证了GPT4AIGChip在响应人类自然语言生成高性能人工智能加速器方面的有效性。据我们所知，这项工作标志着llm驱动的自动化人工智能加速器一代管道的首次成功演示，突出了llm在设计自动化领域尚未开发的潜力，并为下一代人工智能加速器的发展提出了有前景的道路。

REFERENCES

[1] “Ds891-zynq-ultrascale-plus-overview,” https://docs.xilinx.com/v/u/

en-US/ds891-zynq-ultrascale-plus-overview, (Accessed on 02/21/2023).

[2] B. Ahmad et al. , “Fixing hardware security bugs with large language

models,” arXiv preprint arXiv:2302.01215 , 2023.

[3] T. Brown et al. , “Language models are few-shot learners,” Advances in

neural information processing systems , vol. 33, pp. 1877–1901, 2020.

[4] S. Bubeck et al. , “Sparks of artificial general intelligence: Early exper

iments with gpt-4,” arXiv preprint arXiv:2303.12712 , 2023.

[5] S. C. Chan et al. , “Data distributional properties drive emergent few-shot

learning in transformers,” arXiv preprint arXiv:2205.05055 , 2022.

[6] A. Chen et al. , “Improving code generation by training with natural

language feedback,” arXiv preprint arXiv:2303.16749 , 2023.

[7] M. Chen et al. , “Evaluating large language models trained on code,”

arXiv preprint arXiv:2107.03374 , 2021.

[8] J. Devlin et al. , “Bert: Pre-training of deep bidirectional transformers

for language understanding,” arXiv preprint arXiv:1810.04805 , 2018.

[9] L. Floridi and M. Chiriatti, “Gpt-3: Its nature, scope, limits, and

consequences,” Minds and Machines , vol. 30, pp. 681–694, 2020.

[10] Y. Fu et al. , “Auto-nba: Efficient and effective search over the joint space

of networks, bitwidths, and accelerators,” in International Conference on

Machine Learning . PMLR, 2021, pp. 3505–3517.

[11] R. Garg et al. , “A taxonomy for classification and comparison of

dataflows for gnn accelerators,” arXiv preprint arXiv:2103.07977 , 2021.

[12] S. Garg et al. , “What can transformers learn in-context? a case study

of simple function classes,” Advances in Neural Information Processing

Systems , vol. 35, pp. 30 583–30 598, 2022.

【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
可编程逻辑器件的发展与比较 cycf FPGA之道 fpga开发
可编程逻辑器件的发展与比较文章目录可编程逻辑器件的发展与比较一、早期的离散逻辑芯片二、复杂可编程逻辑器件（CPLD）（一）CPLD的诞生（二）CPLD的结构（三）CPLD的特点三、现场可编程门阵列（FPGA）（一）FPGA的架构变革（二）FPGA的特点四、CPLD与FPGA的对比五、总结一、早期的离散逻辑芯片在可编程逻辑器件（PLD）发明之前，设计师们只能使用一些专用的小芯片来搭建系统，这些小芯片
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
UI TARS 和 Magentic-UI的区别和差异 frank0060071 ui 运维
UI-TARS和Magentic-UI都是当前前沿的AI驱动自动化工具，但它们在设计理念技术架构和应用场景上存在显著差异。以下是两者的核心区别和对比分析：1.开发背景与目标定位UI-TARS由字节跳动开发，专注于跨平台GUI自动化，强调通过自然语言指令实现端到端的任务执行（如打开应用填写表单等），目标是成为通用型视觉语言模型代理，减少人工干预核心定位：多模态感知与自动化执行，适用于需要高精度界面操
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
【架构基础】系统性能基础知识 Programmer Liu 架构基础系统架构
一、系统性能概述在当今数字化时代，各类系统（如计算机系统、网络系统、软件应用系统等，以下统称系统）的性能优劣直接影响着用户体验、业务效率以及企业的竞争力。深入理解系统性能基础知识，对于系统开发、运维和优化人员而言至关重要。本文将围绕性能指标、性能计算、性能设计、性能评估四个核心方面展开，帮助读者全面掌握系统性能的关键要点。二、性能指标性能指标是衡量系统性能优劣的具体量化标准，不同类型的系统关注的性
Hamiltonian Transformer理论：融合哈密顿力学与Transformer架构的新范式墨顿 transformer 架构深度学习
HamiltonianTransformer理论是一种将经典哈密顿力学原理与现代Transformer架构相结合的新型神经网络范式。这一理论框架试图解决当前深度学习模型在效率、动态系统建模和长期依赖处理等方面的核心挑战。本文将系统梳理HamiltonianTransformer的理论基础、关键创新点、实现方法以及应用前景，并分析其相对于传统Transformer架构的优势与潜在限制。哈密顿力学与T
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
【架构基础】什么是系统架构？
系统架构（信息系统架构，InformationSystemArchitecture，ISA）是信息系统整体结构的高层抽象描述，它定义了系统的核心组件、组件间的交互方式、数据流动路径、技术选择以及设计原则，以支持业务目标的实现。系统架构不仅关注技术实现，还涉及业务、组织、流程等多个维度，是连接业务需求与技术实现的桥梁。核心要素：业务组件：支持业务流程的模块或服务（如用户管理、订单处理）。技术组件：实
使用numpy或pytorch校验两个张量是否相等
文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite;那么就有对比不同格式模型输出的一致性，从而判断模型转换是否成功。1、numpy用到的核心代码就一行，就是：importnumpyasnpnp.testing.assert_allclose(act
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Spring Cloud（微服务部署与监控）白仑色 Spring系列 spring cloud 微服务 spring 微服务部署服务监控健康检查
摘要在微服务架构中，随着服务数量的增长和部署复杂度的提升，如何高效部署、持续监控、快速定位问题并实现自动化运维成为保障系统稳定性的关键。本文将围绕SpringCloud微服务的部署与监控展开，深入讲解：微服务打包与部署方式（JAR/Docker/Kubernetes）如何构建CI/CD流水线服务健康检查与自动恢复机制Prometheus+Grafana实现指标可视化监控ELK实现日志集中管理Sky
OpenBayes 一周速览丨OmniGen2「双轨架构」实现文本/图像分工协作，效果直逼GPT-4O
公共资源速递4个公共数据集：ReasonMed医学推理数据集Miriad-5.8M医学问答数据集WebClick网页理解基准数据集OCRBench文本识别基准数据集2个公共模型：MiniCPM4-8BKimi-Dev-72B-GGUF9个公共教程：深度估计*23D生成*3图像生成与处理*4访问官网立即使用：openbayes.com公共数据集ReasonMed医学推理数据集ReasonMed数据集
竞技FPS核心技术：C/S强同步模式深度解析你一身傲骨怎能输商业化射击游戏技术专栏 C/S
文章摘要C/S强同步模式是竞技FPS游戏的核心技术，采用服务器权威计算+客户端预测的架构。客户端采集输入并本地预测表现，服务器进行权威状态计算后同步给所有客户端，出现差异时客户端回滚并重演输入。该模式通过预测回滚、延迟补偿等机制平衡流畅性与公平性，支持高频状态同步（如60Hz/128Hz），有效防止作弊。典型实现包括输入/状态包设计、快照存储和重演逻辑，适用于CS:GO、Valorant等竞技游戏
Linux——内核——设备驱动 newbie_Joe linux概念 linux内核
Linux设备驱动是操作系统与硬件之间的桥梁，它允许内核与硬件设备进行通信，管理硬件资源，并为上层应用提供标准化的接口。以下从基本概念、分类、架构、开发流程及关键机制等方面，系统梳理Linux设备驱动的核心知识：一、设备驱动的基本概念作用抽象硬件细节：将硬件操作封装为标准接口（如open()、read()、write()），使应用无需直接操作寄存器。资源管理：分配/释放硬件资源（如内存、I/O端口
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
Linux——内核——网络协议
Linux网络协议栈是Linux内核中实现网络通信的核心组件，其设计遵循分层架构，支持多种网络协议和功能。以下从协议栈的分层结构、关键组件、工作流程、数据包处理机制、优化与调试等方面进行详尽阐述：一、协议栈的分层结构Linux网络协议栈基于TCP/IP模型，分为四层：应用层提供用户接口，支持HTTP、FTP、SSH等协议。通过SocketAPI与传输层交互，实现数据收发。传输层TCP：面向连接，提
自动驾驶行业向端到端架构转型未来创世纪自动驾驶自动驾驶架构人工智能
一、效能革命消除信息损耗与延迟传统模块化架构的流程是感知、决策、规划、控制这四个环节串联。例如，在一个自动驾驶汽车行驶过程中，感知模块先识别出前方有障碍物，将信息传递给决策模块，决策模块再决定是刹车还是变道，接着规划模块规划具体的行驶路径，最后控制模块执行操作。然而，在这个过程中，每个模块之间的接口会导致信息损失。比如，感知模块可能只能传递有限的关于障碍物的信息（如距离、速度等几个关键参数），而一
LSTM（Long Short-Term Memory）模型的深度解析 AI扶我青云志 lstm rnn 深度学习
在6.28号我发了一个博客《RNN（循环神经网络）与LSTM（长短期记忆网络）输出的详细对比分析》，但是我并未详细讲解LSTM，LSTM是循环神经网络中的一个模型，然而通过这篇博客给大家深度解析一下LSTM，重点关注其内部结构和参数。LSTM是为了解决标准RNN在处理长序列时出现的梯度消失/爆炸问题而设计的一种特殊循环神经网络结构。它的核心在于引入了门控机制和细胞状态，使得网络能够有选择地记住或忘
Java基础集合框架队列架构阻塞双端队列BlockingDeque架构
BlockingDequeBlockingDeque核心特性BlockingDeque核心方法唯一标准实现：LinkedBlockingDequeLinkedBlockingDeque构造方法LinkedBlockingDeque数据结构及管理逻辑LinkedBlockingDeque核心特性LinkedBlockingDeque核心操作方法逻辑LinkedBlockingDeque总结Linke
【Java面试】RocketMQ的设计原理用心分享技术 Java面试题 java 面试 rocketmq
一、核心架构设计原因NameServer轻量级无状态问题：传统注册中心（如ZooKeeper）强一致性（CP）设计复杂，且在高并发场景下性能瓶颈明显。解决：NameServer采用无状态+最终一致性（AP），节点间不通信，仅通过Broker心跳（30s/次）更新路由，降低复杂度并提升吞吐量。容忍分钟级不一致（如Broker宕机需120s剔除），适合消息路由这种非强一致场景。Broker主从架构与文
MyBatis架构原理解析：核心对象与执行流程深度剖析
一、开篇：理解MyBatis的核心价值在当今Java持久层框架生态中，MyBatis凭借其灵活的SQL控制能力和简洁的ORM实现成为企业级应用的首选。与JPA的全自动ORM不同，MyBatis采用半自动化映射理念，在保持SQL灵活性的同时，通过智能映射减少70%的JDBC样板代码。开发者直接编写SQLMyBatis核心引擎自动参数绑定结果集映射事务管理JDBC本文将深入剖析MyBatis的架构核心
基于MCP架构的ChatBI：破解数据分析难题，让智能对话赋能商业决策码力金矿 MCP 人工智能 python 架构数据分析数据挖掘数据库 sql oceanbase 人工智能
在数据驱动的时代，传统BI工具操作复杂、效率低下，而ChatBI（对话式商业智能）的兴起为企业带来了新希望。本文将深入探讨一种基于MCP（ModelContextProtocol，模型上下文协议）架构的ChatBI解决方案，通过创新设计解决数据准确性、多指标查询及自动化分析等核心痛点。文章以技术拆解+实战案例的形式呈现，帮助您快速理解其原理与价值，助力企业高效实现智能数据分析。关键词：MCP、Ch
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
GRU与LSTM之间的联系和区别 AI扶我青云志机器学习人工智能深度学习
前面我们谈到RNN与LSTM之间的关系，而GRU也是循环神经网络中的一种模型，那么它与LSTM有什么区别呢？接下来我来对GRU（GatedRecurrentUnit）模型进行一次深度解析，重点关注其内部结构、参数以及与LSTM的对比。GRU是LSTM的一种流行且高效的变体，由Cho等人在2014年提出，旨在解决与LSTM相同的长期依赖问题，但通过更简化的结构和更少的参数来实现。核心思想：简化LST
细粒度IP定位参文27（HGNN）：Identifying user geolocation（2022年）
[27]F.Zhou,T.Wang,T.Zhong,andG.Trajcevski,“Identifyingusergeolocationwithhierarchicalgraphneuralnetworksandexplainablefusion,”Inf.Fusion,vol.81,pp.1–13,2022.（用层次图、神经网络和可解释的融合来识别用户的地理定位）论文地址：https://do
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

AI时代-GPT4 AIGChip框架开发

你可能感兴趣的:(人工智能,chatgpt,架构,矩阵,深度学习,神经网络,机器学习)