深度学习技术前沿

Money is all you need! 6144块TPU，5400亿参数，超大模型出炉！

来源：机器之心

谷歌的下一代架构 Pathways 已经用来训练大模型了。

‍

随着规模的增加，模型在处理多个任务时的性能逐渐提高，而且还在不断解锁新的能力。

在探讨现有 AI 模型的局限时，谷歌人工智能主管 Jeff Dean 曾经说过，今天的人工智能系统总是从头开始学习新问题。最终，我们为数千个单独的任务开发了数千个模型。以这种方式学习每项新任务不仅需要更长的时间，而且还需要更多的数据，效率非常低。

在 Jeff Dean 看来，理想的发展模式应该是训练一个模型来做成千上万件事情。为了实现这一愿景，他所在的团队去年提出了一种名叫「Pathways」的通用 AI 架构。Jeff Dean 介绍说，Pathways 旨在用一个架构同时处理多项任务，并且拥有快速学习新任务、更好地理解世界的能力。前段时间，该团队终于公布了 Pathways 的论文‍。

论文写道，PATHWAYS 使用了一种新的异步分布式数据流设计。这种设计允许 PATHWAYS 采用单控制器模型，从而更容易表达复杂的新并行模式。实验结果表明，当在 2048 个 TPU 上运行 SPMD（single program multiple data）计算时，PATHWAYS 的性能（加速器利用率接近 100%）可以媲美 SOTA 系统。

‍

谷歌 Pathways 系统架构概览。

有了强大的系统，接下来就是训练模型了。

在刚刚公布的论文——「PaLM: Scaling Language Modeling with Pathways」中，谷歌宣布，他们用 Pathways 系统训练了一个 5400 亿参数的大型语言模型——PaLM（Pathways Language Model）。

论文链接：https://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

这是一个只有解码器的密集 Transformer 模型。为了训练这个模型，谷歌动用了 6144 块 TPU，让 Pathways 在两个 Cloud TPU v4 Pods 上训练 PaLM。

强大的系统和算力投入带来了惊艳的结果。研究者在数百个语言理解和生成任务上评估了 PaLM，发现它在大多数任务上实现了 SOTA 少样本学习性能，可以出色地完成笑话解读、bug 修复、从表情符号中猜电影等语言、代码任务。

有网友感叹说，「终于知道谷歌开发 TPU 是用来干嘛的了。这种级别的自然语言理解，一旦被应用程序所利用，并变得足够高效并广泛使用。这将彻底改变谷歌所做的一切。拥有能够实现这一目标的芯片是非常有价值的，而那些陷入购买或租用英伟达芯片的公司将处于不利地位。」

PaLM 架构概览

PaLM 只包含解码器（每个时间步只能关注自身和过去的时间步），对一种标准的 Transformer 架构（(Vaswani et al., 2017)）做出了如下更改：

SwiGLU 激活

研究者使用 SwiGLU 激活 (Swish(xW) · xV) 用于 MLP 中间激活，因为研究表明，与标准 ReLU、GeLU 或 Swish 激活相比，SwiGLU 激活能显著提高质量。注意，在 MLP 中，这确实需要三个矩阵乘法，而不是两个，但 Shazeer (2020) 在计算等效实验中证明了质量的提升。

并行层

研究者在每个 Transformer 模块中使用「并行」方法，而不是标准的「串行」方法。具体来说，标准方法可以写成：

并行方法可以写成

由于 MLP 和注意力输入矩阵乘法可以融合，这里的并行方法可以让大规模训练速度提升 15%。消融实验显示，在 8B 的规模下，质量下降很小，但在 62B 规模下，质量没有下降，因此研究者推断，并行层的影响会在 540B 规模下达到 quality neutral。

多查询（Multi-Query）注意力

标准 Transformer 方法使用 k 个注意力头，其中每个时间步长的输入向量被线性投影成形状 [k，h] 的「查询」、「键」和「值」张量，其中 h 是注意力头大小。这里，键 / 值投影对于每个头是共享的，即「键」和「值」被投影到[1，h]，但是「查询」仍然被投影到形状[k，h]。此前有研究表明，这对模型质量和训练速度的影响呈中性，但在自回归解码时间上可以带来显著的成本节约。这是因为在自回归解码过程中，标准多头注意力在加速器硬件上的效率很低，因为键 / 值张量不在实例之间共享，并且一次只有单个 token 被解码。

RoPE 嵌入

研究者使用了 RoPE 嵌入而不是绝对或相对位置嵌入，因为 RoPE 嵌入已被证明在长序列长度上具有更好的性能。

共享输入 - 输出嵌入

研究者共享了输入和输出嵌入矩阵，这是在过去的工作中经常做的（但不是普遍的）。

No Biases

研究者在任何密集核或层 norm 中都没有使用 biases。他们发现，这可以增加大型模型的训练稳定性。

词汇表

研究者使用了具有 256k token 的 SentencePiece 词汇表，选择这个词汇表是为了支持训练语料库中的多种语言（没有过多的分词）。词汇表是从训练数据中生成的，研究者发现这提高了训练效率。

用 Pathways 训练一个 5400 亿参数的语言模型

PaLM 是谷歌首次大规模使用 Pathways 系统将训练扩展到 6144 块芯片，这是迄今为止用于训练的基于 TPU 的最大系统配置。研究者在 Pod 级别上跨两个 Cloud TPU v4 Pods 使用数据并行对训练进行扩展，同时在每个 Pod 中使用标准数据和模型并行。与以前的大多数 LLM 相比，这是一个显著的规模增长。

PaLM 实现了 57.8% 的硬件 FLOPs 利用率的训练效率，这是 LLM 在这个规模上实现的最高效率。为了达到这一水平，研究者将并行策略和 Transformer 块的重新设计结果相结合，这使得注意力层和前馈层并行计算成为可能，从而实现了 TPU 编译器优化带来的加速。

PaLM 使用英语和多语言数据集进行训练，包括高质量的 web 文档、书籍、维基百科、对话和 GitHub 代码。研究者还创建了一个「无损（lossless）」词汇表，它保留了所有空格（对于代码来说尤其重要），将词汇表之外的 Unicode 字符拆分成字节，并将数字拆分成单独的 token，每个 token 对应一个数字。

突破性的语言、推理和代码生成能力

PaLM 在许多非常困难的任务上显示出了突破性的能力，包括语言理解、生成、推理和代码等相关任务。

语言理解与生成

在 29 项基于英语的 NLP 任务上，PaLM 540B 的性能比之前的 SOTA 结果有所提高。

除了英语 NLP 任务外，PaLM 在包括翻译在内的多语言 NLP 基准测试中也表现出强大的性能，尽管它只有 22% 的训练语料库是非英语的。

研究者还在 Beyond the Imitation Game Benchmark (BIG-bench) 上探索了 PaLM 新的和未来功能，这是一个近期发布的套件，包含 150 多个新的语言建模任务。在这个过程中， PaLM 与 Gopher 和 Chinchilla 的性能进行了比较，涉及这些任务的 58 个公共子集。

有趣的是，研究者注意到，作为 scale 函数（function of scale）的 PaLM 的性能遵循与先前模型类似的对数线性表现，这表明 scale 的性能改进尚未趋于平稳。PaLM 540B 5-shot 的表现也优于解决相同任务的人类平均表现。

PaLM 在 58 个 BIG-bench 任务的子集上的 scaling behavior。

PaLM 在几个 BIG-bench 任务中展示了令人印象深刻的自然语言理解和生成能力。例如，该模型可以区分因果关系，理解上下文中的概念组合，甚至可以从表情符号中猜测电影。

PaLM 540B 在 BIG-bench 任务上的 1-shot 性能展示：标记因果关系、概念理解、从表情符号中猜测电影以及查找同义词和反事实。

推理

通过将模型 scale 与 chain-of-thought prompting 相结合，PaLM 在需要多步骤算术或常识推理的推理任务上展示出了突破性的能力。以往诸如 Gopher 这样的大型语言模型在提高性能方面从模型 scale 中获益较少。

小学数学问题示例中的标准 prompting 与 chain-of-thought prompting。Chain-of-thought prompting 将多步骤推理问题的 prompt 分解为中间步骤（黄色部分），类似于人类处理它的方式。

研究者在三个算术数据集和两个常识推理数据集上观察到了 PaLM 540B 在 chain-of-thought prompt 加持下的强大性能。例如，借助 8-shot prompt，PaLM 解决了 GSM8K 中 58% 的问题，这是一个包含数千个具有挑战性的小学水平数学问题的基准，超过了之前 GPT-3 175B 微调模型（训练集包含 7500 个问题，并与外部计算器和验证器相结合）获得的 55% 的最高分。

这个新的得分值得关注，因为它接近 60% 的 9 到 12 岁儿童解决问题的水平，这些儿童正是问题集的目标受众。研究者猜测，PaLM 词汇表中数字的独立编码有助于实现这些性能改进。

值得注意的是，PaLM 甚至可以为需要多步骤逻辑推理、世界认知和深度语言理解的复杂组合的场景生成明确的解释。例如，它可以为网络上搜不到的新笑话提供高质量的解释。

PaLM 用 two-shot prompts 解释了一个原创笑话。

代码生成

大型语言模型已被证明可以很好地推广到编码任务，比如在给定自然语言描述（文本到代码）的情况下编写代码，将代码从一种语言翻译成另一种语言，以及修复编译错误（代码到代码）。

PaLM 540B 在单个模型中显示了横跨编码任务和自然语言任务的强大性能，即使它在预训练数据集中只有 5% 的代码。具体而言，PaLM 540B 的 few-shot 性能十分显著，与经过微调的 Codex 12B 相当，同时使用的 Python 训练代码减少到了 50 分之一。这一结果印证了之前的发现，即较大的模型比较小的模型更高效，因为它们可以更好地从其他编程语言和自然语言数据中实现迁移学习。

PaLM 540B 微调模型在文本到代码任务（例如 GSM8K - Python 和 HumanEval）和代码到代码任务（例如 Transcoder）上的示例。

此外，通过在纯 Python 代码数据集上微调 PaLM ，模型进一步提高了性能，团队称之为 PaLM-Coder。如下图所示，PaLM-Coder 接到了一个名为 DeepFix 的示例代码修复任务，目标是修改最初损坏的 C 程序直到它们编译成功，PaLM-Coder 540B 展示了令人印象深刻的性能，实现了 82.1% 的编译率，优于之前 71.7% 的 SOTA 结果。这为修复软件开发过程中出现的更复杂的错误提供了机会。

DeepFix 代码修复任务的示例。经过微调的 PaLM-Coder 540B 将编译错误（左）修复为可编译的代码版本（右）。

从伦理方面考虑，最近的研究强调了受过网络文本训练的 LLM 相关的各种潜在风险。通过模型卡片和数据表等透明工件分析并记录这些潜在的不良风险是至关重要的，其中还包括有关预期用途和测试的信息。为此，谷歌的论文提供了数据表、模型卡片和 Responsible AI 基准测试结果，并报告了对数据集和模型输出的全面分析，以发现偏差和风险。虽然分析有助于概述模型的一些潜在风险，但特定领域和任务的分析对于真正校准、情境化和减轻可能的危害至关重要。进一步了解这些模型的风险和收益是正在进行的研究的主题，同时开发可扩展的解决方案，防止恶意使用语言模型。

参考链接：https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html

欢迎大家加入DLer-CVPR2022论文分享交流群！

大家好，这是CVPR2022论文分享群里，群里会第一时间发布CVPR2022的论文解读和交流分享会，主要设计方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

长按识别，邀请您进群！

Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
java开发安卓和kotlin对比哈哈皮皮虾的皮 java android kotlin
Java和Kotlin都是用于Android开发的编程语言，它们各自具有独特的特点和优势。以下是对Java和Kotlin在Android开发中的对比：一、语法与简洁性Java：Java的语法相对繁琐，需要编写较多的样板代码。例如，在Java中，每一行代码的末尾都需要一个分号来表示语句的结束。Kotlin：Kotlin的语法更为简洁，支持更多的语法糖，可以减少冗余的代码。在Kotlin中，换行符通常
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
完善Meteor应用的NPM集成——meteorhacks/npm项目推荐尤峻淳Whitney
完善Meteor应用的NPM集成——meteorhacks/npm项目推荐1.项目基础介绍及编程语言meteorhacks/npm是一个开源项目，旨在为Meteor应用提供完整的NPM模块集成。该项目通过允许在Meteor应用内部使用NPM模块，极大地扩展了Meteor应用的功能性和灵活性。该项目的主要编程语言是JavaScript。2.项目核心功能项目的核心功能是提供一个桥接器，让开发者可以在M
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
深度学习图像分类数据集—百种病虫害分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：百种病虫害识别分类，训练集45095张，验证集7508张，测试集22619张具体类别为以下：insect_classes=["rice_leaf_roller","rice_leaf_caterpillar
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

Money is all you need! 6144块TPU，5400亿参数，超大模型出炉！

你可能感兴趣的:(编程语言,python,机器学习,人工智能,深度学习)