不吃姜

深度学习与计算机视觉：卷二 chap04 什么是ImageNet？

Chap 04 What Is ImageNet? （什么是ImageNet？）

在本章中，我们将讨论ImageNet数据集和相关的ImageNet大规模视觉识别挑战赛（ILSVRC）[9]。这项挑战是评估图像分类算法的事实上的基准。自2012年Krizhevsky等人发表其开创性的AlexNet工作[8]以来，ILSVRC的排行榜一直被卷积神经网络和深度学习技术所主导。

此后，深度学习方法不断扩大CNN与其他传统计算机视觉分类方法之间的准确性差距。毫无疑问，CNN是强大的图像分类器，现在已经成为计算机视觉和机器学习文献中的一个固定组成部分。在本章的后半部分，我们将探讨如何获得ImageNet数据集，这是为了让你在本章后面复制最先进的神经网络的结果而提出的要求。

4.1 ImageNet数据集

在计算机视觉和深度学习社区，你可能会遇到一些围绕ImageNet是什么和不是什么的上下文混淆。ImageNet实际上是一个项目，旨在根据一组定义好的单词和短语，将图像标记和分类到所有的22000个类别。在写这篇文章的时候，ImageNet项目中有超过1400万张图片。

那么，ImageNet是如何组织的呢？为了对如此大量的数据进行排序，ImageNet实际上遵循了WordNet的层次结构[10]。WordNet中每个有意义的词/短语都被称为 "同义词集 "或简称为synset。在ImageNet项目中，图像是根据这些同义词集进行分类的；项目的目标是每个同义词集有1000多张图像。

4.1.1 ILSVRC

在计算机视觉和深度学习的背景下，每当你听到人们谈论图像网，他们很可能指的是ImageNet大规模视觉识别挑战赛[9]，简称ILSVRC。这个挑战赛中的图像分类赛道的目标是训练一个模型，能够正确地将图像分为1000个独立的物体类别，其中一些被认为是细粒度的分类，另一些则不是。ImageNet数据集内的图像是通过汇编以前的数据集和刮取流行的在线网站收集的。然后对这些图像进行人工标注、注释和标记。

自2012年以来，ILSVRC挑战赛的排行榜一直被基于深度学习的方法所占据，排名第一和排名第五的准确率逐年上升（图4.1）。模型在120万张训练图像上进行训练，另有5万张图像用于验证（每个词组50张），10万张图像用于测试（每个词组100张）。

这1000张图片类别代表了我们在日常生活中可能遇到的各种物体类别，如狗的种类、猫、各种家用物品、车辆类型等等。你可以在这个ImageNet官方文档页面（http://pyimg.co/1ogm0）上找到ILSVRC挑战中的全部对象类别列表。

在入门教材的第5章中，我附上了一张图，展示了ImageNet大规模视觉识别挑战赛中与ImageNet数据集有关的一些挑战。与一般的 “鸟”、"猫 "和 "狗 "类不同，ImageNet与以前的图像分类基准数据集（如PASCAL VOC[12]）相比，包括了更精细的类别。PASCAL VOC将 "狗 "限定为一个单一的类别，而ImageNet则包括120个不同品种的狗。这种分类要求意味着我们的深度学习网络不仅需要将图像识别为 “狗”，而且还要有足够的辨别力来确定狗的种类。

此外，ImageNet中的图像在物体尺度、实例数量、图像杂乱/排斥、可变形性、纹理、颜色、形状和真实世界的大小方面有很大的不同。这个数据集至少可以说是具有挑战性的，在某些情况下，即使是人类也很难正确标记。由于这个数据集的挑战性，在ImageNet上表现良好的深度学习模型很可能对验证和测试集以外的图像有很好的概括性–这也是我们对这些模型也应用迁移学习的确切原因。

我们将在第五章讨论更多的图像和特定类别的例子，届时我们将开始探索ImageNet数据集并编写代码来准备我们的图像进行训练。然而，在那之前，我强烈建议你花10-20分钟，在你的网络浏览器中浏览一下synsets（http://pyimg.co/1ogm0），感受一下与正确分类这些图像有关的规模和挑战。

4.2 得到ImageNet数据集

ImageNet分类挑战数据集相当大，训练图像为138GB，验证图像为6.3GB，测试图像为13GB。在下载ImageNet之前，你首先需要获得对ILSVRC挑战赛的访问权，并下载图像和相关的类别标签。本节将帮助你获得ImageNet数据集。

4.2.1申请访问ILSVRC挑战赛

ILSVRC挑战赛是普林斯顿大学和斯坦福大学的一项联合工作，因此是一个学术项目。ImageNet不拥有图像的版权，只允许为非商业研究和/或教育目的访问原始图像文件（尽管这一点有待商榷–见下文第4.2.5节）。如果你属于这个阵营，你可以简单地在ILSVRC网站（http://pyimg.co/fy844）上注册一个账户。

但是请注意，ImageNet不接受免费的电子邮件地址，如Gmail、Yahoo等。- 相反，你需要提供你的大学或政府/研究机构的电子邮件地址。如图4.2所示，我只需要提供我的大学电子邮件地址，从那里我就能验证我的电子邮件地址，然后接受访问条款。

一旦你接受了访问条款，你就可以进入下载原始图像页面–点击ILSVRC 2015图像数据链接。在那里，请确保你下载开发工具包，一个包含README、训练/测试分割信息、不应该用于训练的黑名单文件等的.zip文件（图4.3）。

然后，你要下载CLS-LOC数据集，其中包含ImageNet数据集中的120万张图像（图4.3）。请记住，这是一个很大的文件，根据你的网络连接（以及image-net.org的稳定性），这个下载可能需要几天时间。我个人的建议是使用wget命令行程序来下载档案，使你能够从你离开的地方重新开始下载，以防出现连接问题（可能会有少数问题）。解释如何使用wget超出了本书的范围，所以请参考下面的页面，了解如何用wget重新启动下载（http://pyimg.co/97u59）。

下载完.tar压缩文件后，下一步是解压，这也是一个计算成本很高的过程，因为你需要解压≈120万张图片–我建议让你的系统在一夜之间解决这个任务。

4.2.2通过程序下载图像

如果你被拒绝访问ILSVRC的原始图像数据，不要担心–还有其他方法可以获得数据，尽管这些方法略显繁琐。请记住，ImageNet并不 "拥有 "数据集内的图像，所以他们可以自由地分发图像的URLs。数据集中每张图片的URL（一个.txt文件，每行一个URL）都可以在这里找到。http://pyimg.co/kw64x

同样，你需要使用wget来下载图片。你在这里可能遇到的一个常见问题是，一些图片的URL可能在最初的网络抓取之后就自然而然地被404了，你将无法访问它们。因此，以编程方式下载图片可能相当麻烦、乏味，我不推荐这种方法。

4.2.3 使用外部服务

由于ImageNet数据集的巨大规模和在全球范围内传播的需要，该数据集很适合通过BitTorrent进行传播。AcademicTorrents.com网站提供训练集和验证集的下载（http://pyimg.co/asdyi）[13]。该网页的截图见图4.4。

在这里插入图片描述

测试集不包括在洪流中，因为我们将无法访问ImageNet评估服务器来提交我们对测试数据的预测。请记住，即使您使用AcademicTorrents等外部服务来下载ImageNet数据集，您仍然受到访问条款的隐含约束。您可以使用ImageNet来研究和开发您自己的模型，但您不能重新包装ImageNet并将其用于营利–这完全是一个由斯坦福大学和普林斯顿大学的合资企业提供的学术数据集。请尊重科学界，不要违反使用条款。

4.2.4 ImageNet开发工具包

在下载实际的ImageNet数据集的同时，请确保下载ImageNet开发工具包（http://pyimg.co/wijj7），我们以后将其简称为 “DevKit”。

我也在这里放置了一个DevKit的镜像：http://pyimg.co/ounw6 DevKit包含:

数据集的概述和统计数据。
类别的元数据（允许我们建立图像名称与类别标签的映射关系）。
用于评估的MATLAB例程（我们将不需要这些）。

DevKit是一个很小的下载，只有7.4MB，应该在几秒钟内完成。一旦你下载了DevKit，将其解压缩，并花时间熟悉目录结构，包括许可证（复制）和readme.txt。当我们建立ImageNet数据集并为训练CNN做准备时，我们将在下一章中详细回顾DevKit。

4.2.5 ImageNet的版权问题

乍一看，ImageNet数据集和相关的ILSVRC挑战似乎是一个版权要求的雷区–究竟谁拥有ImageNet数据集中的什么？为了回答这个问题，让我们把这个问题分成三个具体的资产类别。

资产#1：图像本身。
资产#2：预编译的ILSVRC数据集。
资产#3：通过在ILSVRC上训练网络得到的输出模型权重

首先，原始图像本身属于拍摄图像的人/实体，他们拥有这些图像的全部版权。ImageNet项目的运作受到与Google、Bing等搜索引擎相同的限制。- 他们被允许提供原始版权图像的链接，但必须保留版权。这一规定就是为什么允许ImageNet网站提供数据集中的原始图像的URL，而不要求你注册和创建一个账户–实际下载这些图像是你的责任。

这个过程似乎相当清晰；然而，一旦我们看了ILSVRC的实际挑战，水就开始变得浑浊。由于终端用户不再负责逐一下载每张图片（而是可以下载整个数据集的档案），我们遇到了版权问题–为什么用户可以下载预先编译好的（潜在的）有版权的图片档案？这不是侵犯了拍摄原始照片的人的版权吗？这是艺术界和科学界的一个争论点，但就目前的情况来看，由于我们在参与ILSVRC时接受的访问条款，我们被允许下载ILSVRC的图像档案。

你可以自由地将ImageNet数据集用于学术和非商业目的。
你不能将ILSVRC的数据作为你最终产品的一部分来分发。

原来的版权问题没有得到直接的回答，但通过对预编译数据集档案的限制，在一定程度上得到了缓解。此外，ImageNet网站为那些希望从数据集中删除其图像的版权人提供了DMCA移除申请。

最后，让我们来看看资产#3，即在ImageNet数据集上训练卷积神经网络后得到的某个模型的序列化权重–这些模型权重也受版权保护吗？

答案有点不清楚，但就我们目前对法律的理解而言，对公开发布学习过的模型权重没有任何限制[14]。因此，只要我们牢记公平使用和适当归属的精神，我们就可以自由地分发我们训练过的模型。

我们之所以被允许分发我们自己的模型（甚至可以用我们自己的限制条件来为它们争取版权）是由于参数化学习（Starter Bundle，第8章）–我们的CNN并不存储原始图像的 “内部副本”（比如k-NN算法）。由于模型不存储原始图像（无论是全部还是部分），模型本身不受原始ImageNet数据集的版权要求约束。因此，我们可以自由地分发我们的模型权重，或在其上放置额外的版权（例如，最终用户可以自由地使用我们现有的架构，但在商业应用中使用之前，必须在原始数据集上从头开始重新训练网络）。

但是，在ImageNet上训练的模型如果被用于商业应用，又该如何处理呢？
在ImageNet数据集上训练并用于商业应用的模型是否违反了访问条款？根据访问条款的措辞，是的，从技术上讲，这些商业应用有违反合同的风险。

另一方面，还没有人对使用ImageNet数据集从头开始训练自己的网络的深度学习公司/创业公司提起诉讼。请记住，除非强制执行，否则版权是没有力量的–关于ImageNet，从来没有做过这样的强制执行。

简而言之：这是深度学习社区的一个灰色地带。有大量的深度学习初创公司依靠在ImageNet数据集上训练的CNN（公司名称特意省略）–他们的收入完全基于这些网络的性能。事实上，如果没有ImageNet和ILSVRC，这些公司就不会有创造其产品所需的数据集（除非他们自己投资数百万美元和多年收集和注释数据集）。

在我看来，ImageNet数据集的公平使用有一套不为人知的规则。我认为这些规则如下（尽管肯定会有很多人不同意我的观点）。

规则一：你需要通过某种方式获得ILSVRC数据集，并接受（明示或暗示的）访问条款。
规则二：在获得与ILSVRC挑战相关的数据后，你需要在数据集上训练自己的卷积神经网络。你可以自由使用现有的网络架构，如AlexNet VGGNet，ResNet等，只要你在ILSVRC的数据集上从头开始训练网络。你不需要开发一个新的网络架构。
规则3：一旦你获得了你的模型权重，你就可以在你自己的限制下分发它们，包括开放访问，使用时要注明出处，甚至是有限的社区。

第三条规则会引起激烈的争论，我肯定会收到许多关于它的电子邮件–但问题是–虽然规则不明确，但还没有关于如何使用从ILSVRC得出的网络权重的诉讼，包括商业应用。再次，请记住，版权只有在实际执行的情况下才有效–仅仅持有版权并不能作为一种保护形式。

此外，在ILSVRC上训练的深度学习模型的使用既是一个法律问题，也是一个经济问题–计算机科学行业正经历着深度学习应用的巨大热潮。如果通过全面的立法，限制在受版权保护的图像数据上从头开始训练的CNN的商业使用（即使由于参数化学习，没有原始数据的复制），我们将扼杀一个正在经历高增长和数十亿美元估值的经济的一部分。

4.3 总结

在本章中，我们回顾了ImageNet数据集和相关的ILSVRC挑战，这是用来评估图像分类算法的事实基准。然后，我们研究了获得ImageNet数据集的多种方法。

在本书的其余章节中，我将假设你无法获得测试集和相关的ImageNet评估服务器；因此，我们将从训练数据中得出我们自己的测试集。这样做将确保我们能够在本地评估我们的模型，并获得我们网络准确性的合理代理。

现在花点时间在你的机器上开始下载ImageNet数据集。我建议使用ILSVRC的官方挑战网站来下载ImageNet数据，因为这种方法是最简单和最可靠的。如果您没有大学、政府或研究机构的电子邮件地址，请随时向您的同事请求访问，但请记住，无论您如何获得数据，您仍然受到访问条款的约束（即使您通过AcademicTorrents下载）。

我的观点是，通过在ILSVRC数据集上的训练获得的模型权重可以按照你的意愿使用；但是，请记住，这仍然是一个有争议的问题。在部署一个利用ImageNet训练的模型的商业应用之前，我鼓励你咨询适当的法律顾问。

在下一章中，我们将探索ImageNet数据集，了解它的文件结构，并编写Python辅助工具，以促进我们从磁盘上加载图像并为训练做准备的能力。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><