南七澄江

《动手学深度学习(PyTorch版)》笔记3.4

Chapter3 Linear Neural Networks

3.4 Softmax Regression

3.4.1 Classification Problems

一般的分类问题并不与类别之间的自然顺序有关，统计学家发明了一种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是一个向量，它的分量和类别一样多。类别对应的分量设置为1，其他所有分量设置为0。在我们的例子中，标签 $y$ 将是一个三维向量，其中 $(1, 0, 0)$ 对应于“猫”、 $(0, 1, 0)$ 对应于“鸡”、 $(0, 0, 1)$ 对应于“狗”：
$\in \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}.$

3.4.2 Network Architecture

为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数（affine function）。每个输出对应于它自己的仿射函数。在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表示权重（带下标的 $w$ ），3个标量来表示偏置（带下标的 $b$ ）。下面我们为每个输入计算三个未规范化的预测（logit）： $o_1$ 、 $o_2$ 和 $o_3$ 。

$\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\ o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\ o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3. \end{aligned}$
上式通过向量形式表达为 $\mathbf{o} = \mathbf{W} \mathbf{x} + \mathbf{b}$ 。
我们可以用神经网络图来描述这个计算过程，如下图所示。与线性回归一样，softmax回归也是一个单层神经网络。由于计算每个输出 $o_1$ 、 $o_2$ 和 $o_3$ 取决于所有输入 $x_1$ 、 $x_2$ 、 $x_3$ 和 $x_4$ ，所以softmax回归的输出层也是全连接层。

3.4.3 Parameterization Cost of Fully-Connected Layers(此段书上内容较少，有待详细补充)

在深度学习中，全连接层无处不在。然而，全连接层是“完全”连接的，可能有很多可学习的参数。具体来说，对于任何具有 $d$ 个输入和 $q$ 个输出的全连接层，参数开销(在传递函数或方法参数时引入的额外开销)为 $\mathcal{O}(dq)$ ，这个数字在实践中可能高得令人望而却步。幸运的是，将 $d$ 个输入转换为 $q$ 个输出的成本可以减少到 $\mathcal{O}(\frac{dq}{n})$ ，其中超参数 $n$ 可以由我们灵活指定，以在实际应用中平衡参数节约和模型有效性。

3.4.4 Softmax Operation

现在我们将优化参数，以最大化预测结果符合实际情况的概率。为了得到预测结果，我们将设置一个阈值，如选择具有最大概率的标签。我们希望模型的输出 $\hat{y}_j$ 可以视为属于类 $j$ 的概率，然后选择具有最大输出值的类别 $\operatorname*{argmax}_j y_j$ 作为我们的预测。例如，如果 $\hat{y}_1$ 、 $\hat{y}_2$ 和 $\hat{y}_3$ 分别为0.1、0.8和0.1，那么我们预测的类别是2，在我们的例子中代表“鸡”。但我们不能将未规范化的预测 $o$ 直接视作我们感兴趣的输出，因为将线性层的输出直接视为概率时存在一些问题：一方面，我们没有限制这些输出数字的总和为1；另一方面，根据输入的不同，它们可以为负值。

要将输出视为概率，我们必须保证在任何数据上的输出都是非负的且总和为1。此外，我们需要一个训练的目标函数，来激励模型精准地估计概率。例如，在分类器输出0.5的所有样本中，我们希望这些样本是刚好有一半实际上属于预测的类别。这个属性叫做校准（calibration）。

社会科学家邓肯·卢斯于1959年在选择模型（choice model）的理论基础上发明的softmax函数正是这样做的：softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这一目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。如下式：

$\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text{其中}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}$

这里，对于所有的 $j$ 总有 $\leq \hat{y}_j \leq 1$ 。因此， $\hat{\mathbf{y}}$ 可以视为一个正确的概率分布。softmax运算不会改变未规范化的预测 $\mathbf{o}$ 之间的大小次序，只会确定分配给每个类别的概率。因此，在预测过程中，我们仍然可以用下式来选择最有可能的类别。

$\operatorname*{argmax}_j \hat y_j = \operatorname*{argmax}_j o_j.$

尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型。

3.4.5 Softmax Vectorization

为了提高计算效率并且充分利用GPU，我们通常会对小批量样本的数据执行矢量计算。假设我们读取了一个批量的样本 $\mathbf{X}$ ，其中特征维度（输入数量）为 $d$ ，批量大小为 $n$ 。此外，假设我们在输出中有 $q$ 个类别。那么小批量样本的特征为 $\mathbf{X} \in \mathbb{R}^{n \times d}$ ，权重为 $\mathbf{W} \in \mathbb{R}^{d \times q}$ ，偏置为 $\mathbf{b} \in \mathbb{R}^{1\times q}$ 。softmax回归的矢量计算表达式为：

$\begin{aligned} \mathbf{O} &= \mathbf{X} \mathbf{W} + \mathbf{b}, \\ \hat{\mathbf{Y}} & = \mathrm{softmax}(\mathbf{O}). \end{aligned}$

相对于一次处理一个样本，小批量样本的矢量化加快了 $\mathbf{X}和\mathbf{W}$ 的矩阵-向量乘法。由于 $\mathbf{X}$ 中的每一行代表一个数据样本，那么softmax运算可以按行（rowwise）执行：对于 $\mathbf{O}$ 的每一行，我们先对所有项进行幂运算，然后通过求和对它们进行标准化。在上式中， $\mathbf{X} \mathbf{W} + \mathbf{b}$ 的求和会使用广播机制，小批量的未规范化预测 $\mathbf{O}$ 和输出概率 $\hat{\mathbf{Y}}$ 都是形状为 $\times q$ 的矩阵。

3.4.6 Loss Function

接下来，我们将使用最大似然估计来度量预测的效果,这与在线性回归中的方法相同。

3.4.6.1 Log Likelihood

softmax函数给出了一个向量 $\hat{\mathbf{y}}$ ，我们可以将其视为“对给定任意输入 $\mathbf{x}$ 的每个类的条件概率”。例如， $\hat{y}_1$ = $P(y=\text{猫} \mid \mathbf{x})$ 。假设整个数据集 $\{\mathbf{X}, \mathbf{Y}\}$ 具有 $n$ 个样本，其中索引 $i$ 的样本由特征向量 $\mathbf{x}^{(i)}$ 和独热标签向量 $\mathbf{y}^{(i)}$ 组成。我们可以将估计值与实际值进行比较：

$P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}).$

根据最大似然估计，我们最大化 $P(\mathbf{Y} \mid \mathbf{X})$ ，相当于最小化负对数似然：

$-\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)})\text{(对数似然损失等于交叉熵损失的总和,后续补充)}$

其中，对于任何标签 $\mathbf{y}$ 和模型预测 $\hat{\mathbf{y}}$ ，损失函数为：

$l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.$

上式中的损失函数通常被称为交叉熵损失（cross-entropy loss）。由于 $\mathbf{y}$ 是一个长度为 $q$ 的独热编码向量，所以除了一个项以外的所有项 $j$ 都消失了。由于所有 $\hat{y}_j$ 都是预测的概率，所以它们的对数永远不会大于 $0$ 。因此，如果正确地预测实际标签，即如果实际标签 $P(\mathbf{y} \mid \mathbf{x})=1$ ，则损失函数不能进一步最小化。注意，这往往是不可能的。例如，数据集中可能存在标签噪声（比如某些样本可能被误标），或输入特征没有足够的信息来完美地对每一个样本分类。
由对数似然损失等于交叉熵损失的总和(后续补充),有
$\sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)})$
现在让我们考虑整个结果分布的情况，即观察到的不仅仅是一个结果。对于标签 $\mathbf{y}$ ，我们可以使用与以前相同的表示形式。唯一的区别是，我们现在用一个概率向量表示，如 $(0.1, 0.2, 0.7)$ ，而不是仅包含二元项的向量 $(0, 0, 1)$ 。我们使用交叉熵损失来定义所有标签分布的预期损失值，它是分类问题最常用的损失之一。

3.4.6.2 Softmax and Derivatives

由于softmax和相关的损失函数很常见，因此我们需要更好地理解它的计算方式。利用softmax的定义，我们得到：

$\begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j \end{aligned}$
关于最后一行，由于 $\mathbf{y}$ 是一个长度为 $q$ 的独热编码向量，所以除了一个项以外的所有项 $j$ 都消失了。
考虑相对于任何未规范化的预测 $o_j$ 的导数，我们得到：

$\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j.$

换句话说，导数是我们softmax模型分配的概率与实际发生的情况（由独热标签向量表示）之间的差异。从这个意义上讲，这与我们在回归中看到的非常相似，其中梯度是观测值 $y$ 和估计值 $\hat{y}$ 之间的差异。这不是巧合，在任何指数族分布模型中（参见本书附录中关于数学分布的一节），对数似然的梯度正是由此得出的。这使梯度计算在实践中变得容易很多。

3.4.7 Basics of Information Theory

信息论（information theory）涉及编码、解码、发送以及尽可能简洁地处理信息或数据。

3.4.7.1 Entropy

信息论的核心思想是量化数据中的信息内容，该数值被称为分布 $P$ 的熵（entropy），可以通过以下方程得到：

$\sum_j - P(j) \log P(j).$

信息论的基本定理之一指出，为了对从分布 $p$ 中随机抽取的数据进行编码，我们至少需要 $H [P]$ “纳特（nat）”对其进行编码。“纳特”相当于比特（bit），但是对数底为 $e$ 而不是2。因此，一个纳特是 $\frac{1}{\log(2)} \approx 1.44$ 比特。

3.4.7.2 Amount of Information

压缩与预测有什么关系呢？想象一下，我们有一个要压缩的数据流，如果我们很容易预测下一个数据，那么这个数据就很容易压缩。举一个极端的例子，假如数据流中的每个数据完全相同，那么为了传递数据流的内容，我们不必传输任何信息，也就是说，“下一个数据是xx”这个事件毫无信息量。

但是，如果我们不能完全预测每一个事件，那么我们有时可能会感到"惊异"。克劳德·香农决定用信息量 $\log \frac{1}{P(j)} = -\log P(j)$ 来量化这种惊异程度。在观察一个事件 $j$ 时，并赋予它（主观）概率 $P (j)$ 。当我们赋予一个事件较低的概率时，我们的惊异会更大，该事件的信息量也就更大。在前文中定义的熵，是当分配的概率真正匹配数据生成过程时的信息量的期望。

3.4.7.3 Re-examining Cross-Entropy

交叉熵从 $P$ 到 $Q$ ，记为 $H (P, Q)$ 。
我们可以把交叉熵想象为“主观概率为 $Q$ 的观察者在看到根据概率 $P$ 生成的数据时的预期惊异”。当 $P = Q$ 时，交叉熵达到最低，此时从 $P$ 到 $Q$ 的交叉熵是 $H (P, P) = H (P)$ 。

简而言之，我们可以从两方面来考虑交叉熵分类目标：

最大化观测数据的似然；
最小化传达标签所需的惊异。

3.4.8 Model Prediction and Evaluation

在训练softmax回归模型后，给出任何样本特征，我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测与实际类别（标签）一致，则预测是正确的。我们将使用精度（accuracy）来评估模型的性能，精度等于正确预测数与预测总数之间的比率。

3.4.9 Conclusions

softmax运算获取一个向量并将其映射为概率。
softmax回归适用于分类问题，它使用了softmax运算中输出类别的概率分布。
交叉熵是一个衡量两个概率分布之间差异的很好的度量，它测量给定模型编码数据所需的比特数。

3.4.10 References

本书附录中关于信息论的一节

Python3-excel文档操作（二）：利用openpyxl库处理excel表格：在excel表格中插入图片 liranke Python学习笔记 python openpyxl python处理excel load_workbook
1.简介excel表中可以插入图片，使用openpyxl库可以实现这个功能。2.代码：#-*-coding:utf-8-*-importosimportsysimporttimeimportopenpyxlfromopenpyxlimportload_workbookfromopenpyxl.drawing.imageimportImagedefopenxls_insert_img(fname,i
基于Python的多元医疗知识图谱构建与应用研究（上） Allen_LVyingbo python 医疗高效编程研发 python 知识图谱健康医疗
一、引言1.1研究背景与意义在当今数智化时代，医疗数据呈爆发式增长，如何高效管理和利用这些数据，成为提升医疗服务质量的关键。传统医疗数据管理方式存在数据孤岛、信息整合困难等问题，难以满足现代医疗对精准诊断和个性化治疗的需求。知识图谱作为一种知识表示和管理技术，为医疗领域带来了新的解决方案。它能够将海量的医疗信息以结构化、语义化的方式组织起来，揭示疾病、症状、药物、治疗方法等实体之间的复杂关系，从而
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
MoviePy视频编辑和处理Python库的版本问题解决：No module named ‘moviepy.editor‘ 封步宇AIGC 文字音频视频自动化工具 python 音视频 ffmpeg 人工智能
MoviePy是一个强大的Python库，用于视频编辑和处理。它支持多种基本操作，如视频剪切、拼接、插入标题，以及更高级的视频合成（非线性编辑）、视频处理和自定义特效创建。MoviePy能够读写包括GIF在内的常见音频和视频格式，并且兼容Windows、Mac和Linux操作系统，支持Python2.7和3.x版本MoviePy基于ffmpeg和ImageMagick，提供了易于使用的API，能够
《CPython Internals》阅读笔记：p177-p220 codists 读书笔记 python
《CPythonInternals》学习第11天，p177-p220总结，总计44页。一、技术总结1.memoryallocationinC(1)staticmemeoryallocationMemoryrequirementsarecalculatedatcompiletimeandallocatedbytheexecutablewhenitstarts.(2)automaticmemeorya
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
《CPython Internals》阅读笔记：p250-p284 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-("out")+pandere("tospread")spawn原来的意思是“spreadingoutoffish
Python使用moviepy模块编辑视频时，有可能会出现“TypeError: ‘module‘ object is not callable”的错误提示 CodeWG python 开发语言
Python使用moviepy模块编辑视频时，有可能会出现“TypeError:‘module‘objectisnotcallable”的错误提示。这个错误提示表明在调用函数或方法时，试图调用一个不可被调用的对象。这个问题通常是由于导入moviepy模块时，模块本身并不是可以被调用的对象而导致的。要解决这个问题，我们需要检查代码中导入moviepy模块的语句是否有误。moviepy模块中最常用的类
免费下载：汽车SoC学习笔记（含安全岛）不懂汽车的胖子汽车学习笔记
文末附下载方法目录1SoC是什么...31.1SoC历史发展...31.2SoC定义...41.3SoC的特征...61.4SoC的优点...61.5SoC的缺点...72SoC需求来源...73SoC架构...83.1SoC架构...83.2SoC芯片分类...93.2.1模拟SoC(AnalogSoC)：...93.2.2数字SoC(DigitalSoC)：...93.2.3混合SoC(Mix
使用PyCharm运行Python程序代码艺术巧匠 python pycharm java Python
使用PyCharm运行Python程序PyCharm是一种功能强大的Python集成开发环境（IDE），它提供了许多方便的功能来开发、调试和运行Python程序。在本文中，我将向您展示如何使用PyCharm来运行Python程序，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要从JetBrains官方网站下载并安装PyCharm。根据您的操作系统，选择适合您的版本。安装过程非常简单，
API接口在电商的应用及收益前端后端运维数据挖掘api
一、API接口在电商的核心应用场景（一）商品数据管理与展示在电商平台，商品信息的准确与实时更新极为关键。借助API接口，能轻松实现商品数据从供应商系统到电商平台的同步。例如，使用Python结合Requests库编写代码，从外部API获取商品数据：importrequestsurl="https://example.com/api/products"response=requests.get(ur
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
Gary Marcus 2025年AI预测：AGI仍在路上，务实发展才是王道前端
人工智能领域发展日新月异，各种预测层出不穷。知名人工智能专家GaryMarcus近期发布了对2025年AI发展趋势的25项预测，其中最引人注目的是：AGI（通用人工智能）不会在2025年出现。这与一些过于乐观甚至盲目乐观的预测形成了鲜明对比。本文将深入解读Marcus的预测，探讨其背后的逻辑，并结合当前AI技术发展现状进行分析。Marcus的预测整体基调是谨慎乐观，他既肯定了AI在特定领域的进步，
数据驱动销售预测的未来：ScriptEcho赋能高效决策前端
在瞬息万变的商业环境中，准确的销售预测是企业制定有效销售策略、实现业绩增长的基石。传统的销售预测方法往往依赖于人工分析和复杂的电子表格，效率低下，难以应对市场变化的快速冲击。然而，随着大数据的兴起和人工智能技术的飞速发展，数据驱动决策正成为现代企业提升竞争力的关键。本文将探讨销售预测面临的挑战与机遇，并重点介绍ScriptEcho如何通过AI赋能，提升销售预测的准确性和效率，助力企业实现数据驱动增
【C++算法笔记】最基础篇------高精度算法孙小健的资料站算法学习笔记 c++算法笔记
个人笔记：只提供学习代码和其步骤思路，仅供参考学习，已提前在相关编译器中提前运行并保证代码运行。为什么要用高精度算法：longlong的存储大小为9*10^19,即超过20位的数字将无法使用基本数据类型存储和计算，所以我们要使用其他方法存储设计。涉及基础知识：基本输入输出，字符串及数组的基本运用基础步骤：1.对字符串s1,s2进行承接2.将a1与a2相加的和存入a33.从左向右进位并出现逆序#in
【自用】Verilog笔记 QCCX_bY 笔记
一、语法1、模块moduletest(A,B,C,D,F1,F2);//test为模块名inputA,B,C,D;//输入端口，默认为wire类型信号，一般都是wireoutputF1,F2;//输出端口，默认wirewireF1;//连线reg[2:0]F2;//3bit寄存器endmodulemoduletop_module(inputa,inputb,outputout);//模块实例化语法
人类为何追求AGI？一个AI代码生成工具的思考前端
近年来，“AI写代码工具”的出现，无疑为软件开发领域带来了革命性的变化。而我们今天要探讨的，是关于人类对通用人工智能（AGI）的追求，以及这与AI辅助开发工具之间微妙的联系。文章开头就抛出了一个尖锐的问题：人类为何如此痴迷于AGI，而非将更多精力放在改善人类生活本身？文章作者表达了对AGI发展方向的担忧。他认为，目前对AGI的追求，更多地体现在创造能够取代人类的超级智能上，例如“少数派报告式”的行
使用Scrapy抓取图片网站的图片：完整教程与实战案例 Python爬虫项目 2025年爬虫实战项目 scrapy 爬虫 python 音视频开发语言 selenium
引言在互联网时代，图片已经成为我们生活和工作中不可或缺的一部分。随着社交媒体、电子商务、新闻网站等平台的普及，图片的需求量和使用量不断增加。因此，如何高效、便捷地抓取网站上的图片，成为了许多数据工程师、爬虫开发者以及数据科学家需要解决的问题。Scrapy是Python中一个非常强大且广泛使用的爬虫框架。它不仅提供了强大的抓取能力，还能够轻松地处理大规模数据抓取和高效的数据存储。Scrapy适合处理
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
零售业的AI赋能与前端开发效率革命：ScriptEcho 的助力前端
零售业正经历着前所未有的数字化转型，但同时也面临着巨大的挑战。库存管理混乱、个性化客户体验不足等问题，严重制约着零售企业的盈利能力。而人工智能（AI）的兴起，为解决这些问题提供了新的思路。通过AI驱动的实时库存管理和客户行为分析，零售企业可以显著提升运营效率和客户满意度。然而，构建这些AI赋能的零售应用，需要强大的前端开发能力，这正是AI代码生成器ScriptEcho能够发挥关键作用的地方。AI赋
AI赋能：2024年，如何用AI提升效率，我的15个实用技巧及2025年展望前端
2024年，人工智能技术突飞猛进，深刻地改变了我们的工作方式。作为一名科技领域的作者，我亲身体验了AI带来的效率提升。过去一年，我探索了各种AI工具，并将其应用于我的日常工作中，显著缩短了工作流程，节省了大量时间。本文将分享我在2024年使用AI提升生产力的15个实用技巧，并展望2025年AI可能带来的更多可能性。AI赋能下的高效创作：从代码到图像，全方位提升首先，AI极大地辅助了我的编程工作。对
AI时代的前端开发：技能提升与职业发展之路前端
在瞬息万变的科技时代，个人职业发展的重要性日益凸显。提升技能，不断学习，已经不再是锦上添花，而是立足之本，是我们在竞争激烈的职场中脱颖而出的关键。而人工智能（AI）技术的快速发展，为我们提供了前所未有的机遇，特别是对于前端开发领域，AI正以前所未有的速度改变着我们的工作方式和学习方式。AI赋能前端开发：个性化学习路径前端开发领域的技术栈庞大而复杂，涵盖HTML、CSS、JavaScript、各种框
银河麒麟v10安装 python 3.12.5版本 sageparadise python 银河麒麟
1、官网下载python3.12.52、安装前检查opensslopensslversion#OpenSSL1.1.1f31Mar2020如果提示openssl1.1.1无需安装openssl,否则需要安装，下载openssltar-zxfopenssl-1.1.1s.tar.gzcdopenssl-1.1.1s/./config-fPIC--prefix=/usr/include/openssl
AI赋能：加速产品开发，提升公司竞争力前端
在当今快节奏的商业环境中，产品开发效率直接关系到公司的生存和发展。然而，许多公司面临着产品开发周期长、成本高、市场响应速度慢等诸多挑战。这些挑战不仅延缓了产品上市时间，也增加了市场竞争的风险。因此，提高产品开发效率，成为企业提升核心竞争力的关键。而人工智能技术的应用，为我们提供了解决这些问题的有效途径。加速产品迭代，快速响应市场需求传统的软件开发流程往往冗长复杂，从需求分析、设计、编码到测试和上线
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
AI赋能人力资源：效率提升新路径前端
引言人工智能(AI)正以前所未有的速度改变着各行各业，从自动驾驶到医疗诊断，AI的应用日益广泛。而人力资源领域，作为企业运营的核心环节，也正经历着AI带来的深刻变革。传统的人力资源管理面临诸多挑战，例如招聘效率低、候选人筛选精准度不足、员工培训成本高昂以及数据分析能力有限等。这些问题不仅影响企业的招聘速度和效率，也制约了企业的发展。为了应对这些挑战，越来越多的企业开始探索AI技术在人力资源领域的应
AscendC从入门到精通系列（四）使用Pybind调用AscendC算子人工智能深度学习
如果已经通过AscendC编程语言实现了算子，那该如何通过pybind进行调用呢？1Pybind调用介绍通过PyTorch框架进行模型的训练、推理时，会调用很多算子进行计算，其中的调用方式与kernel编译流程有关。对于自定义算子工程，需要使用PyTorchAscendAdapter中的OP-Plugin算子插件对功能进行扩展，让torch可以直接调用自定义算子包中的算子，详细内容可以参考PyTo
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源