oldmao_2000

03.Show and Tell

前言
泛读
- 摘要
- Introduction
- Related Work
- 小结
精读
- 模型
- - 基于LSTM的句子生成器
  - Training
  - Inference
- 实验
- - 评价标准
  - 数据集
  - 训练细节
  - 分数结果
  - 生成结果多样性讨论
  - 排名结果
  - 人工评价结果
  - 表征分析
- 结论
代码

前言

本课程来自深度之眼《多模态》训练营，部分截图来自课程视频。
文章标题：Show and Tell: A Neural Image Caption Generator
神经图像描述生成
作者：Oriol Vinyals等
单位：谷歌
发表时间：2015 CVPR
Latex 公式编辑器

泛读

和第二篇一样，这篇同样是cvpr 2015的一篇文章，这篇读完可以算是对图像描述这个方向有个大体的了解，里面所使用的编码-解码（Encoder-Decoder）的结构甚至到现在都是很实用的，后来的大多数这方面的文章都是在该模型的基础上进行的优化改良。
文章开篇就讲，这篇论文将最近比较火的计算机视觉和机器翻译两个领域融合起来，从而有了这个模型。图像描述比目标检测和图像分类更加难一点，因为好的描述不仅仅要抓住图像中的客观物体，更要表述出这些目标之间的关系。不仅如此，还得考虑语义，不同的语言还得考虑语法。那个时候现有的办法都是讲解决上述每个子问题的方法合在一起来生成图像描述，而这篇论文则首次提出用一个模型来解决所有的问题。

摘要

Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing.
开门见山：自动描述图像内容是连接计算机视觉和自然语言处理的人工智能中的一个基本问题。

In this paper, we present a generative model based on a deep recurrent architecture that combines recent advances in computer vision and machine translation and that can be used to generate natural sentences describing an image. The model is trained to maximize the likelihood of the target description sentence given the training image.
我们干了什么：在本文中，我们提出了一种基于深度循环架构的生成模型，它结合了计算机视觉和机器翻译的最新进展，可用于生成描述图像的自然语句。该模型被训练以最大化给定训练图像的目标描述句子的可能性。

Experiments on several datasets show the accuracy of the model and the fluency of the language it learns solely from image descriptions. Our model is often quite accurate, which we verify both qualitatively and quantitatively. For instance, while the current state-of-the-art BLEU-1 score (the higher the better) on the Pascal dataset is 25, our approach yields 59, to be compared to human performance around 69. We also show BLEU-1 score improvements on Flickr30k, from 56 to 66, and on SBU, from 19 to 28. Lastly, on the newly released COCO dataset, we achieve a BLEU-4 of 27.7, which is the current state-of-the-art.
实验标志性mark：在多个数据集上的实验表明了模型的准确性以及它仅从图像描述中学习的语言的重要性。我们的模型通常非常准确，我们从定性和定量两方面进行了验证。例如，虽然Pascal数据集上当前最先进的BLEU-1得分（越高越好）为25，但我们的方法产生5 9，与人类绩效约6 9相比。我们还发现Flickr30k上的BLEU1得分从56提高到66，SBU上的BLUE-1分从19提高到28。最后，在最新发布的COCO 数据集上，我们实现了27.7的BLEU4，达到SOTA。

省流：提出了一种基于深度循环网络架构的图片描述生成架构，在xxxx数据集上取得SOTA的水平。

Introduction

第一段先强调能够用正确的英语句子自动描述图像的内容是一项非常艰巨的任务，但它可能会产生巨大的影响，例如帮助视障人士更好地理解网络上图像的内容。例如，这项任务要比经过充分研究的图像分类或目标识别任务困难得多，后者一直是计算机视觉界的主要焦点。
然后说这个任务为什么不简单：描述不仅必须捕捉图像中包含的对象，还必须表达这些对象之间的关系，以及它们的属性和它们所涉及的活动。此外，上述语义知识必须用英语等自然语言表达，这意味着除了视觉理解之外，还需要语言模型。

第二段，先提到当前现有的研究是将图文描述分解的子问题结合起来解决的，然后对比提出本文的做法是提出a single joint model，然后接一个从句来描述整个model：该模型将图像 $I$ 作为输入，并经过训练以最大限度地提高生成单词 $S=\{S_1，S_2，…\}$ 的目标序列的可能性 $p (S ∣ I)$ ，其中每个单词S都来自一个给定的字典，能够充分描述图像。

然后第三段介绍上面的idea是如何从MT任务中得来的。假设源语言为S，目标语言为T，这机器翻译的目标是要最大化 $p (T ∣ S)$ ，并提到完成MT任务，RNN是当前最佳选择。“编码器”RNN读取源语句，
并将其转换为丰富的固定长度向量表示，进而用作生成目标语句的“解码器”RNN的初始隐藏状态。

第四段，简单介绍本文方法，第一句的“方法”的英文表达值得借鉴：
Here, we propose to follow this elegant recipe
本文使用CNN作为图像“编码器”，首先对其进行图像分类任务的预训练，并使用最后一个隐藏层作为生成句子的RNN decoder的输入（见图1）。我们称这个模型为神经图像标题：Neural Image Caption，NIC。

最后一段介绍contribution：
First, we present an end-to-end system for the problem. It is a neural net which is fully trainable using stochastic gradient descent.
提出了一个 Neural Image Caption（NIC）模型来生成图像描述，该模型的优化目标可以使用梯度下降来训练。

Second, our model combines state-of-art sub-networks for vision and language models. These can be pre-trained on larger corpora and thus can take advantage of additional data.
该模型结合了现有的一些用于视觉和语言模型的最新子网，所以可以保证有足够的数据来进行预训练。

Finally, it yields significantly better performance compared to state-of-the-art approaches.
最后呢，当然是每篇论文都有的话，只不过这篇说的更拽一点：我们的模型优于现有的所有模型。

Related Work

早些时候研究人员独立使用视觉模型来识别图像物体与关系, 使用语言模型生成文本, 通常基于复杂的人工设计系统如模板等, 这些方法生成的文本很呆板（或者仅用在某些特定领域，例如：交通、体育）。后来为了解决这样的问题, 又有人将图片和文本映射到相同的向量空间, 通过寻找距离图像向量最近的文本向量来生成语句（这个讲的好像就是第一篇的工作）。即使最新的神经网络方法也没有解决无法描述未曾出现物体的问题。
最后一句就是指出当前研究的局限性。

在这项工作中，我们将用于图像分类的深度卷积网络[12]与用于序列建模的递归网络[10]相结合，以创建生成图像描述的单个网络。RNN在这个单一的“端到端”模型的上下文中进行训练。该模型受到最近机器翻译中序列生成成功的启发[3，2，30]，不同之处在于，我们使用卷积网络作为输入，而不是从句子开始。最接近的工作是Kiros等人[15]，他们使用神经网络，而不是前馈网络，来预测给定图像和先前单词的下一个单词。Mao等人[21]的一项最新研究将递归神经网络用于同一预测任务。这与目前的提议非常相似，但有一些重要的区别：我们使用更强大的RNN模型，并直接向RNN模型提供视觉输入，这使得RNN能够跟踪文本所解释的对象。由于这些看似微不足道的差异，我们的系统在既定基准上取得了显著更好的结果。最后，Kiros等人[14]提出使用强大的计算机视觉模型和编码文本的LSTM构建联合多模态嵌入空间。与我们的方法相反，他们使用两个分离路径（一个用于图像，一个用于文本）来定义联合项层理，并且，尽管他们可以生成文本，但他们的方法对排名进行了调整。

小结

Image Caption的难点有两个：
1.模型不仅要能够对图像中的每一个物体进行分类，还需要能够理解和描述它们的空间关系。
2.描述的生成要考虑语义信息，当前的输出高度依赖之前生成的内容。
这篇论文提供了一个Image Caption的基础框架：即用CNN作为特征提取器用于将图像转换为特征向量，之后用一个RNN作为解码器（生成器），用于生成对图像的描述。

精读

模型

第一段还是稍微把MT任务解释一点，然后引出本文模型：
和机器翻译类似，Image Caption的目标函数也是最大化标签值的概率，这里的标签即使训练集的描述内容S，表示为:
$\theta^*=\arg\max_{\theta}\sum_{(I,\theta)}\log p(S|I;\theta)$
其中 $I$ 是输入图像， $θ$ 是模型的参数。 $\log p(S|I;\theta)$ 表示为 $N$ 个输出的概率和，第 $t$ 时刻的内容是0到 $t - 1$ 时刻以及图像编码的后验概率，可以表示为：
$\log p(S|I;\theta)=\sum_{t=0}^N\log p(S_t|I,S_0,\cdots,S_{t-1})$
可以使用RNN对这个概率进行建模, 将单词使用隐含层特征 $h_t$ 表示， $h_t = f(h_{t-1}, x_{t-1})$ , 为了提高性能，使用ILSVRC 2014比赛的最佳CNN模型和LSTM-RNN.
所以模型的损失函数是所有时间片的负log似然之和，表示为：
$L(I,S)=-\sum_{i=1}^N\log p_t(S_t)$
为了使上述RNN更具体，需要做出两个关键的设计选择：图像和文字如何作为输入输入；隐藏层 $f$ 的形式是什么。对于 $f$ 我们使用了一个长期短期记忆（LSTM）网络，它展示了翻译等序列任务的最新性能。下一节将概述该模型。对于图像的表示，我们使用卷积神经网络（CNN）。它们已被广泛用于图像任务，目前在目标识别和检测方面处于最先进水平。我们特别选择的CNN使用了一种新的批量归一化方法，并在ILSVRC 2014分类竞赛中获得了当前最佳性能[12]。此外，已经证明它们可以通过迁移学习推广到其他任务，如场景分类[4]。这些词用嵌入模型表示。

基于LSTM的句子生成器

这节主要是讲上面提到的 $f$ ，为了避免RNN的梯度爆炸与弥散问题，本文选择了LSTM进行解码。

蓝色箭头代表循环连接，三个 $\sigma$ 代表三个门，通过上一个时刻的输出进行计算。
$i_t=\sigma(W_{ix}x_t)+W_{im}m_{t-1}\\ f_t=\sigma(W_{fx}x_t)+W_{fm}m_{t-1}\\ o_t=\sigma(W_{ox}x_t)+W_{om}m_{t-1}$

然后用 $i_t$ 和 $f_t$ 结合 $x_t$ 计算 $c_t$ ：
$KaTeX parse error: Can't use function '\)' in math mode at position 56: …t+W_{cm}m_{t-1}\̲)̲$
然后经过输出门：
$m_t=o_t\odot c_t$
然后走softmax
$p_{t+1}=\text{Softmax}(m_t)$

Training

图的左半部分是编码器，由CNN组成，图中给的是GoogLeNet，在实际场景中我们可以根据自己的需求选择其它任意CNN。图的右侧是一个LSTM。
在训练时，输入图像表征 $I$ 只在最开始的t−1时刻输入，这里作者说通过实验结果表明如果每个时间片都输入会容易造成训练的过拟合且对噪声非常敏感。在预测第t+1时刻的内容时，我们会用到t时刻的输出的词编码作为特征输入，单词使用独热编码 $S_t$ 表示，整个过程表示为：
$\begin{align*}x_{-1}&=\text{CNN}(i)\\ x_t&=W_eS_t,t\in\{0\cdots N-1\}\\ p_{t+1}&=\text{LSTM}(x_t),t\in\{0\cdots N-1\}\end{align*}$

Inference

NIC推理的方法有两种, 一种是通常的Sampling方法, 即每次只选择概率最大的值生成单词; 另一种是BeamSearch, 每次单词生成时选择概率最大的K个值进行组合。

实验

评价标准

除了自动化标准外(BLEU, METEOR, CIDER), 本文还使用了人工评价（AMT）的方式, 对每个句子在1-4之间打分.同时, 在调参时还使用Perplexity进行参数选择. 最后还可以将图像描述问题转换为描述排名问题,这样就可以利用排序评价标准比如 reacall@k, 但是还是应该更加关注于生成评价方法。

数据集

Pascal 数据集通常仅在系统经过不同数据（例如其他四个数据集中的任何一个）训练后才用于测试。在 SBU的情况下，我们保留了 1000 张图像进行测试，并在 [18] 使用的其余图像上进行训练。同样，我们从MSCOCO 验证集中保留 4K 随机图像作为测试，称为 COCO-4k，并在下一节中使用它来报告结果。

训练细节

由于图像描述数据集数据不够充分. 为了防止过拟合, NIC使用ImageNet等上的预训练模型来初始化CNN参数. 同时也使用大规模新闻语料库对语言模型参数 $W_e$ 初始化, 但是并无明显效果, 所以最后为了简单没有使用新闻语料库初始化. 最后, 使用了一些模型方面的防过拟合方法, 如Dropout和模型融合以及修改网络模型尺寸等. 所有的参数使用固定学习率的SGD(无动量Momentum)进行优化; 使用512维向量作为词嵌入(Embedding)向量以及LSTM向量的尺寸。

分数结果

MSCOCO数据集上的BLEU-1, BLEU-4, METEOR, CIDER模型对比评分如下, 其中人工方法的评分是对5句人工描述计算BELU分数再取平均。
表1中人工描述取平均后NIC结果居然超过人类~！

文中还对为什么SBU得分比较低的情况做了说明，其原因在于SBU数据集的标注质量不高（weak labeling），标注语句较短，非人为标注等，因此该数据集的标注噪音较大，得分较低。
对于PASCAL数据集，官方没有划分训练集，且该数据集与Flickr、MSCOCO是无关联的，因此文中将模型在Flickr、MSCOCO训练结果迁移到了PASCAL，所以PASCAL数据集分数也相对低一点。

Flickr8k和Flickr30k这两个数据集很相似. 且Flick30k训练数据大约是Flickr8k的4倍大小, 所以从30k训练迁移到8 k的结果提高了4个B E L U点; 但是从MSCOCO ( 5倍于Flickr30k)迁移到Flickr时, 由于数据相差很远, 所以最终降低了10点. 其他数据集间的迁移情况也类似。

生成结果多样性讨论

为了研究生成的图像描述是否具有多样性和创新性, 文章使用BeamSearch的方法选出N个得分最高的语句，其中每张图最好的15个句子的平均BLEU与人类的得分相近，并且这15个句子中很多是未曾出现在训练数据中的，因此具有很好的多样性。一些测试集上的BeamSearch方法生成语句如下所示：

MSCOCO验证集中的TOP N示例
A man throwing a frisbee in a park. A man holding a frisbee in his hand. A man standing in the grass with a frisbee.
A close up of a sandwich on a plate. A close up of a plate of food with french fries. A white plate topped with a cut in half sandwich.
A display case filled with lots of donuts. A display case filled with lots of cakes. A bakery display case filled with lots of donuts.

排名结果

给定图片对描述排名及给定描述对图片进行排序都取得了很好的结果（原话：NIC is doing surprisingly well on both ranking tasks），结果如图所示：

人工评价结果

人工评价结果如下图所示，可见NIC模型优于参考系统但是差于Grond Truth，这的同时也表明BLEU并不是一个很好的评价指标。

文中还给出了生成的描述的例子，这里截取四张

作者指出左上角飞盘那张图片，模型能识别出尺寸较小的飞盘，显示出模型强大的识别能力。

表征分析

使用词嵌入作为LSTM解码器的输入, 可以学习到语言中相似的语义信息（ $W_e$ ），也有利于CNN提取相似的语义特征，一些最邻近单词的例子如下表所示：

单词	相邻词
car	van, cab, suv, vehicule, jeep
boy	toddler, gentleman, daughter, son
street	road, streets, highway, freeway
horse	pony, donkey, pig, goat, mule
computer	computers, pc, crt, chip, compute

结论

基于CNN和RNN的NIC模型多个数据集及多种评价标准下都展现了强大的生成性能和鲁棒性。显然，相关数据集的发展对NIC类似方法的提高也会有很大的帮助。更进一步，使用无监督数据集进行相关研究也是下一步工作。

代码

源代码是TF框架的，使用说明仔细看readme.md即可。大概步骤：
先下载COCO数据集，然后把COCO train2014 images放到train/images目录下，captions_train2014.json文件放到train目录下；同样的把COCO val2014 images放到val/images目录下，captions_val2014.json文件放到val目录下；下载VGG16网络对CNN部分的参数进行初始化（原文提供的下载链接已失效），当然也可以直接自己训练。
训练：

python3 main.py --phase=train \
    --load_cnn \
    --cnn_model_file='./vgg16_weights.npz'\
    [--train_cnn]

如果使用–train_cnn参数，则会同时训练CNN+RNN，否则会固定使用VGG16的参数，只训练RNN部分。

验证：

python3 main.py --phase=eval \
    --model_file='./models/xxxxxx.npy'

结果会直接显示在屏幕上，同时保存在val/results.json文件中。

测试：

python3 main.py --phase=test \
    --model_file='./models/xxxxxx.npy'

可以看到程序的入口在main.py中，先是导入config配置，在config.py中给出了很多配置，包括CNN的模型选择，隐藏层的size等：

然后从model.py中导入模型，这里是从BaseModel基础上进行扩展的，BaseModel在baseModel.py中，主要实现了基于COCO数据集的训练模型，贴一段初始化代码：

    def __init__(self, config):
        self.config = config
        self.is_train = True if config.phase == 'train' else False
        self.train_cnn = self.is_train and config.train_cnn
        self.image_loader = ImageLoader('./utils/ilsvrc_2012_mean.npy')
        self.image_shape = [224, 224, 3]
        self.nn = NN(config)
        self.global_step = tf.Variable(0,
                                       name = 'global_step',
                                       trainable = False)
        self.build()

当然我们主要是要在model.py中实现自己的模型。源代码是手搓的VGG16，现在VGG16已经写好了，直接加载即可，只需要剥离最后一层。
后面还手搓了一个LSTM，不细说了。

人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
GPU 之后，IMU 登场：AI 发展的下一次飞跃
你早晨醒来，手机上的大模型帮你写完邮件、翻译合同，却依旧不能帮你把厨房里洒掉的牛奶擦干。你戴上的AR眼镜知道“那里有杯子”，却抓不到它——AI会说不会做。是不是哪里少了一截？人工智能（AI）的发展历程中，我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。然而，尽管AI在虚拟世界中表现出色，它在物理世界中的表现却相对滞后。为了填补这一空白，AI正在进入一个新的发展阶段：行动驱动时代。在本文中，我
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
基于深度学习的语音识别：从音频信号到文本转录 Blossom.118 机器学习与人工智能深度学习语音识别音视频人工智能机器学习线性代数计算机视觉
前言语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本，为人们提供了更加自然和便捷的人机交互方式。近年来，深度学习技术在语音识别领域取得了显著进展，极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统，从音频信号的预处理到模型的训练与部署。一、语音识别的基本概
什么是GPT-4T？亿只小灿灿人工智能 GPT-4T
1.引言：GPT-4T概述GPT-4T是OpenAI开发的新一代多模态大型语言模型，在GPT-4的基础上增强了对表格数据、数学表达式和代码的处理能力。其核心创新在于Transformer架构的优化，使模型能够更高效地处理结构化数据与文本的融合任务。本文将深入探讨GPT-4T的技术原理、应用场景及代码实现。2.GPT-4T核心技术解析2.1多模态输入处理GPT-4T支持三种主要输入模态：自然语言文本
医疗AI应用中的幻觉缓解：案例与经验 AI天才研究院计算 AI人工智能与大数据 Agentic AI 实战人工智能 ai
医疗AI的“说谎”问题：如何让AI不再“信口开河”？——幻觉缓解的案例与经验关键词：医疗AI、幻觉现象、大语言模型、知识Grounding、多模态验证、临床安全、可解释性摘要：医疗AI（如大语言模型、辅助诊断系统）在提升医疗效率的同时，“幻觉”（生成不符合事实的医疗建议）成为其临床应用的致命隐患——比如告诉糖尿病患者“吃蜂蜜能降血糖”、编造不存在的药物副作用。本文用“小朋友乱说话”的类比拆解幻觉的
普通人想利用AI变现，这5个赛道不能错过！浮沉导师
随着人工智能技术的迅猛发展，越来越多的普通人开始关注如何利用AI实现变现。AI不仅改变了我们的工作方式，也创造了众多赚钱的机会。本文将介绍五个值得关注的AI赛道，帮助你抓住这些机会，实现收入增长。【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，终端用户不流失。0投资，稳定可靠，百度有几百万篇报道，期待你的加入。应用市场下载【高省
AI人工智能 Agent：金融投资中智能体的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能Agent：金融投资中智能体的应用1.背景介绍在金融投资领域，人工智能（AI）技术的应用已经成为一种趋势。随着数据量的爆炸性增长和计算能力的提升，AI技术在金融市场中的应用变得越来越广泛和深入。智能体（Agent）作为AI技术的重要组成部分，能够在金融投资中发挥重要作用。智能体可以通过学习和适应市场环境，自动执行交易策略，优化投资组合，甚至预测市场趋势。2.核心概念与联系2.1智能体（
对话谷歌前 CEO Eric Schmidt：数字超智能将在十年内到来，AI 将创造更多更高薪的工作 AI科技大本营人工智能
责编|王启隆出品|CSDN（ID：CSDNnews）投稿或寻求报道|[email protected]科技巨擘、谷歌前CEOEricSchmidt最近做客PeterDiamandis的Moonshots播客，与主持人PeterDiamandis及DaveLondon展开了一场关于人工智能未来的深度对话。全世界都在为AI的飞速发展感到兴奋又焦虑时，这位曾经执掌谷歌帝国长达十年、亲眼见证并推动了这场技术
格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
今日播报！庆衍书院郭庆旺被骗黑幕曝光，KSD2.0光伏市场不能出金不要再次踏入！法律咨询维权
社交平台有这样一种群，群里都是“理财专家”“炒股大神”“操盘高手”，不仅每天免费授课、推荐牛股，还有助理“一对一”指导具体操作。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈善投票网站买数字的等等都是骗局，广大市民对此要提高警惕，遇到此类情况一概不要相信。咨询顾问：182--71402640（电微同号）数字经济数字体育数字农业慈善投票大赛
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析观熵智能终端Ai探索与创新实践人工智能 android NPU GPU
基于国产手机SoC的多模态模型推理加速实战：GPU×NPU协同优化全流程解析关键词多模态模型推理、NPU硬件加速、GPU并行计算、国产手机SoC、端侧部署优化、华为昇腾NPU、小米Surge芯片、高通AIEngine、异构计算加速、TFLiteNNAPI、ONNXRuntimeEP摘要随着国产智能手机SoC（如华为昇腾、vivoV系列、小米Surge、紫光展锐、联发科Dimensity）的异构计算
【部署模式演进】多实例 vs 多副本 vs 多租户：智能体平台部署结构深度解析观熵 Agentic AI架构实战全流程架构人工智能智能体 Agent
个人简介作者简介：全栈研发，具备端到端系统落地能力，专注大模型的压缩部署、多模态理解与Agent架构设计。热爱“结构”与“秩序”，相信复杂系统背后总有简洁可控的可能。我叫观熵。不是在控熵，就是在观测熵的流动个人主页：观熵个人邮箱：[email protected]座右铭：愿科技之光，不止照亮智能，也照亮人心！专栏导航观熵系列专栏导航：AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到
AI人才实在太抢手！顶级科学家年薪超7000万：中高级也能过千万程序员超超人工智能 transformer 深度学习 java spring boot ai 大模型
快科技7月2日消息，据媒体报道，激烈的人工智能人才争夺战，导致一些顶尖资深研究科学家的年薪超过1000万美元（约7167万元人民币）。而典型的薪资方案则处于300万至700万美元区间，相较于2022年，这一数字实现了约50%的增长。薪酬追踪网站Levels的统计数据显示，Meta给予AI工程师的薪酬范围为18.6万至320万美元，OpenAI则在21.2万至250万美元之间；若以薪酬中位数来衡量，
边缘计算与量子模型优化驱动医疗诊断新突破
内容概要在医疗人工智能领域，边缘计算与量子模型优化的协同演进正重构诊断系统的技术范式。通过将计算节点前置至医疗设备端，边缘架构有效解决了传统云端模型面临的实时性瓶颈，配合量子优化算法对复杂特征空间的快速寻优能力，使得CT、MRI等高维影像数据的解析效率提升显著。值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭
量子生成对抗网络：量子计算与生成模型的融合革命牧之112 量子计算生成对抗网络人工智能
引言：当生成对抗网络遇上量子计算在人工智能与量子计算双重浪潮的交汇处，量子生成对抗网络（QuantumGenerativeAdversarialNetworks,QGAN）正成为突破经典算力瓶颈的关键技术。传统生成对抗网络（GAN）在图像生成、数据增强等领域已取得辉煌成就，但其参数规模与计算复杂度随着数据维度呈指数级增长。量子计算的叠加性、纠缠性和并行性，为解决这一矛盾提供了全新思路。2025年，
OpenAI模型可解释性工具：理解AI的黑箱 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能百度 ai
OpenAI模型可解释性工具：理解AI的黑箱关键词：OpenAI模型、可解释性工具、AI黑箱、模型理解、人工智能摘要：本文旨在深入探讨OpenAI模型可解释性工具，帮助大家理解AI这个“黑箱”。首先介绍了研究的背景、目的和预期读者，接着解释了核心概念，包括OpenAI模型、可解释性工具等，阐述了它们之间的关系。通过核心算法原理、数学模型和公式的讲解，让大家明白其内在机制。还给出了项目实战案例，包括
骗局套路：卧虎藏隆应天书府隆国强被骗无法提现！讲述背后事实！正义青天
为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么不能提现呢？其实都是骗子给你的一串数字而已！近期作者接触到了很多投资者被所谓的“隆国强”（骗子假冒）在卧虎藏隆应天书府带单的案例。这些新平台打着
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
假冒振我中华第六届内部操盘群毛振华不正规!未来低碳项目不能提现难友真实经历告诉你! 法律咨询维权
随着互联网的普及和金融科技的发展，越来越多的人开始使用线上平台进行投资、交易等活动。然而，一些不法分子也利用这些平台实施诈骗行为，给投资者带来了巨大的损失。本文将介绍一种常见的骗局——黑平台无法出金，以帮助大家提高警惕性，避免上当受骗。推荐网上投资理财、数字经济、数字体育、人工智能，数字农业慈善投票网站买数字的等等都是，广大市民对此要提高警惕，遇到此类情况一概不要相信。（注明：该文章出现名字为网上
ai绘画生成软件哪个好？几款好用的AI绘画软件分享! 呼酱小宝箱
随着人工智能技术的不断发展，越来越多的AI绘画生成软件被开发出来。这些软件利用深度学习技术，可以将普通照片或图像转化成具备艺术效果的画作。那么，ai绘画生成软件哪个好？首先，让我们来看一下几个常见的AI绘画生成软件，它们分别是：1、DeepDreamDeepDream是由Google开发的一款AI绘画生成软件。它通过卷积神经网络对输入的图片进行处理，从而生成出具有艺术风格的画作。DeepDream
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后