Kin__Zhang

【论文阅读】Multi-Modal Fusion Transformer for End-to-End Autonomous Driving

参考与前言 resource

代码：https://github.com/autonomousvision/transfuser

作者自己的博客：https://autonomousvision.github.io/transfuser/

论文地址：http://www.cvlibs.net/publications/Prakash2021CVPR.pdf

博客园外链（因为那边没广告&主题比较优美 hhhh）：https://www.cnblogs.com/kin-zhang/articles/15685464.html

1. Motivation

问题场景

主要是因为受限相机和激光雷达的各自缺点而出的这个文章 → 真的和当时自身想法的改进贴想的是一样的… 但是能力有限我做不出来 lol

这是一个要解决的问题：

在这里，相机可能看得到交通灯，激光雷达可以看到红色区域的车，所以在将两者结合后自身就知道不应该在此时立刻右转。也就是对自身的整个3D场景进行建模

问题 → 贡献

怎样把多传感器之间的信息做结合
但是基于1的基础上，他们又可以有自己的独立运行感知
怎样的融合手段能达到最好的效果

Contribution

证明：现有的融合方式并不能解决提出的问题场景，十字路口无保护转弯/鬼探头

提出：TransFuser 解决上面提到的三个问题 —— 结合，又不丧失各自的独立运行，得到好的效果 → incorporate the global context of the 3D scene into the feature extraction layers of different modalities

我寻思着鬼探头他们也没解决吧毕竟鬼探头 LiDAR&相机也看不到
这个different modalities emmm 没看懂是个啥，能通俗点理解成构建了一下车身周围的3D信息而不缺失吗…
- 感觉好像也不对，因为车身周围的信息LiDAR就能构建，应该是不止物体信息还有其他的信息比如红绿灯、停车线等等等
modalities是指不同的传感器 ~~用sensor不好嘛 emmm~~ 我知道为什么了：多模态的概念，不同的数据输入

2. Method

整体网络框架：

融合传感器的 Multi-Model Fusion Transformaer
auto-regressive waypoint prediction network
- 应该说的是右下角那块？

2.1 输入

LiDAR PointCloud

将点云转成2-bin柱状图（然后偷摸去查了一下他们的 reference 45 PRECOG: PREdiction Conditioned On Goals in Visual Multi-Agent Settings 十分眼熟）

reference 45的截图 (200x200x2）但实际此文中是256x256x2

看懂了，不是200x200 而是人为给了 z轴高度为2米，2米以下压一层，2米以上压一层，压一层后直接统计对应区间内的点云个数，做一个最大值的平均操作使得数据都是<1的，最后把这两层和在一起256x256x2 → 此点可有进步

~~这个完全就直接200x200了啊从代码里看的话~~

def lidar_to_histogram_features(lidar, crop=256):
    """
    Convert LiDAR point cloud into 2-bin histogram over 256x256 grid
    """
    def splat_points(point_cloud):
        # 256 x 256 grid
        pixels_per_meter = 8
        hist_max_per_pixel = 5
        x_meters_max = 16
        y_meters_max = 32
        xbins = np.linspace(-2*x_meters_max, 2*x_meters_max+1, 2*x_meters_max*pixels_per_meter+1)
        ybins = np.linspace(-y_meters_max, 0, y_meters_max*pixels_per_meter+1)
        hist = np.histogramdd(point_cloud[...,:2], bins=(xbins, ybins))[0]
        hist[hist>hist_max_per_pixel] = hist_max_per_pixel
        overhead_splat = hist/hist_max_per_pixel
        return overhead_splat

    below = lidar[lidar[...,2]<=2]
    above = lidar[lidar[...,2]>2]
    below_features = splat_points(below)
    above_features = splat_points(above)
    features = np.stack([below_features, above_features], axis=-1)
    features = np.transpose(features, (2, 0, 1)).astype(np.float32)

    return features

温馨提示：numpy.histogramdd

below = lidar[lidar[...,2]<=2] 这一步压完之后就是2D了，这样不会丧失几何信息吗？

恒哥：嗯嗯，确实没几何信息了；这样处理只有统计信息

工程上 pillows maxpooling中这步也有信息损失 [信息损失就是在这里发生的]：

车辆前方32m，左右16m 范围点云加入考虑，然后就是一个32x32m的了，以0.125作为分辨率，那么整个像素值为256x256了

此文原文

咦竟然没有车后的点云哎奇怪了不需要吗？

相机 RGB

FOV：100度，收到的RGB是400x300的，然后转成256x256的
震惊的是：只用了一个相机哎！想想lbc, wor哪个不是前向环绕一圈 180度的 hhh

2.2 输出

输出直接在BEV鸟瞰空间中，以自身车为中心，一系列时间内的路径点 $\left\{\mathbf{w}_{t}=\left(x_{t}, y_{t}\right)\right\}_{t=1}^{T}$ ；文中使用的是T=4

论文详情

2.3 框架

为什么这两者的融合不能直接拿外参进行标定外参标后不就可以对应到了两者的空间位置嘛？
是因为必须要选一个作为主视角训练吗，RGB不够多吗？几何距离信息也缺失
原来作者的博客里也写了这种外参投影的方式，并说明了缺点：due to the lack of global context since features are aggregated from a local region in the projected 2D or 3D space.

先前关于传感器融合的工作主要集中在相机和 LiDAR 传感器之间基于几何的融合。在这种方法中，3D 空间（激光雷达点云）中的点被投影到图像空间（相机输入）中的像素，并从投影位置聚合信息。特别是，将与这些投影位置对应的特征（使用卷积神经网络提取）组合在一起。这在上图中称为几何特征投影。这已被证明在视觉任务上非常有效，例如物体检测、运动预测和深度估计，但尚未在端到端驾驶的背景下进行广泛探索。

在上图中，对于图像中的交通灯区域（以黄色显示），几何融合聚合了 LiDAR 点云中蓝色区域的特征，因为这些点投影到图像空间中的黄色区域。然而，为了安全地在十字路口导航，必须从 LiDAR 点云中的红色区域聚合特征，因为它与从左向右移动的车辆重叠。
- 但是但是如果以点云为主不就行了？这一点好奇怪啊，明明点云信息有那一部分，难道是说作者完全只是把点云投到图片上，图片以外的点云直接去掉了？
  - woc 还真是，直接把图片以外的点云卡掉来说明这个不行这也太。。。
```
# 相机的配置
pixels_per_world = 8
w = 400
h = 300
fov = 100
F = w / (2 * np.tan(fov * np.pi / 360))
fy = F
fx = 1.1 * F
cam_height = 2.3

start_x = w // 2 - crop // 2
start_y = h // 2 - crop // 2
end_x = start_x + crop
end_y = start_y + crop

for i in range(lidar.shape[0]):
		# 相机尺寸外的点都不要了 只有在里面的 才进if
    if result[i][0] >= start_x and result[i][0] < end_x and result[i][1] >= start_y and result[i][1] < end_y:
        result[i][0] -= start_x
        result[i][1] -= start_y
        valid_lidar_points.append(lidar[i])
        valid_cam_points.append([int(result[i][0]), int(result[i][1])])
        bev_x = min(int((lidar[i][0] + 16) * pixels_per_world), crop-1)
        bev_y = min(int(lidar[i][1] * pixels_per_world), crop-1)
        valid_bev_points.append([bev_x, bev_y])
```

所以才提出了这样一种网络框架：

放大看图

Transformer

key idea主要是来源于：Attention is all you need 一文；本文每个层之间的 Transformer takes as input a sequence consisting of discrete tokens, each represented by a feature vector. The feature vector is supplemented by a positional encoding to incorporate positional inductive biases

总的来说就是 emmm 我用了这个attention的机制，然后主要是把双传感器信息进行 a positional encoding 得到 fecture vector

这里positional encoding是个啥外参？

好的我知道了是因为需要前提知识，首先是positional encoding并不是我想的那种外参的positional 而是降维后的序列位置，详情可见此youtube链接解释 positional embading

其中的 $\mathbf{M}^{q} \in \mathbb{R}^{D_{f} \times D_{q}}, \mathbf{M}^{k} \in \mathbb{R}^{D_{f} \times D_{k}},\mathbf{M}^{v} \in \mathbb{R}^{D_{f} \times D_{v}}$ 都是权重矩阵

attention weight由 $\mathbf Q, \mathbf K$ 点积后给到 each query

$\mathbf{A}=\operatorname{softmax}\left(\frac{\mathbf{Q K}^{T}}{\sqrt{D_{k}}}\right) \mathbf{V} \tag{3}$

上面这波对应代码：（好像都是一个套路这些公式也都是来源 Attention is all you need 一文）

class SelfAttention(nn.Module):
    """
    A vanilla multi-head masked self-attention layer with a projection at the end.
    """

    def __init__(self, n_embd, n_head, attn_pdrop, resid_pdrop):
        super().__init__()
        assert n_embd % n_head == 0
        # key, query, value projections for all heads
        self.key = nn.Linear(n_embd, n_embd)
        self.query = nn.Linear(n_embd, n_embd)
        self.value = nn.Linear(n_embd, n_embd)
        # regularization
        self.attn_drop = nn.Dropout(attn_pdrop)
        self.resid_drop = nn.Dropout(resid_pdrop)
        # output projection
        self.proj = nn.Linear(n_embd, n_embd)
        self.n_head = n_head

    def forward(self, x):
        B, T, C = x.size()

        # calculate query, key, values for all heads in batch and move head forward to be the batch dim
        k = self.key(x).view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        q = self.query(x).view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)
        v = self.value(x).view(B, T, self.n_head, C // self.n_head).transpose(1, 2) # (B, nh, T, hs)

        # self-attend: (B, nh, T, hs) x (B, nh, hs, T) -> (B, nh, T, T)
        att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
        att = F.softmax(att, dim=-1)
        att = self.attn_drop(att)
        y = att @ v # (B, nh, T, T) x (B, nh, T, hs) -> (B, nh, T, hs)
        y = y.transpose(1, 2).contiguous().view(B, T, C) # re-assemble all head outputs side by side

        # output projection
        y = self.resid_drop(self.proj(y))
        return y

最后 transformer 使用非线性的 transformation 去计算输出 features，所以 out 和 in 是同样的大小 shape

$\mathbf{F}^{\text {out }}=\operatorname{MLP}(\mathbf{A})+\mathbf{F}^{\text {in }} \tag{4}$

December 12, 2021 8:20 PM 等我去套娃搞清楚transformers to image的东西

代码中的GPT可以参照这个教程，论文中的

Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili

ViT论文逐段精读【论文精读】_哔哩哔哩_bilibili

与 NLP 中的 token input 结构不同，我们对 gird structed feature map 进行操作。与先前将 transformer 应用于图像的工作类似 [52, 10, 43, 20]，我们将每个传感器的中间 feature map 视为一个集合而不是空间网格，并将集合的每个元素视为一个token。图像和 LiDAR BEV 输入的卷积特征提取器在不同层对场景的不同方面进行编码。因此，我们在整个编码器中以 multiple scales 来融合这些feature

每个传感器的feature map都会弄成一个3D tensor： $\times W \times C$ ，所以对于 $S$ 个不同的传感器信息，这些 feature 在一起成为一个长度为 $(S*H*W)\times C$ 的序列，这样一来网络在训练时就可以推断不同的tokens的 spatial dependencies

使用 Linear 把当前速度也作为输入到维度 C 上的向量，在embeddings的时候加上去

self.vel_emb = nn.Linear(1, n_embd)
velocity_embeddings = self.vel_emb(velocity.unsqueeze(1)) # (B, C)
# add (learnable) positional embedding and velocity embedding for all tokens
x = self.drop(self.pos_emb + token_embeddings + velocity_embeddings.unsqueeze(1)) # (B, an * T, C)

简单总结一下：

尺寸输入：LiDAR 256x256x2 图片 256x256x3
经过conv + pool后得到的是64x64x64送到transformer进行编码，实际的方式也比较粗暴处理后直接emding全部相加走transformer
出来的尺寸还是一样的(其实不是一样的是输出之后做了一次x倍插值 interpolate)
然后直接加到了原数据上面

一直顺下去，就像框架图所示那样一共有4层，例如一个：

# fusion at (B, 64, 64, 64)
image_embd_layer1 = self.avgpool(image_features)
lidar_embd_layer1 = self.avgpool(lidar_features)
image_features_layer1, lidar_features_layer1 = self.transformer1(image_embd_layer1, lidar_embd_layer1, velocity)
image_features_layer1 = F.interpolate(image_features_layer1, scale_factor=8, mode='bilinear')
lidar_features_layer1 = F.interpolate(lidar_features_layer1, scale_factor=8, mode='bilinear')
image_features = image_features + image_features_layer1
lidar_features = lidar_features + lidar_features_layer1

Resnet Conv

这一块好像没啥说的，因为直接用的pytorch里面有的结构，不过image加载了预训练的权重

# image
self.features = models.resnet34(pretrained=True)

# LiDAR
self._model = models.resnet18()

# predict
pred_wp = model(fronts+lefts+rights+rears, lidars, target_point, gt_velocity)

然后把最后一层的fc全连接层去掉了，取而代之的是再外面联合的时候做了一层join，也就是框架图里的

# (avgpool): AdaptiveAvgPool2d(output_size=(1, 1)) 是两个resnet的输出地方
self.join = nn.Sequential(nn.Linear(512, 256), nn.ReLU(inplace=True), nn.Linear(256, 128), nn.ReLU(inplace=True), nn.Linear(128, 64), nn.ReLU(inplace=True), ).to(self.device)
# 最后输出的时候再用 decoder 从join 那边收到input_size=target,hidden_size=feature
# 然后输出output一个线性层
self.decoder = nn.GRUCell(input_size=2, hidden_size=64).to(self.device)
self.output = nn.Linear(64, 2).to(self.device)

3. Conclusion

其实实验部分也可以看看以carla leaderboard提出的指标来对比的，值得一提的是做了ablation study 消融实验（俗称控制变量法）来证明multi-scale fusion、attention layers、positional embedding都是必要的

结论部分主要是总结一下：我证明了现有的传感器融合方法来的模仿学习存在比较高的违规率（撞人闯红灯啥的），我们提出了一种 Multi-Modal transfuser

Future work：基于我们的model flexible and generic，所以探索探索其他更多传感器融入应该也是很不错的，比如radar啥的

后话：这篇文章感觉网络介绍的很清晰，代码也基本对着一目了然比wor代码轻量不少，后续应该会尝试跑一下

C# 牵手DeepSeek：打造本地AI超能力步、步、为营 c#人工智能开发语言
一、引言在人工智能飞速发展的当下，大语言模型如DeepSeek正掀起新一轮的技术变革浪潮，为自然语言处理领域带来了诸多创新应用。随着数据隐私和安全意识的提升，以及对模型部署灵活性的追求，本地部署DeepSeek成为众多开发者和企业关注的焦点。对于C#开发者而言，将DeepSeek模型本地部署并集成到C#项目中，不仅能充分发挥C#语言在Windows平台开发的优势，还能实现高度定制化的人工智能应用，
1.7 Kaggle大白话：Eedi竞赛Transformer框架解决方案07-调用AI模型输出结果 AI量金术师 Kaggle竞赛人工智能 transformer 深度学习 python 算法
目录0.本栏目竞赛汇总表1.本文主旨2.调用AI模型输出结果架构3.模型准备3.1代码实现3.2大白话模型准备4.数据处理4.1代码实现4.2大白话数据处理5.特征提取5.1代码实现5.2大白话特征提取6.相似度匹配6.1代码实现6.2大白话相似度匹配7.系列总结7.1章节回顾7.2竞赛排名7.3其他优秀项目（皆为竞赛金牌）0.本栏目竞赛汇总表Kaggle竞赛汇总1.本文主旨大白话：上一篇文章中，
注意力机制：让机器学会“挑重点” 人工智能计算机视觉
注意力机制：让机器学会“挑重点”前言在日常生活中，我们总是无意识地选择性地关注某些信息，而忽略其他部分。比如，听音乐时，我们可能会更关注旋律或歌词；阅读文章时，我们会优先留意标题和核心观点。这种“选择性关注”的能力，正是注意力机制的核心思想。而在人工智能领域，注意力机制则是一种让机器在处理大量数据时，能够自动识别并聚焦于关键信息的技术。注意力机制的工作原理注意力机制的工作流程可以简化为三个主要步骤
AI数据分析：用DeepSeek做数据清洗 atbigapp.com 数据分析大模型应用 AI工具人工智能数据分析数据挖掘 deepseek prompt
在当今数据驱动的时代，数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展，AI驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用DeepSeek进行数据清洗。数据清洗是数据分析的基础，其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括：缺失值：数据中的某些字段为空。重复值：数据中存在重复记录。异常值：数据中存在明显偏离正常范围的数值。不一致性：数据
百度搜索语法羊羊一洋百度
百度搜索作为中国最大的搜索引擎，其搜索语法与谷歌搜索类似，但也有一些特有的功能。以下是一些基本的百度搜索语法：1.双引号(`""`)：用来搜索精确的短语或句子。例如，搜索`"人工智能"`会找到包含完整短语"人工智能"的结果。2.减号(-)：用来排除搜索结果中的特定词汇。例如，搜索`手机-iphone`会找到包含"手机"但不包含"iphone"的结果。3.加号(+)：用来确保搜索结果中包含特定的词汇
如何在VSCode中使用OpenAI WeiLai1112 DeepSeek vscode ide 编辑器
如何在VSCode中使用OpenAI：从集成到应用场景详解人工智能（AI）正在改变软件开发的方式，而OpenAI提供的强大模型可以帮助开发者提升编码效率、优化工作流并自动化繁琐任务。本文将详细介绍如何在VSCode（VisualStudioCode）中使用OpenAI，集成后可以做哪些事情，以及如何充分发挥OpenAI的能力来提高生产力。1.在VSCode中使用OpenAI，可以做什么？将Open
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN解析大模型_学习路线深度学习 cnn transformer 人工智能 AI大模型大模型 LLM
今天探讨它们各自适用的场景，让您知道在何种情况下选择何种模型；同时分析它们的优势与局限，助您全面评估这些模型的性能。一、卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分
清华出版 | DeepSeek使用手册（全）艾思科蓝 AiScholar 人工智能（AI）系列人工智能大数据 ai 机器人 AI编程 AI写作算法
在科技迅猛发展的今天，人工智能技术正逐渐渗透到我们生活的每一个角落。清华大学新闻与传播学院-新媒体研究中心-元宇宙文化实验室团队最近发布了一份详尽的DeepSeek使用手册，该手册长达104页，堪称国产AI工具深度使用的标杆指南。这份教程不仅适合新手快速掌握基础操作，也为进阶用户提供了系统性方法论。免费领取104页【清华大学-DeepSeek使用手册】以下是主要内容及要点：一、DeepSeek概述
13个优秀的AI人工智能工具软件导航网站推荐 m0_68282957 人工智能搜索引擎百度
人工智能（AI）是现在科技领域的热门话题，它不仅改变了我们的生活方式，也催生了许多创新的工具和应用。AI工具可以帮助我们完成各种任务，如绘画、编程、视频制作、语音合成等，让我们的工作和娱乐更加高效和有趣。但是，面对琳琅满目的AI工具，你是否感到困惑和无从下手？你是否想要找到一个方便快捷的方式，来了解和使用各种AI工具？本文就来为大家推荐几个优秀的AI工具导航网站，让你一站式地发现和体验最新最实用的
清华出品DeepSeek保姆级超实用手册，AI进阶之路的宝藏指南 2501_90771647 pdf
资源链接：https://pan.quark.cn/s/3d4088555ca0资源链接：https://pan.quark.cn/s/df8ce3ea6f4e「DeepSeek资料大全」资源链接：https://pan.quark.cn/s/1352425b0645「完整版Dee...键整合包」链接：https://pan.quark.cn/s/7e851bca2dc2在人工智能飞速发展的时代，
Llama 2架构深度解析：Meta开源的70B参数大模型设计哲学 AI时代已来！ llama 架构
一、架构设计理念Llama2作为Meta开源的商用级大语言模型，其架构设计体现了三大核心原则：效率优先：在7B/13B/70B参数规模下保持线性计算复杂度扩展性强化：通过改进注意力机制支持4k上下文长度安全性内嵌：在预训练阶段融入5%安全语料，降低有害输出概率（较前代下降34%）二、核心模块创新1.改进型Transformer架构标准化方案：采用RMSNorm替代LayerNorm，计算效率提升1
自然语言处理之语法解析：BERT：自然语言处理基础理论 zhubeibei168 自然语言处理 1024程序员节自然语言处理 bert 语音识别人工智能
自然语言处理之语法解析：BERT：自然语言处理基础理论自然语言处理基础自然语言处理的定义与应用自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究如何处理和运用自然语言；自然语言认知则是指让计算机“懂”人类的语言。NLP建立于20世纪50年代，随着计算机技术的飞速发展，NLP技术在信息检索、文本挖掘、语音识别、机器翻译、情
频域分析：利用傅里叶变换（Fourier Transform）对图像进行深度解析那雨倾城 OpenCV应用计算机视觉图像处理 python opencv 视觉检测
在图像处理和计算机视觉领域，傅里叶变换（FourierTransform）是一项基础而强大的工具。它将时域信号（如图像）转化为频域信号，为我们提供了图像的频率特性，这对于图像的分析、压缩、去噪和特征提取等任务非常重要。本文将深入探讨傅里叶变换在图像中的应用，并通过实例展示如何利用傅里叶变换对输入图像进行频域分析。1.什么是傅里叶变换？傅里叶变换是一种数学变换，它将信号从时域（或空间域）转换到频域。
Linux进程间的关系油菜花的菜 Linux系统编程和网络编程 linux 运维 vim
Linux进程间的关系Linux下每个进程都隶属于一个进程组，每个进程都包含PID、PGID、SID。文章目录Linux进程间的关系前言一、进程组二、会话三、ps命令查看进程间的关系四、系统资源限制五、改变工作目录和根目录六、服务器程序后台化前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础
【Pytorch】基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN(各种KAN修改一行代码搞定)的共享单车租赁预测研究(数据可换)Python 冒泡芳 python pytorch lstm
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述一、研究背景与意义二、TCN与KAN简介三、基于TCN-KAN的共享单车租赁预测模型四、研究挑战与展望基于LSTM-KAN、BiLSTM-KAN、GRU-KAN、TCN-KAN、Transformer-KAN的共享单车租赁预测研究1.引言2.模型介绍
Transformer 代码剖析9 - 解码器模块Decoder （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模块架构全景图1.1核心功能定位Transformer解码器是序列生成任务的核心组件，负责根据编码器输出和已生成序列预测下一个目标符号。其独特的三级注意力机制架构使其在机器翻译、文本生成等任务中表现出色。下面是解码器在Transformer架构中的定位示意图：解码器层组件解码器内部结构Transformer自注意力交叉注意力前馈网络残差连接+层归一化嵌入层位置编码解码器层1解码器层2...解码
Transformer预测 | 基于TCN-Transformer的股票价格预测（Pytorch）机器学习之心 #Transformer模型 transformer pytorch 深度学习 TCN-Transformer 股票价格预测
文章目录预测效果文章概述程序设计参考资料预测效果文章概述Transformer预测|基于TCN-Transformer的股票价格预测（Python）Transformer模型本质上都是预训练语言模型，大都采用自监督学习(Self-supervisedlearning)的方式在大量生语料上进行训练，也就是说，训练这些Transformer模型完全不需要人工标注数据。Transformer模型的标志就
Deepseek相关梳理 stars and seas 人工智能
发展历程及重要节点2023年：7月17日杭州深度求索人工智能基础技术研究有限公司成立。2024年1月5日，发布首个大模型DeepSeekLLM。5月，宣布开源第二代MoE大模型DeepSeek-V2。9月5日，升级推出DeepSeekV2.5新模型。11月20日，推理模型DeepSeek-R1-Lite预览版上线。12月26日，DeepSeek-V3首个版本上线并开源。2025年1月20日，正式发
如何用AI写程序 Honmaple 人工智能
一、AI写程序之工具选择（一）主流AI编程工具介绍如今市面上有诸多AI编程工具可供选择，以下为大家介绍几种常见且实用的工具：ChatGPT：由OpenAI开发的一款基于Transformer架构的预训练模型，它的自然语言处理能力十分强大，能够理解和生成人类语言，并进行文本分类、情感分析、机器翻译等自然语言处理任务。它经过大量的训练和优化，可以准确地理解用户的意图和需求，从大量文本数据中提取有用信息
HTML AI 编程助手 wjs2024 开发语言
HTMLAI编程助手引言随着人工智能技术的飞速发展，编程领域也迎来了新的变革。HTML，作为网页制作的基础语言，与AI技术的结合，为开发者带来了前所未有的便利。本文将探讨HTMLAI编程助手的功能、应用场景以及如何利用它提高编程效率。HTMLAI编程助手概述HTMLAI编程助手是一种基于人工智能技术的辅助工具，旨在帮助开发者快速、高效地完成HTML代码编写。通过学习大量的HTML代码，AI编程助手
首发实测：地表最强AI？马斯克发布新一代AI模型Grok3 Code_流苏 AI漫谈先知实用软件与高效工具人工智能 grok3 AI实测首发测评 AI
近年来，人工智能的迅猛发展让人们对其未来充满了无限期待。尤其是以马斯克为首的企业家们，始终走在AI技术的前沿。就在近期，马斯克宣布推出新一代AI模型——Grok3。这一消息无疑引起了行业的广泛关注，大家都在猜测，这款新AI模型究竟有何独特之处，是否能够在众多强大AI模型中脱颖而出？名人说：悟已往之不谏，知来者之可追。——《归去来兮辞》陶渊明创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的
LeetCode - #219 存在重复元素 II 网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
穿越AI边界：深度集成DeepSeek API与云平台的实践之路云边有个稻草人热门文章人工智能 DeepSeek 大数据集成DeepSeek API DeepSeek算法阿里云百炼平台集成
云边有个稻草人-CSDN博客随着人工智能技术的日益发展，深度学习和自然语言处理（NLP）已经在很多领域得到了广泛的应用。DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。通过DeepSeek提供的API接口，开发者可以在多个领域中实现先进的自然语言理解和生成任务。本文将深入探讨如何使用Python调用DeepSeek的API接口，并
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI 驱动的智慧大脑：打造企业动态知识库，开启高效管理新时代网罗开发人工智能 AI 大模型深度学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量子计算如何提升机器学习效率：从理论到实践 Echo_Wish 人工智能前沿技术量子计算机器学习人工智能
量子计算如何提升机器学习效率：从理论到实践在人工智能和机器学习的高速发展中，传统计算方法已经逐渐面临性能瓶颈。随着数据量的激增、算法复杂度的提高，传统计算机在处理某些特定任务时的效率显得捉襟见肘。而量子计算，作为一项颠覆性的技术，正逐步展现出在机器学习领域中的巨大潜力。量子计算不仅能够加速特定任务的执行，还能为一些经典算法提供更高效的解决方案。今天，我们将深入探讨量子计算如何提升机器学习效率，解析
云计算相关工作岗位有哪些，薪资怎么样？欧米说云云计算腾讯云阿里云云计算
云计算、大数据、人工智能作为新一代信息技术产业，未来发展前景不可估量，就业前途一片光明，自然薪资待遇也不会差。随着亚马逊云、阿里云、华为云等云厂商的快速发展，也产生了大量的岗位需求，同时厂商为了增强自身影响力，也设置了很多证书考试，acp、ace、hcip、hcie等等。在这里想进入相关行业大厂从事云相关的工作的同学可以先考取大厂的对应证书，增加自己简历含金量，从而进入大厂。免费领取阿里云华为认证
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23