五季十三月

数字媒体技术考点整理

一、前言概述部分

1.数字媒体包含哪些类型，涉及哪些研究领域

数字媒体包括了文字、图形、图像、音频、视频影像和动画等各种形式，以及传播形式和传播内容中采用数字化，即信息的采集、存取、加工和分发的数字化过程。
数字媒体技术主要研究与数字媒体信息的获取、处理、存储、传播、管理、安全、输出等相关的理论、方法、技术与系统。
相关领域：计算机视觉、计算机图形学、图像处理、多媒体计算、模式识别、人工智能。
应用领域：机器人（立体视觉、自动驾驶），遥感、医学（图像分析、植被、骨骼），安全、监控（门禁、视频监控），国防（目标识别与跟踪、地形匹配），其他（游戏、动画、人机交互……）。

2.说明数字图像处理、计算机视觉、计算机图形学的关系和差异

数字图像处理（Digital Image Processing）是对已有的图像进行变换、分析、重构，得到的仍是图像。
计算机视觉（Computer Vision）是给定图象，从图象提取信息，包括景象的三维结构，运动检测，识别物体等。
计算机图形学（Computer Graphics）讲的是图形，也就是图形的构造方式，是一种从无到有的概念，从数据得到图像。是给定关于景象结构、表面反射特性、光源配置及相机模型的信息，生成图像。
区别：
计算机图形学（Computer Graphics），简称 CG。输入的是对虚拟场景的描述，通常为多边形数组，而每个多边形由三个顶点组成，每个顶点包括三维坐标、贴图坐标、rgb颜色等。输出的是图像，即二维像素数组。
计算机视觉（Computer Vision），简称 CV。输入的是图像或图像序列，通常来自相机或usb摄像头。输出的是对于图像序列对应的真实世界的理解，比如检测人脸、识别车牌。
数字图像处理（Digital Image Processing），简称 DIP。输入的是图像，输出的也是图像。Photoshop中对一副图像应用滤镜就是典型的一种图像处理。常见操作有模糊、灰度化、增强对比度等。
联系：
计算机图形学（Computer Graphics）和计算机视觉（Computer Vision）是同一过程的两个方向，计算机图形学（Computer Graphics）是计算机视觉（Computer Vision）的逆问题。计算机图形学（Computer Graphics）将抽象的语义信息转化成图像，计算机视觉（Computer Vision）从图像中提取抽象的语义信息。数字图像处理（Digital Image Processing）探索的是从一个图像或者一组图像之间的互相转化和关系，与语义信息无关。
计算机图形学（Computer Graphics），简称 CG 中也会用到数字图像处理（Digital Image Processing），简称 DIP，现今的三维游戏为了增加表现力都会叠加全屏的后期特效，原理就是数字图像处理（Digital Image Processing），简称 DIP，只是将计算量放在了显卡端。计算机视觉（Computer Vision），简称 CV更是大量依赖数字图像处理（Digital Image Processing）来打杂活，比如对需要识别的照片进行预处理。
简单点说：1 计算机视觉，里面人工智能的东西更多一些，不仅仅是图像处理的知识，还涵盖了人工智能，机器学习等领域知识；2，计算机图形学，主要涉及图形成像及游戏类开发，如OpenGL等，还有就是视频渲染等；3，图像处理，这个主要针对图像图像的基本处理，如图像检索或则图像识别，压缩，复原等等操作。

二、色彩和图像基础

1.常用的色彩空间、每个色彩空间包含的分量及其含义

RGB
R（red红）、G（green绿）、B（blue蓝）
C = rR + gG + bB
计算机中使用最为广泛的色彩空间
显示设备兼容性
不是非常符合人对色彩的感知（面向硬件）
每个色彩空间中每个分量的数值范围是0_1或0255
RGB 颜色空间适合于显示系统，却并不适合于图像处理
YUV
Y（灰度）、UV（色差）
兼容彩色黑白显示设备，在视频中广泛应用（考虑数据压缩）
“Y”表示明亮度（Luma, gray），也就是灰阶值
“U”和“V”表示的则是色度（Chrominance, color），作用是描述影像色彩及饱和度，用于指定像素的颜色
U红色，V蓝色
HSV
Hue（色度）、Staturation（饱和度）、Value（亮度）
Color wheel、Distance from gray、Lightness
Hue 用角度度量，取值范围为0～360°，表示色彩信息，即所处的光谱颜色的位置。
色彩H由绕V轴的旋转角给定。红色对应于角度0° ，绿色对应于角度120°，蓝色对应于角度240°
水平方向表示饱和度，饱和度表示颜色接近光谱色的程度。饱和度越高，说明颜色越深，越接近光谱色饱和度越低，说明颜色越浅，越接近白色。饱和度为0表示纯白色。取值范围为0～100%，值越大，颜色越饱和。
竖直方向表示明度，决定颜色空间中颜色的明暗程度，明度越高，表示颜色越明亮，范围是 0-100%。明度为0表示纯黑色（此时颜色最暗）。
对用户一种直观的颜色模型，适用领域范围：颜色识别。

2.为什么视频中更多使用类YUV色彩空间

YUV采样节省存储空间，而且人眼对色度敏感度不高，省略一些色度后人眼难以区分，减少冗余，减少信息量。
YUV解决了彩色电视机与黑白电视的兼容问题，它将亮度信息（Y）与色彩信息（UV）分离，没有UV信息一样可以显示完整的图像，只不过是黑白的。
YUV更方便对视频信号进行压缩，占用的带宽更低。符合人眼的视觉特性，人眼对亮度的敏感度要大于红蓝，所以我们可以保留Y原始值的基础上，降低U和V的值，而不影响观看，从而更加有效的存储图像数据。
YUV不像RGB那样要求三个独立的的视频信号同时传输，所以YUV方式传送占用极少的频宽。

3.图像在计算机中储存表示的方式-矩阵

在图像中，数组的行数对应图像的高度，而列数对应图像的宽度。单通道，三通道的存储维度也不同。
图像的尺寸就是图像的高度（x）和宽度（y）上的像素数，计算机以数字的形式存储图像，这些数字称为像素值，这些像素值表示像素的强度。
对于灰度或黑白图像，像素值的范围是0到255。接近零的较小数字表示较深的阴影，而接近255的较大数字表示较浅或白色的阴影。
图像以数字矩阵的形式存储在计算机中，其中这些数字称为像素值。
这些像素值代表每个像素的强度。
0代表黑色，255代表白色。
数字矩阵称为通道，对于灰度图像，我们只有一个通道。
彩色图像都是由这三种颜色或3个通道（红色，绿色和蓝色），这些像素都具有从0到255的值。最后，所有这些通道或所有这些矩阵都将叠加在一起。结果为N*M*3，其中N是整个高度上的像素数，M是整个宽度上的像素数，3表示通道数。

4.图像的色彩调整的处理过程

对比度调节

Photoshop对比度算法。
可以用下面的公式来表示：
(1) nRGB = RGB + (RGB - Threshold) * Contrast / 255
公式中，nRGB表示图像像素新的R、G、B分量，RGB表示图像像素R、G、B分量，Threshold为给定的阀值，Contrast为处理过的对比度增量。
Photoshop对于对比度增量，是按给定值的正负分别处理的：
①当增量等于-255时，是图像对比度的下端极限，此时，图像RGB各分量都等于阀值，图像呈全灰色，灰度图上只有1条线，即阀值灰度；
②当增量大于-255且小于0时，直接用上面的公式计算图像像素各分量；
③当增量等于 255时，是图像对比度的上端极限，实际等于设置图像阀值，图像由最多八种颜色组成，灰度图上最多8条线，即红、黄、绿、青、蓝、紫及黑与白；
④当增量大于0且小于255时，则先按下面公式(2)处理增量，然后再按上面公式(1)计算对比度：
(2) nContrast = 255 * 255 / (255 - Contrast) - 255
公式中的nContrast为处理后的对比度增量，Contrast为给定的对比度增量。

色彩饱和度调节

计算每个像素点三基色最小值和最大值
delta为两值之差 / 255，如果两值之差为0则不做操作，value为两值之和 / 25
有RGB图像空间转化成HSL（H色调，S饱和度，L亮度）L = value / 2，如果L < 0.5 则 S = delta / value，否则 S = delta / (2 - value);
Increment / 100 为饱和度，正值为提升饱和度，负值为降低饱和度。根据不同公式得到新的rgb值。

灰度化

灰度图像是R、G、B三个分量相同的一种特殊的彩色图像，其一个像素点的变化范围为255种。
①第一种方法使求出每个像素点的R、G、B三个分量的平均值，然后将这个平均值赋予给这个像素的三个分量。
②第二种方法是根据YUV的颜色空间中，Y的分量的物理意义是点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y=0.3R+0.59G+0.11B，以这个亮度值表达图像的灰度值。

5.OpenCV中图像的基本运算

打开图像文件

    import cv2
	img = cv2.imread("D:/tupian/green.png")

显示图像文件

cv2.imshow("显示框名称",img)    
cv2.waitKey(0)``#暂停cv2模块 不然图片窗口一瞬间即就会消失，观察不到

访问像素颜色值

获取三维矩阵(i,j)处的元素
(b,g,r) = image[i,j]，image大小为：MxNxK
获取三维矩阵的子矩阵——第i行到第j行与第m列到第n列的交叉部分
newImage = image[i:j,m:n]，image大小为：MxNxK
访问图像（0,0）处的像素并更改；
访问图像第0行到第100行与第0列到第100列的交叉部分并更改；

import cv2  
	image = cv2.imread("H:\\img\\lena.jpg")#读取图像
	(b,g,r) = image[0,0]#读取(0,0)像素，Python中图像像素是按B,G,R顺序存储的 
	print "位置(0,0)处的像素 - 红:%d,绿:%d,蓝:%d" %(r,g,b)#显示像素值 
	image[0,0] = (100,150,200)#更改位置(0,0)处的像素
	(b,g,r) = image[0,0]#再次读取(0,0)像素
	print "位置(0,0)处的像素 - 红:%d,绿:%d,蓝:%d" %(r,g,b)#显示更改后的像素值
	corner = image[0:100,0:100]#读取像素块
	cv2.imshow("Corner",corner)#显示读取的像素块
	image[0:100,0:100] = (0,255,0);#更改读取的像素块
	cv2.imshow("Updated",image)#显示图像
	cv2.waitKey(0)#程序暂停

三、图像滤波

1.线性滤波、滤波核的基本概念

线性滤波
原始数据与滤波结果是一种算术运算，即用邻域像素的加权和来替代该像素的值，对于图像的每一个像素点，计算它的邻域像素和滤波器矩阵的对应元素的乘积，然后加起来，作为该像素位置的值（如高斯滤波、均值滤波）。
滤波核
滤波时输入图像一个小区域中像素加权平均后成为输出图像中的每个对应像素，使用到的权用一个矩阵表示，该矩阵是一个权矩阵。这个权矩阵就是滤波核。
首先我们应该了解一下什么是平滑。平滑也称模糊, 是一项简单且使用频率很高的图像处理方法。平滑的一种作用就是用来减弱噪声。OpenCV中提供了两类常见的滤波器用来对图像进行平滑处理。一类是线性滤波，包括方框滤波（boxFilter）、均值滤波（blur）、高斯滤波（GaussianBlur）；另一类是非线性滤波器，包括中值滤波（medianBlur）和双边滤波（bilateralFilter）。

2.均值、中值、最小最大值、高斯、双边滤波的概念

均值滤波
均值滤波，是图像处理中最常用的手段，从频率域观点来看均值滤波是一种低通滤波器，高频信号将会去掉，因此可以帮助消除图像尖锐噪声，实现图像平滑，模糊等功能。理想的均值滤波是用每个像素和它周围像素计算出来的平均值替换图像中每个像素。采样Kernel数据通常是3X3的矩阵，如下表示：

从左到右从上到下计算图像中的每个像素，最终得到处理后的图像。均值滤波可以加上两个参数，即迭代次数，Kernel数据大小。一个相同的Kernel，但是多次迭代就会效果越来越好。同样，迭代次数相同，Kernel矩阵越大，均值滤波的效果就越明显。
中值滤波
中值滤波也是消除图像噪声最常见的手段之一，特别是消除椒盐噪声，中值滤波的效果要比均值滤波更好。中值滤波是跟均值滤波唯一不同是，不是用均值来替换中心每个像素，而是将周围像素和中心像素排序以后，取中值。
最小值最大值滤波
最大最小值滤波是一种比较保守的图像处理手段，与中值滤波类似，首先要排序周围像素和中心像素值，然后将中心像素值与最小和最大像素值比较，如果比最小值小，则替换中心像素为最小值，如果中心像素比最大值大，则替换中心像素为最大值。一个Kernel矩阵为3X3的最大最小值滤波如下：
123 124 108
122 150 98
112 135 144
排序以后为：98,108,112,122,123,124,135,144
最大值最小值滤波以后，中心像素值为：144
高斯滤波
高斯滤波和均值滤波一样，都是利用一个掩膜和图像进行卷积求解。不同之处在于：均值滤波器的模板系数都是相同的为1，而高斯滤波器的模板系数，则随着距离模板中心的增大而系数减小（服从二维高斯分布）。所以，高斯滤波器相比于均值滤波器对图像个模糊程度较小，更能够保持图像的整体细节。
高斯滤波器是一种平滑线性滤波器，使用高斯滤波器对图像进行滤波，其效果是降低图像灰度的“尖锐”变化，也就是使图像“模糊”了。高斯滤波对于抑制服从正态分布的噪声效果非常好，其代价是使图像变得“模糊”。当然，有时对图像进行平滑滤波的目的就是让图像变得模糊。高斯滤波的模板是用高斯公式计算出来的。
双边滤波
双边滤波是一种非线性滤波器，它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样，双边滤波也是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布[1]。最重要的是，双边滤波的权重不仅考虑了像素的欧氏距离（如普通的高斯低通滤波，只考虑了位置对中心像素的影响），还考虑了像素范围域中的辐射差异（例如卷积核中像素与中心像素之间相似程度、颜色强度，深度距离等），在计算中心像素的时候同时考虑这两个权重。

3.通过滤波实现图像锐化、边缘提取的计算思路

图像锐化常用的做法是提取图像的高频分量，将其叠加到原图上。图像高频分量的提取有两种做法：一种是用高通滤波器，得到高频分量；另一种是通过低通滤波，用原图减去低频分量得到高频分量。
边缘提取：高斯模糊——计算梯度幅值和方向——非最大值抑制——双阈值——滞后边界跟踪
1）使用高斯滤波器，以平滑图像，滤除噪声
2）计算图像中每个像素点的梯度强度和方向
3）应用非极大值抑制，以消除边缘检测带来的杂散响应
4）应用双阈值检测来确定真实的和潜在的边缘
5）通过抑制孤立的弱边缘最终完成边缘检测
利用laplacian滤波器实现图像的锐化
由于拉普拉斯是一种微分算子，它的应用可增强图像中灰度突变的区域，减弱灰度的缓慢变化区域。
因此，锐化处理可选择拉普拉斯算子对原图像进行处理，产生描述灰度突变的图像，再将拉普拉斯图像与原始图像叠加而产生锐化图像：

其中，f(x,y)为原始图像，g(x,y)为锐化后图像，c为-1（卷积核中间为负数时，若卷积核中间为正数，则c为1）。

四、照片计算

1.SeamCarving中Seam的计算过程

给出能量矩阵，计算Seam
能量矩阵：八联通，第一行值不变，从第二行开始找出能够到达该节点的最小和，采用动态规划，不断计算下一个值，直至最后一行。
Seam：顶部到底部的一条联通路径，每行有且只有一个像素。
假设能量矩阵如下（深蓝色标记是已经计算的结果），
举例：对于第一个图到第二个图，5、8、12都与 2 是联通的，其中最小值为（5+2），故2 更新为 7，依此类推，如下：
算法的基本步骤：
1.为每个像素分配一个能量值
2.找到能量值最小的像素的八连通路径
3.删除路径中的所有像素
4.重复前面1-3步，直到删除的行/列数量达到理想状态

2.暗通道去雾中暗通道的计算过程

给出图像数据、计算暗通道
在绝大多数非天空的局部区域里，某一些像素总会有至少一个颜色通道具有很低的值。换言之，该区域光强度的最小值是个很小的数。我们给暗通道一个数学定义，对于任意的输入图像J，其暗通道可以用下式表达：

式中Jc表示彩色图像的每个通道，Ω(x)表示以像素X为中心的一个窗口。
式（5）的意义用代码表达也很简单，首先求出每个像素RGB分量中的最小值，存入一副和原始图像大小相同的灰度图中，然后再对这幅灰度图进行最小值滤波，滤波的半径由窗口大小决定，一般有WindowSize = 2 * Radius + 1;
暗通道先验的理论指出：

五、图像特征

1.SIFT、HOG特征的概念

SIFT
尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由 David Lowe在1999年所发表，2004年完善总结。
其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。
局部影像特征的描述与侦测可以帮助辨识物体，SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高，甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下，辨识速度可接近即时运算。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。
SIFT算法的特点有：
1. SIFT特征是图像的局部特征，其对旋转、尺度缩放、亮度变化保持不变性，对视角变化、仿射变换、噪声也保持一定程度的稳定性；
2. 独特性（Distinctiveness）好，信息量丰富，适用于在海量特征数据库中进行快速、准确的匹配；
3. 多量性，即使少数的几个物体也可以产生大量的SIFT特征向量；
4. 高速性，经优化的SIFT匹配算法甚至可以达到实时的要求；
5. 可扩展性，可以很方便的与其他形式的特征向量进行联合。
SIFT算法可以解决的问题：
目标的自身状态、场景所处的环境和成像器材的成像特性等因素影响图像配准/目标识别跟踪的性能。而SIFT算法在一定程度上可解决：
1. 目标的旋转、缩放、平移（RST）
2. 图像仿射/投影变换（视点viewpoint）
3. 光照影响（illumination）
4. 目标遮挡（occlusion）
5. 杂物场景（clutter）
6. 噪声
SIFT算法的实质是在不同的尺度空间上查找关键点(特征点)，并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出，不会因光照，仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。
HOG
方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的，而如今虽然有很多行人检测算法不断提出，但基本都是以HOG+SVM的思路为主。
主要思想：
在一副图像中，局部目标的表象和形状（appearance and shape）能够被梯度或边缘的方向密度分布很好地描述。（本质：梯度的统计信息，而梯度主要存在于边缘的地方）。
具体的实现方法是：
首先将图像分成小的连通区域，我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。之所以统计每一个小单元的方向走直方图，是因为，一般来说，只有图像区域比较小的情况，基于统计原理的直方图对于该区域才有表达能力，如果图像区域比较大，那么两个完全不同的图像的HOG特征，也可能很相似。但是如果区域较小，这种可能性就很小。
提高性能：
把这些局部直方图在图像的更大的范围内（我们把它叫区间或block）进行对比度归一化（contrast-normalized），所采用的方法是：先计算各直方图在这个区间（block）中的密度，然后根据这个密度对区间中的各个细胞单元做归一化。通过这个归一化后，能对光照变化和阴影获得更好的效果。
优点：
与其他的特征描述方法相比，HOG有很多优点。首先，由于HOG是在图像的局部方格单元上操作，所以它对图像几何的和光学的形变都能保持很好的不变性，这两种形变只会出现在更大的空间领域上。其次，在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下，只要行人大体上能够保持直立的姿势，可以容许行人有一些细微的肢体动作，这些细微的动作可以被忽略而不影响检测效果。因此HOG特征是特别适合于做图像中的人体检测的。

2.SIFT、HOG特征的计算过程

SIFT
Lowe将SIFT算法分解为如下四步：
1. 尺度空间极值检测：搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。
2. 关键点定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。
3. 方向确定：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。
4. 关键点描述：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。
胡伟老师课件：
1. 特征点附近16x16窗口
2. 计算每个像素的梯度方向，剔除部分较小的梯度值
3. 得到梯度方向的直方图
HOG
HOG特征提取方法就是将一个image（你要检测的目标或者扫描窗口）：
1. 灰度化（将图像看做一个x,y,z（灰度）的三维图像）；
2. 采用Gamma校正法对输入图像进行颜色空间的标准化（归一化）；目的是调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时可以抑制噪音的干扰；
3. 计算图像每个像素的梯度（包括大小和方向）；主要是为了捕获轮廓信息，同时进一步弱化光照的干扰。
4. 将图像划分成小cells（例如6*6像素/cell）；
5. 统计每个cell的梯度直方图（不同梯度的个数），即可形成每个cell的descriptor；
6. 将每几个cell组成一个block（例如3*3个cell/block），一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。
7. 将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image（你要检测的目标）的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。
胡伟老师课件：
1. 灰度图Gamma校正（不必须）
2. 梯度计算
3. 8x8 Cell梯度直方图
4. 16x16 Block归一化
5. 计算HOG特征描述
方向梯度
在单变量的实值函数的情况，梯度只是导数，或者对于一个线性函数，也就是线的斜率。
在图像梯度的概念也是像素值变化最快的方向，把边缘（在图像合成中单一物体的轮廓叫做边缘）引入进来，边缘与梯度保持垂直方向。

用以下公式计算该像素点的梯度大小和方向。
16x16 Block归一化，一个Block包含四个8x8 cell，特征描述是一个XXX的向量

3.特征维度的概念、特征相似度一般怎么度量

特征维度的概念
对图像来说，维度就是图像中特征向量的数量
对数组和series来说，维度就是功能shape返回的结果，shape中返回了几个数字，就是几维。索引以外的数据，不分行列的叫一维（此时shape返回唯一的维度上的数据个数），有行列之分的叫二维（shape返回行x列），也称为表。
特征相似度的度量
明氏距离(Minkowski Distance)
切比雪夫距离
汉明距离
皮尔逊相关系数（Pearson correlation coefficient）
马氏距离(Mahalanobis Distance)
https://blog.csdn.net/weixin_30858241/article/details/98268770

4.两张图像进行全景图拼接的计算思路(利用SIFT特征)

读入两张图片并分别提取SIFT特征
利用k-d tree和BBF算法进行特征匹配查找
利用RANSAC算法筛选匹配点并计算变换矩阵
图像融合

5.图像分类的计算思路（利用HOG特征）

准备训练样本集合；包括正样本集和负样本集；收集到足够的训练样本之后，需要裁剪样本。
将所有正样本放在一个文件夹中，将所有负样本放在另一个文件夹中，并将所有训练样本缩放到同样的尺寸大小。
提取所有正样本和负样本的Hog特征。将正负样本的Hog特征，正负样本的标签，都输入到SVM中进行训练。
而后加载模型进行预测。

六、深度学习

1.机器学习、深度学习的概念和关系

机器学习：
多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
深度学习：
深度学习是基于机器学习延伸出来的一个新的领域，由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展，并伴随大数据和计算能力的提高而产生的一系列新的算法。
关系：
深度学习是机器学习中的一部分，而机器学习是深度学习的基础
胡伟老师PPT
AI（Artificial Intelligence）人工智能
对人的意识、思维过程的模拟
ML（Machine Learning）机器学习
实现AI的方法
计算机利用已有数据，得到某个模型，并利用此模型预测未来的一种方法
模式识别、数据挖掘、计算机视觉、语音识别、自然语言处理……
监督学习、无监督学习、强化学习
1. 分类和回归问题
2. SVM 典型的监督学习
3. 神经网络
DL（Deep Learning）深度学习
机器学习中一种对数据进行表征学习的方法，实质上是层数更多的神经网络学习方法

2.卷积神经网络中的卷积核计算

给出输入、卷积核、Stride、Padding信息，计算输出
参数：W：宽 H：高 D：深度 K：卷积核的个数 F：卷积核的大小 S：步长 P：用0填充

W/H=[(输入大小-卷积核大小+2P）/步长] +1
举个例子

上图中的 output =[（7-3）+21]/1 +1 =7
图中也提到了padding 的选择，
如卷积核为3时 padding 选择1
如卷积核为5时 padding 选择2
如卷积核为7时 padding 选择3

3.卷积神经网络的输入输出尺寸计算

给出输入尺寸、卷积核尺寸、Stride、Padding信息，给出输出尺寸
当给出:输入尺寸（n * n）、卷积核尺寸(m * m)、步长Stride(s)、填充信息Padding ( p )
则输出尺寸为：( ( n - m + 2 * p ) / s +1 ) * ( ( n - m + 2 * p ) / s +1 )

4.全连接神经网络前向和后向计算过程

给出网络结构、初始化参数、前向计算得到结果，并反向更新参数

神经网络结构主要包括：输入层、隐藏层和输出层
BP（Back Propagation）神经网络分为两个过程
1. 工作信号正向传递过程
2. 误差信号反向传递过程
工作信号正向传递过程（前向传播）：
1. 输入层的每个节点，都要与的隐藏层每个节点做点对点的计算，计算的方法是加权求和+激活
2. 利用隐藏层计算出的每个值，再用相同的方法，和输出层进行计算。
3. 隐藏层用都是用Sigmoid作激活函数，而输出层用的是Purelin。这是因为Purelin可以保持之前任意范围的数值缩放，便于和样本值作比较，而Sigmoid的数值范围只能在0~1之间。
4. 起初输入层的数值通过网络计算分别传播到隐藏层，再以相同的方式传播到输出层，最终的输出值和样本值作比较，计算出误差，这个过程叫前向传播(Forward Propagation)。
误差信号反向传递过程:
BP算法是一种计算偏导数的有效方法，它的基本原理是：
1. 利用前向传播最后输出的结果来计算误差的偏导数（前向传播后求偏导），
2. 再用这个偏导数和前面的隐藏层进行加权求和
3. 如此一层一层的向后传下去（隐藏层间偏导加权求和）
4. 直到输入层(不计算输入层)（也就是第一隐藏层到输入层的偏导加权求和）
5. 最后利用每个节点求出的偏导数来更新权重。

5.GAN的概念，生成器、判别器之间互性竞争提升的基本原理

GAN
GAN是由一种生成式模型，它也是一种无监督的学习模型。
GAN主要由两部分组成：生成器（Generator）和判别器（Discriminator）。
生成器：一种生成网络，负责生成数据，一开始时接收一个随机噪音
判别器：一个判别网络，判断接收的图片是不是真实的图片
GAN的主要思想来自于零和博弈的思想，GAN的博弈过程可以描述为：生成器生成数据后交给判别器判断是真实数据的可能性，可能性越大得分越高，如果判断器给出的得分低，那生成器就需要根据打分和真实数据获得的损失函数来更新权重，重新生成数据。以此循环直到判别器的打分为0.5，即判别器无法判断生成器生成的假数据。最终达到的平衡点称为纳什平衡。
Generative 生成 Adversarial 对抗 Networks 网络
Generator 生成器，产生输出数据
Discriminator 判别器，分辨真实数据和生成器产生的输出数据
G、D互相对抗，共同进化升级，形成均衡
原理
生成器接收一个随机的噪声信号（可以是均匀分布的，也可以是高斯分布的），然后生成器生成相应的样例。判别器会接收生成器生成的样例和来自真实样本的样例，判别器的作用主要就是判断样本的真实度，他会给真实样本尽可然大的概率，给生成样本尽可然小的值（概率越大表示越有可能是真实的样例）。而生成器则不断加强自己的能力，使生成的样本越来越接近真实的样本，即判别器越来越分辨不出来样本是不是真实的。通过不断迭代上述过程，直至判别器区分不清楚接收的样本到底是来自真实样本还是来自生成的样本。
生成器、判别器之间互性竞争提升的基本原理
生成对抗网络（GAN）由2个重要的部分构成：
生成器(Generator)：通过机器生成数据（大部分情况下是图像），目的是“骗过”判别器
判别器(Discriminator)：判断这张图像是真实的还是机器生成的，目的是找出生成器做的“假数据”
第一阶段：固定「判别器D」，训练「生成器G」
我们使用一个还 OK 判别器，让一个「生成器G」不断生成“假数据”，然后给这个「判别器D」去判断。
一开始，「生成器G」还很弱，所以很容易被揪出来。
但是随着不断的训练，「生成器G」技能不断提升，最终骗过了「判别器D」。
到了这个时候，「判别器D」基本属于瞎猜的状态，判断是否为假数据的概率为50%。
第二阶段：固定「生成器G」，训练「判别器D」
当通过了第一阶段，继续训练「生成器G」就没有意义了。这个时候我们固定「生成器G」，然后开始训练「判别器D」。
「判别器D」通过不断训练，提高了自己的鉴别能力，最终他可以准确的判断出所有的假图片。
到了这个时候，「生成器G」已经无法骗过「判别器D」。
循环阶段一和阶段二
通过不断的循环，「生成器G」和「判别器D」的能力都越来越强。
最终我们得到了一个效果非常好的「生成器G」，我们就可以用它来生成我们想要的图片了。

七、视频和音频

1.音频数据在计算机中的表示方式（采样、量化的基本理解）

音乐声音的一种类型，声音则是由物体振动产生的波。麦克风将声波强弱
转化为电压波的幅度变化，形成模拟音频信号，可存储在磁带中。而计算
机只能处理二进制数字信息，以二进制数字记录电压的幅度，即转换为数
字音频，才能被计算机存储和处理，这就是声音的数字化。
数字化过程事实上就是对真实连续模拟信号的离散化过程，实际处理过程包括：
采样：每隔一定时间抽取一个样本。采样频率越大,采样点之间的间隔越小, 数字化得到的声音就越逼真,但相应的数据量增大, 处理起来就越困难（常用采样频率：高保真44.1KHz）
量化：用有限长数字量逼近模拟量。位数越多, 所能记录声音的变化程度就越细腻, 所得的数据量也越大
编码：将量化的数字变成二进制数码
影响数字音频文件数据量的因素：
采样率 Sampling Rate：8KHz（电话）、44.1KHz（高保真）
采样位数 Bits / Sample：8位、16位
通道数 Channel Number：单通道、立体声
码率：单位时间的数据量，越大表明音质越好

2.数字媒体压缩编码的必要性

必要性
4:2:0情况下2小时1080p电影（24fps）所需要的存储
2小时 x 60分 x 60秒 x 24帧 x 1920x1080像素 x1.5（字节）= 5375GB
要使数字电视信号适合于实际存储和传输，必须压缩数据量，降低传输数据码率。前提：压缩后图象质量要满足视觉要求。
视频的数据量很大，如果不进行处理，计算机系统几乎无法对它进行存取和交换。
基本思路
时间上的冗余：相邻帧的强相关性
空间上的冗余：相邻像素的强相关性
感知上的冗余：人眼对信息的敏感性
统计上的冗余：统计的概率

3.数字媒体压缩和通用数据压缩的差异

为缩小数字媒体的文件大小，我们需要对其进行压缩。一般来说我们所接触的媒体内容都需要进行一定程度的压缩，也就是说我们都是在和这些内容的原始文件的压缩格式在打交道。压缩技术可以大幅缩小缩小媒体文件的尺寸，但是通常会在资源的质量上有一定程度的衰减。
数据压缩算法主要分有损压缩和无损压缩两种。无损压缩就是能够完全还原的压缩算法. 而有损压缩就是不能完全还原的压缩算法。比如典型的mp3音频就是有损压缩算法，虽然它损失了一些本来的音频信息,但是它能极大地提高其压缩比例，而损失的那点信息对整个音乐片段没有多大影响。本文介绍的通用数据压缩算法针对的不是某种具体的音频或者视频信息，而是一种通用的数据信息，我们并不知道什么信息能够损失，什么信息该保留，所以它肯定就是无损压缩了。我们平时在Windows下使用的WinZip,WinRar的压缩就是标准的通用数据压缩,哈弗曼树。
视频压缩是通过压缩帧内/帧间的冗余信息来达到压缩目的的，而通用压缩将信息全部看做二进制的数据，在整个数据空间内压缩冗余信息。
通用数据压缩分为无所压缩和有损压缩，视频压缩采用的是有损压缩。（去冗余，不丢失重要信息）
数据量=信息量+冗余数据量/，冗余种类：空间、时间、心理视觉冗余

你可能感兴趣的:(计算机视觉,图像处理,人工智能)

Python网络爬虫-WebSocket数据抓取程序小勇 faiss 爬虫 python 网络协议 websocket 开发语言
目录前言1、WebSocket请求的分析通常涉及以下几个方面：2、利用WebSocket爬取数据总结最后，创作不易！非常感谢大家的关注、点赞、评论啦！谢谢三连哦！好人好运连连，学习进步！工作顺利哦！博主介绍：✌专注于前后端、机器学习、人工智能应用领域开发的优质创作者、秉着互联网精神开源贡献精神，答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战，
2024年AI虚拟伴侣应用趋势深度剖析：技术前沿与社会影响花生糖@ 技术科普 AIGC学习资料库人工智能 AI数字人 aigc 产品经理
随着人工智能技术的飞速发展，AI虚拟伴侣市场在2024年迎来了前所未有的繁荣期。这一新兴领域不仅验证了产品与市场的高度契合（Product-MarketFit,PMF），而且正逐步成为连接用户、流量与商业价值的桥梁。本文旨在深入探讨驱动AI伴侣行业爆炸性增长的关键趋势，并分析背后的技术动向及社会心理因素，为创业者和开发者提供一份全面的参考指南。一、市场概览：AI伴侣的崛起近年来，以Characte
AI与育儿领域的融合——探索未来的可能性花生糖@ AIGC学习资料库人工智能 AI创业点创意点
在当今快速发展的社会中，育儿成为了众多家庭面临的重大挑战。随着人工智能（AI）技术的不断进步，AI在育儿领域的应用逐渐展现出巨大的潜力，不仅能够为父母提供及时有效的支持，还能在很大程度上改善育儿体验。本文旨在探讨AI技术如何与育儿领域相结合，创造新的商业机会，以及未来的发展趋势。一、AI解决育儿的核心痛点育儿是一项复杂的工作，涉及广泛的知识和技能。然而，专业的育儿服务通常价格昂贵，许多家庭无法承担
【人工智能】AI现状分析 || 神经网络的数学基础 || 人工智能交叉领域的发展和技术应用 || 附：小白入门人工智能学习步骤追光者♂ Python从入门到人工智能百题千解计划(项目实战案例）人工智能交叉领域神经网络的数学基础 AI现状分析
声明：仅学习使用~资料整理分析不易，点个赞吧！目录1.AI现状分析（人工智能基础入门概念）1.1人工智能基础概念1.2人工智能的技术发展路线1.3产业发展的驱动因素1.4人工智能薪资岗位介绍2.神经网络的数学基础2.1神经网络的生物表示2.2神经网络的数学表示2.3神经网络必备的一些数学基础2.3.1Sigmoid函数2.3.2偏置2.4总结3.人工智能交叉领域的发展和技术应用3.1人工智能应用交
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
一文读懂！深度学习 + PyTorch 的超实用学习路线 a小胡哦深度学习 python pytorch
深度学习作为人工智能领域的核心技术，正深刻改变着诸多行业。PyTorch则是深度学习实践中备受青睐的框架，它简单易用且功能强大。下面就为大家详细规划深度学习结合PyTorch的学习路线。一、基础知识储备数学基础数学是很重要的！！！线性代数、概率论与数理统计、微积分是深度学习的数学基石。熟悉矩阵运算、概率分布、梯度计算等概念，能帮助理解深度学习模型的原理。例如，在神经网络中，矩阵乘法用于神经元之间的
流行编程语言全解析：优势、应用与短板 a小胡哦 python java c++c语言 javascript swift r语言
Python：优势Python以其简洁、易读的语法闻名，新手能快速上手。丰富的库和框架，能极大地提高开发效率。适用领域数据科学与分析：处理和分析大规模数据集，进行数据可视化。典型示例：Google用Python进行数据分析，处理海量数据以支持各种业务决策。机器学习与人工智能：构建和训练模型。典型示例：OpenAI在很多人工智能项目中广泛使用Python，如GPT系列模型的研发。网络爬虫：轻松从网页
【自学笔记】机器学习基础知识点总览-持续更新 Long_poem 笔记机器学习人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录机器学习重点知识点总览一、机器学习基础概念二、机器学习理论基础三、机器学习算法1.监督学习2.无监督学习3.强化学习四、机器学习处理流程五、机器学习常见问题与解决方法六、机器学习应用领域总结机器学习重点知识点总览一、机器学习基础概念定义：机器学习是一种人工智能技术，通过对数据的学习和分析，让计算机系统自动提高其性能。本质：找到
电力知识图谱与大模型的结合：从构建到行业应用的深度解析 Cc不爱吃洋葱知识图谱人工智能自然语言处理大模型大语言模型 LLM 语言模型
随着大数据和人工智能技术的飞速发展，电力行业迎来了智能化转型的全新契机。电力知识图谱作为一种将数据转化为结构化知识的技术，正在赋能故障诊断、设备管理、运维优化等核心场景。而当知识图谱与大模型相结合，更能释放强大的知识推理和智能预测能力，为行业智慧化发展注入新动力。本文将从专业视角，深入探讨电力知识图谱的构建过程、大模型的融入方法，以及它们在实际应用中的落地场景。通过具体案例剖析与技术解读，帮助你了
亚远景-ISO/PAS 8800:2024《道路车辆—安全和人工智能》简介亚远景aspice 汽车人工智能大数据
ISO/PAS8800:2024《道路车辆—安全和人工智能》简介：ISO/PAS8800:2024《道路车辆—安全和人工智能》背景与意义随着汽车智能化发展，自动驾驶和智能座舱等技术快速进步，但人工智能在汽车领域应用面临安全性、数据质量与管理、技术标准规范缺失、公众认知和接受度等挑战。该标准旨在规范汽车领域人工智能技术应用，提高系统安全性、可靠性和兼容性，推动汽车智能化健康发展。ISO/PAS880
《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》1 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型计算价值投资人工智能
下面呈现《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》全文，全文内容超过20000字，报告内容全面、结构严谨，涵盖了全球及中国市场现状、技术趋势、竞争态势、政策环境、风险分析以及未来投资战略规划等多个方面，供相关决策部门和投资机构参考。《2025-2030年全球及中国人工智能芯片（AI芯片）行业发展前景展望与投资战略规划分析报告》目录摘要前言全球人
AI芯片：科技变革的核心驱动力乐得瑞_郑钊展13172458616 人工智能科技
近年来，人工智能（AI）的飞速发展对众多行业产生了深远影响，芯片领域也不例外。AI在芯片设计、制造及应用等方面带来了革新性的改变，成为推动芯片行业发展的关键力量。AI助力芯片设计效率飞升传统芯片设计极为复杂，涉及数十亿晶体管的布局与连接，需庞大工程师团队耗费数月至数年才能完成从架构到制造的全流程。不过，AI技术的出现正在扭转这一局面。AI能处理繁重重复任务，优化复杂芯片布局并设计专用芯片，大大提高
为一位经验丰富的程序员量身定制Python学习路线人工智能首选语言：python Python新技术小黄人软件 chatGPT python 学习人工智能
人工智能首选语言：python必学。解释型语言(无编译这个环节)，直接执行代码，面向对象，脚本语言没基础在这里学为一位经验丰富的程序员量身定制Python学习路线，主要应关注于深化已有的编程知识和技能，并探索Python特有的高级特性。以下是推荐的学习路线：基础复习：如果对Python基础不熟悉，先从Python的基础语法、数据类型、控制流程等开始复习。高级语言特性：深入理解装饰器、上下文管理器、
CVPR2023 Highlight | ECON：最新单图穿衣人三维重建SOTA算法 3Ｄ视觉工坊 3D视觉从入门到精通算法 SLAM 自动驾驶 3D视觉
作者：宁了个宁|来源：计算机视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf。添加微信：dddvisiona，备注：三维重建，拉你入群。文末附行业细分群。图1所示。从彩色图像进行人体数字化。ECON结合了自由形式隐式表示的最佳方面，以及明确的拟人化正则化，以推断高保真度的3D人类，即使是宽松的衣服或具有挑战性的姿势。0.笔者个人体会这篇文章讨论了单图像的穿着人类重建问题。隐式方
知识管理成功：关键指标和策略，研究信息的投资回报率清风徐徐de来其他
信息过载会影响生产力。没有人工智能的帮助，信息过载会影响生产力。大量的可用信息，知识工作者不仅仅是超负荷工作；他们感到不知所措，他们倾向于浪费时间（和脑细胞）来应付他们被大量的数据抛向他们，挣扎着试图筛选出重要的信息数据来自一堆不重要和重复的数据。这是一场失败的战斗。计算投资回报率（ROI）是一个公认的商业方法ROI是一种用于确定可行性的方法一项新事业或对既定流程的重大改变。从本质上讲，投资回报率
《Grok3：AI新纪元的璀璨之星》空云风语人工智能深度学习神经网络人工智能百度
《Grok3：AI新纪元的璀璨之星》Grok3：横空出世，震撼AI界在科技飞速发展的今天，人工智能领域的每一次重大突破都如同巨石投入平静湖面，激起千层浪。而Grok3的发布，无疑是一颗重磅炸弹，在AI界掀起了惊涛骇浪，引发了全球范围内的广泛关注和激烈讨论。北京时间2月18日午间，马斯克旗下人工智能初创公司xAI正式发布新一代聊天机器人Grok3，这场发布会吸引了超过200万人观看，其受关注度可见一
DeepSeek大模型的发展的十问十答科技互联人生人工智能 AIGC Deepseek
DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型，具体介绍如下：1.架构基础Transformer架构：DeepSeek大模型基于Transformer架构，该架构由Google在2017年提出，以自注意力机制为核心，能够并行处理输入序列中的每个元素，从而大大提高模型的计算效率。DeepSeek在Transformer架构的基
360智算中心：万卡GPU集群落地实践 ZVAyIVqt0UFji
360智算中心是一个融合了人工智能、异构计算、大数据、高性能网络、AI平台等多种技术的综合计算设施，旨在为各类复杂的AI计算任务提供高效、智能化的算力支持。360智算中心不仅具备强大的计算和数据处理能力，还结合了AI开发平台，使得计算资源的使用更加高效和智能化。360内部对于智算中心的核心诉求是性能和稳定性，本文将深入探讨360智算中心在万卡GPU集群中的落地实践过程，包括算力基础设施搭建、集群优
什么是插值？（通俗解释） MO__YE 计算机视觉人工智能
什么是插值？（通俗解释）想象一下，你有一本100页的书，现在你想把它缩小到50页或放大到200页，但是你不想丢失重要的信息。你会怎么做？缩小（Downsampling）：你可以挑选关键的内容，把不重要的部分去掉。放大（Upsampling）：你可以在两页之间补充一些额外的内容，使它们读起来更连贯。在图像处理中，插值（Interpolation）就是如何在缩放图片时，生成新的像素点，让图片看起来更自
什么是Scaling Laws（缩放定律）；DeepSeek的Scaling Laws ZhangJiQun&MXP 教学 2024大模型以及算力 2021 论文人工智能自然语言处理神经网络语言模型深度学习
什么是ScalingLaws（缩放定律）ScalingLaws（缩放定律）在人工智能尤其是深度学习领域具有重要意义，以下是相关介绍及示例：定义与内涵ScalingLaws主要描述了深度学习模型在规模（如模型参数数量、训练数据量、计算资源等）不断扩大时，模型性能与这些规模因素之间的定量关系。它表明，在一定条件下，模型的性能会随着模型规模的增加而以某种可预测的方式提升，通常表现为模型的损失函数值随模型
大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？ X_taiyang18 人工智能
简介：在人工智能飞速发展的今天，大模型已经成为推动技术革新的核心力量。无论是智能客服、内容创作，还是科研辅助、代码生成，大模型的身影无处不在。然而，面对市场上琳琅满目的工具，如何挑选最适合自己的那一款？本文将深入对比SGLang、Ollama、VLLM和LLaMA.cpp四款热门大模型工具，帮助您找到最契合需求的解决方案！工具概览在开始之前，先简单了解一下这四款工具的特点：SGLang：性能卓越的
【生物AI】AI在生物医药研发中的应用：基于深度学习的疾病诊断标志物发现 Anitalin00 生物AI 人工智能深度学习
摘要生物医药研发一直是推动人类健康进步的关键领域，然而传统研发方式在疾病诊断标志物发现方面存在效率低、准确性不足等问题。人工智能（AI），特别是深度学习技术，凭借其强大的数据处理和特征挖掘能力，为疾病诊断标志物的发现带来了新的契机。本文深入探讨AI在这一领域的具体应用，涵盖详细的实现流程、代码示例、运行结果分析，以及实际使用场景和应用效果评估。一、引言疾病诊断标志物是能够反映疾病发生、发展过程的生
编程行业必备！12个热门AI工具帮你写代码~ 人工智能
到今年，AI编程工具的发展已经非常成熟了，它们可以极大地提高开发效率，帮助程序员解决复杂问题，并优化代码质量。拒绝废话，今天给大家推荐12款AI编程工具！1悬镜安全灵脉AI开发安全卫士灵脉AI开发安全卫士是基于多模智能引擎的新一代静态代码安全扫描产品，通过自动化审查流程来定位潜在缺陷、提升审计效率和代码质量，并显著减少手动审查所需的时间和精力。该平台利用人工智能技术，提供逐行的代码反馈，建议改进和
大模型应用层的创业挑战 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
大模型应用层的创业挑战关键词：大模型、应用层、创业、挑战、算法、架构、数据、资源、合作、盈利模型1.背景介绍随着计算能力和数据量的指数级增长，大模型（LargeModels）已经成为人工智能领域的关键驱动因素。大模型的应用从语言模型扩展到图像、视频和音频领域，为各行各业带来了颠覆性的创新。然而，构建和部署大模型的成本高昂，对计算资源和数据的需求也日益增加。本文将探讨大模型应用层面的创业挑战，并提供
商汤绝影端到端自动驾驶的迭代优化 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。商汤科技推出的绝影端到端自动驾驶系统，就是其中的佼佼者。本文将深入剖析商汤绝影端到端自动驾驶系统的迭代优化过程，帮助读者理解其背后的技术原理和架构设计。2.核心概念与联系商汤绝影端到端自动驾驶系统的核心架构如下：graphLRA[感知
DeepSeek的无限可能：探索前沿AI技术在多领域的应用编码追梦人 AI人工智能人工智能
引言2023年，全球人工智能产业规模突破万亿美元大关，一场以深度学习为核心的技术革命正以前所未有的速度重构人类社会的运行逻辑。在这场变革的浪潮中，中国AI企业深度求索（DeepSeek）以其独特的“问题驱动型”技术路径，悄然构建起覆盖科研、医疗、金融、教育等领域的智能生态系统。第一章技术底座：重构AI核心范式1.1MoE架构的颠覆性创新传统Transformer模型面临参数爆炸与能耗困境，Deep
DeepSeek模型实战：从理论到应用的深度探索 CodeJourney. 人工智能算法数据库
一、引言在人工智能快速发展的当下，大型语言模型已成为自然语言处理领域的核心力量。DeepSeek模型作为其中的佼佼者，凭借其先进的架构和强大的性能，吸引了众多开发者和研究人员的关注。本文将深入探讨DeepSeek模型的技术原理，并通过实际案例展示其在不同场景下的应用，为读者提供从理论到实践的全面指导。二、DeepSeek模型技术剖析（一）架构基础DeepSeek模型基于Transformer架构构
字节跳动AI编程神器Trae深度解读与使用研究 LCG元大模型 AI编程
一、引言在软件开发领域，编程工具的效率和智能化程度对开发者的工作成效有着深远影响。随着人工智能技术的飞速发展，AI编程工具应运而生，为开发者带来了全新的编程体验和更高的效率提升潜力。字节跳动于2025年1月19日正式发布的AI编程工具Trae，凭借其独特的功能设计和对中文开发者需求的深入理解，在开发者社区中引起了广泛关注。本研究将对Trae进行全面解读，并详细介绍其使用方法，旨在帮助开发者深入了解
《2025：中国行业新方向与民营企业的使命》晚风る传媒
2025年，中国经济正站在新的历史节点上，科技创新、数字经济、绿色经济等成为发展的核心驱动力。在这样的背景下，2025年民营企业座谈会的召开，无疑为中国未来行业的发展指明了方向。本文将结合座谈会内容，探讨中国未来行业发展的新方向。一、数字经济：创新驱动的核心引擎数字经济已成为全球经济增长的重要引擎，而民营企业在其中扮演着关键角色。2025年，数字经济将继续深化，涵盖云计算、大数据、人工智能、物联网
网络安全：挑战、技术与未来发展一ge科研小菜鸡运维网络运维
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言在数字化时代，网络安全（Cybersecurity）已成为全球关注的焦点。随着云计算、大数据、人工智能（AI）、物联网（IoT）等技术的发展，企业和个人的敏感数据在互联网上的流通日益增加，黑客攻击、数据泄露、勒索软件等网络安全威胁也日趋严峻。本文将从网络安全的核心概念、常见攻击手段、防御技术、企业安全策略以及未来发展趋势等方面，深入探讨如
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&