qjgods

Domain Adaptation理论分析

文章目录

A theory of learning from different domains

H-divergence

Analysis of Representations for Domain Adaptation
参考资料

本文是对两篇文章：

A theory of learning from different domains
Analysis of Representations for Domain Adaptation

的整理。他从理论上给出了在target domain的误差的bound是部分由source domain的误差决定的，具有指导性意义。

A theory of learning from different domains

首先我们给出一些基本的设置，用 $\displaystyle D_{s} ,f_{s}$ 表示在source domain上分布以及该domain上的函数分类函数（这里假设 $\displaystyle f_{s}$ 是二分类函数，所以取值是[0,1]），同理target domain：用 $\displaystyle D_{t} ,f_{t}$ 表示

我们称hypothesis是一个用来分类的函数 $\displaystyle h:\mathcal{X}\rightarrow \{0,1\}$ . 于是我们可以定义h和f的误差为：

$\epsilon _{S} (h,f)=\mathrm{E}_{\mathbf{x} \sim \mathcal{D}_{S}} [|h(\mathbf{x} )-f(\mathbf{x} )|]$

表示在source domain上h和f的误差，特别的，当 $\displaystyle f=f_{s}$ ，即为真实的分类函数时，记 $\displaystyle \epsilon _{S}$ (h)= $\displaystyle \epsilon _{S} (h,f_{s} )$ ，同理target domain的误差同样有 $\displaystyle \epsilon _{T}( h) =\epsilon _{T} (h,f_{t} )$ ,接下来我们给出最重要的H-divergence

H-divergence

所谓散度就是一个弱化的距离，他不一定具备距离的性质，比如有可能不满足对称性等等，那么所谓H是定义在假设空间 $\displaystyle \mathcal{H}$ 的 $\displaystyle \mathcal{D}$ 和 $\displaystyle \mathcal{D}^{\prime }$ 的距离：

$d_{\mathcal{H}}\left(\mathcal{D} ,\mathcal{D}^{\prime }\right) =2\sup _{h\in \mathcal{H}}\left| \operatorname{Pr}_{x\sim \mathcal{D}} [h( x) =1]-\operatorname{Pr}_{x\sim \mathcal{D}^{\prime }} [h( x) =1]\right|$

直观来看，这个散度的意思是，在一个假设空间 $\displaystyle \mathcal{H}$ 中，找到一个函数h，使得 $\displaystyle \operatorname{Pr}_{x\sim \mathcal{D}} [h( x) =1]$ 的概率尽可能大，而 $\displaystyle \operatorname{Pr}_{x\sim \mathcal{D}^{\prime }} [h( x) =1]$ 的概率尽可能小，也就是说，我们用最大距离来衡量 $\displaystyle \mathcal{D} ,\mathcal{D}^{\prime }$ 之间的距离。同时这个h也可以理解为是用来尽可能区分 $\displaystyle \mathcal{D} ,\mathcal{D}^{\prime }$ 这两个分布的函数。
此外这个散度是可以从数据中估计出来的：

Lemma 1 LetHbe a hypothesis space on X with VC dimension d. If U and U’ are samples of size m from D and D’ respectively and $\displaystyle \hat{d}_{\mathcal{H}}\left(\mathcal{D} ,\mathcal{D}^{\prime }\right)$ is the empirical H-divergence between samples, then for any δ ∈ (0,1), with probability at least 1−δ,

$d_{\mathcal{H}}\left(\mathcal{D} ,\mathcal{D}^{\prime }\right) \leq \hat{d}_{\mathcal{H}}\left(\mathcal{U} ,\mathcal{U}^{\prime }\right) +4\sqrt{\frac{d\log (2m)+\log\left(\frac{2}{\delta }\right)}{m}}$

这个bound其实就是VC维的bound，这里d表示H的VC维m是样本数量。显然当d有限时，样本量趋于无穷的时候收敛。接下来给出一种计算的方法：
Lemma 2 该散度可以从样本中计算

$\hat{d}_{\mathcal{H}}\left(\mathcal{U} ,\mathcal{U}^{\prime }\right) =2\left( 1-\min_{h\in \mathcal{H}}\left[\frac{1}{m}\sum _{\mathbf{x} h(\mathbf{x} )=0} I[\mathbf{x} \in \mathcal{U} ]+\frac{1}{m}\sum _{\mathbf{x} h(\mathbf{x} )=1} I\left[\mathbf{x} \in \mathcal{U}^{\prime }\right]\right]\right) \$

其中 $x\in U]$ 表示当 $\displaystyle x\in U$ 的时候等于1，也就是统计 $\displaystyle x\in U$ 的x的数量
可以其实可以直接看出他就是在估计这么个概率，也就是H散度：

$1-\left[\frac{1}{m}\sum _{\mathbf{x} h(\mathbf{x} )=0} I[\mathbf{x} \in \mathcal{U} ]+\frac{1}{m}\sum _{\mathbf{x} h(\mathbf{x} )=1} I\left[\mathbf{x} \in \mathcal{U}^{\prime }\right]\right] =\operatorname{Pr}_{x\sim \mathcal{D}} [h( x) =1]-\operatorname{Pr}_{x\sim \mathcal{D}^{\prime }} [h( x) =1]$

Definition 1 symmetric difference hypothesis space $\displaystyle \mathcal{H} \Delta \mathcal{H}$ 是一系列hypotheses的集合

$g\in \mathcal{H} \Delta \mathcal{H} \ \ \Longleftrightarrow \ \ g(\mathbf{x} )=h(\mathbf{x} )\oplus h^{\prime } (\mathbf{x} )\ \ \text{ for some } h,h^{\prime } \in \mathcal{H}$

其中 $\displaystyle \oplus$ 表示异或，就是当 $\displaystyle h(\mathbf{x} )\neq h'(\mathbf{x} )$ 时， $\displaystyle g(\mathbf{x} )=1$

直观来说，这个g就是判断两个h的结果相不相等的函数。这个东西的好好处是，可以用这个集合中的函数来表示两个函数不相等的概率，也就是两个函数之间的误差，如果能找到两个domain之间的两个函数间的最大误差，也就找到了H散度的值，即：

$d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T}) =2\sup _{h,h^{\prime } \in \mathcal{H}}\left| \epsilon _{S}\left( h,h^{\prime }\right) -\epsilon _{T}\left( h,h^{\prime }\right)\right|$

推导过程可见引理3：

Lemma 3 对于任意的hypotheses $\displaystyle h,h'\in H$

$\left| \epsilon _{S}\left( h,h^{\prime }\right) -\epsilon _{T}\left( h,h^{\prime }\right)\right| \leq \frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T})$

证明：

$\begin{aligned} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T}) & = 2\sup _{h,h^{\prime } \in \mathcal{H}}| \operatorname{Pr}_{x\sim \mathcal{D}_{S}}\left[ h(x)\oplus h^{\prime } (x)=1\right] -\operatorname{Pr}_{x\sim \mathcal{D}_{T}}\left[ h(x)\oplus h^{\prime } (x)=1\right]\\ & =2\sup _{h,h^{\prime } \in \mathcal{H}}| \operatorname{Pr}_{x\sim \mathcal{D}_{S}}\left[ h(x)\neq h^{\prime } (x)\right] -\operatorname{Pr}_{x\sim \mathcal{D}_{T}}\left[ h(x)\neq h^{\prime } (x)\right]\\ & =2\sup _{h,h^{\prime } \in \mathcal{H}}\left| \epsilon _{S}\left( h,h^{\prime }\right) -\epsilon _{T}\left( h,h^{\prime }\right)\right| \geq 2\left| \epsilon _{S}\left( h,h^{\prime }\right) -\epsilon _{T}\left( h,h^{\prime }\right)\right| \end{aligned}$

证毕。

有了上面的一些引理，我们证明一个重要的定理，这个定理告诉我们，只要找到一个h，使得在source domain上的误差尽可能小就能让target domain上的误差尽可能小。
Theorem 1 如果Us,Ut是从Ds，Dt中抽取的无标签数据。则

$\epsilon _{T} (h)\leq \epsilon _{S} (h)+\frac{1}{2}\hat{d}_{\mathcal{H\Delta H}}(\mathcal{U}_{S} ,\mathcal{U}_{T}) +4\sqrt{\frac{2d\log\left( 2m^{\prime }\right) +\log\left(\frac{2}{\delta }\right)}{m^{\prime }}} +\lambda$

证明：该证明用到了上面的引理1，以及三角不等式： $\displaystyle \epsilon _{T} (h,f_{T}) \leq \epsilon _{T}\left( f_{T} ,h^{*}\right) +\epsilon _{T}\left( h,h^{*}\right)$

$\begin{aligned} \epsilon _{T} (h) & \leq \epsilon _{T}\left( h^{*}\right) +\epsilon _{T}\left( h,h^{*}\right)\\ & =\epsilon _{T}\left( h^{*}\right) +\epsilon _{T}\left( h,h^{*}\right) +\epsilon _{S}\left( h,h^{*}\right) -\epsilon _{S}\left( h,h^{*}\right)\\ & \leq \epsilon _{T}\left( h^{*}\right) +\epsilon _{S}\left( h,h^{*}\right) +\left| \epsilon _{T}\left( h,h^{*}\right) -\epsilon _{S}\left( h,h^{*}\right)\right| \\ ( 引理1) & \leq \epsilon _{T}\left( h^{*}\right) +\epsilon _{S}\left( h,h^{*}\right) +\frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T})\\ ( 三角不等式\ ) & \leq \epsilon _{T}\left( h^{*}\right) +\epsilon _{S} (h)+\epsilon _{S}\left( h^{*}\right) +\frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T})\\ & =\epsilon _{S} (h)+\frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T}) +\lambda \\ & \leq \epsilon _{S} (h)+\frac{1}{2}\hat{d}_{\mathcal{H\Delta H}}(\mathcal{U}_{S} ,\mathcal{U}_{T}) +4\sqrt{\frac{2d\log\left( 2m^{\prime }\right) +\log\left(\frac{2}{\delta }\right)}{m^{\prime }}} +\lambda \end{aligned}$

式1.用了三角不等式,式5用了三角不等式： $\displaystyle \epsilon _{S}\left( h,h^{*}\right) \leqslant \epsilon _{S}( h,f_{s}) +\epsilon _{S}\left( h^{*} ,f_{s}\right)$ ,最后一个使用使用了VC维理论，这是从样本从估计 $\displaystyle \frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}$ 的泛化误差，其中d为VC维度
证毕。

这个bound的本质就是用H-divrgence将两个domain误差的差距建立了一个联系：
$|\epsilon_S-\epsilon_T| \approx \frac{1}{2} d_{\mathcal{H} \Delta \mathcal{H}}(\mathcal{D}_{S} ,\mathcal{D}_{T})$

Analysis of Representations for Domain Adaptation

这篇论文将DA的误差推广到存在representation的分布上。通过假设存在一个表征函数R，将domain映射到一个representation上，即负责将X映射到Z，当然，R确定时，也就表示一个domain被确定了，因为R可以将表征逆映射回X上，而这个X就是一个domain

$\begin{array}{ c c c } \operatorname{Pr}_{\tilde{\mathcal{D}}} [B] & \stackrel{\mathrm{def}}{=} & \operatorname{Pr}_{\mathcal{D}}\left[\mathcal{R}^{-1} (B)\right]\\ \tilde{f} (\mathbf{z} ) & \stackrel{\mathrm{def}}{=} & \mathrm{E}_{\mathcal{D}} [f(\mathbf{x} )|\mathcal{R} (\mathbf{x} )=\mathbf{z} ] \end{array}$

简单的说，B是在feature space上的一个时间，这里的 $\operatorname{Pr}_{\tilde{\mathcal{D}}} [B]$ 就是直接测量representation上的概率的测度。另外这里 $\displaystyle \tilde{f} (\mathbf{z} )$ 是所有被z表征的f(x)的均值,，这里每个f(x)都是一个label，将他们取均值来作为表征z的label.

在DA问题中，我们用 $\displaystyle D_{S}$ 表示source domain的分布，用 $\displaystyle \tilde{D}_{S}$ 表示是建立在feature space上的source domain的分布，也就是这个分布是经过一个z进行转换得到的，正如上述定义的公式描述的一样。

那么误差也同样可以推广到带representation的场景下，只要我们从 $\displaystyle \tilde{D}_{S}$ 从采样z就可以了，这里用h表示任意的一个分类器，于是h在source domain的误差计算如下：

$\begin{aligned} \epsilon _{S} (h) & =\mathrm{E}_{\mathbf{z} \sim \tilde{\mathcal{D}}_{S}}[\mathrm{E}_{y\sim \tilde{f} (\mathbf{z} )} [y\neq h(\mathbf{z} )]]\\ & =\mathrm{E}_{\mathbf{z} \sim \tilde{\mathcal{D}}_{S}} |\widetilde{f_{s}} (\mathbf{z} )-h(\mathbf{z} )| \end{aligned}$

同理target domain的误差：

$\begin{aligned} \epsilon _{T} (h) & =\mathrm{E}_{\mathbf{z} \sim \tilde{\mathcal{D}}_{T}}[\mathrm{E}_{y\sim \tilde{f} (\mathbf{z} )} [y\neq h(\mathbf{z} )]]\\ & =\mathrm{E}_{\mathbf{z} \sim \tilde{\mathcal{D}}_{T}} |\tilde{f}_{t} (\mathbf{z} )-h(\mathbf{z} )| \end{aligned}$

也就是说 $\displaystyle \epsilon _{S} (h)=\epsilon _{S} (h,\widetilde{f_{s}} )$ , $\displaystyle \epsilon _{T} (h)=\epsilon _{T} (h,\widetilde{f_{T}} )$

接下来我们开始尝试将定理1推广到带representation的情况。

Theorem 2 Let R be a fixed representation function from X to Z and H be a hypothesis space of VC-dimension d. If a random labeled sample of size m is generated by applying R to a DS-i.i.d. sample labeled according to f, then with probability at least 1−δ, for every h ∈ H:

$\epsilon _{T} (h)\leq \hat{\epsilon }_{S} (h)+\sqrt{\frac{4}{m}\left( d\log\frac{2em}{d} +\log\frac{4}{\delta }\right)} +d_{\mathcal{H}}\left(\tilde{\mathcal{D}}_{S} ,\tilde{\mathcal{D}}_{T}\right) +\lambda$

其中e是自然底数
证明：
令 $h^{*} =\operatorname{argmin}_{h\in H}( \epsilon _{T} (h)+\epsilon _{S} (h))$ ，且 $\displaystyle \epsilon _{T} (h^{*} )=\lambda _{T} ,\epsilon _{S} (h^{*} )=\lambda _{S}$ . 记 $\displaystyle \lambda =\lambda _{T} +\lambda _{S}$

$\begin{aligned} \epsilon _{T} (h) & \leq \lambda _{T} +\operatorname{Pr}_{\mathcal{D}_{T}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}]\\ & =\lambda _{T} +\operatorname{Pr}_{\mathcal{D}_{S}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] +\operatorname{Pr}_{\mathcal{D}_{T}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] -\operatorname{Pr}_{\mathcal{D}_{S}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}]\\ & \leq \lambda _{T} +\operatorname{Pr}_{\mathcal{D}_{S}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] +| \operatorname{Pr}_{\mathcal{D}_{S}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] -\operatorname{Pr}_{\mathcal{D}_{T}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] |\\ & \leq \lambda _{T} +\operatorname{Pr}_{\mathcal{D}_{S}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}] +d_{\mathcal{H}}\left(\tilde{\mathcal{D}}_{S} ,\tilde{\mathcal{D}}_{T}\right)\\ & \leq \lambda _{T} +\lambda _{S} +\epsilon _{S} (h)+d_{\mathcal{H}}\left(\tilde{\mathcal{D}}_{S} ,\tilde{\mathcal{D}}_{T}\right)\\ & \leq \lambda +\epsilon _{S} (h)+d_{\mathcal{H}}\left(\tilde{\mathcal{D}}_{S} ,\tilde{\mathcal{D}}_{T}\right) \end{aligned}$

其中 $\displaystyle \mathcal{Z}_{h} =\{\mathbf{z} \in \mathcal{Z} :h(\mathbf{z} )=1\}$ ,因此 $\displaystyle \operatorname{Pr}_{\mathcal{D}_{T}}[\mathcal{Z}_{h} \Delta \mathcal{Z}_{h^{*}}]$ 可以看做是 $\displaystyle \epsilon _{T}\left( h,h^{*}\right)$ 。
第一条不等式来自与三角不等式： $\displaystyle \epsilon _{T} (h,f_{T} )\leqslant \epsilon _{T} (h^{*} ,f_{T} )+\epsilon _{T} (h^{*} ,h)$
第5条式子来自三角不等式: $\displaystyle \epsilon _{S} (h^{*} ,h)\leqslant \epsilon _{S} (h^{*} ,f_{T} )+\epsilon _{S} (h,f_{T} )$
最后根据Vapnik-Chervonenkis theory (V. Vapnik. Statistical Learning Theory. JohnWiley, New York, 1998)

$\epsilon _{S} (h)\leq \hat{\epsilon }_{S} (h)+\sqrt{\frac{4}{m}\left( d\log\frac{2em}{d} +\log\frac{4}{\delta }\right)}$

因此

同理，对于 $\displaystyle d_{\mathcal{H}}\left(\tilde{\mathcal{D}}_{S} ,\tilde{\mathcal{D}}_{T}\right)$ 的经验估计，设该分布有m’个样本，bound可以进一步写作：

$\epsilon _{T} (h)\leq \hat{\epsilon }_{S} (h)+\frac{4}{m}\sqrt{\left( d\log\frac{2em}{d} +\log\frac{4}{\delta }\right)} +\lambda +d_{\mathcal{H}}\left(\tilde{\mathcal{U}}_{S} ,\tilde{\mathcal{U}}_{T}\right) +4\sqrt{\frac{d\log\left( 2m^{\prime }\right) +\log\left(\frac{4}{\delta }\right)}{m^{\prime }}}$

证毕。

参考资料

A theory of learning fromdifferent domains

Analysis of Representations for Domain Adaptation

V. Vapnik. Statistical Learning Theory. JohnWiley, New York, 1998

互联网新纪元：探索技术革新与数字生活的无限可能 2401_87961950 5g
互联网新纪元：探索技术革新与数字生活的无限可能在当今这个日新月异的时代，互联网已不仅仅是连接世界的桥梁，它更是推动社会进步、经济繁荣与文化交流的重要引擎。随着技术的不断革新，互联网正以前所未有的速度和广度重塑着我们的生活方式、工作模式乃至思维方式。本文旨在探讨互联网最新发展趋势，分析其对个人、企业及社会产生的深远影响，并展望互联网新纪元的无限可能。一、技术革新：驱动互联网发展的新动力1.5G与物联
技术革新让生活更便捷巴巴郭海鹄生活量子计算经验分享
量子通信是一种利用量子力学原理进行信息传递的技术。它的基本原理是量子纠缠和量子密钥分发。量子纠缠指两个粒子即使相隔很远，一个粒子的状态改变会立刻引起另一个粒子状态的相应变化。量子密钥分发则是通过量子态传输实现加密密钥的安全交换。在信息安全领域，量子通信具有显著优势。传统加密方法依赖于复杂的数学问题，但未来可能被量子计算机解密。而量子通信利用量子力学的不确定性，提供了一种理论上无法被窃听的安全通信方
javax.imageio.IIOException: Can‘t read input file 阿俊仔（摸鱼版）眼盲心不瞎的憨憨bug日记 intellij-idea
问题描述根据路径地址读取图片存入数据库时，提示我没法读取图片。原因分析：大致就是各种情况导致路径不对或者文件不对路径格式写错了(windows路径分隔符是\，Linux是/)文件格式写错（文件名写错或者文件后缀写错）该路径下此文件不存在（复制路径去本地找找核对一下）解决方案：先看报错信息检查出错的语句（那边没什么问题），然后我又检查了所有写了文件路径的语句，发现我写入数据库的那个文件的路径没把文件
You have an error in your SQL syntax导致建表失败的原因以及解决方案bug记录阿俊仔（摸鱼版）眼盲心不瞎的憨憨bug日记 sql bug 数据库
问题描述我在使用sql语句创建表提示我无法添加约束，导致建表失败。编译器给了以下提示信息：YouhaveanerrorinyourSQLsyntax;checkthemanualthatcorrespondstoyourMySQLserverversionfortherightsyntaxtousenear’原因分析：显然是sql语句的语法可能存在不正确，可以先检查一下near后提示的出错位置，也
基于 Python 的云笔记平台分析与设计程序员奇奇计算机毕设 Python 云笔记毕业设计
完整代码：https://download.csdn.net/download/qq_38735017/873824351前言1.1背景苏联著名教育学家苏霍姆林斯基说得好：“如果学生的智力生活仅局限于教科书，如果他做完了功课就觉得任务已经完成，那么他是不可能有自己特别爱好的。”每一个学生要在书籍的世界里，有自己的生活。把读书，应视为自己的乐趣。当每读完一本有意思的书时，很多时候都想把书中感触深刻亦
deepseek和chatgpt对比 dev.null AI #NLP chatgpt
DeepSeek和ChatGPT都是自然语言处理领域的工具，但它们的设计目标和功能有所不同。功能定位：ChatGPT是一个基于OpenAIGPT-3或GPT-4的聊天机器人，旨在进行人机对话、文本生成、问题解答等，广泛应用于教育、客服、创意写作等领域。它的核心功能是生成自然、流畅的对话内容，并能够处理各种复杂的语言任务。DeepSeek（假设你是指某种搜索引擎工具或者特定的语义分析工具）通常聚焦于
kubernetes之kube-proxy运行机制分析 anyangyu0343 后端网络
在kubernetes集群的每个node都会运行一个kube-proxy服务进程，这个进程可用看作Service的透明代理兼负载均衡器。其核心功能是将到某个Service的访问请求转发到后端的多个pod实例上。对每一个TCP类型的kubernetesService，kube-proxy都会在本地Node上建立一个SocketServer类负责接受请求，然后均匀发送到后端某个pod的端口上，这个过程
【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】006 - Makefile 编译脚本逐行深度解析小馋喵星人鸿蒙OH-v5.0源码分析之 Uboot+Kernel 部分 U-Boot armv8 Makefile
【OpenHarmony4.1之U-Boot2024.07源码深度解析】006-Makefile编译脚本逐行深度解析系列文章汇总：《【鸿蒙OH-v5.0源码分析之Uboot+Kernel部分】000-文章链接汇总》本文链接：《【OpenHarmony4.1之U-Boot2024.07源码深度解析】006-Makefile编译脚本逐行深度解析》本文开始，我们来分析下U-Boot的Makefile编译
Kubernetes之kube-proxy运行机制分析 DawnEillen kubernetes 容器云原生
一、基础知识1.Kubernetes再创建服务时会为服务分配一个虚拟IP地址，客户端通过这个虚拟Ip地址来访问服务，而服务则负责将请求转发到后端pod上。2.上述阐述的过程为一个反向代理的过程，但是这个反向代理和普通的反向代理的区别是它的IP地址是虚拟的而且它的部署和启动以及停止是由K8s统一自动管理。3.在K8s集群里每个Node上都会运行一个kube-proxy服务进程，这个进程可以看作ser
Sora如何颠覆20个商业场景？Sora模型的商业应用及成本效益分析大F的智能小课玩转大模型人工智能
Sora模型简介Sora模型，作为一种先进的长视频生成模型，具有广泛的应用潜力。以下是Sora模型可能的20个商业场景应用，包括每个场景在Sora模型未发布时的普遍做法、Sora模型发布之后的改变以及节省成本的维度分析。节省成本的说明节省成本的说明：节省成本的计算是基于几个关键因素，包括时间、人力、设备和材料成本。以下是具体计算方法的一个概述：时间成本：使用Sora模型可以显著减少视频制作的时间。
基于傅里叶变换的图片模糊度判断点PY 智能感知处理 opencv 计算机视觉人工智能
文章目录概要效果源码概要傅里叶变换可以将图像从空间域转换到频率域。清晰图像在频率域中具有更多的高频成分，而模糊图像的高频成分较少。计算图像的傅里叶变换。分析频率域中高频成分的比例。根据高频成分的比例判断图像是否模糊。效果源码#include#include
十大工业物联网平台分析报告人工智能深度学习
目录1、工业物联网简介1.1、引言1.2、工业物联网平台架构剖析2、工业物联网发展趋势2.1、总体趋势2.2、技术趋势3、工业物联网平台市场预测3.1、工业物联网平台3.2、DCS3.3、实时数据库3.4、SCADA3.5、数字孪生3.6、设备全生命周期管理系统4、主要工业物联网平台供应商介绍4.1、蓝卓4.2、涂鸦智能4.3、中服云4.4、优锘4.5、树根互联4.6、力控科技4.7、中移物联4.
从需求分析到代码生成：AI如何重塑软件需求工程前端
软件开发的世界，一直以来都面临着巨大的挑战。传统软件开发过程中，需求分析往往耗时长、易出错，沟通成本高昂，这些都直接导致项目延期和成本超支。然而，随着人工智能技术的飞速发展，一个新的时代正在到来。AI代码生成器等AI技术的应用，为我们提供了自动化部分需求分析和代码生成过程的可能性，显著提高了效率，降低了成本。本文将探讨AI技术如何重塑软件需求工程，并以ScriptEcho为例，说明AI驱动的代码生
合合信息启信宝助力国家自然科学基金委员会重点专项推进人工智能大数据自然语言处理
近日，国家自然科学基金委员会公布了2024年度宏观调控专项“数据市场制度设计与关键技术”的评审结果。由中国科学院大学、中国社会科学院数量经济与技术经济研究所和清华大学共同申报的《数据资源统计监测与市场价值评估的理论与方法研究》项目成功获批立项。上海合合信息科技股份有限公司（股票代码：688615）作为课题支撑合作单位，将为课题研究团队提供多维度数据源支持与智能数据分析能力，共同为数字经济发展贡献力
软件工程中的认知负载管理：AI减负策略前端
软件工程师的工作常常被描述为高压、高强度，这并非夸大其词。繁琐的重复性工作、陡峭的学习曲线、复杂的项目管理以及持续的技术迭代，都给开发者带来了巨大的认知负载。这种超负荷的状态不仅影响开发效率，更严重损害开发者的身心健康。幸运的是，AI写代码工具的兴起为我们提供了一种减轻认知负载，提升开发效率的有效途径。认知负载的来源与类型在软件开发过程中，认知负载的来源广泛且复杂。从需求分析阶段的理解偏差，到代码
书籍-《强化学习数学基础》强化学习数学人工智能
书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础》01书籍介绍本书对基本概念、核心挑战和经典强化学习算法进行了数学但易于理解的介绍。它旨在帮助读者理解算法的理论基础，提供对其设计和功能的见解。整个过程中包括许多说明性示例。数学内容经过精心设计，以
R中单细胞RNA-seq分析教程 (6) 后端
引言本系列开启R中单细胞RNA-seq数据分析教程，持续更新，欢迎关注，转发！简介现在，很少有人只进行一次单细胞RNA测序实验并仅产生一份数据。原因很直接：目前的单细胞RNA测序技术每次只能捕捉到有限样本的分子状态。为了在多个实验和不同条件下对众多样本进行测量，通常需要对来自不同实验的单细胞RNA测序数据进行联合分析。虽然有些实验策略，比如细胞哈希!，以及一些计算方法，比如demuxlet和scS
探索Python爬虫：获取淘宝商品详情与订单API接口的深度解析不爱搞技术的技术猿 Python 淘宝API python 爬虫开发语言
引言在数字化时代，电子商务平台的数据挖掘和分析已成为企业获取市场洞察的重要手段。淘宝，作为中国最大的电商平台之一，拥有海量的商品数据和订单信息。对于商家和市场分析师来说，如何高效、合规地获取这些数据，成为了一个迫切需要解决的问题。本文将深入探讨如何利用Python爬虫技术，通过淘宝提供的API接口，合法合规地获取商品详情和订单数据。淘宝API接口概览淘宝开放平台提供了丰富的API接口，允许开发者在
Python爬虫教程：公司信息与财务数据抓取——财务报告、业绩数据及新闻分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 chrome 美食信息可视化
在当今金融市场，获取公司的财务报告、业绩数据以及相关新闻是投资分析、市场监控和竞争对手研究的重要组成部分。投资者、分析师、以及公司管理层都需要这些信息来做出重要决策。通过爬虫技术，我们可以高效地抓取这些数据并进行分析。本文将介绍如何使用Python编写爬虫，抓取公司的财务报告、业绩数据和新闻。我们将使用最新的技术栈，包括requests、BeautifulSoup、Selenium、Pandas等
【学术投稿-2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)】CSS样式解析：行内、内部与外部样式的区别与优先级分析禁默前端学术会议 css 前端
简介2025年计算机视觉研究进展与应用（ACVRA2025）将于2025年2月28-3月2日在中国广州召开，会议将汇聚世界各地的顶尖学者、研究人员和行业专家，聚焦计算机视觉领域的最新研究动态与应用成就。本次会议将探讨前沿技术，包括深度学习、多模态学习、图像和视频分析、3D重建等，以及其在智能交通、医疗影像、增强现实和自动化等多个实际应用中的创新转化。会议官网：www.acvra.org目录前言一、
史上最全抓包解析以及DNS分析让你一篇看懂数据包文章永久免费只为良心 DNS 抓包分析如何抓包分析包网络安全
https://www.cnblogs.com/crazymakercircle/p/14976612.html好不容易找到个文章，感觉大佬写的太详细了把连接拷过来了，大家可以有兴趣看看太详细了！
拉格朗日乘数法算法详解及python实现闲人编程 python 算法 python 开发语言拉格朗日乘数法数学模型
目录一、拉格朗日乘数法算法详解1.1基本思想1.2数学推导1.3算法步骤1.4算法在编程中的实现二、案例分析案例一：二维最优化问题——求f(x,y)=x2+y2f(x,y)=x^2+y^2f(x,y)=x2+y2在约束x+y=1x+y=1x+y=1下的极值2.1.1问题描述2.1.2数学模型构建2.1.3Python代码实现案例二：乘积最大化问题——求f(x,y)=xyf(x,y)=xyf(x,y
安科瑞环保用电监管云平台 GetEnterpriseInfoY SQL注入漏洞复现 0xSecl 漏洞复现v2 安全 web安全
0x01产品简介AcrelCloud-3000环保用电监管云平台依托创新的物联网电力传感技术，实时采集企业总用电、生产设备及环保治理设备用电数据，通过关联分析、超限分析、停电分析、停限产分析，结合及时发现环保治理设备未开启、异常关闭及减速、空转、降频等异常情况，同时通过数据分析还可以实时监控限产和停产整治企业运行状态，用户可以利用PC、手机、平板电脑等多种终端实现对平台的访问。0x02漏洞概述安科
浅析c++中函数调用其他文件中的模板函数出错律白 C++
文章目录报错信息错误描述原因分析解决方案报错信息Undefinedsymbolsforarchitecturex86_64:"voidPrintNum(int)",referencedfrom:_maininmain-d2a7a9.old:symbol(s)notfoundforarchitecturex86_64clang:error:linkercommandfailedwithexitcod
具身智能训练新思路！将生成视频用于训练机器人天机️灵韵具身智能人工智能具身智能
将生成视频用于训练具身智能（EmbodiedAI）确实是近年来备受关注的前沿方向，这一思路通过结合生成式AI（如扩散模型、神经辐射场等）与机器人学习，为解决真实世界数据稀缺、训练成本高等问题提供了新可能。以下从技术逻辑、潜在优势、挑战及案例方向展开分析：一、技术逻辑：如何用生成视频训练机器人？生成式AI构建虚拟环境利用扩散模型（如Sora、StableVideoDiffusion）或3D生成技术（
市场趋势洞察与高效前端开发：AI赋能下的企业竞争力 2401_89747417 人工智能前端
1.瞬息万变的市场：速度与效率的较量在当今快节奏的商业环境中，准确把握市场趋势并快速响应至关重要。企业能否敏锐地洞察市场变化，并及时调整战略和产品，直接关系到其竞争力和生存能力。然而，现实情况是，许多企业面临着巨大的挑战。庞大的数据量、复杂的分析流程以及漫长的开发周期，常常使得企业难以快速适应市场需求，错失良机。尤其在前端开发领域，传统的手工编码方式效率低下，难以满足快速迭代的需求。因此，寻求一种
100.10 AI量化面试题：AI大模型中的MOE架构主要类型，和DeepSeek使用了哪一种类型？ AI量金术师金融资产组合模型进化论人工智能架构金融 lstm python 机器学习
目录0.承前1.解题思路1.1基础概念维度1.2架构对比维度1.3实践应用维度2.标准MOE架构2.1基本概念3.稀疏MOE架构3.1实现原理4.共享专家稀疏MOE架构4.1核心设计5.架构对比5.1主要特点对比5.2DeepSeek的选择6.回答话术0.承前本文通过通俗易懂的方式介绍MOE（混合专家系统）架构的几种变体，包括标准MOE、稀疏MOE和共享专家稀疏MOE，并分析它们的异同。如果想更加
数据清洗与预处理：提升数据质量的关键步骤 Echo_Wish 实战高阶大数据 python spark 大数据
数据清洗与预处理：提升数据质量的关键步骤在大数据时代，数据已成为企业和组织的重要资产。然而，数据的价值取决于其质量。高质量的数据可以支持有效的决策和精确的分析，而低质量的数据则可能导致误导性的结论和错误的决策。因此，数据清洗与预处理成为了数据分析过程中不可或缺的关键步骤。一、数据质量的挑战在实际应用中，数据通常来自多个来源，如传感器、日志文件、用户输入等。这些数据可能存在以下问题：缺失值（Miss
深度学习-情感分析小赖同学啊人工智能深度学习人工智能
以下将分别使用PyTorch和TensorFlow框架实现基于深度学习的情感分析，这里以影评的情感分析为例，数据集使用IMDB影评数据集。使用PyTorch实现1.安装必要的库pipinstalltorchtorchtextspacypython-mspacydownloaden_core_web_sm2.代码实现importtorchimporttorch.nnasnnimporttorch.o
[数据库]MySql系统架构一曲长歌,一剑天涯数据库
参考资料[1]MySQL体系架构简介[2]MySQL整体架构一览目录1.路径2.文件3.配置4.逻辑系统架构4.1应用层4.2MySQL服务层4.3存储引擎层5.SQLSELECT语句执行过程第1步：Connectors：客户端/服务端通信协议第2步：查询缓存第3步：Analyzer分析器第4步：Optimizer优化器：查询优化第5步：查询执行引擎Actuator第6步返回结果给客户端1.路径路
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

Domain Adaptation理论分析

文章目录

A theory of learning from different domains

H-divergence

Analysis of Representations for Domain Adaptation

参考资料

你可能感兴趣的:(Domain Adaptation理论分析)