数据派THU

深度学习的“瓶颈”与“遛狗”定理

来源：老顾谈几何

本文约3900字，建议阅读9分钟本文与你讨论深度学习的模式坍塌问题。

在科技历史上，数学为工程技术提供了理论基础、指引了未来发展方向；反过来，工程技术为数学提出了新的挑战，推动了数学理论的发展。深度学习和最优传输理论再度验证了这一历史发展模式。

深度学习的社会学瓶颈

深度学习在工程技术领域取得了巨大的成功，其内在原因在于自然数据集具有内在的规律：流形分布定律，即一类自然数据可以被视为嵌入在高维背景空间中的低维数据流形上的一个概率分布。深度学习算法可以被解耦为学习流形结构和学习概率分布。在深度学习算法中，流形结构被表示为编码映射和解码映射，即数据流形的局部参数化；概率分布可以被表示成吉布斯势能函数，或者最优传输映射。最优传输映射将白噪声（高斯或者均匀分布）映射成数据分布。所有的映射，编码、解码、传输映射等都被深度神经网络来逼近。

由几何逼近理论，我们从离散采样点集合来重建数据流形，目的是保证重建流形与初始数据流形一致。这里，所谓一致具有不同层面的含义，通常由弱到强指拓扑结构，Hausdorff距离，黎曼度量和微分算子的一致性，需要不同的采样要求。例如曲率高的区域、内射半径小的区域、数据分布密度高的区域需要更加稠密的采样。由此可见，为了训练深度学习模型，我们需要数据流形上的稠密采样点，并且采样点的分布忠实地反映了真实数据分布规律。因此，我们需要大量训练数据。

但是，很多大数据与个人隐私相关，具有强烈的敏感性，无法直接公开提供给社会各界使用，这成为未来深度学习的社会学方面的瓶颈。生成模型是突破瓶颈、实现数据脱敏的一种强有力的技术方法。例如，人脸图像数据集会泄露人脸信息，侵犯个人隐私；但是对于深度学习人脸识别算法，我们由需要大量人脸图像用于训练和提高模型性能。这时我们可以应用生成模型来生成大量的人脸图片，这些图片看上去与真人无异，但是现实生活中并不存在，因此不会侵犯任何人的隐私，同时也可以帮助人脸识别模型提高性能。

图0. 生成的人脸图像不具备社会学意义，同时反映了真实数据的统计特性

这种方法的理论诠释如下：假如我们确切掌握了数据流形的信息和数据的分布，我们用数论方法产生伪随机变量满足均匀分布，用最优传输映射和解码映射变换成数据流形上的随机变量，满足数据分布，如此得到生成采样，即为生成的人脸图片。由几何测度理论，数据流形为连续统，训练数据集为离散点集，因此生成采样落在训练数据集的概率为零。（在实际算法中，也可以加上限制以避免生成采样落在训练集内）即便编码、解码映射与最优传输映射完全公开，用户由生成人脸图片可以回溯到计算机生成的随机数，但是这个随机数没有任何社会学意义，均匀分布的信息熵最大，信息泄露最少。

同时，这种方法保持了数据集的统计特性，生成数据集符合真正数据分布，因此对于基于统计特性的实际应用而言，生成数据完美地解答了他们所关心的问题。例如，一家服装设计公司，他们需要各种人体形状在人群中的分布情况，以决定各种尺码服装的生产比例。这种信息可以通过统计生成数据来计算出来。由此可见，依随人们日益重视数据安全和隐私保护，生成模型的应用会更加广泛和深入。

深度学习的算法瓶颈

深度学习的一个主要算法瓶颈是所谓的模式坍塌（模式崩溃 mode collapse）问题，具体表现为模型对于超参数过于敏感，训练收敛困难，误差长期震荡；如果数据分布具有多个模式，生成数据会丢失一些模式，或者生成数据会覆盖所有模式，但是同时生成模式之外的失真数据。

模式坍塌的内在原因可以分析如下：深度学习中所有的映射都用深度神经网络来逼近，但是深度网络只能表达连续映射；但是概率分布之间的传输变换有可能是非连续变换。这一本质矛盾导致了模式坍塌。那么是在什么情形下，最优传输映射是非连续的呢？这需要由最优传输映射正则性理论来回答。虽然最优传输理论已经发展了两百多年，传统的数学家们只关心连续的最优传输映射，对于非连续的奇异集合没有太多研究，因此最优传输映射奇异集合理论一直处于尚未深入探索的阶段。深度学习的兴起，将会燃起数学家们巨大的热情，这一领域的发展将会迎来一次飞跃。

最优传输理论

我们回忆一下经典的最优传输理论。给定分布定义在开集上，和分布在上，满足平衡条件。映射被称为是保测度的，如果对一切Borel集合，都有。给定传输代价函数 , 蒙日问题在所有保测度映射中寻找传输总代价最小者，

蒙日问题的解被称为是最优传输映射。

Brenier理论表明，在较为一般的情形下，存在定义在上的凸函数，被称为是 Brenier势能函数，其梯度映射给出了最优传输映射，。由保测度条件，我们可以得到Monge-Ampere方程, 假设密度函数为并且 , 我们有

满足边界条件。

图1. 如果源区域和目标区域都是凸集，密度函数光滑，则Brenier势能光滑

经典的Monge-Ampere方程正则性理论都假设和是凸集合，例如密度函数满足光滑性条件，，这时Brenier势能函数，最优传输映射光滑，不存在奇异集合。如图1所示，和都是单位圆盘，Brenier势能函数光滑，最优传输映射连续，不存在奇异集合。

图2. 如果目标区域非凸，则最优传输映射非连续，Brenier势能非光滑

如图2所示，我们计算从单位圆盘上的均匀分布到海马区域上的分布区域之间的最优传输映射（下行），则Brenier势能函数（上行）全局连续，但是沿着红色曲线不可微分。在单位圆盘上，红色曲线的投影是黑色的曲线，被称为是奇异集合，最优传输映射在奇异集合上间断。因此，传输映射是非连续映射。如果目标区域接近凸集，那么有可能最优传输映射依然是连续的。

一个自然的问题在于：奇异集合存在的充分必要条件是什么？这个问题的解答与深度学习中的模式坍塌具有本质联系。这里我们用区域边界的曲率给出一个充分条件，即所谓的“遛狗”定理。

“遛狗”定理

如图3左帧所示，假设有一位朋友遛狗，这位朋友在平面上的轨迹是一条封闭曲线，狗的轨迹是另外一条封闭曲线，人和狗都是逆时针行走，在任意时刻，在各自轨道上一直面向前方，从不回头（但是走过一圈，整体上绕回到起点）。

图3. 在各种遛狗方式中，最短的牵狗绳长度等于曲线间的Frechet距离

Frechet 距离：

同一时刻人和狗的位置之间有个对应关系，这自然给出了轨道间的一个同胚映射，等价的我们用参数来表示。由人和狗都不回头的假定，我们自然有对于任意时刻都成立。那么不同的遛狗方式对应着不同的同胚映射。如果固定一个遛狗方式，牵狗绳的长度不小于人和狗之间任意时刻的最大距离。在所有可能的遛狗方式中，最短的牵狗绳长度等于：

我们将可能的最短牵狗绳长度定义为和的Frechet距离。

在计算几何中，人们对于Frechet距离的算法已经有了充分的研究。如图3右帧所示，我们用横轴表示的参数，纵轴表示的参数。任何同胚映射，满足可以表示成一条连接对角点的曲线，曲线在水平和铅直两个方向都是单调的。给定一个，对于正方形内任意一点，如果，我们将其绘为红色，反之为白色。那么白色区域为自由区域，红色区域为禁止区域。如果白色区域中存在一条水平、铅直都单调的曲线，连接对角点，则这两条曲线的Frechet距离小于。实际计算中，我们可以用二分法来搜索，找到的Frechet距离。

法向Frechet距离：

类似的，假如和的正则性较好，例如它们是光滑的，则沿着曲线法向量是良定义的。由此我们可以定义法向Frechet距离：我们将人和狗所在位置之间的距离换成人和狗所在点处的外法向量之间的距离，写成公式就是：

这里是单位圆上的测地距离。

倾斜条件：

给定平面区域间的最优传输映射，边界曲线和是二阶光滑的，满足一定的光滑性条件，那么最优传输映射可以拓展到边界上，，并且满足所谓的倾斜性条件（Obliqueness Condition)，即给定边界上一点，

即边界点的法向量和对应像点的法向量夹角小于等于直角。

遛狗定理：

假设已知定义在平面区域上概率分布，和，这里概率密度函数满足比较宽泛的正则性条件，边界曲线和是二阶光滑；如果和的法向Frechet距离大于，则最优传输映射非连续，存在奇异集合。假如最优传输映射不存在奇异集合，Brenier势能函数全局可微，那么可以拓展到边界上，并且在边界上的限制是同胚，并且满足倾斜条件，因此和的法向Frechet距离不大于直角，矛盾。于是我们得出结论：存在奇异集合，最优传输映射在奇异集合上间断。

图4. 奇异集合存在的曲率条件

曲率条件：

由遛狗定理，我们可以给出一些最优传输映射存在奇异点的曲率条件。如图4左帧所示，如果有一段曲线，总曲率小于，即存在，

为凸集，那么最优传输映射必定存在奇异集合。如图4右帧所示，横轴为，纵轴为。两条曲线都采用弧长参数。对于任意一点，如果处的法向量与处的法向量夹角大于，我们将其绘为红色，否则为绿色。则绿色区域为自由区域。的起点为，的终点为，右侧长方形底边对应，顶边对应。底边和顶边的绿色区域恰好互补，那么绿色区域中不存在沿着水平方向和铅直方向都单调的曲线。这意味着和的法向Frechet距离一定大于，必然存在奇异集合，最优传输映射在奇异集合上非连续。这种情形下，最优传输映射无法用深度神经网络直接表示。

推广和展望

高维的最优传输映射比平面上的最优传输映射复杂，但是同样的想法可以推广。例如在三维情形，假设是三维空间中的区域，其边界和是光滑曲面，其法向Frechet距离定义为：

如果法向Frechet距离大于，则最优传输映射存在奇异集合。遛狗定理给出了奇异集合存在的充分条件，必要条件目前尚未清楚。奇异集合的拓扑刻画依然存在很多开放的问题。这些基本问题需要基础数学家给出解答。

在深度学习中，隐空间中的数据分布支集往往具有复杂拓扑，几何上也不具备凸性，传输映射不可避免地存在奇异集合，因此深度神经网络无法表达这种非连续的映射。为了避免模式坍塌，我们可以用神经网络表达Brenier势能函数，或者采用特定的数值逼近方法。另一方面，Monge-Ampere方程强烈非线性，高维最优传输映射计算复杂度很高。如何设计更加高效的算法，和更加适合求解的硬件，这也为计算机科学家提出了挑战。

我们相信未来最优传输映射的正则性理论会进一步发展，能够给出奇异集合的深刻洞察和刻画，从而更好地指导深度学习的统计理论；也相信深度学习领域会有更多基于最优传输理论的模型被提出并深入探索，从根本上克服模式坍塌等瓶颈问题，并且使得黑箱变得透明。

下一次遛狗的时候，希望朋友们能够深入思考一下深度学习的模式坍塌问题，也思考一下如何在整个地球表面“遛鹰”，从而体会高维的Frechet距离。

编辑：黄继彦

校对：汪雨晴

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

深度学习的“瓶颈”与“遛狗”定理

你可能感兴趣的:(机器学习,人工智能,深度学习,计算机视觉,python)