salahuya

Andrew Ng吴恩达深度学习Course_2笔记

术语概念

NLP:：自然语言处理

CV(computer vision)：计算机视觉

超参数：

正则化：

Mini-batch：子训练集，面对训练集样本过多的情况，梯度下降迭代一次时间过长，因此分为多个子集

RMSprop：root meam square prop，加速梯度下降

第一周深度学习的实用层面

训练/验证/测试集

过去：验证集和测试集的比例常用7 : 3，如果没有明确设置验证集，也可以用60%训练、20%验证和20%测试集来划分

现在：数据达到百万级别，所需验证/测试集数量的比例大大降低，训练集占比可达99%以上

最好确保验证集和测试集的数据来自同一分布

如果不需要无偏评估，则可以不需要独立的测试集（验证集中包含）

偏差和方差

衡量训练集和验证集的错误率，偏差反映拟合程度，方差反映量化能力

训练集错误率高，偏差大；训练集和验证集之间的错误率差值高，方差大

L2正则化

正则化通常有助于避免过拟合或减少网络误差

如今越来越倾向使用L2 regularization模型，因为L1所占存储空间更大

L2正则化简单理解就是为了泛化特征，使网络不要太依赖某些太明显的特征

常用λ(lambda)来表示正则化
$J(w,b)=\frac1m\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})+\frac{\lambda}{2m}||w||^2$

在python中避免保留字段冲突，我们用lambd代替lambda来表示正则化参数

下图有误，应是w:(n[l],n[l-1])，n[l-1]表示隐藏单元的数量，n[l]表示l层单元的数量

$||·||^2_F$ 表示frobenius范数，即矩阵L2范数（但一般不说是L2），表示一个矩阵中所有元素的平方和
$||w^{[l]}||^2_F=\sum_{i=1}^{n^{[l]}}\sum_{j=1}^{n^{[l-1]}}(w^{[l]}_{ij})^2$
紫字：在原本梯度下降公式上新增的正则化，重新定义dw
$dw^{[l]}=(from\quad backprop)+\frac{\lambda}mw^{[l]}\\ \to w^{[l]}=w^{[l]}-\alpha dw^{[l]}$
绿字：解释原理，相当于给矩阵w乘以了 $(1-\frac{\alpha\lambda}m)$ 倍的权重，因此L2正则化也被称为“权重衰减”，λ越大，w越小

正则化之所以能减少过拟合，是因为减小了部分权重w，即减弱了隐藏单元对全局的影响。以tanh()举例，w越小，z越小，z的取值范围越接近线性

Dropout正则化

随机失活几个隐藏节点，精简每个样本训练所需神经网络

Inverted dropout反向随机失活

举例：在一个l=3的神经网络中，d3构造一个随机的只有0和1的矩阵，a3是原矩阵，然后对应元素相乘，0的位置的节点会被消除。keep-prob=0.8，意味着d3的元素有0.8的概率为1，即有20%的节点被失活。每一层的keep-drop可以不一样。

核心思想：此算法随机去掉一部分节点，就相当于L2正则化的变线简化，只不过这个算法是去除掉了。但是最后训练时通过除以keep-prob保证结果期望值不变，做到了简化+保持概率正则化。

测试阶段不会执行dropout

dropout预防过拟合

通过随机消除节点，可以防止前后层节点产生依赖，使权重趋于分散（平均），不会使某个节点的权重远大于其他的权重，防止随着学习过程加深导致过拟合。

dropout被作为一种正则化的代替形式，类似于L2正则化

其他正则化方法

数据增广

early stopping

归一化输入

将数据化为标准分布， $\mu$ 和 $\sigma^2$ 都是由训练集数据计算来的

如果输入特征处于不同范围，将特征值归一化（ $\mu$ =0， $\sigma^2$ =1），可以帮助学习算法运行得更快

梯度消失和梯度爆炸

梯度消失：当w略小于1的时候，激活函数将指数式递减

梯度爆炸：当w略大于1的时候，激活函数将爆炸式增长

为了解决梯度消失和梯度爆炸的问题，要谨慎选择初始化参数，随机产生的数据要满足标准分布（让一部分略大于1，一部分略小于1）

w[L]=np.random.randn(shape)*np.sqrt(2/n[l-1])

让每一层输出的方差降低因权重而受到的影响，避免权重矩阵随着层数越深而越来越大或者越来越小

梯度逼近和梯度检验

梯度逼近

双边逼近求导，非直接求导（拉格朗日？）
$\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2\varepsilon}\approx g(\theta)\\ f'(\theta)=\lim_{\varepsilon\rightarrow0}\frac{f(\theta+\varepsilon)-f(\theta-\varepsilon)}{2\varepsilon}$

梯度检验

check:
$\frac{||d\theta_{approx}-d\theta ||_2}{||d\theta_{approx}||_2+||d\theta ||_2}$
三角验证，分母表示三角形两条边长度之和，分子表示第三条长度，这样比值总是落在[0 ,1]之间

如果检验值很小，则说明代码计算的梯度和另外检验的梯度很接近

注意事项：

只在debug中使用检验，训练过程不用
如果算法的梯度检验失败，要检查所有项来找出bug
记得使用正则化
梯度检验不能和dropout一起使用

第二周优化算法

Mini-batch梯度下降法

mini-batch一步梯度下降法原理如下，假设训练集有500万个样本，取m=1000的mini-batch（共5000个mini-batch）。使用batch，遍历一代只能做一次梯度下降，而使用mini-batch，一代能做5000个梯度下降

mini-batch的成本函数会产生振荡，是因为每次训练用的集不一样，可能会有一些噪音数据，如x^{1} 和 x^{2}的训练难度不同

紫字：当mini-batch size=1时，每个样本都是一个单独的mini-batch，被称为随机梯度下降法

绿字：一般mini-batch大小取值在（1，m)之间

如果mini-batch大小为1，则会失去mini-batch示例中矢量化带来的的好处。
如果mini-batch的大小是m，那么你会得到批量梯度下降，这需要在进行训练之前对整个训练集进行处理。

注意事项：

当batch大小在2000以下时，建议直接使用batch
一般mini-batch大小取64，128，256，512（符合CPU/GPU内存）
mini-batch的大小为一个重要的变量，需要多尝试几个不同的值，找到能够最有效地减少成本函数的那个

步骤

我们要使用mini-batch要经过两个步骤：

把训练集打乱，但是X和Y依旧是一一对应的，之后，X的第i列是与Y中的第i个标签对应的样本。乱序步骤确保将样本被随机分成不同的小批次。如下图，X和Y的每一列代表一个样本
切分，我们把训练集打乱之后，我们就可以对它进行切分了。这里切分的大小是64，如下图：

指数加权平均

以伦敦气温为例

$V_t=βV_{t-1}+(1-β)θ_t$

不断调整平均数，β大小决定曲线波动，增加β会使红线稍微向右移动，减少β会在红线内产生更多的振荡。

0.9¹⁰ 约等于0.35，即10天影响力下降近三分之一

偏差修正

当β=0.98时，因为v0=0，v1=0.02 * θ1，远小于当天温度θ1，前几天的偏差较大

因此 $V_t$ 可修正为 $\frac{V_t}{1-\beta^t}$ ，结果从紫线变绿线

动量梯度下降法

计算梯度的指数加权平均数，并利用该梯度更新权重，减缓梯度下降的幅度。
$V_{dw}=\beta V_{dw}+(1-\beta)dw\\ V_{db}=\beta V_{db}+(1-\beta)db\\ \to w=w-\alpha V_{dw}, \quad b=b-\alpha V_{db}$
纵轴方向运动变小，横轴方向运动变快。

紫字：本质上能够最小化碗装函数，想象dw、db等微分项给了从山上滚下来的雪球一个加速度，动量momentum项相当于速度，β始终小于1，相当于摩擦阻力，使得球不会无限加速下去。

RMSprop

用斜率控制波动，把波动曲线当成wb的二维函数，消除摆动
$S_{dw}=\beta S_{dw}+(1-\beta)(dw)^2\\ S_{db}=\beta S_{db}+(1-\beta)(db)^2\\ \to w=w-\alpha \frac{dw}{\sqrt{S_{dw}}}, \quad b=b-\alpha \frac{db}{\sqrt{S_{db}}}$
和上一个动量momentum不一样的是，这里是梯度平方的加权平均。上一个没有平方，把梯度看作向量，因此在振荡方向上的db会被抵消，降低了震荡；这里把梯度当作标量，平方之后开方，因此梯度值较大的db会被削减较多，降低了震荡。

两种方法目的相同，都是为了消除梯度下降中的震荡，同时允许使用一个更大的学习率加快算法学习速度。

紫字：实际运算过程会加一个 $\varepsilon=10^{-8}$ ，防止出现 $S_{dw}$ 过小，导致出现 $\frac{dw}{\sqrt{S_{dw}}}$ 过大的情况

Adam优化算法

相当于动量momentum和RMSprop结合
$V_{dw}^{correct}=\frac{V_{dw}}{1-\beta_1^t},\quad V_{db}^{correct}=\frac{V_{db}}{1-\beta_1^t}\\ S_{dw}^{correct}=\frac{S_{dw}}{1-\beta_2^t},\quad S_{db}^{correct}=\frac{S_{db}}{1-\beta_2^t}\\ w=w-\alpha \frac{V_{dw}^{correct}}{\sqrt{S_{dw}^{correct}}+\varepsilon},\quad b=b-\alpha \frac{V_{db}^{correct}}{\sqrt{S_{db}^{correct}}+\varepsilon}$

总结：具有动量的梯度下降通常可以有很好的效果，但由于小的学习速率和简单的数据集所以它的影响几乎是轻微的。另一方面，Adam明显优于小批量梯度下降和具有动量的梯度下降，如果在这个简单的模型上运行更多时间的数据集，这三种方法都会产生非常好的结果，然而，我们已经看到Adam收敛得更快。

Adam的一些优点包括相对较低的内存要求（虽然比梯度下降和动量下降更高）和通常运作良好，即使对参数进行微调（除了学习率α αα）

学习率衰减

绿色：学习率α在后期减小，可以使得曲线在最小值附近的一小块区域内摆动，而非大幅度摆动

第三周超参数调试、batch正则化与程序框架

调试处理

需调试的超参数：

α >

β(β1、β2) = hidden units隐藏单元 = mini-batch size >

layers隐藏层数 = learning rate decay学习率衰减

常用方法：将超参设为坐标轴，随机取点，而不是网格搜索，因为你不知道哪些超参数比其他的更重要

举一个很极端的例子，就比如在Adam算法中防止除零操作的ε的值，一般为1的负8次方，但是和学习率α相比，ε就显得不那么重要了

为超参数选取合适的范围

有些超参数（如学习率α）非常敏感，变化0.001就会有很大的差别，如果采用均匀分布取值，对调参是不利的，所以会采用如下的对数形式

$\alpha = 10^r$ ，对r均匀分布取值

β也是一个非常重要的超参数，越靠近1，变化的影响越大，因此1-β后同样采用对数形式，这样越靠近1，取值的间隔就越小，远离1的取值间隔变大

超参数训练的实践：Pandas VS Caviar

只照顾一个模型（使用熊猫策略）还是一起训练大量的模型（鱼子酱策略）在很大程度上取决于在你能力范围内，你能够拥有多大的计算能力（就是高性能电脑和低性能电脑的区别）

batch norm归一化

batch归一化的适用不仅是输入层，还适用于深度隐藏层

正则化网络的激活函数

先进行标准归一化处理定位，然后让机器自动学习合适的归一化参数(γ，β)重缩放
$\mu = \frac1m\sum_iz^{(i)}\\ \sigma^2=\frac1m\sum_i(z^{(i)}-\mu)^2\\ z^{(i)}_{norm}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^2+\varepsilon}} \\\hat{z}^{(i)}=\gamma z^{(i)}_{norm}+\beta$

注意：归一化里的β和优化算法里的β不是同一个参数

实践中，batch归一化通常和训练集的mini-batch一起使用

参数b是一个恒定的常数，会被均值消减法抵消，因此在batch归一化中不考虑，也可视作被归纳进β学习

这里的平均值是横向的,不同的z向量上同一位置神经元的平均值,这些在Z矩阵中处于同一行上的值自然用同一b值,所以b平均=b

batch norm的作用

因为参数w，b的作用，每一层的输出和输入分布都不太一样，对于特别多层的网络，比如Google的动不动上百层，后面的累积分布差异跟原数据分布完全不一样，然后每换一个batch，分布又可能往另一种方式差异化，形象点，对于后面的layer来说，每次学的东西可能都天差地别，不知道自己在干啥。

batch norm（归一化）使得每一层的值围绕固定的均值和方差变动，稳定了每层的输入值，增强了每层的独立性，有助于加速整个网络的学习

可以把batch norm和dropout一起使用，得到更强大的正则化效果，而使用较大的mini-batch大小可以减少正则化效果

但是不要把batch归一化当作正则化，把它当作归一化隐藏单元激活值并加速学习的方式，正则化只是副作用

测试时的batch norm

将mini-batch中计算好的 $\mu,\sigma^2$ 放到测试集中测试要逐个处理，不能整体算平均，要使用指数加权平均值来估计mini-batch的情况

softmax回归模型

logstic回归的一般形式，能实现多样化分类，最终的输出为一个向量，表示概率，元素总和为1

无隐藏层的情况下，任何两个分类之间的决策边界都是线性的

本质还是二分法

softmax的损失函数

$L(\hat{y},y)=-\sum_{j=1}^Cy_ilog\hat{y_j}$

极大似然估计法

深度学习框架

通过编程框架，可以使用比低级语言（如Python）更少的代码来编写深度学习算法。即使一个项目目前是开源的，项目的良好管理有助于确保它即使在长期内仍然保持开放，而不是仅仅为了一个公司而关闭或修改。

详细情况网上查阅

Tensorflow

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在