Queen_sy

【深度学习】词表示

词表示

基于矩阵奇异值分解的词表示

基本思想：

语料

矩阵的奇异值分解(SVD)

基于神经网络的词表示

word2vec

Word Embedding

基于全局共现信息的词表示

共现概率矩阵

模型glove

模型动机

词表示

基于矩阵奇异值分解的词表示

基本思想：

利用SVD方法对共现矩阵进行分解，这种方法可以看作：对频率矩阵进行降噪和降维处理，并从中挖掘出词汇的潜在含义。

X=USVT

利用A乘以A的转置得到

m*m的矩阵，对这个矩阵进行特征值分解，得到的m个特征向量张成的m*m矩阵就是U矩阵。

词向量：从矩阵U中选取前k列，（列是特征向量）

U ：词表大小*k

特点：通过SVD得到了word的稠密矩阵，

1】语义相近的词在向量空间相近，甚至一定程度上可以反应词间的线性关系？

缺点：

1】需要事先构建好词共现矩阵，随新的语料的加入和新词的加入，词贡献矩阵是不断变化的，需要重新矩阵分解

2】绝大部分词不会共现，矩阵过于稀疏

3】矩阵维度高，10的6次幂*10的六次幂

4】训练是计算复杂度是O(|V|的3次方)

语料

NlP处理基本思路

1.获取预料

预料是nlp研究的内容，通常使用文本集合作为语料库，预料的来源分为3种：(1)已有的预料----积累的文档。(2)下载现有的语料---搜狗语料，人民日报语料等。(3)使用爬虫抓取。

2.语料的预处理

2.1 语料清洗：人工去重，对齐，标注或者规则提取内容，根据词性和命名实体提取

2.2 分词：将文本分成词语。(基于字符串匹配的分词方法，基于理解的分词方法，基于统计的分词方法，基于规则的分词方法)

2.3 词性标注：在情感分析或者知识推理中需要。(最大熵词性标注，基于统计最大概率输出词性，基于HMM的词性标注，基于规则)

2.4 去停用词：去掉对文本特征没有任何贡献作用的字词，比如标点符号，语气，人称等)

3.特征工程

将分词表示成计算机能够计算的类型(词向量)，常用的模型(词袋模型,tf-idf,one-hot,word2Vec)

4.特征选择

常见的特征选择方法(DF，MI,IG，CHI,WLLR,WFO)

5.模型训练

机器学习模型：KNN,SVM，Naive Bayes,K-Means,D-tree，GBDT等

深度学习模型：CNN,RNN，LSTM，seq2seq,fastText,TextCNN等

评价指标

Roc曲线，混淆矩阵，AUC曲线

模型部署

离线训练，线上部署。

在线训练，并持久化

矩阵的奇异值分解(SVD)

矩阵的本质可以是代表着一定维度空间上的线性变换。矩阵分解的本质是将原本m*n复杂的矩阵分解成对应的几个简单矩阵的乘积的形式。使得矩阵分析起来更加简单。

前面写过一篇博客讲的是矩阵的特征值分解，但是我们知道很多矩阵都是不能够进行特征值分解的。这种情况下，如果我们想通过矩阵分解的形式将原本比较复杂的矩阵问题分解成比较简单的矩阵相乘的形式，会对其进行奇异值分解。

简单回顾特征值分解

如果一个n*n矩阵A有n个特征值，并且这n个特征值所对应的n个特征向量线性无关，则矩阵A可以使用下式进行特征值分解：

其中，W是n个特征向量所张成的n*n维矩阵，而Sigma是一个对角矩阵，对角线上是矩阵A的n个特征值。

一般情况下，我们会将特征向量标准化（即令他们是单位向量），此时矩阵W的n个特征向量为标准正交基，所以会有，即，也就是说W为酉矩阵。所以特征值分解也可以写成

奇异值分解

奇异值分解并没有特征值分解那么苛刻的要求，对于任意一个m*n的矩阵A，可以对其进行如下奇异值分解：

其中，

U是一个

m*m的矩阵；

Sigma是一个

m*n的对角矩阵，主对角线上的元素成为奇异值；

V是一个

n*n的矩阵，U与V都是酉矩阵，即组成它们的都是标准正交基。

如何奇异值分解？

首先，利用A的转置乘以A会得到一个

n*n的矩阵，对这个矩阵进行特征值分解，得到的n个特征向量张成的n*n矩阵就是V矩阵，在这里我们将V中的每一个特征向量叫做A的右奇异向量；

然后，利用A乘以A的转置得到

m*m的矩阵，对这个矩阵进行特征值分解，得到的m个特征向量张成的m*m矩阵就是U矩阵，在这里我们将每一个特征向量叫做左奇异向量；

最后，利用下式求得每个

奇异值

上述奇异值分解步骤的依据

在上面，我们说矩阵的特征向量组成的就是SVD的V矩阵，矩阵的特征向量组成的就是SVD的U矩阵，可以通过如下推导证明(以V矩阵为例)：

上式中我们还发现矩阵特征值矩阵等于A奇异值矩阵的平方，即，所以其实在第三步中我们求奇异值的方式其实也可以通过求出矩阵的特征值取平方根来求奇异值。

SVD求解实例

对于一个矩阵A:

首先计算出和

求出的特征值与特征向量

求出的特征值与特征向量

利用求得奇异值，我们会发现求得的结果与的结果相同;

最终得到A的奇异值分解为

基于神经网络的词表示

word2vec

Word Embedding

由于独热表示无法解决词之间相似性问题，这种表示很快就被词向量表示给替代了，这个时候聪明的你可能想到了在神经网络语言模型中出现的一个词向量 C(wi)，对的，这个 C(wi) 其实就是单词对应的 Word Embedding 值，也就是我们这节的核心——词向量。

在神经网络语言模型中，我们并没有详细解释词向量是如何计算的，现在让我们重看神经网络语言模型的架构图：

上图所示有一个 V×m 的矩阵 Q，这个矩阵 Q 包含 V 行，V 代表词典大小，每一行的内容代表对应单词的 Word Embedding 值。

只不过 Q 的内容也是网络参数，需要学习获得，训练刚开始用随机值初始化矩阵 Q，当这个网络训练好之后，矩阵 Q 的内容被正确赋值，每一行代表一个单词对应的 Word embedding 值。词向量是神经网络语言模型的产物，

但是这个词向量有没有解决词之间的相似度问题呢？为了回答这个问题，我们可以看看词向量的计算过程：

[00010]⎡⎣⎢⎢⎢⎢⎢⎢1723410112456121817131925⎤⎦⎥⎥⎥⎥⎥⎥=[101219]公式(8)

通过上述词向量的计算，可以发现第 4 个词的词向量表示为 [101219]。

如果再次采用余弦相似度计算两个词之间的相似度，结果不再是 0 ，既可以一定程度上描述两个词之间的相似度。

下图给了网上找的几个例子，可以看出有些例子效果还是很不错的，一个单词表达成 Word Embedding 后，很容易找出语义相近的其它词汇。

四、Word2Vec 模型

2013 年最火的用语言模型做 Word Embedding 的工具是 Word2Vec ，后来又出了Glove（由于 Glove 和 Word2Vec 的作用类似，并对 BERT 的讲解没有什么帮助，之后不再多加叙述），Word2Vec是怎么工作的呢？看下图：

Word2Vec 的网络结构其实和神经网络语言模型（NNLM）是基本类似的，只是这个图长得清晰度差了点，看上去不像，其实它们是亲兄弟。不过这里需要指出：尽管网络结构相近，而且都是做语言模型任务，但是他们训练方法不太一样。

Word2Vec 有两种训练方法：

第一种叫 CBOW，核心思想是从一个句子里面把一个词抠掉，用这个词的上文和下文去预测被抠掉的这个词；

第二种叫做 Skip-gram，和 CBOW 正好反过来，输入某个单词，要求网络预测它的上下文单词。

而你回头看看，NNLM 是怎么训练的？是输入一个单词的上文，去预测这个单词。这是有显著差异的。

为什么 Word2Vec 这么处理？原因很简单，因为 Word2Vec 和 NNLM 不一样，NNLM 的主要任务是要学习一个解决语言模型任务的网络结构，语言模型就是要看到上文预测下文，而 Word Embedding只是 NNLM 无心插柳的一个副产品；但是 Word2Vec 目标不一样，它单纯就是要 Word Embedding 的，这是主产品，所以它完全可以随性地这么去训练网络。

为什么要讲 Word2Vec 呢？这里主要是要引出 CBOW 的训练方法，BERT 其实跟它有关系，后面会讲解它们之间的关系，当然它们的关系 BERT 作者没说，是我猜的，至于我猜的对不对，你看完这篇文章之后可以自行判断。

跳字模型（skip-gram）

两类方法对比：

	基于矩阵分解的词表示法	基于神经网络的词表示
	首先统计语料库中“词-文档’‘词-词”共线矩阵，然后矩阵分解获得低维词向量	通过神经网络使上下文窗口内频繁共现的单词对的表示接近
优点	利用全局统计信息	效果好、速度快
缺点	时间复杂度高、过度重视共线词频高的单词对	没有充分利用全局统计信息、过度重视共现词频高的单词对

基于全局共现信息的词表示

在传统上，实现word embedding有两种方式，Matrix Factorization Methods（矩阵分解方法）和Shallow Window-Based Methods（基于浅窗口的方法）

矩阵分解方法的代表是基于奇异值分解（SVD）的LSA算法，该方法对term-document矩阵（矩阵的每个元素为tf-idf）进行奇异值分解，从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。

基于浅窗口方法代表是word2vec，该算法可以分为skip-gram 和 continuous bag-of-words（CBOW）两类,但都是基于局部滑动窗口计算的。即，该方法利用了局部的上下文特征（local context）。

GloVe模型就是将这两中特征合并到一起的，既使用了语料库的全局统计（overall statistics）特征，也使用了局部的上下文特征（即滑动窗口）。为了做到这一点GloVe模型引入了Co-occurrence Probabilities Matrix（共现概率矩阵）。

共现概率矩阵

1. 什么是共现？

单词 i ii 出现在单词 j jj 的上下文中(论文给的环境是以为中心的左右10个单词区间)叫共现。

2. 什么是共现矩阵？

共现矩阵是单词对共现次数的统计表。我们可以通过大量的语料文本来构建一个共现统计矩阵。

例如，有如下语料：

I like deep learning.I like NLP.I enjoy flying.

以窗半径为1来指定上下文环境，则共现矩阵就应该是:

共现矩阵有以下特点：

统计的是单词对在给定环境中的共现次数；所以它在一定程度上能表达词间的关系。
共现频次计数是针对整个语料库而不是一句或一段文档，具有全局统计特征。
共现矩阵它是对称的。

共现矩阵的生成使用中心词 + 滑动窗口进行统计。

行	每行对应一个词
列	每列表示一种不同的上下文
窗口大小为1	看前后一个词
元素	对应词汇和其上下文出现的次数

i 2

表示like出现在i上下文的次数=2次

3、符号介绍

X	共现矩阵
共现矩阵的元素X i j	词 j 出现在词 i 环境的次数
Xi=∑kXik	任意词出现在环境的次数（即，共现矩阵第 i 行/列的和）
Pij=P(j∣i)=XiXij	词 j 出现在词i环境中的概率(这里以频率计算概率)，这一概率被称为词 i 和词 j 的共现概率。共现概率是指在给定的环境下出现(共现)某一个词的概率。注意：在给定语料库的情况下，我们是可以事先计算出任意一对单词的共现概率的。

Ratio=Pik/Pjk=词 k 出现在词 i 环境中的概率 / 词 k 出现在词 j 环境中的概率,也就是说如果一个词k和i共现的概率（ki相关）和词k和i共现的概率都很大，那么ij很有可能相关。

Ratio=Pik/Pjk	jk相关	jk不相关
ik相关	比值 1	大
ik不i相关	小	1

接下来阐述为啥作者要提共现概率和共现概率比这一概念。下面是论文中给的一组数据：

先看一下第一行数据，以ice为中心词的环境中出现solid固体的概率是大于gas、fashion而且小于water的，这是很合理的，对吧，因为现实语言使用习惯就是这样的。同理可以解释第二行数据。我们来重点考虑第三行数据：共现概率比。我们把共现概率相比，我们发现：

1.看第三行第一列：当ice的语境下共现solid的概率应该很大，当stream的语境下共现solid的概率应当很小，那么比值就>1。

2.看第三行第二列：当ice的语境下共现gas的概率应该很小，当stream的语境下共现gas的概率应当很大，那么比值就

3.看第三行第三列：当ice的语境下共现water的概率应该很大，当stream的语境下共现water的概率也应当很大，那么比值就近似=1。

4.看第三行第四列：当ice的语境下共现fashion的概率应该很小，当stream的语境下共现fashion的概率也应当很小，那么比值也是近似=1。

因为作者发现用共现概率比也可以很好的体现3个单词间的关联(因为共现概率比符合常理)，所以glove作者就大胆猜想，如果能将3个单词的词向量经过某种计算可以表达共现概率比就好了(glove思想)。如果可以的话，那么这样的词向量就与共现矩阵有着一致性，可以体现词间的关系。

模型glove

模型动机

模型

GloVe算法原理及简单使用

构建词向量（WOrd Vector）和共现矩阵（Co-ocurrence Matrix）之间的近似关系

其中，wiT 和 w~j 是我们最终要求解的词向量，bi 和 b~j 分别是两个词向量的 bias term。

为什么要这样做的一个重要假设是：假设我们已经得到了词向量，如果我们使用词向量 vi、vj、vk 通过某种函数计算得到ratioi,j,k，能够同样得到这样的规律的话，就意味着我们的词向量具备与共现矩阵很好的一致性，也就是说我们的词向量中蕴含了共现矩阵所蕴含的信息，而共现矩阵中所蕴含的信息就是在一个语料中某两个词语相关性的信息。

GloVe目标函数-构造 loss function

。

图17：GloVe目标函数

上图中f(Xijf(Xij是权重系数。权重系数应当遵循下面三个原则：

f(0)=0f(0)=0。
f(x)递增，以保证罕见的组合不会给与过多的权重。
对于较大的x值，f(X)应该比较小，以保证频繁出现的组合不会给过多的权重。

有了上面三个原则，于是设计出了以下的权重函数，如图图18，其函数图像如图图19：

图18：GloVe目标函数的权重函数

GloVe目标函数的权重函数的函数图像

图19：GloVe目标函数的权重函数的函数图像

图19中权重函数的α=3/4α=3/4。xmaxxmax依赖于数据集，论文作者选取的xmax=100xmax=100，同时实验中发现α=3/4α=3/4效果好于α=1α=1，这与word2vec的选取3/4似乎有所巧合。

最终，我们训练得到了一个单词的向量表示ww和上下文向量w~w~。最终的向量也是使用了一个trick，将二者相加，作为单词的向量,实验表明，二者相加效果对比单独使用，略有提升。

至此，GloVe的原理推导完了。其实，也不能叫做推导，作者在论文里也只是说明这个损失函数怎么一步步得出来的。

公式推导

上面的讨论告诉我们，单词的词向量（word vector）学习应该跟词共现概率的比率有关，而不是他们的概率本身。注意到比率Pik/PjkPik/Pjk依赖于i,j,ki,j,k，最一般的形式如下图图10。

图10：词向量推导最一般的形式

其中，w∈Rdw∈Rd是词向量，w~∈Rdw~∈Rd是独立的上下文词向量。如果大家看过word2vec的话，此处的w就类似于最终一个词的表示，就是300维的词向量。 w~w~上下文的词向量，也是一个向量，跟ww同维度。首先，我们希望词向量的信息表正在比例Pik/PjkPik/Pjk里。词向量，内部是线性结构，这里希望更简洁的表示，所以这里做了一个相减来表示。不要问为什么要相减，这里面的很多推导都是比较跟着感觉走。就是这样子的。于是得到了下图图11的公式。

图11：公式的简单变形

主意右边是一个数字，左侧是向量。为了避免我们的网络，比如神经网络，关注到无用的东西。这里进行F里面的两个向量相乘。得到了下图图12中的公式。

图12：公式的简单变形

可以注意到词共现矩阵中，词和词的上下文词汇是任意的，我们自由的互换他们的位置。也就是我们互换w↔w~w↔w~，也可以互换 X↔XTX↔XT。为了满足这个条件，需要做以下两步操作。

第一步，我们的目标是要图12的公式满足同态（homomorphism）。至于什么是同态，笔者不太熟悉。可以看下图图13。假定我们认为满足下图图13的公式就是满足了同态性，满足了上述需求。

图13：公式要满足的条件，同态性

对比上图图12的公式，我们可以得到下图图14。

图14：对比图13得到

对于图13的公式，F是指数函数，F=exp，这一点应该很容易想到，因为图13中，两个变量的相减经过函数F等于两个变量经过函数F之后相除，显然是一个指数函数。于是有了图15。

图15：图13公式的一个解

第二步，注意到，图15中改变i和k的位置，会改变公式的对称性。所以为了保证对称性，为w~kw~k添加偏置b~kb~k。如下图图16。

图16：修正对称性后的公式

到目前为止，我们从图10的公式推导到了图16的公式，也就是我们训练最终的词向量要满足图16的公式。于是我们可以定义我们的目标函数（或者叫损失函数）如下：

J′=∑i,j=1V(wTiw~j+bi+b~j−logXij)J′=∑i,j=1V(wiTw~j+bi+b~j−logXij)

其中V是单词的总个数。但是上述目标函数还有一个问题，就是无论单词i和单词k之间出现的频率多少，都作为一个样本进行训练。那么对于那么单词i和单词k之间不常见的组合，或偶尔出现的组合，也进行拟合，其实这些拟合的是一些噪声，这显然不利于模型的鲁棒性/健壮性（robust）。怎么办呢？最简单的办法就来了，让那些出现次数较少的组合权重低一些。于是变为了下图土17。

图17：GloVe目标函数

GloVe部分结果展示

具体的实验结果，我不在此处张贴了。总之，作者对比了其他结果，总体上好于word2vec。有兴趣看具体结果的可以看原始论文[1]。这里只是简单展示一点。对frog（青蛙）这个单词，求最相似的单词，得到了如图20的结果。可以看到图中都是青蛙之类的词汇，表明了结果的有效性。

图20：GloVe对词frog求最相似的词向量的结果图

下图图21是我自己加载了GloVe预训练的模型[6]得到的最相似的单词的结果。

图21：加载GloVe预训练模型，笔者对词frog求最相似的词向量的结果图

代码

Glove论文详解及代码分析

，glove-python

参考：

GloVe算法原理及简单使用 - 知乎 (zhihu.com)

GloVe(Global Vectors for Word Representation )(2020-08-27)_fuchengguo666的博客-CSDN博客

简单粗暴！一文理解Skip-Gram上下文的预测算法

NLP之---word2vec算法skip-gram原理详解_小小的天和蜗牛的博客-CSDN博客_skip-gram

2022-02-21：NlP处理基本思路 - 简书

00 预训练语言模型的前世今生（全文 24854 个词） - 二十三岁的有德 - 博客园

你可能感兴趣的:(python,人工智能,pytorch,1024程序员节)

初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
Python 虚拟环境完全指南 wsj__WSJ python python 开发语言
为何离不开虚拟环境？在Python开发领域，虚拟环境堪称管理项目依赖的不二利器，其重要性体现在多个关键层面：项目隔离独立运行环境构建：为每一个项目量身打造专属的Python运行环境，使各个项目之间相互隔离，互不干扰。化解依赖版本冲突：有效解决不同项目对同一依赖包的版本需求不一致的难题。例如，项目A基于Django3.2进行开发，而项目B需要Django4.0才能正常运作，通过虚拟环境，两者可并行不
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">