叫我阿明

第三章、节点嵌入 Node Embedding

笔记总目录

课程为斯坦福大学CS224W 2021年冬季课程。

B站视频

斯坦福大学CS224W silide 03-nodeemb

图表示学习（Graph Representation Learning）

图表示学习减轻了每次进行特征工程的需要。传统机器学习对于输入的图信号会进行一系列的特征提取工作，如第二章所示。而图表示学习则是淡化了特征提取工作。

图表示学习的目标：对图机器学习希望得到一个高效，且任务独立的特征学习方法。

Embedding

作用：将节点映射到一个embedding空间中。

下面是embedding的性质和作用：

网络中相似的节点，在Embedding空间中也是相似的。
潜在地被用来作为下游的预测
编码网络信息

下图为网络embedding的实例。网络中节点在embedding之后被映射到2维空间上，其中网络中性质相似的节点，在2D空间中坐标临近。

节点嵌入：编码和解码

给定一个图, 是顶点集，是图邻接矩阵，为了简化问题，不考虑节点特征和其他的额外信息。

节点嵌入：

如下图所示

上图的目的是为了让embedding空间中的相似性近似图中的相似性，其中embedding空间一般是D维空间，相似性可以用向量和的内积来衡量。如下图所示，节点在图中国的相似性等于节点embedding之后的相似性，不过节点在图中的相似性需要定义。

Node Embedding涉及到的过程:

编码（Encoder）：将节点映射到embedding空间
在映射的过程中需要定义原始图中的节点相似性，以保证映射后的节点相似性有个优化目标。
解码（Decoder）：将embedding空间中的节点集映射为相似性得分。
优化编码参数以解码得分满足下式，其中解码得分使用内积的形式。

两个重要的部分：
Encoder：将每一个节点都映射为一个低维的向量。

相似性函数或解码：刻画向量空间的关系如何映射到网络空间中。

浅编码（Shallow Embedding）

最简单的编码方式：仅仅是一个嵌入查找，即一个编码集中找一个作为节点的编码。

$\mathrm{ENC(}v)=\mathbf{z}_v=\mathbf{Z}\cdot v$

其中 $\mathbf{Z}\in \mathbb{R}^{d\times |\nu |}$ 是一个矩阵，每一列是一个节点编码。 $v\in \mathbb{I}^{|\nu |}$ 是一个指示向量，指示节点处为1，其他为零，这个指标集的维数为 $|\nu |$ ，即节点个数。

最简编码处理方式：每个节点被分配一个唯一的Embedding vector，我们可以直接优化每个节点的嵌入向量。大致做法为先优化整个embedding矩阵，然后使用指示向量获得所需节点的Embedding。下图为浅编码的框架总结：

如何定义节点相似性

定义节点相似性的可能猜想，如果节点是相似的那么

两个节点是连接的？
有共享邻居节点？
有相似的结构表示？

后面将会用随机游走算法（random walks）来定义图节点的相似性，然后优化编码方式以近似图节点的相似结果。

节点嵌入的注意事项：

学习节点嵌入是一个无监督/自监督的方法
1. 不使用节点标签
2. 不使用节点特征
3. 节点嵌入的目的是直接估计节点的坐标以保证图结构的一些方面被保留
这些嵌入是任务独立的
1. 他们并不是针对一个特定的任务来训练，所以能够在其他任务中使用。

符号说明:

        向量：节点的embedding，这是我们要找的。
        概率 $P\left( v\mid \mathbf{z}_u \right)$ ：表示从节点出发以随机游走的方式访问到节点的概率.
        下面两个分线性函数被用来生成预测概率：
        Softmax函数：将K个实值组成的向量变成一个和为1的由K个概率组成的概率向量：

$\sigma (z)_i=\frac{e^Zi}{\sum_{j=1}^K{e^{Z_j}}}$

Sigmoid函数：是一个S形状的函数，能够将实值映射成(0,1)区间的值，此函数写作:

$S(x)=\frac{1}{1+e^{-x}}$

随机游走：给定一个图和一个开始节点，我们随机挑选这个节点的邻居节点 $v_{u_i}$ ，然后移到这个邻居节点 $v_{u_i}$ ，以这个邻居节点作为开始点重复这个过程。到达一定次数之后这个过程结束。在整个过程中访问的节点序列就是图上的随机游走。如下图所示：

随机游走嵌入： $\mathbf{z}_{u}^{\mathrm{T}}\mathbf{z}_v$ 表示和同时出现在图的随机游走过程的概率。

随机游走Embedding的执行步骤：

用随机游动策略估计从节点开始的随机游走中访问节点的概率。

2.优化这些embedding来编码随机游走统计参数。用embedding 空间中的相似性（这个相似性需要专门的二元函数来计算，如简单的内积）来编码节点经过随机游走算法得出来的”相似性“.

随机游走算法的好处：

表达性强。灵活且随机的节点相似性定义能够整合节点局部和全局的邻居信息。
1. 一个朴素的认知：如果从节点开始的随机游走过程以高概率访问到节点，那么节点和节点有“很强的关系“，他们是相似的。
高效。在训练过程中不需要考虑所有的节点对，仅仅需要考虑在随机游走过程中出现的节点对。

无监督特征学习：

目的。在d维空间中，找到能够保存图节点相似性的节点嵌入。
思路。在embedding空间中临近的节点在网络中连接的紧密。
给定一个节点，如何定义节点中连接紧密的节点？
1. $N_R\left( u \right)$ 表示以随机游走策略取得的节点的邻居。

Feature Learning as Optimization

给定一个图 $G\left( V,E \right)$
目标。学习一个映射 $f:u\rightarrow \mathbb{R}^d:f(u)=\mathbf{z}_u$ .
Log-likelihood 目标：

$\mathop {\max} \limits_{f}\sum_{u\in V}{\log}P\left( N_{\mathrm{R}}(u)\mid \mathbf{z}_u \right)$

4.给定节点，我们想要在随机游走过程中取得的邻居节点集 $N_R\left( u \right)$ 中学习节点预测特征表示。

随机游走优化过程：

大致思路：

用随机游走策略以节点作为起始点执行一个短的且固定长度的随机游走过程。
$N_R\left( u \right)$ 表示的随意游走访问的节点集； $N_R\left( u \right)$ 是一个多重集（multiset），即存在重复值。这符合随机游走过程的，因此很可能对某一个节点访问多次。
优化embedding是通过对给定的节点预测他的随机游走邻居 $N_R\left( u \right)$ 来实现

$\mathop {\max} \limits_{f}\sum_{u\in V}{\log}\mathrm{P}\left( N_{\mathrm{R}}(u)\mid \mathbf{z}_u \right) \Longrightarrow Maximum\,\,likelihood\,\,objective$ . (1)

等价于：

$\mathcal{L}=\sum_{u\in V}{\sum_{v\in N_R(u)}{-}}\log \left( P\left( v\mid \mathbf{z}_u \right) \right)$ . (2)

这里（1）变成（2）仅仅是将集合写成单个元素点的形式。

Intuition: 优化嵌入来最大化似然co-occurrences随机游走。

使用softmax函数来参数化 $P\left( v\mid \mathbf{z}_u \right)$

$P\left( v\mid \mathbf{z}_u \right) =\frac{\exp \left( \mathbf{z}_{u}^{\mathrm{T}}\mathbf{z}_v \right)}{\sum_{n\in V}{\exp}\left( \mathbf{z}_{u}^{\mathrm{T}}\mathbf{z}_n \right)}$

为什么使用softmax：我们希望节点是所有N个节点中与节点最相近的，而 $\sum_i{\exp \left( x_i \right)}\approx \underset{i}{\max}\,\,\exp \left( x_i \right)$ ,即与节点最相近的占主导。

最优化随机游走嵌入等于找到使 $\mathcal{L}$ 最小的，即是的在图中与节点最相似的节点在embedding空间中内积最大使得 $P\left( v\mid \mathbf{z}_u \right) \approx 1$ .但是这个双重求和的时间复杂度为 $O\left( \left| V \right|^2 \right)$ .

下面借用负采样[1]来降低复杂度问题，具体推导过程"负采样推导过程"。

有两个关于负样本的个数k的考量

更高的k表示着更好的鲁棒性
更高的k表示着越偏向于负样本，即得出的参数偏向于保证图结构中不相似的点，在embedding空间中不临近，但是不一定保证相似的点更加靠近。在实际中一般将k取为5-20.

在取得目标函数之后采用梯度或随机梯度下降法来解优化函数。梯度下降是使用所有样本来计算梯度，计算时间长，计算量大。随机梯度下降是使用一个样本来计算梯度，时间消耗短，但是梯度计算的随机性大；一般采样mini-batch梯度下降，即梯度和随机梯度的一个折中，主要思想是从样本中抽样一定数量样本进行梯度计算。此外梯度下降使用反向传播算法来更新参数值。

随机游走算法的总结：

对图中每一个节点都执行一次short fix-length 随机游走。
经过随机游走计算每个节点的随机游走邻居多重集合 $N_R\left( u \right)$ ， $N_R\left( u \right)$ 存放的是从节点开始经过随机游走算法得到的重复样点集。
用随机梯度下降法优化embedding（使用负样本来简化计算）

$\mathcal{L}=\sum_{u\in V}{\sum_{v\in N_R(u)}{-}}\log \left( P\left( v\mid \mathbf{z}_u \right) \right)$

如何执行随机游走

到目前为止，我们讨论了对于给定的随机游走策略，如何优化所需的embedding.但是并没有说明如何执行随机游走算法！最简单的想法：对每一个节点执行定长，无偏随机游走，即DeepWalk from Perozzi et al., 2013,但是这种执行方式好像不太好，有局限性。这有个扩展Perozzi et al. 2014.

Node2vector

目标：相似的网络邻居经过节点嵌入之后他们在特征空间的坐标也是临近的。
我们将这个目标建模为最大似然优化问题，且与后续的预测任务相互独立。
Key observation: 如果节点有灵活的网络邻域概念 $N_R\left( u \right)$ ，那么将会对更加丰富的节点嵌入。
开发2阶有偏随机游走策略来生成节点的网络邻域 $N_R\left( u \right)$ . 参考Grover et al. 2016.

有偏游走：

思路：使用灵活、有偏能够平衡网络中的局部和全局概念。

下面说明两个经典的定义节点的网络邻域 $N_R\left( u \right)$ 的算法，即广度优先搜索和深度优先搜索：

两种方法的特点：

BFS：关注节点邻居的微观结构
DFS：关注节点邻居的宏观结构

下面介绍对于BFS和DFS两个重要的参数

参数应用：使用有偏的2阶随机游走研究网络邻居。如下图

随机游走在边 $\left( S_1,W \right)$ 上穿梭，现在从回到
从内部看，的邻居节点只能是 , , , 且到 , ,的距离相等，到的距离远于.

Key idea: 记住游走过程的上一个节点。

随机游走在 $\left( S_1,W \right)$ 上游荡，现在在节点处，下一步怎么走？（其中是前面提到的模型转换概率）答：使用BFS和DFS算法

BFS和DFS算法在随机游走的性质是什么？参数应该怎么选择？

BFS选择较小的 . 我的理解是因此BFS在随机游走中主要关注邻居的微观结构，不偏向于走的太远，所以更可能走重复的路径。
DFS选择较小的. 我的理解是因为DFS在随机游走中主要关注邻居的宏观结构，希望走的很深，很远，所以要避免走重复的路径，尽可能去距出发节点较远的点。

随机游走算法步骤：

计算随机游走的两个概率参数 .
对每一个节点模拟次长度为随机游走.
用随机梯度下降法优化ndoe2vec目标函数。

上述算法的特点：

线性时间复杂度
所有的3个步骤都可以独立并行计算。

其他的随机游走算法：

Different kinds of biased random walks:
1. Based on node attributes
2. Based on learned weights
Alternative optimization schemes
1. Directly optimize based on 1-hop and 2-hop random walk probabilities
Network preprocessing techniques
1. Run random walks on modified versions of the original network

Node2vec总结

核心思想:嵌入节点，使嵌入空间的距离反映原网络中节点的相似性。
节点相似度的不同概念:
1. Naïve: 2节点连接时相似
2. 邻域重叠(在第二讲中涉及)
3. 随机游走方法

总的来看随机游走算法在大多数情况下拥有比较好的性能。

Embedding Entire Graphs

目标：将子图或者整张图嵌入embedding空间。Graph embedding： .

任务：

分类有毒和无毒的分子
识别异常图。

方式一

最简单的方法：使用上面的节点嵌入方式得到所有的节点嵌入；然后对所有的节点嵌入求合或者求平均（被Duvenaud et al., 2016用来做分子分类）：

$\mathbf{z}_{\boldsymbol{G}}=\sum_{v\in G}{z_v}$

方式二

引入一个虚拟节点然后执行一个标准的图节点嵌入，将求得的虚拟节点嵌入作为整个图的嵌入（proposed by Li et al., 2016 as a general technique for subgraph embedding）。

方式三

匿名随机游走（Anonymous walk embeddings，Anonymous Walk Embeddings, ICML 2018 ）

匿名游走中的状态对应于我们在随机漫步中第一次访问该节点的索引。

匿名随机游走例子：

Step 1: node A $\Longrightarrow$ node 1

Step 2: node B $\Longrightarrow$ node 2 (different from node 1)

Step 3: node C $\Longrightarrow$ node 3 (different from node 1, 2)

Step 4: node B $\Longrightarrow$ node 2 (same as the node in step 2)

Step 5: node C $\Longrightarrow$ node 3 (same as the node in step 3)

Random walk2表示了同样的匿名随机游走结果。

游走内容的数量的大小与游走的路径长度有关。如游走长度为3，游走内容的数量为5：

匿名游走的简单使用：

设置随机游走的路径长度为
按照上面的图表得到，随机游走的内容最多为5，因此我们可以都得一个5维的向量。
$\boldsymbol{Z}_G[i]$ 表示 在整个匿名游走的过程出现的概率。

随机游走的采样

抽样匿名游走：独立的生成集合数量为的随机walks。
将图表示成这个集合上的概率分布

存在一个关键问题：我们应该采样多少次，即随机游走数量应该为多少？

New idea：learn walk embeddings

不同于简单的将游走发生的次数作为不同游走的表示，这节学习匿名游走的嵌入 .

学习图嵌入的同时学习所有匿名游走的嵌入 $Z=\left\{ z_i:i=1...\eta \right\}$ ,其中 $\eta$ 表示采样随机游走的个数。

如何嵌入walks？

思路：要得要嵌入walks要解决预测walks的任务，即给出一定数量某个节点的walks，然后利用这些walks预测下一步的walk（Anonymous Walk Embeddings, ICML 2018）。

步骤如下：

以节点原点执行T次长度为的随机游走得到 $N_R(u)=\left\{ w_{1}^{u},w_{2}^{u}...w_{T}^{u} \right\}$ .
利用采样得到的采样点，预测在 $\varDelta size$ 窗口内发生的walks（例如，给定, , $\varDelta size=1$ 预测)
估计匿名游走的嵌入， $\eta$ 是所有可能的游走嵌入数目

下面结合Anonymous Walk Embeddings, ICML 2018对上面一些我认为难理解的部分进行解释：

关于 $N_R\left( u \right)$ 的解释。 $N_R\left( u \right)$ 是以节点开始的匿名随机游走所有元素的集合。目标函数中的就是 $N_R\left( u \right)$ 中的元素。下图为使用来预测出现的概率，并计算出和图的嵌入。

此外需要说明的参数和并不是拥有相同的维数。函数 $cat\left( x,y \right)$ 表示将两个向量拼接成一个向量，简答的首尾连接 $cat\left( x,y \right) =\left[ x^T,y^T \right] ^T$ .

在得出图嵌入之后，我们可以使用来进行其他的操作如图分类

总结

我们讨论了图嵌入的3个概念：

方法1:嵌入节点并对其求和/取平均值
方法2:创建跨(子)图的超级节点，然后嵌入该节点
方法3:匿名随机游走嵌入
1. Idea 1:对匿名游走进行抽样，并用每一次匿名游走发生的次数的比例表示这个图。
2. Idea 2：嵌入匿名行走，连接它们的嵌入得到一个图嵌入

[1] https://arxiv.org/pdf/1402.3722.pdf

python+playwright 学习-91 cookies的获取保存删除相关操作上海-悠悠 playwright python
前言playwright可以获取浏览器缓存的cookie信息，可以将这些cookies信息保存到本地，还可以加载本地cookies。获取cookies相关操作在登录前和登录后分别打印cookies信息，对比查看是否获取成功。fromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:browser=p.chromium.
Python——登录后获取cookie访问页面尖叫的太阳
importrequestsurl="https://kyfw.12306.cn/otn/view/index.html"#网址首页https://kyfw.12306.cn/otn/view/index.html的cookieheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)','Cookie':'JSESSIONID=3330D
python request 获取cookies value值的方法 dianqianwei8752 python c/c++
importrequestsres=requests.get(url)cookies=requests.utils.dict_from_cookiejar(res.cookies)print(cookies[key])转载于:https://www.cnblogs.com/VseYoung/p/python_cookies.html
python连接达梦数据库方式 water bucket python 数据库 pandas
1、通过jaydebeapi调用jdbcimportpandasaspdimportjaydebeapiif__name__=='__main__':url='jdbc:dm://{IP}:{PORT}/{库名}'username='{username}'password='{password}'jclassname='dm.jdbc.driver.DmDriver'jarFile='{DmJdb
Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
Python 虚拟环境完全指南 wsj__WSJ python python 开发语言
为何离不开虚拟环境？在Python开发领域，虚拟环境堪称管理项目依赖的不二利器，其重要性体现在多个关键层面：项目隔离独立运行环境构建：为每一个项目量身打造专属的Python运行环境，使各个项目之间相互隔离，互不干扰。化解依赖版本冲突：有效解决不同项目对同一依赖包的版本需求不一致的难题。例如，项目A基于Django3.2进行开发，而项目B需要Django4.0才能正常运作，通过虚拟环境，两者可并行不
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
Ts.ED框架全面解析：基于TypeScript的现代化Node.js开发利器陆欣瑶
Ts.ED框架全面解析：基于TypeScript的现代化Node.js开发利器什么是Ts.ED框架？Ts.ED是一个基于TypeScript构建的现代化Node.js/Bun.js框架，它在Express.js/Koa.js/Fastify.js等流行HTTP服务器之上提供了更高层次的抽象。这个框架专为提高开发者体验而设计，通过丰富的装饰器和清晰的代码组织结构，让后端开发变得更加高效和愉悦。核心特
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
前端包管理工具哪家强？npm、Yarn、pnpm 大比拼 Forever丿顾北 bolg 前端 npm arcgis
前言在前端开发的世界里，包管理工具就像是我们的得力助手，帮助我们轻松管理项目中的各种依赖包。npm、Yarn和pnpm是目前最常用的三个包管理工具，它们各有千秋，也让不少小伙伴在选择时犯了难。今天，咱们就来详细唠唠这三个工具，看看谁才是最适合你的那一个！**一、npm：前端包管理的“老大哥”1.npm是什么？npm，全称NodePackageManager，是Node.js官方的包管理工具，就像N
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发