李烟云

数据挖掘导论学习笔记第六章关联分析：基本概念和算法

6.1问题定义

关联分析(association analysis) 用于发现隐藏在大型数据集中有意义的联系，所发现的联系可以用关联规则或者频繁项集的形式表示

项集和支持度计数

以购物篮数据集为例

TID	面包	牛奶	尿布	…
1	1	1	0	…
2	1	0	1	…
…
5	1	1	1	…

令 $I=\{i_1,i_2,\ldots,i_d\}$ 表示所有项的集合， $T=\{t_1,\ldots,t_N\}$ 表示所有事务的集合。在关联分析中包含0个或多个项的集合被称为项集(itemset).如果一个项集包含k个项，则称他为k-项集。事物的宽度定义为事务中出现的项的个数。项集的另一个重要性质是支持度系数，即包含特定项集的事务数，可以表示为： $\sigma(X)=|\{t_i|X \subseteq t_i,t_i\in T\}|$ 其中|·|表示为集合中元素的个数。

关联规则(association rule)

关联规则是形如 $X\to Y$ 的蕴含表达式，其中X和Y是不相交的项集。关联规则的强度可以用支持度(support)和置信度(confince)度量.支持度可以用于给定数据集的频繁程度，而置信度确定Y在包含X的事务中出现的频繁程度。 $s(X\to Y)=\frac{\sigma(X\cup Y)}{N}\\ c(X\to Y)=\frac{\sigma(X\cup Y)}{\sigma(X)}$ 支持度低的规则可能是偶然出现的，置信度低的规则Y，在出现X的事务中出现的可能性较低。

关联规则挖掘任务分解为两个子任务

频繁项集产生：发现满足最小支持度阈值的所有项集。
规则的产生：从上一步发现的频繁项集中提取所有的高置信度的规则，这些规则称为强规则。也就是说这些规则XY同时出现的概率很高

6.2频繁项集的产生

通过格结构(lattice structure)来枚举可能的项集，经过每个候补项集与事务进行比较筛选出频繁项集。
为了减少频繁项集的计算复杂度：

减少候选项集的数目。运用先验原理
减少比较次数。可以使用更高级的数据结构或者存储候选项集或者压缩数据集
这些方法在后面的章节会有讨论

6.2.1先验原理

如果一个项集是频繁的，那么他的所有子集一定也是频繁的。相反如果一个项集是非频繁的，那么他的超集一定也是非频繁的。
一旦发现一个项集是非频繁的，整个包含它的超集的子图可以被立刻剪枝。这种基于支持度度量剪枝的策略称为基于支持度的剪枝。这种策略依赖于一个关键性质，即一个项集的支持度绝不会超过它的子集的支持度

6.2.2Apriori算法的频繁项集产生

| $k = 1$
| $F_k=\{i|i\in I\land\sigma\{i\}\ge N\times minsup\}$ $(发现所有的频繁 1 - ∣ 项集)$
| $r e p e a t$
| $\quad k=k+1$
| $\quad C_k=apriori-gen(F_{k-1})$ $(产生候选项集)$
| $\quad for 每个事务t∈T do$
| $\qquad C_i=subject(C_k,t)$ $(识别属于 t 值的所有候选)$
| $\qquad for 每个候选项集c \in C_t$ do
| $\qquad \sigma(c)=\sigma(c)+1$ $(支持度计数增值)$
| $\qquad end\ for$
| $\quad end\ for$
| $\quad F_k=\{c|c\in C_k \land \sigma(c)\ge N \times minsup\}(提取频繁k-项集)$
| $until\ F_k=\phi$
| $=\cup F_k$

6.2.3候选的产生与剪枝

上述算法中有一个apriori-gen函数，它通过如下两个步骤产生候选项集

候选项集的产生。有上一次频繁项集而来
候选项集的剪枝。通过和支持度阈值比较
下面介绍几种候选产生过程：
蛮力方法：顾名思义
$F_{k-1}\times F_1$ 方法：用1-频繁项集和k-1-频繁项集产生k-候选项集
$F_{k-1}\times F_{k-1}$ 方法：合并一对(k-1)-项集，这两个项集除了最后一项前面的各项都是相同的，这样合并以后得到一个k-项集。这个方法可以保证候选项产生过程中的完全性，和使用字典序避免了重复的候选。然而由于每个候选都由一对频繁(k-1)-项集合合并而成，因此需要附加的候选剪枝步骤，用来确保该候选的其余k-2个子集是频繁的.

6.2.3 支持度计数

我们可以让每一个项集与每一个事务比较并更新支持度计数，但这样计算量太大，因此我们有另一种方法。
枚举每个事务所包含的项集，并利用他们更新对应的候选项集的支持度
枚举只需要按次序逐层进行即可。下面我们讨论一种支持度计数的方法

使用Hash进行支持度计数

在apriori算法中，把候选项集划分为不同的桶，并存放在Hash树中。树的每个内部节点都用哈希函数来确定应当沿着当前节点的那个分支向下。因此，树的叶节点存放的是候选项集。然后呢，我们再把一个事务按照哈希函数散列下去，这样事务所包含的k-项集也落入了各个桶中。在各个桶内，把候选项集与事务散列下去的项集进行比较，如果是该事物的子集，就增加它的**支持度计数。**注意这种方法不是将事务中每个项集与所有的候选项集进行比较，而是将它与同一桶内的候选项集进行匹配。
可以粗浅的理解为，事务子集与候选项集按照统一规则沿不同分支向下，最终得以完全匹配比较。建议读者对Hash树的原理进行学习，这里不做进一步讲解

6.2.5计算复杂度

Apriori算法的计算复杂度受到如下因素影响。
支持度阈值：支持度阈值越低，频繁项集越多
项数（维度）：随着项数的增加，需要更多的空间来存储项的支持度计数。频繁项集也更多
事务数：算法扫描数据集次数
事物的平均宽度：频繁项集的最大长度随之增大而增大，其次随着事务宽度的增加，事务中包含更多项集，这将增加支持度计数时Hash树遍历次数
下面分析算法的时间复杂度
1-频繁项集的产生：假定w是事物的平均宽度，则该操作所需要的时间为O(Nw)，其中N为事务总数。
候选的产生：为了产生候选k-项集，需要合并一对频繁k-1项集，确定他们是否有k-2个项相同。每次合并至多需要k-2次相等比较。合并的总开销为 $\sum_{k=2}^w(k-2)|C_k|\lt 合并开销 \lt \sum_{k=2}^{w}(k-2)|F_{k-1}|^2$ 因为最坏的情况下，第一个项集与前k-2个项集比较后都不匹配，当匹配到第k-1个时匹配，k-1个项集中的每个项集都匹配k-1次
Hash树在候选产生时构造，以存放候选集。由于Hash树最大深度为k，将候选项集散列到Has树的开销为 $O(\sum_{k=2}^{w}k|C_k|)$ .由于在Hash树上查找一个候选的花费是 $O (k)$ ,在候选项剪枝过程中，需要检验每个候选k-项集的k-2个子集是否频繁。因此,候选剪枝需要的时间是:
$O(\sum_{k=2}^wk(k-2)|C_k|)$
支持度计数：支持度计数的总开销为 $O(N\sum_kC_w^k\alpha_k)$ ,其中w是事物的最大宽度， $\alpha_k$ 是更新哈希树中一个候选k-项集的支持度计数的开销

6.3 规则产生

本节介绍如何有效地从给定的频繁项集中提取关联规则。关联规则提取的方式之一是：把频繁项集一分为二，使得X→Y-X满足置信度阈值

6.3.1置信度剪枝

定理：如果规则X→Y-X不满足置信度阈值，那么X’→Y-X’也不满足，其中X‘是X的一个子集。

6.3.2Apriori算法中规则的产生

伪代码

$A p r i p r i 算法中规则的产生$
$for\ 每一个频繁k-项集f_k,k\ge2,do$
$\quad H_i=\{i|i\in f_k\}\qquad \{规则的1-项后件\}$
$\quad call\ ap-genrules(f_k,H_1)$
$e n d f o r$

$ap-genrules(f_k,H_m)函数步骤$
$k=|f_k| \qquad\{频繁项集的大小\}$
$m=|H_m|\qquad \{规则后件的大小\}$
$if\ k\gt m+1\ then$
$\quad H_{m+1}=apriori-gen(H_m)\qquad\{候选项集产生\}$
$\quad for\ 每个h_{m+1}\in H_{m+1} do$
$\qquad conf=\sigma(f_k)/\sigma(f_k-h_{m+1})$
$\qquad if\ conf\ge minconf\ then$
$\qquad \quad output:规则(f_k-h_{m+1})\to h_{m+1}$
$\qquad else$
$\qquad \quad 从H_{m+1}\ delete\ h_{m+1}$
$\qquad end\ if$
$\quad end for$
$\quad call ap-genrules(f_k,H_{m+1})$
$end\ if$

6.4 频繁项集的紧凑表示

6.4.1 极大频繁项集

定义：极大频繁项集（maximal frequent itemset）的直接超集都不是频繁的。
极大频繁项集形成了所有频繁项集的最小的项集的集合。它提供了频繁项集的边界。如果我们找到一种算法，可以直接发现极大频繁项集而不需要枚举它所有的子集，那么它能极大的减少计算量，事实证明我们可以找到，在后文将会提到。

6.4.2闭频繁项集

定义：闭项集(closed itemset)，它的直接超集都不具有和它相同的支持度计数。换句话说，如果至少存在一个X的直接超集，其支持度计数与X相同，X就不是闭的。
定义：闭频繁项集指一个项集是闭的而且支持度大于等于最小支持度阈值。
我们可以使用闭频繁项集来进行”从特殊到一般“的支持度计数。
下面给出伪代码

$设 C 是闭频繁项集的的集合$
$设k_{max}是闭频繁项集的最大长度$
$F_{k_{max}}=\{f|f\in C,|f|=k_{max} \}\\\%\{找出长度为k_{max}的所有频繁项集,从特殊到一般\}$
$for\ k=k_{max}-1\ downto\ 1\ do$
$\quad F_k=\{f|f\subset F_{k+1},|f|=k\}\\\quad\%\{找出长度为k的所有频繁项集\}$
$\quad 每个f\in F_k\ do$
$\qquad if\ f\notin C\ then$
$\qquad \quad f.support=max\{f'.support|f' \in F_{k+1},f\subset f'\}$
$\qquad \quad\%\{非闭频繁项集的支持度一定等于它的超集的最大支持度\}$
$\qquad end\ if$
$\quad end for$
$e n d f o r$

值得一提的是，如果使用闭频繁集产生规则，则不会产生冗余规则。
冗余规则：对于关联规则X’→Y’，如果和另一个规则X→Y的支持度和置信度都相同，其中X‘是X的子集，Y’是Y的子集，我们称关联规则X→Y是荣誉的。
最后我们总结出一个包含关系。
频繁项集包括闭频繁项集包括极大频繁项集

6.5产生频繁项集的其他方法

对于稠密数据集，由于事务和数据宽度增加，Apriori算法性能显著降低。我们下面简略描述一些替代方法
项集格遍历：概念上我们可以把频繁项集的搜索看做遍历项集格。根据频繁项集在格中的布局，我们需要灵活采取不同的搜索策略。

从一般到特殊与从特殊到一般。Apriori算法采用从一般到特殊，可以理解为从上到下搜索，但如果项集格的频繁项集边界在较下方位置，则开销较大。因此我们可以使用从下到上的策略搜索。此外，我们还可以结合从一般到特殊和从特殊到一般的双向搜索策略，这种策略对特定的布局有奇效。
等价类：先将格化分为两个不相交的结点组（即等价类）.频繁项集产生算法依次在每个等价类内搜索频繁项集。
宽度优先与深度优先：Apriori算法即宽度优先。我们主要介绍深度优先，深度优先从第一个节点(比如是a)开始，判断是否频繁，如果是向下扩展，直到到达一个非频繁结点，然后回溯到下一个分支继续搜索。深度优先搜索算法用于发现极大频繁项集。这种算法比宽度优先更快，因为它一旦发现一个极大频繁项集就可以在他的子集上进行剪枝。
事务数据集的表示。大多数算法包括Apriori算法使用水平数据布局。而另一种方法是垂直数据布局，这种布局可以压缩数据，节约空间。下面就介绍一种有效方法

6.6 FP增长算法

该算法不同于Apriori算法，它使用一种称作FP树的紧凑数据结构组织数据，并从该结构中提取频繁项集。

6.6.1FP树表示法

FP树是一种输入数据的压缩表示，他通过逐个读入事务，并把事务映射到FP树中的一条路径来构造。由于不同的事务有相同的项，因此路径可能重叠，重叠越多，压缩的效果越好。如果FP树足够小，能够存放到内存中，就可以直接从这个内存中的结构提取频繁项集，而不必重复的扫描存放在硬盘上的数据。

具体的构造方法不在此赘述，请点击此处进一步学习

6.6.2 FP增长算法的频繁项集的产生

FP增长是一种自底向上方式探索树。这种用于发现以某一个特定项结尾的频繁项集的自底向上策略等价于6.5节介绍的基于后缀的方法。
由于每个事务都映射到FP树中的一条路径，因而通过仅考察特定节点（比如e）的路径，就可以发现以e结尾的频繁项集。使用与e结点相关联的指针，可以快速访问这些路径。
FP增长采用的分治策略将一个问题分解为较小的子问题，从而发现以某个特定后缀结尾的所有频繁项集。
以考察所有以e结尾的频繁项为例

第一步收集包含e结点的所有路径，这些初始路径称为前缀路径(prefix path)
包含e结点的路径数有三条因此{e}的支持符为3，假设最小支持度为2，因此{e}是频繁项集
由于{e}是频繁项集，我们进一步考察de，ce结尾的频繁项集。首先需要把前缀路径转化为条件FP树。条件FP树通过以下步骤得到。
(a)必须更新前缀路径的支持度计数，以图中null-b-c-e路径为例，我们要将它的支持度计数更新为1，以表示包含{b,c,e}的事务的实际个数
(b)删除e结点，修剪前缀路径
©更新沿前缀路径的支持度计数之后，某些项可能不再是频繁的。比如b点只出现了1次，意味着只有一个事务同时包含be，因此b点可以忽略
通过e的条件FP树来发现de，ce，be，ae的条件树

这解释了FP增长算法中的分治方法，每一次递归都要通过更新前缀路径中的支持度计数和删除非频繁的项来构建条件FP树。
FP树增长是一个有趣的算法，他展示了如何使用事务数据集的压缩表示来有效地产生频繁项集。压缩的越狠算法越快，它可能比Apriori算法快好几个数量级。

6.7关联模式的评估

仅凭借支持度和置信度可以产生合乎标准的模式数以千计，因此我们需要更有用的评估标准来筛选优质的模式。
第一组标准可以通过统计论据建立。涉及相互独立的项或覆盖少量事务的模式被认为是不令人感兴趣的，因为他们可能反映数据中的伪联系。这些模式可以使用客观兴趣度量来排除，比如支持度、置信度和相关性
第二组标准可以通过主观论据建立。即模式被主观的认为是无趣的，除非他能够结实料想不到的信息。
比如通过可视化、基于模板的方法、主观兴趣度度量等方法

6.7.1兴趣度的客观度量

客观度量常常基于相依表中列出的频度来计算

	$B$	$\bar{B}$
$A$	$f_{11}$	$f_{10}$	$f_{1+}$
$\bar{A}$	$f_{01}$	$f_{00}$	$f_{0+}$
	$f_{+1}$	$f_{+0}$	N

置信度的缺点，就是置信度度量忽略了规则后件中项集的支持度
为了避免支持度置信度框架的局限性，我们介绍一些其他的度量;

兴趣因子为解决置信度度量忽略了规则后件中出现的项集的支持度，高置信度规则可能出现误导的问题。引入一种称作提升度(lift)的度量：
$lift(A\to B)=\frac{c(A\to B)}{s(B)}$ 它计算规则置信度和规则后件中项集的支持度之间的比率。对于二元变量，提升度等价于另一种称作兴趣因子的客观度量定义如下： $I(A,B)=\frac{s(A,B)}{s(A)\times s(B)}=\frac{Nf_{11}}{f_{1+}f_{+1}}$ 兴趣因子比较模式的频率与统计假定下计算的基线频率。对于两相互个独立的变量，基线频率为：
$\frac{f_{11}}{N}=\frac{f_{1+}}{N}\times \frac{f_{+1}}{N}$ 该算式从使用简单比例作为概率估计的标准方法得到。左边是联合概率P(A,B)的估计，右边分别是P(A),P(B)的估计。兴趣因子可做如下解释：如果 $I (A, B)$ 等于1则是独立的，大于1是正相关的，小于1是负相关的。

相关分析：对于二元变量，相关度可以用 $\phi$ 系数度量 $\phi=\frac{f_{11}f_{00}-f_{01}f_{10}}{\sqrt{f_{1+}f_{+1}f_{0+}f_{+0}}}$
相关分析的局限性在于它把项在事务中同时出现和同时不出现看做同等重要。

IS度量同于处理非对称二元变量。度量定义如下：
$IS(A,B)=\sqrt{I(A,B)\times s(A,B)}=\frac{s(A,B)}{\sqrt{s(A)s(B)}}$ 当模式的兴趣因子和模式支持度都很大时IS也很大。
可以证明IS在数学上等价与二元变量的余弦度量。也可以表示为从一对二元变量中提取出的关联规则的置信度的几何均值：
$IS(A,B)=\sqrt{ \frac{s(A,B)}{s(A)}\times \frac{s(A,B)}{s(B)}}=\sqrt{c(A\to B)\times c(B\to A)}$
IS度量的局限性：一对相互独立的A，B及时不相关或负相关的模式，IS值也有可能很大。

1.其他客观兴趣度度量

其中如果度量M是对称的，那么M(A→B)=M(B→A)

2.客观度量的一致性

对同一组实例，不同的度量值可能会有不同的秩

3.客观度量的性质

反演性：客观度量M在反演操作下是不变的。反演指反转位向量。
零加性：客观度量M在零加操作下是不变的，如果增加 $f_{00}$ 而保持相依表中所有其他频度不变并不影响M值。
缩放不变性：客观度量M在行、列缩放操作下是不变的。
不同的度量值具有某种性质，在应用是要注意讨论，选择最适合的度量值。
辛普森悖论：在某些情况下，隐藏的变量可能会导致观察到的一对变量之间的联系出现不一样的结果（即没有对条件考虑全面）；数据需要适当的分层，考虑到更现实的条件才能得到正确的结论

6.8倾斜支持度分布的影响

倾斜支持度对关联分析算法的性能和提取模式的质量有重要影响。
倾斜支持度分布：但大多数项具有低频率，少数项具有很高的频率
规则也是对项的一种相关关系的度量
交叉支持模式：高频项和低频项相关联的虚假模式，其间的相关关系很小，但是支持度阈值的降低使其模式被挖掘；置信度很难区别从是否为交叉支持模式中提取的规则
支持度模式是一个项集X={i1,i2,…ik} $r(X)=\frac{min[s(i_1),...,s(i_k)]}{max[s(i_1),...,s(i_k)]}$ 小于值得的阈值 $h_c$
我们可以通过检查由给定项集提取的最低置信度规则来检测交叉支持模式。从频繁项集得到的最低置信度为：
$\frac{s({i_1,\ldots,i_k})}{max[s(i_1),\ldots,s(i_k)]}$ 这个表达式又称h置信度或全置信度，通过确保模式的h置信度超过 $h_c$ 就可以消除交叉支持模式，此外，h置信度能够去报项集中的项之间是强关联的。

36.FFmpeg学习笔记 - ffplay源码解读4之解码线程 whoyouare888 FFmpeg
本篇说一下解码线程。在stream_component_open函数中，分别创建了一个视频解码线程和音频解码线程：staticintstream_component_open(VideoState*is,intstream_index){...switch(avctx->codec_type){caseAVMEDIA_TYPE_AUDIO:...if((ret=decoder_start(&is-
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
STM32F103C8T6驱动HC-SR04超声波模块测距打印在串口上单片机阿伟单片机嵌入式硬件 stm32
引言HC-SR04超声波测距模块因其成本低、精度高、使用简单，被广泛应用于机器人避障、液位检测等领域。本文将结合STM32F103C8T6的驱动代码，详细解析HC-SR04的工作原理及实现方法，帮助开发者快速上手。源码链接：https://share.weiyun.com/RJG4fPjyHC-SR04模块工作原理触发信号：向Trig引脚发送至少10μs的高电平脉冲，触发模块发射8个40kHz超声
数据结构与算法之栈: LeetCode 3100. 换水问题 II (Ts版) Wang's Blog Data Structure and Algorithms leetcode 算法
换水问题II给你两个整数numBottles和numExchange。numBottles代表你最初拥有的满水瓶数量。在一次操作中，你可以执行以下操作之一：喝掉任意数量的满水瓶，使它们变成空水瓶。用numExchange个空水瓶交换一个满水瓶。然后，将numExchange的值增加1。注意，你不能使用相同的numExchange值交换多批空水瓶。例如，如果numBottles==3并且numExc
linux 安装python 3.10 处女座_三月 python linux 运维服务器
1下载对应的安装包下载地址：https://download.csdn.net/download/weixin_43401380/885196692上传服务器1步骤1:解压文件tar-xzfPython-3.10.13.tgz2步骤2:创建安装目录mkdirlocal3开始安装1安装gcc：你需要安装gcc，这是GNU编译器集合的一部分，用于编译C程序。执行以下命令来安装gcc：sudoaptup
代码随想录算法训练营Day51 | 101.孤岛的总面积、102.沉没孤岛、103.水流问题、104.建造最大岛屿 Harryline-lx 代码随想录算法深度优先
文章目录101.孤岛的总面积思路与重点102.沉没孤岛思路与重点103.水流问题思路与重点104.建造最大岛屿思路与重点101.孤岛的总面积题目链接：101.孤岛的总面积讲解链接：代码随想录状态：直接看题解了。思路与重点nextx或者nexty越界了则说明当前的x或y处于边界处，所以当前的岛不是孤岛，不能记入总面积。#include#includeusingnamespacestd;intdir[
《语音识别模式、算法设计与实践》——第一章语音识别概述静候光阴语音识别语音识别人工智能 python
专栏总目录1.1走进语音识别1.1.1语音识别的定义定义：语音识别是让机器具备自动接收和分析人类的语音，并最终输出对应文本的过程。目标：将输入语音转化为文字的输出目标实现条件：提前规定好该系统可以接收的语音输入形式，比如单个词、命令短语和连续语音。对应的文本输出形式，可以直接翻译出来的对应文本，也可以是经过编码的特殊字符，比如组成发音的基本单位——音素。由此可知，系统的输入和输出不同，决定了语音识
多维多重背包问题_各种背包五（二维费用背包问题） zLiM5 多维多重背包问题
问题二维费用的背包问题是指：对于每件物品，具有两种不同的费用；选择这件物品必须同时付出这两种代价；对于每种代价都有一个可付出的最大值(背包容量)。问怎样选择物品可以得到最大的价值。设这两种代价分别为代价1和代价2，第i件物品所需的两种代价分别为a[i]和b[i]。两种代价可付出的最大值(两种背包容量)分别为V和U。物品的价值为w[i]。算法费用加了一维，只需状态也加一维即可。设f[i][v][u]
【二维费用的完全背包问题】羊毛多一点算法学习动态规划
前言简单写一下算法设计与分析这门课的一次实验原题要求是用0-1背包来做，但是老师要求用完全背包来做！一、完全背包与0-1背包有什么区别？0-1背包，顾名思义对于每件物品只能拿1次或者0次；而完全背包对于每件物品的拿取没有次数限制。二、二维费用背包二维费用背包是对于每件物品的拿取要付出两项代价，如：重量和体积。三、0-1背包理解0-1背包对我们理解其他背包问题十分重要，首先说一下0-1背包。问题描述
【数据结构与算法】力扣 5. 最长回文子串秀秀_heo 数据结构与算法 leetcode 算法职场和发展
题目描述5.最长回文子串给你一个字符串s，找到s中最长的回文子串。示例1：输入：s="babad"输出："bab"解释："aba"同样是符合题意的答案。示例2：输入：s="cbbd"输出："bb"提示：1=0&&rightmaxLen){start=oddStart;maxLen=oddLen;}//处理偶数长度回文let[evenStart,evenLen]=expandAroundCenter
探索Web3世界：算法与挖矿详解 Java先进事迹 web3 算法
哈希算法：区块链的“数字指纹”区块链的结构类似于链表，数据块一个连着一个，链接在一条或多条链上。每个数据块都至少记录着数据、自己的地址和前一个数据块的地址。每个数据块的“地址”的编码都是独一无二的，通过一种称为哈希算法的技术生成。哈希算法能够将任意长度的数据映射为一个固定长度的唯一编码（哈希值）。即使输入数据发生微小变化，生成的哈希值也会截然不同。我们可以将哈希算法比作一台神奇的调色机。无论你放入
Tiff文件解析和PackBits解压缩 vcshcn ui Tiff PackBits
实现了Tiff图片文件格式的解析，对Tiff文件中的PackBits压缩格式进行解压缩，对Tiff文件中每一个Frame转换成BufferedImage显示。Java语言实现，Eclipse下开发，AWT显示图片。publicstaticTIFFParse(finalbyte[]bytes)throwsIllegalAccessException{BinaryBufferis=newBinaryB
组合导航中Kalman滤波算法相关知识简述十八与她捷联惯导算法与组合导航原理算法机器学习人工智能组合导航惯导
组合导航中Kalman滤波算法相关知识简述温馨提示：阅读本篇博文内容，需要读者具备一定的Kalman滤波基础知识上图即为Kalman滤波算法的框架，分为预测（时间更新）和更新（量测更新）两部分，其参数估计的过程就是两者循环迭代的过程。预报，就是根据系统状态方程，从前一时刻状态预测当前时刻的状态的过程，可理解成对系统的先验知识的一种推算。预报中，状态估计和它的方差协方差阵也要给出，从方差协方差阵P的
[利用Python加载和处理网址内容：从Unstructured到Selenium和Playwright] bhawfgrcbtwny python selenium 开发语言
引言在现代网页数据分析中，加载和处理来自多种网址的内容是一个常见需求。无论是数据挖掘还是网页内容分析，我们常常需要从多个网页中提取HTML文档。本篇文章将介绍如何利用Python中的Unstructured、Selenium和Playwright库来加载这些网页内容，并将其转换为适合后续处理的文档格式。主要内容UnstructuredURLLoaderUnstructuredURLLoader可以
基于DQ轴谐波提取器的PMSM谐波抑制算法仿真研究：主动注入谐波电压与SVPWM调制策略的效果分析 BIdOeVNkOZSO 算法单片机嵌入式硬件
PMSM谐波抑制算法基于DQ轴谐波提取器的永磁同步电机仿真1.通过谐波提取器，直接提取DQ轴的谐波分量进行抑制，对五七次谐波电流抑制效果效果很好。2.为了放大效果，采用主动注入谐波电压的方法，增大了电机中的谐波分量。3.调制算法采用SVPWM，电流环处搭建了解耦补偿模块，控制效果更好。YID:799786174661444甜水井朴素的梭子蟹永磁同步电机仿真：PMSM谐波抑制算法的探索与实现在电力电
GEE python——gee_pyccd基于连续监测变化检测（Continuous Change Detection and Classification, CCDC）此星光明 GEE-PYTHON python 开发语言 gee ccdc 变化检测 py 连续性
目录简介gee_pyccdPyCCDCCDC算法代码1代码2结果简介gee_pyccd协调在GoogleEarthEngine数据上使用PyCCD的脚本。此存储库与Google或USGS没有正式关联。gee_pyccd是一个基于GoogleEarthEngine平台的Python库，用于对遥感时间序列数据进行变化检测和趋势分析。它实现了基于连续监测变化检测（ContinuousChangeDete
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
单词搜索--回溯算法 jump_into_zehe 回溯算法字符串
LeetCode单词搜索给定一个二维网格board和一个字典中的单词列表words，找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序，通过相邻的单元格内的字母构成，其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中不允许被重复使用。示例：输入:words=["oath","pea","eat","rain"]andboard=[['o','a','a
LeetCode：53.最大子序和 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java 动态规划
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录LeetCode：53.最大子序和给你一个整数数组nums，请你找出一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。子数组是数组中的一个连续部分。示例1：输入：nums=[-2,1,-3,4,-1,2,1,-5,4]输出：6解释：连续子数组[4,-1,2,1]的和最大，为6。
智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法神经网络人工智能
智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割文章目录智能优化算法应用：天鹰算法优化脉冲耦合神经网络的图像自动分割1.天鹰算法2.PCNN网络3.实验结果4.参考文献5.Matlab代码摘要：本文利用天鹰算法对脉冲耦合神经网络的参数进行优化，以信息熵作为适应度函数，提高其图像分割的性能。1.天鹰算法天鹰算法原理请参考：https://blog.csdn.net/u011835903/
无需标定板！Galibr：无需目标的LiDAR相机外参标定新方法计算机视觉工坊 3D视觉从入门到精通数码相机自动驾驶
编辑：3DCV添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程(星球成员免费学习)、最新顶会论文、3D视觉最新模组、3DGS系列(视频+文档)、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！写在前面这篇文章
【Python如何安装geopandas库】破壳的小企鹅 Python笔记 python
问题描述python原生环境安装geopandas报错：pipisbeinginvokedbyanoldscriptwrapper.Thiswillfailinafutureversionofpip原因分析：提示：安装geopandas需要几个依赖库：GDAL、Fiona、shapely等。解决方案：提示：这里填写该问题的具体解决方案：1、安装GDALpipinstallD:\GDAL-3.1.4
带你从入门到精通——Python（十一. 闭包、装饰器和深浅拷贝）梦想是成为算法高手 Python python 开发语言
建议先阅读我Python专栏中的前置博客，掌握一定的Python前置知识后再阅读本文，链接如下：Python_梦想是成为算法高手的博客-CSDN博客目录十一.闭包、装饰器和深浅拷贝11.1闭包11.1.1作用域11.1.2闭包概述11.1.3global关键字和nonlocal关键字11.2装饰器11.2.1装饰器概述11.2.2装饰器的使用方法11.2.3带参数的语法糖装饰器11.3深浅拷贝11
线性回归的简单实现 SkaWxp 深度学习深度学习机器学习 mxnet gluon
本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了mxnet中的自动求导和数组结构frommxnetimportautograd,ndimportrandom生成随机数据集只有这个是用了自己造的数据，因为线
AtCoder备赛刷题 ABC 383 | 9 Divisors 热爱编程的通信人算法
学习C++从娃娃抓起！记录下AtCoder（日本算法竞技网站）备赛学习过程中的题目，记录每一个瞬间。附上汇总贴：AtCoder备赛刷题|汇总【题目描述】FindthenumberofpositiveintegersnotgreaterthanNNNthathaveexactly999positivedivisors.找到不大于NNN且恰好有999个因数的正整数的数量。【输入】Theinputisg
蓝桥杯python基础算法（2-2）——基础算法（C）——递归 X _X Python Lanqiao 算法
四、递归递归出口：这是递归过程中的终止条件，防止函数无限制地调用自身。当前问题如何变成子问题：这是递归函数中最重要的部分，即如何将当前问题逐步简化为更小的子问题。例题-汉诺塔Hanoi塔由n个大小不同的圆盘和三根木柱a,b,c组成。开始时，这n个圆盘由大到小依次套在a柱上，如图所示。要求把a柱上n个圆盘按下述规则移到c柱上：(1)一次只能移一个圆盘；(2)圆盘只能在三个柱上存放；(3)在移动过程中
算法随笔_35: 每日温度程序趣谈算法 python 数据结构
上一篇:算法随笔_34:最后一个单词的长度-CSDN博客=====题目描述如下:给定一个整数数组temperatures，表示每天的温度，返回一个数组answer，其中answer[i]是指对于第i天，下一个更高温度出现在几天后。如果气温在这之后都不会升高，请在该位置用0来代替。示例1:输入:temperatures=[73,74,75,71,69,72,76,73]输出: [1,1,4,2,1,
算法随笔_36: 复写零程序趣谈算法 python 数据结构
上一篇:算法随笔_35:每日温度-CSDN博客=====题目描述如下:给你一个长度固定的整数数组arr，请你将该数组中出现的每个零都复写一遍，并将其余的元素向右平移。注意：请不要在超过该数组长度的位置写入元素。请对输入的数组就地进行上述修改，不要从函数返回任何东西。示例1：输入：arr=[1,0,2,3,0,4,5,0]输出：[1,0,0,2,3,0,0,4]解释：调用函数后，输入的数组将被修改为
Istio Ambient 妙用 network namespace 实现跨 pod 集线器 container
所谓Sidecarless的IstioAmbient，严格来说，是由sidecarcontainerofpod变成sidecarpodofpodsonaworkernode。注意，这里我引入一个词：sidecarpod。要实现同一workernode上的pod共享一个sidecarpod，就要解决把所有pod的流量导向到sidecarpod的问题。这个问题的解决方案，在IstioAmbient开发
算法随笔_30: 去除重复字母程序趣谈算法 python 数据结构
上一篇:算法随笔_29:最大宽度坡_方法3-CSDN博客=====题目描述如下:给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例1：输入：s="bcabc"输出"abc"=====算法思路:首先我们考虑第一个条件:如何去掉字符串中重复的字母？这个比较简单。我们可以新开辟一个同样长度的新数组s_new来存储最后的
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

数据挖掘导论学习笔记 第六章 关联分析：基本概念和算法