mofengluo

hash算法原理详解

一.概念

哈希表就是一种以键-值(key-indexed) 存储数据的结构，我们只要输入待查找的值即key，即可查找到其对应的值。

哈希的思路很简单，如果所有的键都是整数，那么就可以使用一个简单的无序数组来实现：将键作为索引，值即为其对应的值，这样就可以快速访问任意键的值。这是对于简单的键的情况，我们将其扩展到可以处理更加复杂的类型的键。

使用哈希查找有两个步骤:

1. 使用哈希函数将被查找的键转换为数组的索引。在理想的情况下，不同的键会被转换为不同的索引值，但是在有些情况下我们需要处理多个键被哈希到同一个索引值的情况。所以哈希查找的第二个步骤就是处理冲突

2. 处理哈希碰撞冲突。有很多处理哈希碰撞冲突的方法，本文后面会介绍拉链法和线性探测法。

哈希表是一个在时间和空间上做出权衡的经典例子。如果没有内存限制，那么可以直接将键作为数组的索引。那么所有的查找时间复杂度为O(1)；如果没有时间限制，那么我们可以使用无序数组并进行顺序查找，这样只需要很少的内存。哈希表使用了适度的时间和空间来在这两个极端之间找到了平衡。只需要调整哈希函数算法即可在时间和空间上做出取舍。

在Hash表中，记录在表中的位置和其关键字之间存在着一种确定的关系。这样我们就能预先知道所查关键字在表中的位置，从而直接通过下标找到记录。使ASL趋近与0.

1) 哈希(Hash)函数是一个映象，即：将关键字的集合映射到某个地址集合上，它的设置很灵活，只要这个地址集合的大小不超出允许范围即可；

2) 由于哈希函数是一个压缩映象，因此，在一般情况下，很容易产生“冲突”现象，即： key1！=key2，而 f (key1) = f(key2)。

3). 只能尽量减少冲突而不能完全避免冲突，这是因为通常关键字集合比较大，其元素包括所有可能的关键字，而地址集合的元素仅为哈希表中的地址值

在构造这种特殊的“查找表” 时，除了需要选择一个“好”(尽可能少产生冲突)的哈希函数之外；还需要找到一种“处理冲突” 的方法。

二.Hash构造函数的方法

1.直接定址法：

直接定址法是以数据元素关键字k本身或它的线性函数作为它的哈希地址，即：H（k）=k 或 H（k）=a×k+b ； (其中a,b为常数)

例1，有一个人口统计表，记录了从1岁到100岁的人口数目，其中年龄作为关键字，哈希函数取关键字本身，如图(1)：

地址	A₁	A₂	……	A₉₉	A₁₀₀
年龄	1	2	……	99	100
人数	980	800	……	495	107

可以看到，当需要查找某一年龄的人数时，直接查找相应的项即可。如查找99岁的老人数，则直接读出第99项即可。

地址	A0	A1	……	A₉₉	A₁₀₀
年龄	1980	1981	……	1999	2000
人数	980	800	……	495	107

如果我们要统计的是80后出生的人口数，如上表所示，那么我们队出生年份这个关键字可以用年份减去1980来作为地址，此时f(key)=key-1980

这种哈希函数简单，并且对于不同的关键字不会产生冲突，但可以看出这是一种较为特殊的哈希函数，实际生活中，关键字的元素很少是连续的。用该方法产生的哈希表会造成空间大量的浪费，因此这种方法适应性并不强。^[2]↑

此法仅适合于：地址集合的大小 = = 关键字集合的大小，其中a和b为常数。

2.数字分析法：

假设关键字集合中的每个关键字都是由 s 位数字组成 (u₁, u₂, …, u_s)，分析关键字集中的全体，并从中提取分布均匀的若干位或它们的组合作为地址。

数字分析法是取数据元素关键字中某些取值较均匀的数字位作为哈希地址的方法。即当关键字的位数很多时，可以通过对关键字的各位进行分析，丢掉分布不均匀的位，作为哈希值。它只适合于所有关键字值已知的情况。通过分析分布情况把关键字取值区间转化为一个较小的关键字取值区间。

例2，要构造一个数据元素个数n=80,哈希长度m=100的哈希表。不失一般性，我们这里只给出其中8个关键字进行分析，8个关键字如下所示：

K1=61317602 K2=61326875 K3=62739628 K4=61343634

K5=62706815 K6=62774638 K7=61381262 K8=61394220

分析上述8个关键字可知，关键字从左到右的第1、2、3、6位取值比较集中，不宜作为哈希地址，剩余的第4、5、7、8位取值较均匀，可选取其中的两位作为哈希地址。设选取最后两位作为哈希地址，则这8个关键字的哈希地址分别为：2，75，28，34，15，38，62，20。

此法适于:能预先估计出全体关键字的每一位上各种数字出现的频度。

3.折叠法：

将关键字分割成若干部分，然后取它们的叠加和为哈希地址。两种叠加处理的方法：移位叠加:将分割后的几部分低位对齐相加；边界叠加:从一端沿分割界来回折叠，然后对齐相加。

所谓折叠法是将关键字分割成位数相同的几部分（最后一部分的位数可以不同），然后取这几部分的叠加和（舍去进位），这方法称为折叠法。这种方法适用于关键字位数较多，而且关键字中每一位上数字分布大致均匀的情况。

折叠法中数位折叠又分为移位叠加和边界叠加两种方法，移位叠加是将分割后是每一部分的最低位对齐，然后相加；边界叠加是从一端向另一端沿分割界来回折叠，然后对齐相加。

例4，当哈希表长为1000时，关键字key=110108331119891，允许的地址空间为三位十进制数，则这两种叠加情况如图：

移位叠加边界叠加

8 9 1 8 9 1

1 1 9 9 1 1

3 3 1 3 3 1

1 0 8 8 0 1

+ 1 1 0 + 1 1 0

(1) 5 5 9 (3)0 4 4

图（2）由折叠法求哈希地址

用移位叠加得到的哈希地址是559，而用边界叠加所得到的哈希地址是44。如果关键字不是数值而是字符串，则可先转化为数。转化的办法可以用ASCⅡ字符或字符的次序值。

此法适于：关键字的数字位数特别多。

4.平方取中法

这是一种常用的哈希函数构造方法。这个方法是先取关键字的平方，然后根据可使用空间的大小，选取平方数是中间几位为哈希地址。

哈希函数 H(key)=“key²的中间几位”因为这种方法的原理是通过取平方扩大差别，平方值的中间几位和这个数的每一位都相关，则对不同的关键字得到的哈希函数值不易产生冲突，由此产生的哈希地址也较为均匀。

例5，若设哈希表长为1000则可取关键字平方值的中间三位，如图所示：

关键字	关键字的平方	哈希函数值
1234	1522756	227
2143	4592449	924
4132	17073424	734
3214	10329796	297

下面给出平方取中法的哈希函数

//平方取中法哈希函数，结设关键字值32位的整数

//哈希函数将返回key * key的中间10位

Int Hash (int key)

{

//计算key的平方

Key * = key ;

//去掉低11位

Key>>=11;

// 返回低10位（即key * key的中间10位）

Return key %1024;

}

此法适于:关键字中的每一位都有某些数字重复出现频度很高的现象

5.减去法

减去法是数据的键值减去一个特定的数值以求得数据存储的位置。

例7，公司有一百个员工，而员工的编号介于1001到1100，减去法就是员工编号减去1000后即为数据的位置。编号1001员工的数据在数据中的第一笔。编号1002员工的数据在数据中的第二笔…依次类推。从而获得有关员工的所有信息，因为编号1000以前并没有数据，所有员工编号都从1001开始编号。

6.基数转换法

将十进制数X看作其他进制，比如十三进制，再按照十三进制数转换成十进制数，提取其中若干为作为X的哈希值。一般取大于原来基数的数作为转换的基数，并且两个基数应该是互素的。

例Hash(80127429)=(80127429)₁₃=8*13⁷+0*13⁶+1*13⁵+2*13⁴+7*13³+4*13²+2*13¹+9=(502432641)₁₀如果取中间三位作为哈希值，得Hash（80127429）=432

为了获得良好的哈希函数，可以将几种方法联合起来使用，比如先变基，再折叠或平方取中等等，只要散列均匀，就可以随意拼凑。

7.除留余数法：

假设哈希表长为m，p为小于等于m的最大素数，则哈希函数为

h（k）=k % p ，其中%为模p取余运算。

例如，已知待散列元素为（18，75，60，43，54，90，46），表长m=10，p=7，则有

h(18)=18 % 7=4 h(75)=75 % 7=5 h(60)=60 % 7=4

h(43)=43 % 7=1 h(54)=54 % 7=5 h(90)=90 % 7=6

h(46)=46 % 7=4

此时冲突较多。为减少冲突，可取较大的m值和p值，如m=p=13，结果如下：

h(18)=18 % 13=5 h(75)=75 % 13=10 h(60)=60 % 13=8

h(43)=43 % 13=4 h(54)=54 % 13=2 h(90)=90 % 13=12

h(46)=46 % 13=7

此时没有冲突，如图8.25所示。

0 1 2 3 4 5 6 7 8 9 10 11 12

除留余数法求哈希地址

理论研究表明，除留余数法的模p取不大于表长且最接近表长m素数时效果最好，且p最好取1.1n～1.7n之间的一个素数（n为存在的数据元素个数）

8.随机数法：

设定哈希函数为:H(key) = Random(key)其中，Random 为伪随机函数

此法适于：对长度不等的关键字构造哈希函数。

实际造表时，采用何种构造哈希函数的方法取决于建表的关键字集合的情况(包括关键字的范围和形态)，以及哈希表长度（哈希地址范围），总的原则是使产生冲突的可能性降到尽可能地小。

9．随机乘数法

亦称为“乘余取整法”。随机乘数法使用一个随机实数f,0≤f<1,乘积f*k的分数部分在0～1之间，用这个分数部分的值与n（哈希表的长度）相乘，乘积的整数部分就是对应的哈希值，显然这个哈希值落在0～n-1之间。其表达公式为：Hash(k)=「n*(f*k%1)」其中“f*k%1”表示f*k 的小数部分，即f*k%1=f*k-「f*k」

例10，对下列关键字值集合采用随机乘数法计算哈希值，随机数f=0.103149002 哈希表长度n=100得图：

k	*fk**	*n((fk)的小数部分)*	Hash(k)
319426	32948.47311	47.78411	47
718309	74092.85648	86.50448	86
629443	64926.41727	42.14427	42
919697	84865.82769	83.59669	83

此方法的优点是对n的选择不很关键。通常若地址空间为p位就是选n=2p.Knuth对常数f的取法做了仔细的研究，他认为f取任何值都可以，但某些值效果更好。如f=（-1）/2=0.6180329...比较理想。

10．字符串数值哈希法

在很都情况下关键字是字符串，因此这样对字符串设计Hash函数是一个需要讨论的问题。下列函数是取字符串前10个字符来设计的哈希函数

Int Hash _ char (char *X)

{

int I ,sum

i=0;

while (i 10 && X[i])

Sum +=X[i++];

sum%=N; //N是记录的条数

}

这种函数把字符串的前10个字符的ASCⅡ值之和对N取摸作为Hash地址，只要N较小，Hash地址将较均匀分布[0，N]区间内，因此这个函数还是可用的。对于N很大的情形，可使用下列函数

int ELFhash (char *key )

{

Unsigned long h=0,g;

whie (*key)

{

h=(h<<4)+ *key;

key++;

g=h & 0 xF0000000L;

if (g) h^=g>>24;

h & =～g;

}

h=h % N

return （h）;

}

这个函数称为ELFHash(Exextable and Linking Format ,ELF,可执行链接格式)函数。它把一个字符串的绝对长度作为输入，并通过一种方式把字符的十进制值结合起来，对长字符串和短字符串都有效，这种方式产生的位置不可能不均匀分布。

11.旋转法

旋转法是将数据的键值中进行旋转。旋转法通常并不直接使用在哈希函数上，而是搭配其他哈希函数使用。

例11，某学校同一个系的新生（小于100人）的学号前5位数是相同的，只有最后2位数不同，我们将最后一位数，旋转放置到第一位，其余的往右移。

新生学号	旋转过程	旋转后的新键值
5062101	5062101	1506210
5062102	5062102	2506210
5062103	5062103	3506210
5062104	5062104	4506210
5062105	5062105	5506210

如图

运用这种方法可以只输入一个数值从而快速地查到有关学生的信息。

在实际应用中，应根据具体情况，灵活采用不同的方法，并用实际数据测试它的性能，以便做出正确判定。通常应考虑以下五个因素：

l 计算哈希函数所需时间（简单）。

l 关键字的长度。

l 哈希表大小。

l 关键字分布情况。

l 记录查找频率

三.Hash处理冲突方法

通过构造性能良好的哈希函数，可以减少冲突，但一般不可能完全避免冲突，因此解决冲突是哈希法的另一个关键问题。创建哈希表和查找哈希表都会遇到冲突，两种情况下解决冲突的方法应该一致。下面以创建哈希表为例，说明解决冲突的方法。常用的解决冲突方法有以下四种：

1. 开放定址法

这种方法也称再散列法，其基本思想是：当关键字key的哈希地址p=H（key）出现冲突时，以p为基础，产生另一个哈希地址p1，如果p1仍然冲突，再以p为基础，产生另一个哈希地址p2，…，直到找出一个不冲突的哈希地址pi ，将相应元素存入其中。这种方法有一个通用的再散列函数形式：

Hi=（H（key）+d_i）% m i=1，2，…，n

其中H（key）为哈希函数，m 为表长，d_i称为增量序列。增量序列的取值方式不同，相应的再散列方式也不同。主要有以下三种：

l 线性探测再散列

d_ii=1，2，3，…，m-1

这种方法的特点是：冲突发生时，顺序查看表中下一单元，直到找出一个空单元或查遍全表。

l 二次探测再散列

d_i=1²，-1²，2²，-2²，…，k²，-k² ( k<=m/2 )

这种方法的特点是：冲突发生时，在表的左右进行跳跃式探测，比较灵活。

l 伪随机探测再散列

d_i=伪随机数序列。

具体实现时，应建立一个伪随机数发生器，（如i=(i+p) % m），并给定一个随机数做起点。

例如，已知哈希表长度m=11，哈希函数为：H（key）= key % 11，则H（47）=3，H（26）=4，H（60）=5，假设下一个关键字为69，则H（69）=3，与47冲突。如果用线性探测再散列处理冲突，下一个哈希地址为H1=（3 + 1）% 11 = 4，仍然冲突，再找下一个哈希地址为H2=（3 + 2）% 11 = 5，还是冲突，继续找下一个哈希地址为H3=（3 + 3）% 11 = 6，此时不再冲突，将69填入5号单元，参图8.26 (a)。如果用二次探测再散列处理冲突，下一个哈希地址为H1=（3 + 1²）% 11 = 4，仍然冲突，再找下一个哈希地址为H2=（3 - 1²）% 11 = 2，此时不再冲突，将69填入2号单元，参图8.26 (b)。如果用伪随机探测再散列处理冲突，且伪随机数序列为：2，5，9，……..，则下一个哈希地址为H1=（3 + 2）% 11 = 5，仍然冲突，再找下一个哈希地址为H2=（3 + 5）% 11 = 8，此时不再冲突，将69填入8号单元，参图8.26 (c)。

0 1 2 3 4 5 6 7 8 9 10

（a）用线性探测再散列处理冲突

0 1 2 3 4 5 6 7 8 9 10

（b）用二次探测再散列处理冲突

0 1 2 3 4 5 6 7 8 9 10

（c）用伪随机探测再散列处理冲突

图8.26开放地址法处理冲突

从上述例子可以看出，线性探测再散列容易产生“二次聚集”，即在处理同义词的冲突时又导致非同义词的冲突。例如，当表中i, i+1 ,i+2三个单元已满时，下一个哈希地址为i, 或i+1 ,或i+2，或i+3的元素，都将填入i+3这同一个单元，而这四个元素并非同义词。线性探测再散列的优点是：只要哈希表不满，就一定能找到一个不冲突的哈希地址，而二次探测再散列和伪随机探测再散列则不一定。

2. 再哈希法

这种方法是同时构造多个不同的哈希函数：

H_i=RH₁（key） i=1，2，…，k

当哈希地址H_i=RH₁（key）发生冲突时，再计算H_i=RH₂（key）……，直到冲突不再产生。这种方法不易产生聚集，但增加了计算时间。

3. 链地址法

这种方法的基本思想是将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。

例如，已知一组关键字（32，40，36，53，16，46，71，27，42，24，49，64），哈希表长度为13，哈希函数为：H（key）= key % 13，则用链地址法处理冲突的结果如图

图链地址法处理冲突时的哈希表

本例的平均查找长度 ASL=(1*7+2*4+3*1)=1.5

4.建立公共溢出区

这种方法的基本思想是：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表

hash算法就学习总结到这里了，今天度过了22岁生日，晚上还是坚持完成了写这篇博客，今天暂时不写了，明天来总结Java中的hashcode和equals方法，

转载请指明出处http://blog.csdn.NET/tanggao1314/article/details/51457585

参考资料

大话数据结

算法导论

你可能感兴趣的:(网络搜索)

FPGA芯片厂商及关键的开发测试工具 Chip Design xPU Chip Design fpga开发
以下是结合2025年技术动态整理的。一、FPGA芯片主要厂商及产品系列厂商芯片系列典型特点目标市场AMD/XilinxVersal,Kintex,Artix,Zynq高性能异构计算（AI引擎+FPGA+CPU）数据中心、5G、航空航天Intel(Altera)Stratix,Arria,Agilex,Cyclone高带宽内存集成（HBM），支持CXL协议网络加速、边缘计算LatticeCertus
Julia视频教程 Bounce_aaba
在网易云课堂上直接搜索：Julia教程，就可以找到，教程的全名是：Julia教程从入门到进阶这是国内第一个免费的完整的Julia视频教程，非常适合Julia的入门。有兴趣的朋友可以去学习一下。教程链接：https://study.163.com/course/courseMain.htm?share=2&shareId=480000001854445&courseId=1208959805&_tr
淘宝分享优惠券：如何成为省钱达人并助力商家营销？氧惠购物达人
在数字化时代，网络购物已成为人们日常生活中不可或缺的一部分。淘宝作为中国最大的电商平台，不仅提供了丰富的商品选择，还通过各种营销手段，如优惠券、红包等，吸引着消费者的目光。其中，淘宝分享优惠券作为一种新型的营销方式，不仅帮助消费者节省购物开支，还能助力商家推广商品，实现双赢。那么，淘宝分享优惠券究竟是如何运作的？我们又该如何利用它成为省钱达人并助力商家营销呢？淘宝分享优惠券，顾名思义，就是消费者将
# 百万级OpenID自动化获取：高并发架构设计与微信生态实战 Loving_enjoy 计算机学科论文创新点人工智能深度学习经验分享 facebook
>当你的小程序日活突破10万+，如何安全高效地管理海量用户身份？OpenID作为微信生态的"用户身份证"，其获取效率直接影响业务增长！在微信生态开发中，OpenID是用户身份识别的核心密钥。然而传统获取方式存在三大痛点：1.**效率瓶颈**：单线程获取10万OpenID需27小时+2.**稳定性风险**：网络波动导致数据丢失3.**开发成本高**：需重复实现授权逻辑本文将揭秘百万级OpenID自动
微算法科技技术突破：用于前馈神经网络的量子算法技术助力神经网络变革 MicroTech2025 量子计算算法神经网络
随着量子计算和机器学习的迅猛发展，企业界正逐步迈向融合这两大领域的新时代。在这一背景下，微算法科技（NASDAQ:MLGO）成功研发出一套用于前馈神经网络的量子算法，突破了传统神经网络在训练和评估中的性能瓶颈。这一创新性的量子算法以经典的前馈和反向传播算法为基础，借助量子计算的强大算力，极大提升了网络训练和评估效率，并带来了对过拟合的天然抗性。前馈神经网络是深度学习的核心架构，广泛应用于图像分类、
图机器学习（13）——图相似性检测
图机器学习（13）——图相似性检测0.前言1.基于图嵌入的方法2.基于图核的方法3.基于GNN的方法4.应用0.前言图机器学习(machinelearning,ML)方法能广泛应用于各类任务，其应用场景涵盖从药物设计到社交网络推荐系统等多个领域。值得注意的是，由于这类方法在设计上具有通用性，同一算法可用于解决不同问题。学习图之间相似性的定量度量是一个关键问题。事实上，这是网络分析的重要步骤，同时也
GEO + SEO+SMO：AI时代全域组合营销智***O 人工智能 GEO优化大数据 GEO AI搜索
在信息爆炸的时代，用户每一次搜索的背后，都是一次决策的起点。当AI工具逐渐成为人们获取答案的首选，如何让你的品牌在AI生成的回答中占据核心位置？如何让用户在不同平台搜索时，始终选择你？智火营销SEO+GEO+SMO组合营销策略，让品牌成为用户与“搜索”之间的桥梁。智火营销GEO服务一、SEO：巩固搜索生态的信任基石在AI工具与社交平台崛起的当下，传统搜索引擎仍是用户验证信息的重要场景。SEO（搜索
WIFI7新特性浅析及Linux内核对其的支持 winter91 Linux NetWork linux WIFI
WIFI7新特性浅析及Linux内核对其的支持|DD'NotesWIFI7新特性浅析及Linux内核对其的支持wifi7新特性Wi-Fi7（IEEE802.11be）作为下一代无线网络标准，在速度、延迟、容量和稳定性等方面实现了显著提升。以下是其核心新特性：1.更高带宽与速率320MHz信道带宽支持连续320MHz或非连续160+160MHz带宽（6GHz频段），相比WiFi6的160MHz实现速
发放优惠券的平台有哪些？哪个平台的优惠券力度大？氧惠好项目
当今社会，互联网发展日新月异，人们的生活节奏加快，生活需求逐步增多，生活品质要求也越来越高。网购是现代社会每一个人可能都会经历过的事情，人们都想让自已的生活能够过得更好更方便，这样就会有很多人把需要买的东西放在网络上面，因为在网上购物不仅方便快捷，而且还能领取优惠券打折，能省很多钱。推荐新出的“氧惠”app，使用靓号邀请码211985，可享直邀1：1福利和新人v8体验，返利更高，省得越多，赚的越多
信息学奥赛-一本通-第二部分基础算法 --＞第五章搜索与回溯算法攻城丶狮 C++比赛信息算法深度优先图论 c++青少年编程
1317：【例5.2】组合的输出【题目描述】排列与组合是常用的数学方法，其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n)，我们可以简单地将n个元素理解为自然数1，2，…，n，从中任取r个数。现要求你用递归的方法输出所有组合。例如n＝5，r＝3，所有组合为：123124125134135145234235245345【题目分析】1.搜索函数参数:上一次搜索的数字i(i(n)>=i(n-1))
Docker+Kubernetes落地指南：从单机到集群的平滑迁移 sg_knight docker docker kubernetes 容器 java spring cloud
一、为何必须升级到Kubernetes？1.1单机Docker的瓶颈单机环境痛点：├─资源利用率不均衡（CPU飙高vs内存闲置）├─服务扩容需手动操作├─零宕机更新难以实现└─网络配置复杂（跨主机通信困难）企业级需求：┌───────────┬───────────────┐|场景|Kubernetes方案||───────────|───────────────||滚动更新|Deployment
今天是个特殊的日子璀璨夜空之星星
2021.12.02阴历十月二十八，星期四。天气阴，飘小雪花。20211202，这个数字是不是不一般，从前往后看，还是从后往前看是不是都是一样的。说实话，如果不是网络上有人发，我还真没注意这个事儿。有时候，不得不佩服这些有心人，我记得二零二零年也有过一次是二月二日（20200202），真是人才辈出。更逗的是，我今天打开朋友圈，结果又有一个同学和我那遥远的书法老师发了同样的朋友圈。微笑！朋友圈图片网
IntelliJ IDEA 使用技巧与插件推荐：提升开发效率的终极指南海豹工匠 ide jetbrain JAVA 编程工具
在现代软件开发中，IntelliJIDEA作为一款功能强大的集成开发环境（IDE），深受开发者的喜爱。它不仅支持多种编程语言和框架，还提供了丰富的功能和插件，帮助开发者提高工作效率和代码质量。本文将深入探讨IntelliJIDEA的使用技巧和插件推荐，助您充分利用这款优秀的开发工具。目录IntelliJIDEA简介高效使用IntelliJIDEA的技巧快捷键大全代码导航与搜索高级重构实时错误检查与
网络请求的基本概念、原理及生活化解析程序小武 python爬虫入门网络
一、引言：你每天用的网络请求，原来这么复杂！每天清晨，你打开手机点个外卖，点了杯咖啡。这个简单的动作，背后其实有一连串复杂的网络请求发生。就像你和咖啡师说“来一杯美式加奶”，在数字世界里，手机和咖啡店系统之间也在“对话”。这些对话遵循一套规则，今天就用一些生活中的比喻来跟你解说这些规则是怎么运作的。二、核心概念：生活化理解网络请求1.客户端与服务器：数字世界的“顾客”与“商家”客户端：就是你手中的
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
POJ 156:LETTERS（dfs） Ctrl AC #POJ 深度优先算法
题目：忘题戳这题目大意：一个表格中每处有字母，从左上角开始走，不能经过重复的字母，看你最多能走多少个格子（包括左上角的起点格子）分析：一道非常典型的搜索题，寻路问题。深搜的同时，根据条件进入深搜（即没走过则进入，走过则跳过）用到的变量大概有，maxpos记录历史能走的最多的步数，nowpos记录当前走了多少格，visit[i]记录i点有没有走过，map[i][j]地图，还有行和列rc。小技巧：用字
2019-06-09谢谢你们！！刘会丽
刘会丽焦点解决网络初级14期，坚持分享第104天。今天老公有时间做了一次饭，大家吃的很好，在吃饭时他说：他做了好长时间，很累，当时吃饭的人没有一个回应，都在津津有味的吃，最后在我们大家快吃完的时候，老公说了一句话，谢谢你们，这是我和孩子才说了一句，谢谢你给我们做的丰盛的饭，焦点里面讲到我们关注什么就会得到什么，当我们关注幸福，关注感谢，相信我们就会得到幸福和感谢，同时在《亲密关系》这本书里面也讲到
流量深度链诺惜
自然流量：关键字搜索可比价款，趋势热销款，普通商品公司搜索，图片搜索，就是客户通过主页的推荐和搜索进入的就叫自然搜索流量，搜索流量：千人千面每个人搜索结果显示的商品不一样，结果是根据他本人定制的展示页面搜索流量：流量加权分为4个等级等级1新搜索上线之日起，商品在过去30天没有交易等级2新搜索上线之日起，商品在过去30天交易大于0，通过搜索指数，商品3级类目下排名在60%以外等级3，新搜索在线上之日
AI产品经理面试宝典第30天：AI+教育个性化学习与知识图谱相关面试题的解答指导 TGITCIC AI产品经理一线大厂面试题人工智能产品经理 AI产品经理面试大模型产品经理面试 AI面试大模型面试
自适应学习系统如何实现千人千面？面试官：请用产品视角解释AI自适应学习系统的核心逻辑你的回答：自适应学习系统本质是构建"数据-模型-决策"的闭环。以沪江Hitalk为例，其通过12级能力评估体系采集学员的听、说、读、写数据，利用知识图谱建立知识点关联网络。当学员完成"实景演练-诊断反馈-学习包推送"的完整链路时，系统会动态调整知识图谱权重，形成个性化学习路径。面试官追问：如何验证个性化效果？回答：
Docker报错：No address associated with hostname longze_7 docker
进入Docker容器终端执行命令检查，在容器内能不能访问到外部容器的接口dockerexec-it/bin/bash不同的docker容器内部互相访问方式，http://容器名:开放的端口号，但是注意互相通信的容器要加入自定义网络而不是默认网络bridge：默认bridge网络：容器间不能用名字互相访问，只能用IP。自定义网络：容器间可以用名字互相访问，Docker自动做了DNS解析。http:/
PostgreSQL 中的 pg_trgm 扩展详解 Yashar Qian 数据库(SQL)随笔 postgresql 数据库
PostgreSQL中的pg_trgm扩展详解pg_trgm是PostgreSQL提供的一个核心扩展，用于实现基于三元组(trigram)的文本相似度计算和高效搜索。它特别适合优化模糊匹配、部分匹配和相似度查询。核心功能三元组(trigram)概念：将字符串拆解为连续的3个字符组例如：“hello”→["h","he",“hel”,“ell”,“llo”,"lo"]主要用途：优化LIKE'%pat
HPE携手迈阿密自由公园，为迈阿密国际足球俱乐部打造极致球迷体验
近日，慧与科技（NYSE：HPE）宣布与迈阿密自由公园（MiamiFreedomPark）及迈阿密国际足球俱乐部（InterMiamiCF，后简称迈阿密国际）正式达成合作协议。HPE将成为迈阿密自由公园的首个创始合作伙伴和官方技术合作伙伴，及迈阿密国际在网络基础设施、解决方案、混合云等领域的独家合作伙伴。届时，HPE将凭借HPEArubaNetworking、HPEAlletraStorage、H
LETTERS（dfs，搜索与回溯）ナナ色のブランク算法学习搜索与回溯算法 c++dfs
题目描述】给出一个roe×col的大写字母矩阵，一开始的位置为左上角，你可以向上下左右四个方向移动，并且不能移向曾经经过的字母。问最多可以经过几个字母。【输入】第一行，输入字母矩阵行数R和列数S，1≤R,S≤20。接着输出R行S列字母矩阵。【输出】最多能走过的不同字母的个数。【输入样例】36HFDFFBAJHGDHDGAGEH【输出样例】6题目分析：这属于dfs（深度优先搜索算法）。dfs带有三个
广州邮科波分复用设备：让网络带宽飞速增长的幕后英雄邮科工业交换机定制网络运维
大家是否曾有过这样的困扰：手机信号差、互联网速度慢，想下载个视频都要等上好久。你有没有想过，背后支撑这些网络服务的技术是如何让信息传输变得如此高效的？今天，我们就来聊一聊一个背后默默“加速”网络的技术——邮科波分复用设备（WDM）。波分复用设备：网络“快车道”的核心要是用个比喻，你可以把数据传输看作是高速公路上的车流。而邮科波分复用设备，正是那条让车流更加畅通无阻的高速公路上的“智能分车道系统”。
经济不好，企业培训岗位何去何从山言良语lynn
今天看一个北京的HR群讨论培训经理的岗位，很悲催了。。。来自网络因为自己也在企业做培训管理，虽然在二级城市，但是一直在关注北上广的动态，据说去年有个上海的培训经理的群，大约60多个人一夜之间因为公司倒闭或裁员没有了岗位。看看聊天记录，这是悲催的现状，企业要生存，就裁掉花钱的部门和职能部门的人。作为企业的生存法则，这合情合理。但作为培训经理的我们该何去何从呢？我觉得有三点不论什么时候都可以去借鉴。1
AI应用服务 SUPER5266 人工智能
AI大模型--AI应用，该如何和前端交互，呈现llm模型答复内容呢？向LLM大模型提问后，系统得先识别问题，再从数据网络找信息，接着推理出正确结果，还得防止模型“胡编乱造”（控制模型幻想）。有时多个智能体（agent）要一起处理，结果还得融合。这些步骤都是异步进行的，没法像传统应用接口那样实时出结果。为减少大模型结果延迟、提升用户体验，我们提供以下方案。方案1、轮询后端pedding结果到db或其
AI Agent从零到精通：深度解析Workflow、Prompt、Multi-Agent Systems和RL Training 爱看烟花的码农 AIGC NLP 人工智能 prompt
1.AI智能体简介：从概念到应用1.1什么是AI智能体？AI智能体是一种自主智能体，能够根据用户输入的目标，自主规划、执行和优化任务，最终生成结果。它不同于传统聊天模型（如ChatGPT）的单次回答能力，而是能处理多步骤、工具依赖、动态调整的复杂任务。例如：任务：用户要求“撰写一篇关于AI伦理的文章”。智能体行为：搜索资料、整理信息、撰写草稿、校对优化，全程无需用户干预。制造业场景（ManuS）：
如何抉择HTTPS&Proxy？彬彬醤 https 网络协议 http 网络 chatgpt 服务器数据库
HTTPS（超文本传输安全协议）通过TLS/SSL加密保护数据传输，而Proxy（也就是我们常说的网络代理）作为网络中间节点转发请求，二者结合形成“加密传输+灵活转发”的双重保障。这种协同机制的核心价值在于：安全增强：HTTPS加密避免数据被窃听或篡改，代理隐藏真实IP降低直接攻击风险；访问控制：通过代理实现跨地域访问，同时HTTPS确保代理节点与客户端/目标服务器的通信安全。无论是企业跨境数据传
2018-04-08 viper44
科技就是将复杂的事情简单化，所以智能手机的出现显著降低了我们学习的难度，只要善于使用搜索引擎，几乎能够获得所有的知识，而我们利用这些工具的姿势，会反过来决定我们未来的走向，所以一定不能做伸手党，能查到东西尽量自己去搜索，网上有很多现成的成功，我们要善于搜索，把节约的时间拿去干别的事生活中会面临很多突发状况，要如何才能从容面对呢，培养急智的最简单的方法就是列举出所有可能出现的问题，并对它们制定一些相
「DR」沉渊／柳瑱箫凌
站在黑暗的深处靠近光明的边缘刻铸最细腻的温情全世界只有不到3%的人微信搜索并且关注了箫凌你真是个特别的人策划：箫凌「fromOvertureStudio/角一文化」姓名：柳瑱生日：1993年12月4日星座：射手座Overture工作室/角一文化签约原创创作者作品：沉渊文案：柳瑱「fromOvertureStudio/角一文化」NOTE：其实我真不知道所谓创作构思要怎么写，那就罗列一些关于这个主题的
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地