旁观者的角度

数据压缩之贪心算法-赫夫曼编码

一、从压缩说起

提起压缩这个概念，脑海中不禁会跳出这样一个情形：在不改变物体容量的前提下，减少物体的体积，使空间得以更有效的利用。在你外出旅行时，会将许多衣服放入行李箱，你可以压一压衣服，让它们小到能被行李箱容纳，你压缩了衣服。之后，你打开行李箱，穿上衣服时，这就是所谓的解压。颇感欣慰的是，信息也能以同样的方式压缩，计算机文件和传输在互联网的信息都可以被压缩，以方便存储和传输，然后解压并以原始方式利用。我们日常听到的MP3格式文件常见的视频文件甚至是打电话时都用到了压缩，现下流行的zip压缩文件格式运用了精巧的压缩算法，计算机使用两种不同的压缩：无损压缩和有损压缩。接下来简要谈谈zip文件是怎么压缩和解压缩的。

二、无损压缩

无损压缩顾名思义就是压缩不改变原始文件的体积，在解压后的文件和原始文件一模一样，计算机使用某种高效的算法吧文件压缩的更小，而不改变文件的本来面貌，究竟它是怎么办到的？我们先一起看一串文本数据：

AAAAAAAAABBBBBBBBBOKOKOKOKOKOKOKYESYESYESYES

如果让你来口述这些文本，你怎么描述呢？如果乍一看还不明显，思考一下你会如何通过电话向某人口述这份数据。和说"A A A A....."YESYES YES"不同的是，我肯定你会说9个A 9个B 7个OK 4个YES，在这个例子中，你将这个包含44个字符的串变成了说出9A9B7OK4YES 这11个字符压缩了25% 看起来压缩率还可以但不是绝对的称赞，但44个字符毕竟在实际应用中相比是非常小的甚至忽略不计，在一般的实际应用中压缩率可以高达50%以上！非常不错，是不是计算机上的压缩文件都是用这种算法的呢？此言差矣！也许读者会觉得如此轻松简单掌握这样的压缩算法未免太没有挑战性了，是的，简单的东西暴露出很多的缺陷。话说回来，这种办法在计算机科学中称之为前程长度编码(run-length encoding),因为它将重复的“行程”和行程“长度”编码在了一起。所不幸的是，它的价值只在压缩非常特殊的数据上管用，读者已经发现了，上面这个例子就是这么一个特殊的：数据中的重复片段必须相邻，譬如：ABACABAD就不能那这个办法使用了，还有一点，就是这个算法大部分和其他压缩算法结合起来使用。如何另一种也就是本博客的主题赫夫曼编码(Huffman Coding)结合起来使用,于是计算机科学家发明了一系列更成熟的算法：同前压缩(same-as-earlier trick)和更短符号压缩(shorter-symbol trick)。只需要这两个算法就能生成ZIP文件，由于篇幅所限，这里就介绍同前压缩了。

同前压缩

加入一下有一串你要处理的可怕任务，通过电话向某人口述如下数据：

VJGDNQMYLH-KW-VJGDNQMYLH-ADXSGF-OVJGDNQMYLH-ADXSGF-VJGDNQMYLH-EW-ADXSGF

总共有63个字母需要口述，“-”表示的是分隔符使更容易区分，假如你要逐个字符的往下念，你能保证不会说错或者说漏么？如果换了一个更长的字符串呢？

前10个字母我们没办法只能照着念：A、J、G、D、……H,然后K、W，接下来，发现到然后10个字母和一开始的10个字母一样，你可能会说：接下来10个字母和开始的10个字母重复，然后A、D、X、S、G、F、O 仔细观察O后面的16个字符又和开始的10个字母一样，于是我们想办法得到一个更简短的描述：往回数17个字母，抄到第16个字母，我们再换一种更加精炼的表达：back17 copy 16(b17c16)然后发现接下俩的10个字母也是重复的部分，因此 b16c10，再接下来两个字母没有重复，需要逐个口述为E、W最后的6个字母是之前的重复，可以b18c6

让我们总结一下这个压缩算法，我们用b代替back c代替copy原本的字符串被说成这样VJGDNQMYLH-KW-b12c10-ADXSGF-O-b17c16-b16c10-EW-b18c6

这个字符串只包含44个字母，节省了将近1/3。

还有许多压缩数据的算法，可参考《 Introduction to Data Compression》Khalid Sayood 数据压缩导论.

三、赫夫曼编码

好了，该进入正题了，赫夫曼编码（Huffman coding) 从应用来说是一种数据压缩算法，从算法理论角度来说是一种贪心算法。所谓贪心算法就是分阶段的工作，在每一个阶段，可以认为所选择的决定是最优的，这种从当下得到最优的就决定而不考虑将来的后果的策略就是这种算法的来源。当算法结束时我们希望局部最优就是全局最优，如果是这样的话，那么算法就是正确的，否则就是一个次最优解。

一、编码

假如有一个文件，文件中包括了以上图所示的字符和出现的频率，当然每个字符需要编码姑且已上图为准吧，可以看到每个字符的编码为3位的定长编码，大小为678个比特位，在这里只表现了一般情况下的文件存储方式将每个数据编码为二进制的表示，根据每个数据出现的频率计算出总的二进制比特位长，这种方式有一个特点，即每个字符的编码都是随机给的比如a:000 ,b:001 从上到下依次有规律的递增，但这体现不出压缩的概念。

1、前缀编码

在电报传输中，电文的传送是被压缩成二进制串的，且尽可能的短，比如 a:0 ，b:01， c:11， d:001， e:010.假入要传送eaacdb一串数据，对应的二进制串为:010001100101 ，于是对方在接受时完全可能将开头的01译成b,接下来三个零译成a，然后两个一译成c然后为db于是整个译码就变成了baaacdb，与传送放发送的本意完全不对，信息接受错误。在这个例子中，最突出的问题是二进制码的前缀可能是别的字符二进制码的前缀，这样在译码的过程中完全可能出现混淆。为了避免这种混淆，出现了一种叫做前缀编码(prefix code)的技术，既没有任何二进制码是其他码字的前缀，前缀码的作用是简化解码的过程，由于没有码字是其他任何码字的前缀，编码文件的开始码字是无歧义的。我们可以简单的识别出开始码字，将其转换回原字符，然后对剩下的重复这种解码过程。但怎么构造这种前缀码？

一种二叉树可以解决问题。

在上面的电文传输例子中，我们让freq表示每个字符出现的频率，假定a.frea=20，b.freq=15,c.freq=40,d.freq=90,e.freq=55,于是我们可构造如下图所示的二叉树：

我们把字符放在叶子节点上，一个字符的码字可以从根节点到字符节点开始的简单路径表示，其中0表示向左，1表示向右。

那么a:000，b:001，c:010，d:011，e:100可以证明每个字符的码字不是其他任何码字的前缀，实际上这也是开头对应的哪一张表用相同的方法组成的前缀码。所以来说，可构造这种将所有的字符节点放在叶子节点上，左分支为0，右分支为1的二叉树就是唯一的可表示成字符的前缀编码树。

解决了前缀码的问题但是这种编码还不是最优的，因为发现所有的字符编码为定长编码，达不到压缩的概念。为此我们定义树的代价：

其中，T表示一颗前缀码的树T，对于字母表C中每个字符c，令属性c.freq表示c在文件出现的频率，dT表示c在叶节点中的深度,则B(T)为编码文件需要的二进制位，

也称为B(T)为数的代价。

2、构造赫夫曼编码

赫夫曼设计了一个贪新算法来构造最优前缀编码，称为赫夫曼编码(Huffman code)，赫夫曼算法的过程可描述如下：

(1)、根据给定的n个频率值集合{f1,f2,f3,4,……，fn} 构成二叉树集合T={T1,T2,T3,T4,……，Tn};每颗二叉树都为根节点且左右子树为空

(2)、在T中选择两颗根节点频率值最小的树作为左右子树构造一颗新的二叉树，且新置的二叉树的根节点的频率值为左右孩子频率值之和

(3)、在T中删除这两颗树，同时将新得到的二叉树插入到T中。

(4)、重复步骤(2)和(3)，直到T中只含一颗树为止。这棵树便是赫夫曼树。

以开头的文件的编码制作成的表作为例子，频率集合{a:20，b:93，c:45，d:27，e:8，f:33}按上面的步骤构造赫夫曼树的一个解如下图所示：

构造的赫夫曼树不是唯一的，每个字符的编码形式也不是唯一的，但每个字符的长度都是相同的，且是最优前缀编码。

3、赫夫曼变编码的实现

要实现赫夫曼编码需要合适的数据结构，一种叫做静态三叉链表的二叉树结构可以方便的实现这种算法，赫夫曼节点的结构包括频率值双亲节点值，左右孩子值，双亲节点为0的是根节点，左右孩子值为0的是叶子节点，当叶子节点数确定时，赫夫曼树的节点数也就确定了。具体代码和注释如下：

 
  #include
#include
#include
#pragma warning(disable:4996)
typedef struct HTNode{
	unsigned int freq;
	unsigned int parent, left, right;
}*HuffmanTree;//动态顺序生成的赫夫曼树
typedef char** HuffmanCode;//动态顺序生成的赫夫曼编码
//在前k个二叉树根节点中选择一个频率值最小的，并返回这个根节点的序号。
int extract_min(HuffmanTree T, int k){
	int index;
	unsigned int m = UINT_MAX;//保存频率的最小值,初值为不小于所有的可能值
	for (int i = 1; i <= k; i++){
		if (T[i].freq < m&&T[i].parent == 0){
			m = T[i].freq;//保存频率小的值
			index = i;//保存频率小的序号
		}
	}
	T[index].parent = 1;//给选中的根节点的双亲赋非零值，以免重复查找这个节点。
	return index;//返回这个根节点频率最小的序号
}
/*
	根据频率节点freq生成赫夫曼树T，每个频率节点都有对应的编码HC；
	*/
void HuffmanCoding(HuffmanTree&T, HuffmanCode&HC, int *freq, int n){
	int i;
	HuffmanTree t;
	int total = 2 * n - 1;//n个叶子节点共需要2*n-1个节点构成赫夫曼树
	if ((T = (HuffmanTree)malloc(sizeof(HTNode)*(total + 1))) == NULL){//动态生成未赋值的赫夫曼树，0号空间未用
		printf("分配节点失败\n");
		exit(EXIT_FAILURE);
	}//如果节点分配失败，怎退出程序
	for (i = 1, t = T + 1; i <= n; t++, freq++, i++){//从1号单元开始给赫夫曼树的叶子节点初始化
		(*t).freq = *freq;
		(*t).left = 0;
		(*t).right = 0;
		(*t).parent = 0;
	}
	for (; i <= total; i++, t++){//剩下的内部节点将双亲域初始化为0
		(*t).parent = 0;
	}

	for (i = n + 1; i <= total; i++){//构造赫夫曼树
		int l = extract_min(T, i - 1);//从i-1个单元取最小的频率值
		int r = extract_min(T, i - 1);//从i-1个单元取最小的频率值
		T[i].left = l;
		T[i].right = r;
		T[l].parent = T[r].parent = i;
		T[i].freq = T[l].freq + T[r].freq;
	}
	HC = (HuffmanCode)malloc(sizeof(char*)*(n + 1));//分配n个叶子节点的编码空间，0号单元未用
	char*temp = (char*)malloc(sizeof(char)*n);//分配求一个字符编码的工作空间
	temp[n - 1] = '\0';//编码结束符
	int f = 0;//父节点序号
	for (i = 1; i <= n; i++){
		int start = n - 1;//编码结束符的位置
		for (int c = i, f = T[i].parent; f != 0; c = f, f = T[f].parent){
			if (T[f].left == c){
				temp[--start] = '0';//如果是左孩子则赋0
			}
			else{
				temp[--start] = '1';//如果是右孩子则赋1
			}
		}
		HC[i] = (char*)malloc(sizeof(char)*(n - start));//分配第i个字符空间
		strcpy(HC[i], &temp[start]);//将求得的编码赋给第i个字符空间
	}
	free(temp);//释放资源
}
int main(){
	int n;
	printf("请输入要构造的频率节点:\n");
	scanf_s("%d", &n);
	int *freq = (int *)malloc(sizeof(int)*n);
	printf("请依次给%d个节点赋值:\n", n);
	for (int i = 0; i < n; i++){
		scanf_s("%d", freq + i);
	}

	HuffmanTree T;
	HuffmanCode HC;
	HuffmanCoding(T, HC, freq, n);


	printf("以下是赫夫曼树节点之间的关系:\n");
 	printf("freq\tparent\tleft\tright\n");
 	for (int i = 1; i <= 2 * n - 1; i++){
  		printf("%d\t%d\t%d\t%d", T[i].freq, T[i].parent, T[i].left, T[i].right);
  		printf("\n");
 	}
	printf("--------------------------------------------\n");
 	for (int i = 1; i <= n; i++){
  		printf("频率为%d的编码为%s\n", T[i].freq, HC[i]);
	}
} 
   
  以上图构造的赫夫曼树为例，我们利用这个程序构造赫夫曼编码,运行结果如下所示: 
          
  到此为止，我们根据赫夫曼算法构造的编码为变长编码，定长编码不同的是，每个字符的编码不仅是前缀码而且是最短的编码，我们可以计算这课树的代价为520与原先678个比特位的代价相比确实压缩了，实际上，这是数据较少的情况，在大量数据前，赫夫曼编码表现出更加可观的压缩效率。 
  关于赫夫曼编码算法的正确性，这里我不打算赘述，有兴趣的读者可以参考《算法导论》一书。 
                   四、压缩算法的起源 
                   要追溯压缩算法的起源，我们要把科学史向前推进30年。我们已经了解了香农，那位以其1948年论文创建信息理论领域的贝尔实验室科学家。香农在就错码故事中的两位主要的英雄之一，他与1948年发明的总要论文除了许多卓越贡献之外，好包含对压缩技术之一的的描述。麻省理工学院教授罗伯特法诺大约在同时发明了这一技术，事实上，香农-法诺编码是一种实施更短符号编码的特殊方法，我们在前面描述了更短符号编码。我们很快会知道，香农-法诺编码很快就被另一种算法所取代，但这一方法非常有效，并存活到了今天，称为ZIP格式的可选压缩方法之一。 
                               香农和法诺都意识到，尽管他们的方法都既实用又高效，但却不是最好的算法：香农通过算术证明了肯定有更好的压缩技术存在，但还未找到。同时，法诺在麻省理工学院教授一门信息理论的研究生课程，他将实现优化压缩的问题作为该课程学期论文的可选项之一。出人意料的是，法诺的以为学生解决了这个问题，得到了针对每个符号取得最佳可能压缩的方法。这名学生就是大卫-赫夫曼，他的技术———现在以赫夫曼编码来命名，——则是更短符号编码的另一个例子。赫夫曼编码仍是一种基础压缩算法，被广泛用于通信和数据存储系统。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
对于写作者最重要的两点：热情和分享鱼和熊掌兼得
【热情】在开头，塔奇曼提到光有热情是不够的。但是，要想长期的坚持写作，没有热情是不行的。很多人都说，这是一个对写作者很优待的时代，也有很多人前仆后继的写作。在写作这条路上的人，始终很多，一些人来了，一些人走了，但是能坚持下来的却只有那么几个。不知道什么时候开始，写作变现这个词火了起来。不管是谁，都想来分一杯羹。可是写作变现真的没有这么容易，鱼哥说过，写作的人千千万万，能变现的也不过是其中的千分之一
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
2024.9.14 Python，差分法解决区间加法，消除游戏，压缩字符串 RaidenQ python 游戏开发语言算法力扣
1.区间加法假设你有一个长度为n的数组，初始情况下所有的数字均为0，你将会被给出k个更新的操作。其中，每个操作会被表示为一个三元组：[startIndex,endIndex,inc]，你需要将子数组A[startIndex…endIndex]（包括startIndex和endIndex）增加inc。请你返回k次操作后的数组。示例:输入:length=5,updates=[[1,3,2],[2,4,
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

数据压缩之贪心算法-赫夫曼编码

你可能感兴趣的:(算法,赫夫曼,数据结构,压缩)