GMFTBY

胜者树败者树 K-路最佳归并树高效外部排序

外部排序

外部排序和内部排序还是有非常的的不同的,我们的外部排序主要针对的优化目标也是不同的,这里我先从外部排序的物理基础开始进行讲解

1.外存:

外部存储设备,相对于我们的内部存储设备而言具有一些特点

1.优点:永久存储能力,便携性,存储空间大
2.缺点:访问速度相对于内存的访问速度来说极其低下(相差约5~6个数量级)

因此对于外存来说,我们要遵守的基本操作原则就是:尽可能的减少我们的对外存的访问的次数
对于外存的类型来说,我们分成了磁带和磁盘两个方面,在这里我们对磁带就不过多的赘述了,我们主要来看看磁盘

如图所示,我们可以大致的了解到磁盘的主要的操作部件,在这里我们对操作的具体不见不做过多的描述,我们主要来考虑一下我们的这些部件对我们的计算机和磁盘之间的交互的时间效率的影响

磁盘的存取时间
磁盘访问时间主要由寻道时间，旋转延迟时间和数据传输时间组组成。
寻道时间（Seek time）tseek：是移动磁盘臂，定位到正确磁道所需的时间。
旋转延迟时间tla：是等待被存取的扇区出现在读写头下所需的时间。
传输时间twm：是传输一个字符的时间。
TI/O=tseek + tek + la + twm
我们每次都是将我们的磁盘中的数据按**块**为单位传输到我们的内存的高速缓冲区中（cache）我们每次在内存中对数据进行读取的时候，都要先从cache中开始检查，如果cache中存在数据我们就从cache中读取，如果cache为空，我们在从磁盘中进行读取

我们在外存上的数据基本都可以看作是文件，我们对外部数据进行的操作主要可以分成这么几类
文件上的操作
**检索**：在文件中寻找满足一定条件的记录
**修改**：对记录中某些数据值进行修改。若对关键字进行修改，就相当于删除加插入。
**插入**：向文件中增加一个新记录。
**删除**：从文件中删去一个记录。
**排序**：对指定好的数据项，按其值的大小把文件中的记录排成序列。常用按关键

简称就是：增删改查排

外部排序流程

1.外部跑排序基本上由两个独立的过程来组成，第一个就是产生初始的有序的顺串

2.对有序的顺串进行归并操作

所以通过这样的流程，我们大致可以将我们的外部排序的实践耗费分成大致的这样几个部分

1.内部排序生成初始顺串的时间耗费

2.外存信息读写的时间耗费

3.内部的归并的时间耗费

T = m*Tis + d*Tio + s*u*Tmg

上面的就是我们的外部排序的大致的时间耗费的一个表达式

1.其中m代表我们要形成m个初始的顺串，Tis代表我们对构成每一个初始的顺串选哟的内部排序的时间耗费

2.d代表我们的依次外存的读写的次数，Tio代表我们的外存的依次都写的时间的耗费

3.s代表我们的归并的趟数，u代表我们的趟需要的归并的次数，Tmg代表依次归并的时间耗费

从上面的表达式中，我们可以大致的看出我们的需要优化的要点在哪里，首先，我们的Tio的时间耗费非常的恐怖，所以说我们呢选哟尽可能遵顼上面体积的原则，尽可能的减少我们的外存的读写的次数，也就是说，我们需要降低d的大小

在这里，我们需要知道外部排序的外部读写的次数和我们的归并的趟数有关系，我们要尽可能的减少我们的归并的趟数 h = log(m,k) k - 代表我们采取k路归并

对于减小h的大小，我们需要增大k，减少m(意味着我们构建的初始顺串要尽可能的大)

在这里的话，我们的优化思路就出来了，我们可以采用多路归并的方式从而减少外部读写的次数，降低我们的时间耗费

对于我们的m来说，这和我们的内存的规模大小有关，我们招惹里就不再多余的考虑这个问题

我们这里需要另外一个知识要点就是我们的两种选择树和一种K-Haffman树来进行对我们的依次归并的时间的耗费的优化

选择树

对于我们归并的操作，我们需要一些优化的数据结构来满足我们的相应的要求

首先我们先引入我们的归并操作的步骤

1.当归并序列的数目只有两组的时候

我们采用依次扫描的O(n)时间复杂度和O(n)的空间复杂度我们呢就可以实现我们的归并操作

或者我们采用另一种优化后的算法 Lantian的手摇算法讲解

手摇算法O(n)的时间复杂度以及O(1)的空间复杂度就可以完成我们的归并操作

2.但是当我们的归并序列的组数非常的多的时候，我们上面已经讨论过了，归并的路数越多可能我们的外部读写的次数会降低很多，这里我们的多路归并的思路还是非常有必要的，但是如果我们还是采用之前的朴素的方法来进行比较的话，我们会发现，我们的比较次数会变得非常的冗杂，假设我们每次都要进行k录归并的划，依次比较需要O(k)才能得到结果，我们如果需要找到最终的归并序列，需要至少O(k*n)的归并次数，在归并路数非常答的情况下，无疑非常的麻烦且并且效率底下，这里我们的优化思路就出来了

3 .选择树的优化思路

我们会发现，我们之所以朴素的方法效率底下的原因在于，我们依次只能找出一个最有数据信息，但是下一次，我们的最优信息就会选哟我们重新进行重复的操作来得到

我们的选择树构建的思路就是，依次不仅仅将我们的最优的欣喜求解出来，我们还要在依次的操作中将我们的之后的次优的信息都保存下来，下一次，我们就可以是按尽可能的高效读取了

这里的选择书我们有两种情况，下面我们一一道来

胜者树

我们对胜者树进行定义：

1.胜者树是一颗完全二叉树

2.胜者树的叶子结点保存我们的一个输入缓冲区（一路归并顺序表）

3.胜者树的非叶子节点保存当前比较的胜者的输入缓冲区的指针

4.胜者树的根节点保存我们的胜者树当前的的一次比较中的冠军（最优值）

现在我们来看一下胜者树的操作：

当我们将我们的胜者树的最优值输入到我们的 输出缓冲区（输出缓冲区从内存中额外开辟出来的一段，我们存储当前的归并的结果，缓冲区满写入磁盘）

之后，我们的根节点便出现了空的情况，我们需要从根节点对应的输入缓冲区中在读入一个数据来充当下一次比较的选手，然后从下到上进行维护，我们的每一次的维护都需要比较兄弟的胜者然后选出新一轮的胜者然后一直优化到我们的根的路径上（从低至上，贯穿整个树）

之后我们不断地进行上述的操作，指导我们的所有的输入缓冲区已经为空为止

败者树

我们通过上面的胜者树可以发现，我们的胜者数虽然相对于我们的之前的擦偶哦已经进行了很大程度上的优化，今本上已经达到了我们的O(k*logk)的实践复杂度

但是我们会注意到，我们每一次每个接待你都保存着我们的生者的信息而不是败者的信息

那么这个差别会对我们的实践效率有什么影响呢

下面这段解释非常的重要：

我们会发现，我们的胜者树维护的时候每次都需要去查找我们的根的兄弟节点的位置来进行比较，但是我们的每一次都要多一步查找兄弟的划，无论是对我们的程序的实现过程还是我们的时间效率上来看都还存在改进的余地

这里我们就要引入败者树

败者树的定义：

1.败者树是一颗完全二叉树

2.败者树的叶子结点保存的是我我们的输入缓冲区

3.败者树的非叶子结点保存我们的当前的比较中败者的对应的输入缓冲区的指针

4.败者树根保存我们的当前比较的亚军，根上面还有一个节点保存我们的冠军

如图所示，那么对于我们的调整树的过程中，我们只需要和当前的跟对应的败者的输入缓冲区的之比较就ok，减少了我们依次比较次数，那么在树庞大的时候，我们扽优化效果是非常的明显的

败者树 VS 堆

我们在进行我们的败者树选取的时候，读者那面都会遇到我的这种问题，如果我们的败者树进行归并排序的话，我们的堆排序的思路和败者树比较的话谁优谁劣？

这里的话，我们还真不好描述这个问题的最终结果，但是我想，败者树存在是有它的实际意义的

1.堆排序

首先，一旦存在了堆排序的划，我们就无需构建输出缓冲区，内存这个题就可以充当输出缓冲区，我们只要将我们n数据量的数据进行归并排序就好，实践复杂度是O(n*logn)

优点：

无输出缓冲区，充分利用内存资源

时间复杂度优秀O(n*logn)

相对于败者树来说，我们往往不需要从根维护到底，在维护的路径中有可能直接就中断

缺点：

树庞大，我们的logn值相对于我们的k路数来说很巨大，树的深度较大

建堆时间耗费很高，我们的缓冲区内的数据已经实现了按块基本有序

我们的堆维护的时候，每一层至少需要比较两次，败者树只需要一次就可以

2.败者树

优点：

相对于堆来说，我们的树的规模很小，似的我们的时间复杂度在在实践中可能会平均状态下更加优秀

每次维护我们每一层只需要比较一次

缺点：

我们的败者树的维护过程中必须要从底一直维护到根，这个路径不能中断，我们的堆实际中调整的次数可能会更小

最后究竟谁胜还真不好比较，我会再次问老师以求解答

K-路最佳归并树

上面的选择树中的败者树已经给我们的依次归并的实践效率给予了很好的优化，现在我们需要从另一个角度来考虑减少我们的外部读写的次数了

首先，我们需要了解到，我们的每个输入缓冲区的数据量都不一定是一样的，这意味着什么

这意味着我们的每一次的每个块的外部读写的次数是不一样，数据量大的外部读写次数相对高，数据量小的外部读写次数相对底

那么我们想到了什么？

没错，就是我们的最有二叉树 - Haffman树 Lantian的Haffman讲解

我们想到的方向很对，K-路最佳归并树实质上就是K-Haffman数，我们的优化的ing一需求是尽量的让我们的数据量大的块读写次数少，数据量小的读写次数多，利用我在Haffman中的反证贪心法，这样构成的K-路最佳归并树无疑可以让我们的外部读写次数降到最低值

K-路最佳归并树的思路：

1.挑选出K个权值（数据量）最小的缓冲区

2.缓冲区利用败者树进行一次归并操作，生成一个新的大的缓冲区，加入到我们的选择序列

3.重复上述的过程指导只剩下一个输入缓冲区，我们的归并操作结束，生成了有序的外部文件

上面的操作1我们为了提高时间效率通常使用堆来进行优化

核心伪代码：

1.堆

heap - array save the number of the data
heapnum - the size of the heap

siftdown(i):
    t
    while i*2<=heapnum:
        if heap[i]>heap[i*2]: t=i*2
        else t=i
        if i*2+1<=heapnum and heap[i*2+1]

 
   
 2.K-路最佳归并树

 
  m - the size of the K-Haffman
data[] - the size is m,the input cache,waited to merge

K_Merge(data,m):
    creat_heap(m)
    while heapnum!=1:
        help=[]   //保存k个选出的缓冲区序列
        for i=1 to k:
            help.append(pop())   //弹出堆顶并进行维护最小堆性质
        Loser_Tree(help,k) 
   
   
 
   
  
    3.败者树: 
   
  data - the size is the k,the array wait to merge
k - the size
ls - 非叶子节点，保存我们的输入缓冲区指针
MIN - 最小值，在我们建树的时候用来辅助维护
MAX - 我们维护的时候，为了防止出现一个缓冲区为空的情况，添加的哨兵

Loser_Tree(data,k):
    new_input //新的输入缓冲区，需要返回的结果
    creat_Loser_Tree(data,k)
    while data[ls[0]].top()!=MAX:
        new_input.append(data[ls[0]].top)
        data[ls[0]].pop()
        Adjust(ls[0])   //调整

creat_Loser_Tree(data,k):
    data[0].append(MIN)   //哨兵,辅助构建败者树
    clear ls
    for i=1 to k:
        data[i].append(MAX)   //哨兵，辅助维护败者树
    for i=k down to 1:
        Adjust(i)


Adjust(int root):
    father = root /2
    winner = root
    t = root
    while t!=0:   //0是要维护到败者树的最顶端
        if win:
            swap(winner,loser)
   ls[0]=winner      
         
  
 C++ Code: 
   
   #include"iostream"
#include"cstdio"
#include"cstring"
#include"cstdlib"
#include"algorithm"
#define N 1005
#define INF 0x3fffffff
#define MIN -INF

/*
利用OOP思路 构建cache高速缓存类 在不考虑内存容量的前提下 模拟最佳归并树，败者树 
cache内利用栈模拟 
*/

using namespace std;

class Empty_Error{}; 

class cache   //模拟高速缓存 
{
	public:
	    cache()
		{
			head=1;
			memset(stack,0,sizeof(stack));
			tail=1;
		} 
		inline int top()
		{
			try
			{
				if(empty()) throw Empty_Error();
				else return stack[head];
			}
			catch(Empty_Error x)
			{
				cout<<"try to get the element from an empty cache!"<= N) return true;
			else false;
		}
		inline void append(int x)   //添加数据项接口 
		{
			stack[tail++]=x;
		}
	private:
		int head;
		int tail;
		int stack[N];   
};

cache test[1005];
int heapnum;
int k;
int m;

void jiaohuan(int i,int t)
{
	cache p=test[i];
	test[i]=test[t];
	test[t]=p;
}

void sift_down(int i)
{
	int t;
	while(i*2<=heapnum)
	{
		if(test[i*2].size() < test[i].size()) t=i*2;
		else t=i;
		if(i*2+1 <= heapnum && test[i*2+1].size() < test[t].size()) t=i*2+1;
		if(i != t)
		{
			jiaohuan(i,t);
			i=t;
		}
		else break;
	}
} 

void sift_up(int i)
{
	int t;
	while(i!=1)
	{
		if(test[i].size() < test[i/2].size())
		{
			int k=i/2;
			jiaohuan(i,k);
			i=i/2;
		}
		else break;
	}
}

void creat_heap(int num)
{
	for(int i=(num>>1);i>=1;i--)
	{
		sift_down(i);
	}
}

void Adjust_tree(int start,int ls[],cache* queue)
{
	int winner=start;
	int t=(start+k-1)/2;
	while(t!=0)
	{
		int a=queue[winner].top();
		int b=queue[ls[t]].top();
		if(a > b)
		{
			int loser=winner;
			winner=ls[t];
			ls[t]=loser;
		}
		t=t/2;
	}
	ls[0]=winner;
}

void creat_Loser_tree(int ls[],cache* queue)
{
	for(int i=1;i=1;i--)
	{
		Adjust_tree(i,ls,queue);
	} 
}

cache K_merge(cache* queue,int k)
{
    cache ans;
	int ls[N];    //实际上只需要2*k+1的辅助空间  
	creat_Loser_tree(ls,queue);
	while(queue[ls[0]].top()!=INF)
	{
		ans.append(queue[ls[0]].top());
		queue[ls[0]].pop();
		Adjust_tree(ls[0],ls,queue);
	}
	return ans;
}

int main()   //测试入口 
{
	printf("决定K-路归并:");
	scanf("%d",&k);
	printf("决定块数:");
	scanf("%d",&m);
	int b=k-(m-1)%(k-1)-1;
	int NUM = b+m;
	heapnum = NUM;
	
	for(int i=1;i<=m;i++)
	{
		int x;
		int y;
		printf("初始化高速缓存%d\n",i);
		printf("缓存容量:\n");
		scanf("%d",&x);
		for(int j=1;j<=x;j++)
		{
			scanf("%d",&y);
			test[i].append(y);
		 } 
    }
	
	creat_heap(NUM);
	
	cache Loser_tree[k+5];
	for(int i=1;i<=NUM;i *= k)
	{
		for(int j=1;j<=k;j++)   //获取归并序列 
		{
			Loser_tree[j] = test[1];
			test[1]=test[heapnum--];
			sift_down(1);
		} 
		cache ans=	K_merge(Loser_tree,k);
		test[heapnum+1]=ans;
		heapnum++;
		sift_up(heapnum); 
	} 
	
	//测试输出
	while(!test[1].empty())
	{
		cout<
 
   
 
  
 
  遗留问题以及鸣谢： 
  
    1.感谢屈老师的课件 
   
  
    2. https://my.oschina.net/liudiwu/blog/387280 
   
  
    3. https://segmentfault.com/q/1010000000315760 
   
  
    4.《数据结构》 - 严老师 
   
   
   
 
   
  
    1.C++代码的模板类型 - 存在毛病 
   
  
    2.败者树和堆的效率比较

Java集合List每回取出10个数据，分页操作。文杰一米八 java 算法
最近遇到一个需求，在点击加载更多的时候，每页返回10个数据。设计了一个小算法。话不多说，直接上代码。publicstaticvoidmain(String[]args){System.out.println("请输入当前页数：");Scanners1=newScanner(System.in);inta=s1.nextInt();System.out.println("请输入每页条数：");Sca
【Day23 LeetCode】贪心算法题银河梦想家 leetcode 贪心算法
一、贪心算法贪心没有套路，只有碰运气（bushi），举反例看看是否可行，（运气好）刚好贪心策略的局部最优就是全局最优。1、分发饼干455思路：按照孩子的胃口从小到大的顺序依次满足每个孩子，对于每个孩子，应该选择可以满足这个孩子的胃口且尺寸最小的饼干classSolution{public:intfindContentChildren(vector&g,vector&s){sort(g.begin(
LeetCode hot 力扣热题100 翻转二叉树篮l球场 leetcode 算法职场和发展
运行步骤解析：invertTree函数该函数的目的是通过递归反转二叉树的每一个节点，使得每个节点的左子树和右子树交换。代码解释：1.函数定义：TreeNode*invertTree(TreeNode*root)这是一个递归函数，它接受一个二叉树的根节点root，并返回反转后的二叉树的根节点。2.递归终止条件：if(root)如果root是nullptr（表示空树或叶子节点），则不做任何操作，直接返
【MWORKS】MWORKS 使用感想 tsumikistep EE_MATLAB matlab word
文章目录前言实验感想前言进行DSP实验实验感想遇到的问题：Julia编译失败，转用.m可能是设置的问题，julia脚本运行有点慢m文件编写时不显示无分号输出m文件无法像MATLAB一样分段有些函数不支持，不太好用说实话感想界面长得像VScode+matlab，可拓展性不如VScode个人比较喜欢有树状资源管理器的m文件软件认为现阶段最好还是精进matlab或者py，如果在前两者没有学得较好的情况下
Qt调用网易云API获取歌词等接口 overwriter qt 开发语言
简介前段时间想用Qt做一个歌词处理的小工具，需要从网易云下载歌词；之前已经有大佬用node.js实现了网易云的API集合，但是Qt调用的话需要再走一次网络请求，管理起来有点麻烦，因此用Qt重写了一个网易云API库QCloudMusicApi。这里讲一下如何使用QCloudMusicApi库获取歌词以及调用其他接口。可参考文档API参考目录需求和依赖使用说明需求和依赖Qt5.12+使用说明新建项目新
raft4j:练手之作 youyouiknow tech-review 后端分布式
raft4j是一个我的基于RAFT一致性算法的高性能Java实现，其核心功能围绕分布式系统中的一致性协议展开。整体架构raft4j的架构设计清晰，核心模块围绕RAFT协议的三个部分展开：Leader选举确保在任何时间只有一个有效的Leader承担写入请求。日志复制保证日志在所有节点上的一致性。日志应用和状态机将日志应用到状态机，提供最终一致的系统状态。raft4j通过高度模块化的设计，将这些功能封
告别龟速加载：三种压缩算法让你的网站瞬间提速！ youyouiknow tech-review 服务器 java nginx 后端算法
三种压缩算法，让你的网站飞起来！！！前言在当今快节奏的互联网世界，用户对网站加载速度的要求越来越高。一个加载缓慢的网站不仅会损害用户体验，还会影响搜索引擎排名，最终导致流量和转化率的下降。为了提升网站性能，优化页面加载速度，数据压缩技术应运而生。通过压缩服务器响应数据，可以有效减少网络传输量，从而缩短页面加载时间，让你的网站“飞”起来！本文将深入探讨三种常用的网站压缩算法：Gzip、Brotli和
Go：整型转罗马数字算法(附完整源码) 源代码大师 go语言完整教程 golang 算法
Go：整型转罗马数字算法packageconversionimport("errors")var(r0=[]string{"","I","II"
商汤善惠获金沙江创投领投A轮融资，聚焦零售AI业务 TMT星球人工智能人工智能零售大数据
1月20日，商汤善惠宣布完成A轮融资，本轮融资由金沙江创投数千万元领投，微木资本、嘉实基金和金弘基金等知名资管平台和产业资本数千万元跟投，鞍羽资本担任长期财务顾问。此次融资将重点投向零售AI算法研发创新、海外市场拓展战略方向，助力公司全球化布局迈入新阶段。商汤善惠脱胎于全球领先的AI人工智能软件公司商汤集团，聚焦零售领域的商品识别算法与智能运营提效算法，目前，公司已推出引领行业的新一代无人零售智能
Java算法栈王景程 java 开发语言算法数据结构
栈作为编程中一个常见的算法，以下是它的特征以及一个相对应的例子：在编程中，**栈（Stack）**是一种后进先出（LIFO,LastInFirstOut）数据结构。它的特性是：入栈（Push）：将元素添加到栈顶。出栈（Pop）：将栈顶元素移除。查看栈顶元素（Peek/Top）：获取栈顶元素但不移除。Java提供了一个现成的Stack类，它是java.util包的一部分，可以直接用于算法问题中。算法
软件架构设计与模式之：模块化设计与组件化架构 AI天才研究院 AI大模型企业级应用开发实战架构师必知必会系列编程实践大数据人工智能语言模型 Java Python 架构设计
软件架构设计与模式之：模块化设计与组件化架构作者：禅与计算机程序设计艺术文章目录软件架构设计与模式之：模块化设计与组件化架构1.背景介绍模块化设计的特点组件化设计的特点2.核心概念与联系定义关系3.核心算法原理和具体操作步骤以及数学模型公式详细讲解模块化设计模式模块化设计模式详解（一）功能分工模式1.功能设计2.职责分工3.功能分工结果（二）数据分工模式1.数据设计2.数据角色分工3.数据主题分工
Systrace系列1—— 简介添码星空工具使用 android 经验分享 ide java
本文主要是对Systrace进行简单介绍，介绍其简单使用方法；如何去看Systrace；如何结合其他工具对Systrace中的现象进行分析。本系列的目的是通过Systrace这个工具，从另外一个角度来看待Android系统整体的运行，同时也从另外一个角度来对Framework进行学习。也许你看了很多讲Framework的文章，但是总是记不住代码，或者不清楚其运行的流程，也许从Systrace这个图
Ubuntu 下访问摄像头及将摄像头数据重定向到http协议远程访问摄像头 chn89 Linux
本文的主要工作是ubuntu下打开摄像头，保存图片及视频，以及将视频流搬到网络上，远程访问之。两个目的，第一是手头现有树霉派，但是没有摄像头模块，所以就以笔记本来做实验，最终想法是树霉派连接摄像头模块作为一个远程网络视频监控器。第二，是安卓或者IOS装个支持视频流的播放器，就可以打开上述远程视频监控器了1打开摄像头为了访问摄像头，需要安装cheese软件。sudoapt-getinstallche
Python酷库之旅-第三方库Pandas(056) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲211、pandas.Series.truncate方法211-1、语法211-2、参数211-3、功能211-4、返回值211-5、说明211-6、用法211-6-1、数据准备211-6-2、代码示例211-6-3、结果输出212、pandas.Series.where方法212-1、语法212-2、参数212-3、功能212-4、返回值212-5、说明212-6、用法212-6
Redis从0到1详解（SpringBoot）小白的一叶扁舟面试题 redis spring boot 数据库 spring cloud java 后端中间件
前言在现代应用中，Redis扮演着重要的角色，作为高性能的缓存和消息队列，它能够大大提高系统的响应速度和吞吐量。在SpringBoot项目中使用Redis，不仅能通过简单的配置连接Redis服务，还能利用Redis提供的各种高效算法，如LRU（最近最少使用）和LFU（最不常用）来实现智能的数据管理。此外，分布式锁也可以通过Redis提供的功能来实现，保证多线程或多服务之间的数据一致性。本文将介绍如
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
使用FAISS进行高效相似性搜索与向量存储 dagGAIYD faiss python
技术背景介绍FacebookAISimilaritySearch(FAISS)是一个用于高效相似性搜索和稠密向量聚类的库。它能够在任意大小的向量集合中进行搜索，即使这些集合可能无法完全加载到内存中。FAISS提供了评估与参数调优的支持代码，使得它在处理大型数据集时非常实用。核心原理解析FAISS的核心在于其利用高效的数据结构和算法，如倒排文件和压缩索引，使得大量向量的相似性搜索成为可能。它主要通过
C语言之冒泡排序雾里看山数据结构 C语言 c语言算法排序算法笔记数据结构
在程序中，我们最先学会和使用的排序方法就是冒泡排序，他作为使用简单，利于理解的一种排序算法，一直深受初学者的喜欢，接下来让我们一起深刻了解一下这个排序算法吧。目录简介过程视图原理解读代码实现升序排列降序排列复杂度和稳定性时间复杂度空间复杂度稳定性注意事项简介它重复地走访过要排序的元素列，依次比较两个相邻的元素，如果顺序（如从大到小、首字母从Z到A）错误就把他们交换过来。走访元素的工作是重复地进行，
机器学习-分类算法评估标准赛丽曼机器学习机器学习分类人工智能
一.准确率accuracy将预测结果和测试集的目标值比较，计算预测正确的百分比准确率越高说明模型效果越好fromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifier#加载鸢尾花数据X,y=datasets.load_i
算法——归并排序（基本思想、java实现、实现图解） Camel卡蒙数据结构与算法算法 java 排序算法
我是一个计算机专业研0的学生卡蒙Camel（刚保研）记录每天学习过程（主要学习Java、python、人工智能），总结知识点（内容来自：自我总结+网上借鉴）希望大家能一起发现问题和补充，也欢迎讨论文章目录归并排序介绍Java代码实现算法分析实现图解️和快速排序对比(面试)归并排序介绍归并排序（MergeSort）是一种基于分治法的排序算法。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列
python random模块中seed函数的详解_详解Python基础random模块随机数的生成 Fccf python
随机数参与的应用场景大家一定不会陌生，比如密码加盐时会在原密码上关联一串随机数，蒙特卡洛算法会通过随机数采样等等。Python内置的random模块提供了生成随机数的方法，使用这些方法时需要导入random模块。importrandom下面介绍下Python内置的random模块的几种生成随机数的方法。1、random.random()随机生成0到1之间的浮点数[0.0,1.0)。print("r
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测墨枣机器学习算法神经网络分类人工智能
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc1.算法简介和应用1.1算法简介BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经
魔兽地图服务器修改,如何修改魔兽地图（傻瓜版） leniou的牙膏魔兽地图服务器修改
最近很多互通图流入各大平台。很多人都想知道这个是如何制作的。现在我就教下大家。首先你要理解互通图之所以逃过各大平台以及暴雪检测的方法本来魔兽争霸是有一个地图验证的，如果你跟主机的图不同，是进不去的(要下载地图)。但是魔兽对地图中的war3map.j文件是进行bcc(blockcheckcharacter)校验的，bcc不同于md5，bcc一般只是用来排错的，并不是加密算法。所以就有人写出了这样的代
抖音算法：信息茧房的真相与AI代码生成器的助力前端
近年来，抖音的推荐算法备受争议，引发了公众对“信息茧房”的广泛关注。抖音集团副总裁李亮近日接受采访，就抖音算法的运作机制和“信息茧房”问题发表了独到见解。他认为，抖音算法并非神秘莫测，其核心原理与业界普遍使用的算法并无本质区别，关键在于平台的目标和用户体验的侧重点。这也引出了一个关键问题：如何利用技术手段，例如AI代码生成器，来优化算法，提升用户体验，并最终打破“信息茧房”的困局？抖音算法：长期留
抖音算法：信息茧房的真相与AI代码生成器的助力前端
近年来，抖音的推荐算法备受争议，引发了公众对“信息茧房”的广泛关注。抖音集团副总裁李亮近日接受采访，就抖音算法的运作机制和“信息茧房”问题发表了独到见解。他认为，抖音算法并非神秘莫测，其核心原理与业界普遍使用的算法并无本质区别，关键在于平台的目标和用户体验的侧重点。这也引出了一个关键问题：如何利用技术手段，例如AI代码生成器，来优化算法，提升用户体验，并最终打破“信息茧房”的困局？抖音算法：长期留
OpenCV相机标定与3D重建(64)用于迭代地优化图像点的位置函数undistortImagePoints()的使用 jndingxin OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述计算无畸变图像点的位置。cv::undistortImagePoints这个函数用于迭代地优化图像点的位置，以补偿镜头畸变，并且允许指定终止条件来控制迭代过程。函数原型voidcv::undistortImagePoints(InputArraysrc,Outpu
OpenCV相机标定与3D重建(65)对图像点进行去畸变处理函数undistortPoints()的使用 jndingxin OpenCV opencv
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述从观测到的点坐标计算理想点坐标。该函数类似于undistort和initUndistortRectifyMap，但它操作的是稀疏点集而不是光栅图像。此外，该函数执行与projectPoints相反的变换。对于3D对象，它不会重建其3D坐标；但对于平面对象，如果指定
OpenCV相机标定与3D重建(66)对立体匹配生成的视差图（disparity map）进行验证的函数validateDisparity()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述使用左右检查来验证视差。矩阵“cost”应该由立体对应算法计算。cv::validateDisparity函数是OpenCV库中用于对立体匹配生成的视差图（disparitymap）进行后处理的一个工具。其主要功能是对计算出的视差值进行验证，确保相邻像素间的视差值
OpenCV相机标定与3D重建(2)鱼眼相机模型 jndingxin OpenCV 数码相机 opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述鱼眼相机是一种具有非常宽视野的相机，通常会产生强烈的径向畸变。鱼眼相机模型旨在捕捉这种畸变，以便能够准确地处理和校正图像。鱼眼相机模型通常使用多项式函数来描述径向畸变。定义：设P是世界参考系中的一个3D点，其坐标为X(存储在矩阵X中）。点P在相机参考系中的坐标向量
使用ModelScope实现高效句嵌入生成 dagGAIYD python
技术背景介绍在自然语言处理（NLP）任务中，向量化文本（嵌入）是许多下游任务（如语义搜索、文本分类、问答系统等）的核心步骤之一。通过将文本转换为密集向量表示，我们可以在高维向量空间中构建更加高效的表示和检索算法。ModelScope是阿里云开源的一个模型和数据集管理平台，提供了大量预训练模型，涵盖了各种领域和任务。ModelScopeEmbeddings是一个与LangChain社区集成的工具类，
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

胜者树 败者树 K-路最佳归并树 高效外部排序