iteye_4515

海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介

Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。

Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom Filter判断元素不再集合，那肯定不在。如果判断元素存在集合中，有一定的概率判断错误。因此，Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下，Bloom Filter比其他常见的算法（如hash，折半查找）极大节省了空间。

它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

Bloom Filter的详细介绍：Bloom Filter

2、 Bloom-Filter的基本思想

Bloom-Filter算法的核心思想就是利用多个不同的Hash函数来解决“冲突”。

计算某元素x是否在一个集合中，首先能想到的方法就是将所有的已知元素保存起来构成一个集合R，然后用元素x跟这些R中的元素一一比较来判断是否存在于集合R中；我们可以采用链表等数据结构来实现。但是，随着集合R中元素的增加，其占用的内存将越来越大。试想，如果有几千万个不同网页需要下载，所需的内存将足以占用掉整个进程的内存地址空间。即使用MD5，UUID这些方法将URL转成固定的短小的字符串，内存占用也是相当巨大的。

于是，我们会想到用Hash table的数据结构，运用一个足够好的Hash函数将一个URL映射到二进制位数组（位图数组）中的某一位。如果该位已经被置为1，那么表示该URL已经存在。

Hash存在一个冲突（碰撞）的问题，用同一个Hash得到的两个URL的值有可能相同。为了减少冲突，我们可以多引入几个Hash，如果通过其中的一个Hash值我们得出某元素不在集合中，那么该元素肯定不在集合中。只有在所有的Hash函数告诉我们该元素在集合中时，才能确定该元素存在于集合中。这便是Bloom-Filter的基本思想。

原理要点：一是位数组，而是k个独立hash函数。

1）位数组：

假设Bloom Filter使用一个m比特的数组来保存信息，初始状态时，Bloom Filter是一个包含m位的位数组，每一位都置为0，即BF整个数组的元素都设置为0。

2）添加元素，k个独立hash函数

为了表达S={x₁, x₂,…,x_n}这样一个n个元素的集合，Bloom Filter使用k个相互独立的哈希函数（Hash Function），它们分别将集合中的每个元素映射到{1,…,m}的范围中。

当我们往Bloom Filter中增加任意一个元素x时候，我们使用k个哈希函数得到k个哈希值，然后将数组中对应的比特位设置为1。即第i个哈希函数映射的位置hash_i(x)就会被置为1（1≤i≤k）。

注意，如果一个位置多次被置为1，那么只有第一次会起作用，后面几次将没有任何效果。在下图中，k=3，且有两个哈希函数选中同一个位置（从左边数第五位，即第二个“1“处）。

3）判断元素是否存在集合

在判断y是否属于这个集合时，我们只需要对y使用k个哈希函数得到k个哈希值，如果所有hash_i(y)的位置都是1（1≤i≤k），即k个位置都被设置为1了，那么我们就认为y是集合中的元素，否则就认为y不是集合中的元素。下图中y₁就不是集合中的元素（因为y1有一处指向了“0”位）。y₂或者属于这个集合，或者刚好是一个false positive。

显然这个判断并不保证查找的结果是100%正确的。

Bloom Filter的缺点：

1）Bloom Filter无法从Bloom Filter集合中删除一个元素。因为该元素对应的位会牵动到其他的元素。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。此外，Bloom Filter的hash函数选择会影响算法的效果。

2）还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数，即hash函数选择会影响算法的效果。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge ，大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

注意：

这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

一般BF可以与一些key-value的数据库一起使用，来加快查询。由于BF所用的空间非常小，所有BF可以常驻内存。这样子的话，对于大部分不存在的元素，我们只需要访问内存中的BF就可以判断出来了，只有一小部分，我们需要访问在硬盘上的key-value数据库。从而大大地提高了效率。

一个Bloom Filter有以下参数：

m	bit数组的宽度（bit数）
n	加入其中的key的数量
k	使用的hash函数的个数
f	False Positive的比率

Bloom Filter的f满足下列公式：

在给定m和n时，能够使f最小化的k值为：

此时给出的f为：

根据以上公式，对于任意给定的f，我们有：

n = m ln(0.6185) / ln(f) [1]

同时，我们需要k个hash来达成这个目标：

k = - ln(f) / ln(2) [2]

由于k必须取整数，我们在Bloom Filter的程序实现中，还应该使用上面的公式来求得实际的f：

f = (1 – e^-kn/m)^k[3]

以上3个公式是程序实现Bloom Filter的关键公式。

3、扩展CounterBloom Filter

CounterBloom Filter

BloomFilter有个缺点，就是不支持删除操作，因为它不知道某一个位从属于哪些向量。那我们可以给Bloom Filter加上计数器，添加时增加计数器，删除时减少计数器。

但这样的Filter需要考虑附加的计数器大小，假如同个元素多次插入的话，计数器位数较少的情况下，就会出现溢出问题。如果对计数器设置上限值的话，会导致Cache Miss，但对某些应用来说，这并不是什么问题，如Web Sharing。

Compressed Bloom Filter

为了能在服务器之间更快地通过网络传输Bloom Filter，我们有方法能在已完成Bloom Filter之后，得到一些实际参数的情况下进行压缩。

将元素全部添加入Bloom Filter后，我们能得到真实的空间使用率，用这个值代入公式计算出一个比m小的值，重新构造Bloom Filter，对原先的哈希值进行求余处理，在误判率不变的情况下，使得其内存大小更合适。

4、Bloom-Filter的应用

Bloom-Filter一般用于在大数据量的集合中判定某元素是否存在。例如邮件服务器中的垃圾邮件过滤器。在搜索引擎领域，Bloom-Filter最常用于网络蜘蛛(Spider)的URL过滤，网络蜘蛛通常有一个URL列表，保存着将要下载和已经下载的网页的URL，网络蜘蛛下载了一个网页，从网页中提取到新的URL后，需要判断该URL是否已经存在于列表中。此时，Bloom-Filter算法是最好的选择。

1.key-value 加快查询

一般Bloom-Filter可以与一些key-value的数据库一起使用，来加快查询。

一般key-value存储系统的values存在硬盘，查询就是件费时的事。将Storage的数据都插入Filter，在Filter中查询都不存在时，那就不需要去Storage查询了。当False Position出现时，只是会导致一次多余的Storage查询。

由于Bloom-Filter所用的空间非常小，所有BF可以常驻内存。这样子的话，对于大部分不存在的元素，我们只需要访问内存中的Bloom-Filter就可以判断出来了，只有一小部分，我们需要访问在硬盘上的key-value数据库。从而大大地提高了效率。如图：

2 .Google的BigTable

Google的BigTable也使用了Bloom Filter，以减少不存在的行或列在磁盘上的查询，大大提高了数据库的查询操作的性能。

3. Proxy-Cache

在Internet Cache Protocol中的Proxy-Cache很多都是使用Bloom Filter存储URLs，除了高效的查询外，还能很方便得传输交换Cache信息。

4.网络应用

1）P2P网络中查找资源操作，可以对每条网络通路保存Bloom Filter，当命中时，则选择该通路访问。

2）广播消息时，可以检测某个IP是否已发包。

3）检测广播消息包的环路，将Bloom Filter保存在包里，每个节点将自己添加入Bloom Filter。

4）信息队列管理，使用Counter Bloom Filter管理信息流量。

5. 垃圾邮件地址过滤

像网易，QQ这样的公众电子邮件（email）提供商，总是需要过滤来自发送垃圾邮件的人（spamer）的垃圾邮件。

一个办法就是记录下那些发垃圾邮件的 email地址。由于那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则需要大量的网络服务器。

如果用哈希表，每存储一亿个 email地址，就需要 1.6GB的内存（用哈希表实现的具体办法是将每一个 email地址对应成一个八字节的信息指纹，然后将这些信息指纹存入哈希表，由于哈希表的存储效率一般只有 50%，因此一个 email地址需要占用十六个字节。一亿个地址大约要 1.6GB，即十六亿字节的内存）。因此存贮几十亿个邮件地址可能需要上百 GB的内存。

而Bloom Filter只需要哈希表 1/8到 1/4 的大小就能解决同样的问题。

BloomFilter决不会漏掉任何一个在黑名单中的可疑地址。而至于误判问题，常见的补救办法是在建立一个小的白名单，存储那些可能别误判的邮件地址。

5、Bloom-Filter的具体实现

c语言实现：

stdafx.h：

#pragma once
#include   
#include "stdlib.h"
#include 
#include 
using namespace std;

#include "stdafx.h"


#define ARRAY_SIZE 256 /*we get the 256 chars of each line*/
#define SIZE 48000000 /* size should be 1/8 of max*/
#define MAX  384000000/*the max bit space*/

#define SETBIT(ch,n) ch[n/8]|=1<<(7-n%8)
#define GETBIT(ch,n) (ch[n/8]&1<<(7-n%8))>>(7-n%8)

unsigned int len(char *ch);/* functions to calculate the length of the url*/

unsigned int RSHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int JSHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int PJWHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int ELFHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int BKDRHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int SDBMHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int DJBHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int DEKHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int BPHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int FNVHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int APHash(char* str, unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int HFLPHash(char* str,unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int HFHash(char* str,unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int StrHash( char* str,unsigned int len);/* functions to calculate the hash value of the url*/
unsigned int TianlHash(char* str,unsigned int len);/* functions to calculate the hash value of the url*/


int main()
{
	int i,num,num2=0; /* the number to record the repeated urls and the total of it*/
	unsigned int tt=0;
	int flag;         /*it helps to check weather the url has already existed */
    char buf[257];    /*it helps to print the start time of the program */
    time_t tmp = time(NULL);

	char file1[100],file2[100];
	FILE *fp1,*fp2;/*pointer to the file */
	char ch[ARRAY_SIZE];  
	char *vector ;/* the bit space*/
	vector = (char *)calloc(SIZE,sizeof(char));

	printf("Please enter the file with repeated urls:\n");
	scanf("%s",&file1);   
	if( (fp1 = fopen(file1,"rb")) == NULL) {  /* open the goal file*/
	  printf("Connot open the file %s!\n",file1);
	}

	printf("Please enter the file you want to save to:\n");
	scanf("%s",&file2);
	if( (fp2 = fopen(file2,"w")) == NULL) {
		printf("Connot open the file %s\n",file2);
	}
    strftime(buf,32,"%Y-%m-%d %H:%M:%S",localtime(&tmp));
    printf("%s\n",buf); /*print the system time*/

	for(i=0;i>2));
   }
   return hash;
}
/* End Of JS Hash Function */


unsigned int PJWHash(char* str, unsigned int len)
{
   const unsigned int BitsInUnsignedInt = (unsigned int)(sizeof(unsigned int) * 8);
   const unsigned int ThreeQuarters = (unsigned int)((BitsInUnsignedInt  * 3) / 4);
   const unsigned int OneEighth = (unsigned int)(BitsInUnsignedInt / 8);
   const unsigned int HighBits = (unsigned int)(0xFFFFFFFF) << (BitsInUnsignedInt - OneEighth);
   unsigned int hash = 0;
   unsigned int test = 0;
   unsigned int i = 0;

   for(i=0;i> ThreeQuarters)) & (~HighBits));
      }
   }

   return hash;
}
/* End Of  P. J. Weinberger Hash Function */


unsigned int ELFHash(char* str, unsigned int len)
{
   unsigned int hash = 0;
   unsigned int x    = 0;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++) {
      hash = (hash << 4) + (*str);
      if((x = hash & 0xF0000000L) != 0) {
         hash ^= (x >> 24);
      }
      hash &= ~x;
   }
   return hash;
}
/* End Of ELF Hash Function */


unsigned int BKDRHash(char* str, unsigned int len)
{
   unsigned int seed = 131; /* 31 131 1313 13131 131313 etc.. */
   unsigned int hash = 0;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++)
   {
      hash = (hash * seed) + (*str);
   }

   return hash;
}
/* End Of BKDR Hash Function */


unsigned int SDBMHash(char* str, unsigned int len)
{
   unsigned int hash = 0;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++) {
      hash = (*str) + (hash << 6) + (hash << 16) - hash;
   }

   return hash;
}
/* End Of SDBM Hash Function */


unsigned int DJBHash(char* str, unsigned int len)
{
   unsigned int hash = 5381;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++) {
      hash = ((hash << 5) + hash) + (*str);
   }

   return hash;
}
/* End Of DJB Hash Function */


unsigned int DEKHash(char* str, unsigned int len)
{
   unsigned int hash = len;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++) {
      hash = ((hash << 5) ^ (hash >> 27)) ^ (*str);
   }
   return hash;
}
/* End Of DEK Hash Function */


unsigned int BPHash(char* str, unsigned int len)
{
   unsigned int hash = 0;
   unsigned int i    = 0;
   for(i = 0; i < len; str++, i++) {
      hash = hash << 7 ^ (*str);
   }

   return hash;
}
/* End Of BP Hash Function */


unsigned int FNVHash(char* str, unsigned int len)
{
   const unsigned int fnv_prime = 0x811C9DC5;
   unsigned int hash      = 0;
   unsigned int i         = 0;

   for(i = 0; i < len; str++, i++) {
      hash *= fnv_prime;
      hash ^= (*str);
   }

   return hash;
}
/* End Of FNV Hash Function */


unsigned int APHash(char* str, unsigned int len)
{
   unsigned int hash = 0xAAAAAAAA;
   unsigned int i    = 0;

   for(i = 0; i < len; str++, i++) {
      hash ^= ((i & 1) == 0) ? (  (hash <<  7) ^ (*str) * (hash >> 3)) :
                               (~((hash << 11) + (*str) ^ (hash >> 5)));
   }

   return hash;
}
/* End Of AP Hash Function */
unsigned int HFLPHash(char *str,unsigned int len)
{
   unsigned int n=0;
   int i;
   char* b=(char *)&n;
   for(i=0;i='A')  {
			  ucChar=ucChar+32;
          }
          urlHashValue+=(3*i*ucChar*ucChar+5*i*ucChar+7*i+11*ucChar)%1677216;
      }
  } else  {
	  for(i=1;i<=96;i++)
	  {
		  ucChar=str[i+ilength-96-1];
		  if(ucChar<='Z'&&ucChar>='A')
		  {
			  ucChar=ucChar+32;
		  }
		  urlHashValue+=(3*i*ucChar*ucChar+5*i*ucChar+7*i+11*ucChar)%1677216;
	  }
  }
  return urlHashValue;

 }
/*End Of Tianl Hash Function*/

网上找到的php简单实现：

m = $m;
        $this->k = $k;
        $this->n = 0;

        /* Initialize the bit set */
        $this->bitset = array_fill(0, $this->m - 1, false);
    }

    /**
     * False Positive的比率：f = (1 – e-kn/m)k   
     * Returns the probability for a false positive to occur, given the current number of items in the filter
     *
     * @return double
     */
    public function getFalsePositiveProbability() {
        $exp = (-1 * $this->k * $this->n) / $this->m;

        return pow(1 - exp($exp),  $this->k);
    }

    /**
     * Adds a new item to the filter
     *
     * @param mixed Either a string holding a single item or an array of 
     *              string holding multiple items.  In the latter case, all
     *              items are added one by one internally.
     */
    public function add($key) {
        if (is_array($key)) {
            foreach ($key as $k) {
                $this->add($k);
            }
            return;
        }

        $this->n++;

        foreach ($this->getSlots($key) as $slot) {
            $this->bitset[$slot] = true;
        }
    }

    /**
     * Queries the Bloom filter for an element
     *
     * If this method return FALSE, it is 100% certain that the element has
     * not been added to the filter before.  In contrast, if TRUE is returned,
     * the element *may* have been added to the filter previously.  However with
     * a probability indicated by getFalsePositiveProbability() the element has
     * not been added to the filter with contains() still returning TRUE.
     *
     * @param mixed Either a string holding a single item or an array of 
     *              strings holding multiple items.  In the latter case the
     *              method returns TRUE if the filter contains all items.
     * @return boolean
     */
    public function contains($key) {
        if (is_array($key)) {
            foreach ($key as $k) {
                if ($this->contains($k) == false) {
                    return false;
                }
            }

            return true;
        }

        foreach ($this->getSlots($key) as $slot) {
            if ($this->bitset[$slot] == false) {
                return false;
            }
        }

        return true;
    }

    /**
     * Hashes the argument to a number of positions in the bit set and returns the positions
     *
     * @param string Item
     * @return array Positions
     */
    protected function getSlots($key) {
        $slots = array();
        $hash = self::getHashCode($key);
        mt_srand($hash);

        for ($i = 0; $i < $this->k; $i++) {
            $slots[] = mt_rand(0, $this->m - 1);
        }

        return $slots;
    }

    /**
     * 使用CRC32产生一个32bit（位）的校验值。
     * 由于CRC32产生校验值时源数据块的每一bit（位）都会被计算，所以数据块中即使只有一位发生了变化，也会得到不同的CRC32值。
     * Generates a numeric hash for the given string
     *
     * Right now the CRC-32 algorithm is used.  Alternatively one could e.g.
     * use Adler digests or mimick the behaviour of Java's hashCode() method.
     *
     * @param string Input for which the hash should be created
     * @return int Numeric hash
     */
    protected static function getHashCode($string) {
        return crc32($string);
    }
    
}



$items = array("first item", "second item", "third item");
        
/* Add all items with one call to add() and make sure contains() finds
 * them all.
 */
$filter = new BloomFilter(100, BloomFilter::getHashCount(100, 3));
$filter->add($items);

//var_dump($filter); exit;
$items = array("firsttem", "seconditem", "thirditem");
foreach ($items as $item) {
 var_dump(($filter->contains($item)));
}


/* Add all items with multiple calls to add() and make sure contains()
* finds them all.
*/
$filter = new BloomFilter(100, BloomFilter::getHashCount(100, 3));
foreach ($items as $item) {
	$filter->add($item);
}
$items = array("fir sttem", "secondit em", "thir ditem");
foreach ($items as $item) {
 var_dump(($filter->contains($item)));
}

问题实例】给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿bit，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

论单调队列优化DP VU-zFaith870 c++动态规划推荐算法
前情提要，参考资料：单调队列优化DP（超详细！！！）-endl\n-博客园【动态规划】选择数字（单调队列优化dp）_哔哩哔哩_bilibili背景：最近作者快被DP逼疯了，写篇博客做记录。以下是对各DP的原理阐释：单调队列通过队列元素的吸入与弹出，形成单调性的结构，使算法能够进行线性处理，大大优化了时间复杂度。接下来讲解单调队列在区间DP、背包DP、树形DP还有数位DP中的应用：1.单调队列优化区
关于scipy中uniform_filter函数的注意事项明·煜 scipy
关于scipy中uniform_filter函数的注意事项在处理分组聚合问题时，有时需要使用均值作为统计量。那其实就是一个均值滤波问题。我不希望使用for循环和均值卷积核来对二维数组进行滤波，因为这个线性运算且可用通过数字搬移来实现。在使用uniform_filter时在边界处会出现难以解释的值，不过后来发现是我对python语法不够熟悉导致的。例如以下代码：importnumpyasnpx=np
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
ribbon负载均衡策略说明高飞的Leo ribbon 负载均衡 java
Ribbon负载均衡策略说明和比较类名说明特点使用场景RoundRobinRule基于轮询算法选择服务实例。简单、公平，每个实例被选择的机会均等。适用于所有服务实例性能相近的场景。RandomRule随机选择服务实例。简单、随机，每个实例被选择的概率相同。适用于需要随机负载均衡的场景。WeightedResponseTimeRule根据服务实例的响应时间分配权重，选择响应时间短的实例。动态调整权重
zuul动态路由的伪代码实现高飞的Leo 源码分析 java spring 开发语言
自定义RouteLocator实现和事件发布1.继承自定义RouteLocator在SpringCloudZuul中，我们可以自定义一个RouteLocator，来替代默认的SimpleRouteLocator。伪代码实现：importorg.springframework.cloud.netflix.zuul.filters.route.RouteLocator<
python 实现 A* 算法 dev.null Python python 算法开发语言
A*算法是一种广泛使用的路径搜索算法，结合了启发式搜索和Dijkstra算法的优点。它通过评估每个节点的代价函数(f(n)=g(n)+h(n))来选择最优路径，其中：(g(n))是从起点到当前节点的实际代价。(h(n))是从当前节点到目标节点的启发式估计代价（如曼哈顿距离或欧几里得距离）。以下是一个Python实现的A*算法示例：Python实现A*算法importheapqfrommathimp
二叉树中两个节点最近公共祖先的查找算法研究 cloudman08 深度优先算法
目录摘要一、引言二、问题定义三、问题分析3.1二叉树的特性利用3.2暴力搜索的不足四、算法设计4.1递归算法（适用于普通二叉树）4.2迭代算法（适用于二叉搜索树）4.3代码实现（Python）4.4代码解释五、复杂度分析5.1递归算法复杂度（普通二叉树）5.2迭代算法复杂度（二叉搜索树）六、实际应用6.1文件系统目录结构6.2遗传算法中的基因树分析6.3数据库索引结构优化七、结论摘要在二叉树相关算
模拟退火算法详解琛哥的程序算法模拟退火算法机器学习
一、引言模拟退火算法（SimulatedAnnealing，简称SA）是一种通用概率型优化算法，用来在一个大的搜寻空间内找寻问题的最优解。其出发点是基于物理中固体物质的退火过程与一般组合优化问题之间的相似性。模拟退火算法从某一较高初温出发，伴随温度参数的不断下降,结合概率突跳特性在解空间中随机寻找目标函数的全局最优解，即在局部最优解能概率性地跳出并最终趋于全局最优。二、算法原理物理退火过程加温过程
（算法初学者）质数筛法 KuaCpp 算法 c++
一边用与找质数，不会单独出题，但是会成为题目的一部分（先找出质数再去解题）以下3个为时间复杂度依次降低的方法首先要了解质数的定义：质数又称素数。一个大于1的自然数，除了1和它自身外，不能被其他自然数整除的数叫做质数；否则称为合数（规定1既不是质数也不是合数）。1普通的筛选质数（时间复杂度为n^2）基本思路：在prime数组中从2到i-1(排除1和本身)遍历如果能整除的就是质数然后是质数返回1，不是
C++学习：类和对象（一）随便取个六字 c++
一、面向过程与面向对象编程1.什么是面向过程编程？面向过程编程（ProceduralProgramming）是一种以过程（或函数）为中心的编程范式。程序被视为一系列按顺序执行的步骤，主要通过函数对数据进行操作特点：执行顺序明确：程序按照代码书写的顺序执行侧重算法：重视具体的操作步骤和实现流程代码重用性低：相似的功能需要重复编写代码代码示例：计算数组元素的平均值#includeusingnamesp
HarmonyNext实战：基于ArkTS的高性能图像处理应用开发应用开发
引言在HarmonyNext生态系统中，图像处理是一个重要且具有挑战性的领域。本文将深入探讨如何利用ArkTS语言开发一个高性能的图像处理应用，重点介绍图像卷积、边缘检测等核心算法的实现。我们将从理论基础出发，逐步构建一个完整的图像处理应用，并通过优化技巧提升性能。图像处理基础1.1图像表示在数字图像处理中，图像通常被表示为一个二维矩阵，每个元素代表一个像素的灰度值或颜色值。在HarmonyNex
华为OD机试 - 垃圾短信识别（Java 2024 E卷 100分）哪吒华为od java 开发语言
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试（JAVA）真题（E卷+D卷+A卷+B卷+C卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。一、题目描述大⼤⼯对垃圾短信深恶痛绝，希望能
AUTOSAR从入门到精通-汽车电子电气架构（EEA）格图素书汽车
目录前言算法原理EEA发展历程->分布式架构（distributed）：->基于域的集中式架构(DCUbasedcentralized)：->基于域融合的带状架构(DCUfusionbasedzonal)：什么是电子电气架构？EEA的特点EEA发展的三大阶段特征第一阶段：分布式架构第二阶段：基于域的集中式架构（转型中）第三阶段：基于域融合的带状架构（未来趋势）车载电子电气架构作用EEA开发工作内容
【图像处理】ISP(Image Signal Processor) 图像处理器的用途和工作原理？ AndrewHZ 图像处理基石图像处理智能手机影像系统算法深度学习人工智能 ISP
ISP（图像信号处理器）是数字影像设备的“视觉大脑”，负责将传感器捕获的原始电信号转化为我们看到的高清图像。以下从用途和工作原理两方面通俗解析：一、ISP的核心用途：让照片“更像眼睛看到的”提升画质：降噪：去除暗光下的噪点（如手机夜景模式，通过多帧合成+算法抑制噪点）。色彩还原：校正传感器偏色（例如索尼传感器常偏黄，ISP通过白平衡算法还原真实色彩）。动态范围优化：保留高光和暗部细节（类似HDR，
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
算法笔记（七）——哈希表闪电麦昆️ 算法算法笔记哈希 c++
文章目录两数之和判定是否互为字符重排存在重复元素存在重复元素II字母异位词分组哈希表：一种存储数据的容器；可以快速查找某个元素，时间复杂度O(1)；当频繁查找某一个数时，我们可以使用哈希表创建一个容器（unordered_map）用数组模拟一个简易哈希表容器数据结构unordered_mapmapunorded_setset实现机理hashRBThashRBT元素格式key+valuekey+va
数据结构（C\C++）——算法复杂度飞鸟吟数据结构数据结构 c语言 c++
算法复杂度前言1.数据结构前言1.1数据结构1.2算法1.3如何学好数据结构和算法2.算法效率2.1复杂度的概念2.2复杂度的重要性3.时间复杂度3.1定义3.2大O的渐进表示法3.3时间复杂度计算示例3.3.1示例13.3.2示例23.3.3示例33.3.4示例43.3.5示例5冒泡排序时间复杂度3.3.6示例63.3.7示例74.空间复杂度4.1空间复杂度计算示例4.1.1示例14.1.2示例
AI产品经理的前世今生大语言模型人工智能产品经理 langchain python java LLM
最近大热的AI产品经理到底是个什么岗位呢？具体他们需要做些什么具体工作呢？好像听说很高大上，具体工作会不会很复杂呢？我想大家一定都会有或多或少的疑惑。别急，且听小编一点点娓娓道来。最早AI产品经理并没有这个细分岗位，这些工作都是集中于AI算法工程师为一体。从筛选项目，定义问题，拆解方案，具体执行，实际交付可能都由一人完成，所以项目质量和速度也不好保证。随着项目成熟化普遍化，公司意识到需要把岗位进行
基于AI编程，产品全流程变革的具体案例 xinxiyinhe AI编程人工智能
一、制造业智能化生产案例1.长安汽车南京工厂通过部署AI驱动的柔性制造系统，工厂可在5分钟内切换生产不同型号的电动汽车底盘，并利用数字孪生技术实时模拟生产变量，将设备停机时间大幅缩短。AI算法结合历史订单数据、供应链状态等参数，自主生成最优生产计划，实现生产效率与灵活性的双重提升。2.隆基乐叶光伏制造首创基于图像特征的实时AI精准追溯技术，每18秒完成12个电池串异常识别，解决传统追溯准确率低的问
密码学概述及其发展简史【一】 smilejiasmile #密码学及其区块链应用密码学古典密码
1密码学1.1什么是密码学密码学是保障信息安全的核心技术，信息安全是密码学研究与发展的主要动力和目的。密码学能做什么?机密性:如何使得某个数据自己能看懂，别人看不懂认证:如何确保数据的正确来源，如何保证通信实体的真实性完整性:如何确保数据在传输过程中没有被删改不可否认性:如何确保用户行为的不可否认性密码算法密码算法的基本概念和术语包括：明文(M)、密文©、密钥(k秘密参数)、加密(E)、解密(D)
pytorch训练权重转化为tensorflow模型的教训小枫小疯深度学习部署模型转移 pytorch tensorflow 人工智能
模型构建时候有时候在工程量比较大的时候，不可避免使用迭代算法，迭代算法本身会让错误的追踪更加困难，因此掌握基本的框架之间的差异非常重要。以下均是在模型转换过程中出现的错误。shuffleoperation(shuffle操作)这个操作原本是用来将各个通道之间的信息进行打乱后，此时面临重要的问题就是，如果将通道打乱，在pytorch里面与tensorflow中间，两种通道排序是不一样的，是采用不同的
【模拟面试】计算机考研复试集训（第二天） Albert Edison 计算机考研复试高频考点面试考研职场和发展 c++数据结构算法操作系统
文章目录前言一、专业面试1、OSI参考模型和TCP/IP模型的主要区别是什么？简述各层功能2、什么是瀑布模型？其优缺点是什么？3、什么是递归？使用时需注意什么？4、监督学习与无监督学习的核心区别是什么？请举例说明典型算法5、你在项目中遇到过哪些技术挑战？是如何解决的？二、英文口语1、Canyoutellusaboutatimeyouworkedinateamandfacedchallenges?H
贪心算法--将数组和减半的最小操作数 4C++ 数据结构与算法贪心算法算法
本题是力扣2208---点击跳转题目思路：要尽快的把数组和减小，那么每次挑出数组中最大的元素减半即可，由于每次都是找出最值元素，可以用优先队列来存储这些数组元素每次取出最值，减半后再放入优先队列中，操作次数+1，直到数组和小于等于原总和的一半代码：classSolution{public:inthalveArray(vector&nums){doublesum=0;intcnt=0;priorit
2280将数组和减少的最少操作次数（贪心算法）分析+源码+证明懒羊羊大王& 算法（贪心算法）c++(初阶)贪心算法算法
题目解析请你返回将nums数组和至少减少一半的最少操作数。这句话相当于最后数组和小于等于最开始数组和的一半。1.1算法原理解法：贪心+大根堆（堆顶为最大值）具体策略：每次挑选数组中最大的数，进行减半，直到数组和减少到至少一半为止。举例：初始nums的和为5+19+8+1=33。以下是将数组和减少至少一半的一种方法：选择数字19并减小为9.5。选择数字9.5并减小为4.75。选择数字8并减小为4。最
人大预算联网监督系统前端产品产品设计
人大财政预算联网监督是建立和完善中国特色社会主义预算审查监督制度的有益探索，是贯彻实施预算法，加强对政府全口径预算决算审查监督，推动实施全面规范、公开透明预算制度的客观需要，是对人大预算审查监督工作的创新发展。项目地址：Github、国内Gitee演示地址：http://silianpan.cn/bss/以下是演示角色和账号（密码同账号）：超级管理员：seal_adminXXX市人大管理员：xxx
DeepSeek：中国大模型 “破壁者” 引发的四大产业地震赵同学爱学习人工智能 chatgpt DeepSeek 语言模型大模型开源
导语：当全球AI产业还在为GPT-4的1750亿参数惊叹时，中国团队DeepSeek以颠覆性创新撕开了大模型领域的“铁幕”。这款首个引发国际学术界集体关注的中文大模型，正从技术底层重构产业规则，其冲击波已蔓延至硬件、软件、商业模式的每个角落。一、算力霸权瓦解：低成本训推技术改写游戏规则1.1训练成本“悬崖式下降”DeepSeek通过混合专家架构（MoE）动态路由算法，在同等效果下将模型激活参数压缩
小白零基础学数学建模系列-Day1-数学建模入门介绍与案例实践川川菜鸟数学建模小白到精通系列数学建模
目录一、数学建模的定义和重要性1.1什么是数学建模？1.2数学建模的重要性二、常见的数学建模方法概述2.1线性模型和案例2.1.1特点2.1.2应用2.1.3问题2.1.4模型2.1.5数学表达式2.1.6求解算法2.2非线性模型和案例2.2.1特点2.2.2应用2.2.3问题2.2.4模型2.2.5数学表达式2.2.6算法2.3动态模型2.3.1特点2.3.2应用2.3.3常见问题2.3.4模型
STMicroelectronics 系列：STM32H7 系列_（1）.STM32H7系列概述 kkchenkx 机器人控制系统和单片机开发 stm32 嵌入式硬件单片机
STM32H7系列概述1.引言STM32H7系列是STMicroelectronics公司推出的一款高性能、低功耗的32位微控制器系列。该系列基于ArmCortex-M7内核，具有强大的处理能力、丰富的外设和先进的安全性特性，适用于需要高性能计算和复杂算法处理的应用场景。本节将详细介绍STM32H7系列的主要特点、架构和应用场景，帮助读者快速了解该系列微控制器的基本信息。
HashMap的奇幻漂流：当一个数组决定去整容桃木山人深挖面经哈希算法算法数据结构
标准答案（面试官最爱版）HashMap实现原理：数据结构：数组+链表/红黑树（Java8+）哈希算法：(h=key.hashCode())^(h>>>16)索引计算：(n-1)&hash（n为数组长度）冲突解决：链表→红黑树（阈值=8），树→链表（阈值=6）扩容机制：2倍扩容，负载因子默认0.75用程序员黑话：“它就是个会变形的瑞士卷——平时是夹心饼干（数组+链表），吃撑了变千层蛋糕（红黑树）”一
1141. 【贪心算法】排队打水 (❁´◡`❁)Jimmy(❁´◡`❁) 粉丝才可以看的NC题解贪心算法算法
题目描述有n（nusingnamespacestd;typedefpairIpair;arrayArrayMan;intn;intmain(){scanf("%d",&n);for(inti=0;i
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &