cynwang

大数据量的算法面试题

原链接：http://blog.csdn.net/v_july_v/article/details/7382693

何谓海量数据处理？

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小，分而治之（hash映射），你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破不就完了嘛。

至于所谓的单机及集群问题，通俗点来讲，单机就是处理装载数据的机器有限(只要考虑cpu，内存，硬盘的数据交互)，而集群，机器有多辆，适合分布式处理，并行计算(更多考虑节点和节点间的数据交互)。

再者，通过本blog内的有关海量数据处理的文章：Big Data Processing，我们已经大致知道，处理海量数据问题，无非就是：

分而治之/hash映射 + hash统计 + 堆/快速/归并排序；
双层桶划分
Bloom filter/Bitmap；
Trie树/数据库/倒排索引；
外排序；
分布式处理之Hadoop/Mapreduce。

下面，本文第一部分、从set/map谈到hashtable/hash_map/hash_set，简要介绍下set/map/multiset/multimap，及hash_set/hash_map/hash_multiset/hash_multimap之区别(万丈高楼平地起，基础最重要)，而本文第二部分，则针对上述那6种方法模式结合对应的海量数据处理面试题分别具体阐述。

第一部分、从set/map谈到hashtable/hash_map/hash_set

稍后本文第二部分中将多次提到hash_map/hash_set，下面稍稍介绍下这些容器，以作为基础准备。一般来说，STL容器分两种，

序列式容器(vector/list/deque/stack/queue/heap)，
关联式容器。关联式容器又分为set(集合)和map(映射表)两大类，以及这两大类的衍生体multiset(多键集合)和multimap(多键映射表)，这些容器均以RB-tree完成。此外，还有第3类关联式容器，如hashtable(散列表)，以及以hashtable为底层机制完成的hash_set(散列集合)/hash_map(散列映射表)/hash_multiset(散列多键集合)/hash_multimap(散列多键映射表)。也就是说，set/map/multiset/multimap都内含一个RB-tree，而hash_set/hash_map/hash_multiset/hash_multimap都内含一个hashtable。

所谓关联式容器，类似关联式数据库，每笔数据或每个元素都有一个键值(key)和一个实值(value)，即所谓的Key-Value(键-值对)。当元素被插入到关联式容器中时，容器内部结构(RB-tree/hashtable)便依照其键值大小，以某种特定规则将这个元素放置于适当位置。

包括在非关联式数据库中，比如，在MongoDB内，文档(document)是最基本的数据组织形式，每个文档也是以Key-Value（键-值对）的方式组织起来。一个文档可以有多个Key-Value组合，每个Value可以是不同的类型，比如String、Integer、List等等。
{ "name" : "July",
"sex" : "male",
"age" : 23 }

set/map/multiset/multimap

set，同map一样，所有元素都会根据元素的键值自动被排序，因为set/map两者的所有各种操作，都只是转而调用RB-tree的操作行为，不过，值得注意的是，两者都不允许两个元素有相同的键值。
不同的是：set的元素不像map那样可以同时拥有实值(value)和键值(key)，set元素的键值就是实值，实值就是键值，而map的所有元素都是pair，同时拥有实值(value)和键值(key)，pair的第一个元素被视为键值，第二个元素被视为实值。
至于multiset/multimap，他们的特性及用法和set/map完全相同，唯一的差别就在于它们允许键值重复，即所有的插入操作基于RB-tree的insert_equal()而非insert_unique()。

hash_set/hash_map/hash_multiset/hash_multimap

hash_set/hash_map，两者的一切操作都是基于hashtable之上。不同的是，hash_set同set一样，同时拥有实值和键值，且实质就是键值，键值就是实值，而hash_map同map一样，每一个元素同时拥有一个实值(value)和一个键值(key)，所以其使用方式，和上面的map基本相同。但由于hash_set/hash_map都是基于hashtable之上，所以不具备自动排序功能。为什么?因为hashtable没有自动排序功能。
至于hash_multiset/hash_multimap的特性与上面的multiset/multimap完全相同，唯一的差别就是它们hash_multiset/hash_multimap的底层实现机制是hashtable（而multiset/multimap，上面说了，底层实现机制是RB-tree），所以它们的元素都不会被自动排序，不过也都允许键值重复。

所以，综上，说白了，什么样的结构决定其什么样的性质，因为set/map/multiset/multimap都是基于RB-tree之上，所以有自动排序功能，而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上，所以不含有自动排序功能，至于加个前缀multi_无非就是允许键值重复而已。

此外，

关于什么hash，请看blog内此篇文章；
关于红黑树，请参看blog内系列文章，
关于hash_map的具体应用：请看这里，关于hash_set：请看此文。

OK，接下来，请看本文第二部分、处理海量数据问题之六把密匙。

第二部分、处理海量数据问题之六把密匙

密匙一、分而治之/Hash映射 + Hash_map统计 + 堆/快速/归并排序

1、海量日志数据，提取出某日访问百度次数最多的那个IP。

既然是海量数据处理，那么可想而知，给我们的数据那就一定是海量的。针对这个数据的海量，我们如何着手呢?对的，无非就是分而治之/hash映射 + hash统计 + 堆/快速/归并排序，说白了，就是先映射，而后统计，最后排序：

分而治之/hash映射：针对数据太大，内存受限，只能是：把大文件化成(取模映射)小文件，即16字方针：大而化小，各个击破，缩小规模，逐个解决
hash_map统计：当大文件转化了小文件，那么我们便可以采用常规的hash_map(ip，value)来进行频率统计。
堆/快速排序：统计完了之后，便进行排序(可采取堆排序)，得到次数最多的IP。

具体而论，则是： “首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如%1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map对那1000个文件中的所有IP进行频率统计，然后依次找出各个文件中频率最大的那个IP）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。”--十道海量数据处理面试题与十个方法大总结。

关于本题，还有几个问题，如下：

1、Hash取模是一种等价映射，不会存在同一个元素分散到不同小文件中去的情况，即这里采用的是mod1000算法，那么相同的IP在hash后，只可能落在同一个文件中，不可能被分散的。
2、那到底什么是hash映射呢？简单来说，就是为了便于计算机在有限的内存中处理big数据，从而通过一种映射散列的方式让数据均匀分布在对应的内存位置(如大数据通过取余的方式映射成小树存放在内存中，或大文件映射成多个小文件)，而这个映射散列方式便是我们通常所说的hash函数，设计的好的hash函数能让数据均匀分布而减少冲突。尽管数据映射到了另外一些不同的位置，但数据还是原来的数据，只是代替和表示这些原始数据的形式发生了变化而已。

OK，有兴趣的，还可以再了解下一致性hash算法，见blog内此文第五部分：http://blog.csdn.net/v_july_v/article/details/6879101。

此题的一种实现：

提取出某日访问百度次数最多的那个IP

方法: 计数法

假设一天之内某个IP访问百度的次数不超过40亿次,则访问次数可以用unsigned表示.用数组统计出每个IP地址出现的次数, 即可得到访问次数最大的IP地址.

IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 创建一个unsigned count[N];的数组,即可统计出每个IP的访问次数,而sizeof(count) == 4G*4=16G, 远远超过了32位计算机所支持的内存大小,因此不能直接创建这个数组.下面采用划分法解决这个问题.

假设允许使用的内存是512M, 512M/4=128M 即512M内存可以统计128M个不同的IP地址的访问次数.而N/128M =4G/128M = 32 ,所以只要把IP地址划分成32个不同的区间,分别统计出每个区间中访问次数最大的IP, 然后就可以计算出所有IP地址中访问次数最大的IP了.

因为2^5=32, 所以可以把IP地址的最高5位作为区间编号, 剩下的27为作为区间内的值,建立32个临时文件,代表32个区间,把相同区间的IP地址保存到同一的临时文件中.

例如:

ip1=0x1f4e2342

ip1的高5位是id1 = ip1 >>27 = 0x11 = 3

ip1的其余27位是value1 = ip1 &0x07ffffff = 0x074e2342

所以把 value1 保存在tmp3文件中.

由id1和value1可以还原成ip1, 即 ip1 =(id1<<27)|value1

按照上面的方法可以得到32个临时文件,每个临时文件中的IP地址的取值范围属于[0-128M),因此可以统计出每个IP地址的访问次数.从而找到访问次数最大的IP地址

程序源码:

test.cpp是c++源码.

 
    #include   
 #include   
 #include   
   
 using namespace std;  
 #define N 32           //临时文件数  
   
 #define ID(x)  (x>>27)                 //x对应的文件编号  
 #define VALUE(x) (x&0x07ffffff)        //x在文件中保存的值  
 #define MAKE_IP(x,y)  ((x<<27)|y)      //由文件编号和值得到IP地址.  
   
 #define MEM_SIZE  128*1024*1024       //需分配内存的大小为 MEM_SIZE*sizeof(unsigned)     
   
 char* data_path="D:/test/ip.dat";        //ip数据  
   
  //产生n个随机IP地址  
 void make_data(const int& n)         
 {  
     ofstream out(data_path,ios::out|ios::binary);  
     srand((unsigned)(time(NULL)));  
     if (out)  
     {  
         for (int i=0; i
         {  
             unsigned val=unsigned(rand());           
             val = (val<<24)|val;              //产生unsigned类型的随机数  
   
             out.write((char *)&val,sizeof (unsigned));  
         }  
     }  
 }  
   
 //找到访问次数最大的ip地址  
 int main()  
 {  
     //make_data(100);     //   
     make_data(100000000);       //产生测试用的IP数据  
     fstream arr[N];  
       
     for (int i=0; i//创建N个临时文件  
     {  
         char tmp_path[128];     //临时文件路径  
         sprintf(tmp_path,"D:/test/tmp%d.dat",i);  
         arr[i].open(tmp_path, ios::trunc|ios::in|ios::out|ios::binary);  //打开第i个文件  
   
         if( !arr[i])  
         {  
             cout<<"open file"<"error"<
         }  
     }  
   
     ifstream infile(data_path,ios::in|ios::binary);   //读入测试用的IP数据  
     unsigned data;  
   
     while(infile.read((char*)(&data), sizeof(data)))  
     {  
         unsigned val=VALUE(data);  
         int key=ID(data);  
         arr[ID(data)].write((char*)(&val), sizeof(val));           //保存到临时文件件中  
     }  
   
     for(unsigned i=0; i
     {  
         arr[i].seekg(0);  
     }  
     unsigned max_ip = 0;    //出现次数最多的ip地址  
     unsigned max_times = 0;     //最大只出现的次数  
   
     //分配512M内存,用于统计每个数出现的次数  
     unsigned *count = new unsigned[MEM_SIZE];    
   
     for (unsigned i=0; i
     {  
         memset(count, 0, sizeof(unsigned)*MEM_SIZE);  
   
         //统计每个临时文件件中不同数字出现的次数  
         unsigned data;  
         while(arr[i].read((char*)(&data), sizeof(unsigned)))       
         {  
             ++count[data];  
         }  
           
         //找出出现次数最多的IP地址  
         for(unsigned j=0; j
         {  
             if(max_times
             {  
                 max_times = count[j];  
                 max_ip = MAKE_IP(i,j);        // 恢复成原ip地址.  
             }  
         }  
     }  
     delete[] count;  
     unsigned char *result=(unsigned char *)(&max_ip);  
     printf("出现次数最多的IP为:%d.%d.%d.%d,共出现%d次",   
         result[0], result[1], result[2], result[3], max_times);  
 }  
 
  

2、寻找热门查询，300万个查询字符串中统计最热门的10个查询

原题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

解答：由上面第1题，我们知道，数据大则划为小的，如如一亿个Ip求Top 10，可先%1000将ip分到1000个小文件中去，并保证一种ip只出现在一个文件中，再对每个小文件中的ip进行hashmap计数统计并按数量排序，最后归并或者最小堆依次处理每个小文件的top10以得到最后的结。

但如果数据规模比较小，能一次性装入内存呢?比如这第2题，虽然有一千万个Query，但是由于重复度比较高，因此事实上只有300万的Query，每个Query255Byte，因此我们可以考虑把他们都放进内存中去（300万个字符串假设没有重复，都是最大长度，那么最多占用内存3M*1K/4=0.75G。所以可以将所有字符串都存放在内存中进行处理），而现在只是需要一个合适的数据结构，在这里，HashTable绝对是我们优先的选择。

所以我们放弃分而治之/hash映射的步骤，直接上hash统计，然后排序。So，针对此类典型的TOP K问题，采取的对策往往是：hashmap + 堆。如下所示：

hash_map统计：先对这批海量数据预处理。具体方法是：维护一个Key为Query字串，Value为该Query出现次数的HashTable，即hash_map(Query，Value)，每次读取一个Query，如果该字串不在Table中，那么加入该字串，并且将Value值设为1；如果该字串在Table中，那么将该字串的计数加一即可。最终我们在O(N)的时间复杂度内用Hash表完成了统计；
堆排序：第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比。所以，我们最终的时间复杂度是：O（N） + N' * O（logK），（N为1000万，N’为300万）。

别忘了这篇文章中所述的堆排序思路：“维护k个元素的最小堆，即用容量为k的最小堆存储最先遍历到的k个数，并假设它们即是最大的k个数，建堆费时O（k），并调整堆(费时O（logk）)后，有k1>k2>...kmin（kmin设为小顶堆中最小元素）。继续遍历数列，每次遍历一个元素x，与堆顶元素比较，若x>kmin，则更新堆（x入堆，用时logk），否则不更新堆。这样下来，总费时O（k*logk+（n-k）*logk）=O（n*logk）。此方法得益于在堆中，查找等各项操作时间复杂度均为logk。”--第三章续、Top K算法问题的实现。
当然，你也可以采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
由上面那两个例题，分而治之 + hash统计 + 堆/快速排序这个套路，我们已经开始有了屡试不爽的感觉。下面，再拿几道再多多验证下。请看此第3题：又是文件很大，又是内存受限，咋办?还能怎么办呢?无非还是：

分而治之/hash映射：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。
hash_map统计：对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。
堆/归并排序：取出出现频率最大的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。

4、海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。

如果每个数据元素只出现一次，而且只出现在某一台机器中，那么可以采取以下步骤统计出现次数TOP10的数据元素：

堆排序：在每台电脑上求出TOP10，可以采用包含10个元素的堆完成（TOP10小，用最大堆，TOP10大，用最小堆，比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP10大）。
求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据，再利用上面类似的方法求出TOP10就可以了。

但如果同一个元素重复出现在不同的电脑中呢，如下例子所述：

这个时候，你可以有两种方法：

遍历一遍所有数据，重新hash取摸，如此使得同一个元素只出现在单独的一台电脑中，然后采用上面所说的方法，统计每台电脑中各个元素的出现次数找出TOP10，继而组合100台电脑上的TOP10，找出最终的TOP10。
或者，暴力求解：直接统计统计每台电脑中各个元素的出现次数，然后把同一个元素在不同机器中的出现次数相加，最终从所有数据中找出TOP10。

5、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

方案1：直接上：

hash映射：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为a0,a1,..a9）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。
hash_map统计：找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。注：hash_map(query,query_count)是用来统计每个query的出现次数，不是存储他们的值，出现一次，则count+1。
堆/快速/归并排序：利用快速/堆/归并排序按照出现次数进行排序，将排序好的query和对应的query_cout输出到文件中，这样得到了10个排好序的文件（记为）。最后，对这10个文件进行归并排序（内排序与外排序相结合）。根据此方案1，这里有一份实现：https://github.com/ooooola/sortquery/blob/master/querysort.py。

除此之外，此题还有以下两个方法：
方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。

6、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

分而治之/hash映射：遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为，这里漏写个了a1）中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件中（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。
hash_set统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

OK，此第一种方法：分而治之/hash映射 + hash统计 + 堆/快速/归并排序，再看最后4道题，如下：

7、怎么在海量数据中找出重复次数最多的一个？

方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。然后找出上一步求出的数据中重复次数最多的一个就是所求（具体参考前面的题）。

8、上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。

方案1：上千万或上亿的数据，现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了，可以用第2题提到的堆机制完成。

9、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。

方案1：这题是考虑时间效率。用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度）。然后是找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(n*lg10)。所以总的时间复杂度，是O(n*le)与O(n*lg10)中较大的哪一个。

10. 1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？

方案1：这题用trie树比较合适，hash_map也行。
方案2：from xjbzju:，1000w的数据规模插入操作完全不现实，以前试过在stl下100w元素插入set中已经慢得不能忍受，觉得基于hash的实现不会比红黑树好太多，使用vector+sort+unique都要可行许多，建议还是先hash成小文件分开处理再综合。

11. 一个文本文件，找出前10个经常出现的词，但这次文件比较长，说是上亿行或十亿行，总之无法一次读入内存，问最优解。
方案1：首先根据用hash并求模，将文件分解为多个小文件，对于单个文件利用上题的方法求出每个文件件中10个最常出现的词。然后再进行归并处理，找出最终的10个最常出现的词。

12. 100w个数中找出最大的100个数。

方案1：采用局部淘汰法。选取前100个元素，并排序，记为序列L。然后一次扫描剩余的元素x，与排好序的100个元素中最小的元素比，如果比这个最小的要大，那么把这个最小的元素删除，并把x利用插入排序的思想，插入到序列L中。依次循环，知道扫描了所有的元素。复杂度为O(100w*100)。
方案2：采用快速排序的思想，每次分割之后只考虑比轴大的一部分，知道比轴大的一部分在比100多的时候，采用传统排序算法排序，取前100个。复杂度为O(100w*100)。
方案3：在前面的题中，我们已经提到了，用一个含100个元素的最小堆完成。复杂度为O(100w*lg100)。

接下来，咱们来看第二种方法，双层捅划分。

密匙二、双层桶划分

双层桶划分----其实本质上还是分而治之的思想，重在“分”的技巧上！
　　适用范围：第k大，中位数，不重复或重复的数字
　　基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子。
　　扩展：
　　问题实例：

13、2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。
有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间，就可以很方便的解决。

14、5亿个int找它们的中位数。

思路一：这个例子比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。
实际上，如果不是int是int64，我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数只有2^20，就可以直接利用direct addr table进行统计了。
　　思路二@绿色夹克衫：同样需要做两遍统计，如果数据存在硬盘上，就需要读取2次。
方法同基数排序有些像，开一个大小为65536的Int数组，第一遍读取，统计Int32的高16位的情况，也就是0-65535，都算作0,65536 - 131071都算作1。就相当于用该数除以65536。Int32 除以 65536的结果不会超过65536种情况，因此开一个长度为65536的数组计数就可以。每读取一个数，数组中对应的计数+1，考虑有负数的情况，需要将结果加32768后，记录在相应的数组内。
第一遍统计之后，遍历数组，逐个累加统计，看中位数处于哪个区间，比如处于区间k，那么0- k-1的区间里数字的数量sum应该

密匙三：Bloom filter/Bitmap

Bloom filter

关于什么是Bloom filter，请参看blog内此文：

海量数据处理之Bloom Filter详解

　　适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集
　　基本原理及要点：
　　对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。
　　还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。
　　举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。
　　注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

　　扩展：

　　Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。

可以看下上文中的第6题：

“6、给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

　　根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

同时，上文的第5题：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。”

Bitmap

关于什么是Bitmap，请看blog内此文第二部分：http://blog.csdn.net/v_july_v/article/details/6685962。

下面关于Bitmap的应用，可以看下上文中的第13题，以及另外一道新题：

“13、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。
方案2：也可采用与第1题类似的方法，进行划分小文件的方法。然后在小文件中找出不重复的整数，并排序。然后再进行归并，注意去除重复的元素。”

15、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？
方案1：frome oo，用位图/Bitmap的方法，申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

密匙四、Trie树/数据库/倒排索引

Trie树

　　适用范围：数据量大，重复多，但是数据种类小可以放入内存
　　基本原理及要点：实现方式，节点孩子的表示方式
　　扩展：压缩实现。
　　问题实例：

上面的第2题：寻找热门查询：查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个，每个不超过255字节。
上面的第5题：有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。
1000万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？
上面的第8题：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。其解决方法是：用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平准长度），然后是找出出现最频繁的前10个词。

更多有关Trie树的介绍，请参见此文：从Trie树（字典树）谈到后缀树。

数据库索引
　　适用范围：大数据量的增删改查
　　基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。

关于数据库索引及其优化，更多可参见此文：http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass-data-topic-7-index-and-optimize.html；
关于MySQL索引背后的数据结构及算法原理，这里还有一篇很好的文章：http://blog.codinglabs.org/articles/theory-of-mysql-index.html；
关于B 树、B+ 树、B* 树及R 树，本blog内有篇绝佳文章：http://blog.csdn.net/v_JULY_v/article/details/6530142。

倒排索引(Inverted index)
　　适用范围：搜索引擎，关键字查询
　　基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。
　以英文为例，下面是要被索引的文本：
    T0 = "it is what it is"
    T1 = "what is it"
    T2 = "it is a banana"
我们就能得到下面的反向文件索引：
"a": {2}
    "banana": {2}
    "is": {0, 1, 2}
  "it": {0, 1, 2}
  "what": {0, 1}
　检索的条件"what","is"和"it"将对应集合的交集。

　　正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。
　　扩展：
　　问题实例：文档检索系统，查询那些文件包含了某单词，比如常见的学术论文的关键字搜索。

关于倒排索引的应用，更多请参见：

第二十三、四章：杨氏矩阵查找，倒排索引关键词Hash不重复编码实践，
第二十六章：基于给定的文档生成倒排索引的编码与实践。

密匙五、外排序

　　适用范围：大数据的排序，去重
　　基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树
　　扩展：
　　问题实例：
　　1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。
　　这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1M做hash明显不够，所以可以用来排序。内存可以当输入缓冲区使用。

关于多路归并算法及外排序的具体应用场景，请参见blog内此文：

第十章、如何给10^7个数据量的磁盘文件排序

你可能感兴趣的:(校招)

AI时代产品经理高薪密码！0经验转岗，月入27K的秘诀都在这！
“211计算机本硕，有2段学校项目经验，校招面了大厂AI产品经理岗，群面和专业面的时候挂了，怎么快速突击，提升AI产品专业能力呢？”“7年UI，被裁跳槽准备找产品工作了，上一家基本是半设计半产品，怎么包装过往经验，实现转岗？”“3年开发，每天写代码有点厌倦，想转产品经理，从0-1设计一款产品更有成就感，怎么快速上手产品工作？”这是上半年来咨询的几类同学的烦恼，近期求职市场些微回暖，产品经理岗位需求
高校招生服务平台小程序的设计与实现
一、选题简介、意义与背景（包括选题的理论价值和实践意义）选题简介：本课题旨针对高校招生数据错综复杂难以管理等问题，运用计算机技术实现一个高校招生服务平台，提供给专业且全面的招生服务，帮助用户快速的找到自己喜欢的专业以及提高招生效率。平台实现两类用户角色，分别是用户跟管理员角色。其中，用户将实现用户的登录注册、首页、招生信息、校园漫游、志愿填报等功能，管理员将实现招生信息管理、用户管理、缴费信息管理
校招秋招，最佳的准备时间、时间线和关键节点 Luntu www.zxgj.cn 求职招聘职场和发展面试
不论想要做成什么事，一定要提前去筹谋筹划，没有计划就难以达到好的目标，有因有果，在别人拿到满意的offer时，焉知不是别人付出的更多，筹划的更加周密周全呢。校招秋招是应届毕业生最重要的就业渠道，错过这波等于错过了一大半的时机。所以这里提示各位即将毕业的同学，务必要关注秋招的时间节点信息，提前做好准备工作。小猫测试网，秋招春招，网申在线测评（训练题库）3~6月储备与定位期应届毕业生如果想在秋招进入心
现在大厂校招进去真有人带吗？还是直接上手？程序员
前言现在大环境不好，网上关于校招生被企业毁约，卡转正，裁应届的消息吓唬的可能不知所措。怕好不容易努力了这么久，然后没有一个好的未来。然后有同学，就问校招生入职会有人带吗，不会刚入职就直接上手，然后能力不达标被裁了吧。针对目前的一个环境以及同学的犹豫我来解答下。被企业毁约/卡转正/裁应届对于这种情况，目前确实大量存在，并且这种企业很多，大厂也是不少的，更别说中小厂（大厂起码要个脸还会这样，中小厂更别
「字节跳动」我如何在一个月顺利通过测开实习岗，拿到offer 柠檬软件测试软件测试 python 软件测试功能测试测试工具 selenium
是基本情况：某交211小硕，研二，目标岗位测开大概从四月初开始找实习，也赶上了一波校招热潮，不过大都败在了笔试上（T^T，感觉经验超重要的~），经过了一个多月，顺利拿到了offer，也积累了许多经验，回头看看，也会不禁感慨，从一开始面试官说“你基础知识太薄弱了，怎么也要提前准备一下”到最近百度、头条面试官说“嗯嗯看得出来，你的基础知识非常扎实”我觉得对我来说，就是对这一个多月的肯定。找实习的过程中
华为研发岗位面试与暑期实习攻略：C++与Java深入解析丹力
本文还有配套的精品资源，点击获取简介：华为的面试和暑期实习对IT求职者至关重要，涉及技术实力与团队协作。本文深入探讨了华为面试的要点，包括专业技能、项目经验、问题解决能力的考察，以及暑期实习和校招中的C++和Java研发岗位要求。在面试中，求职者需要展示C++11/14/17新特性、内存管理、设计模式，以及Java核心技术、JVM原理等，同时还需关注新技术趋势。积极学习和展现出学习能力与团队精神，
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
算法题刷多少道就可以应付面试手撕了 cpp辅导的阿甘 c++
前言周五晚上答疑，有同学问算法题刷到什么地步就行了。接下来针对刷算法题，说下我的看法哈。分两种：一是社招的同学二是校招的同学针对社招的同学，其实对算法的要求不会那么高了，工作的久其实也不怎么会考察算法了。所以社招同学跳槽，一般就是在你打算找工作的前一两个月把hot100刷一刷一般就可以了。毕竟刷算法，对你工作，解bug一点作用也没有针对校招的同学，对算法的考察要求相对高一些，主要根本还是现在供大于
大厂校招：海能达嵌入式面试题及参考答案大模型大数据攻城狮牛客网嵌入式面试硬件工程 arm开发 fpga开发 dsp开发驱动开发
SPI协议的一些基础知识SPI（SerialPeripheralInterface）即串行外设接口，是一种高速的、全双工、同步的通信总线。SPI主要由四根信号线组成：时钟线（SCLK）：由主设备产生，用于同步数据传输。时钟的频率决定了数据传输的速度。主设备输出/从设备输入线（MOSI）：主设备通过该线向从设备发送数据。主设备输入/从设备输出线（MISO）：从设备通过该线向主设备发送数据。片选线（C
25届春招企业汇总小黄师兄其他求职招聘
春招进入末尾，还有大部分企业还没招满人或者补录，这个时候大部分人都拿到offer，竞争力比较小，容易上岸。推荐一个校招网站，这个网站可以实时更新企业招聘情况。比如2025届春招，可以点击投递，跳到到对应的网站进行投递简历再或者26届的毕业暑假实习投递等等。很多企业的招聘情况和投递链接都有，也不仅仅是计算机岗位，还有其他岗位也有。如果有需求的话，可以私信我。
简历模板及其修改优秀135 java
1.不太具备优势的简历模板修改建议：1.博客主页有90多篇文章，不算优势，校招生水平，照片可以去掉，共青团员也可以去掉2.总体技术栈是实习生或校招生水平，可以把Java基础，Java集合，Java虚拟机，Java并发，分成四条写，框架的使用和原理可以放到后面，不是主要的，把MySQL和Redis提到前面来，MySQL主要是索引、事务、锁、日志这四块，Redis主要是持久化机制和内存淘汰策略，后面的
【大厂标准】Linux C/C++ 后端进阶学习路线十年编程老舅 C++Linux后端 linux c语言 c++后端开发服务器开发 c/c++后端学习路线
有读者问我：想从事C++后台开发的工作，应该学什么?C++/Linux服务器开发，俗称C++后台开发，在BAT等大型科技公司拥有大量岗位需求。尤其是像鹅厂这样的公司对C++后台开发人才的需求迫切。虽然这些岗位对技术水平有较高要求，但怀揣进入大厂的梦想的朋友们依然值得一试。许多具备C/C++基础的人，在面试后台开发岗位时经常会问：要达到怎样的技术水平才能进入大厂呢？在面试方面，可以分为校招和社招两种
中国移动 Java 一面，直接秒了。。。程序员职业指南 java 开发语言 c++spring boot mybatis 程序员
有读者跟我说，看腻了互联网面经，想看看国企的软开面试，想针对性准备一下。说来就来！这次带大家看看中国移动的面经。中国移动校招年总包有20w+，不过可能实际每月到手可能是1w多一些，因为很多平摊到奖金和公积金里面了，所以一共加起来20万左右。中国移动的面试相比互联网中大厂的面试强度会弱一些，通常一场技术面可能是20分钟左右，相比互联网中大厂能少50-60%的强度，所以难度不会太难。我一般会建议想冲央
题解 | #某乎问答单日回答问题数大于等于3个的所有用户# 2301_79125431 java
走咯走咯求助，航空和航天offer怎么选择本人双非航空类硕士一枚，收到了下面两个offer，求求大家给个建议。注：城市的话更倾向于西安，但成都java简历爆改没找到实习，沉淀了一下简历，大佬们看看还有哪里需要修改的，有没有什么需要补充的24届校招offer选择本人双非本，西安人，之前春招违约过一次，违约3000改签了个厦门半导体厂，岗位IT工程师，年包11w6.19刷题打卡#和牛牛一起刷题打卡#腾
如何用一位AI面试官，撑起万人校招现场？——得贤L5级别AI面试官Agent AI得贤招聘官人工智能面试科技 AIGC 职场和发展
在校招高峰期，一天几万份简历涌入系统，业务部门却只腾出几位面试官、几个小时？如何高效完成第一轮筛选，还不牺牲质量和公平性？传统手段难以支撑，AI得贤招聘官，正是为此而生。这是一款基于AIGC与虚拟人技术打造的L5级AI面试官Agent，由近屿智能自研多模态大模型“近屿超脑”驱动，经过四代产品迭代与11个行业落地应用打磨，实现了从千人千问到三轮智能追问、从口型对齐实时视频到精准评分与报告秒出的全面跃
中国招聘智能化白皮书：从 “人撑不住“ 到 “AI 破局“ 的底层逻辑革命——AI得贤招聘官第六代AI面试官 AI得贤招聘官人工智能
一场面试，牵动一家公司的人力系统。当简历数量以千计堆叠、当HR通宵挑灯刷筛选、当面试质量与效率陷入两难，招聘不再只是流程问题，而成了“组织生存”的关键变量。问题是：靠人，已经撑不住了。企业招聘正步入前所未有的“复杂态”：人岗匹配难，简历真假混杂；替考、夹带、防不胜防；面试标准无法统一，评估结果难解释；校招高峰期报告迟迟不出，项目节奏全线拖延。这不是“优化流程”能解决的时代，这是AI出手的时代。中国
全模态序列生成式推荐终极挑战！腾讯 360 万悬赏，高校团队抢赢大厂 Offer 直通车 CSDN资讯腾讯腾讯广告算法大赛
“它让你跳出学术项目的局限，直接接触真实业务数据，提前培养商业思维和业务敏感度。”“这种定向参赛经历能锁定职业起点，比如你会知道你要做的是广告业务方面的，避免校招'开盲盒'的不确定性，入职后你已具备几个月的业务认知优势。”“很多事情我们都是从零到一的，包括现在你想去接触一个领域，包括学习一些东西，其实我们都是有非常多的一些途径。”“腾讯这家公司并不是把员工就当成一个干活的工具。”这是历年参与腾讯广
2024年中国东方资产管理东方资管笔试测评社招校招笔试测评题型揭秘 kimdy1213562772 算法职场和发展功能测试人工智能
东方资产管理东方资管社招笔试测评已发，很少社招，把握机会。社招的笔试题型参考校招，中国东方资产管理东方资管笔试测评用的第三方北森测评系统，试卷分为总部管理培训生和业务类岗位测评，前四部分都是比较难的行测题。第五至七部分为性格测试，总部管培生还要多一个工作情景测评题。东方资管笔试题型有九部分不同岗位略有差异。第1~6部分行测题每部分10道题10分钟限时作答共60分钟57题行测题是随机考的不是固定套题
cpp/c++方向很多，每个方向差异都很大，之前说的秋招要务实基础，想知道哪些内容是无论什么方向，都得必须掌握的？程序员
首先这个同学这样提问，说明是对c++/cpp的就业方向有了一定的思考。知道c++/cpp不同的方向技术栈天差地别。但是又想让自己的简历具有很高的适配性，即能投很多岗位。可投递岗位越多意味着拿高薪好offer的概率越大。首先大家是校招生应届生（如果社招，针对目前工作方向深挖就可以了），重点是基础。基础会了，达到找工作的要求了，如果你还有特别想找某个方向的想法，再针对这个方向的具体要求，学学就好了。说
题解 | #Problem A# 第一次打表新的做题思路愤怒的小青春 java
Java|Python|C++机试/手撕技巧淘天电话一面（透心凉）4399笔试_0814领先的国产工业软件——同元软控2024校招直播来啦！！恒生面经领先的国产工业软件——同元软控2024校招直播来啦！！秋招快手推荐算法一二三hr面还有加面面经4399笔试：还算可以快手社科广告算法面经4399笔试（JAVA）关于4399的笔经（寄）8/184399笔试工行面试汇总22届秋招总结（雄安天津之银行国企
Java 校招需重点准备的具体内容与实用技巧 sss191s java开发 java 开发语言
以下是一篇关于Java校招需要准备内容的文章，包含技术方案和应用实例，帮助你为校招做好准备：Java校招准备指南一、扎实的Java基础知识数据类型与运算符技术方案：Java有byte、short、int等基本数据类型，要清楚其取值范围和默认值。运算符包括算术、赋值、比较、逻辑运算符等，需掌握运算符优先级和结合性。应用实例：在计算购物车商品总价时，会用到算术运算符对商品价格和数量进行乘法运算，再用加
互联网公司校招 Java 面试题总结及答案之阿里腾讯 Java 校招面试题汇总解析 sss191s java开发 java python 面试
我将整合阿里、腾讯等互联网大厂的Java面试题及答案，从基础概念、多线程、框架等方面入手，为你梳理常见考点，助你为校招做好准备。互联网公司校招Java面试题总结及答案——阿里、腾讯!在互联网行业蓬勃发展的今天，Java作为一门广泛应用的编程语言，成为众多互联网公司校招的重点考察方向。阿里巴巴和腾讯作为行业的领军企业，其校招Java面试题具有很高的参考价值。本文将对这两家公司的校招Java面试题进行
2025 年 Java 校招 120 道面试题目合集及详细答案解析 sss191s java开发 java 面试 python
Java校招120道面试题目合集及答案一、Java基础1.Java语言有哪些特点？答案：简单性：Java语法简洁，去除了C++中一些复杂和容易出错的特性，如指针、多重继承等。例如定义一个简单的类：publicclassHelloWorld{publicstaticvoidmain(String[]args){System.out.println("Hello,World!");}}面向对象：支持封
2025 年 Java 校招 120 道含实操面试题目及答案完整合集 sss191s java开发 java 面试 python
Java校招120道面试题目合集及答案（含实操）一、Java基础1.Java语言有哪些特点？答案：Java具有简单性、面向对象、平台无关性等特点。实操：创建一个简单的Java程序，演示面向对象的封装特性。//定义一个学生类，封装姓名和年龄属性classStudent{privateStringname;privateintage;publicStudent(Stringname,intage){t
C 工程师校招面试考点基础篇汇总含答案解析 didi558 Java 经验分享面试 java
9、请你说一下你理解的c++中的smartpointer四个智能指针：10、请回答一下数组和指针的区别11、请你回答一下野指针是什么？12、请你介绍一下C++中的智能指针13、请你回答一下**智能指针有没有内存泄露的情况14、请你来说一下**智能指针的内存泄漏如何解决15、请你理解的c++中的**引用和指针16、请你来说一下C++中的**智能指针17、请你回答一下为什么析构函数必须是虚函数？为什么
校招 java 面试基础题目及解析
我将结合常见的校招Java面试基础题目，从概念阐述、代码示例等角度展开，为你提供一份可用于学习的技术方案及应用实例。校招Java面试基础题目解析与学习指南在Java校招面试中，扎实掌握基础知识是成功的关键。本文将围绕常见的Java基础面试题，通过理论解析与实际代码示例，帮助大家深入理解和掌握相关知识，为校招面试做好充分准备。一、Java基础特性1.1平台无关性Java的平台无关性是其重要特性之一，
小米一面 java开发后端校招最新面试题扫地僧009 互联网大厂面试题 java 开发语言
小米一面Kafka和RocketMQ的区别？Kafka的优缺点：优点：首先，Kafka的最大优势就在于它的高吞吐量，在普通机器4CPU8G的配置下，一台机器可以抗住十几万的QPS，这一点还是相当优越的。Kafka支持集群部署，如果部分机器宕机不可用，则不影响Kafka的正常使用。缺点：Kafka有可能会造成数据丢失，因为它在收到消息的时候，并不是直接写到物理磁盘的，而是先写入到磁盘缓冲区里面的。K
智能时代 | 合合信息Embedding模型荣获C-MTEB huaxinjiayou java
合肥哈工艾斯德康智能科技前端实习(4.11oc)1、自我介绍2、学校课程情况3、自学方法4、盒模型5、定位有哪些属性，一般是在父子元素中怎么使用6、题解|正确使用DENSE_RANK()窗口函数SELECTemp_no,salary,DENSE_RANK()OVER题解|#三角形#java解法服了，搞半天，原来是我long存的数据太小，不得不用BigIntger了。Scann拼多多校招+实习生，速
【网络安全】2025新手如何上手挖漏洞（非常详细）零基础入门到精通，看这篇就够了! 认真写程序的强哥 web安全网络安全渗透测试计算机编程黑客技术挖漏洞
前言有不少阅读过我文章的伙伴都知道，笔者本人17年就读于一所普通的本科学校，20年6月在三年经验的时候顺利通过校招实习面试进入大厂，现就职于某大厂安全联合实验室。我从事网络安全行业已经好几年，积累了丰富的技能和渗透经验。在这段时间里，我参与了多个实际项目的规划和实施，成功防范了各种网络攻击和漏洞利用，提高了互联网安全防护水平。也有很多小伙伴给我留言问我怎么学？怎么渗透？怎么挖漏洞？建议我们较合理的
【24届校招】【25、26届实习】明星独角兽Cider han_xue_feng java
孝子！！！终于泡出来了找了三个月实习颗粒无收，最后还是华为愿意收留我家人们爱信等真的有用！！！顺便蹲一个武汉华中科信息成都（OC）1.自我介绍2.介绍项目3.一个汉字在java中占几个字节4.==和equels的区别，为什么要重写菜鸟前端笔试有佬参加过菜鸟前端笔试吗？第一次遇到要打视频笔试的形式，都有什么题型难度如何呀，面试官会拷打吗算法菜有没有uu最近入职深圳字节或者附近公司的有没有uu最近入职
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa