qq_26562641

海量数据处理算法之Bloom Filter

算法介绍

Bloom Filter的中文名称叫做布隆过滤器，因为他最早的提出者叫做布隆(Bloom)，因而而得此名。布隆过滤器简单的说就是为了检索一个元素是否存在于某个集合当中，以此实现数据的过滤。也许你会想，这还不简单，判断元素是否存在某集合中，遍历集合，一个个去比较不就能得出结果，当然这没有任何的问题，但是当你面对的是海量数据的时候，在空间和时间上的代价是非常恐怖的，显然需要更好的办法来解决这个问题，而Bloom Filter就是一个不错的算法。具体怎么实现，接着往下看。

Bloom Filter

先来说说传统的元素检索的办法，比如说事先在内存中存储了一堆的url字符数组，然后给定一个指定的url，判断是否存在于之前的集合中，我们肯定是加载整个数组到内存中，然后一个个去比较，假设每条url字符平均所占的量只有几个字节，但是当数据变为海量的时候，也足以撑爆整个内存，这是空间上的一个局限。再者，逐次遍历的方式本身就是一种暴力搜索，搜索的时间将会随着集合容量的本身而线性扩展，一旦数据量变大，查询时间上的开销也是非常恐怖的。针对时间和空间上的问题，Bloom Filter都给出了完美的解决办法。首先第一个空间的问题，原本的数据占用的是字符，在这里我们用1个位占据，也就是说1个元素我用1/8的字节表示，不管你的url长度是10个字符，100字符，统统用一个位表示，所以在这里我们需要能够保证每个字符所代表的位不能冲突。因为用到了位的存储，我们需要对数据进行一个hash映射，以此得到他的位置，然后将此位置上的位置标为1(默认都是为0)。所以说白了，Bloom Filter就是由一个很长的位数组和一些随机的哈希函数构成。位数组你可以想象成下面的这种形式：

你可以想象这个长度非常长，反正1个单位就占据1个位，1k的空间就已经能够表示1024*8=8192位了。所以说内存空间得到了巨大的节约。现在一个问题来了，为什么我刚刚用了一些随机的哈希函数这个词而不是说一个呢，因为会有哈希碰撞，再好的哈希函数也不能保证不会发生哈希冲突，所以这里需要采用多个哈希函数，所以元素是否存在的判断条件就变为了只有所有的哈希函数映射的位置的值都是true的情况下，此元素才是存在于集合中的，这样判断的准确率就会大大提升了，哈希映射之后的效果图如下：

假设我们的程序采用了如上图所示的3个随机独立的哈希函数，1个元素需要进行3次不同的哈希函数的映射算法，对3个位置进行标记，对此元素的误判概率我们做个计算，要使此元素误判，就是说，他的这3个位置都有人占据了，就是说都与别的哈希函数有冲突，这最糟糕的情况就是他的3个映射位置与某个其他的元素通过哈希函数计算完全重叠，假设位空间长度1W位。每个位置被映射的概率就为1/1w，所以最糟糕的情况的冲突概率就是1/1w*1/1w*1/1w=1/10的12次方，如果最大的冲突概率的可能性呢，就是每个位置都与其中的某个哈希函数映射冲突，那误差概率就是叠加的情况1/1w+1/1w+1/1w=0.0003。结果已经非常明显了，通过3个哈希函数就已经能够保证足够低的误判率了，更别说当你用4个，5个哈希函数做映射的情况。下面问题又转移到了我们用什么方式去作为位数组呢，int数组，字符char数组，答案都不是。结果在下面。

BitSet

这个是java中的某个数据类型，C,C++我目前不清楚有没有这样的类，为什么选用这个而不是前面说的int，或char数组，首先int当然不行，1个int本身就有32位，占了4个字节，用他做出0，1的存储显然相当于没省下空间，自然我们就想到了用字符数组char[]，在C语言中1个char占一个字节，而在java中由于编码方式的不同，一个char占2个字节，用char做存储也只是稍稍比int介绍了一半的空间，并没有真正的做到一个元素用一个位来表示，后来查了一下，java里面就有内置了BitSet专门就是做位存储的，还能够进行位相关的许多操作，他的操作其实就是和数组一样，也是从0开始的。不熟悉的同学可以自行上网查阅相关资料，其实int数组也可以实现类似的功能，不过自己要做转换，把int当成32位来算，之前我写过相关的文章，是关于位示图法存储大数据。

算法的实现

算法其实非常的简单，我这里用一组少量的数据进行模拟。

输入数据input.txt：

[java]  view plain copy print ? 
     
    
 mike  
 study  
 day  
 get  
 last  
 exam  
 think  
 fish  
 he  

然后是测试数据，用于查询操作testInput.txt:

[java]  view plain copy print ? 
     
    
 play  
 mike  
 study  
 day  
 get  
 Axis  
 last  
 exam  
 think  
 fish  
 he  

其实就是我随便组合的一些词语。

算法的工具类BloomFilterTool.java:

[java]  view plain copy print ? 
     
    
 package BloomFilter;  
   
 import java.io.BufferedReader;  
 import java.io.File;  
 import java.io.FileReader;  
 import java.io.IOException;  
 import java.util.ArrayList;  
 import java.util.BitSet;  
 import java.util.HashMap;  
 import java.util.Map;  
   
 /** 
  * 布隆过滤器算法工具类 
  *  
  * @author lyq 
  *  
  */  
 public class BloomFilterTool {  
     // 位数组设置为10w位的长度  
     public static final int BIT_ARRAY_LENGTH = 100000;  
   
     // 原始文档地址  
     private String filePath;  
     // 测试文档地址  
     private String testFilePath;  
     // 用于存储的位数组,一个单元用1个位存储  
     private BitSet bitStore;  
     // 原始数据  
     private ArrayList<String> totalDatas;  
     // 测试的查询数据  
     private ArrayList<String> queryDatas;  
   
     public BloomFilterTool(String filePath, String testFilePath) {  
         this.filePath = filePath;  
         this.testFilePath = testFilePath;  
   
         this.totalDatas = readDataFile(this.filePath);  
         this.queryDatas = readDataFile(this.testFilePath);  
     }  
   
     /** 
      * 从文件中读取数据 
      */  
     public ArrayList<String> readDataFile(String path) {  
         File file = new File(path);  
         ArrayList<String> dataArray = new ArrayList<String>();  
   
         try {  
             BufferedReader in = new BufferedReader(new FileReader(file));  
             String str;  
             String[] tempArray;  
             while ((str = in.readLine()) != null) {  
                 tempArray = str.split(" ");  
                 for(String word: tempArray){  
                     dataArray.add(word);  
                 }  
             }  
             in.close();  
         } catch (IOException e) {  
             e.getStackTrace();  
         }  
   
         return dataArray;  
     }  
       
     /** 
      * 获取查询总数据 
      * @return 
      */  
     public ArrayList<String> getQueryDatas(){  
         return this.queryDatas;  
     }  
   
     /** 
      * 用位存储数据 
      */  
     private void bitStoreData() {  
         long hashcode = 0;  
         bitStore = new BitSet(BIT_ARRAY_LENGTH);  
   
         for (String word : totalDatas) {  
             // 对每个词进行3次哈希求值，减少哈希冲突的概率  
             hashcode = BKDRHash(word);  
             hashcode %= BIT_ARRAY_LENGTH;  
   
               
             bitStore.set((int) hashcode, true);  
   
             hashcode = SDBMHash(word);  
             hashcode %= BIT_ARRAY_LENGTH;  
   
             bitStore.set((int) hashcode, true);  
   
             hashcode = DJBHash(word);  
             hashcode %= BIT_ARRAY_LENGTH;  
   
             bitStore.set((int) hashcode, true);  
         }  
     }  
   
     /** 
      * 进行数据的查询，判断原数据中是否存在目标查询数据 
      */  
     public Map<String, Boolean> queryDatasByBF() {  
         boolean isExist;  
         long hashcode;  
         int pos1;  
         int pos2;  
         int pos3;  
         // 查询词的所属情况图  
         Map<String, Boolean> word2exist = new HashMap<String, Boolean>();  
   
         hashcode = 0;  
         isExist = false;  
         bitStoreData();  
         for (String word : queryDatas) {  
             isExist = false;  
               
             hashcode = BKDRHash(word);  
             pos1 = (int) (hashcode % BIT_ARRAY_LENGTH);  
   
             hashcode = SDBMHash(word);  
             pos2 = (int) (hashcode % BIT_ARRAY_LENGTH);  
   
             hashcode = DJBHash(word);  
             pos3 = (int) (hashcode % BIT_ARRAY_LENGTH);  
   
             // 只有在3个哈希位置都存在才算真的存在  
             if (bitStore.get(pos1) && bitStore.get(pos2) && bitStore.get(pos3)) {  
                 isExist = true;  
             }  
   
             // 将结果存入map  
             word2exist.put(word, isExist);  
         }  
   
         return word2exist;  
     }  
   
     /** 
      * 进行数据的查询采用普通的过滤器方式就是，逐个查询 
      */  
     public Map<String, Boolean> queryDatasByNF() {  
         boolean isExist = false;  
         // 查询词的所属情况图  
         Map<String, Boolean> word2exist = new HashMap<String, Boolean>();  
   
         // 遍历的方式去查找  
         for (String qWord : queryDatas) {  
             isExist = false;  
             for (String word : totalDatas) {  
                 if (qWord.equals(word)) {  
                     isExist = true;  
                     break;  
                 }  
             }  
   
             word2exist.put(qWord, isExist);  
         }  
   
         return word2exist;  
     }  
   
     /** 
      * BKDR字符哈希算法 
      *  
      * @param str 
      * @return 
      */  
     private long BKDRHash(String str) {  
         int seed = 31; /* 31 131 1313 13131 131313 etc.. */  
         long hash = 0;  
         int i = 0;  
   
         for (i = 0; i < str.length(); i++) {  
             hash = (hash * seed) + (str.charAt(i));  
         }  
   
         hash = Math.abs(hash);  
         return hash;  
     }  
   
     /** 
      * SDB字符哈希算法 
      *  
      * @param str 
      * @return 
      */  
     private long SDBMHash(String str) {  
         long hash = 0;  
         int i = 0;  
           
         for (i = 0; i < str.length(); i++) {  
             hash = (str.charAt(i)) + (hash << 6) + (hash << 16) - hash;  
         }  
   
         hash = Math.abs(hash);  
         return hash;  
     }  
   
     /** 
      * DJB字符哈希算法 
      *  
      * @param str 
      * @return 
      */  
     private long DJBHash(String str) {  
         long hash = 5381;  
         int i = 0;  
   
         for (i = 0; i < str.length(); i++) {  
             hash = ((hash << 5) + hash) + (str.charAt(i));  
         }  
   
         hash = Math.abs(hash);  
         return hash;  
     }  
   
 }  

场景测试类Client.java:

[java]  view plain copy print ? 
     
    
 package BloomFilter;  
   
 import java.text.MessageFormat;  
 import java.util.ArrayList;  
 import java.util.Map;  
   
 /** 
  * BloomFileter布隆过滤器测试类 
  *  
  * @author lyq 
  *  
  */  
 public class Client {  
     public static void main(String[] args) {  
         String filePath = "C:\\Users\\lyq\\Desktop\\icon\\input.txt";  
         String testFilePath = "C:\\Users\\lyq\\Desktop\\icon\\testInput.txt";  
         // 总的查询词数  
         int totalCount;  
         // 正确的结果数  
         int rightCount;  
         long startTime = 0;  
         long endTime = 0;  
         // 布隆过滤器查询结果  
         Map<String, Boolean> bfMap;  
         // 普通过滤器查询结果  
         Map<String, Boolean> nfMap;  
         //查询总数据  
         ArrayList<String> queryDatas;  
   
         BloomFilterTool tool = new BloomFilterTool(filePath, testFilePath);  
   
         // 采用布隆过滤器的方式进行词的查询  
         startTime = System.currentTimeMillis();  
         bfMap = tool.queryDatasByBF();  
         endTime = System.currentTimeMillis();  
         System.out.println("BloomFilter算法耗时" + (endTime - startTime) + "ms");  
   
         // 采用普通过滤器的方式进行词的查询  
         startTime = System.currentTimeMillis();  
         nfMap = tool.queryDatasByNF();  
         endTime = System.currentTimeMillis();  
         System.out.println("普通遍历查询操作耗时" + (endTime - startTime) + "ms");  
   
         boolean isExist;  
         boolean isExist2;  
   
         rightCount = 0;  
         queryDatas = tool.getQueryDatas();  
         totalCount = queryDatas.size();  
         for (String qWord: queryDatas) {  
             // 以遍历的查询的结果作为标准结果  
             isExist = nfMap.get(qWord);  
             isExist2 = bfMap.get(qWord);  
   
             if (isExist == isExist2) {  
                 rightCount++;  
             }else{  
                 System.out.println("预判错误的词语：" + qWord);  
             }  
         }  
         System.out.println(MessageFormat.format(  
                 "Bloom Filter的正确个数为{0}，总查询数为{1}个，正确率{2}", rightCount,  
                 totalCount, 1.0 * rightCount / totalCount));  
     }  
 }  

在算法的测试类中我对于Bloom Filter和普通的遍历搜索方式进行了时间上的性能比较，当数据量比较小的时候，其实是看不出什么差距，甚至有可能布隆过滤器所花的时间可能更长比如我下面的某次测试结果：

[java]  view plain copy print ? 
     
    
 BloomFilter算法耗时2ms  
 普通遍历查询操作耗时0ms  
 Bloom Filter的正确个数为11，总查询数为11个，正确率1  

但是当我用真实的测试数据进行测试，我把原始数据缓存了一篇标准的文档，然后把查询的结果词语数量进行了翻倍，然后执行同样的程序结果变为了下面这个样子：

[java]  view plain copy print ? 
     
    
 BloomFilter算法耗时16ms  
 普通遍历查询操作耗时47ms  
 Bloom Filter的正确个数为2,743，总查询数为2,743个，正确率1  

其实这还不足以模拟海量数据的场景，对于这个结果也不难理解，普通的暴力搜寻，是和原始数据的总量相关，时间复杂度为O(n)的，而Bloom Filter，则是常量级别，做一个哈希映射就OK 了，时间复杂度O(l),

算法小结

算法在实现的过程中遇到了一些小问题，第一就是在使用哈希函数的时候，因为我是随机的选了3个字符哈希函数，后来发现老是会越界，一越界数值就会变为负的再通过BitSet就会报错，原本在C语言中可以用unsigned int来解决，java中没有这个概念，于是就直接取hash绝对值了。Bloom Filter算法的一个特点是数据可能会出现误判，但是绝对不会漏判，误判就是把不是存在集合中的元素判定成有，理由是哈希冲突可能造成此结果，而漏判指的是存在的元素判定成了不存在集合中，这个是绝对不可能的，因为如果你存在，你所代表的位置就一定会有被哈希映射到，一旦映射到了，在你再去查找就不会漏掉。算法的应用范围其实挺多的，典型的比如垃圾邮箱地址的过滤。

参考文献：

布隆过滤器-百度百科

http://blog.csdn.net/hguisu/article/details/7866173

我的数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm

我的算法库：https://github.com/linyiqun/lyq-algorithms-lib

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
2021-11-15 宙火
我给宋小姐写了首诗，是我在课上因思恋宋小姐而写的。“自古多情是唐宋，从来双飞归巢燕。邻家小女相聘婷，常使春意荡漾我。不知单思可为爱，惟愿一心付之汝。”我拿给宋小姐看了，她说我写得很棒。我很开心，但又不是那么开心。宋小姐是回复我了，但也只是说我写得很棒，对我诗句中蕴藏的真切感情，不知道是真的没发现，还是装作没发现。但我不深究，只是这样，我就很开心了。我答应宋小姐，一天给她写一首诗。
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
数据结构之哈希表 X同学的开始数据结构数据结构散列表
哈希表(散列表)出现的原因在顺序表中查找时，需要从表头开始，依次遍历比较a[i]与key的值是否相等，直到相等才返回索引i；在有序表中查找时，我们经常使用的是二分查找，通过比较key与a[i]的大小来折半查找，直到相等时才返回索引i。最终通过索引找到我们要找的元素。但是，这两种方法的效率都依赖于查找中比较的次数。我们有一种想法，能不能不经过比较，而是直接通过关键字key一次得到所要的结果呢？这时，
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &