wangdd_199326

面试必备之海量数据处理

一、海量数据处理

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。

那解决办法呢?

针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/trie树。

针对空间，无非就一个办法：大而化小，分而治之（hash映射）。

二、算法/数据结构基础

1.Bloom Filter

Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom Filter判断元素不再集合，那肯定不在。如果判断元素存在集合中，有一定的概率判断错误。因此，Bloom Filter不适合那些“零错误”的应用场合。
而在能容忍低错误率的应用场合下，Bloom Filter比其他常见的算法（如hash，折半查找）极大节省了空间。

适用范围

可以用来实现数据字典，进行数据的判重，或者集合求交集

具体参考：海量数据处理之Bloom Filter详解

2.Hash

Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

具体参考：十一、从头到尾解析Hash表算法

3. Bit-map

所谓的Bit-map就是用一个bit位来标记某个元素对应的值。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。

如果说了这么多还没明白什么是Bit-map，那么我们来看一个具体的例子，假设我们要对0-7内的5个元素(4,7,2,5,3)排序（这里假设这些元素没有重复）。那么我们就可以采用Bit-map的方法来达到排序的目的。要表示8个数，我们就只需要8个Bit（1Bytes），首先我们开辟1Byte的空间，将这些空间的所有Bit位都置为0(如下图：)

然后遍历这5个元素，首先第一个元素是4，那么就把4对应的位置为1（可以这样操作 p+(i/8)|(0x01<<(i%8)) 当然了这里的操作涉及到Big-ending和Little-ending的情况，这里默认为Big-ending）,因为是从零开始的，所以要把第五位置为一（如下图）：

然后再处理第二个元素7，将第八位置为1,，接着再处理第三个元素，一直到最后处理完所有的元素，将相应的位置为1，这时候的内存的Bit位的状态如下：

具体参考：数据结构：位图法

4.堆

堆是一种特殊的二叉树，具备以下两种性质
1）每个节点的值都大于（或者都小于，称为最小堆）其子节点的值
2）树是完全平衡的，并且最后一层的树叶都在最左边这样就定义了一个最大堆。
如下图用一个数组来表示堆：

5.trie树

下面我们有and,as,at,cn,com这些关键词，那么如何构建trie树呢？

从上面的图中，我们或多或少的可以发现一些好玩的特性。

第一：根节点不包含字符，除根节点外的每一个子节点都包含一个字符。

第二：从根节点到某一节点，路径上经过的字符连接起来，就是该节点对应的字符串。

第三：每个单词的公共前缀作为一个字符节点保存。

适用范围：

前缀统计，词频统计。

具体参考：6天通吃树结构—— 第五天 Trie树

6.外排序

适用范围：

大数据的排序，去重

基本原理及要点：

外部排序的两个独立阶段：

1）首先按内存大小，将外存上含n个记录的文件分成若干长度L的子文件或段。依次读入内存并利用有效的内部排序对他们进行排序，并将排序后得到的有序字文件重新写入外存，通常称这些子文件为归并段。

2）对这些归并段进行逐趟归并，使归并段逐渐由小到大，直至得到整个有序文件为之。

外排序的优化方法：置换选择败者树原理，最优归并树

具体参考：选择置换+败者树搞定外部排序

三、面试问题解决

①、海量日志数据，提取出某日访问百度次数最多的那个IP。

算法思想：分而治之+Hash

1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；
2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)%1024值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址；
3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址；
4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP；

②、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。

可以在内存中处理，典型的Top K算法

算法思想：hashmap+堆

1.先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计；
2.借助堆这个数据结构，找出Top K，时间复杂度为O(N*logK)。

或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

③、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

算法思想：分而治之 + hash统计 + 堆排序

1.顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

2.对每个小文件，采用trie树/hash_map等统计每个文件中出现的词以及相应的频率。

3.取出出现频率最大的100个词（可以用含100个结点的最小堆）后，再把100个词及相应的频率存入文件，这样又得到了5000个文件。最后就是把这5000个文件进行归并（类似于归并排序）的过程了。

④、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。

方案1：

算法思想：分而治之 + hash统计 + 堆排序

顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件中。这样新生成的文件每个的大小大约也1G，大于1G继续按照上述思路分。

找一台内存在2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。

对这10个文件进行归并排序（内排序与外排序相结合）。

方案2：

算法思想：hashmap+堆

一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。

⑤、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

算法思想：分而治之 + hash统计

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

⑥、在2.5亿个整数中找出不重复的整数，注，内存不足以容纳这2.5亿个整数。

采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^32 * 2 bit=1 GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。

⑦、给40亿个不重复的unsigned int的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那40亿个数当中？

方案1：申请512M的内存，一个bit位代表一个unsigned int值。读入40亿个数，设置相应的bit位，读入要查询的数，查看相应bit位是否为1，为1表示存在，为0表示不存在。

方案2：因为2^32为40亿多，所以给定一个数可能在，也可能不在其中；
这里我们把40亿个数中的每一个用32位的二进制来表示
假设这40亿个数开始放在一个文件中。

然后将这40亿个数分成两类:
1.最高位为0
2.最高位为1
并将这两类分别写入到两个文件中，其中一个文件中数的个数<=20亿，而另一个>=20亿（这相当于折半了）；
与要查找的数的最高位比较并接着进入相应的文件再查找

再然后把这个文件为又分成两类:
1.次最高位为0
2.次最高位为1

并将这两类分别写入到两个文件中，其中一个文件中数的个数<=10亿，而另一个>=10亿（这相当于折半了）；
与要查找的数的次最高位比较并接着进入相应的文件再查找。
.......
以此类推，就可以找到了。

参考文章：

海量数据处理算法总结
十道海量数据处理面试题与十个方法大总结
教你如何迅速秒杀掉：99%的海量数据处理面试题

作者：Ruheng
链接：http://www.jianshu.com/p/ac5cad6d64a8
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可能感兴趣的:(查漏补缺)

android进阶之光！Android面试必备的集合源码详解，系列篇程序员Sunbu 程序员 Android
前言面试：如果不准备充分的面试，完全是浪费时间，更是对自己的不负责。文末会给大家分享下我整理的Android面试专题及答案其中大部分都是大企业面试常问的面试题，可以对照这查漏补缺，当然了，这里所列的肯定不可能覆盖全部方式，不过对大家找工作肯定是有帮助！本月飞机到达上海，到今天第6天了，四家大公司华为，小米，映客，抖音，还有二家中小型公司。有几家已经面了几轮，下周还要面，挂了几家，不过目前已经选择了
2022 前端JavaScript高频手写面试题大全，助你查漏补缺 2401_86367399 面试辅导大厂内推前端 javascript 开发语言
let_fn=curry(function(a,b,c,d,e){console.log(a,b,c,d,e)});_fn(1,2,3,4,5);//print:1,2,3,4,5_fn(1)(2)(3,4,5);//print:1,2,3,4,5_fn(1,2)(3,4)(5);//print:1,2,3,4,5_fn(1)(2)(3)(4)(5);//print:1,2,3,4,5我们常用的工
2019-06-10 王春叶
敬爱的李老师，智慧的班主任，亲爱的跃友们：大家好！我是来自文登奥沃斯教育的王春叶，是黄栎媛的人，今天是我日精进行动的第257天，给大家分享我的进步，相互勉励，携手前行，每天进步一点点，离成功便不远。1、比学习:每个清晨，都是一个新的开始；新的一周，带着新的希望，勇敢前行。2、比改变:一定注意工作讲话当中的方式方法，自检自己。3、比付出:我们的向日葵老师每次下课之后都会把孩子留下来单独查漏补缺，这种
#假期余额不足乐_阳阳
最近老大学校发来各项通知，提醒家长要帮着孩子来核对各项作业的完成进度。孩子在开学之前，的确需要有这么一个规范的习惯。我觉得是挺好的，不知道其他家长会不会有意见。我家姑娘前天刚完成一个阶段性的任务~走秀，接下来的时光就是慢慢核对暑假作业，进行查漏补缺。只是很多时候都是家长比较着急，孩子自己很宽心。等我反应过来，才发现暑假的余额已经不多了，原来计划陪孩子读多少本书，好像截止目前，都只剩下娃娃一个人在认
什么是扎实的基本功？MySQL 基础知识看看你了解多少腐烂的橘子 MySQL 后端
本文首发于公众平台：腐烂的橘子当前很多同学沉迷于“碎片化学习”，问题在于获取到的都是零碎的知识，没有体系化的知识框架，这对于练就扎实的基本功是极其不利的。怎么办？这时要懂得中庸之道“慢即是快”的道理，系统学一遍，查漏补缺，不要觉得有些你知道就学不下去了，要耐得住性子，系统学习。下面就来检验下这些知识点你是否都掌握了。关于join的那些事Innerjoin冷知识：join=innerjoinsele
如何上好期末复习课郑大仙_585f
复习课有知识梳理类的复习课、专项练习类的复习课、综合讲评类的复习课、查漏补缺类的复习课、思维提升类的复习课等。这些承载着不同学习目标的复习课的教学质量，往往影响着整个复习阶段的教学质量。一、知识梳理类复习课：连点成线，形成知识结构网络知识梳理类复习课是一般意义上的复习课。这类复习课的目标定位主要是知识梳理，帮助学生将前面学习的散点知识，通过一定的结构化梳理，从整体上给予把握。组织形式多样，一般来说
网课后遗症芳草June
由于疫情，我们的学生在超长的寒假里不得不通过上网课来学习新知识。从四月二十日开学以来，我们尽力把学生从网课的状态中拉回来，从课本到习题，采用集中梳理重点知识，有针对性的练习，每复习一节课，就通过巩固上习题加以巩固，每复习一个单元，就通过单元测试卷来查漏补缺，包括每节课上的单词提写。希望以此来确保学生对知识的全面牢固掌握。但我惊讶的发现，我们的学生出现了注意力严重不集中的现象，而且是大面积的学生，不
Android SystemUI 信号栏后添加信号图标，查漏补缺起飞程序员 2024年程序员学习 android
android:layout_width=“wrap_content”android:layout_marginStart=“1dp”android:visibility=“gone”android:tag=“mobile_slot_indicator_4”/>privateImageViewcustom_signal_4g;privateImageViewcustom_signal_volte;
前端安全之XSS攻击（跨域脚本攻击）彭式程序猿前端常见问题和解决方案汇总前端安全 xss
提示：前端查漏补缺，仅代表个人观点，不接受任何批评文章目录一、XSS是什么？二、XSS类型划分1.反射性XSS（ReflectedXSS）2.存储型XSS（StoredXSS）3.基于DOM或本地的XSS攻击（DOM-basedorlocalXSS）三、XSS防范手段1.htmlencode转义特殊字符2.引入XSS库针对用户输入源过滤，设置标签白名单（node.js）3.cookie设置Http
说说育儿中陪伴的重要性崔崔老师520
最近期末复习阶段。在查漏补缺，很多孩子看到各种作业和试卷，有种天然的抗拒。我真是打心眼里理解孩子们。本来快乐的暑假就要来了，没想到的是这磨人的期末，让孩子们心生疲惫。我特别不想让孩子们产生这种疲惫感，因为这种感觉非常不利于孩子未来的持续学习，所以想尽办法让他们觉得复习也可以快乐。比如今天在六班，就陪孩子们玩解词游戏。如“依”是什么意思？“依”我看的依，“依次”怎么解释？对于成年人这真不是问题，但对
欧几里得模考总结与展望圆梦研途（研0）考研学习
欧几里得月度万人大模考总结：用心态面对挑战，调整策略迎接未来刚刚结束的欧几里得月度万人大模考，试卷整体偏难，尤其是选填部分，难度较大，导致大家的成绩普遍不理想。这种情况其实很正常，因为目前大家大多还处在复习的中期阶段，很多知识点还没有完全掌握，感觉难是不可避免的。但不要因此气馁或懊恼，关键是及时查漏补缺，并在接下来的百余天里持续进步。从模考中学会应试策略通过这次考试，大家要学会一些实用的考试策略。
160班——我们的第三十六天凝涵
上课整整一个多月了，列一列孩子们在学习上的收获。《语文》语文第一单元花了两个星期来教学，前面一个月没让孩子们大范围的背诵，而是采取滚雪球的方式熟读，第二天课堂上稍微地进行个别抽背。给一点点压力，但也给一点点加分来进行鼓励。第二单元零零碎碎也是花了两个星期，学校课堂上教读，学生回家滚雪球，炒豆子，家长在家查漏补缺，坚持拍视频、照片打卡读背任务，日不间断。这周由于活动较多，冲掉一些课，第三单元才开始上
2019-06-20 韩静_340c
快到期末考试了，很多地方孩子没掌握到并不太好。尤其是一些比较难搞的题。反复的讲，怎么也讲不过。这个星期我才去那，方法是把难题细分。一节课就讲一到两个难题。讲后跟上小测验。小测验完成后，及时了解孩子们的情况。把错题进行及时的改正。这段时间孩子们都跟不上来。所以每次收作业的时候，我以但为单位收，改完作业的孩子自己签名。这样我能及时的了解哪些孩子一边好，哪些孩子没有改好。做为老师静下心来，慢慢的查漏补缺
【知识体系】如何让学习体系化效果更好？潇湘剑儿
其实学习体系就是知识框架。构建知识框架，也就是把知识建立成一个完整的体系。一、知识框架（一）所谓知识框架，就是按照自己的理解和感悟，确定一条主线或主题。“用时间来作为一个主线，再标出各个历史朝代的重大事件，然后把这些事件人物和事情用一个思维导图来表示出来，标示重要事件时，一定要分知识点和关键词。（二）把各知识点打乱进行重组。然后再进行知识的扩充和弥补，查漏补缺。所有的学科他们各自的内容都各不相同，
提高孩子的阅读力的秘密武器天之白云
最近临近小学生的期末考，孩子和老母亲都在经历陪考的煎熬。网传一段话：“能说说你陪考时的感受吗？”“首先，我感觉我自己被耍了！我以为给她复习不过是查漏补缺，复习了才发现是女娲补天，后来补着补着发现是在夸父追日，而我不过是在愚公移山”此番话，是有一些夸张，但是也是老母亲的日常亲子关系的掠影-----我眼中的孩子的样子和实际中孩子的样子的差距。在孩子的一切都不可控的万念俱灰的情况下，偶然看到一本书，《阅
孩子，期末考试你准备好了吗半坡小学何霞
时间过得好快，再剩两个星期就要期末考试了。孩子，你准备好了吗?俗话说:"磨镰不误砍柴工”。首先要养成良好的学习习惯，端正学习态度。上课认真听讲，积极动脑，完成老师布置的各科作业。其次，查漏补缺。复习以前没有掌握的知识点，易错字、错题，加以纠正，达到学会掌握。最后要有科学的复习方法。采用思维导图归纳知识点，一类题总结做题方法，举一反三。最重要的是书写要工整、规范、美观，讲究做题方法先易后难，看清题目
魏梅花网络中级21期 2020.11.27 坚持分享314天 2ff6a2473ead
今天高三模拟考试。进考场的时候，学校要求用金属探测仪探测学生是否携带手机，操作的时候，需在全身上下搜索。我说这次咱们来个诚信考试，我相信大家不会把手机带进考场的，都高三了正是发现问题，查漏补缺的时候，我相信大家不会自欺欺人。同学们对我的做法，有表示不敢相信的，有表示认可的，有表示赞赏的，有感谢老师信任的，有的同学说没带包，还专门把手机交到讲桌上，说考试结束再拿走。我的心里也五谷杂陈，特别的感慨，其
Job System概述 Don里个冬 Unity3D技术分享多线程 unity unity3d
JobSystem概述前言最近查漏补缺，稍微学习一下JobSystem的理念。在此作下记录。背景目前大部分游戏和应用都只使用单核，JobSystem出现的目的就在于允许游戏尽可能使用可使用的CPU核，从而并行加速运行游戏。更具体地说，使用多核可以在不优化thread-time（CPU指令用于计算的时间）的情况下减少wall-time（一个任务从开始到结束的时间）。优势使用JobSystem来减少w
敏捷工具：Scrum板与Kanban如何抉择？
Scrum板作为一种工具，主要应用于Scrum团队的敏捷项目管理，能够帮助团队更新任务进度，促进团队信息共享，及时发现任务过程中的异常现象，从而查漏补缺。团队在每日站会时会通过Scrum板来直观地展示任务状态，确定每日需要做的任务以及优先级。看板作为一种敏捷方法论，通过工作流程以及任务的可视化来识别并纠正出现的失误。起初，看板通常为物理看板（白板），随着项目管理流程移至线上，看板也逐渐转为虚拟看板
正面管教打卡6:启发式提问与尊重森林唱游啦啦啦
森林唱游20180622过了这个周末就要期末考试。看到老师布置的作业大都为自主复习，查漏补缺，觉得这是一个很好的契机，可以让孩子学习根据自己的现状有的放矢地复习。但是晚上因为和正面管教的小伙伴约好了一起研讨，这个过程只能靠他自己了。晚饭的时候，我问她：“这个周末所有兴趣课都停了，只有复习一件事儿，但是晚上妈妈有事儿要出去，你怎么打算？”她想了想，说：“老师布置的作业我只剩口头作业了，晚上我做几张卷
2020-07-07 德安胜利路黄丹丹
名思中高考抓住重点名思中高考——抓住重点名思教育中高考——抓住重点，击破难点，冲刺高分艺术生文化课特训——讲方法，提效率短期*小学各年级——激发兴趣，培养习惯，挖掘潜能初一、高一——夯实基础，传授方法，过渡衔接初二、高二——梳理归纳，改善方法，稳步提升初三、高三——查漏补缺，各科串讲，*作文、阅读——引导兴趣，传授方法，快速提升小学奥数——发散思维，综合提高，高效解题名思精品课程小学：语文、数学、
2022-06-14 f62f7922e7c5
语文组复课后的复习安排接近两个月的居家网课，针对学生在网课期间出现的一系列学习问题，复学后要快速摸清每个孩子的情况，并且有针对性的查漏补缺，对在线讲授的课程进行系统梳理还要进行扎实有效的复习，帮学生理清知识，掌握重点、难点，理解所要把握的内容。一、学情分析1.网课没有面对面教授知识，学生没有时间观念和自觉性，孩子们居家学习的真实与否有待重新评估。2.学生听课效率和质量决定了成绩。学生们的学习态度不
期中考试在即，无论考多少，父母都别对孩子说这3句话长青藤教育王老师
这几天，孩子们就要陆续迎来期中考试了。9月份欢欢喜喜送神兽归笼的情景还历历在目，这一转眼，变凉的不止是天气，还有父母的心。毕竟，期中考试近在眼前，一个学期过去一半了。孩子们学得怎么样，是骡子还是马，是时候拖出来遛遛了。于是，各位老父老母也紧张起来了，他们脱掉小西装，扔下PPT，加入陪娃复习的大军。不过，几次复习下来，状况有点出乎意料。有的家长惊觉：我原以为给孩子查漏补缺，没想到他要我女娲补天。还有
学习日志-第6课服务的行为-20200421 幻雪美美哒
【精时力学习日志·勇士版】本训练营：阅读营·预热周本周书籍：《赞赏的5种语言》学习日期：2020年4月21日（复习：服务的行为）1.[复盘]我在课程中的收获：1.1温故（1）复盘怎么写？崔律有妙招。听课或复盘时，留意哪些点崔律讲到了，而自己没有想到。然后去思考为什么自己没看到或者没想到，是因为阅读不扎实，还是没注意一些小词汇？经过这样的查漏补缺，日积月累，100天下来一定会有很大的进步。（2）@四
2018-09-04 其霞
7:30到校，开始打扫卫生，企鹅光垃圾桶里的垃圾便倒了三垃圾桶，大多是生活垃圾，应该是家属院的家属们所扔。不明白此垃圾桶放这有何用，净增添更多的垃圾。打扫完卫生，赶紧去五班上了一节查漏补缺课，顺便处理了一下昨晚的作业。第二节在十一班重复着第一节的内容。课间操带领孩子下去找到了自己班级活动位置。三四节好歹有时间坐在办公室，把两个班的昨晚作业批阅了一遍，大多数做的不错，五班似乎比我班正确率要高。下午来
随记爽颜
儿子放假了，我一直在想该如何帮她规划这个假期。期末考试成绩不够理想，前段时间学习有点分心，虽然一直在关注他，并及时疏导，可是还是对学习有一定影响。看到这个期末考试成绩，我比他难过，他居然还说：我物理考了69，就差一分满分，看到试卷那一刻，我可开心了！我表扬了他在物理方面的用心，同时也指出了其他方面的不足，希望他假期制定一个学习计划，查漏补缺，预习新课。今天高考成绩出来，同事家的儿子考了663分，一
背景颜色和背景图片覆盖区域（CSS查漏补缺） hijackli
文:jack同学jack同学背景颜色默认覆盖到border,而背景图片默认覆盖到padding。可以使用border-style:dashed测试查看(只针对块级元素不针对内联元素)设置属性background-clip:content-box/padding-box/border-box(默认);改变背景颜色覆盖区域设置属性background-size:100%/100px/contain;可
批评背后的能量小星星慧
梁惠焦点解决网络初级班20期坚持原创分享第13天（2020.01.30）又是忙碌的一天，回想今天发生的事，因为早上交班，没有说透，领导批的很不开心！下午陈局召唤开会，听着听着心安静了许多。正如陈局说的遇事要有定力，有必胜的信念，才会赢！总结自己语言表达方面存在的问题，没有底稿，条理不清，所以说出话会没有底气。改进：学习标准，对照标准查漏补缺，做到心中有数才会有定力。
葫芦书第一章——特征工程单调不减
葫芦书是机器学习岗位面试的必读书，第一遍读，就当作对自己这四个月以来入门机器学习的知识测验，顺便查漏补缺。葫芦书比较好的一点是它的写作是通过问答方式进行的，就像一场模拟面试一样，而这些问题可能是我自学相关知识的时候没有细想过的，通过这些问题我也可以发现自己的知识盲区，再查阅相关资料。闲言少叙，开始啦。特征工程，顾名思义，是对原始数据进行一系列工程处理，将其提炼为特征，作为输入供算法和模型使用。从本
洛阳李艳焦点初十坚持分享115天 2018-10-04 ycgaly
国庆这两天在家做了两套历年考试的真题，结果得分都很低，自己也认为挺努力了，可是成绩却不尽人意。是自己的方法不对还是自己太急了，不够稳，没有把基础打好？得反思一下自己。刚看到一个老师的分享，只要思想不滑坡，办法总比困难多！思想坚决不会滑坡，需要的是对症解决，查漏补缺，扎实打好基础本！
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他