大数据研习社

大数据算法面试题目及答案（一）

01 如何从海量数据中找出最高频词

题目描述：

有一个GB大小的文件，文件里面每一行是一个英文单词，每个单词的大小不超过16个字节，内存限制是1MB。请设计一个算法思路，返回单词词频数最高的100个单词（Top100）。

题目解析：

题目中文件的大小为1GB，由于内存大小的限制，我们无法直接将这个大文件的所有单词一次性读入内存中。因此我们需要采用分治法，将一个大文件分割成若干个小文件，并且每个小文件的大小不超过1MB，从而能将每个小文件分别加载到内存中进行处理。然后使用HashMap分别统计出每个小文件的单词词频数，并获取每个小文件词频最高的100个单词。最后使用小顶堆统计出所有单词中出现词频最高的100个单词。

实现方式：分治法

步骤1

首先遍历这个大文件，对文件中遍历到的每个单词word，执行n=hash(word)%5000操作，然后将结果为n的单词存放到第fn个文件中。整个大文件遍历结束之后，我们可以得到5000个小文件，每个小文件的大小为200KB左右。如果有的小文件的大小仍然超过1MB，则采用同样的方式继续进行分解，直到每个小文件的大小都小于1MB为止。文件分割过程如图1-1所示。

图1-1 文件分割过程

步骤2

分别统计每个小文件中出现单词词频数最高的100个单词，最简单的实现方式是使用HashMap来实现，其中key为单词，value为该单词出现的词频数。具体做法是：遍历文件中的所有单词，对于遍历到的单词word，如果word在map中不存在，那么就执行map.put(word,1)，将该词频设置为1；如果word在map中存在，那么就执行map.put(word,map.get(word)+1)，将该单词词频数加1。遍历完成之后，可以很容易找出每个文件出现频率最高的100个单词。词频统计逻辑如图1-1所示。

图1-1词频统计逻辑

步骤3

因为步骤2已经找出了每个文件出现频率最高的100个单词，接下来我们可以通过维护一个小顶堆来找出所有单词中出现频率最高的100个单词。具体做法是：依次遍历每个小文件，构建一个小顶堆，堆大小为100。如果遍历到的单词出现的次数大于堆顶单词出现的次数，那么就用新单词替换堆顶的单词，然后重新调整为小顶堆。当遍历完所有文件后，小顶堆中的单词就是出现频率最高的100个单词。小顶堆构建过程如图1-1所示。

如图1-1 小顶堆构建过程

方法总结：

针对限定内存，求解海量数据的TopN问题，可以采取以下几个步骤。

1.分而治之，利用哈希取余，将大文件分割为小文件。

2.使用HashMap统计每个单词的词频。

3.求解词频最大的TopN，使用小顶堆；求解词频最小的TopN，使用大顶堆。

02 如何找出访问百度最多的IP地址

题目描述：

现在有一个1亿条记录的超大文件，里面包含着某一天海量用户访问日志，但已有内存存放不下该文件，现要求从这个超大文件中统计出某天访问百度次数最多的那个IP地址。

题目解析：

因为题目中只关心访问百度最多的IP地址，所以需要对原始文件进行遍历，将这一天访问百度的IP的相关记录输出到一个单独的大文件中。由于内存大小的限制，我们无法将这个大文件一次性加载到内存中，所以需要采用分治法将大文件分割为若干个小文件，直到内存可以装下每个小文件为止。然后使用HashMap分别统计出每个小文件中的每个IP地址出现的次数，并找出每个小文件中出现次数最多的IP地址。最后比较所有小文件中出现次数最多的IP，从而最终统计出这个超大文件中访问百度最多的IP地址。

实现方式：分治法

步骤1

首先遍历超大原始日志文件，将包含百度url地址的相关信息记录输出到一个单独的大文件中，那么这个新生成的大文件只包含访问百度的相关信息记录。文件过滤如图1-1所示。

图1-1 文件过滤

步骤2

然后遍历新生成的大文件，对文件中遍历到的每个IP执行n=hash(IP)%1000操作，将结果为n的日志记录放到第fn个文件中。整个大文件遍历结束后，我们可以得到1000个小文件。那么相同的IP会存储到同一个文件中，分割后的每个小文件的大小为大文件的1/1000。如果分割后的文件中仍然有部分文件无法装载到内存中，可以对该文件进行分割直至内存可以装下为止。文件分割过程如图1-1所示。

如图1-1 文件分割过程

步骤3

接着统计每个小文件中出现次数最多的IP，最简单的方法是通过HashMap来实现，其中key为IP地址，value为该IP地址出现的次数。具体做法是：遍历每个小文件中的所有记录，对于遍历到的IP，如果IP地址在map中不存在，那么就执行map.put(IP,1)，将该IP出现次数设置为1；如果IP地址在map中存在，那么就执行map.put(IP,map.get(IP)+1)，将该IP出现的次数加1。然后再遍历HashMap，可以很容易分别统计出每个文件中访问百度次数做多的IP。IP访问次数统计逻辑如图1-1所示。

如图1-1 IP访问次数统计逻辑

步骤4

最后比较所有小文件中访问百度次数最多的IP，便可以统计出整个超大文件中某日访问百度次数最多的IP地址。结果汇总过程如图1-1所示

如图1-1 结果汇总过程

方法总结：

针对限定内存，求解海量数据的最大值问题，可以采取以下几个步骤。

1.分而治之，利用哈希取余，将大文件分割为小文件。

2.使用HashMap统计每个IP出现的次数。

3.求解IP出现次数的最大值，遍历HashMap即可。

03 如何从2.5亿个整数中找出不重复的整数

题目描述：

在2.5亿个整数文件中找出不重复的整数。

备注：现有内存无法容纳2.5亿个整数。

题目解析：

题目中已经说明现有内存无法容纳2.5亿个整数，所以我们无法一次性将所有数据加载到内存中进行处理。

实现方式1：分治法

由于无法直接将2.5亿个整数一次性加载到内存处理，所以我们需要采用分治法，将一个大文件分割成若干个小文件，从而能将每个小文件分别加载到内存中进行处理，然后使用HashMap分别统计出每个小文件中每个整数出现的次数，最后遍历HashMap输出value值为1的整数即可。

步骤1

首先遍历这个大文件，对文件中遍历到的每个整数digit执行hash(digit)%1000操作，将结果为n的整数存放到第fn个文件中。整个大文件遍历结束之后，我们就可以将2.5亿个整数划分到1000个小文件中。那么相同的整数会存储到同一个文件中，分割后的每个小文件的大小为大文件的1/1000。如果有的小文件仍然无法加载到内存中，则可以采用同样的方式继续进分解，直到每个小文件都可以加载到内存中为止。文件分割过程如图1-1所示。

如图1-1 文件分割过程

步骤2

然后在每个小文件中找出不重复的整数，最简单的方法是通过HashMap来实现，其中key为整数，value为该整数出现的次数。具体做法是：遍历每个小文件中的所有记录，对于遍历到的整数digit，如果digit在map中不存在，那么就执行map.put(digit,1)，将digit出现次数设置为1；如果digit在map中存在，那么就执行map.put(digit,map.get(digit)+1)，将digit出现的次数加1。整数出现次数统计逻辑如图1-1所示。

如图1-1 整数出现次数统计逻辑

步骤3

最后针对每个小文件，遍历HashMap输出value为1的所有整数，就可以找出这2.5亿个整数中所有的不重复的数。这里不用再对每个小文件输出的整数进行重复筛重，因为每个整数经过hash函数处理后，相同的整数只会被划分到同一个小文件中，不同的文件中不会出现重复的整数。

实现方式2：位图法

对于整数相关的算法的求解，位图法是一种非常实用的算法。假设整数占用4B，即32bit，那么可以表示的整数的个数为2^32。那么对于本题目来说，我们只需要查找不重复的数，而无需关心具体整数出现的次数，所以可以分别使用2个bit来表示各个数字的状态：00表示这个数字没有出现过；01表示这个数字出现过一次；10表示这个数字出现过多次。那么这2^32个整数，总共需要的内存为2^32*2b=1GB。因此，当可用内存超过1GB时，可以采用位图法求解该题目。

步骤1

首先需要开辟一个用2Bitmap法标志的2^32个整数的桶数组，并初始化标记位为00，其存储的数据量远远大于2.5亿个整数。开辟并初始化位图如图1-1所示。

如图1-1开辟并初始化位图

步骤2

然后遍历2.5亿个整数，并查看每个整数在位图中对应的位，如果位值为00，则修改为01，如果位值为01，则修改为10，如果位值为10则保持不变。遍历数据并修改位图状态如图1-1所示。

如图1-1 遍历数据并修改位图状态

步骤3

最后当所有数据都遍历完成之后，可以再遍历一遍位图，把对应位值是01的整数输出，即可统计出2.5亿个整数中所有不重复的数。

方法总结：

判断整数是否重复的问题，位图法是一种非常高效的方法，当然前提是：内存要满足位图法所需要的存储空间。

04 判断一个数在40亿数据中是否存在

题目描述：

给定40亿个不重复的没有排序过的整数，然后再给定一个整数，如何快速判断这个整数是否包含在这40亿个整数当中。备注：现有内存不足以容纳这40亿个整数。

题目解析：

题目中已经说明现有内存无法容纳40亿个整数，所以我们无法一次性将所有数据加载到内存中进行处理，那么最容易想到的方法还是分治法。

实现方式1：分治法

根据实际内存大小情况，确定一个hash函数，比如hash(digit)%1000，通过这个hash函数将40亿个整数划分到若干个小文件（f1，f2，f3，...，f1000），从而确保每个小文件都能加载到内存中进行处理。然后再对待找出的整数使用相同的hash函数求出hash值，假设计算出的这个hash值为n，如果这个整数存在的话，那么它一定存在fn文件中。接着将fn文件中所有的整数都保存到HashSet中，最后判断待查找的整数是否存在。由于详细步骤与前面分治法类似，这里就不再赘述了。

实现方式2：位图法

假设整数占用4B，即32bit，那么可以表示的整数的个数为2^32。那么对于本题目来说，我们只需要判断整数是否存在，而无需关心整数出现的次数，所以可以使用1个bit来标记整数是否存在：0表示这个整数不存在；1表示这个整数存在。那么这2^32个整数，总共需要的内存为2^32*2b=1GB。因此，当可用内存超过1GB时，可以采用位图法求解该题目。

步骤1

首先需要开辟一个用1Bitmap法标志的2^32个整数的桶数组，并初始化标记位为0，其存储的数据量大于40亿个整数。开辟并初始化位图如图1-1所示。

如图1-1开辟并初始化位图

步骤2

然后遍历40亿个整数，将对应的位值设置为1。遍历数据并修改位图状态如图1-1所示。

如图1-1 遍历数据并修改位图状态

步骤3

最后再读取要查询的整数，查看对应的位值是否为1，如果位值为1表示存在，如果位值为0表示不存在。

方法总结：

判断数字是否存在、判断数字是否重复的问题，位图法是一种非常高效的方法。

05 如何找出CSDN网站最热门的搜索关键词

题目描述：

CSDN网站搜索引擎会通过日志文件把用户每次搜索使用关键词都记录下来，每个查询关键词限定长度为1~255个字节。假设目前有1000万个搜索记录，现要求统计最热门的10个搜索关键词。备注：现有内存不超过1GB。

题目解析：

从题目中给出的信息可知，每个搜索关键词最长为255个字节，1000万个搜索记录需要占用约10000000*255B≈2.55GB内存，因此，我们无法将所有搜索记录全部读入内存中处理。

实现方式1：分治法

分治法依然是一个非常实用的方法。首先将整个搜索记录文件分割为多个小文件，保证单个小文件中的搜索记录可以全部加载到内存中处理，然后统计出每个小文件中出现次数最多的10个搜索关键词，最后设计一个小顶堆统计出所有文件中出现最多的10个搜索关键词。在本题目中，分治法虽然可行，但不是最好的方法，因为需要2次遍历文件，分割文件的Hash函数被调用1000万次，所以性能不是很好，这里就不再赘述。

实现方式2：HashMap法

虽然题目中搜索关键词的总数比较多，但是一般关键词的重复度比较高，去重之后搜索关键词不超过300万个，因此可以考虑把所有搜索关键词及出现的次数保存到HashMap中，由于存储次数的整数一般占用4个字节，所以HashMap所需要占用的空间为300万*（255+4）≈800M，因此题目中限定的1GB内存完全够用。

步骤1

首先遍历所有搜索关键词，如果关键词存在与map中，则value值累加1；如果关键词不在map中，则value值设置为1。关键词出现次数统计逻辑如图1-1所示。

如图1-1 关键词出现次数统计逻辑

步骤2

然后遍历map集合，构建一个包含10个元素的小顶堆，如果遍历到的关键词出现的次数大于堆顶关键词出现的次数，则进行替换，并将堆调整为小顶堆。小顶堆构建过程如图1-1所示。

图1-1 小顶堆构建过程

步骤3

最后直接取出堆中的10个关键词就是出现次数最多的字符串。

实现方式3：前缀树法

前缀树：又称为字典树、单词查找树，是一种哈希树的变种。典型应用是用于统计、排序和保存大量的字符串，所以经常被搜索引擎系统用于文本词频统计。

实现方式2使用了HashMap来统计关键词出现的次数，当这些关键词有大量相同的前缀时，可以考虑使用前缀树来统计搜索关键词出现的次数，树的结点可以保存关键词出现的次数。

步骤1

首先遍历所有搜索关键词，针对每个关键词在前缀树中查找，如果能找到，则把结点中保存的关键词次数加1，否则就为这个关键词构建新的结点，构建完成之后把叶子结点中关键词的出现次数设置为1。当遍历完所有关键词之后，就可以知道每个关键词的出现次数了。前缀树的构建过程如图1-1所示。

如图1-1 前缀树的构建过程

备注：每个结点中的P表示所有字符添加到树的过程中，这个结点到达过几次，E表示当前结点有多少个字符串是以它结尾。

步骤2

然后遍历前缀树，就可以找出出现次数最多的关键词。

方法总结：

前缀树经常被用来统计字符串的出现次数，它的另外一个用途是字符串查找，判断是否有重复的字符串等。

关注【大数据研习社】公众号回复【大数据算法面试】领取！

人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
IDEA配置JSTL 阿俊仔（摸鱼版） intellij-idea java tomcat
IDEA配置JSTL下载JSTL官网下载地址：https://tomcat.apache.org翻到下面找到：点击，download下载下面内容：（就Impl和Spec）配置JSTL将两个下好的jar包放在lib文件夹下ctrl+shift+alt+s打开ProjectStructure左侧找到Modules->右侧选择Dependences->点击➕号Library->点击java->选中WEB
javax.imageio.IIOException: Can‘t read input file 阿俊仔（摸鱼版）眼盲心不瞎的憨憨bug日记 intellij-idea
问题描述根据路径地址读取图片存入数据库时，提示我没法读取图片。原因分析：大致就是各种情况导致路径不对或者文件不对路径格式写错了(windows路径分隔符是\，Linux是/)文件格式写错（文件名写错或者文件后缀写错）该路径下此文件不存在（复制路径去本地找找核对一下）解决方案：先看报错信息检查出错的语句（那边没什么问题），然后我又检查了所有写了文件路径的语句，发现我写入数据库的那个文件的路径没把文件
MVC和react 吃蛋糕的居居 javascript css node.js html
MVC1.MVC是一种使用MVC（ModelViewController模型-视图-控制器）设计创建Web应用程序的模式.(1)Model（模型）表示应用程序核心（比如数据库记录列表）.(2)View(视图)显示数据（数据库记录）.(3)Controller（控制器）处理输入（写入数据库记录）.2.MVC模式同时提供了对HTML、CSS和JavaScript的完全控制.(1)Model（模式）是应
海南大学--学习资料--网络应用开发java web(胡祝华)-第3次作业解析（学长整理）创创大帝(水印很浅-下载的文档) 海南大学--学习资料--PHP HTML java web 前端 java html
海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）海南大学–学习资料–网络应用开发javaweb(胡祝华)-第3次作业解析（学长整理）表单验证：1.在表单的源码中head部分用script导入了script/regcheckdata.js文件2.当点击提交按钮时，onSubmit=
手把手教你给 windows装个vmware虚拟机 python算法小白
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
【语义分割专题文章】 BoostingIsm Segmentation python
本栏聚焦在语义分割的相关算法，专栏内文章的代码均已实现。一、数据篇【遥感】【道路】篇：【语义分割】【专题系列】一、MassachusettsRoadsDataset马萨诸塞州道路数据集获取二、CNN篇Unet(2015)：【语义分割】【专题系列】二、Unet语义分割代码实战PSPNet(2017)：【语义分割】【专题系列】三、PSPNet语义分割代码实战Linknet(2017)FPN(Featu
github提示 Filename too long JavaGameServer #git rocketmq
gitconfig--globalcore.longpathstrueerror:open("chapter13/rocketmq-externals-master/rocketmq-externals-master/rocketmq-connect/rocketmq-connect-runtime/src/test/java/org/apache/rocketmq/connect/runtime
分布式数据库面试整理 Necther 数据库面试分布式
5.3.1redis面试专题1、redis和memcached什么区别？为什么高并发下有时单线程的redis比多线程的memcached效率要高？区别：mc可缓存图片和视频。rd支持除k/v更多的数据结构；rd可以使用虚拟内存，rd可持久化和aof灾难恢复，rd通过主从支持数据备份;3.rd可以做消息队列。原因:mc多线程模型引入了缓存一致性和锁，加锁带来了性能损耗。2、redis主从复制如何实现
一、C语言编程LeetCode数据结构题失败才是人生常态考研初试准备 c语言数据结构
一、链表1、两数相加算法思想：1、设置两个指针p,q，分别指向两个链表的头结点2、设置一个临时变量temp，用来记录两个数相加时是否有进位，初始化为0。只要p,q指针不指向空，就循环把两个指针所指向节点的值和temp相加。如果大于9，就让一个临时变量设置为1，并把相加结果减10，把结果赋给两个指针所指向节点的值；如果小于9就直接赋值给两个节点所指向的值。然后p,q指针分别后移一个节点。3、最后，判
利用IDEA将Java.class文件反编译为Java文件：原理、实践与深度解析 .猫的树 Java反编译 IDEA技巧逆向工程
文章目录引言：当.class文件遇到源代码缺失第一章：反编译技术基础认知1.1Java编译执行原理1.2反编译的本质1.3法律与道德边界第二章：IDEA内置反编译工具详解2.1环境准备2.2三步完成基础反编译2.3高级反编译技巧2.3.1调试模式反编译2.3.2Lambda表达式处理2.3.3泛型类型恢复第三章：Fernflower反编译引擎深度配置3.1引擎参数调优3.2多文件批量反编译3.3结
【算法】动态规划专题⑪ —— 区间DP python 查理零世动态规划专题算法动态规划 python
目录引入进入正题回归经典总结引入区间动态规划（区间DP）适用于解决涉及区间最优化的经典问题，如石子合并、最长回文子序列等。进入正题石子合并https://www.acwing.com/problem/content/284/有N堆石子排成一排，其编号为1,2,3,…,N。每堆石子有一定的质量，可以用一个整数来描述，现在要将这N堆石子合并成为一堆。每次只能合并相邻的两堆，合并的代价为这两堆石子的质量
【必看】凭啥？DeepSeek如何用1/179的训练成本干到GPT-4o 98%性能大F的智能小课人工智能算法
一、DeepSeek降低训练成本的核心方法1.1创新训练方法DeepSeek通过独特的训练方案显著降低了训练成本。其核心策略包括减少监督微调（SFT）步骤，仅依赖强化学习（RL）技术。DeepSeek-R1-Zero版本完全跳过SFT，仅通过RL进行训练。尽管初期计算开销较大，但添加少量冷启动数据后，训练稳定性和模型推理能力大幅提升。此外，DeepSeek还采用了组相对策略优化（GRPO）算法替代
Java微服务技术栈（2） Z-H-J Java笔记随录 java 微服务开发语言
写在前面高级篇里的很多知识我都没有去实践过，只是知道相关的原理，主要原因是：应用场景在多数情况下难以碰见（高并发）对于运行的要求过高（如果是单节点进行模拟，那么就必须有很大的运行内存）所以这部分记录更多是一个思路的梳理，可能无法作为各位全面掌握该部分知识的条目，望见谅7.微服务的保护技术：Sentinelsentiel分为sentinel控制台和sentinel客户端，具体的规则过滤都由配置在微服
scala kotlin比较_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性 weixin_39605296 scala kotlin比较 scala list 接受java string
本文原发于我的个人博客：https://hltj.me/java/2020/06/14/java-12-15-lang-features.html。本副本只用于知乎，禁止第三方转载。Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个L
java 协程 scala_追随 Kotlin/Scala，看 Java 12-15 的现代语言特性小田linda java 协程 scala
Java14发布已经过去了三个月，Java15目前也已经到了“RampdownPhaseOne”阶段，其新特性均已敲定。由于12-15都是短期版本，无需考虑也不应该将其用于生产环境。但可以提前了解新特性，以免在下一个LTS(Java17)正式发布时毫无心理准备。Java12-15引入了一系列改进，本文只讨论语言层面的新特性，它们看起来似曾相识——没错，这些特性让人感觉Java在沿Kotlin/Sc
VS Code 中如何运行Java SpringBoot的项目战族狼魂 java Springboot java spring boot 开发语言
在VisualStudioCode(VSCode)中运行JavaSpringBoot项目需要以下步骤：目录1.安装必要的扩展2.配置环境3.创建或导入SpringBoot项目使用SpringInitializr创建新项目导入现有项目4.配置VSCode配置调试环境5.运行和调试项目通过命令行运行通过SpringBootDashboard运行通过调试模式运行6.使用SpringBootActuato
【2024年华为OD机试】 (C卷,200分)- 亲子游戏（JavaScript&Java & Python&C/C++）妄北y 算法汇集笔记总结(保姆级)华为od c语言游戏 java javascript 矩阵
一、问题描述宝宝和妈妈的糖果游戏问题题目描述在一个N×N的二维矩阵中，宝宝和妈妈分别用抽签决定自己的初始位置。每个格子可能有不同的糖果数量，同时部分格子有障碍物，妈妈需要遵循以下规则：妈妈必须在最短的时间内到达宝宝的位置（每单位时间只能移动一步）。妈妈沿路可以拾取格子上的糖果，糖果数量会累加。妈妈不能走障碍物的格子，只能上下左右移动。如果妈妈无法到达宝宝，则输出-1。输入格式：第一行输入为N，表示
html+Canvas+js 实现图片的剪裁效果慕容屠苏大前端爬坑之路
html+Canvas实现图片的剪裁效果开发过程中我们上传图片的时候，有时需要保证图片尺寸的统一，以避免以固定尺寸显示图片时会出现拉伸问题。这是就需要在上传之前对图片进行裁剪后再上传图片。我们裁剪图片将会用到canvas：canvas是HTML5中的一个新元素，这个元素可以通过JavaScript用来绘制图形。例如可以用它来画图、合成图象、做一些动画等。通常呢，我们在canvas上画图的方法是使用
书籍-《强化学习数学基础》强化学习数学人工智能
书籍：MathematicalFoundationsofReinforcementLearning作者：赵世钰出版：Springer编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习数学基础》01书籍介绍本书对基本概念、核心挑战和经典强化学习算法进行了数学但易于理解的介绍。它旨在帮助读者理解算法的理论基础，提供对其设计和功能的见解。整个过程中包括许多说明性示例。数学内容经过精心设计，以
Java学习之ArrayList原理剖析李楠琳 Java java arraylist
ArrayList底层是基于数组实现的，其封装的各种方法：Add、remove、get、set等，其本质就是对数组的基本操作。publicclassArrayListextendsAbstractListimplementsList,RandomAccess,Cloneable,java.io.SerializableArrayList继承自AbstractList类，实现了RandomAcces
多级数组Tree如何做搜索前端tree算法递归
两种方案1、数组打平，根据搜索字符在打平数组里去filter出满足条件的node节点，但此时被筛选的节点只有子节点，然后再通过被筛选出的子节点去找对应的父节点，然后拿到结果后转成tree结构优点：思路简单，打平数组用了递归，好理解缺点：找父节点的时候相对麻烦。2、写一个递归算法，满足条件就返回tree比如有一个简单个treeconsttreeData=[{title:'a',children:[{
利用Java爬虫按图搜索1688商品（拍立淘）：实战案例指南数据小小爬虫 java 爬虫图搜索算法
在电商领域，按图搜索功能（如1688的“拍立淘”）为用户提供了更直观、便捷的购物体验。通过上传图片，用户可以快速找到与图片相似的商品。本文将详细介绍如何利用Java爬虫技术实现按图搜索1688商品，并获取其详情数据。一、为什么选择Java爬虫？Java作为一种广泛使用的编程语言，以其稳健性和跨平台性在企业级应用中占据重要地位。通过Java，我们可以编写爬虫程序，模拟浏览器行为，从网页中提取所需的数
Java 集合框架：ArrayList 的介绍、使用、原理与源码解析栗筝i 栗筝i 的 Java 技术栈（付费部分）#Java 基础 -专栏栗筝i 的 Java 技术栈 Java 基础 Java 集合 ArrayList Java
大家好，我是栗筝i，这篇文章是我的“栗筝i的Java技术栈”专栏的第013篇文章，在“栗筝i的Java技术栈”这个专栏中我会持续为大家更新Java技术相关全套技术栈内容。专栏的主要目标是已经有一定Java开发经验，并希望进一步完善自己对整个Java技术体系来充实自己的技术栈的同学。与此同时，本专栏的所有文章，也都会准备充足的代码示例和完善的知识点梳理，因此也十分适合零基础的小白和要准备工作面试的同
JAVA/RUST/C#/Kotlin 各语言语法糖及特性对比表 zimoyin java rust c#
各语言语法糖及特性对比表声明：所有数据均由AI整合生成语法糖/特性说明GoC#KotlinJava(版本及备注)Rust局部方法嵌套方法，可访问外部局部变量✅✅✅✅✅（可用闭包，但用fn定义的内嵌函数不能捕获环境）lock语句简化线程同步（Java中对应使用synchronized）❌✅❌（使用synchronized）✅（使用synchronized）❌（采用Mutex+RAII模式实现同步）u
java dom4j解析XSD文件 yemao100 java
1.用DOM4J解析XSD文件，找出XSD文件中所有的element,type的定义，（xsd文件有4W多行），最终找出的结果是element和type定义有6000多个，2.递归找出指定type所用到的所有关联的元素，其中有用到XPATH来查找结点根据type在xsd文件中查找，找到有type和element是自定义的就递归下去继续往下找，直到找到最后所有的type和element都是XSD自带
Java常见排序算法及代码实现芥子沫排序算法 java 算法
1、选择排序算法选择排序（SelectionSort）是一种简单直观的排序算法，它的工作原理是每次从未排序部分选择最小（或最大）的元素，将其放到已排序部分的末尾。2、冒泡排序算法冒泡排序（BubbleSort）是一种简单的排序算法，它重复地遍历要排序的数列，一次比较两个元素，如果它们的顺序错误就把它们交换过来。遍历数列的工作是重复进行的，直到没有再需要交换的元素为止。3、插入排序算法插入排序的基本
【一看就会】Autoware.universe的“规划”部分源码梳理【三十五】（motion_velocity_planner第四部分）不断学习加努力算法自动驾驶
文章目录前言四、autoware_motion_velocity_out_of_lane_module功能概述处理流程图输入输出关键算法实现主要参数配置安全参数速度参数检测参数工作流程各文件主要功能核心功能文件：工具类文件：源码注释calculate_slowdown_points.cppfilter_predicted_objects.cppfootprint.cppdebug.cpp总结前言书
工行银企直联（dom4j+java无中间件版） gudongFox 后端 java http
工行银企直联（dom4j无中间件版）最近，接手了工行银企直联的任务，在网上找了很多，发现能一次说清的文章很少，此篇文章专为第一次接触银企直联的同学准备。1、准备包：dom4j（自行百度，如果这一步都不知道怎么做，接下来的过程也就别看了）2、逻辑3、Http的Post方法//工行支付前对报文签名publicstaticStringsignICBC(Stringurl,Stringparam){Pri
javascript中Object对象常用方法总结善良的农场主 javascript
1.Object.createObject.create的语法：Object.create(proto,[propertiesObject]),创建一个对象，新创建的对象的prototype指向第一个参数，第二个参数是为新创建对象添加属性proto是原型对象propertiesObject是属性的配置在详解Object.create之前，我们先回忆一下常用的创建对象的方法：1.{}，2.newOb
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

大数据算法面试题目及答案（一）

01 如何从海量数据中找出最高频词

02 如何找出访问百度最多的IP地址

03 如何从2.5亿个整数中找出不重复的整数

04 判断一个数在40亿数据中是否存在

05 如何找出CSDN网站最热门的搜索关键词

关注【大数据研习社】公众号回复【大数据算法面试】领取！

你可能感兴趣的:(面试题,大数据实战精英+架构师,面试,算法,java)