swgshj

大型数据处理方法

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google腾讯这样的一些涉及到海量数据的公司经常会问到。

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。

1.Bloom filter

适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集

基本原理及要点：
对于原理来说很简单，位数组+k个独立hash函数。将hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字，因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter，用一个counter数组代替位数组，就可以支持删除了。

还有一个比较重要的问题，如何根据输入元素个数n，确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下，m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些，因为还要保证bit数组里至少一半为0，则m应该>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。

举个例子我们假设错误率为0.01，则此时m应大概是n的13倍。这样k大概是8个。

注意这里m与n的单位不同，m是bit为单位，而n则是以元素个数为单位(准确的说是不同元素的个数)。通常单个元素的长度都是有很多bit的。所以使用bloom filter内存上通常都是节省的。

扩展：
Bloom filter将集合中的元素映射到位数组中，用k（k为哈希函数个数）个映射位是否全1表示元素在不在这个集合中。Counting bloom filter（CBF）将位数组中的每一位扩展为一个counter，从而支持了元素的删除操作。Spectral Bloom Filter（SBF）将其与集合元素的出现次数关联。SBF采用counter中的最小值来近似表示元素的出现频率。

问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？

根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。

2.Hashing

适用范围：快速查找，删除的基本数据结构，通常需要总数据量可以放入内存

基本原理及要点：
hash函数选择，针对字符串，整数，排列，具体相应的hash方法。
碰撞处理，一种是open hashing，也称为拉链法；另一种就是closed hashing，也称开地址法，opened addressing。

扩展：
d-left hashing中的d是多个的意思，我们先简化这个问题，看一看2-left hashing。2-left hashing指的是将一个哈希表分成长度相等的两半，分别叫做T1和T2，给T1和T2分别配备一个哈希函数，h1和h2。在存储一个新的key时，同时用两个哈希函数进行计算，得出两个地址h1[key]和h2[key]。这时需要检查T1中的h1[key]位置和T2中的h2[key]位置，哪一个位置已经存储的（有碰撞的）key比较多，然后将新key存储在负载少的位置。如果两边一样多，比如两个位置都为空或者都存储了一个key，就把新key 存储在左边的T1子表中，2-left也由此而来。在查找一个key时，必须进行两次hash，同时查找两个位置。

问题实例：
1).海量日志数据，提取出某日访问百度次数最多的那个IP。

IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。

3.bit-map

适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下

基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码

扩展：bloom filter可以看做是对bit-map的扩展

问题实例：

1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。

8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。

2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map。

4.堆

适用范围：海量数据前n大，并且n比较小，堆可以放入内存

基本原理及要点：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我们比较当前元素与最大堆里的最大元素，如果它小于最大元素，则应该替换那个最大元素。这样最后得到的n个元素就是最小的n个。适合大数据量，求前n小，n的大小比较小的情况，这样可以扫描一遍即可得到所有的前n元素，效率很高。

扩展：双堆，一个最大堆与一个最小堆结合，可以用来维护中位数。

问题实例：
1)100w个数中找最大的前100个数。

用一个100个元素大小的最小堆即可。

5.双层桶划分

适用范围：第k大，中位数，不重复或重复的数字

基本原理及要点：因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子。

扩展：

问题实例：
1).2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域，然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间，就可以很方便的解决。

2).5亿个int找它们的中位数。

这个例子比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

实际上，如果不是int是int64，我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数只有2^20，就可以直接利用direct addr table进行统计了。

6.数据库索引

适用范围：大数据量的增删改查

基本原理及要点：利用数据的设计实现方法，对海量数据的增删改查进行处理。
扩展：
问题实例：

7.倒排索引(Inverted index)

适用范围：搜索引擎，关键字查询

基本原理及要点：为何叫倒排索引？一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。

以英文为例，下面是要被索引的文本：
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我们就能得到下面的反向文件索引：
"a":      {2}
"banana": {2}
"is":     {0, 1, 2}
"it":     {0, 1, 2}
"what":   {0, 1}
检索的条件"what", "is" 和 "it" 将对应集合的交集。

正向索引开发出来用来存储每个文档的单词的列表。正向索引的查询往往满足每个文档有序频繁的全文查询和每个单词在校验文档中的验证这样的查询。在正向索引中，文档占据了中心的位置，每个文档指向了一个它所包含的索引项的序列。也就是说文档指向了它包含的那些单词，而反向索引则是单词指向了包含它的文档，很容易看到这个反向的关系。

扩展：

问题实例：文档检索系统，查询那些文件包含了某单词，比如常见的学术论文的关键字搜索。

8.外排序

适用范围：大数据的排序，去重

基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树

扩展：

问题实例：
1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。

这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。

9.trie树

适用范围：数据量大，重复多，但是数据种类小可以放入内存

基本原理及要点：实现方式，节点孩子的表示方式

扩展：压缩实现。

问题实例：
1).有10个文件，每个文件1G，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要你按照query的频度排序。

2).1000万字符串，其中有些是相同的(重复),需要把重复的全部去掉，保留没有重复的字符串。请问怎么设计和实现？

3).寻找热门查询：查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个，每个不超过255字节。

10.分布式处理 mapreduce

适用范围：数据量大，但是数据种类小可以放入内存

基本原理及要点：将数据交给不同的机器去处理，数据划分，结果归约。

扩展：

问题实例：

1).The canonical example application of MapReduce is a process to count theappearances of

each different word in a set of documents:
void map(String name, String document):
  // name: document name
  // document: document contents
  for each word w in document:
    EmitIntermediate(w, 1);

void reduce(String word, Iterator partialCounts):
  // key: a word
  // values: a list of aggregated partial counts
  int result = 0;
  for each v in partialCounts:
    result += ParseInt(v);
  Emit(result);
Here, each document is split in words, and each word is counted initially witha "1" value by

the Map function, using the word as the result key. The framework puts togetherall the pairs

with the same key and feeds them to the same call to Reduce, thus this functionjust needs to

sum all of its input values to find the total appearances of that word.

2).海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。

3).一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们操作。如何找到N^2个数的中数(median)？

经典问题分析

上千万or亿数据（有重复），统计其中出现次数最多的前N个数据,分两种情况：可一次读入内存，不可一次读入。

可用思路：trie树+堆，数据库索引，划分子集分别统计，hash，分布式计算，近似统计，外排序

所谓的是否能一次读入内存，实际上应该指去除重复后的数据量。如果去重后数据可以放入内存，我们可以为数据建立字典，比如通过 map，hashmap，trie，然后直接进行统计即可。当然在更新每条数据的出现次数的时候，我们可以利用一个堆来维护出现次数最多的前N个数据，当然这样导致维护次数增加，不如完全统计后在求前N大效率高。

如果数据无法放入内存。一方面我们可以考虑上面的字典方法能否被改进以适应这种情形，可以做的改变就是将字典存放到硬盘上，而不是内存，这可以参考数据库的存储方法。

当然还有更好的方法，就是可以采用分布式计算，基本上就是map-reduce过程，首先可以根据数据值或者把数据hash(md5)后的值，将数据按照范围划分到不同的机子，最好可以让数据划分后可以一次读入内存，这样不同的机子负责处理各种的数值范围，实际上就是map。得到结果后，各个机子只需拿出各自的出现次数最多的前N个数据，然后汇总，选出所有的数据中出现次数最多的前N个数据，这实际上就是reduce过程。

实际上可能想直接将数据均分到不同的机子上进行处理，这样是无法得到正确的解的。因为一个数据可能被均分到不同的机子上，而另一个则可能完全聚集到一个机子上，同时还可能存在具有相同数目的数据。比如我们要找出现次数最多的前100个，我们将1000万的数据分布到10台机器上，找到每台出现次数最多的前 100个，归并之后这样不能保证找到真正的第100个，因为比如出现次数最多的第100个可能有1万个，但是它被分到了10台机子，这样在每台上只有1千个，假设这些机子排名在1000个之前的那些都是单独分布在一台机子上的，比如有1001个，这样本来具有1万个的这个就会被淘汰，即使我们让每台机子选出出现次数最多的1000个再归并，仍然会出错，因为可能存在大量个数为1001个的发生聚集。因此不能将数据随便均分到不同机子上，而是要根据hash 后的值将它们映射到不同的机子上处理，让不同的机器处理一个数值范围。

而外排序的方法会消耗大量的IO，效率不会很高。而上面的分布式方法，也可以用于单机版本，也就是将总的数据根据值的范围，划分成多个不同的子文件，然后逐个处理。处理完毕之后再对这些单词的及其出现频率进行一个归并。实际上就可以利用一个外排序的归并过程。

另外还可以考虑近似计算，也就是我们可以通过结合自然语言属性，只将那些真正实际中出现最多的那些词作为一个字典，使得这个规模可以放入内存。

基于 SSM 架构的 JAVA 网络直播带货查询系统设计与 JSP 实践成果 2401_85702623 架构 java 开发语言
第二章关键技术的研究2.1JSP技术介绍JSP技术本身是一种脚本语言，但它的功能是十分强大的，因为它可以使用所有的JAVA类。当它与JavaBeans类进行结合时，它可以使显示逻辑和内容分开，这就极大的方便了用户的需求。JavaBeans可以对JSP技术的程序进行扩展，从而形成新的应用程序，而且JavaBeans的代码可以重复使用，所以就便于对程序进行维护。JavaBean组件有内部的接口，可以帮
PHP入门教程3：数组和字符串操作 Evaporator Core #php程序设计经验 php android 开发语言
PHP入门教程3：数组和字符串操作在前两篇文章中，我们学习了PHP的基础语法、控制结构和函数的使用。本文将重点介绍数组和字符串的高级操作，这些是PHP编程中非常常见且重要的内容。本文将包含以下几个部分：数组的类型和操作多维数组数组函数字符串操作字符串函数1.数组的类型和操作数组是一种可以存储多个值的数据结构。PHP中有三种类型的数组：索引数组、关联数组和多维数组。索引数组索引数组是用数字索引的数组
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
springboot毕设电脑销售管理系统程序+论文真纯Django毕设程序 spring boot 课程设计后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展和普及，电脑已经成为现代生活和工作中不可或缺的重要工具。电脑销售行业也随之迎来了前所未有的发展机遇，但同时也面临着激烈的市场竞争和不断变化的客户需求。传统的销售管理模式已难以满足当前市场的快速响应和精细化管理要求。因此，开发一套高效、便捷、全面的电脑销售管
c++基础冰凉的保温瓶 c++开发 c++
extern关键字https://www.cnblogs.com/honernan/p/13431431.html定义和声明在介绍extern之前，我们需要了解一下变量的声明和定义。变量的声明指向程序表名变量的类型和名字，即使得名字为程序所知，一个文件如果想使用别处定义的名字则必须包含对那个名字的声明。而变量的定义指申请存储空间，并将其与变量名相关联，除此之外，还可以为变量指定初始值。在程序中变量
Canary Sean_summer 安全 web安全
定义：Canary是一种用以防护栈溢出的保护机制。原理：是在一个函数的入口处，先从fs/gs寄存器中取出一个4字节（eax,四字节通常是32位的文件）或者8字节（rax，通常是64位的文件）的值存到栈上，当函数结束是会检查这个栈上的值是否和存进去的值相同。通常在pwn题写exp是用的字符a，这样存储进缓冲区，将会覆盖原始的canary的值当canary被覆盖后，也就是原应为canary的位置被字符
Java XML与JSON相互转换详解我真的不想做程序员 java java xml json 开发语言后端数据结构
目录一、为什么需要XML与JSON转换二、使用Jackson库进行转换1.添加依赖2.XML转JSON3.JSON转XML三、注意事项在现代软件开发中，数据格式的转换是一项常见的任务，特别是在处理不同系统或服务之间的数据交换时。XML（可扩展标记语言）和JSON（JavaScript对象表示法）是两种广泛使用的数据格式。本文将深入探讨如何在Java中实现XML与JSON之间的相互转换，并提供完整的
一文带大家了解RARR（Retrieve-Read-Rerank）和 RAG（Retrieval-Augmented Generation）的区别测试开发Kevin AI相关人工智能 ai
RARR（Retrieve-Read-Rerank）和RAG（Retrieval-AugmentedGeneration）是两种不同的检索增强生成技术，核心差异在于流程设计、优化目标及适用场景。以下从多个维度对比两者的区别：1.流程架构与核心步骤RAG（检索增强生成）流程：检索（Retrieve）：从外部知识库中检索与查询相关的文档或文本片段。生成（Generate）：将检索到的内容与原始查询拼接
Selenium 中并行测试的重要性测试大大怪 selenium 测试工具单元测试测试用例压力测试 jmeter 功能测试
随着技术的进步，测试解决方案变得更具可扩展性，加速了团队从手动测试到Selenium测试自动化的转型。但是成年人的世界，没有什么是容易的。对于许多团队来说，并行运行多个测试仍然是不可扩展的。他们倾向于遵循传统的顺序执行测试方法，但是这需要大量时间、精力。这时候，就需要一种更加高效的测试方法，来解决这些问题。并行测试并行测试是指在多个计算机或处理器上同时运行测试用例，以提高测试效率和准确性的测试方法
使用 DeepSeek-R1 为 RAG 运行本地 Gradio 应用程序呱牛 do IT 人工智能 deepseek
让我们使用Gradio构建一个简单的演示应用程序，以使用DeepSeek-R1查询和分析文档。第1步：先决条件在深入研究实现之前，我们确保已安装以下工具和库：Python3.8+Python3.8+版Langchain：用于构建由大型语言模型（）LLMs提供支持的应用程序的框架，支持轻松检索、推理和工具集成Chromadb：一个高性能的向量数据库，专为高效的相似性搜索和嵌入存储而设计。Gradio
配置 VSCode 的 C# 开发环境 Q_w7742 vscode c#ide
1.安装必要的依赖1.1VSCode扩展安装C#相关插件（如C#、C#Extensions等）。1.2.NETSDK下载地址：.NETSDK下载页面1.3安装检测在命令行输入以下命令，如果正确返回了版本号，则表示.NETSDK安装成功：dotnet--version2.创建C#项目2.1使用命令行创建项目打开终端（或命令提示符）。运行以下命令以创建一个新的控制台应用程序：dotnetnewcons
静态库、动态库及导入库 summer_l_jx C++知识静态库动态库及导入库
静态库1.静态库扩展名为.lib，静态链接(即代码会直接编译进可执行文件)。静态库是一个或多个obj文件的打包。2.在VC中使用静态库的方法：方法一：在项目属性中添加附加依赖项。若库目录不在系统和当前目录，选中工程，单击右键，属性-->VC++目录，在库目录中添加库文件所在路径；选中工程，单击右键，属性-->链接器-->输入，在"附加依赖项“右边选择编辑,输入要包含的静态库名称。方法二：在项目中直
电机控制常见面试问题（十）小雀丝嵌入式硬件单片机电机控制电机
文章目录一、Kalman滤波器的原理以及EKF（扩展卡尔曼滤波）的概念1.理解Kalman滤波器2.理解EKF3.总结二、滑动平均滤波器的设计1.定义与原理2.关键参数设计3.与其它滤波器对比三.PID与MPC的区别四.李雅普诺夫稳定性的概念五.谈一下对电感与电容的理解一、Kalman滤波器的原理以及EKF（扩展卡尔曼滤波）的概念1.理解Kalman滤波器什么是Kalman滤波器？——用“天气预报
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库煦洋cxsj985 java jvm 开发语言
JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库JAVA毕业设计河南口腔医疗机构线上服务系统计算机源码+lw文档+系统+调试部署+数据库本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5
什么是数据库的分区技术？破碎的天堂鸟学习教程数据库
数据库分区技术详解数据库分区技术是一种通过将大型表或索引分割成多个逻辑独立、物理可分离的单元（即分区）来优化性能和管理效率的核心策略。以下是其核心要点和应用的全面解析：1.定义与基本原理数据库分区（Partitioning）是一种物理数据库设计技术，通过特定规则（如范围、列表、哈希等）将表或索引划分为更小、更易管理的逻辑单元。每个分区可独立存储于不同物理位置（如磁盘或服务器），但对应用层透明，逻辑
微信小程序开发文档弱水*三千微信小程序
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言要开发小程序首先得有个官方认可的账号才行注册账号,有了账号接下来就必须有个开发小程序的开发工具开发工具,接下来就可以大显身手敲代码了微信公共平台登录登录第一行代码1.开发工具目录这里先讲解一下后裔wxml,这个文件就是写入网页标签的地方,js就是写入代码的地方,wxss就是写入样式的地方搞明白这些就开始我们的第一行代码.2.数据绑
SQL 数据库管理：提升数据管理效率的关键斗-匕 oracle 数据库
SQL数据库管理：提升数据管理效率的关键在当今数字化时代，数据的重要性不言而喻。无论是企业的业务数据、科研机构的实验数据，还是个人的信息数据，都需要有效的管理和存储。SQL（StructuredQueryLanguage）数据库作为一种广泛使用的数据管理工具，在各个领域都发挥着重要作用。本文将深入探讨SQL数据库管理的重要性、关键技术和最佳实践。一、SQL数据库管理的重要性数据存储和组织SQL数据
分布式节点池：群联云防护抗DDoS的核心武器群联云防护小杜安全问题汇总分布式 ddos 前端 node.js udp 网络 npm
一、节点池的核心作用与架构设计1.全球分布式节点布局物理层防御：根据产品文档，群联在全球部署“海量分布式节点”，每个节点具备独立清洗能力，攻击流量被分散至不同区域节点处理。优势：避免传统单节点防护的瓶颈，即使单个节点被击溃，其他节点仍可接管流量（文档提到“节点数量很多，即使打死几个对绝大多数用户无影响”）。逻辑层调度：节点池分为“正常组”和“风险组”，智能调度系统实时检测节点健康状态，动态分配最优
没有接口文档，该怎么进行接口测试？海姐软件测试接口测试测试工具面试职场和发展
想获取更多软件测试干货和实战技巧？欢迎扫码关注我的小红书【海姐的测试星球】，一起交流学习，解锁更多测试秘籍！在面试中如何回答好“没有接口文档，该怎么进行接口测试”，可按以下要点阐述，全面展现你的应变能力和专业素养：沟通协调-与开发人员沟通：主动与开发人员交流，了解接口的基本信息，如接口的用途、请求方法（GET、POST等）、大致的请求参数和响应格式。例如，询问该接口是用于用户登录、数据查询还是其他
OctoTools：一个具有复杂推理可扩展工具的智体框架三谷秋水智能体大模型机器学习人工智能语言模型机器学习
25年2月来自斯坦福大学的论文“OctoTools:AnAgenticFrameworkwithExtensibleToolsforComplexReasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型(LLM)，但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的OctoTools，是一个无需训练、用户友好且易于扩展的
kubernetes部署 etcd 集群 weixin_30569033 json
本文档介绍部署一个三节点高可用etcd集群的步骤：etcd集群各节点的名称和IP如下：kube-node0：192.168.111.10kube-node1：192.168.111.11kube-node2：192.168.111.12创建etcd证书和私钥，所有证书和私钥的操作在/etc/kubernetes/ca/目录。这里说下题外话：证书和私钥跟程序本身没有什么特定的关系，只是网络传输时的认
SQL Server 触发器 .Net 爱好者 sql 数据库 oracle
在SQLServer中，触发器是一种特殊类型的存储过程，它会在特定事件发生时自动执行。触发器主要分为以下几种类型：DML触发器（DataManipulationLanguageTriggers）DDL触发器（DataDefinitionLanguageTriggers）登录触发器（LogonTriggers）1.DML触发器DML触发器用于响应数据操作语言（INSERT、UPDATE、DELETE
题解 | 牛客周赛 Round 49 DEF Java题解 han_xue_feng java
面试又黄了反正不是什么喜欢的工作[牛泪]面试又黄了反正不是什么喜欢的工作2024秋招数据开发第一波面试题露出#字节##滴滴##大数据##面经##秋招#引流字节阿里巴巴腾讯百度美团美团后端暑期实习体验——实习的一天早上：8点半出门坐地铁，9点下地铁到惠新西街南口地铁站，出地铁站坐班车（这一点还是不错的），9点30深圳阿里实习day1领工牌mac，认工位mentor，配环境看文档，七点就润了。看各个文
自动驾驶---打造自动驾驶系统之导航模块开发（三）智能汽车人从零打造自动驾驶算法仿真系统自动驾驶人工智能机器学习
各位读者朋友，大家好。本次打造的自动驾驶系统仿真系统，涉及感知，预测，规控等多个模块（以规控算法为主，包括Polynomial预测，MCTS决策算法，通行走廊Corridor构建，QP/CILQR轨迹生成求解器，LQR+PID的控制器等），同时也支持其它相关规控算法的扩展（部署&开发自身感兴趣的算法），非常便捷。笔者在该系列中开发的规控算法主要依据专栏《自动驾驶Planning决策规划》中的章节逐
TDE透明加密：重塑文件传输与网盘存储的安全新范式安当加密安全
在数据要素价值持续释放的今天，企业文件传输与存储系统正面临**“既要跨域流动，又要严防泄露”的双重挑战。传统加密方案往往陷入两难困境：离线传输依赖手工解密导致效率低下，网盘存储依赖平台方加密存在密钥失控风险。作为国内数据安全领域的创新者，上海安当推出的TDE透明加密技术**，以**“端到端无感加密、全链路权限管控、跨平台无缝兼容”**为核心，为企业构建从文件生成、传输到存储的全生命周期防护体系。本
需求管理的 7 大误区，你踩坑了吗？测试者家园测试开发和测试质量效能软件开发技巧需求分析软件研发软件测试敏捷开发质量效能项目管理非功能
让Agent生成测试用例原来如此简单在软件开发和测试领域，需求管理的重要性不言而喻。然而，即便是经验丰富的团队，也常常在需求管理过程中踩坑，导致项目延期、成本超支，甚至产品失败。本文将深入剖析需求管理中的7大误区，帮助你避坑前行，提高项目成功率。误区1：需求文档等同于需求管理症状：许多团队认为只要写好需求文档，需求管理工作就完成了。实际上，需求管理是一个持续的过程，而非一份静态的文档。坑点分析：需
Linux命令touch和mkdir的区别 Easy_Lee_willpower 软件测试 linux 服务器
mkdir文件夹c文件夹d文件夹e：创建文件夹/目录c、d、e，创建的目录是并列关系filec可以查看文件夹c的属性，此时显示directory，表示c是一个文件夹mkdir文件夹x/文件夹y，创建嵌套目录x/ytouch文件名a文件名b。。。：创建一个或多个文件filea可以查看文档a的属性，此时显示empty，表示a是空白文件文件和目录的区别：目录可以嵌套，文件不能嵌套文件（例子：一个exce
Linux中部署DeepSeek R1 Java探索者 ° linux 服务器语言模型
一、首先了解DeepSeek-R1模型规格B则是指“billion”的意思，也就是十亿，表示这个模型有多少亿个参数。DeepSeek-R1本地部署硬件需求表模型规模GPU需求CPU需求内存需求存储需求备注1.5B-GTX16504GB（可选）四核i5/Ryzen3000+16GBDDR450GBSSD需4-bit量化，CPU推理延迟约10-30秒/回答，适合基础文本生成7BRTX306012GB或
HTML基础部分倒霉男孩 html+css学习笔记 html 前端
HTML基础部分所有HTML文档必须以开始。所有HTML文档本身以开始，以结尾。HTML文档中看见部分以开始，以结尾。标题：由到定义，定义最重要的标题，定义最不重要的标题。段落：使用定义，链接：使用定义，图片：使用标签定义scr（图片源路径）alt（附加信息）宽度width和高度height也可以添加。元素定义了文档，该元素又含两个其他HTML元素和定义了一个标题定义了一个段落标题段落结束标签是非
Infura 简介倒霉男孩区块链知识区块链 web3
文章目录Infura简介Infura的主要功能Infura的替代方案（类似服务）AlchemyQuickNodeAnkrMoralisPocketNetwork什么时候选择Infura？Infura简介Infura是一个区块链基础设施即服务（BaaS,BlockchainasaService），提供高可用性的以太坊（Ethereum）节点和IPFS存储访问，让开发者可以轻松连接区块链网络，而无需自
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj

大型数据处理方法

你可能感兴趣的:(mapreduce,filter,分布式计算,存储,文档,扩展)