RzBu11d023r

MapReduce 论文阅读笔记 MapReduce 简介

论文：

MapReduce: Simplified Data Processing on Large Clusters

Jeffrey Dean and Sanjay Ghemawat

Google

https://pdos.csail.mit.edu/6.824/papers/mapreduce.pdf

MapReduce 是一种分布式系统中处理大数据方法。他提出是在 2004， jeff dean 和 Sanjay Ghemawat 的作品，和 GFS、BigTable 并列 Google 分布式系统的三驾马车。后面，基于 mapreduce 的框架由于种种问题已经很少使用了（2014 Google I/O），但是 map reduce 的思想（感觉也是人很自然想到的分治思想）不过时。

mapreduce 框架淘汰的原因是，对于简单的操作，map reduce 的严格框架方便了下层，但是上层写协同的处理时候必须很复杂。而底层的实现上仍然涉及很多部署和运维、整体的性能优化等问题，并不是写一个 map + reduce 函数就能成功了。结果就是，反而这层隔离抽象又好像没有了，仍然需要技术团队根据不同的业务数据特征折腾不同的性能优化和配置（属于是超参数）。

未来的层次抽象可能希望集中上层业务注意力到写 OLAP 的 DML 上，分布式的 HTAP、OLAP 数据库负责搞定下层的各种脏活（spanner/f1）？

整体论文看了我好久，而且最后感觉我自己的笔记好像也没做到什么。但是在读论文之前看别人的笔记或者简略的话我又感觉不知道他在说什么，缺失了某种上下文信息。

看完论文之后再看别人的笔记，好像的确是这么回事，而且比我打的精美多了。

看来看的细节的东西确实有用，变成某种常识了。但是又不能直接一上来就给你丢几个概念，这样是去掉了分析法的过程，只剩下综合法不知道他怎么来的，最近用不同的材料复习数学也有同感。

以后可以直接找别人写好的笔记，自己只是读一遍过理解细节之后，这样效率可能高一点，因为其实笔记也做不了什么，反而分心，利用前人的笔记其实均摊下来别人写笔记的花费也分摊了。不过对一些细节没弄懂的地方，思考和阅读其他资料的过程是不能丢掉的了。

更新：后来想了一下，原论文没有 motivation 和 background，所以以问题的形式存在的笔记效果会好一点，因为这样强迫你去回答要点，而不是含糊的暧昧跳过。所以回来补充以下关键的一些点。我的一句话总结就是，map - shuffle - reduce = select - group by - aggregation。

总结一下：2022/5/30 14:50

map reduce 即 merge sort。数据更与一定原理分片，然后得到中间结果，中间结果要先做 aggregation 和 shuffle 基于优化。然后再 reduce 即再 merge 得到结果。
实现：RPC、GFS。
错误容忍：
- 处理会死的 worker（同时要避免误判，避免重复运行）；
- master 的 logging+checkpoint；
优化：
- worker 的任务分配执行文件就近调度；
- 调参；
- 备份冗余 worker，看谁先完成。
结论：
- 严格的编程模型可以方便的进行上面所的各种问题的解决和设计（其实就是类似于 IR 吧）。
- 网络带宽很贵，要做优化主要减少 RPC call/data send (类似减少 DrawCall 吧)。
- 冗余任务能避免有人没睡醒（很棒的思路）。

MapReduce 是什么概念？

他是一个编程模型，然后基于这个严格的编程模型，可以隔离上层和下层的逻辑，从而能够思想分布式的大数据计算。上层通过在严格的 map reduce 编程模型下编写业务逻辑（计算），下层框架统一解决分布式计算的 dirty work 细节，并行运算、错误容忍、数据分发、负载均衡等。

第二次总结：2022/6/8 14:25

MapReduce 的编程模型思想就是 map（函数，e.g. std::apply）+reduce（aggregate, e.g. std::accumulate）。然后，但是这个模型这里有一些细节需要理解的。

首先是模型里面处理的数据模式，我们必须明白到底为什么这样设计。

我们知道，mapreduce 里面数据是以 key-value pair 的形式存在的，编程的时候，有时候用 `unordered_map/map`，有时候用 `unordered_set/set`, 那么什么时候用 `set` 什么时候用 `map` 呢（当然我们都知道 `map` 就是用 `set` 实现的，不过底层 `node` 类型是一个 `pair` 而已。）？

所以这里要理解一下为什么 mapreduce 的编程模型是 kv pair。

为什么 MapReduce 是数据是基于 key - value 的？

普通的 map + reduce （源自 lisp 函数是编程模型）的表达能力有限，可以认为是限定了某个 key 下做 map + reduce，比如对一个数组做平方再求和。大数据下，除了 aggregate 全局数据，一般还需要一个 group by 的语义，这一点是类似于 SQL 的设计的。（当然，下面的 SQL 语句举例中，没有 map 的步骤，这一点了解就好，实际如果我们对 * 进行一些 projection 是不是就能当作是一种 map 呢，笑）。

即，values(set) 的 mapReduce =

select aggregation(*) from table;

而 key-value 的 mapReduce =

select aggregation(*) from table group by(some_key);

然后是编程模型的细节，mapreduce 的编程模型中，用户需要编写的有两个部分，就是 map 和 reduce。用户需要注意到的有三个部分，分别是 map、shuffle、reduce。其中并行多机处理的阶段是 map 和 reduce，而 shuffle 阶段要处理中间结果，数据重新分派等工作。

首先 map。

MapReduce 的 map 是什么意思？他的输入和输出分别是什么？

Map 就是对源输入进行一些处理产生一些输出。这里的输入 1 可能输出 1 或者输出 n，就是一个处理过程。他的输入是一些 key value PAIRS，输出另一些 key value PAIRS。由于一般来说 map 都是做一个一对多的mapping，因此一般理解为拆解split，所以才有下面的图片里面切面包和切黄瓜，这一种 map 其实更难理解，因为他要把同样的面包片映射到不同的输出商品去。另一种 map 比如收集到n个用户的所有资料，我们要丢掉用户，而拆解为用户对 A 的喜爱，对B的喜爱 etc...。

(k1, val1), (k1, val2) , (k2,val3) ---> (k3, val4), (k3, val5), (k3, val6), (k4, val7), (k5, val8)...

shuffle 是一个框架处理的中间过程，结果送 reduce。

MapReduce 的 shuffle 是什么意思？他的输入和输出是什么？

shuffle 不是打乱的意思而是把同一个 key 的都分配给同一个 reducer。这里实际做的是中间结果的 group by 操作！

(k3, val4), (k3, val5), (k3, val6), (k4, val7), (k5, val8) -->(k3: {val4, val5, val6}), (k4, {val7}), (k5, {val8})

这里 shuffle 阶段之前，其实还有一个 combine 优化（论文没有）

Combine 优化

在 hadoop 的 mapreduce 里面，这里涉及一个二次分片的类似 hash partition 的东西，从而方便进行 group by，而且还有局部聚合，这样方便，比如多个 mapper 先内部 partition，local group by 之后，再送 reduce 做，这个过程叫做 combine 优化。combine 优化不需要 shuffle，就提前 reduce，可以是单机多核 mapper 的情况下看作是单机做 reduce。

Reduce 就是写一个聚合函数而已。

MapReduce 的 reduce 是什么意思？他的输入和输出分别是什么？

reduce 就是做 aggregation, 不过 reduce 的 key value 也可以重新 map 的，看你喜欢。

(k3: {val4, val5, val6}), (k4, {val7}), (k5, {val8}) ---> (k3: sth3), (k4: sth4), (k5: sth5)

实际尽管编程模型已经严格了，在技术能手的把玩之下，也是可以绕过一些限制的，这主要还是依赖于问题的同构性质和一些 workaround 之类的技术。

说到这里，下面我之前做的的笔记其实就是垃圾啊！其实我根本不在乎 infra 是怎么做的（因为论文本来也只是 high level 提了一下，只要知道下面的那张图 task 是怎么分配的就差不多了，具体的怎么做 rpc 的，怎么做分布式文件系统的还得看 gfs 论文）。。。。

下一个问题是这次实验作业要做的 spark。前面提到 mapreduce （指 hadoop 的 mapreduce）淘汰了，所以要讲一个继任者。Spark，spark 的编程模型同样是基于 mapreduce，但是不再严格，灵活性更高。这里就不是这个博客的内容了，到此为止。

基于上面的故事，附上一些直观的图片（可能有版权问题）：

简介

框架：传统的并行主要是单机上获得的。基于分布式系统上的并行涉及到许多其他问题，包括时钟的不同步、潜在的故障、主机间消息通信的网络问题等。实际要处理这些东西，用户（工程师）就需要处理大量的 accidental 的事情，而不是专注在业务处理上。
map 和 reduce：在函数式编程里面，map 和 reduce 是针对列表的很常见的两种编程思路。map 顾名思义就是完成一个映射，可以认为是 std::apply ，而 reduce 是能够让一个函数在一个列表上一直执行下去。
reduce 意义：当时学 CS61A 的时候，reduce 的用法好像是用来实现同一个操作的 uncurrying （uncurrying 的指代范围更大吧）。比如基于 std::max 做支持任意长度参数的 max。或者做递归求和、减法、乘法。

Map + Reduce 使用举例

map 的一对多：值得注意的是 map 的返回结果可以是更多的数量的，比如这样：

图例

其实从这幅图里面就大概能理解很多细节上为什么还有很多中间的一些操作，比如 shuffle 过程。下面具体讲的 map reduce 是基于 key value pair 上的操作，所以细节是和上面的简单例子是不一样的。

Introduction

问题：大数据的数据和计算都是分布式的，可能有成百上千个机器，需要解决的问题包括怎么并行运算，怎么分发数据，怎么处理失败。为了解决这些问题，很简单的运算也变成了非常复杂的代码。
框架：MapReduce 编程模型主要是上层基于这个模型来写程序，下面的底层细节（parallelization, fault-tolerance, data distribution, load balancing）不需要程序员关心。提出一个固定的模型，这样底层做优化和解决各种分布式系统的问题也更加方便。

所以论文主要就是从两方面讲解，一个是这个简单的 Programming model，是一个接口。第二个就是接口的实现。

Programming Model

数据类型：主要的数据类型是 kv pairs，主要的逻辑是 Map and Reduce。
编程模型：首先大致看一下整个 map reduce 再框架里面的过程：

Map 实现：

比如写一个统计文档中各个单词数量的程序，可以这样写 map：

这里的 EmitIntermediate 这样写，其实是类似数据库里面 Query Processing 里面为了提高并行度而采用的火山模型（迭代器模型）那样，才有更高的并行度（底层可以任意实现）。如果只是加入到某个列表中，就还是同步的单机模型。实际 MapReduce 的也是通过迭代器模型来实现。

Reduce 的执行是类似数据库 Query Processing 里面的 pipeline breaker 必须打断流水线的操作。所有的 aggregate 都是 breaker，reduce 其实也类似于一个 aggregate 的过程。

还是在统计词频程序里面，注意的是 MapReduce library 会把 map 产生的所有相同 key 的中间结果做一个 aggregate 再传给 reduce 函数的。

应用举例：

分布式的 grep
url 访问频率（这种其实和词频统计是一类问题）
Reverse Web Link graph
term vector per host
inverted index
distributed sort

接口

Hadoop：由于 MapReduce 是一个分布式部署的框架，Google 的论文中的 sample code 是用 C++ 写的，但是 Google 的框架没有开源。广泛使用的其实是 Apache 的 Java 平台的 Hadoop （HDFS + MapReduce + BigTable 的实现）。一般来说大数据主要为文本信息，为了支持多语言，Hadoop 提供了 Hadoop Streaming 和 Hadoop Pipes 等方法借助标准 IO 和管道等进程间通信来支持多种语言编写 mapper 和 reducer。
调试版：如果学习的时候希望在单机只是练习 MapReduce 的使用的话，可以用一些单机的多线程模拟 MapReduce 的库，但是那样其实没什么意思。
Docker：单机实践的时候，可以使用 docker 来完成集群的模拟。

Docker 的主要原理其实在 6.s081 学虚拟化和 dune 的时候基本都明白了，虚拟机是模拟整个 OS 通过硬件虚拟化运行在 host 上，而沙盒或者 docker 这种容器系统只是虚拟了一个让进程运行的环境出来，减少浪费，主要的 kernel 还是用 host 的（docker 只支持 linux 系统，当然，win 上运行 linux container 的方法就是，先做一个 vm，再基于他跑多个 docker container 就行了）。

Hadoop 使用：hadoop 的配置需要一系列配置，包括配置好 HDFS。可以参照 apache 官方的中文教程。配置好后第一个例子是 WordCount：

		public class WordCount {
		   public static class Map extends MapReduceBase implements Mapper {
		     private final static IntWritable one = new IntWritable(1);
		     private Text word = new Text();
		     public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
		       String line = value.toString();
		       StringTokenizer tokenizer = new StringTokenizer(line);
		       while (tokenizer.hasMoreTokens()) {
		         word.set(tokenizer.nextToken());
		         output.collect(word, one);
		       }
		     }
		   }
		   public static class Reduce extends MapReduceBase implements Reducer {
		     public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
		       int sum = 0;
		       while (values.hasNext()) {
		         sum += values.next().get();
		       }
		       output.collect(key, new IntWritable(sum));
		     }
		   }
		   public static void main(String[] args) throws Exception {
		     JobConf conf = new JobConf(WordCount.class);
		     conf.setJobName("wordcount");
		     conf.setOutputKeyClass(Text.class);
		     conf.setOutputValueClass(IntWritable.class);
		     conf.setMapperClass(Map.class);
		     conf.setCombinerClass(Reduce.class);
		     conf.setReducerClass(Reduce.class);
		     conf.setInputFormat(TextInputFormat.class);
		     conf.setOutputFormat(TextOutputFormat.class);
		     FileInputFormat.setInputPaths(conf, new Path(args[0]));
		     FileOutputFormat.setOutputPath(conf, new Path(args[1]));
		     JobClient.runJob(conf);
		   }
}

迭代器模型：以这个作为例子就了解了具体是怎么写 map 和 reduce 的了，很显然的，就是简单的迭代器模型，完全像我们学数据库里面 Query Processing 过程的火山模型。通过用户层是 Next 来做的，最后底层就能进行中间的其他非关键性工作的扩展，比如分发到集群里面的不同机器、调度、保证安全东西等。

while (tokenizer.hasMoreTokens()) {

word.set(tokenizer.nextToken());

output.collect(word, one);

}

这里，output 是传进来的，所以 collect 的时候实际做的可以是进行某个 RPC/RMI 然后 reducer 前面有一个流程会做按 key group 操作，这个最直接的思路是之前学的 hash aggregate（具体是什么实现之后 lab1 就是写一个 mapreduce 框架，所以不急），之后再传给 reducer。

到实现这一步的时候，考虑的东西其实比较多。单机多核的分布式对于 NUMA 架构（现在的 CPU 基本都是 NUMA，Non Uniform Memory Access，即各核心划分独立的内存控制器，和 UMA 比少总线竞争）来说，要尽量减少非本地内存的访问，容易出现性能不稳定。对于分布式系统，共享内存无法使用。论文主要讨论分布式系统的，他们的数据通信需要通过网络实现。

具体讨论前提是：

Execution

Execution：这个下面这个图非常详细的描述。每个 core 我都圈起来了（output file 的不应卷进来，这是我的标注错误）。worker 是用来执行的，至于是执行 map 还是 reduce，看 master 的调度。可能一个 worker 一开始也执行是 map，等到一个 split 完成了之后，master 会把他指派为执行 reduce 的继续工作。
数据分区：其中要注意的是，split 是对应 worker 的数量的，而 intermediate result 的 R partiotions 是 match 执行 reduce 的 worker 的数量的（which is specified by the user）。
数据存放：两部分数据，一部分是 local（图中的 intermediate files），不过这部分马上也要流转给 reduce worker 的，map worker 需要一直努力工作，工作成果需要不断上交给 reduce worker，他们换得的是所有 map tasks 完成之后无事可做的空虚。另外一部分数据是 global 的，这里图片的 6 实际是要输出给最终的地方（global）的（reduce worker 也不是 user program 的受益者，只是搬砖工，遍身罗绮者,不是养蚕人，风口过去了之后他也会变回 map worker 的）。不过 global 的文件数量是 one per reduce task，这个不能 share 的，不然你也没办法并行 append 文件。

RPC ：remote read （对应 hadoop mapreduce 框架里面的 Iterator 那个的 next 函数）是通过 RPC 从 MapReduce 框架完成一次远程的硬盘读写的。
Master Data Structure：对于 master 而言，要存储一些 meta 信息，以及 XControll Block，包括 task state、worker identifier。基本的网络编程的调度器了属于，基本和 POSAv2 中 Reactor 模式里面的 Reactor 做的差不多。master 还是一个信息发布获取中心，他是 the conduit through which the location of intermediate file regions is propagated from map tasks to reduce tasks. 对于 map worker 完成的时候，他要负责获取中间结果的远程访问信息，从而能让 reduce worker 通过RPC 访问。

Fault Tolerance

worker failure: 通过 keepalive 技术，如果 worker 死了，rollback running tasks which is on the dead worker，然后 reschedule 就行了。因为部分完成了的数据存在 local disk，可能会重复做一些东西，这是不可避免的。reducer 的情况轻松一点，因为他的输出是字节到达 global disk 的. 当然如果 worker 死了，task 重新分配，reducer 也要知道从新的 worker 调用 RPC 而不是已经死的。
Master failure：用数据库、OS 磁盘文件系统经典做法，checkpoint 写 log，把上面提到的 master data 写进文件里面。不过 Google 的实现里面没有做这部分。

However, given that there is only a single master, its failure is unlikely; therefore our current implementation aborts the MapReduce computation if the master fails. Clients can check for this condition and retry the MapReduce operation if they desire.

误判：（这个只是我对原文的 Semantics in the Presence of Failures 前面的理解）worker failure 还有一个副作用，就是 reduce task 可能会重复运行。考虑一个 reduce worker failure 误判的情况，此时重启了一个新的 reducer，问题就会发生。解决方案是 reduce worker 必须通过底层 OS 的文件锁提供 atomic 支持。
语义支持：确定性的 map 和 reduce 函数，框架保证行 produces the same output as would have been produced by a non-faulting sequential execution of the entire program。为对于非确定性的程序，只能保证一个 reducer task intra 的顺序等价，inter 的情况可能会有 interleave 。

优化

分布式存储就近调度: 这个我不想拙略地加工翻译一遍了，很简单的思路。至于具体实现的 GFS （2003）以及 HDFS （实现 MapReduce 需要基于一个分布式文件系统，Hadoop 就自己改进了一个）之后在 6.824 和校内课程的阅读作业里都还会读的，这个不急。
Task Granularity：这个主要是 split M 和 R 的时候调参，这个这里不分析了，涉及时间空间、RPC 网速、负载均衡等抉择。MapReduce 框架真正实现了之后，要调的参数太多了，谷歌自己都没有玩明白（Google AI Blog: Sorting Petabytes with MapReduce - The Next Episode (googleblog.com)）
backup Tasks：就是说有时候有些机器或者环境到了最后变差了（straggler，落伍者），与其干等，不如做些冗余，当一个MapReduce计算接近完成时，master会调度一个备用（backup）任务来执行剩下的处于正在执行中（in-progress）的任务。论文说这样做能提速44%，具体是什么情况倒置这个是最后任务落伍，论文的例子：

虽然上面好像感觉很多东西了，但是仔细想一下感觉也是很想当然的思路，好像这些思路之前的其他课都讲过了。不过实际要做出来，还是有很多细节。

论文第四节讲的是一些扩展功能。时间关系，我暂时略过这部分。第五部分讲的是 performance。理论上读论文最关心的其实就是 performance，包括运行性能和稳定性，但是学习理论的时候反而没什么好看的（除非有什么奇妙细节分析）。第六部分是一些经验，讲解了用上 mapreduce 的一个搜索引擎应用 Large-Scale Indexing，感觉也是一些 PPT 的东西，这里也略过了。

Refinements

略

Conclusion 重点标记

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要