Andrea_null

大数据初学习之MapReduce理论概述

Hadoop-MapReduce分布式计算整理

文章目录

分布式开发思维与并行计算思维

引例1

如何用两次磁盘IO搞定这件事情？分久必合

引例2

如果改成给十台服务器

MapReduce思想
MapReduce

MapReduce主要思想：分久必合

MapReduce核心思想

MapReduce由两阶段组成
MapReduce计算原理

Map端
Reduce端

MapReduce流程
Hadoop1.x版本MapReduce自带资源调度器

ReduceTask在第三个DataNode节点上运行合适吗？

Hadoop1.x版本总结

JobTracker作用有哪些
TaskTracker作用

Hadoop2.x版本

yarn架构
单点故障问题

ResourceManager单点故障
ApplicationMaster单点故障

分布式开发思维与并行计算思维

引例1

假设有一个1T的大文件，这个文件的每一行是一个数字
环境：一台服务器，核数：48core 64G内存
需求：将大文件排序，不管是正序还是倒序
思路：

将大文件切成一个个的小文件[一次磁盘IO]，（按照行数来切，每个小文件有十万行数据）
把每个小文件加载到服务器中排序[一次磁盘IO]（小文件之间无序，内部有序）。
将小文件归并排序[一次磁盘IO]，每个小文件都读到一个Buffer中，然后这些Buffer进行比较进行归并，当Buffer里面没数据了，再继续读磁盘小文件。

磁盘IO:把所有文件读一遍当作一次磁盘IO

如何用两次磁盘IO搞定这件事情？分久必合

思路：

1T的文件，根据数值范围来切割大文件。
比如，0-100的放在file1里面，100-200的放在file2里面。如果0-100的数据大于64G怎么办？那就再切一下，切成file1_0和file1_1。小文件之间是有序的，小文件内部无序。
List item把每个小文件加载到服务器中排序[一次磁盘IO]（小文件之间有序，内部也有序）。假设需要的是升序，那么file1,file2,file3合并成大文件，如果需要的是倒序，那么就倒着读一下，直接输出就可以了。如果file1_0和file1_1小文件之间是无序的：进行一次归并。如果这种现象普遍存在，那么就把范围再缩小一点。

引例2

有两个文件，fileA和fileB，分别有十亿条url，每个url是64k
环境：一台服务器，核数：48core 64G内存
需求：找出同时出现在两个文件的url
思路：

要把这两个大文件拆成小文件（假设是一千个）。怎么拆？
拆分策略：计算每一个url的hashcode然后与1000取模，决定这一条url进入到哪一个小文件中。保证：相同的url进入同一个小文件中。（一次磁盘IO）
只需要比对两个file拆出来的对应相同模的小文件。因为hashcode是唯一的。（第二次磁盘IO）

如果改成给十台服务器

多节点的并行计算（多进程多线程计算）
切割fileA可以node1来做，切割fileB可以node2来做。也就是说，切割这一步可以两台服务器并行计算。切出来以后，fileA的0-100号文件对应fileB的0-100号文件给node1，fileA的101-200号文件对应fileB的101-200号文件给node2以此类推。这样每台服务器只用比对100对文件。

MapReduce思想

有三个山头，都种有橡木，红木和樟木。有三个工人，让这三个工人去每个山头上工作（计算找数据）。[为什么不把山头搬到他家（数据找计算）？数据量过于庞大，数据找计算将出现频繁的数据运输，造成较低的计算效率]。有个加工厂，分别加工橡木，樟木和红木的桌子。如何提高效率？采用分久必合思想。

工人1

工人2

工人3

山头1

橡木桌面桌腿

橡木半成品

红木桌面桌腿

红木半成品

樟木桌面桌腿

樟木半成品

山头2

橡木桌面桌腿

橡木半成品

红木桌面桌腿

红木半成品

樟木桌面桌腿

樟木半成品

山头3

橡木桌面桌腿

橡木半成品

红木桌面桌腿

红木半成品

樟木桌面桌腿

樟木半成品

橡木工厂

红木工厂

樟木工厂

删减无用的运输
在各个山头上争取把每一棵树都制作成有用的木材。eg:加工成桌面，桌腿。把废料下脚料扔在山上。
减少搬运次数(Combiner)
在山头上进行简单的组装，组装成半成品（假设每个山头的树木不够做一个桌子），减少搬运次数。

Combiner目的：减少每个山头的输出数据，减少网络IO。
[传输的过程最耗时]

每个工厂将各个工人的半成品进行组装，得到成品。

注：
在MapReduce中，大山就是一个大文件
每一个山头代表一个block
每一个工人类比成线程（计算）
【进程本身不能计算，进程中的线程提供计算。进程为线程提供了一个环境–CPU,内存,磁盘环境】
总结：MapReduce由Map和Reuce组成。
combiner:工人在每一个山头的组装(处理的是每一个组件进行小组装)
shuffle:将半成品运输到各个工厂（会有网络IO，最耗时间）
reduce:将运输过来的半成品进行大组装（大合并）

MapReduce

MapReduce是一个便于编写程序的可以通过大集群（上千台节点）并行处理TB级的海量数据的并通过可靠稳定的，容错的机制运行的软件框架。

MapReduce主要思想：分久必合

MapReduce核心思想

"相同"的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算

MapReduce由两阶段组成

shuffle

Map端

Reduce端

在shuffle之前Map之后进行combiner

MapReduce计算原理

假设计算的数据在HDFS上以block块形式存储。
在上图中，有四个工人(MapTask)，三个加工厂(ReduceTask)。
在HDFS里每一个block对应每一个MapTask

Map端

MapReduce在计算HDFS数据之前会先对文件进行切片(split)，默认大小与block一致（128M）。
如果设置切片大小为256M，那么一个切片对应2个block，此时一个MapTask处理2个block。

默认block<–>spilt<–>map task
想要map端的并行度越高：就要让切片越小。
eg:如果把切片设置成64M，那么1/2个block对应一个split。
那么两个MapTask处理一个block数据。

MapTask处理数据的时候，一条一条的读，读完一条一条计算，计算完把数据写出去。
1）分区：每一个MapTask把计算结果写到缓冲区之前需要将数据打标签（所谓的分区号：标记是红木橡木还是樟木）。
打标签的目的：为了标记让这条记录将来运送到哪一个ReduceTask中。
默认的分区器叫：HashPartitioner
它是如何进行分区的？根据Map输出的K的HashCode与ReduceTask的个数取余决定。
同一个分区的数据都运送给某一个ReduceTask来处理。
所以相同的K一定会运到某一个ReduceTask来处理。
注：Map的输出结果是对，具体K是什么，V是什么根据需求来定。
2）每一个MapTask把数据写到内存缓冲区中去。这个内存缓冲区默认100M。
实际上Buffer内部会把这100M切成两份：80M和20M
为什么切成两份？在溢写之前要排序在之前还会做combiner（半成品的封装）
80%叫做溢写比例
往Buffer中写入数据超过80M就会溢写到磁盘上。如果Buffer满了，进行combiner，sort。
顺序：
一）combiner，先组装成大文件
二）根据分区号（partitionId）排序，如果分区号相同，根据K排序。
如果K是自定义的对象，那么这个自定义的对象必须实现compareable接口，实现里面的compare方法。
三）把数据溢写到磁盘上，形成磁盘小文件。
在这个过程，会把80M内存封锁住，谁也操作不了写不进来数据。
这个时候，就MapTask往剩下20M里面写数据。（防止计算阻塞执行，让计算并行起来）
MapTask在计算过程中有n多次溢写。
溢写产生的小文件都是有分区的而且根据分区号(PartitionId)排序的。
每个分区内部的数据都是通过K排序的。
基于磁盘将磁盘小文件合并成大文件(merge on disk)[在图片上，每一个大文件有三个分区]当磁盘小文件数大于3个的时候进行combiner。
在这个过程中还可能进行小组装（形成其它半成品）
每一个磁盘小文件的第一个分区合并成大文件的第一个分区
在合并的过程，还要进行排序（每一个分区内部是有序的，只需要根据分区号进行归并排序）
combiner的目的：ReduceTask来拉数据的时候，减少数据量，提高效率

Reduce端

1.fetch 默认启动五个进程去拉，每个进程的失败间隔时间是300s
Reduce端工作需要去Map端拉取相应分区的数据放到Reduce端的内存（1G*0.7）中去。
拿来之后，进行写内存（放到内存中）[注:从Map端拉来的数据都是有序的]
默认大小是1G的70%也就是越700M。超过660M就会溢写。
溢写之前要进行简单的排序（溢写成磁盘小文件）
把一个个的小文件合并成大文件（merge合并的过程中也会进行排序–>为了方便分组，提高分组效率）
排完序以后要对大文件进行分组（相同的K为一组–因为是局部有序，所以一次磁盘IO就可以完成分组group）
每组数据调用一次大合并

这个过程一共有四次排序。
Map端：2次
Reduce端：2次

分组以后，每一组数据调用一次reduce函数，进行一次大组装
组装完之后进行输出，在磁盘上产生文件。

一个分区会分成n多组数据，每一组数据调用一次reduce函数
第二组数据调用reduce函数追加到第一组数据的结果中。
也就是说，每一个分区对应一个ReduceTask，每一个ReduceTask产生一个结果文件。

可以自定义的过程：
1.分区器
2.combiner(如果自定义一个key，实现WritableComparable接口)
3.sort
4.merge-sort
5.group
实现自定义排序器、分组器，需要继承同一个抽象类WritableComparater实现里面的compare方法。
如果要实现分区器，要实现Partitioner

MapReduce流程

资源调度器

任务调度器

申请航线

Driver

MapReduce

Application

申请资源

分布式并行计算

类比

设计图纸

大飞机

空管局

翱翔天空

MapReduce是一个计算框架
基于MapReduce计算框架按照它的标准规范就可以写出来一个Application应用程序
这个应用程序就存在一些分布式的并行的功能，可以在集群中并行，分布地式计算
要想在集群中并行，分布地式计算，需要向资源调度器申请资源。
资源调度器的管事的叫做主节点，
它分配完资源之后，需要任务调度器来调度任务到数据所在节点执行。
之后才可以分布式的，并行计算。

Hadoop1.x版本MapReduce自带资源调度器

资源调度器都是主从架构的
它自带的资源调度器，主叫JobTracker，有资源调度管理功能。
它的从节点叫做TaskTracker,具备资源调度的功能。

client--Application

JobTracker

NameNode

TaskTracker

MapTask

磁盘文件

TaskTracker

MapTask

磁盘文件

TaskTracker

ReduceTask

客户端可以基于MapReduce应用框架可以写出来一个Application应用程序。

Application应用程序要在集群里面运行，需要找到JobTracker
在提交的时候要把应用程序打成jar包，把这个jar包给JobTracker
然后告诉JobTracker这个应用程序想在集群中运行
由于在计算中计算要向数据移动，所以JobTracker要找到NameNode，问一下这个程序计算所需要的数据都在哪个节点上。然后NameNode返回一批block的地址。[默认每一个block有三个地址，一份源数据，两个备份]
JobTracker这时候会拿到一个列表，然后向有数据的TaskTracker（DataNode）发送一条消息，告诉它，给我分配一点资源，我要分发任务(线程)去运行。[注：进程就是提供的一个环境，真正执行任务的还是线程]。
这样有数据的TaskTracker就会启动一个DataNode进程，有了进程之后就相当于给分配了资源，这样就可以把任务(Task)分配到节点上运行了。
假设分发过来的任务叫做MapTask,MapTask计算完之后会产生一堆磁盘文件。[每一个MapTask会产生一个文件]
之后会令ReduceTask执行，ReduceTask在计算之前会去各个大文件中拿到相应分区的数据。

ReduceTask在第三个DataNode节点上运行合适吗？

不合适。因为如果这样计算，那么所有的数据都要走网络IO，最好把ReduceTask调度到第一个或者第二个节点上运行。
因为有一部分数据在本地，剩下一部分数据走网络IO。这样效率高。

Hadoop1.x版本总结

JobTracker作用有哪些

资源调度主节点
任务调度主节点
资源抢夺和资源隔离问题
1）JobTracker压力很大，容易单点故障。需要解决单点故障。
其它框架的应用程序在这个框架运行得单独实现一套TaskTracker和JobTracker，存在资源抢夺问题。
2）资源隔离问题：每一套JobTracker管理的资源都是集群的所有资源，现在提交了一个MapReduce应用程序它把所有的资源都给占了，但是Spark实现的那套JobTracker认为资源还是满的。所以运行不起来。

TaskTracker作用

1.作为从节点，自身资源调度节点
2.和JobTracker心跳，汇报资源，获取Task

Hadoop2.x版本

为解决Haoop1.x版本的各种问题，开发了一个单独的资源调度框架叫做yarn。yarn只负责资源调度。任务调度是由自己的计算框架来实现。实现可插拔。
整个集群只需要一套yarn就可以解决以上诸多问题。

yarn架构

Yarn也是一个主从架构
它的主叫做ResourceManager（资源管理的主节点），从叫做NodeManager（资源管理的从节点）。
主节点怎么管从节点？利用心跳来管。他们直接保持心跳（通信）。

client

ResourceManager

NameNode

NodeManager--DN

在客户端节点上基于MapReduce计算框架写出来一套Application应用程序，之后要提交到集群中运行。
假设：处理的文件在HDFS上只有两个block
1.client找NameNode要计算所需要的数据的每一个block的位置，之后client会生成一个列表，假设列表如下：

我们希望第一个MapTask在node01,03或者04上运行，如果这三个节点都满了没有资源可用了，就找一台同机架的节点
如果同机架的也满了，就随机找一个。（数据本地化的降级）
下一个MapTask也一样。

2.client拿着列表，向ResourceManager发送请求[请求启动一个ApplicationMaster]

ApplicationMaster:用来做任务调度

3.ResourceManager掌握了整个集群的资源情况，那么它就知道哪一个节点可以启动一个ApplicationMaster进程。假设第一个NodeManager有充足的资源，此时ResourceManager会跟第一个NodeManager说在你的节点启动一个容器（Container）[这个容器隔离出来一块资源]，然后在你的Container中启动一个ApplicationMaster进程。
4.client将生成的列表交给ApplicationMaster(任务调度器)
5.ApplicationMaster(任务调度器)拿着列表去向ResourceManager申请资源
6.假设计算block1的MapTask在node03上有资源，计算block2的MapTask在node02上有资源，则分别启动一个Container。

MapTask1会计算block1的数据，还会计算block2的一点数据。但启动位置不会把block2的位置考虑进来。因为有可能适得其反。

7.node01的ApplicationMaster往02和03的Container中分发任务。假设任务是map task，map task是线程，会运行在刚启动的进程yarn-child里。
8.ApplicationMaster会监控yarn-child运行的进程map task的运行进度。将监控的进度返回给客户端。
9.客户端在页面能看到每一个任务的运行进度。

单点故障问题

ResourceManager单点故障

ResourceManager：负责资源调度
所以搞一个备用的ResourceManager。
ResourceManager的高可用是借助zookeeper做的。

ApplicationMaster单点故障

ApplicationMaster：复责任务调度
ApplicationMaster一旦挂掉，整个任务就停止了。
此时，ResourceManager会重新启动一个ApplicationMaster。

如果Spark也想运行在yarn，必须实现yarn对外暴露的ApplicationMaster接口。

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

大数据初学习之MapReduce理论概述

文章目录

分布式开发思维与并行计算思维

引例1

如何用两次磁盘IO搞定这件事情？分久必合

引例2

如果改成给十台服务器

MapReduce思想

MapReduce

MapReduce主要思想：分久必合

MapReduce核心思想

MapReduce由两阶段组成

MapReduce计算原理

Map端

Reduce端

MapReduce流程

Hadoop1.x版本MapReduce自带资源调度器

ReduceTask在第三个DataNode节点上运行合适吗？

Hadoop1.x版本总结

JobTracker作用有哪些

TaskTracker作用

Hadoop2.x版本

yarn架构

单点故障问题

ResourceManager单点故障

ApplicationMaster单点故障

你可能感兴趣的:(大数据初学习之MapReduce理论概述)