长门yuki

分布式入门

前言
分布式概述
分布式节点通信技术
分布式存储
MapReduce
Spark

前言

小白一枚，首先感谢本校大三时期李老师开的分布式计算课程。个人对分布式感兴趣，而且觉得云计算可能比现在更火，应用更广泛。所以本篇只作为分布式入门一个简单的了解，更偏向于对整体体系的把握，而不做技术细考。但分布式太过笼统，知识体系也非常庞大，所以本文只记录其中冰山一角。
本文大多参考本校老师的课程PPT（未经授权故本篇不公开ppt内容）、《数据密集型应用系统设计》及一些github博客。由于水平有限理解不够深入，做不出更好的说明，仅是一个整理笔记。
另外关于课程实验不作说明，都是熟悉模块流程的代码实验，没用什么算法。
参考：
BigData-Notes:关于一些工具很有用的讲解。
awesome-distributed-systems:awesome开头的github项目都不必解释，很全面，但不一定都看得懂哈哈哈。
分布式系统学习笔记：某位学长留下的笔记，供参考。
分布式系统课程总结：笔记，不太全面。

mark几个有用资料待看。
分布式系统学习资料汇总：全学完一定是大牛了
知乎-廖君的回答：如果真的从事这方面科研必读的论文
2020 MIT 6.824 分布式系统机翻视频
MIT6.824的课程和实验

分布式概述

知乎有个回答说的不错：学习分布式系统需要怎样的知识？
分布式主要包含三个方面：

分布式存储系统
分布式计算系统
分布式管理系统

课程主要基于前两方面，实际工作内容的大部分都是分布式计算方面。

1.1 分布式定义：
一个分布式系统由多个通过网络互联的独立自治的计算节点组成，这些计算节点基于消息传递机制进行相互协作，以完成共同的目标。
正确理解多个cpu的计算器不算分布式系统，区分消息传递模型和共享内存模型。
消息传递模型：

节点之间没有公共状态，必须通过相互发送消息来进行协作。
内部运算速度比消息传递速度高几个数量级。通信复杂度是影响效率的重要因素。
系统设计时必须要应对局部失效、消息延迟/丢失等错误。

共享内存模型

不同节点之间共享公共状态；
节点之间通过写-读共享存储器中的公共状态来隐式地进行通信。

理解分布式和并发计算区别：并行计算与分布式处理的区别

1.2 衡量分布式优劣指标

可扩展性：描述系统对应负载增加能力的术语。分两种；垂直扩展指提升单机处理能力。水平扩展指增加服务器数量，就能线性扩充系统性能。但水平扩展对系统架构设计是有要求的。
可靠性：即使发生故障系统也能正常工作。
可维护性：对于后期不断变化的需求，能更好的修改系统。
还包括：透明性、开放性、安全性等。

1.3 分布式系统的特性：见链接，很全面。

1.4分布式系统面临的挑战：
见分布式系统之一：分布式系统的挑战

异构性：各个节点的软硬件差异性很大
自治：各节点有自己独立的时钟、独立的内部状态
局部视图：节点只能看到整个系统的某个局部视图
开放性：节点数目在变动，网络情况在变动
可扩展性：节点增加时性能须合理增长
故障处理：必须处理网络故障、局部节点故障
安全性：保密性、完整性、认证性、隐私、可用性
透明性：应用层或用户无法察觉位置、并发、复制、故障、移动、伸缩、性能等变化

1.5 分布式一致性协议：算法原理和实现见链接。
Paxos
Paxos 应用极广，对每个人都有巨大的影响。很多强大的分布式系统都可以基于该协议实现，比如：

腾讯的分布式内存数据库 PaxosStore（已开源，github.com/Tencent/paxosstore）：该数据库把数据暂存在内存中，虽然丢失的风险更大，但是可以通过“多主多备”模式（氪金）来降低翻车的概率。
阿里 OceanBase。未开源。数据多副本，通过 Paxos 实现同步。关于阿里的OceanBase其实还有个趣事：阿里云做云计算那么艰难，为什么后面其他公司都随便就拥有了云计算?

Raft
Raft 因 Paxos 协议过于难懂而被开发出来，对程序员更加友好、易于理解，效率并不比 Paxos 更高；
使用该协议实现的系统有阿里巴巴的 PolarFS、浪潮内部的分布式数据库等
新兴的PingCAP也是raft协议。

1.6按分布式计算任务限定完成时间长短（时效性）分类：
实时处理任务，也叫OLTP(Online Transaction Processing)任务，往往有高并发要求
eg.在线购物、在线交易等
准实时处理任务，流处理模型：
eg.Web搜索时的联想、广告推送、商品推荐等
批处理任务，也叫OLAP(Online Analysis Processing)任务，往往只有单一用户

1.7 5类分布式系统构架模式：

客户端-服务器模式
Client-Server模式：一个服务器对应多个客户端模式，显然这样服务器端一般要应对并发问题。所以又提出了Client-Cluster模式，服务器端由多个服务器构成，共同分担计算任务。在宏观逻辑上，多个服务器构成的集群可以视为单一的功能更强大的计算节点。客户端感觉不到服务器端的实际构成。关于怎么设计多服务多客户的架构，以及如何处理负载均衡不在此细究。优缺点见：客户机/服务器模式的优点和缺点
主-从(Master-Slave)模式
最常见的分布式模式，不详细写了，自行百度。贴个链接：10种常见的软件架构模式
主从模式结构简单，算法好设计，中小规模下效率高。缺点是主节点容易成为瓶颈，整个系统容错性差。
总线模式
不同节点之间通过虚拟总线（消息队列）相连。
对等(Peer-to-Peer)模式:
对等模式优点是没有瓶颈节点，容错性非常高；缺点是算法设计复杂，效率低
混合模式

1.8 引入中间件
中间件是什么？如何解释比较通俗易懂？
中间件的作用
为开发者提供高层的编程抽象，屏蔽分布式系统底层的异构
性和复杂性
提高互操作性和可移植性
提供分布式系统的基础设施服务
)
1.9 设计分布式算法时使用的抽象分布式系统模型，从以下三个方面
进行定义：（没太理解这个分类，参考其他博客）

交互模式：定义了在算法运行期间哪些节点之间有消息传递动作；定义了通信模式：同步模式、异步模式。（学过数电的话应该不难理解这两概念）
同步模型
假定消息传输延迟有上限，并且上限是已知的；
构成系统的节点之间按周期进行交互；
每个节点仅接受本周期内其他节点发送的消息；
分布式算法设计较简单，因为很容易检测失效节点；
需要不同节点之间进行物理时钟同步
异步模型
假定消息传输延迟没有上限；
节点之间异步工作，不进行周期同步；
在该模型下分布式算法设计难度大得多；
更接近于现实的模型
信道故障模式
消息是否会丢失
消息是否会乱序
消息传输延迟的上限
节点故障模式：参考分布式系统中的故障模型
为什么会提出这些模式：分布式系统的核心：共识问题
失效停止模式（Fail-Stop）
节点失效后停止工作，显然也停止对外发送消息；
失效停止恢复模式（fail-recovery）
节点失效后停止工作，但经过一段时间后又重新启动，失效之前的程序重新运行；（自动恢复、人工恢复）失效之前缓存的接收消息和内存中的私有状态全部丢失，但非易失存储器中的数据仍然存在。
拜占庭模式
如何理解拜占庭将军问题？
节点失效后行为模式是任意的，例如可以故意发送恶意消息，以破坏分布式系统的正常运行。
发送者认证拜占庭模式
节点失效后行为模式任意，但不能冒充其他节点发送消息。
理性拜占庭模式
节点失效行为模式任意，但都是利己的。

分布式节点通信技术

所需的计算机网络知识不过多解释，底层通信只关注TCP和UDP，上层只介绍RPC和消息队列。

2.1 什么是socket？
传输层和网络层提供给应用层的标准化编程接口（或称为编程接口）
注：
路由器中只包含物理层、链路层、网络层协议实现模块。
主机中包含五层协议实现模块。
操作系统负责实现传输层及以下网络协议的实现。

2.2 关于tcp和udp的socket通信实验，此处借两张图说明过程。

具体代码，确立套接字，确认连接等参考：Java网络编程UDP与TCP(Socket编程)
多线程不必说，线程池调用ThreadPoolExecutor，参考线程池之ThreadPoolExecutor使用
关于并发技术的多线程和线程池详讲：分布式系统学习笔记2：分布式节点之间的通信技术：并发服务技术、RPC 与 RMI 概述
基于多线程的并发服务：优点是逻辑简单，每个线程内部的逻辑完全相同但缺点也非常明显：对于线程的频繁创建和销毁会造成较大的开销，且线程过多时会产生很高的线程切换成本
基于线程池的并发服务：该方案能够避免进程创建与销毁的开销，并能防止建立线程过多造成拥塞
但无论是多线程并发服务还是线程池，终究还是存在切换问题，切换过多总会造成较大的开销、浪费性能。
事件驱动技术（多路复用技术）

2.3 RPC和RMI
远程过程调用(Remote Procedure Call, RPC): 使应用程序可以像调用本地节点上的过程(子程序) 那样去调用一个远程节点上的子程序。
远程方法调用(Remote Method Invocation, RMI): 将面向对象的编程模型扩展到了分布式环境。
RMI和RPC的比较:参考RMI和RPC比较

RPC/RMI中间件的作用：

定义并利用Socket服务接口实现了一套调用者和被调用者之间的通信协议。（远程过程调用协议）
实现了过程参数的序列化、反序列化；过程运算结果的序列化、反序列化。
通信过程中的错误处理
过程服务进程(或远程对象)的集中注册与发现（目录服务）
远程对象的统一标识和生命周期管理
在服务端支持并发访问。（多采用多线程技术）

RPC/RMI中间件的实现原理：（可以扩展阅读深入浅出 RPC - 深入篇）
RPC/RMI中间件在调用者进程中植入stub/proxy模块，stub模块作为远程过程的本地代理，并且暴露与远程过程相同的接口。
RPC/RMI中间件在被调用者进程中植入skeleton模块， skeleton作为调用者在远程主机中的代理，代替客户端调用本地方法，并把结果返回给客户端。
stub模块与skeleton模块利用Socket进行通信。
skeleton模块相当于Client-Server通信模式中的服务器端，要先于客户端运行，并且在某个Socket端口进行监听。

常用的RPC/RMI中间件 (仅作了解，深入自行百度）
Java RMI：Java的自娱自乐
Microsoft .NET Remoting：.Net的自娱自乐
CORBA：重量级分布式对象中间件，跨语言
gRPC：Google的RPC中间件，高效，开源，跨语言
Thrift：Facebook、Apache的RPC中间件，高效，开源，跨语言
Hessian：基于HTTP+二进制，跨语言
Dubbo：淘宝开源中间件，Java
Motan：新浪开源中间件，Java
WebService：基于HTTP + SOAP/XML/JSON(了解这三个要素，这部分内容待补）
Google Protocol Buffers：一种对象序列化标准和开发库

2.4 面向消息中间件（MOM: Message Oriented Middleware）
提供了一种分布式消息队列服务，使得节点之间可以实现基于消息的形式灵活的异步通信。
可以看一看MQ（1）—— 从队列到消息中间件
增加mq好处：（解耦+缓冲+易扩展）

降低了耦合度：数据生产者只向中介节点发送数据；数据消费者只向中介者订阅自己感兴趣的数据。
提高了容错性：中介节点具有数据缓存功能，部分节点失效、或者通信双方速度暂时不匹配时数据也不会丢失。
提高了可扩展性：增加消费节点对生成节点无影响；增加同类型的生成节点，对消费节点无影响。

总线型架构：（回顾第一章）
不同节点之间通过虚拟总线相连
消息发送者不必知道接收者是谁，接收者也不知道发送者是谁
发送者和接收者之间用异步方式通信
一种松耦合架构
不同节点完成不同功能，分工协作

消息队列通信模式：可参考分布式系统学习笔记4：消息中间件
消息队列模式
中间件会在生产者、消费者（两者均可有多个）中间建立一个先进先出的队列，每个消息被某一个消费者取走，即会被在队列中删除（这意味着每条消息只能有一个消费者接收到）。出队的消息按照某种负载均衡策略发送给特定的消费者。
高级队列模式：带优先级的队列；支持持久性的队列
主题/订阅通信模式：
支持向一个特定的消息主题发布消息。
多个订阅同一主题的消费者可以同时接收发布到该消息主题的消息
可以灵活地实现广播、组播等多对多通信模式
三种消息接收方式（顾名思义，不解释）：阻塞接收、轮询接收、回调接收（通知接收）

基于MOM实现通信的优点

异步通信，可以减少系统响应时间，提高吞吐量
分布式节点之间的解耦
保证消息的可靠递交，实现最终一致性
实现广播、组播和多对多通信；流量削峰和流控；支持Push模型和Pull模型

2.5 常用的MOM中间件（工作一定会用到其中一些，学习一个写实验上手即可）
RabbitMQ：采用Erlang语言实现的AMQP协议的消息中间件，最初起源于金融系统。
RocketMQ：阿里的开源产品，用 Java 语言实现；在阿里内部被广泛应用在订单，交易，充值，流计算，消息推送，日志流式处理等场景。
Apache Kafka：提供完全分布式架构，与Apache的其他平台如Hadoop、Apache Storm、Spark、Flink等集成方便。
ZeroMQ：号称史上最快的消息队列，基于C语言开发。
WebsphereMQ：IBM的MOM中间件产品
这里给个链接：RabbitMQ快速入门（详细），写的非常详细，作为实验写一遍，熟悉客户端和服务端流程。

分布式存储

可以学习《数据密集型应用系统设计》一书第二部分，把数据复制、分区和一致性原理讲的很清楚。

3.1 分布式存储要达成的目标

提高数据存储容量：系统的总存储容量是多个组成节点本地存储容量的聚合，系统总存储容量能够随着组成节点数的增加而增大。（水平可扩展）
提高数据吞吐量：系统的数据读写吞吐量能够随着组成节点数的增加而增大。（水平可扩展）
提高可靠性/可用性：部分存储节点发生故障时数据不丢失；部分存储节点失效时，用户仍然可以读写
降低数据访问延时：使用户可以从地理位置上最接近的节点读取数据。（例子：CDN内容分发网络）
提高分布式数据处理系统的运行效率

基本手段：

复制（Replication）
基本思想：在多个不同的节点上保存相同数据的多个副本（ replica）。
用途：
① 复制提供了冗余，如果一些节点不可用，剩余的节点仍然可以提供数据服务。
② 多个节点上存储副本也可以提高数据吞吐率、改善访问性能。
带来的问题：
① 硬件成本提高。
② 在数据变更时保障多数据副本之间的之间的一致性是个复
杂问题。
分区Partitioning (切片)
基本思想：将一个大型数据文件(或数据库)拆分成较小的子集（称为分区partition或切片shard ），再将不同的分区指派给不同的节点。
用途：
① 提高了吞吐率：访问数据的负载被分散到多个节点上。
② 提高了可靠性：鸡蛋被放到多个篮子里
③ 方便了实现数据的并行处理。
带来的问题：
① 跨区查询（分布式索引问题）
② 合理、动态分区问题（大数据如何拆分）
③ 负载均衡问题（各个切片如何合理地分配给不同节点）
④ 分布式事务处理

3.2 复制方法分类：
主从复制（单主复制）：
② 优点：实现相对简单。大多数应用场景都是读多写少。
③ 缺点：主库即是性能瓶颈，又是单点故障节点(Single point of failure)
④ 为提高容错性，自动将某个从库切换为主库时会面临脑裂问题。
多节点复制（多主复制）：
② 应用场景：多数据中心之间的复制；协同文档编辑。
③ 优点：写入性能高。
④ 缺点：写入冲突问题、多副本一致性问题解决方案太复杂。
无主节点复制：
① 没有主库从库的概念。
② 客户端直接将写入请求发送到到各个副本；或者客户端将写入发送给某个节点，由该节点充当代理节点向其他节点转发写入请求

同步复制优点是更容易实现副本之间的一致性；缺点是写入速度慢；一个节点失效会使整体写入功能失败，阻塞其后所有写操作。
异步复制优点：写入速度快；容错性好；缺点：保持多副本一致性复杂；
混合复制（半同步/半异步）：部分节点同步复制，部分节点异步复制
补充：
在一些如 Raft、Paxos 的算法中，可以采用一种与上面两个都不同的方式：主库接收到一定比例（比如超过一半）的从库应答后，就会对用户发出应答
在 HDFS 中，使用“流水线”应答，逐级发送写入请求，逐级返回应答。而且并非一次写一整个数据块，而是每次只写一小块（比如 64kB ），全部写完再给 client 返回应答

3.3 多副本分布式存储中的一致性问题
数据一致性模型：
多个客户端在读写数据时，分布式存储系统为客户端提供的关于数据外在表现的保证。

关于这部分可以参考:[译] 分布式系统中的一致性模型
强一致性：（线性一致性/原子一致性）
在客户端看来，分布式存储系统的外在表现和单副本存储系统的外在表现完全一致。（类似于多个线程访问同一个寄存器）任意客户端看到的所有针对分布式系统的操作(读、写等原子操作)按全局一致的顺序排列（线性化），并且该排序满足多个操作在时间维度上的实际发生先后顺序。
顺序一致性：
任意客户端看到的所有针对分布式系统的操作(读、写等原子操作)按全局一致的顺序排列（线性化），同一个客户端发出的多个操作的顺序与该全局一致排序并不矛盾。
因果一致性：
不同客户端看到的所有针对分布式系统的操作(读、写等原子操作)排序不一定一致，但该排序不违背操作发生的因果关系。
最终一致性：在分布式系统停止更新时，最终所有读操作都可以获得最新版本的数据。

3.4 关于CAP和hadoop,mapreduce可看(译)分布式系统概述
CAP定理
关于CAP简单证明理解(非数学证明）可以看分布式系统的CAP理论
Consistensy(一致性)：不同节点上数据的强一致性
• Partition Tolerance(分区容错性)：允许部分节点与其它节点断裂
• Availability(可用性)：发出的请求在规定时间段内总能返回结果（请求响应延时短，可用性高；否则可用性低）
• CAP定理：在设计分布式系统时，三者只能取其二，不能三者兼得。

BASE定理
BASE理论是对CAP中一致性和可用性权衡的结果，来源于对大规模互联网分布式系统实践的总结，核心思想是即使无法做到强一致性，但每个应用都可以根据自身业务特点降低部分一致性获得可用性。
• 基本可用（Basically Available）：
– 在出现故障的时候，允许损失部分可用性，保证核心可用。
• 软状态（Soft State）
– 允许系统中的数据存在中间状态，允许系统在多个不同节点的数据副本存在更新延时。
• 最终一致性（Eventually Consistent）
– 不可能一直处于软状态，在一定期限后应当保证所有副本保持数据一致性，从而达到数据的最终一致性

3.5 数据分区
合理数据分区的目标:
将数据和查询负载均匀分布在各个节点上，避免出现偏斜(skew)和热点(hot spot)问题；分区方式要兼顾跨区查询问题。

根据主键范围进行分区
优点：按主键进行连续查询很方便。
缺点：在主键范围非均匀分布时必须建立全局索引以记录数据分区和存储节点的对应关系。一般要专门指定一个节点维护全局索引，该节点是中心节点。

根据主键的哈希值进行分区
优点：
① 可以在一定程度上避免了偏斜和热点问题。
② 无须全局索引，因而也无须中心节点。
缺点：
① 基于主键进行连续范围查询效率极低。
② 在物理存储节点较少时仍然会出现偏斜和热点问题（可以采用虚拟节点的方法进行缓解）
③ 桶的个数改变时会产生大量数据移动
（原因：分布式系统中，假设有 n 个节点，传统方案使用 mod(key, n) 映射数据和节点。
当扩容或缩容时(哪怕只是增减1个节点)，映射关系变为 mod(key, n+1) / mod(key, n-1)，绝大多数数据的映射关系都会失效。）

3.6 一致性哈希：参考一致性哈希算法的原理与实现

3.7 HDFS分布式文件系统
官方文档见：Hadoop分布式文件系统：架构和设计
HDFS 遵循主/从架构，由单个 NameNode(NN) 和多个DataNode(DN) 组成。

高容错：采用数据多副本方案，部分硬件的损坏不会导致全部数据的丢失。
高吞吐量：支持多个客户端同时与多数据节点直接通信，实现了高吞吐量的数据访问。（不同于低延迟数据访问）
大文件支持：HDFS 适合于大文件的存储，文档的大小应该是 GB 到 TB 级别的。（为什么不适合大量小文件存储？因namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放的文件数目过多的话会占用很大的内存）
简单一致性模型：HDFS 更适合于一次写入多次读取 (write-once-read-many)的访问模型。（频繁修改场景还是适合用传统的关系型数据库）。支持将内容追加到文件末尾，不能从文件任意位置新增数据。

hdfs的读写流程和其他细节参考：HDFS经典简答题(实习生必看!)

3.8 NoSQL：相比之前所学的老古董，算是非常现代化的技术了，待补。

MapReduce

网上教程非常多，理解经典的单词计数wordcount实验就能掌握基本的操作。

4.1 MapReduce并行计算模型
网上资料很多，只贴一个看过的通俗易懂地理解MapReduce计算框架
Map阶段：第一阶段并行，将输入文件（或指定目录下的多个输入文件）划分成多个分区，每个分区都交给一个独立的Map子任务进行处理。强制要求每个Map子任务将输出规整为一系列对的形式。
聚集混洗阶段：不同Map子任务输出的数组按照key进行聚集，聚集成数组 A = {, , , …}的形式。
Reduce阶段：第二阶段并行，将聚集之后的数组A划分成多个分区，每个分区都交给一个独立的Reduce子任务进行处理。（每个分区内按key进行排序）。 Reduce子任务根据输入生成一系列对的形式。（一般最后将输出写入HDFS）

如果Reduce阶段输出不是最终结果，还可以启动新一轮
MapReduce过程。
要点：通过Map子任务输出的key值部分控制不同子任务输出结果的相互交换和聚集。

4.2 Combiner作用：参考MapReduce:Combiner，partition的作用
1）每一个map可能会产生大量的输出，Combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。
2）Combiner最基本是实现本地key的归并，Combiner具有类似本地的reduce功能。

如果不用Combiner，那么，所有的结果都是reduce完成，效率会相对低下。
使用Combiner，先完成的map会在本地聚合，提升速度。

注意：Combiner的输出是Reducer的输入，如果Combiner是可插拔的，添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。

注意事项
不是每种作业都可以做combiner操作的，只有满足以下条件才可以：
1）combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，因为combine本质上就是reduce操作。
2）计算逻辑上，combine操作后不能影响计算结果，像求和，最大值就不会影响，求平均值就影响了。

Spark

同样教程很多，不提。

可以看这个spark入门系列文章：大话Spark(1)-Spark概述与核心概念
然后了解为什么Spark比MapReduce快？
5.1 分布式弹性数据集RDD

RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区存储的、分布式的数据集合。
在Spark平台的支持下，可以对RDD的内部元素进行并行粗粒度操作，操作的具体动作由应用层定义。
RDD可以基于外部持久化存储系统中的数据集创建，也可以其他 RDD 转换而来。
一个 RDD 由一个或者多个分区（Partitions）组成。对于 RDD 来说，每个分区会被一个计算任务所处理，用户可以在创建RDD 时指定其分区个数，如果没有指定，则平台会根据数据分布存储、CPU资源等情况自己决定。
关于RDD的一个分区的计算任务失败后，Spark平台会自动在其他计算节点上回复该任务。（容错性）
可以将RDD看成是一个分布式存储的“大数组”。应用程序只需关心如何由一个RDD转换为另一个RDD，不用关心RDD在底层是如何分区、如何分布到多个节点上、如何在内存中缓存、内存缓存丢失后如何重新生成。

RDD可以理解为一份数据在集群上的抽象, 被分为多个分区, 每个分区分布在集群不同的节点上(如上图), 从而让RDD中的数据可以被并行操作(分布式数据集).
RDD有一个重要的特性就是，提供了容错性，可以自动从节点失败中恢复过来。即如果某个节点上的RDD partition, 因为节点故障导致数据丢了, 那么RDD会自动通过自己的数据来源重新计算该partition.

5.2 RDD与DAG

一个具体的大数据处理任务可以表达为一系列RDD之间的转换。
一个分布式计算任务中涉及到的不同RDD 之间存在依赖关系，RDD 的每次转换都会生成一个新的依赖关系，这种RDD
之间的依赖关系就像流水线一样。RDD(s) 及其之间的依赖关系组成了 DAG(有向无环图)。
一个分布式计算任务可以表达为一个DAG。DAG 定义了这些 RDD(s) 之间的 Lineage(血统) 关系，通过血统关系，如果一个RDD 的部分或者全部计算结果丢失了，也可以重新进行计算。
Spark 可以根据 DAG对某些计算子任务进行合并。

DAG中的节点表示三类对象：（1）输入文件；（2）输出文件；（3）RDD
DAG中有向边表示：RDD转换算子

5.3 RDD的基本操作
RDD有两种基本操作:Transformation 和 Action

Transformation
通过Scala集合或者Hadoop数据集构造一个新的RDD
通过已有的RDD产生新的RDD(RDD不可修改)
Action
通过RDD计算得到一个或者一组值

区别：
接口定义方式不同
Transformation: RDD[x] -> RDD[y]
Action: RDD[x] -> Z (Z不是一个RDD,可能是基本类型,数组等)
惰性执行(Lazy Exception)
Transformation 只会记录RDD转换关系,并不会触发计算
Action算子定义的动作一般会立即执行，进而触发其它的惰性
Transformation算子的执行。

spark算子讲解很多
参考：Transformation 和 Action 常用算子
5.4 关于Mapreduce和Spark的实验
尽管很多Mapreduce和spark教程大多都是基于命令行的，但建议大家再用IDE跑一遍代码，反正工作也要用，不如早早练习配环境。

你可能感兴趣的:(分布式,个人笔记,分布式,分布式计算,分布式存储)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
【K8s】专题十一：Kubernetes 集群证书过期处理方法行者Sun1989 Kubernetes kubernetes 云原生容器
本文内容均来自个人笔记并重新梳理，如有错误欢迎指正！如果对您有帮助，烦请点赞、关注、转发、订阅专栏！专栏订阅入口Linux专栏|Docker专栏|Kubernetes专栏往期精彩文章【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法【Docker】（全网首发）KylinV10下MySQL容器内存占用异常的解决方法（续）【Docker】MySQL源码构建Docker镜
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
等保测评中的关键技术挑战与应对策略亿林数据网络安全等保测评
在信息安全领域，等保测评（信息安全等级保护测评）作为确保信息系统安全性的重要手段，其过程中不可避免地会遇到一系列技术挑战。这些挑战不仅考验着企业的技术实力，也对其安全管理水平提出了更高要求。本文将深入探讨等保测评中的关键技术挑战，并提出相应的应对策略。一、等保测评中的关键技术挑战1.复杂系统架构的评估难度随着信息技术的快速发展，企业信息系统的架构日益复杂，包括分布式系统、微服务架构、云计算环境等。
系统架构师软考历年论文题目（2009-2024年）及分析 pccai-vip 系统架构师系统架构
时间题目20091.论基于DSSA的软件架构设计与应用；2.论信息系统建模方法；3.论基于REST服务的Web应用系统设计；4.论软件可靠性设计与应用20101.论软件的静态演化和动态演化及其应用；2.论数据挖掘技术的应用；3.论大规模分布式系统缓存设计策略；4.论软件可靠性评价20111.论模型驱动架构在系统开发中的应用；2.论企业集成平台的架构设计；3.论企业架构管理与应用；4.论软件需求获取
深入解析 Dubbo 的 attachments 机制及其应用场景 molashaonian dubbo attachments 隐式传参
背景在分布式系统中，服务之间的调用（RPC调用）是非常常见的。而在这种服务调用过程中，常常需要在不同服务之间传递一些上下文信息，比如用户身份信息、请求追踪ID、客户端IP等。Dubbo提供的attachments机制，能够帮助开发者在RPC调用时隐式传递这些数据，而不需要修改接口方法签名。通过分析架构图，我们可以看到，在服务调用链路中，使用Dubbo的attachments机制可以简化上下文信息的
座舱交互的下一个时代高工智能汽车交互物联网人工智能
为了满足座舱信息娱乐的更高性能要求，几乎所有的一线品牌都在准备“换芯”。去年开始，不少车型开始推动传统的分布式座舱仪表和中控电子架构进入域控制器时代，高通成为大赢家。今年6月，特斯拉也正式官宣，即将推出的新款ModelS将配备能够运行PS5游戏机性能的AMD芯片，包括专门定制的AMDRyzenCPU和独立的Navi23图形处理器。最新消息，特斯拉将率先在中国市场生产的ModelY高性能版车型换装A
软件架构，一切尽在权衡元闰子架构
荐语本文要介绍的是2021年O’Reilly出版的书籍SoftwareArchitecture:TheHardParts（后文简称SAHP），某种程度上，它是FundamentalsofSoftwareArchitecture（后文简称FSA）的延续，两本书的主要作者相同。FSA是基础篇，重点介绍了常见的8种架构模式；SAHP是进阶篇，重点介绍了如何从单体架构演进到分布式架构。软件架构，特别是分布
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象