LinuxProbe2016

基于日志的同步数据一致性和实时抽取

宜信技术研发中心架构师

目前就职于宜信技术研发中心，任架构师，负责流式计算和大数据业务产品解决方案。
曾任职于Naver china（韩国最大搜索引擎公司）中国研发中心资深工程师，多年从事CUBRID分布式数据库集群开发和CUBRID数据库引擎开发http://www.cubrid.org/blog/news/cubrid-cluster-introduction/

主题简介：

DWS的背景介绍
dbus+wormhole总体架构和技术实现方案
DWS的实际运用案例

前言

大家好，我是王东，来自宜信技术研发中心，这是我来社群的第一次分享，如果有什么不足，请大家多多指正、包涵。

本次分享的主题是《基于日志的DWS平台实现和应用》，主要是分享一下目前我们在宜信做的一些事情。这个主题里面包含到2个团队很多兄弟姐妹的努力的结果（我们团队和山巍团队的成果）。这次就由我代为执笔，尽我努力给大家介绍一下。

其实整个实现从原理上来说是比较简单的，当然也涉及到不少技术。我会尝试用尽量简单的方式来表达，让大家了解这个事情的原理和意义。在过程中，大家有问题可以随时提出，我会尽力去解答。

DWS是一个简称，是由3个子项目组成，我稍后做解释。

一、背景

事情是从公司前段时间的需求说起，大家知道宜信是一个互联网金融企业，我们的很多数据与标准互联网企业不同，大致来说就是：

玩数据的人都知道数据是非常有价值的，然后这些数据是保存在各个系统的数据库中，如何让需要数据的使用方得到一致性、实时的数据呢？

过去的通用做法有几种是：

DBA开放各个系统的备库，在业务低峰期（比如夜间），使用方各自抽取所需数据。由于抽取时间不同，各个数据使用方数据不一致，数据发生冲突，而且重复抽取，相信不少DBA很头疼这个事情。
公司统一的大数据平台，通过Sqoop 在业务低峰期到各个系统统一抽取数据，并保存到Hive表中, 然后为其他数据使用方提供数据服务。这种做法解决了一致性问题，但时效性差，基本是T+1的时效。
基于trigger的方式获取增量变更，主要问题是业务方侵入性大，而且trigger也带来性能损失。

这些方案都不算完美。我们在了解和考虑了不同实现方式后，最后借鉴了 linkedin的思想，认为要想同时解决数据一致性和实时性，比较合理的方法应该是来自于log。

（此图来自：https://www.confluent.io/blog/using-logs-to-build-a-solid-data-infrastructure-or-why-dual-writes-are-a-bad-idea/）

把增量的Log作为一切系统的基础。后续的数据使用方，通过订阅kafka来消费log。

比如：

大数据的使用方可以将数据保存到Hive表或者Parquet文件给Hive或Spark查询；
提供搜索服务的使用方可以保存到Elasticsearch或HBase 中；
提供缓存服务的使用方可以将日志缓存到Redis或alluxio中；
数据同步的使用方可以将数据保存到自己的数据库中；
由于kafka的日志是可以重复消费的，并且缓存一段时间，各个使用方可以通过消费kafka的日志来达到既能保持与数据库的一致性，也能保证实时性；

为什么使用log和kafka作为基础，而不使用Sqoop进行抽取呢？因为：

为什么不使用dual write（双写）呢？，请参考https://www.confluent.io/blog/using-logs-to-build-a-solid-data-infrastructure-or-why-dual-writes-are-a-bad-idea/

我这里就不多做解释了。

二、总体架构

于是我们提出了构建一个基于log的公司级的平台的想法。

下面解释一下DWS平台， DWS平台是有3个子项目组成：

Dbus（数据总线）：负责实时将数据从源端实时抽出，并转换为约定的自带schema的json格式数据(UMS 数据)，放入kafka中；
Wormhole（数据交换平台）：负责从kafka读出数据将数据写入到目标中；
Swifts（实时计算平台）：负责从kafka中读出数据，实时计算，并将数据写回kafka中。

图中：

Log extractor和dbus共同完成数据抽取和数据转换，抽取包括全量和增量抽取。
Wormhole可以将所有日志数据保存到HDFS中；还可以将数据落地到所有支持jdbc的数据库，落地到HBash，Elasticsearch，Cassandra等；
Swifts支持以配置和SQL的方式实现对进行流式计算，包括支持流式join，look up，filter，window aggregation等功能；
Dbus web是dbus的配置管理端，rider除了配置管理以外，还包括对Wormhole和Swifts运行时管理，数据质量校验等。

由于时间关系，我今天主要介绍DWS中的Dbus和Wormhole，在需要的时候附带介绍一下Swifts。

三、dbus解决方案

日志解析

如前面所说，Dbus主要解决的是将日志从源端实时的抽出。这里我们以MySQL为例子，简单说明如何实现。

我们知道，虽然MySQL InnoDB有自己的log，MySQL主备同步是通过binlog来实现的。如下图：

图片来自：https://github.com/alibaba/canal

而binlog有三种模式：

Row 模式：日志中会记录成每一行数据被修改的形式，然后在slave端再对相同的数据进行修改。
Statement 模式: 每一条会修改数据的sql都会记录到 master的bin-log中。slave在复制的时候SQL进程会解析成和原来master端执行过的相同的SQL来再次执行。
Mixed模式： MySQL会根据执行的每一条具体的sql语句来区分对待记录的日志形式，也就是在Statement和Row之间选择一种。

他们各自的优缺点如下：

此处来自：http://www.jquerycn.cn/a_13625

由于statement 模式的缺点，在与我们的DBA沟通过程中了解到，实际生产过程中都使用row 模式进行复制。这使得读取全量日志成为可能。

通常我们的MySQL布局是采用 2个master主库（vip）+ 1个slave从库 + 1个backup容灾库的解决方案，由于容灾库通常是用于异地容灾，实时性不高也不便于部署。

为了最小化对源端产生影响，显然我们读取binlog日志应该从slave从库读取。

读取binlog的方案比较多，github上不少，参考https://github.com/search?utf8=%E2%9C%93&q=binlog。最终我们选用了阿里的canal做位日志抽取方。

Canal最早被用于阿里中美机房同步， canal原理相对比较简单：

Canal模拟MySQL Slave的交互协议，伪装自己为MySQL Slave，向MySQL Slave发送dump协议
MySQL master收到dump请求，开始推送binary log给Slave(也就是canal)
Canal解析binary log对象(原始为byte流)

图片来自：https://github.com/alibaba/canal

解决方案

Dbus 的MySQL版主要解决方案如下：

对于增量的log，通过订阅Canal Server的方式，我们得到了MySQL的增量日志：

按照Canal的输出，日志是protobuf格式，开发增量Storm程序，将数据实时转换为我们定义的UMS格式(json格式,稍后我会介绍），并保存到kafka中；
增量Storm程序还负责捕获schema变化，以控制版本号；
增量Storm的配置信息保存在Zookeeper中，以满足高可用需求。
Kafka既作为输出结果也作为处理过程中的缓冲器和消息解构区。

在考虑使用Storm作为解决方案的时候，我们主要是认为Storm有以下优点：

技术相对成熟，比较稳定，与kafka搭配也算标准组合；
实时性比较高，能够满足实时性需求；
满足高可用需求；
通过配置Storm并发度，可以活动性能扩展的能力；

全量抽取

对于流水表，有增量部分就够了，但是许多表需要知道最初（已存在）的信息。这时候我们需要initial load（第一次加载）。

对于initial load（第一次加载），同样开发了全量抽取Storm程序通过jdbc连接的方式，从源端数据库的备库进行拉取。initial load是拉全部数据，所以我们推荐在业务低峰期进行。好在只做一次，不需要每天都做。

全量抽取，我们借鉴了Sqoop的思想。将全量抽取Storm分为了2 个部分：

数据分片
实际抽取

数据分片需要考虑分片列，按照配置和自动选择列将数据按照范围来分片，并将分片信息保存到kafka中。

下面是具体的分片策略：

全量抽取的Storm程序是读取kafka的分片信息，采用多个并发度并行连接数据库备库进行拉取。因为抽取的时间可能很长。抽取过程中将实时状态写到Zookeeper中，便于心跳程序监控。

统一消息格式

无论是增量还是全量，最终输出到kafka中的消息都是我们约定的一个统一消息格式,称为UMS(unified message schema)格式。

如下图所示：

消息中schema部分，定义了namespace 是由类型+数据源名+schema名+表名+版本号+分库号+分表号能够描述整个公司的所有表，通过一个namespace就能唯一定位。

_ums_op_ 表明数据的类型是I（insert），U（update），D（删除）；
_ums_ts_ 发生增删改的事件的时间戳，显然新的数据发生的时间戳更新；
_ums_id_ 消息的唯一id，保证消息是唯一的，但这里我们保证了消息的先后顺序（稍后解释）；

payload是指具体的数据，一个json包里面可以包含1条至多条数据，提高数据的有效载荷。

UMS中支持的数据类型，参考了Hive类型并进行简化，基本上包含了所有数据类型。

全量和增量的一致性

在整个数据传输中，为了尽量的保证日志消息的顺序性，kafka我们使用的是1个partition的方式。在一般情况下，基本上是顺序的和唯一的。

但是我们知道写kafka会失败，有可能重写，Storm也用重做机制，因此，我们并不严格保证exactly once和完全的顺序性，但保证的是at least once。

因此_ums_id_变得尤为重要。

对于全量抽取，_ums_id_是唯一的，从zk中每个并发度分别取不同的id片区，保证了唯一性和性能，填写负数，不会与增量数据冲突，也保证他们是早于增量消息的。

对于增量抽取，我们使用的是MySQL的日志文件号 + 日志偏移量作为唯一id。Id作为64位的long整数，高7位用于日志文件号，低12位作为日志偏移量。

例如：000103000012345678。 103 是日志文件号，12345678 是日志偏移量。

这样，从日志层面保证了物理唯一性（即便重做也这个id号也不变），同时也保证了顺序性（还能定位日志）。通过比较_ums_id_ 消费日志就能通过比较_ums_id_知道哪条消息更新。

其实_ums_ts_与_ums_id_意图是类似的，只不过有时候_ums_ts_可能会重复,即在1毫秒中发生了多个操作，这样就得靠比较_ums_id_了。

心跳监控和预警

整个系统涉及到数据库的主备同步，Canal Server，多个并发度Storm进程等各个环节。

因此对流程的监控和预警就尤为重要。

通过心跳模块，例如每分钟（可配置）对每个被抽取的表插入一条心态数据并保存发送时间，这个心跳表也被抽取，跟随着整个流程下来，与被同步表在实际上走相同的逻辑（因为多个并发的的Storm可能有不同的分支），当收到心跳包的时候，即便没有任何增删改的数据，也能证明整条链路是通的。

Storm程序和心跳程序将数据发送公共的统计topic，再由统计程序保存到influxdb中，使用grafana进行展示，就可以看到如下效果：

图中是某业务系统的实时监控信息。上面是实时流量情况，下面是实时延时情况。可以看到，实时性还是很不错的，基本上1~2秒数据就已经到末端kafka中。

Granfana提供的是一种实时监控能力。

如果出现延时，则是通过dbus的心跳模块发送邮件报警或短信报警。

实时脱敏

考虑到数据安全性，对于有脱敏需求的场景，Dbus的全量storm和增量storm程序也完成了实时脱敏的功能。脱敏方式有3种：

总结一下：简单的说，Dbus就是将各种源的数据，实时的导出，并以UMS的方式提供订阅，支持实时脱敏，实际监控和报警。

四、Wormhole解决方案

说完Dbus，该说一下Wormhole，为什么两个项目不是一个，而要通过kafka来对接呢？

其中很大一个原因就是解耦，kafka具有天然的解耦能力，程序直接可以通过kafka做异步的消息传递。Dbus和Wornhole内部也使用了kafka做消息传递和解耦。

另外一个原因就是，UMS是自描述的，通过订阅kafka，任何有能力的使用方来直接消费UMS来使用。

虽然UMS的结果可以直接订阅，但还需要开发的工作。Wormhole解决的是：提供一键式的配置，将kafka中的数据落地到各种系统中，让没有开发能力的数据使用方通过wormhole来实现使用数据。

如图所示，Wormhole 可以将kafka中的UMS 落地到各种系统，目前用的最多的HDFS，JDBC的数据库和HBase。

在技术栈上， wormhole选择使用spark streaming来进行。

在Wormhole中，一条flow是指从一个namaspace从源端到目标端。一个spark streaming服务于多条flow。

选用Spark的理由是很充分的：

Spark天然的支持各种异构存储系统；
虽然Spark Stream比Storm延时稍差，但Spark有着更好的吞吐量和更好的计算性能；
Spark在支持并行计算方面有更强的灵活性；
Spark提供了一个技术栈内解决Sparking Job，Spark Streaming，Spark SQL的统一功能，便于后期开发；

这里补充说一下Swifts的作用：

Swifts的本质是读取kafka中的UMS数据，进行实时计算，将结果写入到kafka的另外一个topic。
实时计算可以是很多种方式：比如过滤filter，projection（投影），lookup，流式join window aggregation，可以完成各种具有业务价值的流式实时计算。

Wormhole和Swifts对比如下：

落HDFS

通过Wormhole Wpark Streaming程序消费kafka的UMS，首先UMS log可以被保存到HDFS上。

kafka一般只保存若干天的信息，不会保存全部信息，而HDFS中可以保存所有的历史增删改的信息。这就使得很多事情变为可能：

通过重放HDFS中的日志，我们能够还原任意时间的历史快照。
可以做拉链表，还原每一条记录的历史信息，便于分析；
当程序出现错误是，可以通过回灌（backfill），重新消费消息，重新形成新的快照。

可以说HDFS中的日志是很多的事情基础。

介于Spark原生对parquet支持的很好，Spark SQL能够对Parquet提供很好的查询。UMS落地到HDFS上是保存到Parquet文件中的。Parquet的内容是所有log的增删改信息以及_ums_id_，_ums_ts_都存下来。

Wormhole spark streaming根据namespace 将数据分布存储到不同的目录中，即不同的表和版本放在不同目录中。

由于每次写的Parquet都是小文件，大家知道HDFS对于小文件性能并不好，因此另外还有一个job，每天定时将这些的Parquet文件进行合并成大文件。

每个Parquet文件目录都带有文件数据的起始时间和结束时间。这样在回灌数据时，可以根据选取的时间范围来决定需要读取哪些Parquet文件，不必读取全部数据。

插入或更新数据的幂等性

常常我们遇到的需求是，将数据经过加工落地到数据库或HBase中。那么这里涉及到的一个问题就是，什么样的数据可以被更新到数据？

这里最重要的一个原则就是数据的幂等性。

无论是遇到增删改任何的数据，我们面临的问题都是：

该更新哪一行；
更新的策略是什么。

对于第一个问题，其实就需要定位数据要找一个唯一的键，常见的有：

使用业务库的主键；
由业务方指定几个列做联合唯一索引；

对于第二个问题，就涉及到_ums_id_了，因为我们已经保证了_ums_id_大的值更新，因此在找到对应数据行后，根据这个原则来进行替换更新。

之所以要软删除和加入_is_active_列，是为了这样一种情况：

如果已经插入的_ums_id_比较大，是删除的数据（表明这个数据已经删除了），如果不是软删除，此时插入一个_ums_id_小的数据（旧数据），就会真的插入进去。

这就导致旧数据被插入了。不幂等了。所以被删除的数据依然保留（软删除）是有价值的，它能被用于保证数据的幂等性。

HBase的保存

插入数据到Hbase中，相当要简单一些。不同的是HBase可以保留多个版本的数据（当然也可以只保留一个版本）默认是保留3个版本；

因此插入数据到HBase，需要解决的问题是：

选择合适的rowkey：Rowkey的设计是可以选的，用户可以选择源表的主键，也可以选择若干列做联合主键。
选择合适的version：使用_ums_id_+ 较大的偏移量（比如100亿）作为row的version。

Version的选择很有意思，利用_ums_id_的唯一性和自增性，与version自身的比较关系一致：即version较大等价于_ums_id_较大，对应的版本较新。

从提高性能的角度，我们可以将整个Spark Streaming的Dataset集合直接插入到HBase，不需要比较。让HBase基于version自动替我们判断哪些数据可以保留，哪些数据不需要保留。

Jdbc的插入数据：

插入数据到数据库中，保证幂等的原理虽然简单，要想提高性能在实现上就变得复杂很多，总不能一条一条的比较然后在插入或更新。

我们知道Spark的RDD/dataset都是以集合的方式来操作以提高性能，同样的我们需要以集合操作的方式实现幂等性。

具体思路是：

首先根据集合中的主键到目标数据库中查询，得到一个已有数据集合；
与dataset中的集合比较，分出两类：

A：不存在的数据，即这部分数据insert就可以；

B：存在的数据，比较_ums_id_，最终只将哪些_ums_id_更新较大row到目标数据库，小的直接抛弃。

使用Spark的同学都知道，RDD/dataset都是可以partition的，可以使用多个worker并进行操作以提高效率。

在考虑并发情况下，插入和更新都可能出现失败，那么还有考虑失败后的策略。

比如：因为别的worker已经插入，那么因为唯一性约束插入失败，那么需要改为更新，还要比较_ums_id_看是否能够更新。

对于无法插入其他情况（比如目标系统有问题），Wormhole还有重试机制。说起来细节特别多。这里就不多介绍了。

有些还在开发中。

插入到其他存储中的就不多介绍了，总的原则是：根据各自存储自身特性，设计基于集合的，并发的插入数据实现。这些都是Wormhole为了性能而做的努力，使用Ｗormhole的用户不必关心。

五、运用案例

实时营销

说了那么多，DWS有什么实际运用呢？下面我来介绍某系统使用DWS实现了的实时营销。

如上图所示：

系统A的数据都保存到自己的数据库中，我们知道，宜信提供很多金融服务，其中包括借款，而借款过程中很重要的就是信用审核。

借款人需要提供证明具有信用价值的信息，比如央行征信报告，是具有最强信用数据的数据。而银行流水，网购流水也是具有较强的信用属性的数据。

借款人通过Web或手机APP在系统A中填写信用信息时，可能会某些原因无法继续，虽然可能这个借款人是一个优质潜在客户，但以前由于无法或很久才能知道这个信息，所以实际上这样的客户是流失了。

应用了DWS以后，借款人已经填写的信息已经记录到数据库中，并通过DWS实时的进行抽取、计算和落地到目标库中。根据对客户的打分，评价出优质客户。然后立刻将这个客户的信息输出到客服系统中。

客服人员在很短的时间（几分钟以内）就通过打电话的方式联系上这个借款人（潜客），进行客户关怀，将这个潜客转换为真正的客户。我们知道借款是有时效性的，如果时间太久就没有价值了。

如果没有实时抽取/计算/落库的能力，那么这一切都无法实现。

实时报表系统

另外一个实时报表的应用如下：

我们数据使用方的数据来自多个系统，以前是通过T+1的方式获得报表信息，然后指导第二天的运营，这样时效性很差。

通过DWS，将数据从多个系统中实时抽取，计算和落地，并提供报表展示，使得运营可以及时作出部署和调整，快速应对。

六、总结

说了那么多，大致总结一下：

DWS技术上基于主流实时流式大数据技术框架，高可用大吞吐强水平扩容，低延迟高容错最终一致。
DWS能力上支持异构多源多目标系统，支持多数据格式（结构化半结构化非结构化数据）和实时技术能力。
DWS将三个子项目合并作为一个平台推出，使得我们具备了实时的能力，驱动各种实时场景应用。

适合场景包括：实时同步／实时计算／实时监控／实时报表／实时分析／实时洞察／实时管理／实时运营／实时决策

感谢大家的聆听，此次分享到此为止。

Q&A

Q1：Oracle log reader有开源方案吗？

Ａ1：对于Oracle业界也有许多商业解决方案，例如：Oracle GoldenGate(原来的goldengate), Oracle Xstream, IBM InfoSphere Change Data Capture(原来的DataMirror)，Dell SharePlex (原来的Quest)，国内的DSG superSync等，开源的方案好用的很少。

Q2：这个项目投入了多少人力物力？感觉有点复杂。

Q2：DWS是三个子项目组成，平均每个项目5~7人。是有点复杂，其实也是试图使用大数据技术来解决我们公司目前遇到的困难。

因为是搞大数据相关技术，所有团队里面的兄弟姐妹都还是比较happy的：）

其实这里面，Dbus和Wormhole相对固定模式化，容易轻松复用。Swifts实时计算是与每个业务相关比较大的，自定义比较强，相对比较麻烦一些。

Q3：宜信的这个DWS系统会开源么？

A3：我们也考虑过向社区贡献，就像宜信的其他开源项目一样，目前项目刚刚成形，还有待进一步磨炼，我相信未来的某个时候，我们会给它开源出来。

Q4：架构师怎么理解，是不是系统工程师？

A4：不是系统工程师，在我们宜信有多位架构师，应该算是以技术驱动业务的技术管理人员。包含产品设计，技术管理等。

Q5：复制方案是否是OGG?

A5：OGG与上面提到的其他商业解决方案都是可选方案。

本文地址：http://www.linuxprobe.com/logs-data-extract.html

你可能感兴趣的:(linuxprobe)

《Linux就该这么学》学习笔记——Day13 ggsddu_mmm Linux学习笔记
简介本章节主要讲解nmtui命令配置网络参数管理网络会话服务以及手工绑定mode6模式双网卡，实现网络的负载均衡。同时深入介绍了SSH协议与sshd服务程序的理论知识以及实验演示Linux系统的远程管理方和配置服务程序的方法，并使用screen服务程序远程管理Linux系统的不间断会话等技术。参考：https://www.linuxprobe.com/chapter-09.html命令行详解可参考
LinuxProbe 0x20 使用LNMP架构部署动态网站环境蓝色的&梦 LinuxProbe RHEL8 linux 运维 php
LNMP动态网站部署架构是一套由Linux+Nginx+MySQL+PHP组成的动态网站系统解决方案，具有免费、高效、扩展性强且资源消耗低等优良特性，目前正在被广泛使用。源码包程序在RPM（红帽软件包管理器）技术出现之前，Linux系统运维人员只能通过源码包的方式来安装各种服务程序，这是一件非常繁琐且极易消耗时间与耐心的事情；而且在安装、升级、卸载程序时还要考虑到与其他程序或函数库的相互依赖关系，
Linux笔记 keaiduoduo
[root@linuxprobe~]#vimexample.sh(脚本声明#!)/bin/bash(注释#)ForExampleBYZRpwdls-alShell脚本crontab命令在脚手架服务器中，配置的是每隔5小时执行check.sh脚本
10.使用 Apache 服务部署静态网站（已完结）生世一俗人《liunx就该这么学》linux
标题环境配置yum源httpd部署和运行试验修改保存网站数据的目录为/home/wwwrootSELinux安全子系统修改部署个人用户页面加密个人用户界面基于IP地址基于主机域名基于端口号Apache的访问控制如果主机想访问虚拟机的httpd页面（可选操作）环境rhel-8.0-x86_64-linuxprobe.com.iso配置yum源第1步：把系统镜像挂载到/media/cdrom目录mkd
第三章管道、重定向与环境变量 _哇呀呀_喝断当阳桥 linux 运维服务器
目录参考：一、输入输出重定向（命令与文件的连接）二、管道命令符（命令和命令的连接）三、命令行的通配符四、常用的转义字符五、重要的环境变量参考：《Linux就这样学》第3章管道符、重定向与环境变量|《Linux就该这么学》(linuxprobe.com)https://www.linuxprobe.com/basic-learning-03.html一、输入输出重定向（命令与文件的连接）输入重定向是
RHEL8_安装软件的方法和系统初始化 _哇呀呀_喝断当阳桥服务器 linux 运维
参考：资料来自下面链接：第1章动手部署一台Linux操作系统|《Linux就该这么学》(linuxprobe.com)https://www.linuxprobe.com/basic-learning-01.html一、安装软件的方法RPM、Yum、DNF常用的RPM软件包命令命令作用rpm-ivhfilename.rpm安装软件rpm-Uvhfilename.rpm升级软件rpm-efilena
Linux系统结构疯帽子_0110 Linux Linux系统结构
转载:https://www.linuxprobe.com/linux-system-structure.html导读Linux系统一般有4个主要部分：内核、shell、文件系统和应用程序。内核、shell和文件系统一起形成了基本的操作系统结构，它们使得用户可以运行程序、管理文件并使用系统。1.Linux内核它负责管理系统的进程、内存、设备驱动程序、文件和网络系统，决定着系统的性能和稳定性。Lin
apt update与apt upgrade, apt 与apt-get的区别是阿璇呀 Linux linux
在工作中一直记不住，apt-update与apt-upgrade,apt与apt-get的区别，曾导致系统内核被升级，因此写文章记录一下。如有不对，请多多指正。参考文章：https://www.linuxprobe.com/apt-update-and-upgrade.html如有侵权请联系，立即删除先总结apt-update与apt-upgrade的区别因为系统中会有关于包的数据缓存（版本、仓库
人民邮电出版社专访刘遄老师：不做技术的搬运工。老率 linux 学习心得刘遄 linux 专访人民邮电出版社
刘遄（LiuChuán），计算机信息技术方向教育学硕士，LinuxProbe网站创始人兼核心讲师，在高中时期便因兴趣的驱使而较早地接触Linux系统并开始学习运维技术。刘遄老师于2012年~2015年期间分别获得红帽RHCE工程师认证以及RHCA架构师顶ji认证。多年以来，一直从事Linux运维技术和红帽认证课程的培训工作，当前是国内开源行业颇具影响力的技术型大V。刘遄老师早在高中时期便因为兴趣驱
标题：人邮社专访刘遄老师：不做技术的搬运工 study-linux
刘遄（LiuChuán），计算机信息技术方向教育学硕士，LinuxProbe网站创始人兼核心讲师，在高中时期便因兴趣的驱使而较早地接触Linux系统并开始学习运维技术。刘遄老师于2012年~2015年期间分别获得红帽RHCE工程师认证以及RHCA架构师顶ji认证。多年以来，一直从事Linux运维技术和红帽认证课程的培训工作，当前是国内开源行业颇具影响力的技术型大V。刘遄老师早在高中时期便因为兴趣驱
人邮社专访刘遄老师：不做技术的搬运工 Linux资源站 linux 人民邮电 Linux就该这么学
刘遄（LiuChuán），计算机信息技术方向教育学硕士，LinuxProbe网站创始人兼核心讲师，在高中时期便因兴趣的驱使而较早地接触Linux系统并开始学习运维技术。刘遄老师于2012年~2015年期间分别获得红帽RHCE工程师认证以及RHCA架构师顶ji认证。多年以来，一直从事Linux运维技术和红帽认证课程的培训工作，当前是国内开源行业颇具影响力的技术型大V。刘遄老师早在高中时期便因为兴趣驱
linux 删除逻辑卷 ajax_beijing_java 运维 5G
在生产环境中想要重新部署LVM或者不再需要使用LVM时，则需要执行LVM的删除操作。为此，需要提前备份好重要的数据，然后依次删除逻辑卷、卷组、物理劵设备，顺序不可颠倒。1、查看物理劵、卷组、逻辑卷[root@linuxprobedev]#pvdisplay|head-n3---Physicalvolume---PVName/dev/sdbVGNamevgtest1[root@linuxprobed
将Web应用性能提高十倍的10条建议 Full Stack Developme WEB优化
转载自：https://www.cnblogs.com/linuxprobe/p/5500879.html举一个例子，一份亚马逊十年前做过的研究可以证明，甚至在那个时候，网页加载时间每减少100毫秒，收入就会增加1%。另一个最近的研究特别强调一个事实，即超过一半的网站拥有者在调查中承认它们会因为应用程序性能的问题流失用户。网站到底需要多快呢？对于页面加载，每增加1秒钟就有4%的用户放弃使用。顶级的
前端开发程序员的Linux技术学习之路 wxl1986622 C++
前端开发程序员的Linux技术学习之路2016-05-0511:38:59次阅读次推荐稿源：linuxprobe条评论感谢刘遄的投递本人程序员一枚，主攻WEB前端开发，兼修Linux运维大道，自己作一名前端开发者，我对Linux系统也有着很深的兴趣和好奇心，于是自然有了一些钻研的动力。从实用性出发，或许之后的开发路上并不会有机会深入接触到底层驱动的实现亦或是对内核的研究，但是Linux下的底层机制
新西兰运输局安全事件 linux筱筱
Version:1.0StartHTML:000000231EndHTML:000005557StartFragment:000002623EndFragment:000005513StartSelection:000002623EndSelection:000005513SourceURL:https://www.linuxprobe.com/wp-admin/post.php?post=139
基于 Debian 的 Pardus 17.5 发布 linux筱筱
Version:1.0StartHTML:000000231EndHTML:000004780StartFragment:000002623EndFragment:000004736StartSelection:000002623EndSelection:000004736SourceURL:https://www.linuxprobe.com/wp-admin/post.php?post=139
一文详解Linux常用命令舞者H 面试工具 Linux linux centos 运维
系统常用命令echo[选项][输出内容]：用来输出内容-n：取消输出后行末的换行符号（即内容输出后不换行）[root@linuxprobenetwork-scripts]#echothisisatestthisisatest[root@linuxprobenetwork-scripts]#echo"therootpathis$HOME"therootpathis/rootifconfig用来查看和
linux学习简记 l___________try linux 其他
----------------------------------------------------------------感谢CSDN_感谢里面每一位大佬-----------------------------------------------------------------目录开源链接：https://www.linuxprobe.com/docs/LinuxProbe.pdf一、
红帽认证考试难倒你？这些知识点可以帮你一臂之力 GLAB-Mary linux
话不多说直接上干货，本篇文章适用于备考Linux红帽认证的同学。常用的RPM软件包命令常用的Yum命令systemd与systemVinit的区别以及作用如果想要将系统默认的运行目标修改为“多用户的文本界面”模式，可直接用ln命令把多用户模式目标文件链接到/etc/systemd/system/目录：[root@linuxprobe~]#ln-sf/lib/systemd/system
“红帽认证”考试，这些知识点必须掌握 GLAB-Mary linux
话不多说直接上干货，本篇文章适用于备考Linux红帽认证的同学。man命令中常用按键以及作用man命令中帮助信息的结构以及意义reboot命令reboot命令用于重启系统，输入该命令后按回车键执行即可。[root@linuxprobe~]#rebootpoweroff命令poweroff命令用于关闭系统，输入该命令后按回车键执行即可。与上面相同，该命令也会涉及硬件资源的管理权限，因此最好还是以ro
使用DHCP动态管理主机地址 beeworkshop
转载：https://www.linuxprobe.com/chapter-14.html本章讲解动态主机配置协议（DHCP，DynamicHostConfigurationProtocol），该协议用于自动管理局域网内主机的IP地址、子网掩码、网关地址及DNS地址等参数，可以有效地提升IP地址的利用率，提高配置效率，并降低管理与维护成本。本章详细讲解了在Linux系统中配置部署dhcpd服务程序
Mozilla发布最大的人类语音数据集(Common Voice) linux筱筱
Version:1.0StartHTML:000000231EndHTML:000005193StartFragment:000002623EndFragment:000005149StartSelection:000002623EndSelection:000005149SourceURL:https://www.linuxprobe.com/wp-admin/post.php?post=138
从零开始构建 RPM 包 lqonlylove linux运维 linux RPM
一、说明本教程通过一个简单示例从0开始构建一个RPM包。二、参考https://www.cnblogs.com/zafu/p/7423758.htmlhttps://ftp.osuosl.org/pub/rpm/max-rpm/https://www.linuxprobe.com/how-rpm-spec.htmlhttps://www.cnblogs.com/michael-xiang/p/10
如何选择防火墙 linux筱筱
Version:1.0StartHTML:000000231EndHTML:000006733StartFragment:000002623EndFragment:000006689StartSelection:000002623EndSelection:000006689SourceURL:https://www.linuxprobe.com/wp-admin/post.php?post=139
人民邮电出版社专访刘遄老师：不做技术的搬运工。 hangba843
刘遄（LiuChuán），计算机信息技术方向教育学硕士，LinuxProbe网站创始人兼核心讲师，在高中时期便因兴趣的驱使而较早地接触Linux系统并开始学习运维技术。刘遄老师于2012年~2015年期间分别获得红帽RHCE工程师认证以及RHCA架构师顶ji认证。多年以来，一直从事Linux运维技术和红帽认证课程的培训工作，当前是国内开源行业颇具影响力的技术型大V。刘遄老师早在高中时期便因为兴趣驱
配置 yum 软件仓库 oO反骨仔Oo
目的：简化下载包时的难度。一个软件仓库，类似Nuget，Maven，只是这里的指令为yum。一、在/etc/yum.repos.d/中创建新的配置文件[[email protected]]#cd/etc/yum.repos.d/[[email protected]]#vimrhel7.repo这里使用了cd进行切换目录，vim创建一个名为“rhe17.repo”
麒麟操作系统基于linux哪个版本_中国为什么有这么多麒麟Linux系统？ weixin_39749501
本文由LinuxProbe.Com团队成员张宏宇整理发布，由国防科大开发的麒麟操作系统有很多，与国防科大混乱的CPU产品线一样，这些麒麟操作系统彼此之间技术延续性也有限，比较有名的是银河麒麟、优麒麟和中标麒麟操作系统。另外，华为准备推出的可能被用于手机或物联网的操作系统也被命名为麒麟。麒麟是中国古代汉族神话传说中的传统祥兽，性情温和，传说寿命两余千年。“麒麟出没处，必有祥瑞”，本是一种吉祥的象征。
linux bond 网卡带宽,实战网卡bond 求求你做个人吧 linux bond 网卡带宽
本文由LinuxProbe.Com团队成员左国才整理发布，一、什么是网卡bond所谓bond，就是把多个物理网卡绑定成一个逻辑上的网卡，使用同一个IP工作，在增加带宽的同时也可以提高冗余性，一般使用较多的就是来提高冗余，分别和不同交换机相连，提高可靠性，但有时服务器带宽不够了也可以用作增加带宽。二、网卡bond的模式网卡绑定mode共有七种(0~6)bond0、bond1、bond2、bond3、
Docker 搭建 ELK + filebeat 老王头的笔记杂文 elk
参考：https://www.linuxprobe.com/docker-deploy-elk-filebeat.htmlhttps://blog.csdn.net/abc8125/article/details/106858862安装环境centos7dockerversion1.13.1组件介绍ElasticSearchElasticsearch是一个实时的分布式搜索和分析引擎，它可以用于全文
配置主机名称我弟是个程序员
Linux下主机名称一般保存在/etc/hostname文件中思路：第1步:使用vim命令修改”/etc/hostname“主机名称文件。第2步:将原始主机名称删除后追加”sqlb.com“。第3步:保存退出并用hostname命令检查是否修改成功。使用vim命令编辑主机名称文件后末行模式执行:wq!后即可保存退出：[root@linuxprobe~]#vim/etc/hostnamesqlb.c
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul