huangshulang1234

干货 | 携程用户数据采集与分析系统

作者简介

王小波，携程技术中心框架研发部高级工程师，主要负责用户行为数据采集系统及相关数据产品研发设计工作。之前主要从事互联网广告、RTB相关系统研发和设计工作。本文来自王小波在“携程技术沙龙——移动开发工程实践与性能优化”上的分享。

一、携程实时用户数据采集系统设计实践

随着移动互联网的兴起，特别是近年来，智能手机、pad等移动设备凭借便捷、高效的特点风靡全球，同时各类APP的快速发展进一步降低了移动互联网的接入门槛，越来越多的网民开始从传统PC转移至移动终端上。但传统的基于PC网站和访问日志的用户数据采集系统已经无法满足实时分析用户行为、实时统计流量属性和基于位置服务（LBS）等方面的需求。

我们针对传统用户数据采集系统在实时性、吞吐量、终端覆盖率等方面的不足，分析了在移动互联网流量剧增的背景下，用户数据采集系统的需求，研究在多种访问终端和多种网络类型的场景下，用户数据实时、高效采集的方法，并在此基础上设计和实现实时、有序和健壮的用户数据采集系统。此系统基于Java NIO网络通信框架（Netty）和分布式消息队列（Kafka）存储框架实现，其具有实时性、高吞吐、通用性好等优点。

1、技术选型和设计方案：

一个典型的数据采集分析统计平台，对数据的处理，主要由如下五个步骤组成：

图1、数据平台处理流程

其中，数据采集步骤是最核心的问题，数据采集是否丰富、准确和实时，都直接影响整个数据分析平台的应用的效果。本论文关注的步骤主要在数据采集、数据传输和数据建模存储这三部分。

为满足数据采集服务实时、高效性、高吞吐量和安全性等方面的要求，同时能借鉴互联网大数据行业一些优秀开源的解决方案，所以整个系统都将基于Java技术栈进行设计和实现。整个数据采集分析平台系统架构如下图所示：

图2、数据采集分析平台系统架构

其中整个平台系统主要包括以上五部分：客户端数据采集SDK以Http(s)/Tcp/Udp协议根据不同的网络环境按一定策略将数据发送到Mechanic(UBT-Collector)服务器。服务器对采集的数据进行一系列处理之后将数据异步写入Hermes(Kafka)分布式消息队列系统。为了关联业务服务端用户业务操作埋点、日志，业务服务器需要获取由客户端SDK统一生成的用户标识（C-GUID），然后业务服务器将用户业务操作埋点、日志信息以异步方式写入Hermes(Kafka)队列。最后数据消费分析平台，都从Hermes(Kafka)中消费采集数据，进行数据实时或者离线分析。其中Mechanic(UBT-Collector)系统还包括对采集数据和自身系统的监控，这些监控信息先写入Hbase集群，然后通过Dashboard界面进行实时监控。

（1）基于NIO的Netty网络框架方案

要满足前面提到的高吞吐、高并发和多协议支持等方面的要求。我们调研了几种开源异步IO网络服务组件（如Netty、MINI、xSocket），用它们和NginxWeb服务器进行了性能对比，决定采用Netty作为采集服务网络组件。下面对它进行一些概要介绍：Netty是一个高性能、异步事件驱动的NIO框架，它提供了对TCP、UDP和文件传输的支持，Netty的所有IO操作都是异步非阻塞的，通过Future-Listener机制，用户可以方便的主动获取或者通过通知机制获得IO操作结果。

图3、Netty框架内部组件逻辑结构

Netty的优点有：

a、功能丰富，内置了多种数据编解码功能、支持多种网络协议。

b、高性能，通过与其它主流NIO网络框架对比，它的综合性能最佳。

c、可扩展性好，可通过它提供的ChannelHandler组件对网络通信方面进行灵活扩展。

d、易用性，API使用简单。

e、经过了许多商业应用的考验，在互联网、网络游戏、大数据、电信软件等众多行业得到成功商用。

Netty采用了典型的三层网络架构进行设计，逻辑架构图如下：

图4、Netty三层网络逻辑架构

第一层：Reactor通信调度层。该层的主要职责就是监听网络的连接和读写操作，负责将网络层的数据读取到内存缓冲区中，然后触发各种网络事件，例如连接创建、连接激活、读事件、写事件等，将这些事件触发到Pipeline中，再由Pipeline充当的职责链来进行后续的处理。

第二层：职责链Pipeline层。负责事件在职责链中有序的向前（后）传播，同时负责动态的编排职责链。Pipeline可以选择监听和处理自己关心的事件。

第三层：业务逻辑处理层，一般可分为两类：a. 纯粹的业务逻辑处理，例如日志、订单处理。b. 应用层协议管理，例如HTTP(S)协议、FTP协议等。

我们都知道影响网络服务通信性能的主要因素有：网络I/O模型、线程（进程）调度模型和数据序列化方式。

在网络I/O模型方面，Netty采用基于非阻塞I/O的实现，底层依赖的是JDKNIO框架的Selector。

在线程调度模型方面，Netty采用Reactor线程模型。常用的Reactor线程模型有三种，分别是：

a、Reactor单线程模型：Reactor单线程模型，指的是所有的I/O操作都在同一个NIO线程上面完成。对于一些小容量应用场景，可以使用单线程模型。

b、Reactor多线程模型：Rector多线程模型与单线程模型最大的区别就是有一组NIO线程处理I/O操作。主要用于高并发、大业务量场景。

c、主从Reactor多线程模型：主从Reactor线程模型的特点是服务端用于接收客户端连接的不再是一个单独的NIO线程，而是一个独立的NIO线程池。利用主从NIO线程模型，可以解决一个服务端监听线程无法有效处理所有客户端连接的性能不足问题。Netty线程模型并非固定不变的，它可以支持三种Reactor线程模型。

在数据序列化方面，影响序列化性能的主要因素有：

a、序列化后的码流大小（网络带宽占用）。

b、序列化和反序列化操作的性能（CPU资源占用）。

c、并发调用时的性能表现：稳定性、线性增长等。

Netty默认提供了对GoogleProtobuf二进制序列化框架的支持，但通过扩展Netty的编解码接口，可以实现其它的高性能序列化框架，例如Avro、Thrift的压缩二进制编解码框架。

通过对Netty网络框架的分析研究以及对比测试（见后面的可行性分析测试报告）可判断，基于Netty的数据采集方案能解决高数据吞吐量和数据实时收集的难点。

（2）客户端数据加解密和压缩方案

对一些明感的采集数据，需要在数据传输过程中进行加密处理。目前存在的问题是，客户端采集代码比较容易被匿名用户获取并反编译（例如Android、JavaScript），导致数据加密的算法和密钥被用户窃取，较难保证数据的安全性。根据加密结果是否可以被解密，算法可以分为可逆加密和不可逆加密（单向加密）。具体的分类结构如下：

图5、加密算法分类

密钥：对于可逆加密，密钥是加密解算法中的一个参数，对称加密对应的加解密密钥是相同的；非对称加密对应的密钥分为公钥和私钥，公钥用于加密，私钥用于解密。私钥是不公开不传送的，仅仅由通信双方持有保留；而公钥是可以公开传送的。非对称密钥还提供一种功能，即数字签名。通过私钥进行签名，公钥进行认证，达到身份认证的目的。

根据数据采集客户端的特点，对于采集数据使用对称加密算法是很明智的选择，关键是要保证对称密钥的安全性。目前考虑的方案主要有：

a、将加解密密钥放入APP中某些编译好的so文件中，如果是JavaScript采集的话，构造一个用C编写的算法用于生成密钥，然后借助Emscripten把C代码转化为JavaScript代码，这种方案有较好的混淆作用，让窃听者不太容易获取到对称密钥。

b、将密钥保存到服务器端，每次发送数据前，通过HTTPS的方式获取加密密钥，然后对采集数据进行加密和发送。

c、客户端和服务器端保存一份公钥，客户端生成一个对称密钥K（具有随机性和时效性），使用公钥加密客户端通信认证内容（UID+K），并发送到服务器端，服务端收到通信认证请求，使用私钥进行解密，获取到UID和对称密钥K，后面每次采集的数据都用客户端内存中的K进行加密，服务器端根据UID找到对应的对称密钥K，进行数据解密。

这三种客户端数据加密方式基本能解决客户端采集数据传输的安全性难题。

采集数据压缩。为了节省流量和带宽，高效发送客户端采集的数据，需要使用快速且高压缩比的压缩算法，目前考虑使用标准的GZIP和定制的LZ77算法。

（3）基于携程分布式消息中间件Hermes的数据存储方案

Hermes是基于开源的消息中间件Kafka且由携程自主设计研发。整体架构如图：

图6、Hermes消息队列整体架构

Hermes消息队列存储有三种类型：

a、MySQL适用于消息量中等及以下，对消息治理有较高要求的场景。

b、Kafka适用于消息量大的场景。

c、Broker分布式文件存储（扩展Kafka、定制存储功能）。

由于数据采集服务的消息量非常大，所以采集数据需要存储到Kafka中。Kafka是一种分布式的，基于发布/订阅的消息系统。它能满足采集服务高吞吐量、高并发和实时数据分析的要求。它有如下优秀的特性：

a、以时间复杂度为O(1)的方式提供消息持久化能力，即使对TB级以上数据也能保证常数时间复杂度的访问性能。

b、高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。

c、支持Kafka Server间的消息分区，及分布式消费，同时保证每个Partition内的消息顺序传输。

d、同时支持离线数据处理和实时数据处理。

e、Scale out，即支持在线水平扩展。

一个典型的Kafka集群中包含若干Producer（可以是Web前端产生的采集数据，或者是服务器日志，系统CPU、Memory等），若干broker（Kafka支持水平扩展，一般broker数量越多，集群吞吐率越高），若干ConsumerGroup，以及一Zookeeper集群。Kafka通过Zookeeper管理集群配置，选举leader，以及在Consumer Group发生变化时进行rebalance。Producer使用push模式将消息发布到broker，Consumer使用pull模式从broker订阅并消费消息。Kafka拓扑结构图如下：

图7、Kafka拓扑结构

我们知道，客户端用户数据的有序性采集和存储对后面的数据消费和分析非常的重要，但是在一个分布式环境下，要保证消息的有序性是非常困难的，而Kafka消息队列虽然不能保证消息的全局有序性，但能保证每一个Partition内的消息是有序的。在用户数据采集和分析的系统中，我们主要关注的是同一个用户的数据是否能保证有序，如果我们在数据采集服务端能将同一个用户的数据存储到Kafka的同一个Partition中，那么就能保证同一个用户的数据是有序的，因此基本上能解决采集数据的有序性。

（4）基于Avro格式的数据灾备存储方案

当出现网络严重中断或者Hermes(Kafka)消息队列故障情况下，用户数据需要进行灾备存储，目前考虑的方案是基于Avro格式的本地文件存储。其中Avro是一个数据序列化反序列化框架，它可以将数据结构或对象转化成便于存储或传输的格式，Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。

Avro定义了一个简单的对象容器文件格式。一个文件对应一个模式，所有存储在文件中的对象都是根据模式写入的。对象按照块进行存储，在块之间采用了同步记号，块可以采用压缩的方式存储。一个文件由两部分组成：文件头和一个或者多个文件数据块。其存储结构如下图所示：

图8、Avro对象容器文件格式

灾备存储处理过程是：当网络异常或者Hermes(Kafka)消息队列出现故障时，将采集的用户数据解析并转化成Avro格式后，直接序列化存储到本地磁盘文件中，数据按Kafka-Topic分成多个文件存储，且每小时自动生成一个新的文件。当网络或者Hermes(Kafka)故障恢复后，后端线程自动读取磁盘Avro文件，将数据写入Hermes(Kafka)消息队列的对应Topic和分区中。每个文件写入成功后，自动删除灾备存储文件。这样能增加用户数据采集服务的健壮性和增强服务容错性。

2、架构设计方案可行性分析

在相同配置的测试服务器上（包括数据采集服务器、Hermes(Kafka)集群）做如下对比实验测试：（使用ApacheBenchmark进行Web性能压力测试工具）

（1）Netty VS Nginx处理网络请求对比

在不对采集数据进行业务处理的情况下（即只接请求并做响应，不做业务处理，也不存储采集数据），在5000并发，Keepalive模式下均能达到每秒处理4万多请求，其中Nginx的CPU、内存消耗会小一些。测试对比数据如下：（ab参数： -k –n 10000000 –c 5000）

	Nginx	Netty
Requests/sec	46347	46234
Time per request	108ms	108ms
Percentage 50%	< 78ms	< 106ms
Percentage 75%	< 88ms	< 117ms
Percentage 90%	< 104ms	< 129ms
Percentage 99%	< 850ms	< 150ms
Percentage 100%	< 3686ms	< 1251ms

（2）Netty对采集数据进行业务处理

Netty服务加上采集数据解析相关业务处理，以及处理后的数据写入Hermes(Kafka)消息队列。可以进行简单的间接估算。如果采集服务要求达到：每秒处理3万左右请求，99%的请求完成时间小于800ms的目标，则采集数据解析和存储流程的处理时间必须在600ms以内。而这两步又分为数据解析和数据存储，可以分别进行压力测试加以验证。根据我们的压力测试，采集数据解析和存储也能完全满足性能要求。

经以上对比实验测试表明，使用Netty服务组件收集、解析数据并直接写入Hermes(Kafka)分布式消息队列的方案初步具备可行性。

二、相关数据分析产品介绍

基于实时采集到的用户数据和系统监控数据，我们开发了一套相关的数据分析产品。产品的内容主要分以下几部分：（1）、API和页面性能报表；（2）、页面访问和流量；（3）、用户行为分析；（4）、系统异常崩溃分析；（5）、数据实时查询工具；（6）、采集数据排障工具；（7）、其它。其中详细分类如下图所示：

图9、数据分析品分类

现选取其中几个比较常见的产品做下简单介绍：

1、单用户浏览跟踪

作用：实时跟踪用户浏览记录，帮助产品优化页面访问流程、帮助用户排障定位问题。

使用案例：根据用户在客户端上的唯一标识ID，如：手机号、Email、注册用户名、ClientId、VisitorId等查询此用户在某一时间段顺序浏览过的页面和每个页面的访问时间及页面停留时长等信息。如果用户在浏览页面过程中发生了异常崩溃退出情况，可以结合应用崩溃信息关联查询到相关信息。

2、页面转化率

作用：实时查看各个页面的访问量和转化情况，帮助分析页面用户体验以及页面布局问题。

使用案例：用户首先配置页面浏览路径，如p1023-> p1201 -> p1137 -> p1300，然后根据用户配置页面浏览路径查询某个时间段各个页面的转化率情况。如有1.4万用户进入p1023页面,下一步有1400用户进入下一页面p1201。这样可推算出页面p1201的转化率为10%左右。这是最简单的一种页面转化率，还有间接的页面转化率，即只匹配第一个和最后一个页面的访问量。同时可以按各种维度进行条件筛选，比如：网络、运营商、国家、地区、城市、设备、操作系统等等。

3、用户访问流

作用：了解每个页面的相对用户量、各个页面间的相对流量和退出率、了解各维度下页面的相对流量。

使用案例：用户选择查询维度和时间段进行查询，就能获取到应用从第一个页面到第N个页面的访问路径中，每个页面的访问量和独立用户会话数、每个页面的用户流向、每个页面的用户流失量等信息。

4、点击热力图

作用：发现用户经常点击的模块或者区域，判断用户喜好、分析页面中哪些区域或者模块有较高的有效点击数、应用于A/B测试，比较不同页面的点击分布情况、帮助改进页面交互和用户体验。

使用案例：点击热力图查看工具包括Web和APP端，统计的指标包括：原始点击数（当前选中元素的原始点击总数）、页面浏览点击数（当前选中元素的有效点击数，同一次页面浏览，多次点击累计算1次点击）、独立访客点击数（当前选中元素的有效点击数，同一用户，多次点击累计算1次点击）。

5、采集数据验证测试

作用：快速测试是否能正常采集数据、数据量是否正常、采集的数据是否满足需求等。

使用案例：用户使用携程APP扫描工具页面的二维码，获取用户标识信息，之后正常使用携程APP过程中，能实时地将采集到的数据分类展示在工具页面中，对数据进行对比测试验证。

6、系统性能报表

作用：监控系统各业务服务调用性能（如SOA服务、RPC调用等）、页面加载性能、APP启动时间、LBS定位服务、Native-Crash占比、JavaScript错误占比等。按小时统计各服务调用耗时、成功率、调用次数等报表信息。

基于前端多平台（包括iOS、Android、Web、Hybrid、RN、小程序）数据采集SDK的丰富的自动化埋点数据，我们可以对数据、用户、系统三方面进行多维度立体的分析。服务于系统产品和用户体验、用户留存、转换率及吸引新用户。

你可能感兴趣的:(架构文摘)

如何打日志才能方便排查问题？架构文摘编程语言 java 人工智能 bug 软件开发
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：琴水玉原文：https://cnblogs.com/lovesqcc/p/4319594.html在程序中打错误日志的主要目标是为更好地排查问题和解决问题提供重要线索和指导。但是在实际中打的错误日志内容和格式变化多样，错误提示上可能残缺不全、没有相关背景、不明其义，使得排查解决问题成为非常不方便或者耗时的操作。而实际上，
如何访问redis中的海量数据？避免事故产生！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！有时候我们需要知道线上的redis的使用情况，尤其需要知道一些前缀的key值，让我们怎么去查看呢？事故产生因为我们的用户token缓存是采用了【user_token:userid】格式的key，保存用户的token的值。我们运维为了帮助开发小伙伴们查一下线上现在有多少登录用户。直接用了keysuser_token*方式进行查询
一文带你深入了解 SaaS(软件即服务) 的架构设计架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！1、介绍从计算机诞生开始，就伴随着计算机应用程序的演变。简短的回顾历史，我们可以清楚的看到应用程序发生的巨大变化。上世纪70年代中期，随着个人PC机的爆炸式增长以及程序员的崛起，让计算机的计算能力得到了大跨越的提升，个人PC机上可以运行非常复杂的应用程序。进入上世纪80年代，随着BulletinBoardSystem（简称：B
我花 10 个小时，写出了小白也能看懂的阿里数据中台分析！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！数据中台被誉为大数据的下一站，由阿里兴起，核心思想是数据共享，2015年阿里提出“大中台，小前台”的策略。2018年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。2019年，似乎人人都在提数据中台，但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗？普通企业该不该做数据中台？数据中
产品高阶能力：架构图的设计与画法架构文摘编程语言 java 大数据人工智能数据分析
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：woshipm.com/pmd/1065960.html一、基于抽象和复杂对产品经理个人能力的一些思考日常的工作中，假如你身边坐了一个女程序猿，为了让乏味的工作氛围增加点提神的荷尔蒙，文艺又懂点技术的你可能会对她说：小姐姐，我能把世间万物抽象成一个类，但唯独不能抽象你，你在我眼里美的那么具体。然后她开心的接过了你改了又改
头条资深架构师揭秘，今日头条、抖音的推荐算法原理架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！一、系统概览推荐系统，如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数，这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台，图文、视频、UGC小视频、问答、微头条，每种内容有很多自己的特征，需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用户特征。包括各种兴趣标签，职业、年龄
阿里技术专家：一文教你高效画出技术架构图架构文摘编程语言 java 大数据人工智能区块链
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：https://www.easemob.com/news/2767作者：三画简介：阿里巴巴技术专家，梓敬、鹏升和余乐对此文亦有贡献。三画曾多年从事工作流引擎研发工作，现专注于高并发移动互联网应用的架构和开发。技术传播的价值，不仅仅体现在通过商业化产品和开源项目来缩短我们构建应用的路径。加速业务的上线速率，也体现在优秀工程
还在搞三层架构？了解下 DDD 分层架构的三种模式吧！架构文摘大数据编程语言 python 人工智能设计模式
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：https://www.jianshu.com/p/a775836c7e25引言在讨论DDD分层架构的模式之前，我们先一起回顾一下DDD和分层架构的相关知识。DDDDDD（DomainDrivenDesign，领域驱动设计）作为一种软件开发方法，它可以帮助我们设计高质量的软件模型。在正确实现的情况下，我们通过DDD完成的
万字好文，电商秒杀系统架构分析与实战！架构文摘数据库队列 hashtable 分布式 cocoa
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：https://my.oschina.net/xianggao/blog/5249431秒杀业务分析正常电子商务流程（1）查询商品；（2）创建订单；（3）扣减库存；（4）更新订单；（5）付款；（6）卖家发货；秒杀业务的特性（1）低廉价格；（2）大幅推广；（3）瞬时售空；（4）一般是定时上架；（5）时间短、瞬时并发量高；2
详解大型分布式电商系统架构架构文摘数据库分布式队列编程语言 j2ee
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：my.oschina.net/editorial-story/blog/1808757本文是学习大型分布式网站架构的技术总结。对架构一个高性能、高可用、可伸缩及可扩展的分布式网站进行了概要性描述，并给出一个架构参考。文中一部分为读书笔记，一部分是个人经验总结，对大型分布式网站架构有较好的参考价值。一、大型分布式网站架构技
基于 Kubernetes 部署 Zookeeper，太有意思了！架构文摘 kubernetes docker zookeeper 编程语言 nginx
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：fredalxin地址：https://fredal.xin/deploy-zk-with-k8s随着云原生化流行的大趋势，我们的基础组件也需要逐渐上Kubernetes了。ApacheZookeeper作为目前最流行的分布式协调组件，在我们的微服务架构中负责扮演注册中心的角色。在Kubernetes中运行Zookeep
必须了解的mysql三大日志-binlog、redo log和undo log 架构文摘数据库 python mysql java redis
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：https://juejin.im/post/6860252224930070536日志是mysql数据库的重要组成部分，记录着数据库运行期间各种状态信息。mysql日志主要包括错误日志、查询日志、慢查询日志、事务日志、二进制日志几大类。作为开发，我们重点需要关注的是二进制日志(binlog)和事务日志(包括redolo
程序员找一个不996的工作这么难吗？架构文摘编程语言人工智能 java 大数据项目管理
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！“最近看到这个问题被谈得很多。铺天盖地的35岁、内卷化、996。这里也想谈谈自己的想法。图片来自Pexels01内卷化的形成内卷为什么会形成呢？从公司内部的角度来说，同事之间做的事情也缺少独特性。那么既然每个人都差不多，那么与其招一个工作十年的人，还不如招个应届生。虽然说从代码的产出和质量来说，工作十年的工程师比应届生理论上来
把 14 亿中国人都拉到一个微信群，程序员在技术上能实现吗？架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！根据国家统计局的数据，截至2017年末，中国大陆总人口为13亿9008万人（包括31个省、自治区、直辖市和中国人民解放军现役军人，不包括香港、澳门和台湾以及海外华侨人数），早已超过13亿。目前，微信群组成员人数上限为500人，把近14亿中国人都拉到一个微信群，从技术的角度考虑现实吗？需要多少台服务器？而且在一个14亿人的群里，
中小型团队如何 Code Review ？有没有最佳实践？架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！我一直认为CodeReview（代码审查）是软件开发中的最佳实践之一，可以有效提高整体代码质量，及时发现代码中可能存在的问题。包括像Google、微软这些公司，CodeReview都是基本要求，代码合并之前必须要有人审查通过才行。然而对于我观察到的大部分软件开发团队来说，认真做CodeReview的很少，有的流于形式，有的可能
面试官：用过 ZooKeeper 吗？基本原理你明白吗？架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：阿凡卢来源：cnblogs.com/luxiaoxun/p/4887452.htmlZooKeeper简介ZooKeeper是一个开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。ZooKeeper设计目的1.最终一致性：client不论连接到哪个Ser
为什么我选择离开工作9年的腾讯？架构文摘腾讯游戏编程语言 consul 人工智能
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！下周，就是我加入腾讯9周年，我选择在同一天辞职离开公司，迎接新的事业挑战。很多朋友都觉得这个消息太突然，毫无征兆；也有朋友觉得毫不惊讶，觉得我一定会有这一天。感觉很突然，可能是因为我已经在腾讯工作9年，且顺风顺水，按照惯性推理应该继续做下去。而感觉毫不惊讶的，可能也因为这与我一直以来的价值观是匹配的，在去年的8周年总结中就写得
万变不离其宗，高并发秒杀系统的设计思考！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！架构文摘提醒您：天气转凉，写代码注意括号、花括号、双引号，把代码都包一下，别让他们感冒了！by架构君前言秒杀大家都不陌生。自2011年首次出现以来，无论是双十一购物还是12306抢票，秒杀场景已随处可见。简单来说，秒杀就是在同一时刻大量请求争抢购买同一商品并完成交易的过程。从架构视角来看，秒杀系统本质是一个高性能、高一致、高可
学废这 10 个微服务架构设计模式，搞定微服务！架构文摘数据库分布式 java 设计模式 redis
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：架构头条|ArchFront微服务架构的十个设计模式分别是独享数据库、事件驱动、CQRS、Saga、BFF、API网关、Strangler、断路器、外部化配置、消费端驱动的契约测试。从软件开发早期（1960年代）开始，应对大型软件系统中的复杂性一直是一项令人生畏的任务。多年来为了应对软件系统的复杂性，软件工程师和架构师们
高并发场景下限流，常见的限流算法、方案解析！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：nickhao来源：cnblogs.com/haoxinyue/p/6792309.html开涛大神在博客中说过：在开发高并发系统时有三把利器用来保护系统：缓存、降级和限流。本文结合作者的一些经验介绍限流的相关概念、算法和常规的实现方式。缓存缓存比较好理解，在大型高并发系统中，如果没有缓存数据库将分分钟被爆，系统也会瞬间
为什么MySQL不推荐使用 UUID 或者雪花id作为主键？架构文摘数据库 mysql java redis 分布式
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：Yrion来源：http://dwz.date/czf4在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究竟有什么坏处？本篇博客我们就来分析这个问题
如何优雅的实现 try/catch 异常块？架构文摘字符串 lambda java 接口 aop
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：http://dwz.date/cyeg在项目中，我们会遇到异常处理，对于运行时异常，需要我们自己判断处理。对于受检异常，需要我们主动处理。但是繁琐的try{}caht嵌套在代码里，看着很不舒服，这里我们不讨论性能，就代码来讲，来看看如何将他隐藏起来。原理是不变的。变得是写法。下面我们来看如何优雅的处理异常块。在这之前。
Spring Boot 最流行的 16 条实践解读，值得收藏！架构文摘数据库编程语言 spring java 大数据
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：Jedrzejewski来源：e4developer.com/2018/08/06/SpringBoot是最流行的用于开发微服务的Java框架。在本文中，我将与你分享自2016年以来我在专业开发中使用SpringBoot所采用的最佳实践。这些内容是基于我的个人经验和一些熟知的SpringBoot专家的文章。在本文中，我将
王者荣耀为什么不使用微服务架构？架构文摘游戏数据库网关分布式 java
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！原文链接：http://dwz.date/cuAP今天，在知乎上看到这样一个问题：“为什么游戏公司的server不愿意微服务化？”背景介绍笔者最近去面试了家游戏公司（有上市）。我问他，公司有没有做微服务架构的打算及考量？他很惊讶的说，我没听说过微服务耶，你可以解释一下吗？我大概说了，方便测试，方便维护，方便升级，服务之间松耦合
面试官：你说熟悉MySQL事务，那来谈谈事务的实现原理吧！架构文摘数据库 mysql java 分布式 redis
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：http://dwz.date/cvpj相信大家都用过事务以及了解他的特点，如原子性(Atomicity),一致性(Consistency),隔离型(Isolation)以及持久性(Durability)等。今天想跟大家一起研究下事务内部到底是怎么实现的，在讲解前我想先抛出个问题：事务想要做到什么效果？按我理解，无非是要
面试官：InnoDB 一棵 B+ 树可以存放多少行数据？架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！作者：飘扬的红领巾博客园：cnblogs.com/leefreeman/p/8315844.html一个问题？InnoDB一棵B+树可以存放多少行数据？这个问题的简单回答是：约2千万。为什么是这么多呢？因为这是可以算出来的，要搞清楚这个问题，我们先从InnoDB索引数据结构、数据组织方式说起。我们都知道计算机在存储数据的时候，
Docker 容器日志管理最佳实践架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！本文所有内容基于：Docker-CEServer Version: 18.09.6Storage Driver: overlay2Kernel Version: 3.10.0-862.el7.x86_64Operating System: CentOS Linux 7 (Core)Docker日志分为两类：Docker引擎日志
SQL判断是否"存在"，还在用 count 操作？试试这条 SQL 语句，性能杠杠的！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源|https://urlify.cn/JjYBJn根据某一条件从数据库表中查询『有』与『没有』，只有两种状态，那为什么在写SQL的时候，还要selectcount(*)呢？无论是刚入道的程序员新星，还是精湛沙场多年的程序员老白，都是一如既往的count.目前多数人的写法多次review代码时，发现如现现象：业务代码中，需要
三天两夜肝完这篇万字长文，终于拿下了 TCP/IP 架构文摘网络网关局域网 hashtable dbcp
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：22j.co/cPaX前言计算机网络是一门基础课程，但是老师所讲的东西无非起到一个抛砖引玉的作用。然而对于需要自学的人来说，无疑是更难的。前路漫漫～～计算机网络本来就是比较枯燥的，文章内容较多，建议读者耐心看完这篇文章，希望大家看完后都能有所收获。先把这篇文章的大致结构放上来。img预备知识谢希仁的那本《计算机网络》是很
使用数据库、Redis、ZK分别实现分布式锁！架构文摘
点击蓝色“架构文摘”关注我哟加个“星标”，每天上午09:25，干货推送！来源：http://dwz.date/bZT8分布式锁三种实现方式：基于数据库实现分布式锁；基于缓存（Redis等）实现分布式锁；基于Zookeeper实现分布式锁；基于数据库实现分布式锁悲观锁利用select…where…forupdate排他锁注意:其他附加功能与实现一基本一致，这里需要注意的是“wherename=loc
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite