javastart

Spark技术在京东智能供应链预测的应用

原创 2017-03-06 杨冬越郭景瞻大数据杂谈

大家晚上好，做一个简单的介绍：我叫郭景瞻，来自京东，著有《图解Spark：核心技术与案例实战》一书，还有我的同事杨冬越，他在京东Y事业部，主要从事供应链销量预测、单量预测等系统的设计与实现工作。

注意啦，读完到文尾，有送书活动哦~~

今天非常感谢InfoQ提供这样的机会给大家做一次分享，我们分享的主题是《Spark技术在智能供应链的应用》。在该分享中，首先介绍京东智能供应链并介绍预测在供应链中的作用，接着介绍预测系统的业务和技术架构，再接着介绍系统核心系统并介绍Spark在核心系统中的使用，最后结合本人所著书《图解Spark：核心技术与案例实战》部分章节介绍在预测系统中的应用与优化。（戳“阅读原文”查看京东链接）。

1. 背景

前段时间京东公开了面向第二个十二年的战略规划，表示京东将全面走向技术化，大力发展人工智能和机器人自动化技术，将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立，该事业部将以服务泛零售为核心，着重智能供应能力的打造，核心使命是利用人工智能技术来驱动零售革新。

1.1 京东的供应链

京东一直致力于通过互联网电商建立需求侧与供给侧的精准、高效匹配，供应链管理是零售联调中的核心能力，是零售平台能力的关键体现，也是供应商与京东紧密合作的纽带，更是未来京东智能化商业体布局中的核心环节。

目前京东在全国范围内的运营256个大型仓库，按功能可划分为RDC、FDC、大件中心仓、大件卫星仓、图书仓和城市仓等等。RDC（Regional Distribution Center）即区域分发中心，可理解为一级仓库，向供货商采购的商品会优先送往这里，一般设置在中心城市，覆盖范围大。FDC（Forward Distribution Center）即区域运转中心，可理解为二级仓库，覆盖一些中、小型城市及边远地区，通常会根据需求将商品从RDC调配过来。

结合人工智能、大数据等技术，京东首先从供货商那里合理采购定量的商品到RDC，再根据实际需求调配到FDC，然后运往离客户最近的配送站，最后快递员将商品带到客户手中。这只是京东供应链体系中一个普通的场景，但正因为有这样的体系，使得京东对用户的响应速度大大提高，用户体验大大提升。

1.2 京东供应链优化

用户体验提升的同时也伴随着大量资金的投入和成本的提高，成本必须得到控制，整个体系才能发挥出最大的价值，于是对供应链的优化就显得至关重要了。

京东自打建立供应连体系的那一天起，就不断地进行改进和优化，并且努力深入到供应链的每一个环节。优化其实是一门运筹学问题，需考虑在各种决策目标之间如何平衡以达到最大收益，在这个过程中需要考虑很多问题，把这些考虑清楚，问题就容易解决了。举几个简单的例子：

商品补货：考虑在什么时间，给哪个RDC采购什么商品，采购量是多少？
商品调拨：考虑在什么时间，给哪个FDC调配什么商品，调配量是多少？
仓储运营：在大促来临之际，仓库和配送站要增配多少人手、多少辆货车？

虽然看上去这些问题都很容易回答，但仔细想想却又很难给出答案，原因就在于想要做到精确不是那么容易的事情，就拿补货来说，补的太多会增加库存成本，补的太少会增加缺货成本，只有合理的补货量才能做到成本最低。

1.3 预测技术在京东供应链的作用

借助机器学习、大数据等相关技术，京东在很多供应链优化问题上都已经实现系统化，由系统自动给出优化建议，并与生产系统相连接，实现全流程自动化。在这里有一项技术起着至关重要的低层支撑作用--预测技术。据粗略估算，1%的预测准确度的提升可以节约数倍的运营成本。

怎样理解预测在供应链优化中的作用呢?拿商品补货举例，一家公司为了保证库房不缺货，可能会频繁的从供货商那里补充大量商品，这样做虽然不会缺货，但可能会造成更多卖不出去的商品积压在仓库中，从而使商品的周转率降低，库存成本增加。反之，这家公司有可能为了追求零库存而补很少的商品，但这就可能出现严重的缺货问题，从而使现货率降低，严重影响用户体验，缺货成本增加。于是问题就来了，要补多少商品才合适，什么时间补货，这就需要权衡考虑了，最终目的是要使库存成本和缺货成本达到一个平衡。

考虑一下极端情况，等库存降到零时再去补货，这时供货商接到补货通知后将货物运往仓库。但是这么做有个问题，因为运送过程需要时间，这段时间库房就缺货了。那怎么办呢?就是利用预测技术。利用预测我们可以计算出未来商品在途的这段时间里销量大概是多少，然后我们让仓库保证这个量，低于这个量就给供货商下达补货通知，于是问题得以解决。总而言之，预测技术在这里发挥了重要的作用，成为关键的一个环。

2. 京东预测系统 2.1 预测系统介绍

预测系统在整个供应链体系中处在最底层并且起到一个支撑的作用，支持上层的多个决策优化系统，而这些决策优化系统利用精准的预测数据结合运筹学技术得出最优的决策，并将结果提供给更上层的业务执行系统或是业务方直接使用。

目前，预测系统主要支持三大业务：销量预测、单量预测和GMV预测。其中销量预测主要支持商品补货、商品调拨；单量预测主要支持仓库、站点的运营管理；GMV预测主要支持销售部门计划的定制。

销量预测按照不同维度又可以分为RDC采购预测、FDC调拨预测、城市仓调拨预测、大建仓补货预测、全球购销量预测和图书促销预测等；单量预测又可分为库房单量预测、配送中心单量预测和配送站单量预测等（在这里“单量”并非指用户所下订单的量，而是将订单拆单后流转到仓库中的单量。例如一个用户的订单中包括3件物品，其中两个大件品和一个小件品，在京东的供应链环节中可能会将其中两个大件品组成一个单投放到大件仓中，而将那个小件单独一个单投放到小件仓中，单量指的是拆单后的量）；GMV预测支持到商品粒度。

2.2 预测系统架构

整体架构从上至下依次是：数据源输入层、基础数据加工层、核心业务层、数据输出层和下游系统。首先从外部数据源获取我们所需的业务数据，然后对基础数据进行加工清洗，再通过时间序列、机器学习等人工智能技术对数据进行处理分析，最后计算出预测结果并通过多种途径推送给下游系统使用。

数据源输入层：京东数据仓库中存储着我们需要的大部分业务数据，例如订单信息、商品信息、库存信息等等。而对于促销计划数据则大部分来自于采销人员通过Web系统录入的信息。除此之外还有一小部分数据通过文本形式直接上传到HDFS中。
基础数据加工层：在这一层主要通过Hive对基础数据进行一些加工清洗，去掉不需要的字段，过滤不需要的维度并清洗有问题的数据。
核心业务层：这层是系统的的核心部分，横向看又可分为三层：特征构建、预测算法和预测结果加工。纵向看是由多条业务线组成，彼此之间不发生任何交集。
- 特征构建：将之前清洗过的基础数据通过近一步的处理转化成标准格式的特征数据，提供给后续算法模型使用。
- 核心算法：利用时间序列分析、机器学习等人工智能技术进行销量、单量的预测，是预测系统中最为核心的部分。
- 预测结果加工：预测结果可能在格式和一些特殊性要求上不能满足下游系统，所以还需要根据实际情况对其进行加工处理，比如增加标准差、促销标识等额外信息。
预测结果输出层：将最终预测结果同步回京东数据仓库、MySql、HBase或制作成JSF接口供其他系统远程调用。
下游系统：包括下游任务流程、下游Web系统和其他系统。

3. 预测系统核心介绍 3.1 预测系统核心层技术选型

预测系统核心层技术主要分为四层：基础层、框架层、工具层和算法层

基础层：

HDFS用来做数据存储，Yarn用来做资源调度，BDP（Big Data Platform）是京东自己研发的大数据平台，我们主要用它来做任务调度。

框架层：

以Spark RDD、Spark SQL、Hive为主， MapReduce程序占一小部分，是原先遗留下来的，目前正逐步替换成Spark RDD。选择Spark除了对性能的考虑外，还考虑了Spark程序开发的高效率、多语言特性以及对机器学习算法的支持。在Spark开发语言上我们选择了Python，原因有以下三点：

Python有很多不错的机器学习算法包可以使用，比起Spark的MLlib，算法的准确度更高。我们用GBDT做过对比，发现xgboost比MLlib里面提供的提升树模型预测准确度高出大概5%~10%。虽然直接使用Spark自带的机器学习框架会节省我们的开发成本，但预测准确度对于我们来说至关重要，每提升1%的准确度，就可能会带来成本的成倍降低。
我们的团队中包括开发工程师和算法工程师，对于算法工程师而言他们更擅长使用Python进行数据分析，使用Java或Scala会有不小的学习成本。
对比其他语言，我们发现使用Python的开发效率是最高的，并且对于一个新人，学习Python比学习其他语言更加容易。

工具层：

一方面我们会结合自身业务有针对性的开发一些算法，另一方面我们会直接使用业界比较成熟的算法和模型，这些算法都封装在第三方Python包中。我们比较常用的包有xgboost、numpy、pandas、sklearn、scipy和hyperopt等。

Xgboost：它是Gradient Boosting Machine的一个C++实现，xgboost最大的特点在于，它能够自动利用CPU的多线程进行并行，同时在算法上加以改进提高了精度。

numpy：是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多（该结构也可以用来表示矩阵）。

pandas：是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

sklearn：是Python重要的机器学习库，支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。

scipy：是在NumPy库的基础上增加了众多的数学、科学以及工程计算中常用的库函数。例如线性代数、常微分方程数值求解、信号处理、图像处理和稀疏矩阵等等。

算法层：

我们用到的算法模型非常多，原因是京东的商品品类齐全、业务复杂，需要根据不同的情况采用不同的算法模型。我们有一个独立的系统来为算法模型与商品之间建立匹配关系，有些比较复杂的预测业务还需要使用多个模型。我们使用的算法总体上可以分为三类：时间序列、机器学习和结合业务开发的一些独有的算法。

1. 机器学习算法主要包括GBDT、LASSO和RNN ：

GBDT：是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。我们用它来预测高销量，但历史规律不明显的商品。

RNN：这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如时序预测、语音识别等。

LASSO：该方法是一种压缩估计。它通过构造一个罚函数得到一个较为精炼的模型，使得它压缩一些系数，同时设定一些系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。用来预测低销量，历史数据平稳的商品效果较好。

2. 时间序列主要包括ARIMA和Holt winters ：

ARIMA：全称为自回归积分滑动平均模型，于70年代初提出的一个著名时间序列预测方法，我们用它来主要预测类似库房单量这种平稳的序列。

Holt winters：又称三次指数平滑算法，也是一个经典的时间序列算法，我们用它来预测季节性和趋势都很明显的商品。

3. 结合业务开发的独有算法包括WMAStockDT、SimilarityModel和NewProduct等：

WMAStockDT：库存决策树模型，用来预测受库存状态影响较大的商品。

SimilarityModel：相似品模型，使用指定的同类品数据来预测某商品未来销量。

NewProduct：新品模型，顾名思义就是用来预测新品的销量。

3.2 预测系统核心流程

预测核心流程主要包括两类：以机器学习算法为主的流程和以时间序列分析为主的流程。

1. 以机器学习算法为主的流程如下：

特征构建：通过数据分析、模型试验确定主要特征，通过一系列任务生成标准格式的特征数据。

模型选择：不同的商品有不同的特性，所以首先会根据商品的销量高低、新品旧品、假节日敏感性等因素分配不同的算法模型。

特征选择：对一批特征进行筛选过滤不需要的特征，不同类型的商品特征不同。

样本分区：对训练数据进行分组，分成多组样本，真正训练时针对每组样本生成一个模型文件。一般是同类型商品被分成一组，比如按品类维度分组，这样做是考虑并行化以及模型的准确性。

模型参数：选择最优的模型参数，合适的参数将提高模型的准确度，因为需要对不同的参数组合分别进行模型训练和预测，所以这一步是非常耗费资源。

模型训练：待特征、模型、样本都确定好后就可以进行模型训练，训练往往会耗费很长时间，训练后会生成模型文件，存储在HDFS中。

模型预测：读取模型文件进行预测执行。

多模型择优：为了提高预测准确度，我们可能会使用多个算法模型，当每个模型的预测结果输出后系统会通过一些规则来选择一个最优的预测结果。

预测值异常拦截：我们发现越是复杂且不易解释的算法越容易出现极个别预测值异常偏高的情况，这种预测偏高无法结合历史数据进行解释，因此我们会通过一些规则将这些异常值拦截下来，并且用一个更加保守的数值代替。

模型评价：计算预测准确度，我们通常用使用mapd来作为评价指标。

误差分析：通过分析预测准确度得出一个误差在不同维度上的分布，以便给算法优化提供参考依据。

2. 以时间序列分析为主的预测流程如下：

生成历史时序：将历史销量、价格、库存等数据按照规定格式生成时序数据。

节假日因子：计算节假日与销量之间的关系，用来平滑节假日对销量影响。

周日因子：计算周一到周日这7天与销量的关系，用来平滑周日对销量的影响。

促销因子：计算促销与销量之间的关系，用来平滑促销对销量的影响。

因子平滑：历史销量是不稳定的，会受到节假日、促销等影响，在这种情况下进行预测有很大难度，所以需要利用之前计算的各类因子对历史数据进行平滑处理。

时序预测：在一个相对平稳的销量数据上通过算法进行预测。

因子叠加：结合未来节假日、促销计划等因素对预测结果进行调整。

3.3 Spark在预测核心层的应用

我们使用Spark SQL和Spark RDD相结合的方式来编写程序，对于一般的数据处理，我们使用Spark的方式与其他无异，但是对于模型训练、预测这些需要调用算法接口的逻辑就需要考虑一下并行化的问题了。我们平均一个训练任务在一天处理的数据量大约在500G左右，虽然数据规模不是特别的庞大，但是Python算法包提供的算法都是单进程执行。我们计算过，如果使用一台机器训练全部品类数据需要一个星期的时间，这是无法接收的，所以我们需要借助Spark这种分布式并行计算框架来将计算分摊到多个节点上实现并行化处理。

我们实现的方法很简单，首先需要在集群的每个节点上安装所需的全部Python包，然后在编写Spark程序时考虑通过某种规则将数据分区，比如按品类维度，通过groupByKey操作将数据重新分区，每一个分区是一个样本集合并进行独立的训练，以此达到并行化。流程如下图所示：

伪码如下：

repartitionBy方法即设置一个重分区的逻辑返回(K,V)结构RDD，train方法是训练数据，在train方法里面会调用Python算法包接口。saveAsPickleFile是Spark Python独有的一个Action操作，支持将RDD保存成序列化后的sequnceFile格式的文件，在序列化过程中会以10个一批的方式进行处理，保存模型文件非常适合。

虽然原理简单，但存在着一个难点，即以什么样的规则进行分区，key应该如何设置。为了解决这个问题我们需要考虑几个方面，第一就是哪些数据应该被聚合到一起进行训练，第二就是如何避免数据倾斜。

针对第一个问题我们做了如下几点考虑：

被分在一个分区的数据要有一定的相似性，这样训练的效果才会更好，比如按品类分区就是个典型例子。
分析商品的特性，根据特性的不同选择不同的模型，例如高销商品和低销商品的预测模型是不一样的，即使是同一模型使用的特征也可能不同，比如对促销敏感的商品就需要更多与促销相关特征，相同模型相同特征的商品应倾向于分在一个分区中。

针对第二个问题我们采用了如下的方式解决：

对于数据量过大的分区进行随机抽样选取。
对于数据量过大的分区还可以做二次拆分，比如图书小说这个品类数据量明显大于其他品类，于是就可以分析小说品类下的子品类数据量分布情况，并将子品类合并成新的几个分区。
对于数据量过小这种情况则需要考虑进行几个分区数据的合并处理。

总之对于后两种处理方式可以单独通过一个Spark任务定期运行，并将这种分区规则保存。

4. 结合图解Spark书进行应用与优化

《图解Spark：核心技术与案例实战》一书以Spark2.0版本为基础进行编写，系统介绍了Spark核心及其生态圈组件技术。其内容包括Spark生态圈、实战环境搭建和编程模型等，重点介绍了作业调度、容错执行、监控管理、存储管理以及运行架构，同时还介绍了Spark生态圈相关组件，包括了Spark SQL的即席查询、Spark Streaming的实时流处理、MLlib的机器学习、GraphX的图处理和Alluxio的分布式内存文件系统等。下面介绍京东预测系统如何进行资源调度，并描述如何使用Spark存储相关知识进行系统优化。

4.1 结合系统中的应用

在图解Spark书的第六章描述了Spark运行架构，介绍了Spark集群资源调度一般分为粗粒度调度和细粒度调度两种模式。粗粒度包括了独立运行模式和Mesos粗粒度运行模式，在这种情况下以整个机器作为分配单元执行作业，该模式优点是由于资源长期持有减少了资源调度的时间开销，缺点是该模式中无法感知资源使用的变化，易造成系统资源的闲置，从而造成了资源浪费。而细粒度包括了Yarn运行模式和Mesos细粒度运行模式,该模式的优点是系统资源能够得到充分利用，缺点是该模式中每个任务都需要从管理器获取资源，调度延迟较大、开销较大。

由于京东Spark集群属于基础平台，在公司内部共享这些资源，所以集群采用的是Yarn运行模式，在这种模式下可以根据不同系统所需要的资源进行灵活的管理。在YARN-Cluster模式中，当用户向YARN集群中提交一个应用程序后，YARN集群将分两个阶段运行该应用程序：第一个阶段是把Spark的SparkContext作为Application Master在YARN集群中先启动；第二个阶段是由Application Master创建应用程序，然后为它向Resource Manager申请资源，并启动Executor来运行任务集，同时监控它的整个运行过程，直到运行完成。下图为Yarn-Cluster运行模式执行过程：

4.2 结合系统的优化

我们都知道大数据处理的瓶颈在IO。我们借助Spark可以把迭代过程中的数据放在内存中，相比MapReduce写到磁盘速度提高近两个数量级；另外对于数据处理过程尽可能避免Shuffle，如果不能避免则Shuffle前尽可能过滤数据，减少Shuffle数据量；最后，就是使用高效的序列化和压缩算法。在京东预测系统主要就是围绕这些环节展开优化，相关Spark存储原理知识可以参见图解Spark书第五章的详细描述。

由于资源限制，分配给预测系统的Spark集群规模并不是很大,在有限的资源下运行Spark应用程序确实是一个考验，因为在这种情况下经常会出现诸如程序计算时间太长、找不到Executor等错误。我们通过调整参数、修改设计和修改程序逻辑三个方面进行优化：

4.2.1 参数调整

减少num-executors，调大executor-memory，这样的目的是希望Executor有足够的内存可以使用。
查看日志发现没有足够的空间存储广播变量，分析是由于Cache到内存里的数据太多耗尽了内存，于是我们将Cache的级别适当调成MEMORY_ONLY_SER和DISK_ONLY。
针对某些任务关闭了推测机制，因为有些任务会出现暂时无法解决的数据倾斜问题，并非节点出现问题。
调整内存分配，对于一个Shuffle很多的任务，我们就把Cache的内存分配比例调低，同时调高Shuffle的内存比例。

4.2.2 修改设计

参数的调整虽然容易做，但往往效果不好，这时候需要考虑从设计的角度去优化：

原先在训练数据之前会先读取历史的几个月甚至几年的数据，对这些数据进行合并、转换等一系列复杂的处理，最终生成特征数据。由于数据量庞大，任务有时会报错。经过调整后当天只处理当天数据，并将结果保存到当日分区下，训练时按天数需要读取多个分区的数据做union操作即可。
将“模型训练”从每天执行调整到每周执行，将“模型参数选取”从每周执行调整到每月执行。因为这两个任务都十分消耗资源，并且属于不需要频繁运行，这么做虽然准确度会略微降低，但都在可接受范围内。
通过拆分任务也可以很好的解决资源不够用的问题。可以横向拆分，比如原先是将100个品类数据放在一个任务中进行训练，调整后改成每10个品类提交一次Spark作业进行训练。这样虽然整体执行时间变长，但是避免了程序异常退出，保证任务可以执行成功。除了横向还可以纵向拆分，即将一个包含10个Stage的Spark任务拆分成两个任务，每个任务包含5个Stage，中间数据保存到HDFS中。

4.2.3 修改程序逻辑

为了进一步提高程序的运行效率，通过修改程序的逻辑来提高性能，主要是在如下方面进行了改进：避免过多的Shuffle、减少Shuffle时需要传输的数据和处理数据倾斜问题等。

1. 避免过多的Shuffle

Spark提供了丰富的转换操作，可以使我们完成各类复杂的数据处理工作，但是也正因为如此我们在写Spark程序的时候可能会遇到一个陷阱，那就是为了使代码变的简洁过分依赖RDD的转换操作，使本来仅需一次Shuffle的过程变为了执行多次。我们就曾经犯过这样一个错误,本来可以通过一次groupByKey完成的操作却使用了两回。业务逻辑是这样的：我们有三张表分别是销量（s）、价格（p）、库存（v），每张表有3个字段：商品id（sku_id）、品类id（category）和历史时序数据（data），现在需要按sku_id将s、p、v数据合并，然后再按category再合并一次，最终的数据格式是：[category，[[sku_id, s , p, v], [sku_id, s , p, v], […]，[…]]]。一开始我们先按照sku_id + category作为key进行一次groupByKey，将数据格式转换成[sku_id, category , [s，p, v]]，然后按category作为key再groupByKey一次。后来我们修改为按照category作为key只进行一次groupByKey，因为一个sku_id只会属于一个category，所以后续的map转换里面只需要写一些代码将相同sku_id的s、p、v数据group到一起就可以了。两次groupByKey的情况：

修改后变为一次groupByKey的情况：

多表join时，如果key值相同，则可以使用union+groupByKey+flatMapValues形式进行。比如：需要将销量、库存、价格、促销计划和商品信息通过商品编码连接到一起，一开始使用的是join转换操作，将几个RDD彼此join在一起。后来发现这样做运行速度非常慢，于是换成union+groypByKey+flatMapValue形式，这样做只需进行一次Shuffle，这样修改后运行速度比以前快多了。实例代码如下：

如果两个RDD需要在groupByKey后进行join操作，可以使用cogroup转换操作代替。比如，将历史销量数据按品类进行合并，然后再与模型文件进行join操作，流程如下：

使用cogroup后，经过一次Shuffle就可完成了两步操作，性能大幅提升。

2. 减少Shuffle时传输的数据量

在Shuffle操作前尽量将不需要的数据过滤掉。
使用comebineyeByKey可以高效率的实现任何复杂的聚合逻辑。

comebineyeByKey属于聚合类操作，由于它支持map端的聚合所以比groupByKey性能好，又由于它的map端与reduce端可以设置成不一样的逻辑，所以它支持的场景比reduceByKey多，它的定义如下：

reduceByKey和groupByKey内部实际是调用了comebineyeByKey，

我们之前有很多复杂的无法用reduceByKey来实现的聚合逻辑都通过groupByKey来完成的，后来全部替换为comebineyeByKey后性能提升了不少。

3. 处理数据倾斜

有些时候经过一系列转换操作之后数据变得十分倾斜，在这样情况下后续的RDD计算效率会非常的糟糕，严重时程序报错。遇到这种情况通常会使用repartition这个转换操作对RDD进行重新分区，重新分区后数据会均匀分布在不同的分区中，避免了数据倾斜。如果是减少分区使用coalesce也可以达到效果，但比起repartition不足的是分配不是那么均匀。

5. 小结

虽然京东的预测系统已经稳定运行了很长一段时间，但是我们也看到系统本身还存在着很多待改进的地方，接下来我们会在预测准确度的提高、系统性能的优化、多业务支持的便捷性上进行改进。未来，随着大数据、人工智能技术在京东供应链管理中的使用越来越多，预测系统也将发挥出更大作用，对于京东预测系统的研发工作也将是充满着挑战与乐趣。

答疑环节 Q1：用hive清洗完以后的数据还存在hive中吗？那原始数据还保留吗？或者说保留多久？谢谢老师！

杨冬越：清洗后数据还会存回hive，原始数据不会删，但在清洗转换过程中可能会执行多个hive脚本，会产生很多中间数据，这些中间数据只会保留一段时间，然后自动删除（是按时间进行分区的）。

Q2：几种细化的场景，如promotion，fast sale，商品sku的画像是否有？

杨冬越：对于促销这种情况会引入历史促销销量作为特征，预测时也会结合促销计划，促销计划都是提前录入到系统中的，除此还需要分析价格、PV在商品上的敏感成的。对于快消品需要结合商品的生命周期去做。

Q3：按架构看，那种交互探索性的请求，类似于以前sql请求去仓库捞一下数据看看的情况，是用sparksql来支撑吗？一般响应时间大概如何？

郭景瞻：对，离线数据是通过SparkSQL进行查询，响应时间依赖于集群的规模、查询的数据量及SQL的复杂程度，在预测系统使用的数据大概500GB，少的2分钟左右，最多不超过20分钟。

Q4：请问如何选择模型? 是不同品类有不同模型吗?

杨冬越：不完全是根据品类分模型，还要考虑是否高销量品、是否长尾品、是否新品、是否是季节性比较明显的商品等。

Q5：节假日因子怎么量化？

杨冬越：首先要进行平滑，尽量把其他干扰因素去掉，再计算节假日期间与前后一段时间均值对比，要注意考虑阳历和农历，还有如果新品还会根据同品类或同品牌进行替代。

作者介绍

杨冬越，就职于京东Y事业部，主要从事供应链销量预测、单量预测等模型、算法的研究与实现工作

郭景瞻，就职于京东服饰家居事业部，主要负责POP商家订单及数据挖掘等工作，著有《图解Spark：核心技术与案例实战》一书

今日荐文

点击下方图片即可阅读

《图解Spark：核心技术与案例实战》作者经验谈

福利！福利！我们将给大数据杂谈的粉丝送出《图解Spark：核心技术与案例实战》纸质书籍20本！评论区留言前20名可得！留言给出你想要这本书的理由，3月9日早上10点前有效！另附京东购买地址，戳「阅读原文」！

你可能感兴趣的:(Spark技术在京东智能供应链预测的应用)

阿里云天池-学习笔记（7.22） 2301_81822737 深度学习
概念的初步认识和学习一、损失函数损失函数是衡量模型预测值与真实值之间差异的一个量度，通过最小化这个差异来优化模型的参数。损失函数的选择直接影响到模型的训练效果和最终性能。二、one-hot编码one-hot编码使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候其中只有一位有效（即为1，其余为0）。具体来说，对于每个分类变量，都会为其分配一个唯一的二进制位，并使用该
给命运的第二十八封回信蓝风Blue
王俊凯的新歌《流星》里面有一句我很喜欢的歌词，“等命运的风筝寄出第二十封回信。”很想给十八岁的自己，或者给三十八岁的自己写一封信。但是，要说些什么呢？和另一个时空的自己对话，似乎总是没有太大意义，十八岁的自己，不会听得进去二十八岁的我碎碎念。三十八岁的自己，又对二十八岁的我一笑了之。去翻看几年前留下的文字，大多感到的是有趣好玩。不如记下此时此刻的感受，做份纪念，也算是给命运的一封回信吧。二十八年过
《论语》：不走心的努力，都是在敷衍自己有范儿叔
【原文】子谓《韶》：“尽美矣，又尽善也。”【译文】孔子评论《韶》：极其完善，极其美好，完美到没有一点缺点。【引申】做事要力求完美，不能抱着得过且过的心态消极应付。图片发自App那些真正让人变好的选择，过程都不会很舒服。唯有你内心足够渴望，你才有顽强的意志力去支撑、鼓舞着自己去坚持。但在日复一日的工作和生活中，我们也容易出现懈怠，于是，敷衍，成了我们最容易上手的技能。我们不爱一个人，可以用各种借口去
婚礼当天，我将女友还给她的竹马小说(许瑶程哲)什么小说-婚礼当天，我将女友还给她的竹马小说热门小说更新许瑶程哲花朵文库
婚礼当天，我将女友还给她的竹马小说(许瑶程哲)什么小说-婚礼当天，我将女友还给她的竹马小说热门小说更新许瑶程哲主角配角：许瑶程哲小说别名：我和许瑶恋爱八年。在婚期前三天，却发现她电脑里存了上万张同一个男生的照片。人，只以为她性格含蓄不善表达。现在想想，我简直天真的可笑。朋友圈的简介我追着她问了许多次，她都没有回答过。此刻终于知道了答案。距离我们简略的婚礼还有三天，我将倒计时设置成手机的动态壁纸每天
20190512 青茶竹酒
母亲节，护士节，汶川大地震纪念日。我们需要感念生活中不同的人，我们需要感怀某个节点上发生的曾经触动了很多人包括我们自己的事情。但是，最重要的，我们更需要关注自己生活中重要的事情，感念带给我们人生转折的那些人那些事，惟其如此，我们才是我们自己，才是一个独立的个体，我们和周围的任何一个人都不同。所有的节日都重要。母亲节前几天，我才把按惯例来我所在的城市检查治疗的父母送回家，我相信，认真地做点事情比抓住
跟着顺华文庭内部群毛顺华真的能赚钱吗？智慧农业中粮仓不能取款就是骗局！反诈宣传中
知名大师带你赚钱？免费给你讲课？新项目只带内部学员签署保密协议？网络投资理财应认准银行和有资质的证券公司等正规途径，切勿盲目相信所谓的“炒股专家”和“投资导师”，声称“高回报”“有内幕”的炒虚拟币、炒股、打新股、炒黄金、炒期货等都是诈骗。特别是炒股群名师免费荐股的套路。大师跟你非亲非故凭什么免费带你赚钱？若不幸遭遇假冒毛顺华荐股骗局投资万和投票平台并且不能提现的情况，千万不要打草惊蛇。及时止损寻求
借助零信任网格重塑分布式MCP与LLM访问：安全、灵活的下一代架构实践码力金矿机器学习深度学习人工智能人工智能自动化运维数据库 mysql python java
在数字化转型的浪潮中，AI应用与分布式系统正在加速融合。传统架构中，MCP（模型上下文协议）服务与LLM（大语言模型）工具的部署常面临安全暴露、网络复杂性、跨防火墙通信等挑战。本文将结合零信任网格（ZTM,ZeroTrustMesh）与Flomesh技术，探索一种更安全、灵活的分布式架构方案，让MCP服务无需VPN或静态IP即可实现全球可访问，同时为LLM应用提供统一的安全层。一、传统分布式架构的
Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
Ant的使用菁华浮英梦
1、Ant：基于java的生成工具，作用类似于C的Make。make工具有两个缺陷：依赖UNIX的SHELL语言，所以无法跨平台；生成文件格式严格，容易导致错误。Ant基于java，所以可以跨平台，而且Ant使用XML生成文件，具有更好的适应性。2、下载和安装：①解压之后的文件结构如下：bin：启动启动和运行ant的可执行命令etc：包含一些样式单文件，通常无需理会该目录下的文件lib：包含Ant
GP 诊所？简易门诊？晓荷清风
天天的工作项目之一就是跟GP(generalpractitioner全科医生）negotiate(协调交涉，讨价还价），一干就是十年。总能听到很多负面的说法,诸如GP无能！GP没用！说到底大家遇到的GP也就那么一两个，反聩的也就是那一两个GP的情况。不象咱这种一天因为不同的病人不同的情况，电话里抑或面对面跟不同的GP们交涉。什么样的都遇到过，也深刻体会他们的苦衷。尤其是budgetcontrol（
正念冥想实修10.2 宝茱名吉的一止今心
1愉悦事件2正念静坐40分钟3慈心冥想15分钟4正念行走20分钟愉悦事件：看到学生们在操场上跳着新体操舞的视频，活力、阳光、充满朝气，回想到我学生时代，好像我也在他们其中，那样的朝气蓬勃。正念静坐40分钟：前20分钟昏沉，身体在不停的晃动，向前倾。对呼吸和身体都不能专注。感觉明显的就是听到外面鸟叫的声音和风轻柔吹在树上，树叶哗哗的声音，还有微风吹向身体带来一丝凉意舒服的感觉。一个来电打破了昏沉的状
【晨间日记】 2020年8月9日语瞳SAMA
2020年8月9日天气：小雨转多云【90天践行目标】（63/90）①5：30早起②22：30早睡③写晨间日记【昨日践行】①6：02起床②22：58入睡③晨间日记已达成【今日青蛙】①完成暑期实践总结报告②开始校友邦打卡③英语百词斩*昨日三只青蛙已达成【反思日志】昨天母亲带着欣远和欣栩来老房子这边吃晚饭，带来了许多欢乐与活力。其中让我印象最为深刻的是欣远的学习能力。自己在六级英语百词斩时，欣远与欣栩也
二维码异地收款无限制,什么收款码可以异地收款神州网络公司
在现代社会中，随着电子支付的普及和使用频率的增加，收款方式也变得多样化。针对异地收款需求，各种收款码应运而生，为人们提供了极大的便利。今天，我们将探讨一些常见的异地收款码及其特点。首先，我们来了解一下支付宝收款码。支付宝作为中国最主流的移动支付平台之一，其收款码功能得到广泛应用。通过支付宝收款码，用户可以将自己的收款二维码分享给他人，无论对方身处何地，只要扫描二维码并确认支付，资金就能安全快速地转
2023-04-11 野鸡和猫和老鷹
星期四没有事情做，就和家里人一起去山上逛逛，那里只有漫山遍野的野花和野桃树花和野小棠梨花，虽然没有公园里经过人精雕细琢的造的人工花好看，但是野花也有属于它自己的春天。我和家里人骑车来到山脚下，戴着很尖的洋篙，采了一些中草药和挖了一些小蒜和野菜，中草药可以换一些钱，小蒜和野菜可以吃，在山上中草药很难拔出，中草药有血参，柴胡，黄芩和野连翘，但是山上中草药十分少，一天也才拔了一点点。最后，腿发酸发软的回
2021年11月9日中原焦点团队网络初级第31期党育坚持第29天分享 3d947c9d58d6
今天的课刘老师让在小组内交流自己写的20条难得的感受。20条难得对我来说并不是难事，从新审视自己，一直以来，我好像很少看孩子的缺点，但也不是不责骂孩子，小时候对孩子严格要求也责骂过不少，我想不出他有哪些我不能忍受的缺点，在我的眼中包括邻居亲戚眼中他都是很好的孩子，尽管他成绩不是最好的。我也尽量不想生活中不开心的事，因为一想不开心的事就会觉得生活无趣，一眼能看到头，不如就当一天和尚撞一天钟，活在当下
《深入浅出Spring》控制反转（IoC）与依赖注入（DI）
举例说明引出spring有2个类，A和B，如下：publicclassA{publicvoidsayHello(){}}publicclassB{publicvoidsayHello();}上面2个类都有同样的sayHello方法。现在我们调用B的sayHello方法完成一些事情，而B中的sayHello方法需要调用A中的sayHello方法才可以完成这个事情，所以B的代码变成了下面这样：publ
中秋节送什么给老师？中秋节送老师的礼物推荐直返APP抖音优惠券
中秋节送老师礼物，既是对老师辛勤付出的感谢，也是对节日的美好祝福。以下是一些建议，希望能为您的选择提供帮助：一、传统与节日特色礼物月饼礼盒理由：月饼作为中秋节的传统食品，象征着团圆和美满。送老师月饼礼盒，不仅符合节日氛围，还能表达对老师的节日问候和感激之情。选择建议：可以选择口味丰富、包装精美的月饼礼盒，如五芳斋、稻香村等知名品牌的月饼礼盒，既体现了心意，又不失档次。茶叶礼盒理由：茶叶是一种高雅的
《公主日记》和《罗马假日》：公主是后天的磨砺 Zoegreen
女孩们都有一个美丽的梦想：头戴水晶皇冠，身穿白色鱼尾裙，和帅气的王子翩翩起舞，嫁给王子，度过美丽而幸福的日子，可是这两部电影中，由奥黛丽赫本主演的安妮公主和米娅都是在知晓责任和义务后，勇敢承担身上的重担。在罗马的拜访日，日复一日的问候贵族和程序化的生活让她感觉到无趣，安妮公主很想尽情地饱览一下罗马的优美风光，侍从们以公主身份高贵、不宜在黎民百姓面前抛头露面为由拒绝了，并给她注射了镇静剂。公主在药效
用 K-means 算法实现水果分堆 wh_xia_jun AI+医疗算法 kmeans 机器学习
先看运行效果：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeans#生成模拟数据（两个高斯分布的混合点集）np.random.seed(42)X1=np.random.randn(100,2)+np.array([2,2])#第一簇数据，中心在(2,2)X2=np.random.randn(100,2)
BSCAN 在糖尿病患者数据聚类分析中的应用 wh_xia_jun AI+医疗机器学习支持向量机人工智能
完整代码：importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANfromsklearn.preprocessingimportStandardScalerfromsklearn.datasetsimportmake_blobs#设置随机种子，确保结果可复现np.random.seed(42)#1.生成模拟
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架（原创创新算法）
YOLOv13_SSOD：基于超图关联增强的半监督目标检测框架项目背景随着深度学习技术的快速发展，目标检测在各个领域都取得了显著的进展。然而，现有的监督学习方法在实际应用中面临着标注数据稀缺、泛化能力不足等挑战。特别是在火灾烟雾检测、工业质检等特定场景中，获取大量高质量标注数据的成本极高。为了解决这一问题，本项目基于最新发布的YOLOv13架构，结合EfficientTeacher半监督学习框架，
蓝桥杯算法心得——巧克力（贪心）晴天学长算法算法蓝桥杯 java
大家好，我是晴天学长，这是一道国赛题，其中贪心的思想值得学习（逆向思维），写比较器也非常的实用，需要的小伙伴请自取哦！1）巧克力2).算法思路每一天都选保质期内最便宜的注意：这里一定要从最后一天开始选择，这样才可以将保质期这一条件充分利用起来我也是受了其它题解的启发：如果有保质期很长，价格很低，但你很早就吃完了，后面不得不选择昂贵的巧克力，也就是说它原本可以在很多天之后吃就行，现在却在前几天就吃了
约练收获《坚持就是最好的教练》 78679e553f55
中原焦点团队朱继萍第六期第25组第22-23次约练总34次角色：2次咨询师1.熟悉的套路设置，在现实咨询中原来不以为然，没有或许精确到分钟上，通过几次在设置中的坚持能带给我一种规则感与紧迫的感觉；甚至还没有把问题聊透，时间流到点位啦，新手小白，自我把控还需要修炼哟！2.认真聆听来访者的不自主的叹气、内耗、纠结、无奈，不时回应，能及时共情到她的无力与无奈；同频共振3.当来访者很急于寻找问题答案时，你
一个女人的故事宋启琳
煤油灯将原本乌黑的土瓦房照的多了一丝诡异，灯芯上面的小火光摇摇欲坠，好似随时都有可能掉下来。曹雪娥在微弱的灯光下用力锥着鞋底，一边嘴里不停得絮叨以前的往事。“我这大半辈子，还真是个传奇，小的时候无家可归，嫁人的时候，爹妈多的都数不清。”曹雪娥从生下来脸上有一块胎记，虽然不大，但是偏偏长在了眼睛上，就像是被谁给打了一拳头。父母嫌丑，本是商量着不想要这孩子，可是家里两个老人舍不得，便主动提出扶养孩子，
USB串口通信、握手协议、深度学习等技术要点深度学习教程, 深度学习人工智能网络协议
基于OpenMV的智能车牌识别系统：从硬件到算法的完整实现前言本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术，实现了从图像采集到车牌识别的完整流程。系统架构概述整体设计思路该车牌识别系统采用分布式架构设计，将计算密集型任务与嵌入式控制分离：┌─────────────┐USB串口通信┌────────
动漫博人传：迪鲁达转而对付小葵，没川木挡着，鸣人能护住她吗？颚之巨人马赛尔
在动漫中，迪鲁达不止把矛头对准一个人，为了实现目的，她可以对付在场所有人。文/颚之巨人马赛尔不少人认为，以鸣人的实力对付迪鲁达就跟玩儿似的，先前的狼狈只是假装，为的就是套话。这话说得没错，鸣人就是想要得到足够的情报，才跟迪鲁达虚与委蛇。然而，当迪鲁达突然变脸的时候，他没有足够的能力控场，而是落于被动。迪鲁达转而对付小葵，没有川木挡着，鸣人能护住她吗？1.jpg1****、从川木的手臂来看，迪鲁达的
爆改YOLOv8 | 利用AFPN增加小目标检测层(替换小目标检测头）
1，本文介绍这篇文章的改进机制是利用新推出的渐近特征金字塔网络（AFPN）来优化yolov8的检测头，AFPN的核心是引入一种渐近的特征融合策略，将底层和高层的特征逐渐整合到目标检测过程中。这种方式有助于减小不同层次特征之间的语义差距，提高特征融合效果，使得检测模型能更好地适应不同层次的语义信息。关于AFPN的详细介绍可以看论文：https://arxiv.org/pdf/2306.15988.p
Shell 脚本加密操作：让用户可执行，不可查看脚本源码 —— shc 实战避坑指南
在日常运维和开发中，Shell脚本常包含敏感信息（如数据库密码、API密钥、服务器IP等）。若直接分发脚本，源码暴露风险极高。此时，加密脚本（可执行但不可读）成为刚需。常见的shc工具可将脚本编译为二进制文件，实现“能执行但不可看”的效果。一、shc加密脚本的使用方法安装shc包管理器安装（推荐）：#Ubuntu/Debiansudoaptinstallshc#CentOS/RHELsudoyum
（连载）素女变女神彩虹电车1号
这次的培训老师有两个，佳佳负责绘本知识培训，还有一个老师负责其他方面的。第二天上午八点半之后，大家陆陆续续进入了会议室。佳佳坐在后面有点紧张。她八点就来了，提前试试电脑翻页笔等设备。然后就坐在最后一排安静地看书，子然在旁边画画。夏天的太阳爬得很快，八点多太阳已经升得老高了。阳光透过窗户洒进来，半个会议室都是明晃的光线。佳佳的位置刚好躲过了夏日炽热的光线。佳佳一直都是一个喜欢读书的人，此刻，她端坐在
法律 AcheflourLiu
法的概念1.法是一种行为规范【法规定了应为可为模式。】*考法:（1）法调整思想吗？（2）法是调整行为的唯一规范？2.法是由特定物质生活条件（经济基础）决定的。*考法:单选题（1）法由谁决定的？【经济基础】（2）法的最终决定因素是什么？【物质制约性】3.法是统治阶级意志的体现。理解:法是统治阶级实现统治的工具。*考法:单选题，会判断选项的说法是对还是错*（1）法体现（统治阶级）的意志。统治阶级是指（
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite