思动大数据

百分点数据科学实验室：基于数据驱动的销量预测模型建构

编者按：销量预测是企业生产经营中的重要环节，但由于未来市场需求和销量来源等存在诸多不确定性，为企业销量预测提升了难度，如何提升产品全生命周期智能决策分析越来越成为企业关注的重点。百分点数据科学实验室多年来在项目中积累了丰富的实践经验，总结了一套基于数据驱动的销量预测模型建构方法，本文将从预测目标、评估方法、案例应用及效果等方面进行分享。

一、销量预测的价值
1. 销量预测的商业价值

由于供应链的滞后性，企业需要根据未来一段时间内的市场需求制定尽量准确的销售计划，再根据销售计划制定生产和采购计划。但未来的市场需求是不确定的，如果企业高估市场需求，就会造成库存积压，进而承担库存成本（包括库存费用和资金成本）；如果企业低估市场需求，就会造成缺货，进而承担未实现销售的机会成本。这时，准确、高效地预测市场需求，即进行销量预测，就成为企业降低决策不确定性，最小化库存和机会成本的关键。

2. 数据驱动的销量预测

企业进行销量预测的传统方法是基于人工经验估计，也可以称为专家法。以一个消费品生产企业为例，制定销售计划有如下步骤：

（1）各个地区销售代表拜访当地客户收集需求意向，再根据经验判断，制定地区销售计划。

（2）总部将所有地区的销售计划汇总，得到全国销售计划。

（3）总部根据季度或月度业绩目标调整销售计划，再返回到地区进行确认。

（4）确认后得到最终的销售计划，交给生产部门。

上述流程本质上是通过收集客户的需求信息，再经过专家经验调整后得到未来销量的预测。这种专家法能够结合长时间积累的业务经验和人的逻辑判断能力，但完全依赖专家法有一定的局限性：

人工经验可能存在偏见（bias），忽略或放大某些影响销量的因素，例如总部调整销售计划时可能高估营销政策的影响。
专家法有较高的时间成本，无法对大量商品进行预测，例如对于一些销量很小的品规，地区销售可能选择忽略，不花时间采集信息。

数据驱动的销量预测可以解决上述问题。数据驱动的销量预测是指利用算法挖掘大量历史数据中可复现的规律，再用这些规律建立模型预测未来销量（图1）。

图1 数据驱动的销量预测

算法挖掘数据中规律的过程其实本质上和人工判断的原理类似，都是在可能影响销量的因素和销量之间建立联系。销量的影响因素包括：销量的历史趋势、周期性、节假日、产品属性、渠道属性、营销投入、竞争情况等（图2）。

图2 销量预测的影响因素

二、销量预测的难点

1. 世上没有水晶球

尽管销量预测十分重要，但在实践中进行高质量的销量预测并不容易，尤其是预测的准确率往往不尽如人意。在深度学习算法已经可以超越人类水平进行人脸识别的今天，为何销量预测仍然如此之难？在讨论这个问题之前，我们首先要明确未来销量不确定性的来源。不确定性可以分类三类（图3）：

图3 不确定性的来源

（1）未知但可知：指数据中的随机性，即噪音造成的不确定性。

（2）博弈结果：指系统内参与者对其他参与者行为的预期造成的不确定性。

（3）复杂系统：指复杂系统中极小参数变化经过非线性转换造成的“黑天鹅”类不确定性。

在这三类不确定性中，预测模型只适合解决第一类，而人脸识别就符合第一类不确定性：人脸的结构和特征千百年来变化非常缓慢。第二和第三类不确定性从定义上来说无法在历史数据中积累足够多的案例，预测模型也就无法学习相关规律。未来销量的不确定性恰恰不仅来自第一类不确定性。举例来说，竞争对手的行为（定价、新品）会影响企业的销量，但这是竞争对手的行为是基于企业本身策略的预期制定的（博弈结果），无法通过历史数据预测。“黑天鹅”类的不确定性就更容易理解，去年发生的新冠疫情就是一个鲜明的例子。换而言之，即使我们能收集图2中所有影响销量的因素，也不可能百分之百准确地预测销量。因此，在建立销量预测模型时，我们不能以一个理想的准确率作为目标，而是将模型与基线对比，评估模型带来的效率和准确率提升。

2. 预测、目标和计划

除了预测方法的局限性，销量预测的另一个误区是企业通常会混淆预测、目标和计划三者的关系，造成预测的边界模糊，在实践中无法展现价值。根据预测专家Hyndman[1]的定义：

预测（forecasting）是基于历史数据（历史销量）和未来可能发生的事件（营销投入），尽量准确地估计某个变量未来的数值（未来销量）。
目标（goals）是企业希望未来发生或达成的事件（销量增长30%）。
规划（planning）是企业对于预测和目标的应对措施，即需要做什么（营销投入增长15%）才能让预测和目标一致。

在实际项目中，企业一般会每个月制定下个月的销售计划。由于销售计划具有考核效力，下个月的实际销量和销售计划具有很高的相关性。因此，为了得到准确率较高的预测模型，建模人员通常会将销售计划作为特征加入销量预测模型。但销量预测模型的目的就是为了指导业务人员更加合理地制定销售计划，那么到底应该先有销量预测，还是应该先有销售计划？

出现这个问题的根本原因是没有区分预测、目标和规划。在上面的例子中，销售计划实际上是目标，也就是企业希望完成的销量。销量预测模型不应该使用销售计划作为特征，销售计划应该在预测结果的基础上制定。相应的，在评估模型表现时，也不能将模型的预测误差率同销售计划和实际销量的误差率直接对比。

我们使用销售计划作为特征是因为销售计划是一些通常无法观测到的变量的代理变量（proxy variable）。例如，为了完成销售计划，基层业务人员会加大拜访客户的频率，但拜访次数没有记录，所以模型无法捕捉这类信息。因此解决这个问题的根本方法是更加全面地收集数据。

三、销量预测解决方案

销量预测属于时间序列预测问题，时序预测通常采用传统时间序列模型，例如ETS和ARIMA，对单序列进行建模。为了提升准确率，可以进一步进行多个时序模型的融合。但该方法在销量预测领域有一定局限性。我们从分析销量预测的技术挑战出发，决定最终模型解决方案。

1. 大规模多层级多时序问题

问题描述：销量预测可以理解为一个多层级多时序问题。具体来说，销量可以根据产品、地理等维度划分为多个时间序列。以一个有两级产品（品类和品规）和两级地理（地区和门店）管理体系的企业为例，最细的时序维度是地区-门店-品类-品规。一个较大规模企业可能需要预测数万，甚至数十万个时序。因此，模型需要对大规模时序组合进行预测。

另一个问题是时序之间存在附属关系，例如品规属于品类，门店属于地区。建模时需要考虑时序之间的交互关系，并且保证附属关系成立，例如品规销量汇总等于品类销量，门店销量汇总等于地区销量。

解决方法：为了捕捉时序之间的交互关系，并且允许相同层级的时序共享信息，我们选择多时间序列联合建模的方法，不使用传统的单时间序列模型。具体来说，我们将最细维度时序（地区-门店-品类-品规）的全部数据输入模型，再通过特征工程提取时序类特征（图4）。在预测阶段，我们对最细维度时序预测结果进行汇总，得到更高层级时序（如品类和门店销量）。

图4 时序特征工程方法

由于以上建模方法针对最细维度时序，在汇总后，更高层级的预测不一定达到最佳效果。一种改进方法是对更高层级时序（品类或地区）分别单独建模，再用Forecast Reconciliation方法统一和优化各层级预测结果。

2. 多步预测问题

问题描述：多步预测是指我们关注多个目标，例如预测未来1-3个月每个月的向量。传统时序模型的应对方法是将T+1时间的预测结果作为T+2时间的输入值，用来进行滚动预测。这种方法的问题是可能造成预测误差累计。例如，如果模型有预测偏大的问题，那么每步预测时该问题都会放大。

解决方法：我们对每个预测目标时间（T+1，T+2等）分别建立模型，使多步预测更加稳定，代价是需要训练预测目标时间倍数的模型。

3. 间歇性需求问题

问题描述：对最细维度时序建模时，会出现部分时间销售量为零的情况，这种情况被称为间歇性需求，在销量预测领域是一个常见问题。训练数据中存在大量零值会造成模型偏见，降低准确率。

解决方法：我们采取两个步骤解决这个问题。首先，我们将有大量连续零值时序视为已停产状态，从训练数据中剔除，不对其进行预测。在筛选完时序后，还会有间歇性需求存在。我们根据实际数据情况采用以下方法或方法组合应对：

使用Tweedie Loss等对零值敏感的损失函数训练模型。
使用Hurdle Model，先训练一个分类模型预测销量是否为零，再训练一个回归模型预测在销量非零情况下的销量。

四、销量预测评估方法

销量预测模型的评估方法多种多样，可以分为技术指标和业务指标两类。

1. 技术指标

技术指标用来评估模型在验证集或实际生产中的预测准确率。最常用的技术指标是平均绝对百分比误差（MAPE），其定义如下：

MAPE的优点是作为一个百分比误差，非常易于业务人员理解。但MAPE有两个显著问题，导致在实际应用中会得到不直观的结果：

（1）MAPE是非对称的：当预测值大于实际值时，MAPE是没有上限的，而当预测值小于实际值时，MAPE最大为100%。

（2）MAPE在实际值为零时无法计算，这在间歇性需求常见的销量预测领域是严重问题。

为了解决上述问题，人们提出对称平均绝对百分比误差（sMAPE），但sMAPE存在自己的问题。

我们在实践中采取MAD Mean Ratio作为技术评估指标。该指标适用于间歇性需求场景，并且同样是一个百分比误差，易于理解。

2. 业务指标

业务指标用来评估模型应用后对业务产生的实际影响，是比模型准确率更加直观和有效的评估指标。业务指标需要根据具体业务设计，还是以消费品企业为例，与销量预测模型相关的业务指标包括库存周转率、订单拖欠率等。

五、对于业务设计的启示

根据项目实践中积累的经验，我们总结两点对于业务设计的启示：

（1）如果想最大程度挖掘数据中的价值，那么设计相关业务和IT系统时需要充分考虑数据分析和建模的需求。举例来说，一般业务系统的数据库设计不会考虑时间切片数据的保存，这就造成分析和建模时无法获取历史时点的数据，进而造成时间泄露等问题。

（2）销量预测是一种技术工具，需要和业务流程结合才能发挥作用。即使模型达到令人满意的准确率，如果混淆了预测、目标和规划，对模型产生不切实际的预期，或者模型结果无法被业务人员理解和接受，模型也不会对业务产生实际影响。

六、项目应用案例

1. 背景和需求

某医药企业生产数百种OTC药品，并通过多级分销商体系在全国进行销售。为了满足企业复杂的经营业务，供应链管理十分重要。该企业的供应链可以抽象为物料流和信息流，两者统称为产销协同链条，具体如下：

物料流：原料仓库-生产线-成品仓库-物流-渠道仓库-销售。

信息流：需求预测-渠道订单-总部计划-生产计划。

该企业产销协同链条面临以下问题：

（1）产销协同管理链条不同环节数据未打通。

（2）管理环节彼此独立，整个供产销协同执行过程预警信息不统一。

（3）销售预测不够快速和准确，供销协同动态调整不够快速。

针对第三点问题，实施项目的解决方案为基于历史销售和库存数据建立销量预测模型，以大幅扩展进行销量预测的品规范围，并且提供更加准确和更高频率的预测为目标。具体而言，由于该企业的最细管理粒度为地区-门店-品类-品规，我们需要对超过90,000个时间序列进行建模；预测频率为月度；预测周期为3-16个月。

2. 方案和效果

上述需求完全符合第三章节中描述的销量预测技术挑战，因此我们按照该章节提供的解决方案设计项目中的建模策略：我们对全部时间序列进行联合建模，对每个预测目标时间分别建立模型，并使用Hurdle Model应对间歇性需求问题。特征方面，我们使用基于销量、库存、营销政策等类型数据衍生出的数百个特征。算法方面，我们采用适合结构化数据并且高效的LightGBM。

利用时序交叉验证方法（Time-series crossvalidation），我们验证模型在历史数据上的MAD Mean Ratio表现，和采用预测模型之前的人工基准方法比较，模型在主要品规上降低了15%预测误差，取得较好效果。

参考资料

[1] Hyndman, R.J.,& Athanasopoulos, G. (2018) Forecasting: principles and practice, 2ndedition, OTexts: Melbourne, Australia. OTexts.com/fpp2. Accessed on <2021-03-23>.

百分点数据科学实验室成立于2015年，以“大数据科学+”为核心理念，致力于机器学习、深度学习及复杂统计理论方法的研究与创新，结合百分点科技集团业务优势，围绕应急风险预测、产业分析、区域经济分析、环境监测、消费者洞察、供应链优化、设备故障监测等业务场景，构建数据科学算法模型，落地智能决策应用、开展产学研合作、培养数据科学人才等。以AI和BI为重要支撑，数据科学实验室已服务数字城市、应急管理、生态环境、公共安全、零售、媒体出版、制造、汽车、金融等众多行业客户，帮助客户降本增效和科学决策。

大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
践行乡村支教，助力乡村振兴 bc1bd9748b57
在大数据时代，大量农村青年进城寻求机遇，在工资待遇环境各个方面追求改善，导致大批留守儿童与孤寡老人，教育环境差，师资力量薄弱，这些孩子的教育问题受到大众关注。同时，大学毕业生在求职时也更加倾向于留在大城市，发展较快的地方寻求更大的发展机遇。当然也不乏大学生回乡为新一代的成长奉献自己，通过支教或者直接就业的形式，为乡村孩子的成长奉献自己的力量。有一些有才华的人放弃自己在大城市继续深造的机会，专心于这
时序数据库：数据库领域的未来之星数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库时序数据库 ai
时序数据库：数据库领域的未来之星关键词：时序数据库、时间序列数据、物联网、大数据分析、数据库优化、TSDB、实时数据处理摘要：本文深入探讨了时序数据库(TimeSeriesDatabase,TSDB)这一新兴数据库技术。我们将从基本概念入手，分析时序数据库的核心原理和架构设计，详细讲解其特有的数据模型和存储机制。通过实际代码示例展示如何使用主流时序数据库处理时间序列数据，并探讨其在物联网、金融科技
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
老码农和你一起学AI：Python系列-Pandas大数据处理 chilavert318 熬之滴水穿石 pandas python
今天开始梳理一下pandas的大数据处理，在数据处理领域，Pandas凭借简洁的API和强大的功能成为Python开发者的首选工具。但当面对GB级甚至更大的数据集时，直接读取数据往往会触发“内存不足”的错误——这是因为Pandas默认将数据全部加载到内存中进行处理。此时，分块处理（Out-of-Core）技术就成为解决问题的关键。它通过将大文件拆分为小块，逐块加载并处理，最终整合结果，实现“用有限
关于线上技术学习的一点学习心得 GuangHui
我是**五期学员,和你分享一下我的学习心得,希望能够帮助到你.这是自己对于学习的思考和想法,因为我还在不断的学习和调整中,所以并不能说自己的所想都是正确的.我想即使我实现了成功的转行,也并不代表我说的我所选择的方式都是适合所有人的.每个人还需结合自己的实际情况,找到适合自己的最佳方法.我们一起努力.一.目标篇因为大数据需要学习的内容很多,所以学习过程中,一定要对进行定位,要做到有所取舍.针对自己的
贝融助手是什么？贝融助手是专业的大数据信用查询平台无忧达人
贝融助手是一个可以快速了解自己信用的工具，是一个生活中非常实用的小助手，信用是现在最重要的一个生活场景，人人都想有一个好的信用，贝融助手就是帮助我们查询自己信用的平台。贝融助手是一个非常专业的平台，贝融助手18年就上线了，到现在已经有很多年的历史了，在信用行业一直都是行业前三的平台，用户量也是非常的大，身边朋友都在用的平台。贝融助手查询入口放在文末了，划到文章结尾就可以看到查询入口贝融助手大数据信
从AWS MySQL数据库下载备份到S3的完整解决方案 AWS官方合作商数据库 aws mysql
本文将介绍两种主流方法将AWSRDSMySQL数据库备份下载到S3，适用于生产环境需求。方法一：通过RDS快照导出（AWS原生方案）适用场景：全量备份、大数据量、无需额外计算资源流程：创建数据库快照进入AWSRDS控制台→选择目标MySQL实例→点击"操作"→"拍摄快照"输入快照名称（如my-db-snapshot-2024）配置S3导出任务在RDS控制台左侧菜单选择快照→选择刚创建的快照点击"操
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
碳中和碳交易骗局揭晓！第七届内部操盘群伍戈被骗黑幕曝光!血泪事迹令人惊心! 昌龙律法
如今大家生活好了，手里或多或少有点闲钱了。就开始想着怎么赚更多的钱！这也使得各种投资市场很火爆，无孔不入的骗子们又暗戳戳上线了，利用人们对赚钱的渴望，打着网络投资的旗号实施诈骗。随着“互联网+”的发展，万物皆可“数字经济”的“数字大数据”投资项目走入现实生活中。但是有不法分子就利用了这一“商机”，将数字投资变为新型找形式，并且利用洗脑话术，核心骗术仍然是高额返利，让人不知不觉掉进提前布局的“陷阱”
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

百分点数据科学实验室：基于数据驱动的销量预测模型建构

你可能感兴趣的:(大数据)