csdn郭芮

链家网大数据平台枢纽——工具链

声明：本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅2017年《程序员》。
作者：吕毅，链家网平台架构师。目前负责链家网大数据平台，之前曾负责链家网基础服务平台建设。
责编：郭芮，关注大数据领域，寻求报道或投稿请联系[email protected]。

链家网于2015年成立大数据部门，开始构建基于Hadoop的技术体系，初期大数据部门以运营数据报表需求、公司核心指标需求为主。随着2015年链家网发力线上业务，toB与toC业务齐头并进，数据需求量激增的情况也随之在2016年突显，数据量增至PB级。我们开始思考如何改变现状，如何高效支撑未来可预见的众多数据需求。

基于ROLAP技术的报表平台

链家网大数据部门成立之初，面对着零散的数据需求，最早期的办法是配置定时任务跑脚本，将结果通过邮件方式发送给需求方。2015年期间，随着运营数据需求的增加、希望查阅数据的人员增多，邮件的方式不方便人员间信息传递，并且查找历史数据也不方便，在技术上也因数据相关人太多导致邮件发送阻塞。因此，考虑到运营数据需求、公司核心指标需求相对固定，并且维度可枚举，特在2015年基于ROLAP技术方案，搭建了早期的报表系统。

图1 链家网早期的报表系统

早期的报表系统，由数据开发工程师提交数据任务，通过配置Oozie定时任务，定时的基于Hive数据做ETL过程，将报表系统所需的数据推入关系型数据库（MySQL）中。该系统从接收需求到报表系统里看到数据，需要比较长的一段时间过程，涵盖过程如下：

沟通需求，由数据开发工程师理解数据需求；
对接数据，将数据源对接入HDFS；
构造数据，将数据加工处理到Hive中，逐层由STG到ODG，再到DW层；
数据任务，数据开发工程师根据需求方需求、DW层数据，编写基于Oozie的调度任务；
发布任务，将Oozie调度任务发布到线上，定时执行，数据运行结果将被推送到MySQL；
数据展示，由自研的报表系统，根据需求方展示需求，添加维度筛选能力，开发一些对结果数据的再加工程序，部署上线。

流程过程较长，角色间传递信息较多，前后依赖太强，都是制约当时报表系统快速产出数据的根本问题。该系统在之后的迭代中，通过增加选取MySQL数据、自助勾选维度，实现了自助报表系统，命名为“地动仪”并服务至今。然而，流程长、传递信息多、依赖强的问题依旧没有根本解决，对于逐渐增多的数据分析需求，更不能及时响应。
地动仪在一定程度上解决了邮件方式的弊端，提供Web界面化的查询，支持历史查询和多人使用。但对于非订制化需求、数据探索需求、数据分析需求支持的力度并不好。我们开始规划更好的数据分析平台服务。

链家网大数据平台的诞生

大数据工作划分，通常分为大数据应用、大数据平台两大部分。常见的大数据应用形态有数据挖掘、数据分析、个性化推荐、数据报表等，大数据应用形式相对更多样，可以根据业务不同而有具体的大数据应用产品。大数据平台，在一家公司中则应相对统一，以方便做好公司统一的数据接入规范、统一的数据管理机制、统一的数据处理能力等，做好数据管控。
因此，在对历史大数据架构进行梳理后，链家网将原有大数据部门工作细化，将大数据应用交由业务线团队或其他技术团队承担，便于业务线开展多样化的数据工作，同时将大数据部门聚焦于构建公司统一的大数据平台，负责公司内各部门数据相关需求的统一规划与实现，建设公司统一的数据仓库与数据服务。至此，链家网大数据平台团队诞生，我们开始着手建立平台，支持好未来公司内对数据使用上的各类需求。

在2016年中期，通过梳理各部门数据需求，将数据需求分类为：数据探索需求、报表需求、数据分析需求、数据API需求这四类。为满足这些数据需求，我们相应规划了下面这些数据产品：

AdHoc系统：解决数据探索性需求，基于SQL查询，查询速度要求高；
地动仪：解决报表需求，承接较固化报表需求、公司级报表需求；
BI产品：解决数据分析需求，支持多维查询，支持数据分析中常用的下钻、上卷等功能；
数据API：解决数据API需求，大数据API统一出口，支持各部门的格式化数据获取。

结合数据产品层面的规划，大数据平台在技术工作上做了重新规划，技术工作上划分出了四个部分：平台服务、数据管理、工具链与集群。其中平台服务包含报表系统、BI系统与大数据API；大数据工具链包括OLAP引擎、即席查询AdHoc系统、调度系统三部分；大数据集群层面除集群性能、稳定性工作外，还包括集群安全、集群资源隔离两部分；贯穿服务、工具链、集群三层的数据管理部分，更加关注数据治理，内含元数据管理、指标管理、数据权限管理三大数据管理工作。技术工作划分情况如图2：

图2 链家网大数据平台

大数据平台的建设过程，是由下而上逐步完成的。首先要有Hadoop集群，在有HDFS与Hive后，才能开展数据接入工作，才能基于集群建设工具链；当工具链部分的OLAP引擎构建好，才有上层BI、报表系统和数据API，只有AdHoc能力构建好，才能提供基于SQL的数据探索平台，工具链中特别需要建设好调度系统，才能在实现好数据ETL任务的同时，管控数据流向与数据关系。最后则是服务层面的建设，重心在于迎合需求的同时，服务做得更加易用。数据管理系统会穿插于整个大数据平台中。

大数据平台中衔接服务与集群的枢纽——工具链，正是整个平台能力的传送带，它肩负着将大数据能力输送到上层服务层的重任，也承担着上层多项服务被使用时的数据能力支持。

建设大数据平台枢纽——工具链

大数据平台内部工作，完全可以简单划分为集群与服务两部分，为何要在它们之间构建一层工具链层呢？由图1可以看到，原大数据架构中，因产品层面单一，数据从收集入HDFS后，数据流向单一，均由Oozie调度任务从Hive获取数据，并向上推送。考虑到平台服务层面的多个产品形态，数据流向也需扩展才能满足产品所需能力，而数据流的管理与集群工作强制规划在一起，太过生硬。故全新开辟一层工具链层，通过借助集群能力，通过或使用开源或自研，来扩展数据转换与输出的能力，提供更多种的数据流形式，以满足上层数据服务需求。

对于工具链层面的设计，我们按照数据流向设计了下图中的工具链结构：

图3 大数据工具链数据流向规划

数据探索类需求

数据探索类需求，即数据查询需求，若都基于Hive采用MapReduce运算，速度上会大大影响用户的使用体验，然而即席查询AdHoc技术方面，Facebook开源的基于内存计算的Presto进入了我们的视野，考虑到Presto与Hive均为Facebook开源技术，在SQL兼容性方面通用性更强，特对Hive、Presto、Spark在SQL on Hadoop方面进行测试对比：

数据样本：2000万行数据集、7000万行数据集；
SQL样例：简单SQL（select count）、复杂SQL（线上真实SQL）；
机器资源：
Hive：3台机器；
Spark：4个节点；
Presto：3个节点，每节点最大内存4G。

通过多次测试结果显示，在处理速度方面，Presto < Spark SQL < Hive，大部分情况下，Presto时间开销上远少于Hive SQL，速度优势稍微好于Spark SQL。考虑到公司内探索性数据查询需求由人发起，数量可控，Presto技术选型完全满足我们对响应速度的要求。故采用Presto引擎搭建AdHoc平台，AdHoc的Web界面我们通过自研，除基础的数据查询功能外，实现了数据导出、转发、生成报表等功能，其中生成报表功能与调度系统打通，将数据探索工作成果进一步延伸，由AdHoc发起的调度任务，则是使用MapReduce离线运算。关于Presto UI部分，Airbnb开源的Airpal界面简洁清晰，也是不错的选择。

图4 Airbnb开源的基于Presto的UI界面

数据分析类需求

数据分析性需求按照工作方式细分，还可以分为非技术人员使用Web工具分析数据、技术型人员直连Hadoop集群提交分析任务两种类型。前者更多是运营、研究院、产品线数据PM等角色使用，后者则是做数据挖掘、推荐的工程师们在使用，对于工程师们，我们内网开放集群运算能力，供工程师们提交任务，通过集群中的资源隔离保障大家的任务高效运行。工具链中，则更关注前者的分析类场景，如何方便地满足。

非技术人员的数据分析需求，相对于比较固话的数据报表型需求，指标、维度的组合上希望灵活性更高，并且有着下钻、上卷分析数据的需求，更多维的查询数据。因为分析工作一般是连续查询数据，所以对于查询速度也有一定的期望。

鉴于此，我们考虑通过预置数据的方式，通过空间换时间，来解决查询速度问题。对于多维查询需求，我们考虑通过构建多维Cube方案解决。这正是MOLAP解决数据查询问题的方式，而MOLAP方案的有限技术选型中，我们更看好Apache Kylin项目。

Apache Kylin项目的一些特性，匹配我们的数据需求以及我们当时的现状。数据需求已经梳理清晰，要快、要多维查询，Kylin项目对于已创建了Cube并构建好数据的数据集上，提供亚秒级的快速查询。并且Kylin还提供工具方便构建Cube、提供API方便对接上游BI产品。另一方面我们当时的现状是，海量数据库方面我们拥有稳定且调优过的HBase集群，这恰巧是Apache Kylin所依赖的数据库选型。综合这些情况，我们通过调研Kylin系统自身能力、Kylin与Sarku的对接情况，以及有Apache Kylin研发团队成员现场交流，逐步启动了基于Kylin的MOLAP引擎构建。预计不久我们将以Kylin为基础，为BI产品、数据API两项数据平台服务提供数据查询能力，以满足公司内的多维数据分析需求。

通过MOLAP建设，与原有地动仪ROLAP相辅相成，面向公司内有数据分析诉求的同事，提供更全面的数据分析平台。

调度系统

调度系统，是大数据工具链的核心环节，乃至是大数据平台化的基础。数据ETL任务完全基于任务调度在有计划地执行，数据任务的关系、数据血缘也需要基于调度系统的能力来自动化构建。

在链家网大数据平台建设之初，最先对原有的Oozie调度系统进行调研分析，发现Oozie与Hadoop集群绑定太过紧密，任务间的状态传递必须依赖HDFS中的文件状态来传递任务状态，这导致一些数据任务需要我们用Hack的手段处理，例如我们的任务是定时“先将Hive数据导到MySQL，再运行一个远程服务器脚本对MySQL统计数据，再将脚本统计的结果发送到[email protected]邮箱”，这样的需求，整个过程没有产生HDFS文件的必要，但在使用Oozie时，我们不得不在每一步执行完后在HDFS中创建文件以便传递信息。

我们已经可预见未来数据任务需求会有所增加，随之而来的数据任务种类也将会扩充，若不做调度系统上的改变，大数据平台的数据任务能力，将会受限于Oozie的使用场景，这与平台设计理念不符，工具应当更好的支持平台建设，而非阻碍平台发展。所以在那时，我们决定自研大数据调度系统，在参考了行业内一些调度系统解决方案的同时，我们梳理了现有的任务种类与可能的未来需求，逐步排期的实现调度系统必须的两大环节：调度环节、执行环节，并且抽象的设计了他们之间的传输协议，为未来扩展新型执行单元提供了可能。

图5 调度系统前端功能

图6 调度系统后端能力

工具链作为数据驱动纽带，工具化的为上层平台服务提供各类能力，上层平台服务包装大数据平台能力，开放给用户使用。围绕着工具链的建设，大数据平台较改造前的数据加工模式，提供了更丰富的上层数据服务。通过Apache Kylin技术构建MOLAP引擎，与原有的ROLAP引擎相辅相成，搭配基于Presto的AdHoc服务，提供了一站式的快速数据查询、分析平台，并且提供了统一的大数据API，为公司各业务线、数据分析团队、数据应用方提供高可用稳定的数据格式化出口。随着调度系统的逐渐成熟，工具链层面的建设逐渐完善，平台化的大数据服务，整体较从前有全面的改善。链家网的大数据工作逐渐从报表阶段，步入了平台化自助服务的阶段。

技术挑战

当然，在建设大数据工具链的过程中，依然还有不少技术问题需要攻坚。例如Presto中还未完全兼容Hive SQL语法，需要涉及到Presto SQL解析器部分的调整工作，又例如Kylin如何能够根据指标系统中的指标自动构建Cube，需要考虑打通指标系统与Kylin系统，或通过自动化的程序来避免数据开发人员的重复操作。工具链中的技术挑战还有不少，但我们清晰的发展路线，让我们有坚定的信心去逐个攻克，也欢迎有志之士加入，一同建设链家网大数据平台。

大数据平台的规划

目前大数据工具链的技术问题，在陆续解决的同时，我们的平台服务、集群、数据管理相关的工作也都在紧锣密鼓的进行中。整体大数据平台长线的一些工作，也在逐渐规划着，例如自动化构建数据血缘、调度系统中任务DAG实时关系图、MOLAP与ROLAP的融合、数据API的全自助服务等技术问题。相信未来半年到一年的大数据平台发展过程中，在将平台服务包装的更为优秀的同时，将会积累更多实用的技术沉淀，促成公司、团队、个人共同成长与进步。

在建设链家网大数据平台期间，我们与百度、美团、滴滴和Kyligence有着良好的沟通交流，他们在大数据平台上的沉淀与经验在平台设计规划阶段，对我们的帮助很大，我们也将会在建设链家网大数据平台的同时，通过技术分享的方式与行业内大数据相关的朋友分享交流，帮助营造行业内大数据领域共同进步的良好氛围。

订阅2017年程序员（含iOS、Android及印刷版）请访问 http://dingyue.programmer.com.cn

【订阅咨询】QQ：2251809102 电话：010-64351436

想了解更多大数据相关资讯？立即扫码关注吧。

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
凤凰公园吴侬暖语sym
凤凰公园距离我们家880米，大概步行12分钟就到了，这是我们每天饭后散步或者闲暇时的去处。现在夏季徬晚时分广场舞大妈们总是热情非凡，那里的大门口就是一个好地方，每天总有两拨人在那踩着节奏翩翩起舞呢！而且一路上，从我们小区到公园，或者从昆仑西苑沿河到公园，都是饭后锻炼的人们，川流不息，老人小孩，年轻人，…！哪哪都是。最早家乡的公园，所有公园都是要收门票的，那时候也就是休息天会有人花钱去转转，平时一般
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
似乎，发生了很多事情阿皮Ponder
似乎，有很多事情正在发生。今天，我跟夫人陪着孩子走进来幼儿园，人生头一回以孩子家长的身份参加了小小的班级家长会。在幼儿园，遇见老同学。从2017年开始失联，因为对方遇到了一些事情，跟大家都失去了联系，今日再见面，分外激动，他拉着我一直聊，一直聊。感谢我们的孩子。孩子有点咳嗽，去医院做了检查。叔叔家的两个妹妹开始了高中生活，新的开始。过去看望，遇到一位老师，很是面熟。咨询之下，果然，曾经初中母校的老
百善孝为先杜友顺
2018年11月29日天气~晴星期四找点空闲找点时间领着孩子常回家看看带上笑容带上祝福陪同爱人常回家看看家，永远是儿女们幸福温暖的港湾，那里有我们日夜思念的父母，有着彼此的牵挂，无论走到哪里，家永远是避风雨的港湾。今天没事，和媳妇回了趟老家，看看父母，回到家，房间里不算凌乱，可是细心的我发现有的地方已经沾满了灰尘，桌子上父亲不离手的烟灰缸也弹满了烟灰。几个马上就要腐烂掉的水果蔫耷的搭拉着脑袋躺在了
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
似乎老是忘记什么东西灰台
S带上了耳机，眼前的一切都与她隔绝开来。虽是初春的好天气，花都开的正鲜艳，行人也都驻足欣赏，还有不少怀着好心情的年轻人在花树下打闹。不过S似乎并不在意这些，连耳机传来的rap也没有调动起她的兴致。一瞬间，心脏好像变成了黑洞，“啊，我身边还有几个人呢，似乎没有了吧”。阳光的温度覆盖到了脖子上，S抬头看了看开满花的树，“我妈好像还挺喜欢花的”，S随手拍了一张照片，微信发到自己一家三口的群里。过了一会，
福袋生活邀请码在哪里填写，福袋生活app邀请码使用教程小小编007
很多人下载福袋生活后，注册使用时需要填写邀请码。因为福袋生活是注册邀请制，所以首次使用填写邀请码才可以正常登录使用。福袋生活是广州市福袋生活信息科技有限公司旗下一家多元化社交电商导购平台，以APP为载体，社群为媒介，汇集衣食住行、吃喝玩乐生活服务板块，使用福袋生活可以领到淘宝，拼多多等电商平台的商品优惠券和返利，还可以兼职去分享赚钱。我为什么从福袋生活转到果冻宝盒呢？当然是因为福袋生活返利更高，注
《大兴安岭猎人传说》今年最好看的东北鬼怪故事，很优秀一部电影
《大兴安岭猎人传说》是最新上映于愚人节的网剧，别看是网剧却远超出我的个人预料。该片由民俗故事改编，这点就很吸引人，因为民俗故事口口相传，比那些编造而成的鬼故事更具有了真实性，网大做的电影还不错哦，如果可以我打四星好评。大兴安岭的故事我们经常听老人提起，那里有原始大森林，物产丰富，更流传着精灵怪物的传说。什么红黄白柳灰，出马仙、人参娃娃的故事层出不穷，以大兴安岭为背景的故事真不少。可很多鬼片看到最后
日常演播练习0822 开阳春天
日常演播练习0822一、绕口令练习司小四和史小世，四月十四日十四时四十上集市，司小四买了四十四斤四两西红柿，史小世买了十四斤四两细蚕丝。司小四要拿四十四斤四两西红柿换史小世十四斤四两细蚕丝。史小世十四斤四两细蚕丝不换司小四四十四斤四两西红柿。司小四说我四十四斤四两西红柿可以增加营养防近视，史小世说我十四斤四两细蚕丝可以织绸织缎又抽丝。二、文本练习狗熊是动物街有名的美食家，它吃得多所以长得胖，它能吃
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
2018-12-07 旅一06丁琪琪
旅管一班6组学号链接06丁琪琪16家国鑫26孟令慧30王思宁36温红丽46朱赵筱楠
女儿考研完报考雅思捡拾流年
是否我过于焦虑？会不会无形间让女儿觉得压力太大了啊。2022年对于我们家来说是不平常的一年。女儿今年大四，为了准备考研，暑假也没回家，年初去了学校到了年末才回家。女儿自己一个人面对考研，没有参加培训，大四学校作业论文等课业也多，她同时也是很努力复习考研的。在疫情开放很多羊的时期，女儿终于顺顺利利参加12月24、25号的考研，我们和家人都觉得女儿回家来要好好休息调养。可女儿回到家，我再查阅考研信息，
《度五行》生活报报甲午62：不通痛苦，太通也痛苦，要健康快乐，需要通体舒畅。 YangduSam2021
220809壬寅戊申甲午，《度.生活五行》:天干土克水，水生木，木克土。地支寅申冲，寅午合。20220809，周二，兴大上海六班2512天，西交大2013上海班3212天，后TA15332天，度生活619天，今天拜访了一家有趣且当红产业的新创公司AK。AK一开始从事深海新能源储存与供电设备的研发生产制造，2年前开始做移动与家庭储能设备的研发生产制造。觉得有趣是因为这是笔者认知里用科技做降维打击的公
红手套节马小媛为中国城市环卫者公益发声：今天我手红疏狂君
#红手套节#公益活动，线头公益以及同多方资源的共同努力我们邀请到了线头公益大使马小媛马小媛，1993年5月3日出生于江苏省南京市，中国内地新生代女演员。2015年马小媛参演网剧《余罪》，饰演警校校花安嘉璐的闺蜜。2016年马小媛主演系列电影《丽人保镖》中女一号林欢馨，正式出道。此后，马小媛陆续接演了电视剧《警花与警犬2》，在网剧《你美丽李美丽》中担任女主角李美丽。拂晓，当你还在睡梦中时，这座城跟你
戴先华2021.4.18《我的第129篇幸运作业》 39f4298779c4
2021.4.18今天小宝和大表姐出去玩，我和婆婆在烧饭，突然小宝冲了进来，告诉奶奶说：“奶奶，奶奶姐姐在亭子里倒了”我一下子看出小宝的紧张，马上跑了出去，发现大外甥女又患了病，看起来心疼极了，整个人面朝地下的倒下了，在地上不停的抽搐，额头摔了一个大泡，整张脸都是紫色的，眼睛边上都出血了，真的是非常紧张，这么多年姐姐两夫妻就这样看着自己的孩子一次次晕倒，姐夫这么多年，年年都拿不出钱回家，使得家一次
晓盈的感恩日记第5天 fanny晓
2021年2月5日周五晴天今天是特别的一天，在家里参加完公司线上的职工大会，下午跑到妈妈家去户外劳作了。我感恩家公早上为我准备早餐，今天早读后回笼觉起晚了，又赶上开线上会议，爷爷帮我准备了早餐。我感恩儿子，早晨醒来发现我在早读，还愿意陪伴我早读，一直陪伴我半个小时。我感恩儿子和侄子，下午去户外劳作时来帮助我，一个帮我捡土豆，一个帮忙浇水，很难得的田园生活让孩子们体验到了，一直以来都想让孩子来体验，
疯丫头（四岁）明媚如月
妞妞在姥姥家呆了十多天，姥爷问她，想不想爸爸，妞妞说想，姥爷说，我把你送回去吧，妞妞说，不行，我要等爸爸来接我。让妞妞吃东西，她不吃，说再吃会吃成大胖子。妞妞不喜欢上幼儿园，马上要开学了，我引导她，说一些幼儿园的趣事儿，她打断我，说，别说啦！好吧，我闭嘴。还总说，妈妈不上班，陪她玩儿。我总说她长了张女孩儿脸，内心住着个女孩子，甚至是个猴子，淘的不要不要的。大中午的，晒着毒辣的大太阳在院子里玩儿水，
第1步win10宿主机与虚拟机通过NAT共享上网互通学习3人组大数据大数据
VM的CentOS采用NAT共用宿主机网卡宿主机器无法连接到虚拟CentOS要实现宿主机与虚拟机通信，原理就是给宿主机的网卡配置一个与虚拟机网关相同网段的IP地址，实现可以互通。1、查看虚拟机的IP地址2、编辑虚拟机的虚拟网络的NAT和DHCP的配置，设置虚拟机的网卡选择NAT共享模式3、宿主机的IP配置，确保vnet8的IPV4属性与虚拟机在同一网段4、ping测试连通性[root@localh
难念的经轩辕一风
今天中午从公司出来办事，站在马路旁边招手打的。不久来了一辆，路边停下，坐上，一转脸准备告诉师傅去哪的地址，惊呼，姚师傅？啊，咋是你？这也太巧了吧。在上海，出租车少说也有上万辆吧，而且地方这么大，况且在我出来的这个时间点上碰上了，有时候解释不了，就是那么巧。我和姚师傅咋认识的呢？因工作的原因，我要经常去外地出差，家住的离火车站比较远，每次都是打车过去。可能家在郊区的原因，平时门口公路上的出租车并不多
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc