ldds_520

大众点评网平台架构组高级工程师 hadoop 应用案例

大数据 hadoop 应用案例大众点评
===========================================================
大众点评网从2011年中开始使用Hadoop，并专门建立团队。Hadoop主分析集群共有60多个节点、700TB的容量，月运行30多万个Hadoop Job，还有2个HBase线上集群。作者将讲述这各个阶段的技术选择及改进之路。

2011年小规模试水

这一阶段的主要工作是建立了一个小的集群，并导入了少量用户进行测试。为了满足用户的需求，我们还调研了任务调度系统和数据交换系统。

我们使用的版本是当时最新的稳定版，Hadoop 0.20.203和Hive 0.7.1。此后经历过多次升级与Bugfix。现在使用的是Hadoop 1.0.3+自有Patch与Hive 0.9+自有Patch。考虑到人手不足及自己的Patch不多等问题，我们采取的策略是，以Apache的稳定版本为基础，尽量将自己的修改提交到社区，并且应用这些还没有被接受的 Patch。因为现在Hadoop生态圈中还没有出现一个类似Red Hat地位的公司，我们也不希望被锁定在某个特定的发行版上，更重要的是Apache Jira与Maillist依然是获取Hadoop相关知识、解决Hadoop相关问题最好的地方（Cloudera为CDH建立了私有的Jira，但人气不足），所以没有采用Cloudera或者Hortonworks的发行版。目前我们正对Hadoop 2.1.0进行测试。

在前期，我们团队的主要工作是ops+solution，现在DBA已接手了很大一部分ops的工作，我们正在转向solution+dev的工作。

我们使用Puppet管理整个集群，用Ganglia和Zabbix做监控与报警。

集群搭建好，用户便开始使用，面临的第一个问题是需要任务级别的调度、报警和工作流服务。当用户的任务出现异常或其他情况时，需要以邮件或者短信的方式通知用户。而且用户的任务间可能有复杂的依赖关系，需要工作流系统来描述任务间的依赖关系。我们首先将目光投向开源项目Apache Oozie。Oozie是Apache开发的工作流引擎，以XML的方式描述任务及任务间的依赖，功能强大。但在测试后，发现Oozie并不是一个很好的选择。

Oozie采用XML作为任务的配置，特别是对于MapReduce Job，需要在XML里配置Map、Reduce类、输入输出路径、Distributed Cache和各种参数。在运行时，先由Oozie提交一个Map only的Job，在这个Job的Map里，再拼装用户的Job，通过JobClient提交给JobTracker。相对于Java编写的Job Runner，这种XML的方式缺乏灵活性，而且难以调试和维护。先提交一个Job，再由这个Job提交真正Job的设计，我个人认为相当不优雅。

另一个问题在于，公司内的很多用户，希望调度系统不仅可以调度Hadoop任务，也可以调度单机任务，甚至Spring容器里的任务，而Oozie并不支持Hadoop集群之外的任务。

所以我们转而自行开发调度系统Taurus（https://github.com/dianping/taurus）。Taurus是一个调度系统，通过时间依赖与任务依赖，触发任务的执行，并通过任务间的依赖管理将任务组织成工作流；支持Hadoop/Hive Job、Spring容器里的任务及一般性任务的调度/监控。

图1 Taurus的结构图

图1是Taurus的结构图，Taurus的主节点称为Master，Web 界面与Master在一起。用户在Web界面上创建任务后，写入MySQL做持久化存储，当Master判断任务触发的条件满足时，则从MySQL中读出任务信息，写入ZooKeeper；Agent部署在用户的机器上，观察ZooKeeper上的变化，获得任务信息，启动任务。Taurus在2012年中上线。

另一个迫切需求是数据交换系统。用户需要将MySQL、MongoDB甚至文件中的数据导入到HDFS上进行分析。另外一些用户要将HDFS中生成的数据再导入MySQL作为报表展现或者供在线系统使用。

我们首先调研了Apache Sqoop，它主要用于HDFS与关系型数据库间的数据传输。经过测试，发现Sqoop的主要问题在于数据的一致性。Sqoop采用 MapReduce Job进行数据库的插入，而Hadoop自带Task的重试机制，当一个Task失败，会自动重启这个Task。这是一个很好的特性，大大提高了Hadoop的容错能力，但对于数据库插入操作，却带来了麻烦。

考虑有10个Map，每个Map插入十分之一的数据，如果有一个Map插入到一半时failed，再通过Task rerun执行成功，那么fail那次插入的一半数据就重复了，这在很多应用场景下是不可接受的。而且Sqoop不支持MongoDB和MySQL之间的数据交换，但公司内却有这需求。最终我们参考淘宝的DataX，于2011年底开始设计并开发了Wormhole。之所以采用自行开发而没有直接使用DataX主要出于维护上的考虑，而且DataX并未形成良好的社区。

2012年大规模应用

2012年，出于成本、稳定性与源码级别维护性的考虑，公司的Data Warehouse系统由商业的OLAP数据库转向Hadoop/Hive。2012年初，Wormhole开发完成；之后Taurus也上线部署；大量应用接入到Hadoop平台上。为了保证数据的安全性，我们开启了Hadoop的Security特性。为了提高数据的压缩率，我们将默认存储格式替换为RCFile，并开发了Hive Web供公司内部使用。2012年底，我们开始调研HBase。

图2 Wormhole的结构图

Wormhole（https://github.com /dianping/wormhole）是一个结构化数据传输工具，用于解决多种异构数据源间的数据交换，具有高效、易扩展等特点，由Reader、 Storage、Writer三部分组成（如图2所示）。Reader是个线程池，可以启动多个Reader线程从数据源读出数据，写入Storage。 Writer也是线程池，多线程的Writer不仅用于提高吞吐量，还用于写入多个目的地。Storage是个双缓冲队列，如果使用一读多写，则每个目的地都拥有自己的Storage。

当写入过程出错时，将自动执行用户配置的Rollback方法，消除错误状态，从而保证数据的完整性。通过开发不同的Reader和Writer插件，如MySQL、MongoDB、Hive、HDFS、SFTP和Salesforce，我们就可以支持多种数据源间的数据交换。Wormhole在大众点评内部得到了大量使用，获得了广泛好评。

随着越来越多的部门接入Hadoop，特别是数据仓库（DW）部门接入后，我们对数据的安全性需求变得更为迫切。而Hadoop默认采用Simple的用户认证模式，具有很大的安全风险。

默认的Simple认证模式，会在Hadoop的客户端执行whoami命令，并以whoami命令的形式返回结果，作为访问Hadoop的用户名（准确地说，是以whoami的形式返回结果，作为Hadoop RPC的userGroupInformation参数发起RPC Call）。这样会产生以下三个问题。

（1）User Authentication。假设有账号A和账号B，分别在Host1和Host2上。如果恶意用户在Host2上建立了一个同名的账号A，那么通过RPC Call获得的UGI就和真正的账号A相同，伪造了账号A的身份。用这种方式，恶意用户可以访问/修改其他用户的数据。

（2）Service Authentication。Hadoop采用主从结构，如NameNode-DataNode、JobTracker-Tasktracker。Slave节点启动时，主动连接Master节点。Slave到Master的连接过程，没有经过认证。假设某个用户在某台非Hadoop机器上，错误地启动了一个Slave实例，那么也会连接到Master；Master会为它分配任务/数据，可能会影响任务的执行。

（3）可管理性。任何可以连到Master节点的机器，都可以请求集群的服务，访问HDFS，运行Hadoop Job，无法对用户的访问进行控制。

从Hadoop 0.20.203开始，社区开发了Hadoop Security，实现了基于Kerberos的Authentication。任何访问Hadoop的用户，都必须持有KDC（Key Distribution Center）发布的Ticket或者Keytab File（准确地说，是Ticket Granting Ticket），才能调用Hadoop的服务。用户通过密码，获取Ticket，Hadoop Client在发起RPC Call时读取Ticket的内容，使用其中的Principal字段，作为RPC Call的UserGroupInformation参数，解决了问题（1）。Hadoop的任何Daemon进程在启动时，都需要使用Keytab File做Authentication。因为Keytab File的分发是由管理员控制的，所以解决了问题（2）。最后，不论是Ticket，还是Keytab File，都由KDC管理/生成，而KDC由管理员控制，解决了问题（3）。

在使用了Hadoop Security之后，只有通过了身份认证的用户才能访问Hadoop，大大增强了数据的安全性和集群的可管理性。之后我们基于Hadoop Secuirty，与DW部门一起开发了ACL系统，用户可以自助申请Hive上表的权限。在申请通过审批工作流之后，就可以访问了。

JDBC是一种很常用的数据访问接口，Hive自带了Hive Server，可以接受Hive JDBC Driver的连接。实际上，Hive JDBC Driver是将JDBC的请求转化为Thrift Call发给Hive Server，再由Hive Server将Job 启动起来。但Hive自带的Hive Server并不支持Security，默认会使用启动Hive Server的用户作为Job的owner提交到 Hadoop，造成安全漏洞。因此，我们自己开发了Hive Server的Security，解决了这个问题。

但在Hive Server的使用过程中，我们发现Hive Server并不稳定，而且存在内存泄漏。更严重的是由于Hive Server自身的设计缺陷，不能很好地应对并发访问的情况，所以我们现在并不推荐使用Hive JDBC的访问方式。

社区后来重新开发了Hive Server 2，解决了并发的问题，我们正在对Hive Server 2进行测试。

有一些同事，特别是BI的同事，不熟悉以CLI的方式使用Hive，希望Hive可以有个GUI界面。在上线Hive Server之后，我们调研了开源的SQL GUI Client——Squirrel，可惜使用Squirrel访问Hive存在一些问题。

办公网与线上环境是隔离的，在办公机器上运行的Squirrel无法连到线上环境的Hive Server。
Hive会返回大量的数据，特别是当用户对于Hive返回的数据量没有预估的情况下，Squirrel会吃掉大量的内存，然后Out of Memory挂掉。
Hive JDBC实现的JDBC不完整，导致Squirrel的GUI中只有一部分功能可用，用户体验非常差。

基于以上考虑，我们自己开发了Hive Web，让用户通过浏览器就可以使用Hive。Hive Web最初是作为大众点评第一届Hackathon的一个项目被开发出来的，技术上很简单，但获得了良好的反响。现在Hive Web已经发展成了一个RESTful的Service，称为Polestar（https://github.com/dianping /polestar）。

图3 Polestar的结构

图3是Polestar的结构图。目前Hive Web只是一个GWT的前端，通过HAProxy将RESTfull Call分发到执行引擎Worker执行。Worker将自身的状态保存在MySQL，将数据保存在HDFS，并使用JSON返回数据或数据在HDFS的路径。我们还将Shark与Hive Web集成到了一起，用户可以选择以Hive或者Shark执行Query。

一开始我们使用LZO作为存储格式，使大文件可以在MapReduce处理中被切分，提高并行度。但LZO的压缩比不够高，按照我们的测试，Lzo压缩的文件，压缩比基本只有Gz的一半。

经过调研，我们将默认存储格式替换成RCFile，在RCFile内部再使用Gz压缩，这样既可保持文件可切分的特性，同时又可获得Gz的高压缩比，而且因为RCFile是一种列存储的格式，所以对于不需要的字段就不用从I/O读入，从而提高了性能。图4显示了将Nginx数据分别用Lzo、 RCFile+Gz、RCFfile+Lzo压缩，再不断增加Select的Column数，在Hive上消耗的CPU时间（越小越好）。

图4 几种压缩方式在Hive上消耗的CPU时间

但RCFile的读写需要知道数据的Schema，而且需要熟悉Hive的Ser/De接口。为了让MapReduce Job能方便地访问RCFile，我们使用了Apache Hcatalog。

社区又针对Hive 0.11开发了ORCFile，我们正在对ORCFile进行测试。

随着Facebook、淘宝等大公司成功地在生产环境应用HBase，HBase越来越受到大家的关注，我们也开始对HBase进行测试。通过测试我们发现 HBase非常依赖参数的调整，在默认配置下，HBase能获得很好的写性能，但读性能不是特别出色。通过调整HBase的参数，在5台机器的HBase 集群上，对于1KB大小的数据，也能获得5万左右的TPS。在HBase 0.94之后，HBase已经优化了默认配置。

原来我们希望HBase集群与主Hadoop集群共享HDFS，这样可以简化运维成本。但在测试中，发现即使主Hadoop集群上没有任何负载，HBase的性能也很糟糕。我们认为，这是由于大量数据属于远程读写所引起的。所以我们现在的HBase集群都是单独部署的。并且通过封装HBase Client与Master-Slave Replication，使用2套HBase集群实现了HBase的HA，用来支撑线上业务。

2013年持续演进

在建立了公司主要的大数据架构后，我们上线了HBase的应用，并引入Spark/Shark以提高Ad Hoc Query的执行时间，并调研分布式日志收集系统，来取代手工脚本做日志导入。

现在HBase上线的应用主要有OpenAPI和手机团购推荐。OpenAPI类似于HBase的典型应用Click Stream，将开放平台开发者的访问日志记录在HBase中，通过Scan操作，查询开发者在一段时间内的Log，但这一功能目前还没有对外开放。手机团购推荐是一个典型的KVDB用法，将用户的历史访问行为记录在HBase中，当用户使用手机端访问时，从HBase获得用户的历史行为数据，做团购推荐。

当Hive大规模使用之后，特别是原来使用OLAP数据库的BI部门的同事转入后，一个越来越大的抱怨就是Hive的执行速度。对于离线的ETL任务，Hadoop/Hive是一个良好的选择，但动辄分钟级的响应时间，使得Ad Hoc Query的用户难以忍受。为了提高Ad Hoc Query的响应时间，我们将目光转向了Spark/Shark。

Spark是美国加州大学伯克利分校AMPLab开发的分布式计算系统，基于RDD（Resilient Distributed Dataset），主要使用内存而不是硬盘，可以很好地支持迭代计算。因为是一个基于Memory的系统，所以在数据量能够放进Memory的情况下，能够大幅缩短响应时间。Shark类似于Hive，将SQL解析为Spark任务，并且Shark复用了大量Hive的已有代码。

在Shark接入之后，大大降低了Ad Hoc Query的执行时间。比如SQL语句：

select host, count(1) from HIPPOLOG where dt = '2013-08-28' group by host order by host desc;

在Hive执行的时间是352秒，而Shark只需要60~70秒。但对于Memory中放不下的大数据量，Shark反而会变慢。

目前用户需要在Hive Web中选择使用Hive还是Shark，未来我们会在Hive中添加Semantic-AnalysisHook，通过解析用户提交的Query，根据数据量的大小，自动选择Hive或者Shark。另外，因为我们目前使用的是Hadoop 1，不支持YARN，所以我们单独部署了一个小集群用于Shark任务的执行。

Wormhole解决了结构化数据的交换问题，但对于非结构化数据，例如各种日志，并不适合。我们一直采用脚本或用户程序直接写HDFS的方式将用户的Log导入HDFS。缺点是，需要一定的开发和维护成本。我们希望使用Apache Flume解决这个问题，但在测试了Flume之后，发现了Flume存在一些问题：Flume不能保证端到端的数据完整性，数据可能丢失，也可能重复。

例如，Flume的HDFSsink在数据写入/读出Channel时，都有Transcation的保证。当Transaction失败时，会回滚，然后重试。但由于HDFS不可修改文件的内容，假设有1万行数据要写入HDFS，而在写入5000行时，网络出现问题导致写入失败，Transaction回滚，然后重写这10000条记录成功，就会导致第一次写入的5000行重复。我们试图修正Flume的这些问题，但由于这些问题是设计上的，并不能通过简单的Bugfix来解决，所以我们转而开发Blackhole系统将数据流导入HDFS。目前Blackhole正在开发中。

总结

图5是各系统总体结构图，深蓝部分为自行开发的系统。

图5 大众点评各系统总体结构图

在这2年多的Hadoop实践中，我们得到了一些宝贵经验。

建设一支强大的技术团队是至关重要的。Hadoop的生态系统，还处在快速演化中，而且文档相当匮乏。只有具备足够强的技术实力，才能用好开源软件，并在开源软件不能满足需求时，自行开发解决问题。
要立足于解决用户的需求。用户需要的东西，会很容易被用户接受，并推广开来；某些东西技术上很简单，但可以解决用户的大问题。
对用户的培训，非常重要。

作者房明，大众点评网平台架构组高级工程师，Apache Contributor。2011年加入点评网，目前负责大数据处理的基础架构及所有Hadoop相关技术的研发。

转行大模型之从大数据到AI：我为何选择投身大模型领域程序员辣条大数据人工智能产品经理大模型教程大模型入门大模型学习
作为一名经验丰富的大数据开发工程师，我最近决定扩展自己的职业方向，转向大模型应用开发。这个决定源于对技术趋势的观察、对个人发展的思考，以及对我们行业未来的预判。让我从一个大数据工程师的视角，逐步分析这个决定背后的逻辑。目录1.技术演进：从大数据到大模型1.1大数据技术的发展现状1.2AI与大数据的融合1.3大模型：AI与大数据的集大成者2.技能迁移：大数据到大模型的自然过渡2.1数据处理能力的价值
Excel 的导入导出常用的技术栈
在JavaWeb项目中，Excel的导入导出是常见需求，技术栈丰富。以下是主流方案、优缺点及适用场景总结。一、主流技术栈对比表技术栈是否推荐支持格式特点/优势使用难度ApachePOI✅常用.xls、.xlsx功能全、稳定、低层操作，适合定制化中EasyExcel（阿里）✅强烈推荐.xlsx内存占用小，性能优越，适合大数据量导入导出简单JXL（已废弃）❌不推荐.xls太老旧，不支持.xlsx，功能
linux下的分布式Minio部署实践
Linux下的分布式Minio部署实践分布式Minio部署可以将多块硬盘（位于相同机器或者不同机器）组成一个对象存储服务，避免单机环境下硬盘容量不足、单点故障等问题。1.简介在当前的云计算和大数据时代，IT系统通常的设计理念都是无中心和分布式。Minio分布式模式可以帮助搭建一个高可靠、高可用、弹性扩展的对象存储服务。分布式部署，minio拓扑为Multi-NodeMulti-Drive(MNMD
“Redis缓存：掌握Redis常用五大数据类型“ 南石. 后端 #MySQL数据库进阶 #Redis 缓存 redis 笔记
目录1、Redis中String字符串1.1常用命令解释1.2原子性1.3具有原子性的常用命令1.4String数据结构2、Redis常用数据类型-List列表2.1概念2.2常用命令2.3数据结构3、Redis常用数据类型-Set集合3.1概念3.2常用命令3.3数据结构4、Redis常用数据类型-Hash哈希4.1概念4.2常用命令4.3数据结构5、Redis常用数据类型-Zset有序集合5.
元宇宙养老社区:数字化照护的创新实践 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 AI人工智能与大数据大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《元宇宙养老社区：数字化照护的创新实践》关键词元宇宙养老社区数字化照护虚拟现实人工智能大数据物联网摘要本文深入探讨了元宇宙养老社区的概念、技术架构及其在数字化照护中的应用。通过分析虚拟现实、人工智能、大数据和物联网等核心技术，本文详细阐述了元宇宙养老社区的架构设计、项目实施、运营管理与用户体验优化。同时，本文还展望了元宇宙养老社区的潜在市场、技术发展趋势以及未来挑战与机遇。文章目录《元宇宙养老社区
家用充电桩远程监控安全管理系统解决方案蓝蜂物联网物联网远程监控边缘计算物联网
家用充电桩远程监控安全管理系统解决方案在当今电动汽车日益普及的背景下，家用充电桩的安全管理成为了广大车主关注的重点问题。为了实现对充电桩的高效、精准、远程监控，一套完善的家用充电桩远程监控安全管理系统解决方案应运而生。本方案旨在通过先进的物联网技术、云计算、大数据分析以及人工智能等科技手段，构建一个集实时监测、异常预警、故障诊断、数据统计、远程控制于一体的智能化平台，确保充电桩的安全运行及用户充电
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
Hadoop入门案例 'Wu' 学习日常大数据 hadoop hdfs 大数据
Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送到相应的DataNode上。当客户端上传一个新文件时（比如输入某些日志），它会被分成固定大小（默认64MB）并进行数据复
为什么YashanDB数据库是大数据处理的理想选择？数据库
在当今大数据时代，如何高效管理和处理海量数据成为了许多企业的首要挑战。针对这一问题，选择合适的数据库系统至关重要。尤其是在大数据场景中，诸如数据存储、数据访问效率和并发控制等技术要求提高，给数据库的选择带来了更高的标准。YashanDB作为一款高性能数据库，以其独特的架构设计与一系列优秀的功能，成为大数据处理的理想选择。高度可扩展的部署架构YashanDB支持多种部署形态，包括单机部署、分布式集群
企业如何构建基于YashanDB的数据分析系统数据库
随着大数据时代的到来，企业面临的一个核心技术问题是如何有效、快速地进行数据分析以指导决策。一个重要的性能瓶颈在于数据库的查询速度和存储结构的设计。尤其在处理海量数据时，如何在保证数据查询性能的同时确保数据的准确性和完整性，这问题显得尤为重要。YashanDB作为一个高性能的数据库系统，通过其独特的体系架构和强大的数据存储及访问机制，为企业构建高效的数据分析系统提供了可靠的技术支持。YashanDB
AI+大数据：社交网络分析在金融风控中的完整流程 AI智能应用 AI大模型应用入门实战与进阶人工智能大数据 ai
AI+大数据：社交网络分析在金融风控中的完整流程关键词：AI、大数据、社交网络分析、金融风控、完整流程摘要：本文详细讲述了在金融风控领域运用AI和大数据进行社交网络分析的完整流程。通过通俗易懂的语言，从背景知识入手，解释核心概念，阐述算法原理，分享项目实战经验，探讨实际应用场景，推荐相关工具资源，展望未来发展趋势与挑战，旨在让读者全面了解这一复杂技术在金融风控中的应用。背景介绍目的和范围我们的目的
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
MapReduce分布式计算框架：从原理到实战 AI妈妈手把手 mapreduce 前端大数据分布式计算 python 人工智能
大家好！今天我们来聊聊大数据处理领域的一个重要框架——MapReduce。作为Google提出的经典分布式计算模型，MapReduce极大地简化了海量数据的处理流程。无论你是大数据新手还是有一定经验的开发者，这篇文章都会让你对MapReduce有更深入的理解。我们还会通过实际代码示例来展示它的强大功能！一、MapReduce是什么？想象你有一个装满10亿本书的图书馆，现在需要统计所有书中"大数据"
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
Redis总结傲祥Ax redis 数据库 Redis重点总结
一、Redis是什么？key-value形式的非关系型数据库，基于内存（64位系统默认是物理内存的四分之三），单线程多路io复用，通常当缓存使用，提高查询效率。二、为什么使用Redis？2.1快（内单异高算）内存存储，单线程模型，异步操作，高效的网络通信，优化的算法和数据结构2.2作用2.2.1五大数据类型Redis存储，key-value形式，value的五种数据类型String，List，Se
2025年智能计算与人机交互国际会议（ICHCI 2025）
2025InternationalConferenceonIntelligentComputingandHumanComputerInteraction【一】、大会信息会议简称：ICHCI2025大会地点：中国·温州收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等【二】、会议简介2025年智能计算与人机交互国际会议将在中国温州隆重召开。旨在为全球从事大数据、人
Spark on Docker：容器化大数据开发环境搭建指南 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 spark docker ai
SparkonDocker：容器化大数据开发环境搭建指南关键词：Spark、Docker、容器化、大数据开发、分布式计算、开发环境搭建、容器编排摘要：本文系统讲解如何通过Docker实现Spark开发环境的容器化部署，涵盖从基础概念到实战部署的完整流程。首先分析Spark分布式计算框架与Docker容器技术的核心原理及融合优势，接着详细演示单节点开发环境和多节点集群环境的搭建步骤，包括Docker
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
机器学习在智能制造业中的应用：质量检测与设备故障预测 Blossom.118 机器学习与人工智能机器学习人工智能深度学习神经网络机器人 sklearn tensorflow
随着工业4.0和智能制造的推进，制造业正经历着一场深刻的数字化转型。智能制造业通过整合物联网（IoT）、大数据和机器学习等先进技术，实现从生产计划到质量控制的全流程优化。机器学习技术在智能制造业中的应用尤为突出，尤其是在质量检测和设备故障预测方面。本文将探讨机器学习在智能制造业中的应用，并分析其带来的机遇和挑战。一、智能制造业中的质量检测（一）传统质量检测方法的局限性传统的质量检测主要依赖于人工检
基于 SASL/SCRAM 让 Kafka 实现动态授权认证 zlt2000 Java java springboot kafka
一、说明在大数据处理和分析中ApacheKafka已经成为了一个核心组件。然而在生产环境中部署Kafka时，安全性是一个必须要考虑的重要因素。SASL（简单认证与安全层）和SCRAM（基于密码的认证机制的盐化挑战响应认证机制）提供了一种方法来增强Kafka集群的安全性。本文将从零开始部署ZooKeeper和Kafka并通过配置SASL/SCRAM和ACL（访问控制列表）来增强Kafka的安全性。二
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
知识积累----空转转录因子TF活性的计算框架追风少年ii 空间数据分析 hotspot 傅里叶变换机器学习
作者，EvilGenius关于我们外显子的分析课程，我们来一次预报名吧，课表如下第一节：外显子分析基础知识与框架（包括基础文件的格式等）第二节：fastq数据处理到callSNV+基础认知（简单判断谱系突变和体系突变、以及GT:AD:AF:DP等基础信息）第三节（可能需要拆分成2节课）：各大数据库如何注释突变信息（clinvar、cosmic、gnomad、HGMD、hotspot、oncoKB、
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
鸿蒙开发必备技能：六种数据存储方式全解析+实战代码 harmonyos
摘要在当前多设备互联的时代，移动端应用不再局限于单一设备，而是需要在多个终端上保持状态一致、数据同步与持久管理。鸿蒙系统提供了多种数据存储机制，从轻量级状态存储到复杂的数据持久化方案，满足不同场景下的需求。本文将结合实战案例，深入讲解鸿蒙系统中的六大数据存储方式，并配有可运行的代码，帮助开发者快速掌握数据管理方法。引言随着鸿蒙系统的不断发展，越来越多的开发者开始构建面向多设备、多用户、多场景的智能
IT 行业深度洞察：从技术革命到产业重构的全景图谱 XQR.小白重构
摘要本文系统梳理IT行业的发展脉络，深入剖析云计算、人工智能、大数据、物联网等核心技术的演进逻辑与协同效应，揭示IT产业在数字化转型浪潮中的生态重构与价值创造。通过典型案例分析与数据支撑，探讨行业面临的技术挑战、伦理困境与全球化竞争格局，展望IT技术如何持续驱动社会变革与产业升级。全文结合2025年最新技术动态与市场趋势，为从业者、投资者与研究者提供兼具理论深度与实践指导的行业参考。目录摘要一、I
Python 爬虫实战：12306 订单记录爬取（登录态保持 + 订单数据可视化）西攻城狮北 python 爬虫信息可视化
引言在大数据驱动的今天，12306作为国内最重要的铁路出行平台，积累了海量的出行数据。对于广大用户而言，能够方便地查看和分析自己的出行订单记录，不仅有助于行程管理，还能为未来的出行规划提供有力参考。本文将详细讲解如何利用Python爬虫技术实现12306的模拟登录，爬取个人订单记录，并通过数据可视化技术直观展示出行情况。一、环境搭建与准备工作（一）Python环境配置确保本地已安装Python3.
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

大众点评网平台架构组高级工程师 hadoop 应用案例

你可能感兴趣的:(hadoop,大数据)