erliang20088

hadoop编程初步介绍

近来工作当中用到hadoop之mapreduce、hive、hbase等做大数据的离线数据分析与挖掘颇多，在进一步巩固了自身对于hadoop相关研发的理论与实战水平，在空闲之余会写一系列相关的编程博文。鉴于前边已有一些博文介绍名词概念、基本理论等，本篇作为开篇博文，重点从开发流程中去梳理hadoop编程做大数据分析挖掘的标准或常用流程。

1、hadoop研发核心流程

（1）数据源

* 来源：数据来源主要分三种情况，一是，自有平台产生，像腾讯、淘宝。二是，靠网络采集系统，像百度、谷歌。三是，像第三方数据供应商提供，如运营商数据、开源大数据共享集合等。

* 存储：有了数据来源，要想进行挖掘必须要存储于hadoop的分布式文件系统中，即hadoop distributed file system,即hdfs。

（2）数据的处理流程逻辑

严格来讲，（1）、（2）两点是分离的，只是存在一个前后处理的顺序关系。数据是千差万别的，本篇重点讲解处理流程与逻辑，即mapreduce开发环节。

mapreduce开发主要是四个环节：map-->combine-->shuffle-->reduce。

(2.1)其中的map和combine是属于map阶段，

map：即将原始的输入数据split分块打散的过程，也是大数据“分而治之”、“分流”的思想的体现。将海量数据通过设定的拆分规则，拆分成小的数据块block。然后分配给各map进程并行处理，并将本地计算的数据暂存到本地的临时数据目录，待该输出被reduce所使用完毕，hadoop系统会主动将map产生的这些临时文件删除。

combine: 即合并的过程。map的输出会作为reduce的输入，而map、reduce不一定在同一机器节点中，这样势必会经过网络传输。相对于计算而言，网络传输是比较费时的，故为了减少map->reduce的零散的大量小数据块的传输耗时，hadoop提供combiner来合并map输出的零散小数据，从而减小网络传输，提高整体的效率。

(2.2)shuffle

shuffle是中间阶段，负责map的各个节点的输出经过hash处理后映射到相应的reduce的过程。map和reduce并不是一一对应的，而是按照一定的规则将map上的输出的key/value通过一定的hash计算映身到固定的reduce进程中，这样也就保证了相同的key必然会输出到相同的reduce进程中，从而完成了以key为中心的(key,value list)的汇聚。

（2.3）redcue

即对map打散计算完成后，在此对结果合进行汇聚计算与输出。

例如，在经典的wordcount的mapreduce使用实例中，是对以上四步的准确反应。其代码详解在历史博文中有介绍，有疑问题可以详查看看。

2、hadoop开发的标准编程

2.1 关键模块

任务驱动类Driver：即指定要做的hadoop job的描述信息，包括输入与输出数据的路径、类型、处理的map/reduce类、reduce个数的设置等等。具体代码如下示例

 
         Job job =  
         new 
           
         Job(ConfigurationUtil.conf,  
         "CrowdCalculator_v2" 
         ); 
        
         job.setJarByClass(CrowdCalcDriver. 
         class 
         ); 
        
         job.setMapperClass(CrowdCalcMapper. 
         class 
         ); 
        
         job.setReducerClass(CrowdCalcReducer. 
         class 
         ); 
        
         // 同时设置了map/reduce两部分的key,value对 
        
         job.setOutputKeyClass(Text. 
         class 
         ); 
        
         job.setOutputValueClass(Text. 
         class 
         ); 
        
         // 将otherArgs[0]的输入串进行拆分，以","号隔开 
        
         if 
           
         (StringOperatorUtil.isNotBlank(otherArgs[ 
         0 
         ]) 
        
         && StringOperatorUtil.isNotBlank(otherArgs[ 
         1 
         ])) { 
        
         String[] inputPathArray = otherArgs[ 
         0 
         ].split( 
         "," 
         ); 
        
         for 
           
         (String inputPath : inputPathArray) { 
        
         FileInputFormat.addInputPath(job,  
         new 
           
         Path(inputPath)); 
        
         } 
        
         }  
         else 
           
         { 
        
         System.out.println( 
         "输入或输出路径有问题，请检查!" 
         ); 
        
         System.exit( 
         0 
         ); 
        
         } 
        
         FileOutputFormat.setOutputPath(job,  
         new 
           
         Path(otherArgs[ 
         1 
         ])); 
        
         // 手动设置reduce个数 
        
         job.setNumReduceTasks(SystemParas.mr_reduce_number); 
        
         int 
           
         finish_status = job.waitForCompletion( 
         true 
         ) ?  
         0 
           
         :  
         1 
         ; 
        
         return 
           
         finish_status;

map过程处理类：

也就是数据打散后的业务逻辑处理类，即结合天亮分词对已有的数据做关键词的匹配计算与输出。map中除核心的map函数外，还包括map之前要执行的setup函数，以及map之后要执行的cleanup函数，二者一个负责预置计算，一个负责清理扫尾。

 
         public 
           
         class 
           
         PyCookieToQQMapper4StepOne  
         extends 
           
         Mapper<Object, Text, Text, Text> { 
        
         @Override 
        
         protected 
           
         void 
           
         cleanup(Context context)  
         throws 
           
         IOException, 
        
         InterruptedException { 
        
         // TODO Auto-generated method stub 
        
         } 
        
         public 
           
         static 
           
         MyLogger logger =  
         new 
           
         MyLogger(PyCookieToQQMapper4StepOne. 
         class 
         ); 
        
         public 
           
         static 
           
         Set<String> keyword_wanted_set =  
         new 
           
         HashSet<String>(); 
        
         @Override 
        
         protected 
           
         void 
           
         setup(Context context)  
         throws 
           
         IOException, 
        
         InterruptedException { 
        
         // 上传到hdfs之后,读取hdfs上的所有缓存文件，初始化分词器 
        
         SkyLightAnalyzerManager.init(); 
        
         /** 
        
         * 关于keywordSet的对应关系的加载,此为keyword的白名单 
        
         */ 
        
         String keyword_path =  
         "keyword_wanted.txt" 
         ; 
        
         ReadConfigUtil readConfigUtil =  
         new 
           
         ReadConfigUtil(keyword_path, 
        
         false 
         ); 
        
         String host_type_string = readConfigUtil.getLineConfigTxt(); 
        
         try 
           
         { 
        
         StringReader sr =  
         new 
           
         StringReader(host_type_string); 
        
         BufferedReader br =  
         new 
           
         BufferedReader(sr); 
        
         String temp =  
         null 
         ; 
        
         while 
           
         ((temp = br.readLine()) !=  
         null 
         ) { 
        
         keyword_wanted_set.add(temp.trim()); 
        
         } 
        
         br.close(); 
        
         }  
         catch 
           
         (Exception e) { 
        
         e.printStackTrace(); 
        
         } 
        
         } 
        
         private 
           
         ExtKeywordManager extKeywordManager =  
         new 
           
         ExtKeywordManager(); 
        
         private 
           
         Text outKey =  
         new 
           
         Text(); 
        
         private 
           
         Text outValue =  
         new 
           
         Text(); 
        
         // private int count = 0; 
        
         String[] columnArray =  
         null 
         ; 
        
         String ts =  
         null 
         ; 
        
         String url =  
         null 
         ; 
        
         String host =  
         null 
         ; 
        
         // 从map方法提出来 
        
         ExtKeyResult extKeyResult =  
         null 
         ; 
        
         String query =  
         null 
         ; 
        
         List<TermUnit> termUnitList =  
         null 
         ; 
        
         String splitWord =  
         null 
         ; 
        
         private 
           
         String py_cookie_id =  
         null 
         ; 
        
         private 
           
         DateUtil dateUtil= 
         new 
           
         DateUtil(); 
        
         public 
           
         void 
           
         map(Object key, Text value, Context context) 
        
         throws 
           
         IOException, InterruptedException { 
        
         // 以tab键将数据分成数组 
        
         columnArray = value.toString().split(StaticValue.separator_tab); 
        
         // 取日志中的内容列，为url 
        
         if 
           
         (columnArray.length !=  
         16 
        
         || (SystemParas.is_ad_source_open &&  
         "0" 
        
         .equals(columnArray[ 
         13 
         ]))) { 
        
         return 
         ; 
        
         } 
        
         py_cookie_id = columnArray[ 
         15 
         ]; 
        
         // 如果py_cookie_id不存在的话，直接跳过 
        
         if 
           
         (StringOperatorUtil.isBlank(py_cookie_id)) { 
        
         return 
         ; 
        
         } 
        
         ts = columnArray[ 
         2 
         ]; 
        
         url = columnArray[ 
         3 
         ]; 
        
         host = columnArray[ 
         4 
         ]; 
        
         // 其第0列为ad为作为key,第3列作为url,第4列为host 
        
         extKeyResult = extKeywordManager.getExtKeyResutlt(url); 
        
         // 获取各搜索引擎中 
        
         if 
           
         (extKeyResult !=  
         null 
           
         && extKeyResult.isValidUrl() 
        
         && extKeyResult.isFromSearchKey4Match()) { 
        
         if 
           
         (extKeyResult !=  
         null 
         ) { 
        
         if 
           
         (SystemParas.is_open_keyword_crowd) { 
        
         query = extKeyResult.getKeyword(); 
        
         if 
           
         (StringOperatorUtil.isNotBlank(query)) { 
        
         query = query.replace( 
         "\t" 
         ,  
         "" 
         ).trim(); 
        
         termUnitList = SkyLightAnalyzerManager 
        
         .filterPosAndNonsense(query); 
        
         /** 
        
         * 判断搜索分词或分词器分词后的词条集合是否为空 
        
         */ 
        
         if 
           
         (termUnitList !=  
         null 
           
         && (!termUnitList.isEmpty())) { 
        
         for 
           
         (TermUnit splitTerm : termUnitList) { 
        
         splitWord = splitTerm.getValue(); 
        
         // 不为空，且长度大于1的才会被查询 
        
         if 
           
         (StringOperatorUtil.isNotBlank(splitWord) 
        
         && splitWord.length() >  
         1 
         ) { 
        
         if 
           
         (keyword_wanted_set.contains(splitWord)) { 
        
         // 设置ad_id 
        
         outKey.set(py_cookie_id); 
        
         outValue.set(host 
        
         + StaticValue.separator_tab 
        
         + query 
        
         + StaticValue.separator_tab 
        
         + dateUtil.formatLongToMMHHssString(ts)); 
        
         context.write(outKey, outValue); 
        
         break 
         ; 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         } 
        
         }

reduce过程处理类：

也就是数据的汇聚过程，将map中的输出key/value经过hash处理映身到各reduce节点中进行计算输出。

 
         public 
           
         class 
           
         CrowdCalcReducer  
         extends 
        
         Reducer<Text, Text, Text, Text> { 
        
         private 
           
         Text result =  
         new 
           
         Text(); 
        
         public 
           
         void 
           
         reduce(Text key, Iterable<Text> values, Context context) 
        
         throws 
           
         IOException, InterruptedException { 
        
         for 
           
         (Text val : values) { 
        
         result.set(val); 
        
         context.write(key, result); 
        
         } 
        
         } 
        
         }

小结：上述的标准流程是较常见的，为减少学习的初始复杂度，并没有包括combiner和shuffle。会在后续再做介绍。

3、hadoop开发中的注意事向

3.1 并不是所有的数据计算都可以用hadoop来搞定。

只有可以将数据独立分离计算与合并的任务才可以用hadoop来搞定，即可分割。但大量的实战证明，绝大多数的计算任务都可以通过合理的设计化分成可以划分成可以hadoop处理的任务。但像gzip压缩包解压缩这样的操作，一般认为是无法用hadoop来并行计算的，因为gzip是不可分割的，但像lzo,bz2等可分割的压缩格式，均可以被hadoop处理。

3.2 hadoop不适宜于实时性计算较强的计算

它是专为离线大数据而设计的，讲究的是吞吐量而非响应速度。像实时查询、实时计算对于hadoop是不适合的。为此hadoop也开发如hive、hbase等为解决这一问题作出努力，但在实时性方面还是很不适用的，像最近兴趣的spark、storm等，可以作为大数据实时处理的利器，与hadoop互补使用。

3.3 reduce的数量设置要合理

hadoop的map/reduce都是以进程为单位进行计算的，reduce设置的过多会导致reduce的初始化与销毁浪费时间，从而影响整个任务的效率。要根据输出数据量来计算reduce的数量。

3.4 map/reduce的槽位最大的数量设置

该数量的最大数量设置均有固定的参数，该值的计算与cpu个数、单cpu的核数直接相关，可以参考专门的博文设置之。

时间关系，暂定于此，欢迎各位同行交流指正，欢迎加入网络爬虫、nlp群320349384,交流促进发展，共享成就未来。

你可能感兴趣的:(java,hadoop,大数据,分布式文件系统)

领域驱动设计核心解析
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Dubbo与Zookeeper核心解析 Java开发廖志伟 Java场景面试宝典 Dubbo Service Discovery Distributed Systems
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
小程序领域开发语言的基础教程小程序开发2020 小程序开发语言 ai
小程序领域开发语言的基础教程：从0到1轻松入门关键词：小程序开发、WXML、WXSS、JavaScript、双线程模型、生命周期、组件化摘要：本文是针对小程序开发语言的零基础入门指南，通过生活类比、代码示例和实战案例，详细讲解小程序核心开发语言（WXML/WXSS/JavaScript）的原理、协作方式及实际应用。无论你是前端新手还是想转行小程序开发的小白，都能通过本文掌握小程序开发的“三板斧”，
ShardingSphere 架构解析 Java开发廖志伟 Java场景面试宝典 ShardingSphere Distributed Database Database Middleware
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
Kotlin编译流程 xiangxiongfly915 Kotlin kotlin
文章目录Kotlin编译流程Kotlin编译流程使用AS工具Kotlin与Java代码对比printlnKotlin类型类型推导字符串模板when表达式类抽象类接口数据类不设置默认值全设置默认值总结@JvmOverloadsKotlin编译流程Kotlin编译流程Kotlin代码经过编译器边后，生成Java字节码，这种字节码是专门为JVM设计的，JVM拿到字节码后，会根据特定的语法解析其中的内容，
八股文——JAVA基础：字符串拼接用“+” 还是 StringBuilder? Hellyc 八股文自用 java 开发语言
java中仅有两个操作符的重载就是用于字符串的拼接操作的：+与+=操作符+底层使用的是StringBuilder来进行实现的，+用于拼接的缺陷在于使用StringBuilder，本身线程不安全，其次在循环中使用+来拼接，会导致重复创建StringBuilder对象，导致空间的浪费。而在循环中使用StringBuilder就不会出现这个问题。
java复习 06 im_AMBER java 开发语言学习
线程还没学会，然后查漏补缺。再学一下泛型，下一篇博客写。1线程控制方法名说明staticvoidsleep(longmillis)使当前正在执行的线程停留（暂停执行）指定的毫秒数voidjoin()等待这个线程死亡voidsetDaemon(booleanon)将此线程标记为守护线程，当运行的线程都是守护线程时，Java虚拟机将退出sleep方法的应用，这里用trycatch包围packagePT
完美解决SSL访问认证 sun.security.validator.ValidatorException: PKIX path building failed cqwuliu jAVA工具 TCP/IP ssl 网络协议网络
一、创建createIgnoreVerifySSL绕过SSL、TLS证书importjavax.net.ssl.SSLContext;importjavax.net.ssl.TrustManager;importjavax.net.ssl.X509TrustManager;importjava.io.IOException;importjava.security.KeyManagementExce
java 导出pdf去除边框_docx4j生成pdf时，如何指定pdf的页边框
生成pdf：publicStringsavePdf(WordprocessingMLPackagewordMLPackage,Mapdata)throwsException{StringpdfDir=getFilePath()+".pdf";Filefile=newFile(pdfDir);FileUtils.createDir(file);//使用默认的FOSettingssettings.se
java 签名 ecdsa_数字签名算法ECDSA 哈全文 java 签名 ecdsa
一介绍ECDSA：EllipticCurvDigstalSignatureAlgorithm椭圆曲线数字签名算法。速度快、强度高、签名短二参数说明三代码实现packagecom.imooc.security.ecdsa;importjava.security.KeyFactory;importjava.security.KeyPair;importjava.security.KeyPairGene
java 签名 ecdsa_Java数字签名——ECDSA算法随缘惜情 java 签名 ecdsa
ECDSA例如微软产品的序列号的验证算法。EllipticCurveDigitalSignatureAlgorithm，椭圆曲线数字签名算法。速度快，强度高，签名短——————————————————————————————————密钥长度112～571默认256——————————————————————————————————NONEwithECDSA签名长度：128实现方：JDK/BCRIP
documents4j 使用教程惠悦颖
documents4j使用教程documents4jdocuments4jisaJavalibraryforconvertingdocumentsintoanotherdocumentformat项目地址:https://gitcode.com/gh_mirrors/do/documents4j1.项目介绍documents4j是一个Java库，用于将文档转换为另一种文档格式。它通过委托给任何能够
深入理解JavaScript ES6 Promise基本使用和进阶讲解 ScottePerk 前端 javascript es6 前端
一项新技术的出现一定是为了解决某个痛点问题的。ES6的Promise就是为了解决ES5在处理异步任务时所存在的问题。Promise是一个异步处理框架。Promise前夕——ES5对于异步任务的处理我们先来看看ES5是怎么处理异步任务的。主要的手段就是通过回调函数。回调函数是JavaScript本身就支持的机制。可以通过回调函数实现类似下面这个的网络请求过程。虽然这个函数的实现看起来代码有点不好看，
Java使用documents4j将word和excel转pdf 药岩工作中的那些问题 java word excel
pom.xml添加documents4j依赖com.documents4jdocuments4j-local1.0.3com.documents4jdocuments4j-transformer-msoffice-word1.0.3<dependency
trycatch捕获不到的错误前端javascript
在浏览器环境的JavaScript中，try...catch是处理运行时错误的常用机制，但并非所有错误都能被其捕获。以下是无法被try...catch捕获的几类错误及其原因与解决方案：⚠️1.语法错误（SyntaxErrors）原因：语法错误发生在代码解析阶段，此时代码尚未执行，try...catch无法捕获。示例：try{consta=;//缺少赋值表达式}catch(e){console.lo
.net和Java微服务框架列举及.net技术选型步、步、为营 java 微服务开发语言 .net
.NET与Java微服务框架大盘点及.NET技术选型指南前言在当今的软件开发领域，微服务架构凭借其灵活性和可扩展性，成为了众多企业构建复杂应用的首选方案。.NET和Java作为两大主流的开发平台，各自拥有丰富的微服务框架。本文将为大家详细介绍.NET和Java的一些常见微服务框架，并探讨.NET技术选型的相关要点。.NET微服务框架介绍1.ASP.NETCoreASP.NETCore是构建微服务的
Java流式处理太阳伞下的阿呆 java 生成器迭代器 stream 流式处理
在Java中，没有直接类似Python生成器的语法，但可以通过迭代器（Iterator）和流式处理（如使用Spliterator或ReactiveStreams）来实现类似生成器的功能。此外，也可以通过BlockingQueue和线程的组合实现异步文件解压流。以下是几种实现方式：**方法1：使用****Iterator**实现一个Iterator，在每次调用next()时返回解压完成的下一个文件名
JVM调优实战 Day 11：JVM参数调优最佳实践在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day11】JVM参数调优最佳实践文章标签jvm,jvm调优,java性能优化,jvm参数配置,垃圾回收,JVM监控,Java开发,架构设计文章简述在Java应用的性能调优过程中，JVM参数的合理配置是影响系统稳定性和吞吐量的关键因素。本文作为“JVM调优实战”系列的第11天内容，全面讲解JVM参数调优的核心概念、技术原理与实际应用场景。文章从JVM内存模型、GC策略出发，深入分析
JVM调优实战 Day 5：内存泄漏与溢出分析在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day5】内存泄漏与溢出分析文章简述在Java应用中，内存泄漏和内存溢出是常见的性能瓶颈问题。本文作为“JVM调优实战”系列的第五天内容，深入讲解了JVM中内存泄漏与溢出的基本概念、原理机制、常见问题及诊断方法。文章通过理论结合实践的方式，介绍了如何使用JVM工具如jstat、jmap、jhat等进行堆内存分析，并提供了完整的代码示例和配置参数。同时，文中还包含一个真实生产环境中的
互联网大厂Java求职面试：Spring AI最佳实践与AI应用架构设计在未来等你 Java场景面试宝典 AI 技术编程 Java Spring
互联网大厂Java求职面试：SpringAI最佳实践与AI应用架构设计引言在当前AI技术快速发展的背景下，企业对AI能力的需求日益增长。作为Java开发人员，掌握SpringAI的最佳实践和相关技术栈变得尤为重要。本文将深入探讨SpringAI的应用场景、架构设计以及实际案例，帮助读者更好地理解和应用这一前沿技术。技术总监的提问与郑薪苦的回答第一轮提问技术总监（严肃）：“郑薪苦，首先请你说说你在项
MCP+A2A：从实验室到生产环境的落地之旅 CarlowZJ AI应用落地+MCP+A2A 数据库 MCP+A2A
目录摘要一、引言二、MCP与A2A概念讲解（一）MCP（ModelContextProtocol）（二）A2A（Application-to-Application）（三）MCP与A2A的融合三、MCP+A2A技术架构图与工作流程图（一）整体架构图（二）工作流程图四、MCP+A2A代码示例（一）基于Python的MCP+A2A通信示例（二）基于Java的MCP+A2A应用集成示例五、MCP+A2A
Java Class常量池和运行时常量池的区别? java1234_小锋 java java 开发语言 jvm
大家好，我是锋哥。今天分享关于【JavaClass常量池和运行时常量池的区别?】面试题。希望对大家有帮助；JavaClass常量池和运行时常量池的区别?超硬核AI学习资料，现在永久免费了！在Java中，常量池分为类常量池和运行时常量池，它们分别用于存储不同类型的常量。下面是它们之间的主要区别：1.类常量池(ClassConstantPool)：定义：类常量池是指类加载时在.class文件中定义的常
Java GC是任意时候都能进行的吗？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【JavaGC是任意时候都能进行的吗？】面试题。希望对大家有帮助；JavaGC是任意时候都能进行的吗？超硬核AI学习资料，现在永久免费了！Java的垃圾回收（GC）并不是任意时刻都能进行的。GC的执行有一定的规则和条件：垃圾回收的触发时机：堆内存不足：当Java堆内存空间不足时，垃圾回收会被触发，试图回收不再使用的对象来腾出内存。手动触发：可以通过System.gc(
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战 yiiyx Java场景面试宝典 Java Spring Boot 微服务面试分布式系统
互联网大厂Java面试指南：从基础到高阶技术栈与业务场景实战场景介绍本文模拟互联网大厂高级Java工程师面试场景，涵盖JavaSE、Spring生态、微服务、数据库、缓存、消息队列等技术栈，结合音视频、电商、金融等业务场景，提供3轮渐进式提问与详细解析。技术栈核心语言与平台:JavaSE(8/11/17),JakartaEE(JavaEE),JVM构建工具:Maven,Gradle,AntWeb框
企业级RAG系统架构设计与实现指南（Java技术栈）在未来等你大模型应用开发 AI 技术编程 Java Spring
企业级RAG系统架构设计与实现指南（Java技术栈）开篇：RAG系统的基本概念与企业应用价值在当今快速发展的AI技术背景下，检索增强生成（Retrieval-AugmentedGeneration,RAG）已成为构建智能问答、知识库管理、个性化推荐等应用的核心技术之一。RAG系统通过结合信息检索与自然语言生成（NLG），能够有效提升模型对特定领域数据的适应能力，避免传统大模型在训练数据不足或数据更
现代 JavaScript (ES6+) 入门到实战（六）：异步的终极形态 - async/await 的优雅魔法程序员阿超的博客 ES6+完全进化指南：从 ES5 到现代 JS javascript es6 开发语言
在上一篇，我们用Promise把“回调地狱”改造成了优雅的链式调用。这已经是一个巨大的进步了。但是，当逻辑复杂时，一长串的.then()仍然会降低代码的可读性，我们的大脑依然需要切换到“异步模式”去理解代码。有没有一种方法，能让我们像写同步代码（一行接一行）那样去写异步代码呢？答案是肯定的！ES7(ES2017)带来了async/await，它被誉为JavaScript异步编程的“终极解决方案”。
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
ES6 新特性从入门到精通：100 + 代码示例带你轻松掌握（附图解教程）北泽别胡说新手保护期从0到1学前端 javascript 前端开发语言 es6
本文针对JavaScript新手系统讲解ES6核心语法，涵盖变量声明、箭头函数、解构赋值、类与继承、Promise等核心模块。通过150+行带注释代码，结合「传统写法对比」和「新手避坑指南」，帮助读者3小时掌握ES6关键特性，快速应用于项目开发。一、ES6入门：为什么必须学习ES6？1.1ES6的革命性升级代码简洁性：箭头函数、模板字符串等语法减少冗余代码逻辑清晰性：class类、模块化语法让代码
Javascript：ES6+概念详解善良的小乔人工智能 javascript es6 开发语言
Javascript：ES6+概念详解善良的小乔一.基础概念什么是ES6+？ES6+（或ES2015+）是JavaScript语言的现代版本，包含了从2015年ES6（ECMAScript2015）开始的一系列更新。这些更新引入了新的语法糖、内置对象和API，显著提升了代码的可读性、简洁性和开发效率。什么是ECMAScript？ECMAScript是JavaScript的标准化规范（由ECMA国际
Zookeeper集群永旗狍子 Linux java zookeeper 分布式
目录Zookeeper集群架构图Zookeeper集群中节点的角色Zookeeper数据同步Zookeeper选举搭建Zookeeper集群Java连接Zookeeper集群Zookeeper集群架构图Zookeeper集群中节点的角色Leader(Master)：事务请求的唯一处理者，也可以处理读请求。Follower(Slave)：可以直接处理客户端的读请求，并向客户端响应；但其不会处理事务请
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那