weitao1026

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频，Pig的TOKENIZE只支持对英文句子的切分，为什么呢？因为英文的句子非常工整，都是以空格作为分割符的，而相当于中文来说，则不一样，中文的切分，需要有词库支持，才能分割出一个个词汇，或者比较暴力一点的，直接根据算法进行Ngram，也不需要词库支持，但这样切分出来的词汇，可能大部分时候都不太友好，意义也不太大，目前比较不错的开源的分词器有ansj，ik，meseg4j等，随便选一款就行，散仙在这里用的ansj的分词器，有对ansj感兴趣的朋友，可以参考此处

分词器选好了，分词功能也实现了，下一步就该考虑如何把这个功能与Pig集成起来，其实答案也很明显，仿照Pig官方TOKENIZE源码，再写一个基于中文分词功能的UDF，就可以了，对Pig源码感兴趣的朋友可以参考这个链接，以Web的形式展示的源码，非常清晰直观。

关于如何在Pig中自定义UDF函数，可以参考散仙的这一篇文章：
http://qindongliang.iteye.com/blog/2171303

下面给出，散仙扩展的基于中文分词的UDF类：

Java代码

package com.pigudf;
import java.io.IOException;
import java.util.List;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.apache.pig.EvalFunc;
import org.apache.pig.backend.executionengine.ExecException;
import org.apache.pig.data.BagFactory;
import org.apache.pig.data.DataBag;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;
import org.apache.pig.impl.logicalLayer.schema.Schema;
/**
* 自定义UDF，实现Pig与中文分词集成
* **/
public class MyTokenize extends EvalFunc {
/**tuple实例**/
TupleFactory mTupleFactory = TupleFactory.getInstance();
/**Bag实例*/
BagFactory mBagFactory = BagFactory.getInstance();
@Override
public DataBag exec(Tuple input) throws IOException {
try {
DataBag output = mBagFactory.newDefaultBag();
Object o = input.get(0);
List terms=ToAnalysis.parse((String)o);//获取Ansj的分词
for(Term t:terms){
output.add(mTupleFactory.newTuple(t.getName()));//获取分词token，放入tuple，然后以bag的形式组装tuple
}
return output;
} catch (ExecException ee) {
// error handling goes here
ee.printStackTrace();
}
return null;
}
/**描述scheaml形式*/
public Schema outputSchema(Schema input) {
try{
Schema bagSchema = new Schema();
bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));
return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
bagSchema, DataType.BAG));
}catch (Exception e){
return null;
}
}
}

package com.pigudf;

import java.io.IOException;
import java.util.List;

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import org.apache.pig.EvalFunc;
import org.apache.pig.backend.executionengine.ExecException;
import org.apache.pig.data.BagFactory;
import org.apache.pig.data.DataBag;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.data.TupleFactory;
import org.apache.pig.impl.logicalLayer.schema.Schema;

/**
 * 自定义UDF，实现Pig与中文分词集成
 * **/
public class MyTokenize extends EvalFunc {
	/**tuple实例**/
	 TupleFactory mTupleFactory = TupleFactory.getInstance();
	 /**Bag实例*/
	 BagFactory mBagFactory = BagFactory.getInstance();
	
	@Override
	public DataBag exec(Tuple input) throws IOException {
		
		   try {
	            DataBag output = mBagFactory.newDefaultBag();
	            Object o = input.get(0);
	            List terms=ToAnalysis.parse((String)o);//获取Ansj的分词
	            for(Term t:terms){
	            	output.add(mTupleFactory.newTuple(t.getName()));//获取分词token，放入tuple，然后以bag的形式组装tuple
	            }
	            return output;
	        } catch (ExecException ee) {
	            // error handling goes here
	        	ee.printStackTrace();
	        }
		return null;
	}
	
	 /**描述scheaml形式*/
	  public Schema outputSchema(Schema input) {
	         try{
	             Schema bagSchema = new Schema();
	             bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));

	             return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
	                                                    bagSchema, DataType.BAG));
	         }catch (Exception e){
	            return null;
	         }
	    }
	}

UDF写完后，需打成一个jar包，然后在Pig脚本里注册jar包（依赖的jar包也需要注册，例如本例中的ansj的jar），关于如何打包，注册，请参考散仙上篇文章，不要问我上篇文章在哪里，就在这文章里。

最后，我们来看下一个实际例子的效果，，散仙本打算把此篇博客给分析一下，统计下词频，看看能不能，通过高频词，直接看出本文的主题，后来立马否决了，因为此刻还没写完，不理解的就跳过，最后，从网上找了篇新闻，感兴趣的可以阅读下，原内容如下：

Java代码

原标题：南水北调办主任回应境外抹黑：没什么可藏着掖着
【环球时报综合报道】1月14日，2015年南水北调工作会议在河南南阳召开，安排部署2015年南水北调工作。在媒体通气会上，国务院南水北调办主任鄂竟平对境外一些媒体对南水北调工程的抹黑作出了回应，南水北调办主要领导就移民补偿、国际交流等问题接受了《环球时报》记者的采访。
环球时报：关于丹江口移民率先的16倍补偿，这个标准是如何制定出来的？
国务院南水北调办征地移民司司长袁松龄：这个16倍的补偿措施是我们南水北调工程率先在全国范围内实行的，在南水北调之前，水利工程的补偿基本是8倍到10倍。然而在整个迁区规划工作来看，8倍10倍标准显然是太低。我们的规划也是以人为本，不让被征迁的移民吃亏，所以按照当时国家标准作参考，南水北调率先实施16倍补偿。东、中线移民工程永久征地是96万亩，临时用地45万亩，总体来讲，被征迁的群众对国家的政策是理解和支持的。
环球时报：资料中提到，南水北调移民过程中河南、湖北两省有18名干部因为过度劳累，牺牲在移民搬迁第一线，可否介绍下具体情况？
国务院南水北调办征地移民司司长袁松龄：我们34.5万移民的整体搬迁过程中，有近十万干部投入到组织工作上。在这十多年以来，先后有18名干部倒在工作岗位上。比如说，湖北有一个叫刘峙清的干部，就是由于工作劳累心脏病突发，倒在了工作岗位上。还有比如河南南阳淅川的干部也是这样。整个村的移民，在搬迁前的一个晚上，基本都是行李拉起来，车装好之后，点燃篝火，干部们就陪着，第二天把大家送走。基层的干部基本上每天都和移民们朝夕相处，在搬迁过程中得不到休息，而且很闹心。我们有很多这样的事迹。
环球时报：在南水北调工程中，我们是否借鉴过国外的一些经验，与其他国家的交流情况是怎样的？
国务院南水北调办主任鄂竟平：国外的工程，我们考察了几个，比如美国、德国、加拿大、西班牙等等。总的来说，引水工程中的过程管理有一些可以借鉴，比如说国外有的工程是以公益性地来管理，由政府托管，只按照成本来收取水费，即按照建设和维护这个工程花多少钱来收水费，让工程自身能良性运行，但不盈利。
咱们国家基本也是按照这个套路来弄的。
再有就是调水的生态问题，也是值得借鉴的，国外在调出区和调入区的生态上，都有一些说法。德国对一些生态方面的规定蛮具体的，比如这条河流，流量到什么数值就要调水了，到什么数字就不能调水了，规定得很具体，管理很精细。这方面咱们应该特别需要注意，尤其是北方一些地区，水资源特别珍贵，如果没有一个量的概念，就不是很好管。
对于境外一些媒体针对南水北调工程的抹黑，鄂竟平给予了回应，他表示，南水北调工程没有什么可藏着掖着的，为什么呢？因为它是一个积德的事儿。“北方一些地区的水资源已经紧缺到那样一个程度了，咱们把宝贵的水资源调来，叫老百姓能喝上好水，让生态环境不再恶化，大家生活在一个优美的环境里，这不是积德吗？一个积德的事有什么可藏着掖着的？”
鄂竟平强调，国务院的政策都是透明的，有多少钱、干多少事，达到什么目标都是透明的，媒体什么问题都可以问，都可以讨论。“一些境外的媒体，话说的让人真的不好理解，英国有家媒体，大致意思说‘南水北调是祸国殃民的，引的都是脏水，比如中线，想把水引到东北工业基地，还没到天津就不能用了’。我们从来就没有过‘把水引到东北老工业基地’的方案，有些境外媒体说这些话的时候，连事情都搞不清楚，不知道到底是什么居心。” (环球时报记者范凌志)

　　原标题：南水北调办主任回应境外抹黑：没什么可藏着掖着
　　【环球时报综合报道】1月14日，2015年南水北调工作会议在河南南阳召开，安排部署2015年南水北调工作。在媒体通气会上，国务院南水北调办主任鄂竟平对境外一些媒体对南水北调工程的抹黑作出了回应，南水北调办主要领导就移民补偿、国际交流等问题接受了《环球时报》记者的采访。
　　环球时报：关于丹江口移民率先的16倍补偿，这个标准是如何制定出来的？
　　国务院南水北调办征地移民司司长袁松龄：这个16倍的补偿措施是我们南水北调工程率先在全国范围内实行的，在南水北调之前，水利工程的补偿基本是8倍到10倍。然而在整个迁区规划工作来看，8倍10倍标准显然是太低。我们的规划也是以人为本，不让被征迁的移民吃亏，所以按照当时国家标准作参考，南水北调率先实施16倍补偿。东、中线移民工程永久征地是96万亩，临时用地45万亩，总体来讲，被征迁的群众对国家的政策是理解和支持的。
　　环球时报：资料中提到，南水北调移民过程中河南、湖北两省有18名干部因为过度劳累，牺牲在移民搬迁第一线，可否介绍下具体情况？
　　国务院南水北调办征地移民司司长袁松龄：我们34.5万移民的整体搬迁过程中，有近十万干部投入到组织工作上。在这十多年以来，先后有18名干部倒在工作岗位上。比如说，湖北有一个叫刘峙清的干部，就是由于工作劳累心脏病突发，倒在了工作岗位上。还有比如河南南阳淅川的干部也是这样。整个村的移民，在搬迁前的一个晚上，基本都是行李拉起来，车装好之后，点燃篝火，干部们就陪着，第二天把大家送走。基层的干部基本上每天都和移民们朝夕相处，在搬迁过程中得不到休息，而且很闹心。我们有很多这样的事迹。
　　环球时报：在南水北调工程中，我们是否借鉴过国外的一些经验，与其他国家的交流情况是怎样的？
　　国务院南水北调办主任鄂竟平：国外的工程，我们考察了几个，比如美国、德国、加拿大、西班牙等等。总的来说，引水工程中的过程管理有一些可以借鉴，比如说国外有的工程是以公益性地来管理，由政府托管，只按照成本来收取水费，即按照建设和维护这个工程花多少钱来收水费，让工程自身能良性运行，但不盈利。
　　咱们国家基本也是按照这个套路来弄的。
　　再有就是调水的生态问题，也是值得借鉴的，国外在调出区和调入区的生态上，都有一些说法。德国对一些生态方面的规定蛮具体的，比如这条河流，流量到什么数值就要调水了，到什么数字就不能调水了，规定得很具体，管理很精细。这方面咱们应该特别需要注意，尤其是北方一些地区，水资源特别珍贵，如果没有一个量的概念，就不是很好管。
　　对于境外一些媒体针对南水北调工程的抹黑，鄂竟平给予了回应，他表示，南水北调工程没有什么可藏着掖着的，为什么呢？因为它是一个积德的事儿。“北方一些地区的水资源已经紧缺到那样一个程度了，咱们把宝贵的水资源调来，叫老百姓能喝上好水，让生态环境不再恶化，大家生活在一个优美的环境里，这不是积德吗？一个积德的事有什么可藏着掖着的？”
　　鄂竟平强调，国务院的政策都是透明的，有多少钱、干多少事，达到什么目标都是透明的，媒体什么问题都可以问，都可以讨论。“一些境外的媒体，话说的让人真的不好理解，英国有家媒体，大致意思说‘南水北调是祸国殃民的，引的都是脏水，比如中线，想把水引到东北工业基地，还没到天津就不能用了’。我们从来就没有过‘把水引到东北老工业基地’的方案，有些境外媒体说这些话的时候，连事情都搞不清楚，不知道到底是什么居心。” (环球时报记者范凌志)

使用Pig分析完的部分topN结果如下：

Java代码

(，,77)
(的,50)
(　,24)
(是,24)
(。,23)
(南水北调,18)
(在,14)
(：,12)
(工程,12)
(移民,11)
(有,11)
(一些,9)
(都,9)
(了,9)
(到,8)
(水,8)
( ,8)
(干部,7)
(一个,7)
(时报,7)
(、,7)
(工作,7)
(中,7)
(我们,7)
(就,7)
(着,7)
(什么,7)
(环球,7)
(媒体,7)
(不,6)
(来,6)
(？,6)
(办,6)
(境外,5)
(补偿,5)
(国务院,5)
(很,5)
(上,5)
(过程,4)
(引,4)
(搬迁,4)
(按照,4)

(，,77)
(的,50)
(　,24)
(是,24)
(。,23)
(南水北调,18)
(在,14)
(：,12)
(工程,12)
(移民,11)
(有,11)
(一些,9)
(都,9)
(了,9)
(到,8)
(水,8)
( ,8)
(干部,7)
(一个,7)
(时报,7)
(、,7)
(工作,7)
(中,7)
(我们,7)
(就,7)
(着,7)
(什么,7)
(环球,7)
(媒体,7)
(不,6)
(来,6)
(？,6)
(办,6)
(境外,5)
(补偿,5)
(国务院,5)
(很,5)
(上,5)
(过程,4)
(引,4)
(搬迁,4)
(按照,4)

最后来解释下，在一篇文章里，最多的词无疑是标点符号，和一些副词了，这不仅在中文里是这样，在英文里同样是这样的，最多的词往往是a,the,an,this之类的，副词什么的，所以统计词频前，一般会过滤掉一些无意义的词，这些散仙就不细说了，相信搞过搜索和自然语言处理的人，都很清楚，从结果前几个结果来看，确实证明了标点和一些连词与副词的频率最高，终于在结果的第六行，出现了第一个有意义的高频词，南水北调，频率是18次，这直接反映了本文的主题，并与之相关，有意义的高频词，一般就是本文的重点介绍内容，这一点在我们的数据挖掘，关键词提取，自然语言处理中用的比较多。

最后总结一下重点：

（1）测试的文本，在使用前是需要传到HDFS上的。
（2）注册jar包时，如果有依赖，也需要将依赖jar包注册在pig里。
（3）在真实的应用中，统计分析前，最好将一些无用的数据给过滤掉。

深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
Springdoc OpenAPI Gradle 插件使用教程
SpringdocOpenAPIGradle插件使用教程1.项目的目录结构及介绍springdoc-openapi-gradle-plugin/├──config/│└──detekt/├──gradle/│└──wrapper/├──src/├──.gitignore├──CHANGELOG.md├──CODE_OF_CONDUCT.adoc├──CONTRIBUTING.adoc├──LICE
pigz更快的压缩和解压工具老率的IT私房菜
pigz(parallelimplementationofgzip)是一个并行执行的压缩工具，解压缩比gzip快，同时CPU消耗是gzip的好几倍，在对短时间内CPU消耗较高不受影响的场景下，可以使用pigz。环境Centos7RAM:2GB,CPU:4vcpus安装#安装epel扩展源[root@localhost~]#wget-O/etc/yum.repos.d/epel-7.repohttp
Three.js 实现导出模型文件（.glb,.gltf）功能 GLTFExporter
Three.js提供了导出（.glb,.gltf）文件的APIGLTFExporter用于实现场景内容导出模型文件的功能导出模型文件主要使用parse方法，该方法接收三个参数：1.scene：要导出的场景对象。2.onComplete：解析完成后的回调函数，接收一个参数result，表示解析后的glTF数据。3.options：可选参数，用于配置导出的选项。下面是options的一些常用参数选项：
5 分钟快速入门：使用 Nginx 搭建简易 API Gateway AI云原生与云计算技术学院 nginx gateway 运维 ai
5分钟快速入门：使用Nginx搭建简易APIGateway关键词：Nginx,APIGateway,反向代理,负载均衡,微服务,接口路由,跨域处理摘要：本文将系统讲解如何利用Nginx快速搭建一个具备基础功能的API网关，涵盖反向代理、负载均衡、跨域处理、请求转发等核心技术点。通过分步实操演示与原理分析，帮助开发者理解API网关在现代分布式架构中的核心作用，并掌握基于Nginx的快速落地方法。文章
云原生API Gateway：连接微服务的桥梁 AI云原生与云计算技术学院云原生 gateway 微服务 ai
云原生APIGateway：连接微服务的桥梁关键词：云原生、API网关、微服务架构、服务治理、流量管理、服务网格、DevOps摘要：本文深入探讨云原生环境下API网关的核心原理与实践应用，解析其在微服务架构中作为统一入口的关键作用。通过详细阐述API网关的核心功能、技术架构、算法原理及数学模型，结合Kubernetes实战案例演示流量管理、安全防护、服务编排等核心能力。同时分析典型应用场景，推荐前
实战演练：用 AWS Lambda 和 API Gateway 构建你的第一个 Serverless API
实战演练：用AWSLambda和APIGateway构建你的第一个ServerlessAPI理论千遍，不如动手一遍！在前面几篇文章中，我们了解了Serverless的概念、FaaS的核心原理以及BaaS的重要作用。现在，是时候把这些知识运用起来，亲手构建一个简单但完整的Serverless应用了。本次实战，我们将使用AmazonWebServices(AWS)这个主流的云平台，结合它的两个核心Se
Python 物联网(IoT)与边缘计算开发实战(1) gohacker python 开发语言人工智能
Python物联网(IoT)与边缘计算开发实战https://www.python.org/static/community_logos/python-logo-master-v3-TM.png物联网基础与硬件交互RaspberryPiGPIO控制pythonimportRPi.GPIOasGPIOimporttime#设置GPIO模式GPIO.setmode(GPIO.BCM)GPIO.setw
镍钯金 vs 电金工艺：猎板PCB如何以技术创新重塑高端电子制造？猎板PCB黄浩人工智能
在高端电子制造领域，PCB表面处理工艺的可靠性直接决定了产品的性能和寿命。镍钯金（ENEPIG）与电金（ElectroplatedGold）作为两种核心工艺，长期占据行业技术制高点。猎板PCB凭借在特殊工艺领域的深耕，通过镍钯金与电金的精准匹配，解决了5G通信、汽车电子等场景的痛点问题。本文将从性能对比、技术突破与行业实践三大维度，解析猎板PCB如何以工艺创新推动产业升级。一、性能对比：镍钯金与电
AWS Lambda与RDS连接优化之旅 t0_54manong 编程问题解决手册 aws 云计算个人开发
在云计算的时代，AWSLambda与RDS的结合为开发者提供了高效且灵活的解决方案。然而，在实际应用中，我们常常会遇到一些性能瓶颈。本文将通过一个真实案例，探讨如何优化AWSLambda与RDS之间的连接，以提高API的响应速度。背景介绍最近，我们在AWS上部署了一个使用Dotnet6开发的API，它通过APIGateway暴露给外部，并连接到同VPC内的MySQLAuroraRDS数据库。部署前
用VSCode打造宇宙最强Markdown编辑器【插件篇】vscode+MPE等插件+PigGo图床+格式化导出+最佳实践+技巧望儿山下小苗圃学习笔记技术杂谈 markdown visual studio code github 程序人生经验分享
在已经学会了基本的Markdown语法，安装VSCode并初步熟悉了用它作为Markdown编辑器之后，今天介绍一下VSCode中涉及Markdown的各种插件，将VSCode打造成真正的Markdown编辑器。说明一下，本全程指导的经验汇总，将会分几篇陆续推出，包含：VSCode编辑器的安装和设置技巧、VSCode的Markdown相关插件的使用，通过九牛云+图床神器PicGo插件给博客设置图床
【图床配置记录】——pigo+gitee+typroa
记录一下安装的过程基本上blog1可以解决blog1但是如果pigo上面没有gitee或者下载gitee没啥反应手动安装，在c:/用户/用户名/AppData/Roaming/picgo这个目录下,以管理员身份打开powershell（或cmd；文件——以管理员打开ps——输入npminstallpicgo-plugin-gitee-uploader命令——重启picgo即可）
解密Kong API Gateway：领码SPARK微服务治理与安全的高效利器领码科技低代码实战篇微服务架构 API Gateway 服务治理 AI智能监控安全策略
随着微服务、云原生技术与AI的融合，API网关的重要性空前提升。本文深度剖析基于Kong的智能化服务治理与安全实战，助力实现高可用、高安全微服务生态构建。摘要微服务架构中众多分布式系统带来治理与安全挑战。KongAPIGateway作为统一网关，借助领码SPARK解决方案整合AI与自动化智能运维，实现统一入口管理、智能流量控制、多样认证及安全防护。本文以图表详解服务治理流程与安全全链路策略，结合现
使用ChatGPT实现代码解释 Jempo M 编程小结 chatgpt
背景GitHubCopilot目前没有提供直接的API供开发者在程序中自动分析代码文件。然而，你可以在支持GitHubCopilot的编辑器中利用其智能补全和建议功能，这对于代码编写过程中的实时辅助非常有帮助。不过，如果你希望通过编程实现类似的自动化代码分析功能，可以考虑以下替代方案，尽量模拟GitHubCopilot的行为：实现步骤1.使用OpenAI的APIGitHubCopilot的核心是O
nginx 和 springcloud gateway cors 跨域如何设置未来AI编程 springCloud nginx spring cloud gateway
在跨域资源共享（CORS）配置中，Nginx和APIGateway（如SpringCloudGateway、Kong等）是两种常见的解决方案，它们的配置逻辑和适用场景有所不同。以下是详细对比和配置示例：一、核心区别维度NginxAPIGateway定位反向代理/Web服务器微服务流量入口配置位置基础设施层应用层网关动态能力需reload生效支持动态更新（如配置中心热刷新）细粒度控制基于URI路径可
org.springframework.cloud.gateway 组件解释欧先生^_^ gateway
org.springframework.cloud.gateway是SpringCloud生态系统中的一个新一代的、功能强大的API网关。1.什么是API网关(APIGateway)？在讲解SpringCloudGateway之前，我们先要理解它扮演的角色——API网关。在一个微服务架构中，系统被拆分成多个独立的服务（如用户服务、商品服务、订单服务等）。客户端（如网页、手机App）如果直接和这些服
基于AWS无服务器架构的区块链API集成：零基础设施运维实践 AWS官方合作商 aws serverless 架构 web3 区块链
引言区块链开发常面临节点部署、网络维护和扩展性挑战。本文将介绍如何通过AWS全托管服务构建高可用的区块链API层，无需自建节点、无需管理服务器，实现快速接入主流区块链网络（如以太坊、比特币），并保证企业级安全性与扩展性。graphLRA[前端应用]-->B[AmazonAPIGateway]B-->C[AWSLambda]C-->D[AmazonManagedBlockchain]C-->E[Bl
Spring Cloud Gateway 介绍爱学习的白杨树 java 运维开发语言
什么是SpringCloudGateway？SpringCloudGateway是SpringCloud社区官方推出的一个基于SpringFramework5、ProjectReactor和SpringBoot2.x的下一代API网关（APIGateway）解决方案。它旨在为微服务架构提供统一、简洁、高效的API网关层。你可以把它想象成一个大门口的智能保安和交通枢纽。所有外部客户端（如Web浏览器
OpenAPI配置类，支持通过@ApiGroup注解自动分组
以下是实现一个支持@ApiGroup注解自动分组的OpenAPI配置类的详细方法，结合SpringBoot和Swagger的常见实践。核心步骤定义@ApiGroup注解自定义注解用于标记API分组，示例代码如下：@Target({ElementType.TYPE,ElementType.METHOD})@Retention(RetentionPolicy.RUNTIME)public@interf
linux 多线程压缩,Linux并行gzip压缩工具pigz 西北老胡文康 linux 多线程压缩
由于项目原因，经常需要压缩和解压缩大量的数据。10G规模以上，而默认tar打包和系统默认的压缩工具是单线程的。服务器多核CPU完全利用不起来，瓶颈在CPU的处理上面。于是使用了pigz这个可以利用多核的并行压缩工具。效果显著，如果你也需要频繁压缩大量的数据，可以尝试一下这个软件。1.安装centos&redhat系yuminstallpigzdebian&ubuntu系apt-getinstall
Linux内核编译流程解析攻城狮星河 linux内核学习之路 linux 运维服务器
文章目录前言1、编译信息2、编译全流程图3、编译详细流程1、编译链接-ELF文件-vmlinux2、objcopy-Image3、将Image文件压缩成piggz.gzip4、链接解压缩代码-zImage镜像5、uImage4、关于内核解压缩函数1.head.o：2.misc.o：3.decompress.o：三者的协作流程前言此文章为《嵌入式C语言自我修养》的读书笔记，仅作为个人学习记录，大部分
云原生安全实战：API网关Kong的鉴权与限流详解
「炎码工坊」技术弹药已装填！点击关注→解锁工业级干货【工具实测|项目避坑|源码燃烧指南】一、基础概念1.API网关（APIGateway）API网关是微服务架构中的核心组件，负责统一管理所有API的流量入口。它像一座桥梁，连接客户端与后端服务，提供身份验证、流量控制、监控日志等能力。核心作用：集中管理API安全策略统一处理跨服务通信提供可扩展的插件化架构2.鉴权（Authentication&Au
Apache APISIX 教程松俭格
ApacheAPISIX教程apisixTheCloud-NativeAPIGateway项目地址:https://gitcode.com/gh_mirrors/ap/apisix1.项目介绍ApacheAPISIX是一款高性能、动态实时的API网关，基于NGINX和etcd实现。它提供丰富的流量管理特性，如负载均衡、动态上游、灰度发布、熔断机制、认证、可观测性等。不仅能处理传统的南北向流量，还适
金融全业务场景的系统分层与微服务域架构切分 lansye 常识类架构金融微服务
构建一个支持金融全业务场景的会员账户体系，是一项复杂但极具战略价值的工程。为了支持跨国收付款、供应链金融、信用账户、票据、银行卡发卡等场景，需要采用清晰的分层架构和服务划分策略，确保系统具备可扩展性、合规性、安全性和高可用性。以下是建议的系统切分方式和微服务分层架构：一、宏观分层架构（分为5层）接入层（APIGateway+BFF）负责认证、流控、灰度发布、多租户支持支持不同前端/渠道的聚合层（W
在CSDN发布AWS Proton解决方案：实现云原生应用的标准化部署 AWS官方合作商 aws 云原生 java
引言：云原生时代的部署挑战在云原生应用开发中，基础设施管理的复杂性已成为团队面临的核心挑战。随着微服务架构的普及，每个服务可能包含数十个AWS资源（如Lambda、APIGateway、ECS集群等），传统的手动配置方式导致：环境配置不一致部署流程碎片化安全策略难统一AWSProton应运而生——它是AWS推出的全托管式部署协调服务，通过预定义模板实现：环境标准化：统一管理VPC、ECR、IAM等
搭建 Serverless 架构 debug 小菜鸟 aws 学习云计算
✅一、理解Serverless架构核心概念核心理念：无需管理服务器：只需编写业务逻辑，部署后由云平台托管运行环境。事件驱动（Event-driven）按需计费（按调用次数/资源消耗）高可扩展性与自动伸缩常见组件：类型AWS服务说明计算Lambda核心函数服务网关/APIAPIGateway将HTTP请求转发给Lambda消息/队列SQS/SNS/EventBridge异步触发/事件总线存储S3/D
推荐一款强大的Golang清洁Web API项目：完全Docker化的汽车销售平台宋韵庚
推荐一款强大的Golang清洁WebAPI项目：完全Docker化的汽车销售平台golang-clean-web-apiGolangCleanarchitectureRESTAPIexamplewithacomprehensiverealproject.Itusesdocker,dockercompose,redis,elasticsearch,kibana,filebeat,postgresql
开源库免费API服务平台 ALLBEAPI 天才在此 API 免费开源
开源库API化平台ALLBEAPIGitHub仓库地址：https://github.com/TingjiaInFuture/allbeapi为优秀开源库提供免费API服务，让开发者无需安装和部署即可直接调用。API接入地址基础URL:https://res.allbeapi.top所有API服务都通过此域名提供，支持HTTPS安全访问。目前支持的API服务MarkedAPI将Markdown文本
apisix网关proxy-cache插件使用说明 b哈利路亚d apisix k8s运维及开发服务器运维服务器运维
apisix可以快速配置客户端缓存，效果同nginx。方法是使用proxy-cache插件。一般可以全局配置。官方文档：proxy-cache|ApacheAPISIX®--Cloud-NativeAPIGatewaycache_http_status=200标识只有200的缓存。cache_method是指缓存的请求类型，一般只缓存get，特殊情况请自行处理。
如何设计一个支持千万级数据量的搜索系统（结合 MySQL 和 ES）？ES与关系型数据库（MySQL）数据同步方案？如何保证数据库与Elasticsearch的双写一致性？对比采用事务日志与CDC方案搞不懂语言的程序员 elasticsearch 中间件数据库 mysql elasticsearch
千万级搜索系统架构设计（增强版）架构分层说明：├──接入层│├️NGINX（负载均衡+SSL卸载）│└️APIGateway（JWT鉴权+限流）├──计算层│├️实时写入集群（处理MySQL写入）││├️双写模块（ES同步组件）││└️本地事务表（保障本地事务）│└️异步处理集群（消费binlog）│├️Canal集群（HA部署）│└️消息分区（Kafka32partitions）├──存储层│├
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

使用Ansj分词器+Pig来统计中文的词频

你可能感兴趣的:(pig)