zhouchaofei2010

hadoop多文件格式输入

hadoop多文件格式输入，一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式

原文:http://blog.csdn.net/fansy1990/article/details/26267637

版本：

CDH5.0.0 （hdfs:2.3，mapreduce：2.3，yarn：2.3）

hadoop多文件格式输入，一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。

比如现在有如下的需求：

现有两份数据：

phone：

[plain] view plain copy

123,good number
124,common number
125,bad number

user：

[plain] view plain copy

zhangsan,123
lisi,124
wangwu,125

现在需要把user和phone按照phone number连接起来，得到下面的结果：

[plain] view plain copy

zhangsan,123,good number
lisi,123,common number
wangwu,125,bad number

那么就可以使用MultipleInputs来操作，这里把user和phone上传到hdfs目录中，分别是/multiple/user/user , /multiple/phone/phone。

设计的MultipleDriver如下：

[java] view plain copy

package multiple.input;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.MultipleInputs;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
//import org.slf4j.Logger;
//import org.slf4j.LoggerFactory;
/**
* input1(/multiple/user/user):
* username,user_phone
*
* input2(/multiple/phone/phone):
* user_phone,description
*
* output: username,user_phone,description
*
* @author fansy
*
*/
public class MultipleDriver extends Configured implements Tool{
// private Logger log = LoggerFactory.getLogger(MultipleDriver.class);
private String input1=null;
private String input2=null;
private String output=null;
private String delimiter=null;
public static void main(String[] args) throws Exception {
Configuration conf=new Configuration();
// conf.set("fs.defaultFS", "hdfs://node33:8020");
// conf.set("mapreduce.framework.name", "yarn");
// conf.set("yarn.resourcemanager.address", "node33:8032");
ToolRunner.run(conf, new MultipleDriver(), args);
}
@Override
public int run(String[] arg0) throws Exception {
configureArgs(arg0);
checkArgs();
Configuration conf= getConf();
conf.set("delimiter", delimiter);
@SuppressWarnings("deprecation")
Job job = new Job(conf, "merge user and phone information ");
job.setJarByClass(MultipleDriver.class);
job.setReducerClass(MultipleReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlagStringDataType.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
job.setNumReduceTasks(1);
MultipleInputs.addInputPath(job, new Path(input1), TextInputFormat.class, Multiple1Mapper.class);
MultipleInputs.addInputPath(job, new Path(input2), TextInputFormat.class, Multiple2Mapper.class);
FileOutputFormat.setOutputPath(job, new Path(output));
int res = job.waitForCompletion(true) ? 0 : 1;
return res;
}
/**
* check the args
*/
private void checkArgs() {
if(input1==null||"".equals(input1)){
System.out.println("no user input...");
printUsage();
System.exit(-1);
}
if(input2==null||"".equals(input2)){
System.out.println("no phone input...");
printUsage();
System.exit(-1);
}
if(output==null||"".equals(output)){
System.out.println("no output...");
printUsage();
System.exit(-1);
}
if(delimiter==null||"".equals(delimiter)){
System.out.println("no delimiter...");
printUsage();
System.exit(-1);
}
}
/**
* configuration the args
* @param args
*/
private void configureArgs(String[] args) {
for(int i=0;i<args.length;i++){
if("-i1".equals(args[i])){
input1=args[++i];
}
if("-i2".equals(args[i])){
input2=args[++i];
}
if("-o".equals(args[i])){
output=args[++i];
}
if("-delimiter".equals(args[i])){
delimiter=args[++i];
}
}
}
public static void printUsage(){
System.err.println("Usage:");
System.err.println("-i1 input \t user data path.");
System.err.println("-i2 input \t phone data path.");
System.err.println("-o output \t output data path.");
System.err.println("-delimiter data delimiter , default is comma .");
}
}

这里指定两个mapper和一个reducer，两个mapper分别对应处理user和phone的数据，分别如下：

mapper1（处理user数据）：

[java] view plain copy

package multiple.input;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
* input :
* username,phone
*
* output:
* <key,value> --> <[phone],[0,username]>
* @author fansy
*
*/
public class Multiple1Mapper extends Mapper<LongWritable,Text,Text,FlagStringDataType>{
private Logger log = LoggerFactory.getLogger(Multiple1Mapper.class);
private String delimiter=null; // default is comma
@Override
public void setup(Context cxt){
delimiter= cxt.getConfiguration().get("delimiter", ",");
log.info("This is the begin of Multiple1Mapper");
}
@Override
public void map(LongWritable key,Text value,Context cxt) throws IOException,InterruptedException{
String info= new String(value.getBytes(),"UTF-8");
String[] values = info.split(delimiter);
if(values.length!=2){
return;
}
log.info("key-->"+values[1]+"=========value-->"+"[0,"+values[0]+"]");
cxt.write(new Text(values[1]), new FlagStringDataType(0,values[0]));
}
}

mapper2（处理phone数据）：

[java] view plain copy

package multiple.input;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
/**
* input :
* phone,description
*
* output:
* <key,value> --> <[phone],[1,description]>
* @author fansy
*
*/
public class Multiple2Mapper extends Mapper<LongWritable,Text,Text,FlagStringDataType>{
private Logger log = LoggerFactory.getLogger(Multiple2Mapper.class);
private String delimiter=null; // default is comma
@Override
public void setup(Context cxt){
delimiter= cxt.getConfiguration().get("delimiter", ",");
log.info("This is the begin of Multiple2Mapper");
}
@Override
public void map(LongWritable key,Text value,Context cxt) throws IOException,InterruptedException{
String[] values= value.toString().split(delimiter);
if(values.length!=2){
return;
}
log.info("key-->"+values[0]+"=========value-->"+"[1,"+values[1]+"]");
cxt.write(new Text(values[0]), new FlagStringDataType(1,values[1]));
}
}

这里的FlagStringDataType是自定义的：

[java] view plain copy

package multiple.input;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import com.google.common.primitives.Ints;
public class FlagStringDataType implements WritableComparable<FlagStringDataType> {
private Logger log = LoggerFactory.getLogger(FlagStringDataType.class);
private String value;
private int flag;
public FlagStringDataType() {
}
public FlagStringDataType(int flag,String value) {
this.value = value;
this.flag=flag;
}
public String get() {
return value;
}
public void set(String value) {
this.value = value;
}
@Override
public boolean equals(Object other) {
return other != null && getClass().equals(other.getClass())
&& ((FlagStringDataType) other).get() == value
&&((FlagStringDataType) other).getFlag()==flag;
}
@Override
public int hashCode() {
return Ints.hashCode(flag)+value.hashCode();
}
@Override
public int compareTo(FlagStringDataType other) {
if (flag >= other.flag) {
if (flag > other.flag) {
return 1;
}
} else {
return -1;
}
return value.compareTo(other.value);
}
@Override
public void write(DataOutput out) throws IOException {
log.info("in write()::"+"flag:"+flag+",vlaue:"+value);
out.writeInt(flag);
out.writeUTF(value);
}
@Override
public void readFields(DataInput in) throws IOException {
log.info("in read()::"+"flag:"+flag+",vlaue:"+value);
flag=in.readInt();
value = in.readUTF();
log.info("in read()::"+"flag:"+flag+",vlaue:"+value);
}
public int getFlag() {
return flag;
}
public void setFlag(int flag) {
this.flag = flag;
}
public String toString(){
return flag+":"+value;
}
}

这个自定义类，使用一个flag来指定是哪个数据，而value则对应是其值。这样做的好处是在reduce端可以根据flag的值来判断其输出位置，这种设计方式可以对多种输入的整合有很大帮助，在mahout中也可以看到这样的设计。

reducer（汇总输出数据）：

[java] view plain copy

package multiple.input;
import java.io.IOException;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
public class MultipleReducer extends Reducer<Text,FlagStringDataType,Text,NullWritable>{
private Logger log = LoggerFactory.getLogger(MultipleReducer.class);
private String delimiter=null; // default is comma
@Override
public void setup(Context cxt){
delimiter= cxt.getConfiguration().get("delimiter", ",");
}
@Override
public void reduce(Text key, Iterable<FlagStringDataType> values,Context cxt) throws IOException,InterruptedException{
log.info("================");
log.info(" =======");
log.info(" ==");
String[] value= new String[3];
value[2]=key.toString();
for(FlagStringDataType v:values){
int index= v.getFlag();
log.info("index:"+index+"-->value:"+v.get());
value[index]= v.get();
}
log.info(" ==");
log.info(" =======");
log.info("================");
cxt.write(new Text(value[2]+delimiter+value[0]+delimiter+value[1]),NullWritable.get());
}
}

这样设计的好处是，可以针对不同的输入数据采取不同的逻辑处理，而且不同的输入数据可以是序列文件的格式。

下面介绍一种方式和上面的比，略有不足，但是可以借鉴。

首先是Driver：

[java] view plain copy

package multiple.input;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
//import org.slf4j.Logger;
//import org.slf4j.LoggerFactory;
/**
* input1(/multiple/user/user):
* username,user_phone
*
* input2(/multiple/phone/phone):
* user_phone,description
*
* output: username,user_phone,description
*
* @author fansy
*
*/
public class MultipleDriver2 extends Configured implements Tool{
// private Logger log = LoggerFactory.getLogger(MultipleDriver.class);
private String input1=null;
private String input2=null;
private String output=null;
private String delimiter=null;
public static void main(String[] args) throws Exception {
Configuration conf=new Configuration();
// conf.set("fs.defaultFS", "hdfs://node33:8020");
// conf.set("mapreduce.framework.name", "yarn");
// conf.set("yarn.resourcemanager.address", "node33:8032");
ToolRunner.run(conf, new MultipleDriver2(), args);
}
@Override
public int run(String[] arg0) throws Exception {
configureArgs(arg0);
checkArgs();
Configuration conf= getConf();
conf.set("delimiter", delimiter);
@SuppressWarnings("deprecation")
Job job = new Job(conf, "merge user and phone information ");
job.setJarByClass(MultipleDriver2.class);
job.setMapperClass(MultipleMapper.class);
job.setReducerClass(MultipleReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlagStringDataType.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
job.setNumReduceTasks(1);
FileInputFormat.addInputPath(job, new Path(input1));
FileInputFormat.addInputPath(job, new Path(input2));
FileOutputFormat.setOutputPath(job, new Path(output));
int res = job.waitForCompletion(true) ? 0 : 1;
return res;
}
/**
* check the args
*/
private void checkArgs() {
if(input1==null||"".equals(input1)){
System.out.println("no user input...");
printUsage();
System.exit(-1);
}
if(input2==null||"".equals(input2)){
System.out.println("no phone input...");
printUsage();
System.exit(-1);
}
if(output==null||"".equals(output)){
System.out.println("no output...");
printUsage();
System.exit(-1);
}
if(delimiter==null||"".equals(delimiter)){
System.out.println("no delimiter...");
printUsage();
System.exit(-1);
}
}
/**
* configuration the args
* @param args
*/
private void configureArgs(String[] args) {
for(int i=0;i<args.length;i++){
if("-i1".equals(args[i])){
input1=args[++i];
}
if("-i2".equals(args[i])){
input2=args[++i];
}
if("-o".equals(args[i])){
output=args[++i];
}
if("-delimiter".equals(args[i])){
delimiter=args[++i];
}
}
}
public static void printUsage(){
System.err.println("Usage:");
System.err.println("-i1 input \t user data path.");
System.err.println("-i2 input \t phone data path.");
System.err.println("-o output \t output data path.");
System.err.println("-delimiter data delimiter , default is comma .");
}
}

这里添加路径直接使用FileInputFormat添加输入路径，这样的话，针对不同的输入数据的不同业务逻辑可以在mapper中先判断目前正在处理的是那个数据，然后根据其路径来进行相应的业务逻辑处理：

[java] view plain copy

package multiple.input;
import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
/**
* input1 :
* username,phone
*
* input2
* phone,description
*
* output:
* <key,value> --> <[phone],[0,username]>
* <key,value> --> <[phone],[1,description]>
* @author fansy
*
*/
public class MultipleMapper extends Mapper<LongWritable,Text,Text,FlagStringDataType>{
private String delimiter=null; // default is comma
private boolean flag=false;
@Override
public void setup(Context cxt){
delimiter= cxt.getConfiguration().get("delimiter", ",");
InputSplit input=cxt.getInputSplit();
String filename=((FileSplit) input).getPath().getParent().getName();
if("user".equals(filename)){
flag=true;
}
}
@Override
public void map(LongWritable key,Text value,Context cxt) throws IOException,InterruptedException{
String[] values= value.toString().split(delimiter);
if(values.length!=2){
return;
}
if(flag){
cxt.write(new Text(values[1]), new FlagStringDataType(0,values[0]));
}else{
cxt.write(new Text(values[0]), new FlagStringDataType(1,values[1]));
}
}
}

总体来说，这种处理方式其实是不如第一种的，在每个map函数中都需要进行判断，比第一种多了很多操作；同时，针对不同的序列文件，这种方式处理不了（Key、value的类型不一样的情况下）。所以针对多文件格式的输入，最好还是使用第一种方式。

分享，成长，快乐

转载请注明blog地址：http://blog.csdn.net/fansy1990

python读取excel数据和提取图片我就是全世界 python excel 开发语言
1.引言1.1日常工作中Excel的使用在现代办公环境中，Excel（电子表格软件）是数据管理和分析的重要工具之一。无论是财务报表、销售数据、项目管理还是日常报告，Excel都扮演着不可或缺的角色。其强大的数据处理能力、灵活的格式设置以及丰富的图表功能，使得Excel成为各行各业专业人士的首选工具。Excel的主要功能包括：数据录入与管理：用户可以轻松输入、编辑和管理大量数据。数据分析：通过内置的
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
模型部署实战：PyTorch生产化指南小诸葛IT课堂 pytorch 人工智能 python
‌一、为什么要做模型部署？‌模型部署是将训练好的模型‌投入实际应用‌的关键步骤，涉及：模型格式转换（TorchScript/ONNX）性能优化（量化/剪枝）构建API服务移动端集成本章使用ResNet18实现图像分类，并演示完整部署流程。‌二、模型转换：TorchScript与ONNX‌‌1.准备预训练模型importtorchimporttorchvision#加载预训练模型model=torc
C++基础匿名对象，友元和常成员(const) 没有百宝袋的哆啦A梦 c++java jvm
目录学习内容：1.匿名对象2.友元2.1友元的引入2.2友元函数2.3友元类2.4友元的总结3.常成员（const）3.1常成员的引入3.2常成员函数3.3常对象3.4mutable关键字3.5常函数3.6关于C/C++中const的使用(面试题)学习内容：1.匿名对象1>所谓匿名对象，就是没有名字的对象，生命周期只在当前语句内，所以可以理解成时一个将亡值2>定义格式：直接调用类的构造函数3>使用
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
简化路径 liujjjiyun 力扣刷题 C++力扣算法 c++
题目描述给你一个字符串path，表示指向某一文件或目录的Unix风格绝对路径（以'/'开头），请你将其转化为更加简洁的规范路径。在Unix风格的文件系统中规则如下：一个点'.'表示当前目录本身。此外，两个点'..'表示将目录切换到上一级（指向父目录）。任意多个连续的斜杠（即，'//'或'///'）都被视为单个斜杠'/'。任何其他格式的点（例如，'...'或'....'）均被视为有效的文件/目录名称
工厂函数详解：概念、目的与作用漫谈网络网络技术进阶通途工厂函数 mininet sdn nfv 网络
一、什么是工厂函数？工厂函数（FactoryFunction）是一种设计模式，其核心是通过一个函数来创建并返回对象，而不是直接使用new或构造函数实例化对象。它封装了对象的创建过程，使代码更灵活、可维护。二、工厂函数的目的与作用目的作用解耦对象创建逻辑将对象的创建与使用分离，调用者无需关心对象的具体实现细节。延迟实例化仅在需要时创建对象，避免资源浪费（如内存、CPU）。支持动态参数根据输入参数返回
【AI论文】ReCamMaster：基于单视频的相机控制式生成渲染东临碣石82 人工智能数码相机计算机视觉
摘要：相机控制在基于文本或图像条件的视频生成任务中已得到积极研究。然而，尽管改变给定视频的相机轨迹在视频创作领域具有重要意义，但这一领域的研究仍显不足。由于需要保持多帧外观和动态同步的额外约束，这一任务颇具挑战性。为解决这一问题，我们提出了ReCamMaster，这是一个相机控制的生成式视频重渲染框架，能够在新的相机轨迹下重现输入视频中的动态场景。其核心创新在于通过一种简单而强大的视频条件机制，利
dfs（二十二）78. 子集曾几何时` #DFS 深度优先算法数据结构
78.子集给你一个整数数组nums，数组中的元素互不相同。返回该数组所有可能的（幂集）。解集不能包含重复的子集。你可以按任意顺序返回解集。示例1：输入：nums=[1,2,3]输出：[[],[1],[2],[1,2],[3],[1,3],[2,3],[1,2,3]]示例2：输入：nums=[0]输出：[[],[0]]提示：1>res;vectorpath;vector>subsets(vector
Modbus RTU Curryᯤ 网络
1.Modbus简介Modbus是应用于电子领域上的一种通用协议分为三种:Modbus-RTU：二进制串行通信协议，适用于大多数场景。Modbus-ASCLL：采用ASCLL编码的串行通信协议，适用于小数据量传输，但效率较低。Modbus-TCP：基于以太网的传输协议，利用TCP/IP协议网络实现设备间的高速数据交换。2.Modbus协议传输格式在发送格式中：MODBUS地址是从机的设备地址，一般
《算法笔记》9.2小节——数据结构专题(2)-＞二叉树的遍历问题 A: 复原二叉树（同问题 C: 二叉树遍历）圣保罗的大教堂《算法笔记》算法
题目描述小明在做数据结构的作业，其中一题是给你一棵二叉树的前序遍历和中序遍历结果，要求你写出这棵二叉树的后序遍历结果。输入输入包含多组测试数据。每组输入包含两个字符串，分别表示二叉树的前序遍历和中序遍历结果。每个字符串由不重复的大写字母组成。输出对于每组输入，输出对应的二叉树的后续遍历结果。样例输入DBACEGFABCDEFGBCADCBAD样例输出ACBFGEDCDAB分析：不建树直接找的方法。
贪心算法：将数组和减半的最少操作次数神里流~霜灭贪心算法精讲贪心算法算法数据结构 c语言 c++动态规划
题目描述：给你一个正整数数组nums。每一次操作中，你可以从nums中选择任意一个数并将它减小到恰好一半。（注意，在后续操作中你可以对减半过的数继续执行操作）请你返回将nums数组和至少减少一半的最少操作数。示例1：输入：nums=[5,19,8,1]输出：3解释：初始nums的和为5+19+8+1=33。以下是将数组和减少至少一半的一种方法：选择数字19并减小为9.5。选择数字9.5并减小为4.
springboot使用163发送自定义html格式的邮件星月前端 spring boot html java
springboot使用163发送html格式的邮件效果:下面直接开始教学注册邮箱，生成授权码获取163邮箱的授权码，可以按照以下步骤操作：登录163邮箱打开浏览器，访问163邮箱登录页面。使用你的邮箱账号和密码登录。进入邮箱设置登录后，点击页面右上角的“设置”图标（通常是一个齿轮图标）。在菜单中选择“POP3/SMTP/IMAP”选项。开启SMTP服务在“POP3/SMTP/IMAP”设置页面中
Kotlin学习4.3：构造函数 CNwanku Kotlin入门学习 Kotlin 移动开发
Kotlin学习4.3：构造函数主构函数this关键字次构函数主构函数在Kotlin中，构造函数用constructor关键字进行修饰，一个类可以有一个主构造函数和多个次构造函数。主构函数位于类头跟在类名之后，如果主构造函数没有任何注解或可见性修饰符（如public），constructor关键字可省略。主构函数定义的语法格式如下：class类名constructor([形参1，形参2，形参3])
Navicat 17 for Mac 数据库管理 1alisa 数据库
Navicat17forMac数据库管理文章目录Navicat17forMac数据库管理一、介绍二、效果三、下载一、介绍NavicatPremium17forMac是一款专业的数据库管理工具，适用于开发人员、数据库管理员和分析师等用户。它提供了强大的数据管理功能和丰富的工具，使用户能够轻松地管理和维护数据库，提高数据处理效率。提供了无缝数据迁移功能;多元化操作工具，可以轻松地将不同格式的数据传输到
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
LeetCode每日一题——30. 串联所有单词的子串 hyk今天写算法了吗 #算法实例 leetcode 算法职场和发展数据结构 python
文章目录题目示例思路题解题目给定一个字符串s和一些长度相同的单词words。找出s中恰好可以由words中所有单词串联形成的子串的起始位置。注意子串要与words中的单词完全匹配，中间不能有其他字符，但不需要考虑words中单词串联的顺序。示例示例1：输入：s=“barfoothefoobarman”,words=[“foo”,“bar”]输出：[0,9]解释：从索引0和9开始的子串分别是“bar
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
《魔兽争霸-黑潮》游戏秘籍小魚資源大雜燴游戏
DECKMEOUT部队升级EVERYLITTLETHINGSHEDOES魔法升级GLITTERINGPRIZES增加黄金、木材、油量ITISAGOODDAYTODIE无敌MAKEITSO加快建筑、训练、升级的速度ONSCREEN地图全开，包括所有活动SHOWPATH地图全开，不包括所有活动HATCHET加快砍树速度SPYCOB增加油量5000单位TIGERLILY开启跳关模式，再输入“HUMANx
OpenCV旋转估计（2）用于自动检测波浪校正类型的函数autoDetectWaveCorrectKind() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::autoDetectWaveCorrectKind是OpenCV中用于自动检测波浪校正类型的函数，它根据输入的旋转矩阵集合来决定使用哪种波浪校正模式。波浪校正（WaveCorrection）是图像拼接过程中的一部分，主要用于纠正由于相机在拍
详细74系列IC功能说明 heraldww 硬件设计
详细74系列IC说明7400TTL2输入端四与非门7401TTL集电极开路2输入端四与非门7402TTL2输入端四或非门7403TTL集电极开路2输入端四与非门7404TTL六反相器7405TTL集电极开路六反相器7406TTL集电极开路六反相高压驱动器7407TTL集电极开路六正相高压驱动器7408TTL2输入端四与门7409TTL集电极开路2输入端四与门7410TTL3输入端3与非门74107
实现图片压缩功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于imagePackerssApi实现了图片压缩功能，并将压缩后的图片转成base64格式。开发者可将压缩后的图片用于arkui或者H5中进行图片展示。实现图片压缩功能源码链接效果预览使用说明打开应用，展示选择图片并压缩按钮，点击按钮，拉起系统相册，相册里选择图片或者拍照获取图片，选择完毕后点击完成，即可返回应用主页面，展示压缩后的图片。实现思路构造sel
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
实现图片处理功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本项目基于OpenHarmony三方库ImageKnife进行图片处理场景开发使用：支持不同类型的本地与网络图片展示。支持拉起相机拍照展示与图库照片选择展示。支持图片单一种变换效果。支持本地/在线图片格式：JPG、PNG、SVG、GIF、DPG、WEBP、BMP实现图片处理功能源码链接效果预览使用说明下载安装根目录下的oh-package.json5中depend
【java】注解 6<7 java 开发语言
注解什么是注解Annotation（注解）是从JDK5.0开始引入的新技术。Annotation的作用：不是程序本身必需的，但是可以对程序做出解释。可以被其他程序（比如编译器等）读取。Annotation的格式：注解是以“@注释名”在代码中存在的，还可以添加一些参数值，例如：@SuppressWarnings(value=“unchecked”)。Annotation在哪里可以使用?可以附加在pa
【VSCode】VSCode常用快捷键 Ctrl Z. vscode ide 编辑器
！+回车键快速创建html骨架Ctrl+/单行注释（取消）快捷键Alt+Shift+A块注释（取消）快捷键Ctrl+加号代码放大（适合浏览器）Ctrl+减号代码缩小（适合浏览器）Ctrl+Shift+K删除当前行Ctrl+H替换查询下一个/上一个：F3/Shift+F3选中所有出现在查询中的：Alt+EnterCtrl+D匹配当前选中的词汇或者行，再次选中-可操作Shift+Alt+F格式化代码F
【VSCode】VSCode常用插件 Ctrl Z. vscode ide 编辑器
Chinese(Simplified)(简体中文)LanguagePackforVisualStudioCode：简体中文支持插件HTML/CSS/JavaScriptSnippets：支持HTML/CSS/JavaScript快速匹配输入HTMLSnippets：这个插件提供了一系列HTML代码片段，通过简单的缩写就可以快速生成常用的HTML结构。例如，输入!并按下Tab键，就可以快速生成一个完
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

hadoop多文件格式输入

你可能感兴趣的:(hadoop多文件格式输入)