成都笨笨

mapreduce导出MSSQL的数据到HDFS

　　今天想通过一些数据，来测试一下我的《基于信息熵的无字典分词算法》这篇文章的正确性。就写了一下MapReduce程序从MSSQL SERVER2008数据库里取数据分析。程序发布到hadoop机器上运行报SQLEXCEPTION错误

　　奇怪了，我的SQL语句中没有LIMIT，这LIMIT哪来的。我翻看了DBInputFormat类的源码，

 1 protected RecordReader<LongWritable, T> createDBRecordReader(DBInputSplit split,
 2 
 3       Configuration conf) throws IOException {
 4 
 5  
 6 
 7     @SuppressWarnings("unchecked")
 8 
 9     Class<T> inputClass = (Class<T>) (dbConf.getInputClass());
10 
11     try {
12 
13       // use database product name to determine appropriate record reader.
14 
15       if (dbProductName.startsWith("ORACLE")) {
16 
17         // use Oracle-specific db reader.
18 
19         return new OracleDBRecordReader<T>(split, inputClass,
20 
21             conf, createConnection(), getDBConf(), conditions, fieldNames,
22 
23             tableName);
24 
25       } else if (dbProductName.startsWith("MYSQL")) {
26 
27         // use MySQL-specific db reader.
28 
29         return new MySQLDBRecordReader<T>(split, inputClass,
30 
31             conf, createConnection(), getDBConf(), conditions, fieldNames,
32 
33             tableName);
34 
35       } else {
36 
37         // Generic reader.
38 
39         return new DBRecordReader<T>(split, inputClass,
40 
41             conf, createConnection(), getDBConf(), conditions, fieldNames,
42 
43             tableName);
44 
45       }
46 
47     } catch (SQLException ex) {
48 
49       throw new IOException(ex.getMessage());
50 
51     }
52 
53   }

View Code

DBRecordReader的源码

 1 protected String getSelectQuery() {
 2 
 3     StringBuilder query = new StringBuilder();
 4 
 5  
 6 
 7     // Default codepath for MySQL, HSQLDB, etc. Relies on LIMIT/OFFSET for splits.
 8 
 9     if(dbConf.getInputQuery() == null) {
10 
11       query.append("SELECT ");
12 
13   
14 
15       for (int i = 0; i < fieldNames.length; i++) {
16 
17         query.append(fieldNames[i]);
18 
19         if (i != fieldNames.length -1) {
20 
21           query.append(", ");
22 
23         }
24 
25       }
26 
27  
28 
29       query.append(" FROM ").append(tableName);
30 
31       query.append(" AS ").append(tableName); //in hsqldb this is necessary
32 
33       if (conditions != null && conditions.length() > 0) {
34 
35         query.append(" WHERE (").append(conditions).append(")");
36 
37       }
38 
39  
40 
41       String orderBy = dbConf.getInputOrderBy();
42 
43       if (orderBy != null && orderBy.length() > 0) {
44 
45         query.append(" ORDER BY ").append(orderBy);
46 
47       }
48 
49     } else {
50 
51       //PREBUILT QUERY
52 
53       query.append(dbConf.getInputQuery());
54 
55     }
56 
57         
58 
59     try {
60 
61       query.append(" LIMIT ").append(split.getLength()); //问题所在
62 
63       query.append(" OFFSET ").append(split.getStart());
64 
65     } catch (IOException ex) {
66 
67       // Ignore, will not throw.
68 
69     }
70 
71  
72 
73     return query.toString();
74 
75   }

View Code

终于找到原因了。

　　原来，hadoop只实现了Mysql的DBRecordReader（MySQLDBRecordReader）和ORACLE的DBRecordReader（OracleDBRecordReader）。

原因找到了，我参考着OracleDBRecordReader实现了MSSQL SERVER的DBRecordReader代码如下：

　　MSSQLDBInputFormat的代码：

 1 /**
 2  * 
 3  */
 4 package org.apache.hadoop.mapreduce.lib.db;
 5 
 6 import java.io.IOException;
 7 import java.sql.SQLException;
 8 
 9 import org.apache.hadoop.conf.Configuration;
10 import org.apache.hadoop.io.LongWritable;
11 import org.apache.hadoop.mapreduce.Job;
12 import org.apache.hadoop.mapreduce.RecordReader;
13 
14 /**
15  * @author summer
16  *  MICROSOFT SQL SERVER
17  */
18 public class MSSQLDBInputFormat<T extends DBWritable> extends DBInputFormat<T> {
19 
20     public static void setInput(Job job,
21               Class<? extends DBWritable> inputClass,
22               String inputQuery, String inputCountQuery,String rowId) {
23             job.setInputFormatClass(MSSQLDBInputFormat.class);
24             DBConfiguration dbConf = new DBConfiguration(job.getConfiguration());
25             dbConf.setInputClass(inputClass);
26             dbConf.setInputQuery(inputQuery);
27             dbConf.setInputCountQuery(inputCountQuery);
28             dbConf.setInputFieldNames(new String[]{rowId});
29           }
30     
31     @Override
32     protected RecordReader<LongWritable, T> createDBRecordReader(
33             org.apache.hadoop.mapreduce.lib.db.DBInputFormat.DBInputSplit split,
34             Configuration conf) throws IOException {
35         
36          @SuppressWarnings("unchecked")
37             Class<T> inputClass = (Class<T>) (dbConf.getInputClass());
38             try {
39              
40                 return new MSSQLDBRecordReader<T>(split, inputClass,
41                     conf, createConnection(), getDBConf(), conditions, fieldNames,
42                     tableName);
43             
44             } catch (SQLException ex) {
45               throw new IOException(ex.getMessage());
46             }
47         
48         
49     }
50 
51     
52 }

View Code

　　MSSQLDBRecordReader的代码：

 1 /**
 2  * 
 3  */
 4 package org.apache.hadoop.mapreduce.lib.db;
 5 
 6 import java.io.IOException;
 7 import java.sql.Connection;
 8 import java.sql.SQLException;
 9 
10 import org.apache.hadoop.conf.Configuration;
11 
12 
13 /**
14  * @author summer
15  *
16  */
17 public class MSSQLDBRecordReader <T extends DBWritable> extends DBRecordReader<T>{
18 
19     public MSSQLDBRecordReader(DBInputFormat.DBInputSplit split, 
20               Class<T> inputClass, Configuration conf, Connection conn, DBConfiguration dbConfig,
21               String cond, String [] fields, String table) throws SQLException {
22         super(split, inputClass, conf, conn, dbConfig, cond, fields, table);
23         
24     }
25 
26     @Override
27     protected String getSelectQuery() {
28          StringBuilder query = new StringBuilder();
29             DBConfiguration dbConf = getDBConf();
30             String conditions = getConditions();
31             String tableName = getTableName();
32             String [] fieldNames = getFieldNames();
33 
34             // Oracle-specific codepath to use rownum instead of LIMIT/OFFSET.
35             if(dbConf.getInputQuery() == null) {
36               query.append("SELECT ");
37           
38               for (int i = 0; i < fieldNames.length; i++) {
39                 query.append(fieldNames[i]);
40                 if (i != fieldNames.length -1) {
41                   query.append(", ");
42                 }
43               }
44           
45               query.append(" FROM ").append(tableName);
46               if (conditions != null && conditions.length() > 0)
47                 query.append(" WHERE ").append(conditions);
48               String orderBy = dbConf.getInputOrderBy();
49               if (orderBy != null && orderBy.length() > 0) {
50                 query.append(" ORDER BY ").append(orderBy);
51               }
52             } else {
53               //PREBUILT QUERY
54               query.append(dbConf.getInputQuery());
55             }
56                 
57             try {
58               DBInputFormat.DBInputSplit split = getSplit();
59               if (split.getLength() > 0){
60                 String querystring = query.toString();
61                 String id = fieldNames[0];
62                 query = new StringBuilder();
63                 query.append("SELECT TOP "+split.getLength()+"* FROM ( ");
64                 query.append(querystring);
65                 query.append(" ) a WHERE " + id +" NOT IN (SELECT TOP ").append(split.getEnd());
66                 query.append(" "+id +" FROM (");
67                 query.append(querystring);
68                 query.append(" ) b");
69                 query.append(" )");
70                 System.out.println("----------------------MICROSOFT SQL SERVER QUERY STRING---------------------------");
71                 System.out.println(query.toString());
72                 System.out.println("----------------------MICROSOFT SQL SERVER QUERY STRING---------------------------");
73               }
74             } catch (IOException ex) {
75               // ignore, will not throw.
76             }              
77 
78             return query.toString();
79     }
80     
81     
82 
83 }

View Code

mapreduce的代码

  1 /**
  2  * 
  3  */
  4 package com.nltk.sns.mapreduce;
  5 
  6 import java.io.IOException;
  7 import java.util.List;
  8 
  9 import org.apache.hadoop.conf.Configuration;
 10 import org.apache.hadoop.fs.FileSystem;
 11 import org.apache.hadoop.fs.Path;
 12 import org.apache.hadoop.io.LongWritable;
 13 import org.apache.hadoop.io.Text;
 14 import org.apache.hadoop.mapreduce.Job;
 15 import org.apache.hadoop.mapreduce.MRJobConfig;
 16 import org.apache.hadoop.mapreduce.Mapper;
 17 import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
 18 import org.apache.hadoop.mapreduce.lib.db.MSSQLDBInputFormat;
 19 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 20 
 21 
 22 
 23 
 24 
 25 
 26 
 27 import com.nltk.utils.ETLUtils;
 28 
 29 /**
 30  * @author summer
 31  *
 32  */
 33 public class LawDataEtl {
 34 
 35     public static class CaseETLMapper extends 
 36         Mapper<LongWritable, LawCaseRecord, LongWritable, Text>{
 37 
 38         static final int step = 6;
 39         
 40         LongWritable key = new LongWritable(1);
 41         Text value = new Text();
 42         
 43         @Override
 44         protected void map(
 45                 LongWritable key,
 46                 LawCaseRecord lawCaseRecord,
 47                 Mapper<LongWritable, LawCaseRecord, LongWritable, Text>.Context context)
 48                 throws IOException, InterruptedException {
 49             
 50             System.out.println("-----------------------------"+lawCaseRecord+"------------------------------");
 51             
 52             key.set(lawCaseRecord.id);
 53             String source = ETLUtils.format(lawCaseRecord.source);
 54             List<LawCaseWord> words = ETLUtils.split(lawCaseRecord.id,source, step);
 55             for(LawCaseWord w:words){
 56                 value.set(w.toString());
 57                 context.write(key, value);
 58             }
 59         }
 60     }
 61     
 62                 
 63     static final String driverClass = "com.microsoft.sqlserver.jdbc.SQLServerDriver";
 64     static final String dbUrl = "jdbc:sqlserver://192.168.0.1:1433;DatabaseName=XXX";
 65     static final String uid = "XXX";
 66     static final String pwd = "XXX";
 67     static final String inputQuery = "select id,source from tablename where id<1000";
 68     static final String inputCountQuery = "select count(1) from LawDB.dbo.case_source where id<1000";
 69     static final String jarClassPath = "/user/lib/sqljdbc4.jar";
 70     static final String outputPath = "hdfs://ubuntu:9000/user/test";
 71     static final String rowId = "id";
 72     
 73     public static Job configureJob(Configuration conf) throws Exception{
 74         
 75         String jobName = "etlcase";
 76         Job job =  Job.getInstance(conf, jobName);
 77 
 78         job.addFileToClassPath(new Path(jarClassPath));
 79         MSSQLDBInputFormat.setInput(job, LawCaseRecord.class, inputQuery, inputCountQuery,rowId);
 80         job.setJarByClass(LawDataEtl.class);
 81         
 82         FileOutputFormat.setOutputPath(job, new Path(outputPath));
 83         
 84         job.setMapOutputKeyClass(LongWritable.class);
 85         job.setMapOutputValueClass(Text.class);
 86         job.setOutputKeyClass(LongWritable.class);
 87         job.setOutputValueClass(Text.class);
 88         job.setMapperClass(CaseETLMapper.class);
 89         
 90         return job;
 91     }
 92     
 93     public static void main(String[] args) throws Exception{
 94         
 95         Configuration conf = new Configuration();
 96         FileSystem fs = FileSystem.get(conf);
 97         fs.delete(new Path(outputPath), true);
 98         
 99         DBConfiguration.configureDB(conf, driverClass, dbUrl, uid, pwd);
100         conf.set(MRJobConfig.NUM_MAPS, String.valueOf(10));
101         Job job = configureJob(conf);
102         System.out.println("------------------------------------------------");
103         System.out.println(conf.get(DBConfiguration.DRIVER_CLASS_PROPERTY));
104         System.out.println(conf.get(DBConfiguration.URL_PROPERTY));
105         System.out.println(conf.get(DBConfiguration.USERNAME_PROPERTY));
106         System.out.println(conf.get(DBConfiguration.PASSWORD_PROPERTY));
107         System.out.println("------------------------------------------------");
108         System.exit(job.waitForCompletion(true) ? 0 : 1);  
109         
110     }
111 }

View Code

辅助类的代码：

 1 /**
 2  * 
 3  */
 4 package com.nltk.sns;
 5 
 6 import java.util.ArrayList;
 7 import java.util.List;
 8 
 9 import org.apache.commons.lang.StringUtils;
10 
11 
12 
13 
14 
15 /**
16  * @author summer
17  *
18  */
19 public class ETLUtils {
20 
21     public final static String NULL_CHAR = "";
22     public final static String PUNCTUATION_REGEX = "[(\\pP)&&[^\\|\\｛\\｝\\＃]]+";
23     public final static String WHITESPACE_REGEX = "[\\p{Space}]+";
24     
25     public static String format(String s){
26         
27         return s.replaceAll(PUNCTUATION_REGEX, NULL_CHAR).replaceAll(WHITESPACE_REGEX, NULL_CHAR); 
28     }
29     
30     public static List<String> split(String s,int stepN){
31         
32         List<String> splits = new ArrayList<String>();
33         if(StringUtils.isEmpty(s) || stepN<1)
34             return splits;
35         int len = s.length();
36         if(len<=stepN)
37             splits.add(s);
38         else{
39             for(int j=1;j<=stepN;j++)
40                 for(int i=0;i<=len-j;i++){
41                     String key = StringUtils.mid(s, i,j);
42                     if(StringUtils.isEmpty(key))
43                         continue;
44                     splits.add(key);
45                 }
46         }
47         return splits;
48         
49     }
50     
51     public static void main(String[] args){
52         
53         String s="谢婷婷等与姜波等";
54         int stepN = 2;
55         List<String> splits = split(s,stepN);
56         System.out.println(splits);
57     }
58 }

View Code

运行成功了

代码初略的实现，主要是为了满足我的需求，大家可以根据自己的需要进行修改。

　　实际上DBRecordReader作者实现的并不好，我们来看DBRecordReader、MySQLDBRecordReader和OracleDBRecordReader源码，DBRecordReader和MySQLDBRecordReader耦合度太高。一般而言，就是对于没有具体实现的数据库DBRecordReader也应该做到运行不报异常，无非就是采用单一的SPLIT和单一的MAP。

生数科技携手央视新闻《文博日历》，推动AI视频技术的创新应用 TMT星球人工智能人工智能科技大数据
近日，生数科技携手央视新闻《文博日历》栏目，借助其旗下AI视频大模型及应用产品Vidu，共同打造AI版2025年文博日历联欢晚会，全面推动AI视频生成技术在媒体中的创新实践。《文博日历》是央视新闻客户端联合各大博物馆推出的文博科普产品，以新媒体形式为观众呈现丰富多彩的文博知识和历史文化。据「TMT星球」了解，此次合作中，生数科技为《文博日历》量身定制了AI视频生成方案，让文物们“动”起来，共同出演
【Web3企业出海】奇墨科技为企业出海提供云安全、ITQM智能运维及云MSP一站式服务奇墨 ITQM 科技运维
1月15日，Web3嘉年华在四川成都成功举办。此次活动为探索企业出海的发展及创新机遇提供平台。活动现场，奇墨科技团队与在场嘉宾共商2025年企业出海的合作创新之道。奇墨科技，作为数字化领域的积极探索者与创新实践者，聚焦安全服务、奇墨ITQM智能运维、云MSP服务，为企业出海安全提供更具核心竞争力的技术支持。.云安全：极致性价比的企业云安全托底保障有底云安是奇墨科技旗下的云安全产品品牌，有底云安搭建
Scala语言的循环实现 Code侠客行包罗万象 golang 开发语言后端
Scala语言的循环实现在编程中，循环是一个非常重要的概念，它允许我们重复执行某些代码块。Scala作为一种现代化的编程语言，融合了函数式编程和面向对象编程的特点，提供了多种方式来实现循环。在本文中，我们将深入探讨Scala中的循环实现，包括基本的循环结构、使用集合与高阶函数、以及如何利用递归来实现循环。一、基础循环结构Scala提供了几种基础的循环结构，包括for循环、while循环和dowhi
【江西省乡镇界】面图层shp格式乡镇名称和编码wgs84无偏移arcgis数据内容测评鸿业远图科技 arcgis
标题中的“江西省乡镇界面图层shp格式乡镇名称和编码wgs84无偏移arcgis数据”指的是一份地理信息系统（GIS）的数据集，主要用于描绘江西省内各个乡镇的边界信息。这份数据集采用的是Shapefile（shp）格式，这是一种广泛用于GIS领域的矢量数据格式，可以存储地理特征的几何、属性和标识信息。其中，“乡镇名称和编码”指的是每个乡镇的专属标识，通常包括乡镇的名字和一个唯一编码，方便数据管理和
【浙江省乡镇界】面图层shp格式arcgis数据+乡镇名称和编码+wgs84坐标无偏移内容测评鸿业远图科技 arcgis
最新2020年乡镇界+面图层shp格式arcgis数据+乡镇名称和编码+wgs84坐标无偏移。arcgis直接打开，单独乡镇界一个图层。品质高
【湖北省乡镇界】面图层arcgis数据乡镇名称和编码wgs84坐标无偏移shp格式内容测评鸿业远图科技 arcgis
2020年乡镇界+面图层shp格式arcgis数据+乡镇名称和编码+wgs84坐标无偏移。arcgis直接打开，单独乡镇界一个图层。品质高
天天AI-20250121：全面解读 AI 实践课程：动手学大模型（含PDF课件） AI2AGI 天天AI 人工智能大数据 ai 文心一言百度
2AGI.NET|探索AI无限潜力，2AGI为您带来最前沿资讯。2AGI.NET：天天AI-20250121从开源版o1模型的发布到Adobe推出音乐模型DITTO-2，再到OpenAI为研究长寿推出的GPT-4b，AI技术正以前所未有的速度和规模影响着我们的世界。本文将为您梳理近期的技术热点，带您一探究竟。全面解读AI实践课程：动手学大模型（含PDF课件）该教程内容较为专业，理解起来有一定难度，
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争 xidianjiapei001 AI-人工智能与大模型人工智能 AI DeepSeek 大模型
这家公司打造出了一款成本更低且颇具竞争力的聊天机器人，其使用的高端计算机芯片数量少于谷歌和OpenAI等美国巨头企业，这凸显出芯片出口管制的局限性。圣诞节次日，一家名为DeepSeek的中国小型初创公司推出了一款新的人工智能系统，其性能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。仅此一点就堪称一个里程碑。但这个名为DeepSeek-V3系统的研发团队称，他们迈出了更大的一步。在一篇解释该技
SpringBoot3+Vue3+NaiveUI博客后台管理系统源码 | 小蚂蚁云小蚂蚁开源后端 vue 架构低代码
项目介绍基于SpringBoot3、SpringSecurity、MybatisPlus、Vue3、TypeScript、Vite、NaiveUI、MySQL等技术栈实现的单体前后端分离后台管理系统；后端基于Java语言采用SpringBoot3、SpringSecurity、MybatisPlus、MySQL等主流技术栈，前端基于Vue3、TypeScript、Vite等技术栈实现，采用Naiv
小蚂蚁云后台管理系统|XiaoMaYi 小蚂蚁开源后端 vue
项目介绍基于SpringBoot3、SpringSecurity、MybatisPlus、Vue3、TypeScript、Vite、ElementPlus、MySQL等技术栈实现的单体前后端分离后台管理系统；后端基于Java语言采用SpringBoot3、SpringSecurity、MybatisPlus、MySQL等主流技术栈，前端基于Vue3、TypeScript、Vite等技术栈实现，采用
multimap在c++的一些用法 wwjjjww c++开发语言
multimap是C++标准库中一个非常有用的关联容器，用于存储键值对，其中一个键可以对应多个值。与map类似，但multimap允许相同的键有多个值。下面是multimap的用法大全，包括基本操作和常见用法示例。1.引入头文件首先，要使用multimap，需要包含头文件：#include2.定义和初始化创建multimap对象时，需要指定键和值的类型。multimapmyMultimap;3.插
java抽取PDF指定范围页做新的PDF文件 vipwangjun epub java java pdf itextpdf PDF分割
因为公司有将首页提取出来做成一个单独的PDF文件.为了以后方便,直接就写一个方法.可以抽取任意范围的PDF页作为新的PDF./***截取pdfFile的第from页至第end页，组成一个新的文件名*@parampdfFile需要分割的PDF*@paramsavepath新PDF*@paramfrom起始页*@paramend结束页*/publicstaticvoidsplitPDFFile(Str
将josn字符串解析成实体努力，别失业 C#动态解析JSON json modal
dynamic_modal=Newtonsoft.Json.Linq.JToken.Parse(_json_data)asdynamic;将json字符_json_data动态解析成实体_modal,可以直接取_modal的属性字体。JsonResultResult=(JsonResult)Pay("","","","");varjsonStr=Newtonsoft.Json.JsonConver
学习AI职场应用技能的意义 Mieux718 学习人工智能
在智能化浪潮下，“人工智能+”通识必修课的普及，其核心并非在于培养人工智能领域的专家，而是旨在构建全民AI素养的基石。学习AI是可以让学生借助其技术力量，为各自的专业领域插上创新的翅膀。除了高校外，越来越多的企业也开始关注AI对企业业务的帮助，职场中掌握AI也变得越来越重要。随着人工智能技术的发展，许多行业都在引入相关技术和应用，人工智能应用场景已深度融入办公流程、项目管理、项目运营、客户服务等工
2021最全大厂Java面试题总结，备战2022春招~~ 老程不秃 Java 面试程序员 java 面试架构数据结构程序人生
前言2021年已不足一月，再过不久就要迎来2022年了，相信很多小伙伴在为跳槽做准备，每年的金三银四都是各大公司招聘程序员的最佳时期，在这段时间内有好多程序员为面试而发愁，不知道如何才能收到好的offer，拿到理想的薪资，实现自我的人生价值！所以小编特地分享出总结的一份480余页的面试手册。俗话说得好，他山之石，可以攻玉，多看多借鉴希望能对大家有所帮助✌。需要原文件学习的朋友们点赞+收藏，关注我之
三轴MEMS陀螺仪：创新科技，精准感知艾瑞科惯性技术技术应用科技
在智能设备日新月异的今天，传感器作为设备感知外界环境的“耳目”，其性能的提升对于设备的整体表现至关重要。艾瑞科惯性技术ER-3MG-14三轴MEMS陀螺仪凭借其出色的性能，成为了众多领域中的优选传感器，展示其在现代科技中的独特魅力。高精度测量，稳定可靠ER-3MG-14三轴MEMS陀螺仪采用先进的微机电系统（MEMS）技术，能够实现对物体围绕三个轴的旋转速度进行高精度测量。陀螺仪测量范围：200d
线性代数第七讲二次型_标准型_规范型_坐标变换_合同_正定二次型详细讲解_重难点题型总结二叉树果实线性代数线性代数
文章目录1.二次型1.1二次型、标准型、规范型、正负惯性指数、二次型的秩1.2坐标变换1.3合同1.4正交变换化为标准型1.5可逆线性变换和正交变换1.6二次型化标准形，二次型化规范形的联系思考1.8两个二次型联系的思考1.9对于配方法问题的深入思考2.二次型的主要定理3.正定二次型与正定矩阵4.重难点题型总结4.1配方法将二次型化为标准型4.2正交变换法将二次型化为标准型4.3规范型确定取值范围
使用Python将PDF文件转换为MOBI格式 choiiie 菜狗的怪问题合集 pdf python 经验分享
使用Python将PDF文件转换为MOBI格式引言在这篇文章中，我们将学习如何使用Python创建一个图形用户界面（GUI）应用程序，将PDF文件转换为MOBI格式。我们将使用tkinter作为GUI库，PyMuPDF或PyPDF2来处理PDF文件，以及Calibre的ebook-convert命令行工具来完成文件格式的转换。GitHub项目地址这个项目已经托管在GitHub上准备工作在开始之前，
JsonPath用法详解吴少凡 python 开发语言自动化 pycharm
JSONPath是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括Javascript、Python、PHP和Java。1、JSONPath安装:pipinstalljsonpath#如果安装太慢可以使用清华源来加速安装pipinstalljsonpath-ihttps://pypi.tuna.tsinghua.edu.cn/simple2、JSONPath语法J
dirname和basename 学无止境LL Shell
简介dirname命令去除文件名中的非目录部分，仅显示与目录有关的内容。dirname命令读取指定路径名保留最后一个/及其左边的字符，删除右边部分，并写结果到标准输出。如果最后一个/之后无字符，dirname命令使用倒数第二个/，并忽略其后的所有字符。dirname和basename通常在shell内部命令替换使用，以指定一个与指定输入文件名略有差异的输出文件名。语法diename(选项)(参数)
python批量转化pdf图片为jpg图片不懂python不懂R python python pdf
1.把pdf图片批量转为jpg；需要注意的是，需要先安装poppler这个软件，具体安装教程放在下面代码中了2.代码#poppler安装教程参考：https://blog.csdn.net/wy01415/article/details/110257130#windows上poppler下载链接：https://github.com/oschwartz10612/poppler-windowsfr
golang中的包管理-下--详解网络风云后端开发语言 golang
继续Golang包管理，上节发布了包管理的简介和基本概念，接下来详细介绍包管理的常用工具以及最佳实践。帮助开发者有效地管理项目中的依赖关系、版本控制、以及模块化代码。Go的包管理系统在多个版本之间有过一些变革，从早期的GOPATH到当前的GoModules，其设计目标是简化开发流程、提高开发效率并避免版本冲突。1、Golang包管理的演变GOPATH模式在Go语言的早期，Go使用的是GOPATH作
基于matlab汽车定速巡航仿真,毕业设计论文汽车定速巡航控制系统的设计.doc weixin_40005437
汽车定速巡航控制系统的设计摘要：随着汽车工业和公路运输业的发展，汽车会越来越普及，人们将需要更加舒适、简便和安全的交通工具。汽车巡航控制系统是一种辅助驾驶系统，它不但可以减轻驾驶员的负担，还可以提高驾车的舒适性。汽车巡航控制系统具有非线性、时变不确定性，并受到外界扰动、复杂的运行工况等影响，采用传统PID控制很难取得满意的效果，本文介绍了一种基于模糊PID控制算法的汽车巡航控制系统。本文首先阐述了
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
tensorlow中tensorboard可视化展示训练过程张登杰踩 tensorflow tensorboard tensorflow mnist 神经网络
importtensorflowastffromtensorflow.examples.tutorials.mnistimportinput_datamax_steps=1000#训练步数learning_rate=0.001#设置学习率dropout=0.9#神经元保留比例data_dir='./MNIST_data'#数据存放路径#minist数据集下载链接:https://pan.baidu
Anaconda 安装以及命令总结文档张登杰踩人工智能 conda python 人工智能 pytorch
以下是一份详细的Anaconda命令总结文档，涵盖环境管理、包管理、配置、常用工具等核心操作：Anaconda命令总结1.安装与更新命令说明conda--version查看Conda版本condaupdatenumpy更新numpy自身condaupdateanaconda更新Anaconda元包（包括大部分科学计算库）condainstallnumpy=安装指定版本的numpy2.环境管理创建与
基于Langchain框架，采用Qwen2.5大模型，搭建自己的Agent，ReACT效果比RAG好张登杰踩 langchain python 人工智能语言模型
最近在做RAG，调研后发现ReACT好像更具有说服力，对最终结果的解释也更加合理。举个例子，我扔给大模型这样一个问题：15的平方是多少？另外，法国的首都是哪里？采用ReACT的运行结果如下：>EnteringnewAgentExecutorchain...我需要先计算15的平方，然后搜索法国的首都。Action:平方计算器ActionInput:"15"Observation:15的平方等于225
java 获取pdf某页_java从一个pdf中取出指定页生成一个新的pdf weixin_39788131 java 获取pdf某页
publicstaticvoidpartitionPdfFile(StringpdfFile,StringnewFile,intfrom,intend){Documentdocument=null;PdfCopycopy=null;try{PdfReaderreader=newPdfReader(pdfFile);intn=reader.getNumberOfPages();if(end==0){
Linux dirname、basename 指令 weixin_30457465 操作系统
Linuxdirname、basename指令(2012-04-3021:44:53)转载▼标签：杂谈分类：linux一、dirname指令1、功能：从给定的包含绝对路径的文件名中去除文件名（非目录的部分），然后返回剩下的路径（目录的部分）2、用法：dirnamefilename例如下面几个例子（1）#dirname/etc/sysconfig/network-scripts/ifcfg-eth0
Git上传了秘钥如何彻底修改包括历史记录【从安装到实战详细版】 web2u git elasticsearch 数据库 spring boot java 后端
使用BFGRepo-Cleaner清除Git仓库中的敏感信息1.背景介绍在使用Git进行版本控制时，有时会不小心将敏感信息（如API密钥、密码等）提交到仓库中。即使后续删除，这些信息仍然存在于Git的历史记录中。本文将介绍如何使用BFGRepo-Cleaner工具彻底清除这些敏感信息。2.准备工作2.1环境要求Java运行环境（JRE8或更高版本）Git客户端需要清理的Git仓库2.2下载BFG访
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

mapreduce导出MSSQL的数据到HDFS

你可能感兴趣的:(mapreduce导出MSSQL的数据到HDFS)