lqlgg1007

【datax采集ftp、txt、hdfs不支持多字符分隔解决方案】

该方式仅支持TxtFileReader, OSSReader,FtpReader, HdfsReader，其中ftpReader已验证。下文所有描述都只针对这几种数据源。
注意：修改为多字符分隔后，采集数据大概只有之前的1/3。所以源数据如果同时存在单字符和多字符。建议复制一份datax安装包，单独修改插件。

为什么Datax不支持多字符分隔

查看类com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil可以看到，上面几种数据源，datax才有CsvReader作为解析类去解析文件流中的字段、行数据。CsvReader的readRecord()方法通过逐个字符读取，并与char类型变量Delimiter的分隔符比较，由此可以看到要想支持多字符分隔，只有自己实现一个解析器类。为了省事，我直接复用CsvReader的大部分代码，仅做部分修改，删除无用判断代码，达到支持多字符分隔的目的。

解决方案

先从github下载datax源码
idea打开编码，调试各种环境（具体过程略过）
找到plugin-unstructured-storage-util模块
新增两个自定义类 com.csvreader.MyCsvReader、com.csvreader.MyCircularFifoQueue
MyCircularFifoQueue定义了一个定长的环形队列，并实现了toString方法，该队列用于存每次从文件流中读取的字符，当读到自定义分隔符长度时，后读进的字符会覆盖最早读到字符，用于判断当前是否读到了分隔符。MyCsvReader为参考CsvReader实现的解析器。

com.csvreader.MyCircularFifoQueue代码如下：

package com.csvreader;

import org.apache.commons.collections4.queue.CircularFifoQueue;
import java.util.Iterator;

/**
 * @author lqlqg
 * 定义定长队列，该队列满足先进先出，当队列满了之后，插入数据会覆盖最早插入的数据，并提供元素转字符串功能
 * 2022/1/18 15:06
 */
public class MyCircularFifoQueue {

    // 定义环形队列
    private CircularFifoQueue<Character> circularFifoQueue;
    private final StringBuilder stringBuilder = new StringBuilder();

    // 环形队列初始化，通过分隔符长度来初始化队列长度
    public MyCircularFifoQueue(int i){
        circularFifoQueue = new CircularFifoQueue<>(i);
    }

    // 存元素
    public void offer(Character value){
        circularFifoQueue.offer(value);
    }

    // 队列元素转字符串
    @Override
    public String toString(){
        stringBuilder.setLength(0);
        Iterator<Character> iterator = circularFifoQueue.iterator();
        while (iterator.hasNext()){
            stringBuilder.append(iterator.next());
        }
        return stringBuilder.toString();
    }
}

com.csvreader.MyCsvReader代码如下：

package com.csvreader;

import java.io.*;
import java.nio.charset.Charset;
import java.text.NumberFormat;
import java.util.HashMap;

public class MyCsvReader {

    private Reader inputStream;//输入流
    private String fileName;//文件名
    private MyCsvReader.UserSettings userSettings;//解析配置文件生成的配置类
    private Charset charset;//字符集
    private boolean useCustomRecordDelimiter;//是否使用自定义记录分隔符
    private MyCsvReader.DataBuffer dataBuffer;
    private MyCsvReader.ColumnBuffer columnBuffer;
    private MyCsvReader.RawRecordBuffer rawBuffer;
    private boolean[] isQualified;
    private String rawRecord;
    private MyCsvReader.HeadersHolder headersHolder;
    private boolean startedColumn; //当前是否开始了字段读取
    private boolean startedWithQualifier;//是否已文本限定符开头
    private boolean hasMoreData;//输入流是否有数据
    private String lastLetter;
    private boolean hasReadNextLine;//是否继续下一行的读取
    private int columnsCount;
    private long currentRecord;
    private String[] values;//存放已解析的行字段值数组
    private boolean initialized;
    private boolean closed;//是否关闭读取

    private class RawRecordBuffer {
        public char[] Buffer = new char[500];
        public int Position = 0;

        public RawRecordBuffer() {
        }
    }

    private class ColumnBuffer {
        public char[] Buffer = new char[50];
        public int Position = 0;

        public ColumnBuffer() {
        }
    }

    // 输入流的数据缓冲区，一次读取1024个字节
    private class DataBuffer {
        public char[] Buffer = new char[1024];
        public int Position = 0;//记录当前程序读到的位置
        public int Count = 0;//从输入流中读取的数据长度
        public int ColumnStart = 0;//记录当前解析的字段的起始位置
        public int LineStart = 0;//记录当前行的起始位置

        public DataBuffer() {
        }
    }

    private class UserSettings {
        public char TextQualifier = '"'; //文本限定符
        public boolean TrimWhitespace = true;//是否去空格
        public boolean UseTextQualifier = true; //是否使用文本限定符
        public String Delimiter = ",";//字段分隔符
        public char RecordDelimiter = 0;//记录分隔符
        public char Comment = '#';//注释字符
        public boolean UseComments = false;//是否解析注释
        public boolean SafetySwitch = true;//安全校验开关
        public boolean SkipEmptyRecords = true;//跳过空行
        public boolean CaptureRawRecord = true;//是否捕获行记录

        public UserSettings() {
        }
    }

    /**
     * 从缓冲区中读取记录行，删掉了原CsvReader中没有使用代码
     */
    public boolean readRecord() throws IOException {
        // 定义队列，记录当前读字符往前倒推分隔符长度，判断是否分隔符
        MyCircularFifoQueue myQueue = new MyCircularFifoQueue(this.userSettings.Delimiter.length());
        this.checkClosed();
        this.columnsCount = 0; //当前行已读取的字段数
        this.rawBuffer.Position = 0;//行缓冲区位置
        this.dataBuffer.LineStart = this.dataBuffer.Position;//数据缓冲区中行起始位置
        this.hasReadNextLine = false;//是否有下一行可读，默认不可读，当前行读完才会去校验
        if (this.hasMoreData) {
            while (true) {
                // 初始化，刷新数据缓冲区数据
                if (this.dataBuffer.Position == this.dataBuffer.Count) {
                    this.checkDataLength();
                } else {
                    this.startedWithQualifier = false;//无用
                    // 读取新字段或新行的第一个字符
                    char var1 = this.dataBuffer.Buffer[this.dataBuffer.Position];
                    myQueue.offer(var1);
                    if (this.userSettings.Delimiter.equals(myQueue.toString())) {
                        this.lastLetter = myQueue.toString(); //如果当前读取位置为分隔符
                        this.endColumn();
                    } else if (this.useCustomRecordDelimiter || var1 != '\r' && var1 != '\n') {
                        // 采集数据注释行处理，此判断可以删除
                        if (this.userSettings.UseComments && this.columnsCount == 0 && var1 == this.userSettings.Comment) {
                            this.lastLetter = String.valueOf(var1);
                            this.skipLine();
                        // 字段是否去头空字符串
                        } else if (this.userSettings.TrimWhitespace && (var1 == ' ' || var1 == '\t')) {
                            this.startedColumn = true;
                            this.dataBuffer.ColumnStart = this.dataBuffer.Position + 1;
                            this.lastLetter = String.valueOf(var1);
                        } else {
                            this.startedColumn = true;
                            this.dataBuffer.ColumnStart = this.dataBuffer.Position;
                            boolean var3 = false;
                            byte var4 = 1;
                            int var5 = 0;
                            char var6 = 0;
                            boolean var7 = true;

                            //循环读取字段，由于字段长度不定长，使用while循环，直到读到换行符退出
                            do {
                                if (!var7 && this.dataBuffer.Position == this.dataBuffer.Count) {
                                    this.checkDataLength();//buffer读完，刷新数据缓冲区数据
                                } else {

                                    if (!var7) {
                                        var1 = this.dataBuffer.Buffer[this.dataBuffer.Position];
                                        myQueue.offer(var1);
                                    }

                                   if (var3) {
                                        ++var5;
                                        switch (var4) {
                                            case 1:
                                                var6 = (char) (var6 * 16);
                                                var6 += hexToDec(var1);
                                                if (var5 == 4) {
                                                    var3 = false;
                                                }
                                                break;
                                            case 2:
                                                var6 = (char) (var6 * 8);
                                                var6 += (char) (var1 - 48);
                                                if (var5 == 3) {
                                                    var3 = false;
                                                }
                                                break;
                                            case 3:
                                                var6 = (char) (var6 * 10);
                                                var6 += (char) (var1 - 48);
                                                if (var5 == 3) {
                                                    var3 = false;
                                                }
                                                break;
                                            case 4:
                                                var6 = (char) (var6 * 16);
                                                var6 += hexToDec(var1);
                                                if (var5 == 2) {
                                                    var3 = false;
                                                }
                                        }

                                       if (!var3) {
                                           this.appendLetter(var6);
                                       } else {
                                           this.dataBuffer.ColumnStart = this.dataBuffer.Position + 1;
                                       }
                                    }  else if (this.userSettings.Delimiter.equals(myQueue.toString())) {
                                        //如果var1=分隔符
                                       this.lastLetter = myQueue.toString();
                                       this.endColumn();
                                    } else if (!this.useCustomRecordDelimiter && (var1 == '\r' || var1 == '\n') || this.useCustomRecordDelimiter && var1 == this.userSettings.RecordDelimiter) {
                                       this.lastLetter = String.valueOf(var1);
                                       this.endColumn();
                                       this.endRecord();
                                    }

                                    var7 = false;
                                    if (this.startedColumn) {
                                        ++this.dataBuffer.Position;
                                        if (this.userSettings.SafetySwitch && this.dataBuffer.Position - this.dataBuffer.ColumnStart + this.columnBuffer.Position > 100000) {
                                            this.close();
                                            throw new IOException("Maximum column length of 100,000 exceeded in column " + NumberFormat.getIntegerInstance().format((long) this.columnsCount) + " in record " + NumberFormat.getIntegerInstance().format(this.currentRecord) + ". Set the SafetySwitch property to false" + " if you're expecting column lengths greater than 100,000 characters to" + " avoid this error.");
                                        }
                                    }
                                }
                            } while (this.hasMoreData && this.startedColumn);
                        }
                    } else {
                        this.lastLetter = String.valueOf(var1);
                        if (!this.startedColumn && this.columnsCount <= 0 && (this.userSettings.SkipEmptyRecords || var1 != '\r' && this.lastLetter == String.valueOf('\r'))) {
                            this.dataBuffer.LineStart = this.dataBuffer.Position + 1;
                        } else {
                            this.endColumn();
                            this.endRecord();
                        }
                    }

                    if (this.hasMoreData) {
                        this.dataBuffer.Position++;
                    }
                }

                if (!this.hasMoreData || this.hasReadNextLine) {
                    if (this.startedColumn || this.lastLetter.equals(this.userSettings.Delimiter)) {
                        this.endColumn();
                        this.endRecord();
                    }
                    break;
                }
            }
        }

        // 是否捕获行记录，用于打印
        if (this.userSettings.CaptureRawRecord) {
            if (this.hasMoreData) {
                //如果一行数据读完，buffer还有数据
                if (this.rawBuffer.Position == 0) {
                    this.rawRecord = new String(this.dataBuffer.Buffer, this.dataBuffer.LineStart,
                            this.dataBuffer.Position - this.dataBuffer.LineStart - 1);
                } else {
                    this.rawRecord = new String(this.rawBuffer.Buffer, 0, this.rawBuffer.Position) + new String(this.dataBuffer.Buffer,
                            this.dataBuffer.LineStart, this.dataBuffer.Position - this.dataBuffer.LineStart - 1);
                }
            } else {
                this.rawRecord = new String(this.rawBuffer.Buffer, 0, this.rawBuffer.Position);
            }
        } else {
            this.rawRecord = "";
        }

        return this.hasReadNextLine;
    }

    private void endColumn() throws IOException {
        String var1 = "";
        int var2;
        if (this.startedColumn) {
            // columnBuffer用于存放上次读取到一半的数据，如果this.columnBuffer.Position，则直接从this.dataBuffer.ColumnStart读到分隔符即为字段值
            if (this.columnBuffer.Position == 0) {
                if (this.dataBuffer.ColumnStart < this.dataBuffer.Position) {
                    var2 = this.dataBuffer.Position - this.lastLetter.length();// 当前位置 减掉分隔符长度
                    if (this.userSettings.TrimWhitespace && !this.startedWithQualifier) {
                        // 删去字段结尾的空格或制表符
                        while (var2 >= this.dataBuffer.ColumnStart &&
                                (this.dataBuffer.Buffer[var2] == ' ' || this.dataBuffer.Buffer[var2] == '\t')) {
                            --var2;
                        }
                    }
                    //此处截取出从column起始位置到分隔符前一个位置的buffer，即为字段值
                    var1 = new String(this.dataBuffer.Buffer, this.dataBuffer.ColumnStart, var2 - this.dataBuffer.ColumnStart + 1);
                }
            } else {
                // 字段部分数据在缓冲区，则将当前databuffer读取的字段数据，继续刷到缓冲区，再从缓冲区中取字段值
                this.updateCurrentValue();
                var2 = this.columnBuffer.Position - this.lastLetter.length();
                if (this.userSettings.TrimWhitespace && !this.startedWithQualifier) {
                    while (var2 >= 0 && (this.columnBuffer.Buffer[var2] == ' ' || this.columnBuffer.Buffer[var2] == ' ')) {
                        --var2;
                    }
                }

                var1 = new String(this.columnBuffer.Buffer, 0, var2 + 1);
            }
        }

        //读取当前字段完毕
        this.columnBuffer.Position = 0;
        this.startedColumn = false;
        if (this.columnsCount >= 100000 && this.userSettings.SafetySwitch) {
            this.close();
            throw new IOException("Maximum column count of 100,000 exceeded in record " + NumberFormat.getIntegerInstance().format(this.currentRecord) + ". Set the SafetySwitch property to false" + " if you're expecting more than 100,000 columns per record to" + " avoid this error.");
        } else {
            //如果行字段读取数量 = 存字段数据的长度，对数组进行扩容，初始默认长度为10
            if (this.columnsCount == this.values.length) {
                var2 = this.values.length * 2;
                String[] var3 = new String[var2];
                System.arraycopy(this.values, 0, var3, 0, this.values.length);
                this.values = var3;
                boolean[] var4 = new boolean[var2];
                System.arraycopy(this.isQualified, 0, var4, 0, this.isQualified.length);
                this.isQualified = var4;
            }

            // 将读取字段添加到数组中
            this.values[this.columnsCount] = var1;
            this.isQualified[this.columnsCount] = this.startedWithQualifier;

            var1 = "";
            ++this.columnsCount;
        }
    }

    /**
     * dataBuffer缓冲区中数据处理完毕，尝试从输入流读取数据，并在读取数据前，
     * 将当前正在读的行数据和字段数据存入缓冲区（应该是为了处理当缓冲区读取截止位置位于字段中或者行中的情况）
     */
    private void checkDataLength() throws IOException {
        // 是否已经进行了初始化，若没有，检查file是否存在，读取file获取数据
        if (!this.initialized) {
            if (this.fileName != null) {
                this.inputStream = new BufferedReader(new InputStreamReader(new FileInputStream(this.fileName), this.charset), 4096);
            }
            this.charset = null;
            this.initialized = true;
        }

        this.updateCurrentValue();

        // 把当前行的数据存放行数据缓冲区中
        if (this.userSettings.CaptureRawRecord && this.dataBuffer.Count > 0) {
            // 如果行数据长度大于行数据缓冲区，则对缓冲区进行扩大，再进行复制
            if (this.rawBuffer.Buffer.length - this.rawBuffer.Position < this.dataBuffer.Count - this.dataBuffer.LineStart) {
                int var1 = this.rawBuffer.Buffer.length + Math.max(this.dataBuffer.Count - this.dataBuffer.LineStart, this.rawBuffer.Buffer.length);
                char[] var2 = new char[var1];
                System.arraycopy(this.rawBuffer.Buffer, 0, var2, 0, this.rawBuffer.Position);
                this.rawBuffer.Buffer = var2;
            }
            // 缓冲区大小足够，直接复制到缓冲区
            System.arraycopy(this.dataBuffer.Buffer, this.dataBuffer.LineStart, this.rawBuffer.Buffer, this.rawBuffer.Position,this.dataBuffer.Count - this.dataBuffer.LineStart);
            //移动缓冲区的position到下次写入位置
            this.rawBuffer.Position += this.dataBuffer.Count - this.dataBuffer.LineStart;
        }

        try {
            // 从输入流读取数据到dataBuffer
            this.dataBuffer.Count = this.inputStream.read(this.dataBuffer.Buffer, 0, this.dataBuffer.Buffer.length);
        } catch (IOException var3) {
            this.close();
            throw var3;
        }

        // 未读到数据或数据已读完，程序结束
        if (this.dataBuffer.Count == -1) {
            this.hasMoreData = false;
        }

        //重新读取数据后，对dataBuffer的处理标志符初始化
        this.dataBuffer.Position = 0;
        this.dataBuffer.LineStart = 0;
        this.dataBuffer.ColumnStart = 0;
    }

    /**
     * 在字段读取截止或缓冲区读取完毕需要刷新缓冲区时，将当前正在读取的字段值存入字段缓冲区中
     */
    private void updateCurrentValue() {
        // 判断当前字段是否处于读取状态，若是说明字段读取尚未完毕
        if (this.startedColumn && this.dataBuffer.ColumnStart < this.dataBuffer.Position) {
            // 如果字段缓冲区剩余容量不够存储当前字段已经读到的值，对缓冲区进行扩容
            if (this.columnBuffer.Buffer.length - this.columnBuffer.Position < this.dataBuffer.Position - this.dataBuffer.ColumnStart) {
                //扩容因子，待写入字段长度和 缓冲区长度的较大值
                int var1 = this.columnBuffer.Buffer.length + Math.max(this.dataBuffer.Position - this.dataBuffer.ColumnStart,this.columnBuffer.Buffer.length);
                char[] var2 = new char[var1];
                System.arraycopy(this.columnBuffer.Buffer, 0, var2, 0, this.columnBuffer.Position);
                this.columnBuffer.Buffer = var2;
            }
            System.arraycopy(this.dataBuffer.Buffer, this.dataBuffer.ColumnStart, this.columnBuffer.Buffer, this.columnBuffer.Position,this.dataBuffer.Position - this.dataBuffer.ColumnStart);
            //字段缓冲区的postition位置向后移动写入数据长度
            this.columnBuffer.Position += this.dataBuffer.Position - this.dataBuffer.ColumnStart;
        }
        this.dataBuffer.ColumnStart = this.dataBuffer.Position + 1;
    }

    private void endRecord() throws IOException {
        this.hasReadNextLine = true;
        ++this.currentRecord;
    }

    private void appendLetter(char var1) {
        if (this.columnBuffer.Position == this.columnBuffer.Buffer.length) {
            int var2 = this.columnBuffer.Buffer.length * 2;
            char[] var3 = new char[var2];
            System.arraycopy(this.columnBuffer.Buffer, 0, var3, 0, this.columnBuffer.Position);
            this.columnBuffer.Buffer = var3;
        }

        this.columnBuffer.Buffer[this.columnBuffer.Position++] = var1;
        this.dataBuffer.ColumnStart = this.dataBuffer.Position + 1;
    }

    //跳过当前行（当前行为注释时执行）
    public boolean skipLine() throws IOException {
        this.checkClosed();
        this.columnsCount = 0;
        boolean var1 = false;
        if (this.hasMoreData) {
            boolean var2 = false;

            do {
                if (this.dataBuffer.Position == this.dataBuffer.Count) {
                    this.checkDataLength();
                } else {
                    var1 = true;
                    char var3 = this.dataBuffer.Buffer[this.dataBuffer.Position];
                    if (var3 == '\r' || var3 == '\n') {
                        var2 = true;
                    }

                    this.lastLetter = String.valueOf(var3);
                    if (!var2) {
                        ++this.dataBuffer.Position;
                    }
                }
            } while (this.hasMoreData && !var2);

            this.columnBuffer.Position = 0;
            this.dataBuffer.LineStart = this.dataBuffer.Position + 1;
        }

        this.rawBuffer.Position = 0;
        this.rawRecord = "";
        return var1;
    }

    private class StaticSettings {
        public static final int MAX_BUFFER_SIZE = 1024;
        public static final int MAX_FILE_BUFFER_SIZE = 4096;
        public static final int INITIAL_COLUMN_COUNT = 10;
        public static final int INITIAL_COLUMN_BUFFER_SIZE = 50;

        private StaticSettings() {
        }
    }

    private class HeadersHolder {
        public String[] Headers = null;
        public int Length = 0;
        public HashMap IndexByName = new HashMap();

        public HeadersHolder() {
        }
    }

    private class Letters {
        public static final char LF = '\n';
        public static final char CR = '\r';
        public static final char QUOTE = '"';
        public static final char COMMA = ',';
        public static final char SPACE = ' ';
        public static final char TAB = '\t';
        public static final char POUND = '#';
        public static final char BACKSLASH = '\\';
        public static final char NULL = '\u0000';
        public static final char BACKSPACE = '\b';
        public static final char FORM_FEED = '\f';
        public static final char ESCAPE = '\u001b';
        public static final char VERTICAL_TAB = '\u000b';
        public static final char ALERT = '\u0007';

        private Letters() {
        }
    }

    private class ComplexEscape {
        private static final int UNICODE = 1;
        private static final int OCTAL = 2;
        private static final int DECIMAL = 3;
        private static final int HEX = 4;

        private ComplexEscape() {
        }
    }

    public MyCsvReader(String var1, String var2, Charset var3) throws FileNotFoundException {
        this.inputStream = null;
        this.fileName = null;
        this.userSettings = new MyCsvReader.UserSettings();
        this.charset = null;
        this.useCustomRecordDelimiter = false;
        this.dataBuffer = new MyCsvReader.DataBuffer();
        this.columnBuffer = new MyCsvReader.ColumnBuffer();
        this.rawBuffer = new MyCsvReader.RawRecordBuffer();
        this.isQualified = null;
        this.rawRecord = "";
        this.headersHolder = new MyCsvReader.HeadersHolder();
        this.startedColumn = false;
        this.startedWithQualifier = false;
        this.hasMoreData = true;
        this.lastLetter = "0";
        this.hasReadNextLine = false;
        this.columnsCount = 0;
        this.currentRecord = 0L;
        this.values = new String[10];
        this.initialized = false;
        this.closed = false;
        if (var1 == null) {
            throw new IllegalArgumentException("Parameter fileName can not be null.");
        } else if (var3 == null) {
            throw new IllegalArgumentException("Parameter charset can not be null.");
        } else if (!(new File(var1)).exists()) {
            throw new FileNotFoundException("File " + var1 + " does not exist.");
        } else {
            this.fileName = var1;
            this.userSettings.Delimiter = var2;
            this.charset = var3;
            this.isQualified = new boolean[this.values.length];
        }
    }

    public MyCsvReader(String var1, String var2) throws FileNotFoundException {
        this(var1, var2, Charset.forName("ISO-8859-1"));
    }

    public MyCsvReader(String var1) throws FileNotFoundException {
        this(var1, ",");
    }

    public MyCsvReader(Reader var1, String var2) {
        this.inputStream = null;
        this.fileName = null;
        this.userSettings = new MyCsvReader.UserSettings();
        this.charset = null;
        this.useCustomRecordDelimiter = false;
        this.dataBuffer = new MyCsvReader.DataBuffer();
        this.columnBuffer = new MyCsvReader.ColumnBuffer();
        this.rawBuffer = new MyCsvReader.RawRecordBuffer();
        this.isQualified = null;
        this.rawRecord = "";
        this.headersHolder = new MyCsvReader.HeadersHolder();
        this.startedColumn = false;
        this.startedWithQualifier = false;
        this.hasMoreData = true;
        this.lastLetter = "0";
        this.hasReadNextLine = false;
        this.columnsCount = 0;
        this.currentRecord = 0L;
        this.values = new String[10];
        this.initialized = false;
        this.closed = false;
        if (var1 == null) {
            throw new IllegalArgumentException("Parameter inputStream can not be null.");
        } else {
            this.inputStream = var1;
            this.userSettings.Delimiter = var2;
            this.initialized = true;
            this.isQualified = new boolean[this.values.length];
        }
    }

    public MyCsvReader(Reader var1) {
        this(var1, ",");
    }

    public MyCsvReader(InputStream var1, String var2, Charset var3) {
        this((Reader) (new InputStreamReader(var1, var3)), var2);
    }

    public MyCsvReader(InputStream var1, Charset var2) {
        this((Reader) (new InputStreamReader(var1, var2)));
    }

    public boolean getCaptureRawRecord() {
        return this.userSettings.CaptureRawRecord;
    }

    public void setCaptureRawRecord(boolean var1) {
        this.userSettings.CaptureRawRecord = var1;
    }

    public String getRawRecord() {
        return this.rawRecord;
    }

    public boolean getTrimWhitespace() {
        return this.userSettings.TrimWhitespace;
    }

    public void setTrimWhitespace(boolean var1) {
        this.userSettings.TrimWhitespace = var1;
    }

    public String getDelimiter() {
        return this.userSettings.Delimiter;
    }

    public void setDelimiter(String var1) {
        this.userSettings.Delimiter = var1;
    }

    public char getRecordDelimiter() {
        return this.userSettings.RecordDelimiter;
    }

    public void setRecordDelimiter(char var1) {
        this.useCustomRecordDelimiter = true;
        this.userSettings.RecordDelimiter = var1;
    }

    public char getTextQualifier() {
        return this.userSettings.TextQualifier;
    }

    public void setTextQualifier(char var1) {
        this.userSettings.TextQualifier = var1;
    }

    public boolean getUseTextQualifier() {
        return this.userSettings.UseTextQualifier;
    }

    public void setUseTextQualifier(boolean var1) {
        this.userSettings.UseTextQualifier = var1;
    }

    public char getComment() {
        return this.userSettings.Comment;
    }

    public void setComment(char var1) {
        this.userSettings.Comment = var1;
    }

    public boolean getUseComments() {
        return this.userSettings.UseComments;
    }

    public void setUseComments(boolean var1) {
        this.userSettings.UseComments = var1;
    }

    public boolean getSkipEmptyRecords() {
        return this.userSettings.SkipEmptyRecords;
    }

    public void setSkipEmptyRecords(boolean var1) {
        this.userSettings.SkipEmptyRecords = var1;
    }

    public boolean getSafetySwitch() {
        return this.userSettings.SafetySwitch;
    }

    public void setSafetySwitch(boolean var1) {
        this.userSettings.SafetySwitch = var1;
    }

    public int getColumnCount() {
        return this.columnsCount;
    }

    public long getCurrentRecord() {
        return this.currentRecord - 1L;
    }

    public int getHeaderCount() {
        return this.headersHolder.Length;
    }

    public String[] getHeaders() throws IOException {
        this.checkClosed();
        if (this.headersHolder.Headers == null) {
            return null;
        } else {
            String[] var1 = new String[this.headersHolder.Length];
            System.arraycopy(this.headersHolder.Headers, 0, var1, 0, this.headersHolder.Length);
            return var1;
        }
    }

    public void setHeaders(String[] var1) {
        this.headersHolder.Headers = var1;
        this.headersHolder.IndexByName.clear();
        if (var1 != null) {
            this.headersHolder.Length = var1.length;
        } else {
            this.headersHolder.Length = 0;
        }

        for (int var2 = 0; var2 < this.headersHolder.Length; ++var2) {
            this.headersHolder.IndexByName.put(var1[var2], new Integer(var2));
        }

    }

    public String[] getValues() throws IOException {
        this.checkClosed();
        String[] var1 = new String[this.columnsCount];
        System.arraycopy(this.values, 0, var1, 0, this.columnsCount);
        return var1;
    }

    public String get(int var1) throws IOException {
        this.checkClosed();
        return var1 > -1 && var1 < this.columnsCount ? this.values[var1] : "";
    }

    public String get(String var1) throws IOException {
        this.checkClosed();
        return this.get(this.getIndex(var1));
    }

    public static MyCsvReader parse(String var0) {
        if (var0 == null) {
            throw new IllegalArgumentException("Parameter data can not be null.");
        } else {
            return new MyCsvReader(new StringReader(var0));
        }
    }

    public boolean readHeaders() throws IOException {
        boolean var1 = this.readRecord();
        this.headersHolder.Length = this.columnsCount;
        this.headersHolder.Headers = new String[this.columnsCount];

        for (int var2 = 0; var2 < this.headersHolder.Length; ++var2) {
            String var3 = this.get(var2);
            this.headersHolder.Headers[var2] = var3;
            this.headersHolder.IndexByName.put(var3, new Integer(var2));
        }

        if (var1) {
            --this.currentRecord;
        }

        this.columnsCount = 0;
        return var1;
    }

    public String getHeader(int var1) throws IOException {
        this.checkClosed();
        return var1 > -1 && var1 < this.headersHolder.Length ? this.headersHolder.Headers[var1] : "";
    }

    public boolean isQualified(int var1) throws IOException {
        this.checkClosed();
        return var1 < this.columnsCount && var1 > -1 ? this.isQualified[var1] : false;
    }

    public int getIndex(String var1) throws IOException {
        this.checkClosed();
        Object var2 = this.headersHolder.IndexByName.get(var1);
        return var2 != null ? (Integer) var2 : -1;
    }

    public boolean skipRecord() throws IOException {
        this.checkClosed();
        boolean var1 = false;
        if (this.hasMoreData) {
            var1 = this.readRecord();
            if (var1) {
                --this.currentRecord;
            }
        }

        return var1;
    }

    public void close() {
        if (!this.closed) {
            this.close(true);
            this.closed = true;
        }

    }

    private void close(boolean var1) {
        if (!this.closed) {
            if (var1) {
                this.charset = null;
                this.headersHolder.Headers = null;
                this.headersHolder.IndexByName = null;
                this.dataBuffer.Buffer = null;
                this.columnBuffer.Buffer = null;
                this.rawBuffer.Buffer = null;
            }

            try {
                if (this.initialized) {
                    this.inputStream.close();
                }
            } catch (Exception var3) {
                ;
            }

            this.inputStream = null;
            this.closed = true;
        }

    }

    private void checkClosed() throws IOException {
        if (this.closed) {
            throw new IOException("This instance of the CsvReader class has already been closed.");
        }
    }

    @Override
    protected void finalize() {
        this.close(false);
    }

    //16进制转10进制
    private static char hexToDec(char var0) {
        char var1;
        if (var0 >= 'a') {
            var1 = (char) (var0 - 97 + 10);
        } else if (var0 >= 'A') {
            var1 = (char) (var0 - 65 + 10);
        } else {
            var1 = (char) (var0 - 48);
        }

        return var1;
    }
}

在plugin-unstructured-storage-util模块的pom.xml文件中引入

 <dependency>
            <groupId>org.apache.commonsgroupId>
            <artifactId>commons-collections4artifactId>
            <version>4.4version>
dependency>

修改com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil下引用CsvReader的地方，替换为MyCsvReader，并修改分隔符校验的逻辑

com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReaderUtil代码如下：

package com.alibaba.datax.plugin.unstructuredstorage.reader;

import com.alibaba.datax.common.element.*;
import com.alibaba.datax.common.exception.DataXException;
import com.alibaba.datax.common.plugin.RecordSender;
import com.alibaba.datax.common.plugin.TaskPluginCollector;
import com.alibaba.datax.common.util.Configuration;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.alibaba.fastjson.TypeReference;
import com.csvreader.MyCsvReader;
import org.apache.commons.beanutils.BeanUtils;
import io.airlift.compress.snappy.SnappyCodec;
import io.airlift.compress.snappy.SnappyFramedInputStream;
import org.anarres.lzo.*;
import org.apache.commons.compress.compressors.CompressorInputStream;
import org.apache.commons.compress.compressors.bzip2.BZip2CompressorInputStream;
import org.apache.commons.compress.compressors.gzip.GzipCompressorInputStream;
import org.apache.commons.io.Charsets;
import org.apache.commons.io.IOUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.*;
import java.nio.charset.UnsupportedCharsetException;
import java.text.DateFormat;
import java.util.ArrayList;
import java.util.Date;
import java.util.HashMap;
import java.util.List;

public class UnstructuredStorageReaderUtil {
	private static final Logger LOG = LoggerFactory.getLogger(UnstructuredStorageReaderUtil.class);
	public static HashMap<String, Object> csvReaderConfigMap;

	private UnstructuredStorageReaderUtil() {

	}

	/**
	 * @param inputLine
	 *            输入待分隔字符串
	 * @param delimiter
	 *            字符串分割符
	 * @return 分隔符分隔后的字符串数组，出现异常时返回为null 支持转义，即数据中可包含分隔符
	 * */
	public static String[] splitOneLine(String inputLine, char delimiter) {
		String[] splitedResult = null;
		if (null != inputLine) {
			try {
				MyCsvReader csvReader = new MyCsvReader(new StringReader(inputLine));
				csvReader.setDelimiter(String.valueOf(delimiter));

				setCsvReaderConfig(csvReader);

				if (csvReader.readRecord()) {
					splitedResult = csvReader.getValues();
				}
			} catch (IOException e) {
				// nothing to do
			}
		}
		return splitedResult;
	}

	public static String[] splitBufferedReader(MyCsvReader csvReader)
			throws IOException {
		String[] splitedResult = null;
		if (csvReader.readRecord()) {
			splitedResult = csvReader.getValues();
		}
		return splitedResult;
	}

	/**
	 * 不支持转义
	 *
	 * @return 分隔符分隔后的字符串数，
	 * */
	public static String[] splitOneLine(String inputLine, String delimiter) {
		String[] splitedResult = StringUtils.split(inputLine, delimiter);
		return splitedResult;
	}

	public static void readFromStream(InputStream inputStream, String context,
									  Configuration readerSliceConfig, RecordSender recordSender,
									  TaskPluginCollector taskPluginCollector) {
		String compress = readerSliceConfig.getString(Key.COMPRESS, null);
		if (StringUtils.isBlank(compress)) {
			compress = null;
		}
		String encoding = readerSliceConfig.getString(Key.ENCODING,
				Constant.DEFAULT_ENCODING);
		// handle blank encoding
		if (StringUtils.isBlank(encoding)) {
			encoding = Constant.DEFAULT_ENCODING;
			LOG.warn(String.format("您配置的encoding为[%s], 使用默认值[%s]", encoding,Constant.DEFAULT_ENCODING));
		}

		List<Configuration> column = readerSliceConfig
				.getListConfiguration(Key.COLUMN);
		// handle ["*"] -> [], null
		if (null != column && 1 == column.size()
				&& "\"*\"".equals(column.get(0).toString())) {
			readerSliceConfig.set(Key.COLUMN, null);
			column = null;
		}

		BufferedReader reader = null;
		int bufferSize = readerSliceConfig.getInt(Key.BUFFER_SIZE,
				Constant.DEFAULT_BUFFER_SIZE);

		// compress logic
		try {
			if (null == compress) {
				reader = new BufferedReader(new InputStreamReader(inputStream,
						encoding), bufferSize);
			} else {
				// TODO compress
				if ("lzo_deflate".equalsIgnoreCase(compress)) {
					LzoInputStream lzoInputStream = new LzoInputStream(
							inputStream, new LzoDecompressor1x_safe());
					reader = new BufferedReader(new InputStreamReader(
							lzoInputStream, encoding));
				} else if ("lzo".equalsIgnoreCase(compress)) {
					LzoInputStream lzopInputStream = new ExpandLzopInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							lzopInputStream, encoding));
				} else if ("gzip".equalsIgnoreCase(compress)) {
					CompressorInputStream compressorInputStream = new GzipCompressorInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							compressorInputStream, encoding), bufferSize);
				} else if ("bzip2".equalsIgnoreCase(compress)) {
					CompressorInputStream compressorInputStream = new BZip2CompressorInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							compressorInputStream, encoding), bufferSize);
				} else if ("hadoop-snappy".equalsIgnoreCase(compress)) {
					CompressionCodec snappyCodec = new SnappyCodec();
					InputStream snappyInputStream = snappyCodec.createInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							snappyInputStream, encoding));
				} else if ("framing-snappy".equalsIgnoreCase(compress)) {
					InputStream snappyInputStream = new SnappyFramedInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							snappyInputStream, encoding));
				}/* else if ("lzma".equalsIgnoreCase(compress)) {
					CompressorInputStream compressorInputStream = new LZMACompressorInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							compressorInputStream, encoding));
				} *//*else if ("pack200".equalsIgnoreCase(compress)) {
					CompressorInputStream compressorInputStream = new Pack200CompressorInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							compressorInputStream, encoding));
				} *//*else if ("xz".equalsIgnoreCase(compress)) {
					CompressorInputStream compressorInputStream = new XZCompressorInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							compressorInputStream, encoding));
				} else if ("ar".equalsIgnoreCase(compress)) {
					ArArchiveInputStream arArchiveInputStream = new ArArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							arArchiveInputStream, encoding));
				} else if ("arj".equalsIgnoreCase(compress)) {
					ArjArchiveInputStream arjArchiveInputStream = new ArjArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							arjArchiveInputStream, encoding));
				} else if ("cpio".equalsIgnoreCase(compress)) {
					CpioArchiveInputStream cpioArchiveInputStream = new CpioArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							cpioArchiveInputStream, encoding));
				} else if ("dump".equalsIgnoreCase(compress)) {
					DumpArchiveInputStream dumpArchiveInputStream = new DumpArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							dumpArchiveInputStream, encoding));
				} else if ("jar".equalsIgnoreCase(compress)) {
					JarArchiveInputStream jarArchiveInputStream = new JarArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							jarArchiveInputStream, encoding));
				} else if ("tar".equalsIgnoreCase(compress)) {
					TarArchiveInputStream tarArchiveInputStream = new TarArchiveInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							tarArchiveInputStream, encoding));
				}*/
				else if ("zip".equalsIgnoreCase(compress)) {
					ZipCycleInputStream zipCycleInputStream = new ZipCycleInputStream(
							inputStream);
					reader = new BufferedReader(new InputStreamReader(
							zipCycleInputStream, encoding), bufferSize);
				} else {
					throw DataXException
							.asDataXException(
									UnstructuredStorageReaderErrorCode.ILLEGAL_VALUE,
									String.format("仅支持 gzip, bzip2, zip, lzo, lzo_deflate, hadoop-snappy, framing-snappy" +
											"文件压缩格式 , 不支持您配置的文件压缩格式: [%s]", compress));
				}
			}
			UnstructuredStorageReaderUtil.doReadFromStream(reader, context,
					readerSliceConfig, recordSender, taskPluginCollector);
		} catch (UnsupportedEncodingException uee) {
			throw DataXException
					.asDataXException(
							UnstructuredStorageReaderErrorCode.OPEN_FILE_WITH_CHARSET_ERROR,
							String.format("不支持的编码格式 : [%s]", encoding), uee);
		} catch (NullPointerException e) {
			throw DataXException.asDataXException(
					UnstructuredStorageReaderErrorCode.RUNTIME_EXCEPTION,
					"运行时错误, 请联系我们", e);
		}/* catch (ArchiveException e) {
			throw DataXException.asDataXException(
					UnstructuredStorageReaderErrorCode.READ_FILE_IO_ERROR,
					String.format("压缩文件流读取错误 : [%s]", context), e);
		} */catch (IOException e) {
			throw DataXException.asDataXException(
					UnstructuredStorageReaderErrorCode.READ_FILE_IO_ERROR,
					String.format("流读取错误 : [%s]", context), e);
		} finally {
			IOUtils.closeQuietly(reader);
		}

	}

	public static void doReadFromStream(BufferedReader reader, String context,
										Configuration readerSliceConfig, RecordSender recordSender,
										TaskPluginCollector taskPluginCollector) {

		String encoding = readerSliceConfig.getString(Key.ENCODING,Constant.DEFAULT_ENCODING);

		//获取json配置文件的字段分隔符
		String delimiterInStr = readerSliceConfig.getString(Key.FIELD_DELIMITER);
		LOG.debug("字段分隔符：",delimiterInStr);
		if (null == delimiterInStr) {
			LOG.warn(String.format("您没有配置列分隔符, 使用默认值[%s]",Constant.DEFAULT_FIELD_DELIMITER));
		}

		Boolean skipHeader = readerSliceConfig.getBool(Key.SKIP_HEADER,Constant.DEFAULT_SKIP_HEADER);
		// warn: no default value '\N'
		String nullFormat = readerSliceConfig.getString(Key.NULL_FORMAT);

		// warn: Configuration -> List for performance
		// List column = readerSliceConfig
		// .getListConfiguration(Key.COLUMN);
		List<ColumnEntry> column = UnstructuredStorageReaderUtil.getListColumnEntry(readerSliceConfig, Key.COLUMN);
		MyCsvReader csvReader = null;

		// every line logic
		try {
			// TODO lineDelimiter
			if (skipHeader) {
				String fetchLine = reader.readLine();
				LOG.info(String.format("Header line %s has been skiped.",fetchLine));
			}
			csvReader = new MyCsvReader(reader);
			csvReader.setDelimiter(delimiterInStr);

			setCsvReaderConfig(csvReader);

			String[] parseRows;
			while ((parseRows = UnstructuredStorageReaderUtil.splitBufferedReader(csvReader)) != null) {
				UnstructuredStorageReaderUtil.transportOneRecord(recordSender,column, parseRows, nullFormat, taskPluginCollector);
			}
		} catch (UnsupportedEncodingException uee) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.OPEN_FILE_WITH_CHARSET_ERROR,String.format("不支持的编码格式 : [%s]", encoding), uee);
		} catch (FileNotFoundException fnfe) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.FILE_NOT_EXISTS,String.format("无法找到文件 : [%s]", context), fnfe);
		} catch (IOException ioe) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.READ_FILE_IO_ERROR,String.format("读取文件错误 : [%s]", context), ioe);
		} catch (Exception e) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.RUNTIME_EXCEPTION,String.format("运行时异常 : %s", e.getMessage()), e);
		} finally {
			csvReader.close();
			IOUtils.closeQuietly(reader);
		}
	}

	public static Record transportOneRecord(RecordSender recordSender,Configuration configuration,TaskPluginCollector taskPluginCollector,String line){
		List<ColumnEntry> column = UnstructuredStorageReaderUtil.getListColumnEntry(configuration, Key.COLUMN);
		// 注意: nullFormat 没有默认值
		String nullFormat = configuration.getString(Key.NULL_FORMAT);
		String delimiterInStr = configuration.getString(Key.FIELD_DELIMITER);

		if (null == delimiterInStr) {
			LOG.warn(String.format("您没有配置列分隔符, 使用默认值[%s]",Constant.DEFAULT_FIELD_DELIMITER));
		}
		// warn: default value ',', fieldDelimiter could be \n(lineDelimiter)
		// for no fieldDelimiter
		Character fieldDelimiter = configuration.getChar(Key.FIELD_DELIMITER,Constant.DEFAULT_FIELD_DELIMITER);

		String[] sourceLine = StringUtils.split(line, fieldDelimiter);

		return transportOneRecord(recordSender, column, sourceLine, nullFormat, taskPluginCollector);
	}

	public static Record transportOneRecord(RecordSender recordSender,List<ColumnEntry> columnConfigs, String[] sourceLine,
											String nullFormat, TaskPluginCollector taskPluginCollector) {

		Record record = recordSender.createRecord();
		Column columnGenerated = null;

		// 创建都为String类型column的record
		if (null == columnConfigs || columnConfigs.size() == 0) {
			for (String columnValue : sourceLine) {
				// not equalsIgnoreCase, it's all ok if nullFormat is null
				if (columnValue.equals(nullFormat)) {
					columnGenerated = new StringColumn(null);
				} else {
					columnGenerated = new StringColumn(columnValue);
				}
				record.addColumn(columnGenerated);
			}
			recordSender.sendToWriter(record);
		} else {
			try {
				for (ColumnEntry columnConfig : columnConfigs) {
					String columnType = columnConfig.getType();
					Integer columnIndex = columnConfig.getIndex();
					String columnConst = columnConfig.getValue();

					String columnValue = null;

					if (null == columnIndex && null == columnConst) {
						throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.NO_INDEX_VALUE,"由于您配置了type, 则至少需要配置 index 或 value");
					}

					if (null != columnIndex && null != columnConst) {
						throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.MIXED_INDEX_VALUE,"您混合配置了index, value, 每一列同时仅能选择其中一种");
					}

					if (null != columnIndex) {
						if (columnIndex >= sourceLine.length) {
							String message = String.format("您尝试读取的列越界,源文件该行有 [%s] 列,您尝试读取第 [%s] 列, 数据详情[%s]",sourceLine.length, columnIndex + 1,StringUtils.join(sourceLine, ","));
							LOG.warn(message);
							throw new IndexOutOfBoundsException(message);
						}

						columnValue = sourceLine[columnIndex];
					} else {
						columnValue = columnConst;
					}
					Type type = Type.valueOf(columnType.toUpperCase());
					// it's all ok if nullFormat is null
					if (columnValue.equals(nullFormat)) {
						columnValue = null;
					}
					switch (type) {
						case STRING:
							columnGenerated = new StringColumn(columnValue);
							break;
						case LONG:
							try {
								columnGenerated = new LongColumn(columnValue);
							} catch (Exception e) {
								throw new IllegalArgumentException(String.format("类型转换错误, 无法将[%s] 转换为[%s]", columnValue,"LONG"));
							}
							break;
						case DOUBLE:
							try {
								columnGenerated = new DoubleColumn(columnValue);
							} catch (Exception e) {
								throw new IllegalArgumentException(String.format("类型转换错误, 无法将[%s] 转换为[%s]", columnValue,"DOUBLE"));
							}
							break;
						case BOOLEAN:
							try {
								columnGenerated = new BoolColumn(columnValue);
							} catch (Exception e) {
								throw new IllegalArgumentException(String.format("类型转换错误, 无法将[%s] 转换为[%s]", columnValue,"BOOLEAN"));
							}

							break;
						case DATE:
							try {
								if (columnValue == null) {
									Date date = null;
									columnGenerated = new DateColumn(date);
								} else {
									String formatString = columnConfig.getFormat();
									//if (null != formatString) {
									if (StringUtils.isNotBlank(formatString)) {
										// 用户自己配置的格式转换, 脏数据行为出现变化
										DateFormat format = columnConfig
												.getDateFormat();
										columnGenerated = new DateColumn(
												format.parse(columnValue));
									} else {
										// 框架尝试转换
										columnGenerated = new DateColumn(
												new StringColumn(columnValue)
														.asDate());
									}
								}
							} catch (Exception e) {
								throw new IllegalArgumentException(String.format(
										"类型转换错误, 无法将[%s] 转换为[%s]", columnValue,
										"DATE"));
							}
							break;
						default:
							String errorMessage = String.format(
									"您配置的列类型暂不支持 : [%s]", columnType);
							LOG.error(errorMessage);
							throw DataXException
									.asDataXException(
											UnstructuredStorageReaderErrorCode.NOT_SUPPORT_TYPE,
											errorMessage);
					}

					record.addColumn(columnGenerated);

				}
				recordSender.sendToWriter(record);
			} catch (IllegalArgumentException iae) {
				taskPluginCollector
						.collectDirtyRecord(record, iae.getMessage());
			} catch (IndexOutOfBoundsException ioe) {
				taskPluginCollector
						.collectDirtyRecord(record, ioe.getMessage());
			} catch (Exception e) {
				if (e instanceof DataXException) {
					throw (DataXException) e;
				}
				// 每一种转换失败都是脏数据处理,包括数字格式 & 日期格式
				taskPluginCollector.collectDirtyRecord(record, e.getMessage());
			}
		}

		return record;
	}

	public static List<ColumnEntry> getListColumnEntry(Configuration configuration, final String path) {
		List<JSONObject> lists = configuration.getList(path, JSONObject.class);
		if (lists == null) {
			return null;
		}
		List<ColumnEntry> result = new ArrayList<ColumnEntry>();
		for (final JSONObject object : lists) {
			result.add(JSON.parseObject(object.toJSONString(),
					ColumnEntry.class));
		}
		return result;
	}

	private enum Type {
		STRING, LONG, BOOLEAN, DOUBLE, DATE, ;
	}

	/**
	 * check parameter:encoding, compress, filedDelimiter
	 * */
	public static void validateParameter(Configuration readerConfiguration) {

		// encoding check
		validateEncoding(readerConfiguration);

		//only support compress types
		validateCompress(readerConfiguration);

		//fieldDelimiter check
		validateFieldDelimiter(readerConfiguration);

		// column: 1. index type 2.value type 3.when type is Date, may have format
		validateColumn(readerConfiguration);

	}

	public static void validateEncoding(Configuration readerConfiguration) {
		// encoding check
		String encoding = readerConfiguration
				.getString(
						com.alibaba.datax.plugin.unstructuredstorage.reader.Key.ENCODING,
						com.alibaba.datax.plugin.unstructuredstorage.reader.Constant.DEFAULT_ENCODING);
		try {
			encoding = encoding.trim();
			readerConfiguration.set(Key.ENCODING, encoding);
			Charsets.toCharset(encoding);
		} catch (UnsupportedCharsetException uce) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.ILLEGAL_VALUE,
					String.format("不支持您配置的编码格式 : [%s]", encoding), uce);
		} catch (Exception e) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.CONFIG_INVALID_EXCEPTION,
					String.format("编码配置异常, 请联系我们: %s", e.getMessage()), e);
		}
	}

	public static void validateCompress(Configuration readerConfiguration) {
		String compress =readerConfiguration
				.getUnnecessaryValue(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COMPRESS,null,null);
		if(StringUtils.isNotBlank(compress)){
			compress = compress.toLowerCase().trim();
			boolean compressTag = "gzip".equals(compress) || "bzip2".equals(compress) || "zip".equals(compress)
					|| "lzo".equals(compress) || "lzo_deflate".equals(compress) || "hadoop-snappy".equals(compress)
					|| "framing-snappy".equals(compress);
			if (!compressTag) {
				throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.ILLEGAL_VALUE,
						String.format("仅支持 gzip, bzip2, zip, lzo, lzo_deflate, hadoop-snappy, framing-snappy " +
								"文件压缩格式, 不支持您配置的文件压缩格式: [%s]", compress));
			}
		}else{
			// 用户可能配置的是 compress:"",空字符串,需要将compress设置为null
			compress = null;
		}
		readerConfiguration.set(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COMPRESS, compress);

	}

	public static void validateFieldDelimiter(Configuration readerConfiguration) {
		//fieldDelimiter check
		String delimiterInStr = readerConfiguration.getString(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.FIELD_DELIMITER,null);
		if(null == delimiterInStr){
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.REQUIRED_VALUE,
					String.format("您提供配置文件有误，[%s]是必填参数.",
							com.alibaba.datax.plugin.unstructuredstorage.reader.Key.FIELD_DELIMITER));
		}
	}

	public static void validateColumn(Configuration readerConfiguration) {
		// column: 1. index type 2.value type 3.when type is Date, may have
		// format
		List<Configuration> columns = readerConfiguration
				.getListConfiguration(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COLUMN);
		if (null == columns || columns.size() == 0) {
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.REQUIRED_VALUE, "您需要指定 columns");
		}
		// handle ["*"]
		if (null != columns && 1 == columns.size()) {
			String columnsInStr = columns.get(0).toString();
			if ("\"*\"".equals(columnsInStr) || "'*'".equals(columnsInStr)) {
				readerConfiguration.set(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.COLUMN, null);
				columns = null;
			}
		}

		if (null != columns && columns.size() != 0) {
			for (Configuration eachColumnConf : columns) {
				eachColumnConf.getNecessaryValue(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.TYPE,
						UnstructuredStorageReaderErrorCode.REQUIRED_VALUE);
				Integer columnIndex = eachColumnConf
						.getInt(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.INDEX);
				String columnValue = eachColumnConf
						.getString(com.alibaba.datax.plugin.unstructuredstorage.reader.Key.VALUE);

				if (null == columnIndex && null == columnValue) {
					throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.NO_INDEX_VALUE,
							"由于您配置了type, 则至少需要配置 index 或 value");
				}

				if (null != columnIndex && null != columnValue) {
					throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.MIXED_INDEX_VALUE,
							"您混合配置了index, value, 每一列同时仅能选择其中一种");
				}
				if (null != columnIndex && columnIndex < 0) {
					throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.ILLEGAL_VALUE,
							String.format("index需要大于等于0, 您配置的index为[%s]", columnIndex));
				}
			}
		}
	}

	public static void validateCsvReaderConfig(Configuration readerConfiguration) {
		String  csvReaderConfig = readerConfiguration.getString(Key.CSV_READER_CONFIG);
		if(StringUtils.isNotBlank(csvReaderConfig)){
			try{
				UnstructuredStorageReaderUtil.csvReaderConfigMap = JSON.parseObject(csvReaderConfig, new TypeReference<HashMap<String, Object>>() {});
			}catch (Exception e) {
				LOG.info(String.format("WARN!!!!忽略csvReaderConfig配置! 配置错误,值只能为空或者为Map结构,您配置的值为: %s", csvReaderConfig));
			}
		}
	}

	/**
	 *
	 * @Title: getRegexPathParent
	 * @Description: 获取正则表达式目录的父目录
	 * @param @param regexPath
	 * @param @return
	 * @return String
	 * @throws
	 */
	public static String getRegexPathParent(String regexPath){
		int endMark;
		for (endMark = 0; endMark < regexPath.length(); endMark++) {
			if ('*' != regexPath.charAt(endMark) && '?' != regexPath.charAt(endMark)) {
				continue;
			} else {
				break;
			}
		}
		int lastDirSeparator = regexPath.substring(0, endMark).lastIndexOf(IOUtils.DIR_SEPARATOR);
		String parentPath  = regexPath.substring(0,lastDirSeparator + 1);

		return  parentPath;
	}
	/**
	 *
	 * @Title: getRegexPathParentPath
	 * @Description: 获取含有通配符路径的父目录，目前只支持在最后一级目录使用通配符*或者?.
	 * (API jcraft.jsch.ChannelSftp.ls(String path)函数限制)  http://epaul.github.io/jsch-documentation/javadoc/
	 * @param @param regexPath
	 * @param @return
	 * @return String
	 * @throws
	 */
	public static String getRegexPathParentPath(String regexPath){
		int lastDirSeparator = regexPath.lastIndexOf(IOUtils.DIR_SEPARATOR);
		String parentPath = "";
		parentPath = regexPath.substring(0,lastDirSeparator + 1);
		if(parentPath.contains("*") || parentPath.contains("?")){
			throw DataXException.asDataXException(UnstructuredStorageReaderErrorCode.ILLEGAL_VALUE,
					String.format("配置项目path中：[%s]不合法，目前只支持在最后一级目录使用通配符*或者?", regexPath));
		}
		return parentPath;
	}

	public static void setCsvReaderConfig(MyCsvReader csvReader){
		if(null != UnstructuredStorageReaderUtil.csvReaderConfigMap && !UnstructuredStorageReaderUtil.csvReaderConfigMap.isEmpty()){
			try {
				BeanUtils.populate(csvReader,UnstructuredStorageReaderUtil.csvReaderConfigMap);
				LOG.info(String.format("csvReaderConfig设置成功,设置后CsvReader:%s", JSON.toJSONString(csvReader)));
			} catch (Exception e) {
				LOG.info(String.format("WARN!!!!忽略csvReaderConfig配置!通过BeanUtils.populate配置您的csvReaderConfig发生异常,您配置的值为: %s;请检查您的配置!CsvReader使用默认值[%s]",
						JSON.toJSONString(UnstructuredStorageReaderUtil.csvReaderConfigMap),JSON.toJSONString(csvReader)));
			}
		}else {
			//默认关闭安全模式, 放开10W字节的限制
			csvReader.setSafetySwitch(false);
			LOG.info(String.format("CsvReader使用默认值[%s],csvReaderConfig值为[%s]",JSON.toJSONString(csvReader),JSON.toJSONString(UnstructuredStorageReaderUtil.csvReaderConfigMap)));
		}
	}
}

以上步骤完成之后，通过mvn clean install -Dmaven.test.skip=true完成打包生成 plugin-unstructured-storage-util-0.0.1-SNAPSHOT.jar
替换原jar包。例如我的现网环境datax工作目标为：/web/soft/datax-multiDelimiter
替换${datax_work_path}/plugin/reader/ftpreader/libs/plugin-unstructured-storage-util-0.0.1-SNAPSHOT.jar；
由于打包的jar不包含commons-collections4-4.4.jar，还需要将commons-collections4-4.4.jar放到/web/soft/datax-multiDelimiter/lib下。
修改前后采集速度对比(因源数据大小不同，即使配置一样，同一套代码采集速度差异也很大)
sdas

你可能感兴趣的:(hadoop,ETL,hdfs,hadoop,big,data,etl,java)

如何使用Jsoup提取商品信息：实战指南数据小爬虫@ python 爬虫 java
在使用Java进行Web爬虫开发时，Jsoup是一个非常强大的HTML解析库，可以帮助你轻松地提取网页中的数据。本文将详细介绍如何使用Jsoup提取商品信息，包括商品标题、价格、描述和图片链接等。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析HTML内容。在pom
利用Java爬虫根据关键词获取商品列表：实战指南数据小爬虫@ java 爬虫开发语言
在电商领域，通过关键词搜索商品并获取商品列表是常见的需求。本文将详细介绍如何使用Java编写爬虫程序，根据关键词获取商品列表，并确保爬虫行为符合平台规范。为了确保代码的准确性和实用性，我们将提供详细的代码示例和解释。一、环境准备（一）Java开发环境确保你的系统中已安装Java开发环境，推荐使用JDK11或更高版本。（二）安装所需库使用Maven管理项目依赖，主要包括以下库：Jsoup：用于解析H
如何使用Navicat连接Oracle数据库 Dawn·张数据库 oracle
如果有人提供了如下数据库连接信息：数据库信息：UserId=mes_stsp;Password=******;DataSource=172.20.1.60:1521/ORCL这表示您需要连接到Oracle数据库。以下是通过Navicat连接Oracle数据库的步骤：1.打开Navicat，新建连接打开Navicat软件，在工具栏中点击“连接”。从下拉列表中选择“Oracle”。2.配置连接信息在弹
从0到1掌握Flutter（三）Dart语法微声G 从0到1掌握Flutter flutter
引言本文接上篇：从0到1掌握Flutter（二）环境搭建与认识工程Dart语言基础是Flutter开发必须掌握的核心知识。本文将讲解变量与常量的声明、Dart内置类型体系及其用法、运算符的应用场景三大模块。对于具备Java/Kotlin背景的学习者，可以通过对比学习法快速定位知识缺口，理解语法的共性。一、变量与常量1.1变量万物皆对象在Dart的类型系统中，变量本质上是指对象的引用，这一设计符合面
Javascript基础语法详解 Warren98 javascript 开发语言 ecmascript
面向对象的语言.脚本语言,不需要编译,浏览器解释即可运行.用于控制网页的行为.浏览器的source可以打断点调试,console输入代码可以执行usestrict指令:在“严格模式”下运行js代码,防止意外创建全局变量等,提高代码安全性和执行效率.使用:全局严格模式：在脚本的开头添加"usestrict".函数级严格模式:在函数的开头添加"usestrict"：functionmyFunction
解锁命令模式：Java 编程中的解耦神器编程巫师设计模式命令模式 java 开发语言
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
解锁外观模式：Java 编程中的优雅架构之道编程巫师设计模式外观模式 java 架构
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
socket.io netty java,netty-socketio启动报错 weixin_39726131 socket.io netty java
io.netty.channel.ChannelException:UnabletocreateChannelfromclassclassio.netty.channel.socket.nio.NioServerSocketChannelatio.netty.channel.ReflectiveChannelFactory.newChannel(ReflectiveChannelFactory.j
Java代码保密技术之(二)allatori配置文档选项说明不秃的开发媛开发语言 java
配置文件结构：Allatori配置文件格式是xml格式，文件结构如下：
解锁适配器模式：代码重构与架构优化的魔法钥匙编程巫师设计模式 java 适配器模式设计模式
系列文章目录第一章解锁单例模式：Java世界的唯一实例之道第二章解锁工厂模式：工厂模式探秘第三章解锁代理模式：代理模式的多面解析与实战第四章解锁装饰器模式：代码增强的魔法宝典第五章解锁建造者模式：Java编程中的对象构建秘籍第六章解锁原型模式：Java中的高效对象创建之道第七章解锁适配器模式：代码重构与架构优化的魔法钥匙第八章解锁桥接模式：Java架构中的解耦神器第九章解锁组合模式：Java代码中
《java性能调优》2.Stream如何提高遍历集合效率 just_one_wk java性能调优
在Java8中，Collection新增了两个流方法，分别是Stream()和parallelStream()。什么是Stream？在Java8之前，我们通常是通过for循环或者Iterator迭代来重新排序合并数据，又或者通过重新定义Collections.sorts的Comparator方法来实现，这两种方式对于大数据量系统来说，效率并不是很理想。Java8中添加了一个新的接口类Stream，
Java开发第一坑：记一次MySQL ON DUPLICATE KEY UPDATE影响行数异常排查：从现象到解决的全过程猿享天开 java mysql 开发语言
记一次MySQLONDUPLICATEKEYUPDATE影响行数异常排查：从现象到解决的全过程一、问题现象：神秘的计数器异常由于学习JAVA开发时间不长，也没有进行系统性学习，由于项目需要就草草的开始了程序开发，在开发医疗影像归档系统时，归档患者影像时需要自动根据数据库操作后的返回值判断是新增插入数据，还是更新数据，但由于返回的影响行数不准确，比如插入1条新数据、更新一条数据或未变化，返回的影响行
【赵渝强老师】达梦数据库的归档模式数据库信创
达梦数据库的备份与恢复都需要使用到重做日志文件。在默认的情况下，达梦数据库采用的非归档模式。通过执行下面的语句可以查看当前数据库实例的日志模式。SQL>selectarch_modefromv$database;#输出的信息如下：行号ARCH_MODE-------------------1N#提示：这里输出的N表示的是非归档模式。由于在非归档模式下，重做日志文件会发生覆盖的情况，从而造成数据的丢
Java——Stream流的peek方法详解 Mcband java python 开发语言
Java8中引入了StreamAPI，极大地简化了集合操作，使得开发者可以使用流的方式进行数据处理。Stream提供了一系列非常强大的操作方法，其中之一就是peek()方法。peek()是一个中间操作，它可以用来在操作流的过程中查看元素的处理状态。本文将详细介绍peek()方法的使用场景和原理，并配合代码示例帮助大家深入理解。一、peek()方法简介peek()方法的定义在java.util.st
j2ee java是什么意思,j2ee是什么 sherlockhj j2ee java是什么意思
熟悉Java的人有很多，但对于j2ee，很多人估计都是次听说了。那么这个j2ee是什么呢?它和Java有着什么千丝万缕的联系呢?1、j2ee是什么?要想知道j2ee是什么，必须先知道Java的三大分支。Java分为三个体系，分别为JavaSE(标准版)，JavaEE(企业版)，JavaME(微型版)这样看来的话，j2ee是属于java三大分支的一个。j2ee是一套全然不同于传统应用开发的技术架构，
Android 百度语音合成工具类封装：内存泄漏防护与简化调用 tangweiguo03051987 android android
适配高版本Android系统使用ApplicationContext避免内存泄漏默认回调支持，调用更简洁线程安全与资源释放优化完整代码：BaiduTTSManager.java：importandroid.content.Context;importandroid.os.Handler;importandroid.os.Looper;importandroid.util.Log;importand
常用 J2EE 应用服务器比较 King-Blog JAVA WEB
Weblogic和Tomcat的区别J2ee开发主要是浏览器和服务器进行交互的一种结构.逻辑都是在后台进行处理,然后再把结果传输回给浏览器。可以看出服务器在这种架构是非常重要的。这几天接触到两种Java的web服务器，做项目用的Tomcat，看视频看的是WebLogicServer（WLS），都是web服务器，有什么区别和联系呢？（一）先简单介绍一下这两种服务器。WebLogic是美国bea公司出
使用Redis如何实现分布式锁？（超卖） MiniFlyZt redis 分布式数据库
分布式锁概念在多线程环境下，为了保证数据的线程安全，锁保证同一时刻，只有一个可以访问和更新共享数据。在单机系统我们可以使用synchronized锁、Lock锁保证线程安全。synchronized锁是Java提供的一种内置锁，在单个JVM进程中提供线程之间的锁定机制，控制多线程并发。只适用于单机环境下的并发控制。想要在多个节点中提供锁定，在分布式系统并发控制共享资源，确保同一时刻只有一个访问可以
《恐龙餐厅菜单页面代码说明文档》欣然～ html5
一、整体概述此HTML文件构建了一个恐龙餐厅的菜单页面，用户能够浏览菜品、将菜品添加到购物车，并进行支付操作。页面运用HTML搭建结构，CSS进行样式设计，JavaScript实现交互功能。二、HTML结构1.文档头部（）html恐龙餐厅菜单/*CSS样式代码*/：声明文档类型为HTML5。：指定文档语言为中文（中国大陆）。：设置字符编码为UTF-8，确保中文等字符能正确显示。：让页面在不同设备上
【NLP】 9. 处理创造性词汇 & 词组特征（Creative Words & Features Model），词袋模型处理未知词，模型得分 pen-ai NLP 机器学习自然语言处理人工智能深度学习
这里写目录标题处理创造性词汇&词组特征（CreativeWords&FeaturesModel）1.处理否定（NegationHandling）2.词组特征（Bigrams&N-grams）3.结合否定传播与n-grams进行优化词袋模型（Bag-of-Words,BoW）1.BoW示例2.处理未知词3.为什么忽略未知词？4.处理未知词的方法计算模型得分（ScoreCalculation）处理创造
java有外键怎么导出_导出当前用户下所有外键、主键、索引、sequence的DDL 南至挚爱 java有外键怎么导出
在数据转换的过程中，我使用createtableas...等方式，批量将A的数据表创建到B下后，主键、外键、索引是需要手工建的，一个一个嫌麻烦，故写下了以下脚本。可使A用户下的主键、外键、索引都产生出来，然后到B用户下创建。--------------------------------------------------------------------------------10g及以上--
ggplot2设置坐标轴范围_作图技巧018篇第二坐标轴在ggplot2中的实现 weixin_39618597 ggplot2设置坐标轴范围 R语言ggplot2移除图例按键精灵定位坐标循环
“ggplot2中的次级坐标轴”生活科学哥-R语言科学2020-06-128：35在平时作图中，我们有时希望在一个坐标中进行二个坐标轴的设定，也是为了方便数据的显示。这个过程在EXCEL等当中比较容易实现，但是，如何在R中实现呢？今天我们就来讲一讲操作的过程。数据准备先准备如下数据：library(ggplot2)library(scales)library(magrittr)dfdata.fra
网络运维学习笔记（DeepSeek优化版） 018 HCIA-Datacom综合实验03 技术小齐网络运维学习
文章目录综合实验3实验需求一：A公司网络规划二：B公司网络规划配置一、ip、vlan、vlanif，stp、eth-trunkSW1SW2R1二、ospfSW1R1三、NATR1ISP四、拒绝ping允许httpSW1五、右半部分vlan、dhcp、ospf、NATSW4R2综合实验3实验需求一：A公司网络规划SW1/2/3组成了A公司的交换网络，其中SW1是核心层，SW2/3是接入层。三台交换机
PHP 处理csv 文件解决中文乱码 MountainYanYL PHP csv php
/***读取csv格式的数据*@param$file*@returnarray*/publicstaticfunctionread_csv($file){setlocale(LC_ALL,'zh_CN');//linux系统下生效$data=[];//返回的文件数据行if(!is_file($file)&&!file_exists($file)){return$data;}$cvs_file=fo
MySQL的行级锁锁的到底是什么? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【Mysql自增主键会遇到什么问题?】面试题。希望对大家有帮助；MySQL的行级锁锁的到底是什么?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL的行级锁（Row-levelLocking）是一种粒度较细的锁定机制，它用于对数据库中的单行数据进行锁定，确保在并发环境中多个事务能够安全地访问数据，同时减少锁的争用，提升系统性能。行级锁是MySQ
Mysql自增主键会遇到什么问题? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【Mysql自增主键会遇到什么问题?】面试题。希望对大家有帮助；Mysql自增主键会遇到什么问题?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL自增主键（AUTO_INCREMENT）在使用过程中，虽然非常方便，但也可能会遇到一些潜在问题。下面列举了几个常见的问题及其解决方案：1.主键值跳跃自增主键可能会出现跳跃的情况。常见的原因有：删除记
MySQL中有哪几种锁？ java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【MySQL中有哪几种锁？】面试题。希望对大家有帮助；MySQL中有哪几种锁？1000道互联网大厂Java工程师精选面试题-Java资源分享网在MySQL中，锁是用来控制并发访问的机制，确保多个事务同时访问数据库时不会发生冲突。MySQL中主要有以下几种锁：1.全局锁（GlobalLocks）定义：全局锁是最重的锁类型，锁住了整个数据库实例，所有的数据库表和操作都会受
Mybaits的优点&缺点？ java1234_小锋 mybatis mybatis
大家好，我是锋哥。今天分享关于【Mybaits的优点&缺点？】面试题。希望对大家有帮助；Mybaits的优点&缺点？1000道互联网大厂Java工程师精选面试题-Java资源分享网MyBatis是My一种Batis是一个优秀流的Java行的Java持久化持框久架化，它框通过架将SQL，它简语化句了与数据库Java操作与方法Java进行对映象射之间来的简映化射数据库。操作相。对于它J具有PA很多（优
MyBatis中的动态SQL是什么？ java1234_小锋 mybatis mybatis java 开发语言
大家好，我是锋哥。今天分享关于【MyBatis中的动态SQL是什么？】面试题。希望对大家有帮助；MyBatis中的动态SQL是什么？1000道互联网大厂Java工程师精选面试题-Java资源分享网在MyBatis中，动态SQL是指在SQL查询执行时，能够根据不同的条件动态生成SQL语句的功能。动态SQL使得你可以根据业务需求的不同，灵活地拼接SQL语句，而不需要在每次需求变化时都手动编写不同的SQ
mysql中in和exists的区别? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【mysql中in和exists的区别?】面试题。希望对大家有帮助；mysql中in和exists的区别?1000道互联网大厂Java工程师精选面试题-Java资源分享网在MySQL中，IN和EXISTS都用于进行子查询，但它们的使用方式和适用场景有所不同。下面是它们的主要区别：1.IN子查询IN用于检查某个值是否存在于一个给定的值列表中，通常用于列和子查询结果集的比
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l