datax常见问题

1、如何调整jvm的参数？
调整datax.py文件中DEFAULT_JVM的值即可

2、插件对应的参数具体含义以及报错之后该如何解决，以MysqlReader为例

  "reader": {
                "name": "mysqlreader",
                "parameter": {
                    "username": "root",
                    "password": "root",
                    "column": [
                        "id",
                        "name"
                    ],
                    "splitPk": "db_id",
                    "connection": [
                        {
                            "table": [
                                "table"
                            ],
                            "jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/database"]
                        }
                    ]
                }
            }

参数说明：splitPk代表切分主键，对于单表进行切分的时候使用，如对于表a，存在自增主键id，可以通过id < 1000,id>=1000 & id<2000 ,id>=2000切分成3个sql进行读取，另外，根据connection中的table和jdbcUrl配置项是list可知，这里可以配置多个，多个之间会去笛卡尔积，也就是可以配置任意多的数据库和表，这些库的密码必须保持一致，下面说明一下上述参数在哪里使用

根据前面代码分析可以知道，整个datax的task会被切分多少个是由reader端的split函数决定的，查看mysqlReader的的split函数

    public List split(int adviceNumber) {
        return this.commonRdbmsReaderJob.split(this.originalConfig, adviceNumber);
    }
    继续深入进去可以看到实际执行为
    public static List doSplit(
        Configuration originalSliceConfig, int adviceNumber) {
    boolean isTableMode = originalSliceConfig.getBool(Constant.IS_TABLE_MODE).booleanValue();
    int eachTableShouldSplittedNumber = -1;
    if (isTableMode) {
        // adviceNumber这里是channel数量大小, 即datax并发task数量
        // eachTableShouldSplittedNumber是单表应该切分的份数, 向上取整可能和adviceNumber没有比例关系了已经
        eachTableShouldSplittedNumber = calculateEachTableShouldSplittedNumber(
                adviceNumber, originalSliceConfig.getInt(Constant.TABLE_NUMBER_MARK));
    }

    String column = originalSliceConfig.getString(Key.COLUMN);
    String where = originalSliceConfig.getString(Key.WHERE, null);

    List

datax常见问题

你可能感兴趣的:(datax常见问题)