数据导入hudi报错,错将字段写到hdfs路径上

报错信息

Error trying to save partition metadata (this is okay, as long as atleast 1 of these succced), file:/qiche/hudi_table/冬天续航要打个八折的样子,能接受。高速相对市区还要耗电一些。不过这个车最主要是也就是在市区里面跑,而且最多会跑一下绕城高速。我第一次跑高速,行驶到120码的时候,就发现那个电掉得很快。而且冬天充电的时候你用了车就马上去充电,这样比你等车冷了再充电会快一些,这个是销售教我的方法,确实是这个样子的。
java.io.IOException: Mkdirs failed to create file:/qiche/hudi_table/冬天续航要打个八折的样子,能接受。高速相对市区还要耗电一些。不过这个车最主要是也就是在市区里面跑,而且最多会跑一下绕城高速。我第一次跑高速,行驶到120码的时候,就发现那个电掉得很快。而且冬天充电的时候你用了车就马上去充电,这样比你等车冷了再充电会快一些,这个是销售教我的方法,确实是这个样子的。 (exists=false, cwd=file:/opt/module)

原因

导入数据中单个元素中可能包含有\t\n

例如csv文件中

数据导入hudi报错,错将字段写到hdfs路径上_第1张图片

解决

去掉\t\n

以csv文件为例

etl.py

import csv

input_file = 'intput.csv'
output_file = 'output.csv'

# 打开输入和输出文件
with open(input_file, 'r', newline='', encoding='utf-8') as file_in, open(output_file, 'w', newline='', encoding='utf-8') as file_out:
    reader = csv.reader(file_in)
    writer = csv.writer(file_out)

    # 逐行读取输入文件,并写入输出文件
    for row in reader:
        new_row = []
        for cell in row:
            new_cell = cell.replace('\n', '').replace('\r', '')  # 去掉单元格中的换行符
            new_row.append(new_cell)
        writer.writerow(new_row)

网上关于hudi报错的资料很少,个人建议不要问gpt关于hudi报错的问题,因为它会胡扯,至少它现在是这样的。

希望这个解决方案可以帮助到你。

你可能感兴趣的:(大数据报错,hudi,hdfs,linux)