【Python问题解决】利用Python读取文件时出现\ufeff的原因及解决办法

利用Python读取文件时出现\ufeff的原因及解决办法

今天利用Python读取一个csv文件

代码如下:

import csv

with open('test.csv', 'r', encoding='UTF-8-sig') as csvfile:
    csv_reader = csv.reader(csvfile)
    for row in csv_reader:
        print(row)
        print(row[0])

结果如下:

['\ufeffA1', 'B1', 'C1', 'D1']
A1
['A2', 'B2', 'C2', 'D2']
A2
['A3', 'B3', 'C3', 'D3']
A3
['A4', 'B4', 'C4', 'D4']
A4
['A5', 'B5', 'C5', 'D5']
A5

输出部分的开头多出了个不速之客

\ufeff

看了csv文件里面也没有特殊字符

怎么输出就多了\ufeff了呢???

原因分析

utf-8编码的文件时开头会有一个多余的字符\ufeff,在读文件时会读到\ufeff

解决办法

只需改一下编码就行,把 UTF-8 编码 改成 UTF-8-sig编码即可
改后示例:

import csv

with open('test.csv', 'r', encoding='UTF-8-sig') as csvfile:
    csv_reader = csv.reader(csvfile)
    for row in csv_reader:
        print(row)
        print(row[0])

效果展示

【Python问题解决】利用Python读取文件时出现\ufeff的原因及解决办法_第1张图片
好了,利用Python读取文件时出现\ufeff的问题已经解决了

下面来具体了解一下,想深入具体了解的各位看官可以继续阅读… …

【Python问题解决】利用Python读取文件时出现\ufeff的原因及解决办法_第2张图片

问:输出的\ufeff到底是哪里来的呢?
答:在编写文本时保存时包含了BOM(Byte Order Mark,字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码)导致最后输出了\ufeff。

我们最开始是建立的.xslx文件,后又另存为.csv文件(UTF-8编码),而utf-8编码的文件时开头会有一个多余的字符\ufeff,这是我们读取文件也按UTF-8编码就会输出\ufeff,所以,应该使用 utf-8-sig 编码,就可以去除文件开头的\ufeff。

问:utf-8与utf-8-sig两种编码格式有什么区别呢?
答:UTF-8以字节为编码单元,它的字节顺序在所有系统中都是一様的,没有字节序的问题,也因此它实际上并不需要BOM(“ByteOrder Mark”)。但是UTF-8 with BOM即utf-8-sig需要提供BOM。

问:\ufeff到底是什么?
答:字节顺序标记(英语:byte-order mark,BOM)是位于码点U+FEFF的统一码字符的名称。当以UTF-16或UTF-32来将UCS/统一码字符所组成的字符串编码时,这个字符被用来标示其字节序。它常被用来当做标示文件是以UTF-8、UTF-16或UTF-32编码的记号。

【Python问题解决】利用Python读取文件时出现\ufeff的原因及解决办法_第3张图片
以上就是关于Python读取文件时出现\ufeff的原因及解决办法

若大家想了解编码相关知识

关于计算机中常见的几种编码可以参考这篇文章:计算机编程种常见的几种编码详解

【Python问题解决】利用Python读取文件时出现\ufeff的原因及解决办法_第4张图片

【Java Web】相关技术文章:
【Java Web总结】Java Web项目中 的.classpath、.mymetadata、.project文件作用
【Java Web问题解决】Tomcat报错javax.servlet.ServletException: Error instantiating servlet class.报错404
【比较】什么是“服务器端跳转”“客户端跳转”,二者有什么区别?
【总结】表单提交的get和post有什么不同?
【Java Web问题解决】Tomcat报错:java.lang.ClassCastException: cannot be cast to javax.servlet.Filter解决办法
【Java Web问题解决】Filter过滤器初始化方法init()执行了两次原因及解决方法
【总结】Java Web 中的4种属性范围(page、request、session、application)
【Java Web问题解决】Tomcat报错:java.sql.SQLException: No suitable driver found for jdbc:mysql://
【Java Web问题解决】Tomcat启动时控制台出现中文乱码的问题解决方法
【示例项目】java实现通过身份证号码判断籍贯所在地区
【总结】HTTP协议中的状态码(200、403、404、500等)
【Java Web问题解决】提交表单后显示乱码原因及解决办法
【Java Web总结】JSP页面的生命周期详解
【Java Web总结】JSP页面实现类详解
【Java Web 问题解决】Tomcat启动失败 报错:Server Tomcat v9.0 Server at localhost failed to start.
【Java Web问题解决】连接数据库出错:java.sql.SQLException: No suitable driver found for jdbc:mysql://localhost:3306/
【Java Web问题解决】使用过滤器Filter解决提交表单后显示乱码问题
【Java Web问题解决】过滤器Filter进行编码过滤后页面空白、显示不了原因及解决办法

【Linux 操作系统】相关技术文章:
【Linux问题解决】Ubuntu Linux 安装gcc4.9 g++4.9报错“没有可供安装的候选者”解决办法
【Linux教程】Ubuntu Linux 更换源教程
【Linux教程】如何实现在Ubuntu Linux和windows之间复制粘贴、拖拽复制文件?
【Linux问题解决】操作系统用C语言多线程编程 对‘pthread_create’未定义的引用 报错解决办法
【Linux教程】Linux中用C语言多线程编程之pthread_join()函数
【Linux操作系统、C语言】在Linux中用C语言进行OpenMP并行程序设计之常见指令、库函数和指令总结
【VMware 虚拟机问题解决】VMware Workstation pr无法在Windows上运行的解决方案
【Linux 问题解决】Ubuntu执行apt-get命令报错:无法获得锁 /var/lib/dpkg/lock…解决方案

【Python】相关技术文章:
【总结】Python与C语言、Java等语言基本语法的不同点
【总结】分析Python中的循环技巧
【总结】Python语言是编译型语言还是解释型语言?(Python程序执行过程)
【总结】Python2 和 Python3 的区别
利用Python一层循环打印 * 型三角形
【总结】Python与C语言、Java等语言基本语法的不同点
【总结】你知道吗?——元组其实是可变的序列!
【Python爬虫教程】Python爬虫基本流程及相关技术支持
【Python问题解决】PyCharm中debug报错:using cython not found. pydev debugger: process 13108 is connecting原因及解决
【Python总结】闭包及其应用

【IntelliJ IDEA教程】相关技术文章:
【Intellij IDEA教程】怎么自动清除无效的import导入包、清除无效的import导入包的快捷键
【IntelliJ IDEA教程】在IntelliJ IDEA启动项目 Warning:java: 源值1.5已过时, 将在未来所有发行版中删除 解决办法
【IntelliJ IDEA教程】提示信息Unmapped Spring configuration files found.Please configure Spring facet. 解决办法
【IntelliJ IDEA教程】怎么取消IntelliJ IDEA对单词拼写的检查

【Jupyter Notebook教程】相关技术文章:
【Python教程】Jupyter Notebook把一段很长的代码分成多行的解决办法】

你可能感兴趣的:(Python,Python)