七、文件和数据格式化

字符串格式化：将字符串按照一定的规格和样式进行规范

方法："{} {} {}".format()，可用来输出各种样式

数据格式化：将一组数据按照一定的规格和样式进行规范，并且表达、存储、计算等。

7.1 文件的使用

7.1.1 文件的类型

文件定义：文件是数据的抽象和集合，文件是存储在辅助存储器上的数据序列，文件是数据储存的一种形式。

文件的展现形态：文本文件、二进制文件，两者只是展现方式不同，本质来说所有文件都是以二进制形式进行存储。

文本文件：由单一特定的编码组成的文件，如UTF-8编码，一般适用于.txt文件或者.py文件

二进制文件：直接由0和1构成，没有统一的字符编码，存在二进制的0 1 结构组织，适用于.png文件或者avi文件

举例：“中国是个伟大的国家！”

文本形式：中国是个伟大的国家！

二进制形式：b'\xdb\xd0\xb9\xfa\xca\xc7\xb8\xf6\xce\xb0\xb4\xf3\xb5\xc4\xb9\xfa\xbc\xd2\xa3\xa1'

实例：

image.png

#文本形式打开文件
tf=open("f.txt","rt")
print(tf.readline())
tf.close()

#二进制形式打开文件
bf=open("f.txt","rt")
print(bf.readline())
bf.close()

7.1.2 文件的打开和关闭

文件的处理步骤：打开操作关闭

读文件常用函数：a.read(size) a.readline(size) a.readlines(hint)

写文件常用函数：a.write(s) a.writelines(lines) a.seek(offset)

文件的绝对路径：文件在电脑中的存储位置

文件的相对路径：文件相对于程序的位置

文件打开模式	描述
'r'	只读模式，默认值，若文件不存在，返回FileNotFoundError
'w'	覆盖写模式，文件不存在时创建文件
'x'	创建写模式，文件不存在时创建，存在时返回FileNotFoundError
'a'	追加写模式，文件不存在时创建，存在时在文件后追加内容
'b'	二进制文件模式
't'	文本文件模式，默认值
'+'	与rwax一同使用，在原功能基础上增加功能

练习：

f=open("f.txt") 文本形式，只读默认

f=open("f.txt"，"rt") 文本形式，只读默认

f=open("f.txt"，"w") 文本形式，可编写

f=open("f.txt"，"a+") 文本形式，追加写模式

f=open("f.txt"，"x") 文本形式，创建写模式

f=open("f.txt"，"b") 二进制形式，只读默认

f=open("f.txt"，"wb") 二进制形式，创建写模式

关闭文件：<变量名>.close()

7.1.3 文件内容读取

文件内容读取方法：.read .readline .readlines

函数	描述
.read(size=-1)	读入全部内容，如果给出参数，读入前参数长度
.readline(size=-1)	读入一行内容，如果给出参数，读入前参数长度行数
.readlines(hint=-1)	读入文件所有行，以每行元素形成列表，如果给出参数，读入前参数行

遍历全文本：

方法一：一次读入，统一处理，适用于小文件

fname=imput("请输入需要打开的全文本文件名称：")
fo=open(fname,"r")
txt=fo.read()
#对全文处理
fo.close()

方法二：按数量读入，逐步处理，适用于大文件

fname=imput("请输入需要打开的全文本文件名称：")
fo=open(fname,"r")
while txt !="":
    #对文件处理
    txt=fo.read(2)
fo.close()

逐行遍历：

方法一：一次读入，分行处理，适用于大文件

fname=imput("请输入需要打开的全文本文件名称：")
fo=open(fname,"r")
for line in fo.readlines():
    print(line)
fo.close()

方法二：分行读入，按行处理，适用于小文件

fname=imput("请输入需要打开的全文本文件名称：")
fo=open(fname,"r")
for line in fo():
    print(line)
fo.close()

7.1.4 数据的文件写入

函数	描述
.write(s)	向文件写入一个字符串或者字节流
.writelines(lines)	将一个元素全为字符串的列表写入文件中
.seek(offset)	改变当前的指针位置，0文件开头 1当前位置 2文件结尾

实例：

fo.open("output.txt","w+")
ls=["中国","法国","美国"]
fo.writelines(ls)
fo.seek(0)
for line in fo:
    print(line)
fo.close

7.2 自动轨迹绘制

7.2.1 自动轨迹绘制问题分析

要求：根据脚本绘制图形，数据脚本是自动化，不是写代码，而是写数据轨迹绘制

数据参数经过程序加载运行，自动绘制

基本要求：读取文件、解析数据、绘制图形

步骤：

1.定义数据文件格式（接口）

2.编写程序，根据文件接口解析参数，绘制图形

3.编写数据文件

数据接口定义：具有个性色彩

举例：

image.png

7.2.2 自动轨迹绘制实例

#AutoTraceDraw.py
import turtle as t
t.title('自动轨迹绘制实例')
t.setup(800,600,0,0)
t.pencolor("red")
t.pensize(5)
#数据读取
datals=[]
f=open("data.txt")
for line in f:
    line=line.replace("\n","")
    datals.append(list(map(eval,line.split(","))))
f.close()
#自动绘制
for i in range(len(datals)):
    t.pencolor(datals[i][3],datals[i][4],datals[i][5])
    t.fd(datals[i][0])
    if datals [i][1]:
        t.right(datals[i][2])
    else:
        t.left(datals[i][2])

7.2.3 自动化绘制实例拓展

1.自动化思维：数据和功能分离，数据驱动自动运行

2.接口化设计：格式化数据接口，清晰明了

3.二维数据应用：应用维度组织数据，二维数据最常用

应用扩展：

1.扩展接口设计，增加更多的接口

2.扩展功能设计，弧度等更多功能

3.扩展应用设计，自动发展为动画

7.3 一维数据的格式化和处理

7.3.1 数据组织的维度

从一个数据到多个数据，数据组织形式

一维数据：由对等关系的有序或者无序数据构成，采用线性方式组织，对应数据、列表、集合等概念。

多维数据：由多个一维数据构成，是一维数据的组合形式，表格是典型的二维数据，表头是二维数据的一部分。

多维数据：由一维数据或二维数据在新的维度上扩展形成，比如增加时间维度。

高维数据：仅利用最基本的二元关系展示数据间的复杂结构

数据的操作周期：存储<---->表示<---->操作

存储强调格式，表示注重类型，操作了解方式

7.3.2一维数据的表示

数据间有序：列表类型

数据间无序：集合类型

列表类型：可以表达一堆有序数据，for循环可以遍历数据，进而对每个数据进行处理

集合类型：可以表达一堆无序数据，for循环可以遍历数据，进而对每个数据进行处理

7.3.3一维数据的储存

空格分离：不换行，但是数据中不能存在空格

逗号分离：不换行，但是数据中不能存在逗号

其他方式：不换行，但是数据中不能存在此特殊符号

7.3.4一维数据的处理

将存储的数据读入程序，将程序表示的数据写入文件

从空格分离的文件中读入数据：

举例：中国美国法国英国德国日本

txt=open(fname).read()
ls=txt.split()
f.close()

从特殊符号分离的文件中读入数据：

举例：中国法国德国$日本

txt=open(fname).read()
ls=txt.split($)
f.close()

采用空格分立方式将数据写入文件：

ls=['中国','美国','法国']
f=open(fanme,'w')
f.write(''.join(ls))
f.close()

7.4二维数据的格式化和处理

7.4.1 二维数据的表示

表示：使用列表类型，二维列表

使用两层for循环遍历每一个元素，第一层遍历列表中的每一个元素

外层列表中每个元素可对应一行或一列

image.png

7.4.2 CSV数据存储格式

CSV：Comma-Spreated Values,是一种由逗号分隔值的存储形式

国际通用的储存方式，每行是一个一维数据，采用逗号分隔，中间无空行

一般以.csv为扩展名，Excel和一般数据软件都可以读入或者存储该文件

规则：如果某个元素缺失，逗号仍然保留；二维数据表头可以作为数据储存，也可以另行储存；逗号于数据之间无空行

一般索引习惯：ls [ row ][ column ],先行后列

7.2.3二维数据处理

读入处理：

fo=open(fname)
ls=[]
for line in fo:
    line=line.replace("\n","")
    ls.append(line.split(","))
fo.close()

写回处理：

ls=[[],[],[]]
f=open(fname,'w')
for item in ls:
    f.write(','.join(item)+'\n')
fo.close()

逐一遍历，采用二层循环：

ls=[[1,2],[3,4][5,6]]
for row in ls:
    for column in row:
        print(column)

7.5wordcloud库

7.5.1wordcloud库基本介绍

定义：wordcloud库是优秀的词云展示的第三方库

用途：将文本变为词云

词云：将词语通过图形可视化的方式，直观和艺术的展示出来

安装：(cmd命令行)pip install wordcloud

7.5.2wordcloud库的使用

将词云当做一个WordCloud对象，库名全小写，具体词云有大写有小写

一个文本对应的词云：wordcloud,WordCloud()

可以根据文本中词语出现的频率等参数绘制词云，形状尺寸颜色都可以自己设定

w=wordcloud,WordCloud(）以wordcloud为对象基础，向其中配置参数，加载文本，输出文件

参数	描述
w.generate(txt)	向对象中加载文本
w.to_file(filename)	将词云输出为图片文件 .png或.jpg格式

词云绘制的步骤介绍：

生成一个词云对象，配置相关参数

加载一段文本到词云对象中

生成的程序词云对象输出为文件

举例：

import wordcloud
c=wordcloud,WordCloud()
c.generate("wordcloud by Python")
c.to_file("pywordcloud.png")

wordcloud运行步骤：

分隔：以空格分隔单词

统计：单词出现的次数并过滤

字体：概括统计，配置字号

布局：颜色、环境、尺寸

参数	描述
width	指定词云生成宽度，默认400像素
height	指定词云生成高度，默认200像素
min_font_size	指定词云中最小字体字号，默认4号
max_font_size	指定词云中最大字体字号，根据高度调节
font_step	指定词云中字体字号的步进间隔，默认为1
font_path	制定字体文件路径，默认为None
max_word	指定词云中最大单词显示数，默认为200
stop_word	排除列表，即不显示单词列表
mask	指定词云形状，默认为长方形，需要引用imread()函数
background_color	指定词云背景颜色，默认为黑色

形状举例：

from scipy.misc import imread
mk=imread("pic.png")
w=wordcloud.WordCloud(mask=mk)

英文词云实例：

import wordcloud
txt="life is short,but you need python"
w=wordcloud.WordCloud(background_color="white")
w.generate(txt)
w.to_file("pywcloud.png")

中文词云实例：

import jieba
import wordcloud
txt="愿你，春赏繁樱，夏观夜星，秋见霜菊，冬遇初雪。人间的扬尘里，只看得见美事。"
w=wordcloud.WordCloud(weight=1000,font_path="msyh.ttc",height=700)
w.generate(" ".join(jieba.lcut(txt)))
w.to_file("pywcloud.png")

7.6 政府工作报告实例

7.6.1 问题分析

政府工作报告词云：对于政府工作报告等政府文件，直观的理解

需求：体会价值观、生成词云、优化词云

方法：

1.读取文件，分词管理

2.设置并输出词云

3.观察结果，优化迭代

7.6.2 实例

新时代中国特色社会主义文本实例：

#GovRptWordCloudV1.py
import jieba
import wordcloud
f=open("新时代中国特色社会主义.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt="",join(ls)
w=wordcloud.WordCloud(font_path="msyh.ttc",width=1000,height=700,background_color="white"\)
w.generate(txt)
w.to_file("gvowordcloud.png")

关于实施向战略的意见：

#GovRptWordCloudV1.py
import jieba
import wordcloud
f=open("关于实施乡村振兴战略的意见.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt="",join(ls)
w=wordcloud.WordCloud(font_path="msyh.ttc",width=1000,height=700,background_color="white"\)
w.generate(txt)
w.to_file("gvowordcloud.png")

7.6.3 问题改进

新时代中国特色社会主义问题改进：

#GovRptWordCloudV1.py
import jieba
import wordcloud
from scipy.misc import imread
mask=imread("fivestar.png")
f=open("新时代中国特色社会主义.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt="",join(ls)
w=wordcloud.WordCloud(font_path="msyh.ttc",mask=mask,width=1000,height=700,background_co\lor="white")
w.generate(txt)
w.to_file("gvowordcloud.png")

关于实施乡村振兴战略的意见改进：

#GovRptWordCloudV1.py
import jieba
import wordcloud
from scipy.misc import imread
mask=imread("fivestar.png")
f=open("关于实施乡村振兴战略的意见.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt="",join(ls)
w=wordcloud.WordCloud(font_path="msyh.ttc",mask=mask,width=1000,height=700,background_co\lor="white")
w.generate(txt)
w.to_file("gvowordcloud.png")

7.6.3 问题拓展

1.了解wordcloud参数，拓展词云能力

2.特色设计，自制风格

3.更多文件的练习

Python第七讲：文件和数据格式化

七、文件和数据格式化

7.1 文件的使用

7.1.1 文件的类型

7.1.2 文件的打开和关闭

7.1.3 文件内容读取

7.1.4 数据的文件写入

7.2 自动轨迹绘制

7.2.1 自动轨迹绘制问题分析

7.2.2 自动轨迹绘制实例

7.2.3 自动化绘制实例拓展

7.3 一维数据的格式化和处理

7.3.1 数据组织的维度

7.3.2一维数据的表示

7.3.3一维数据的储存

7.3.4一维数据的处理

7.4二维数据的格式化和处理

7.4.1 二维数据的表示

7.4.2 CSV数据存储格式

7.2.3二维数据处理

7.5wordcloud库

7.5.1wordcloud库基本介绍

7.5.2wordcloud库的使用

7.6 政府工作报告实例

7.6.1 问题分析

7.6.2 实例

7.6.3 问题改进

7.6.3 问题拓展

你可能感兴趣的:(Python第七讲：文件和数据格式化)