10. 人工分析部分自定义和ipynb交互

知识基础

  • 在python环境中已经安装ipython和matplotlib

学习目标

  • 在ipynb中显示图片
  • 学会用format生成string
  • 在输入自定义内容时可以随意分行,而不影响报告生成格式

前言

main.ipynb文件是我们的主要工作文件,里面会包含我们对数据的分析和处理,说明文字的生成,人工的文字补充等,而我们一般的数据分析过程也是仅仅一个main.ipynb就足够。
在这里有三个分支:

  1. 第一种是main.ipynb文件包含要做的数据分析,文字添加,图表生成,文档生成等部分,其自定义部分直接跟在数据分析后面,好处是逻辑上和一般数据分析的思路非常一致,从一般的数据分析脚本直接就可以修改
  2. 把数据分析部分独立为analysis.py模块,而图表生成部分根据是否需要自定义参数来决定是放入main.ipynb还是analysis.py,再或者单独模块
  3. 把文字自定义部分单独出来,按照固定的格式生成待填写的模板,然后用编辑器打开此模板直接进行自定义编辑,然后在main.ipynb中可以读取填写后的模板并把内容添加入报告生成的过程。对此还可以进行扩展,做成网页形式,分析部分作为服务器后端,而前端则显示已经生成的报告部分,并且进行填写,填写后POST,后端根据提交内容生成报告。

1. 图片显示

对于本地图片,显示方法如下(参考5.1中图片显示方法)

from IPython.display import Image
Image('./5. 图表绘制/source/anatomy.png')
10. 人工分析部分自定义和ipynb交互_第1张图片

另一种是显示matplotlib画好的fig对象,在ipynb的cell中输入fig,直接就可以在ipynb中显示。

参考5.2中图片显示方法

import matplotlib.pyplot as plt
# 首先设置作图的大小
IMAGE_WIDTH = 5.708
IMAGE_HIGH = 2.756
# 实例化Figure
fig = plt.figure(figsize=(IMAGE_WIDTH, IMAGE_HIGH))
plt.plot(range(8))
fig
10. 人工分析部分自定义和ipynb交互_第2张图片

2. 字符串生成

使用Format生成String

string = """{}\n
range : {}\n
list : {}\n
list element : {[1]}\n
dict : {}\n
dict element : {b}""".format('生成结果为 : ',
                             range(3),
                                list(range(3)),
                                 list(range(3)),
                                        {'a':1, 'b':'3d'},
                            **{'a':1, 'b':'3d'})
print(string)
生成结果为 : 

range : range(0, 3)

list : [0, 1, 2]

list element : 1

dict : {'a': 1, 'b': '3d'}

dict element : 3d

详细用法建议参考Python官方文档6.1.2 String Formatting

3. 自定义内容自动分行

string = "ddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddddd"

当我们添加字符串时,需要注意使用""只能添加单行字符串,ipynb不会对Cell中的超长字符串进行自动分行(可以对jupyter configs进行更改来实现自动分行,不过有些麻烦),所以建议使用""""""来进行字符串的输入,然后手动分行。

显然,使用'\n'来人工分行会导致多余的'\n'出现在字符串中,但是我们可以使用一个辅助函数解决这个问题。

string = """
ddddddddddd
dddddddddddddddddd
ddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddd
dddddddddddddddddddddddddddddddddddddddddddddddddddd
"""
from ExampleCode.models import Document, Chapter
import re
def del_newline(instance):
    for key, value in instance.__dict__.items():
        if isinstance(value, str):
            value = value.replace('\n', '')
            instance.__dict__[key] = value        
        if isinstance(value, list):
            for index, subinstance in enumerate(instance.__dict__[key]):
                if isinstance(subinstance, Chapter):
                    instance.__dict__[key][index] = del_newline(subinstance)
        if isinstance(value, Chapter):
            instance.__dict__[key] = del_newline(value)
    return instance

我们知道document是树结构,所以我们可以基于document的文档结构遍历所有章节的字符串,然后删除多余的'\n',而本身字符串的段落划分可以在template中实现。del_newline方法既是一种递归的遍历方法,可以使用

document = del_newline(document)

来直接获取去除多余'\n'的新document。

10. 人工分析部分自定义和ipynb交互_第3张图片
output_5_0.png

你可能感兴趣的:(10. 人工分析部分自定义和ipynb交互)