2020-06-09-TFX Airflow(二) demo 数据分析

原文: https://www.tensorflow.org/tfx/tutorials/tfx/airflow_workshop

在之前已经完成了 TFX Airflow 安装
这里继续按照tutorial进行下一步的数据分析

  1. 我们进入页面后是这样的,里面有两个DAG
image.png
  1. 我们enable第一个taxi项目的DAG,点进去后就可以看到相应的模块(这里由于代码中注释掉了后续step所以只有一个模块被展示了出来)我们执行它(上个图里的Links下的第一个图标),执行ok后模块边缘颜色会变成深绿色!


  1. 进行数据分析
    3.1 我们进入到airflow/dags/taxi_pipeline.py将所有含有Step3的步骤都打开注释,并且刷新代代码,再进入DAG中看下,
    image.png

    我们可以看到从原来的一个模块增加了3个模块。
    image.png

这第三个模块是:

  • ExampleGen ingests and splits the input dataset.
  • StatisticsGen calculates statistics for the dataset.
  • SchemaGen SchemaGen examines the statistics and creates a data schema.
  • ExampleValidator looks for anomalies and missing values in the dataset.

3.2 我们执行DAG!


image.png

3.3 在jupyternotebook看数据分析结果
在教程: TFX Airflow 安装 中我们启动了notebook,我们进入 step3.ipynb 执行代码

image.png

这里用的数据分析工具叫做TFDV 在之后会做一些学习整理再附上链接(TODO)

注意:这里如果有代码错误的话在终端的日志和页面都会报错,注意看日志修改代码即可。

你可能感兴趣的:(2020-06-09-TFX Airflow(二) demo 数据分析)