准备数据集用于flink学习

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

在学习和开发flink的过程中，经常需要准备数据集用来验证我们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作处理后即可用于flink学习；

如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开，因此下载体积小一些的UserBehavior.csv)：

为了便于检查数据，接下来在时间戳字段之后新增一个字段，内容是将该行的时间戳转成时间字符串

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有个问题要格外注意！！！：上述表达式中，由于83600的作用，得到的时间字符串实际上是东八区时区的时间，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能得到时间字符串，但是这个字符串是格林尼治时区，此时两个时间字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录，解决这个问题的办法就是将表达式中的83600去掉，大家都用格林尼治时区；
表达式生效后，F1的内容就是E1的时间字符串，接下来F列的所有记录都作转换，鼠标放在下图红框位置时，会出现十字架标志，在此标志上双击鼠标：

flink在处理上述数据时，由于乱序问题可能会导致计算结果不准，以上图为例，在处理红框2中的数据时，红框3所对应的窗口早就完成计算了，虽然flink的watermark可以容忍一定程度的乱序，但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无法计算，因此，需要将此CSV的数据按照时间排序再拿来使用；
如下图操作即可完成排序：

至此，一份淘宝用户行为数据集就准备完毕了，接下来的文章将会用此数据进行flink相关的实战；

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...
https://github.com/zq2599/blog_demos