拆分日期时间混合数据:MM DD HH:MM:SS

有少部分数据源的存储格式比较粗狂,会导致数据分析遇到很多麻烦,例如下列中将日期和时间混合进行了存储,并且存储格式也不统一,有的日期是月份+日期+时间,有的是日期+时间。如果以这一组日期时间列进行数据分析,显然Power BI是无法进行解析的,因此需要对其进行拆分。

拆分日期时间混合数据:MM DD HH:MM:SS_第1张图片
这组数据虽然比较杂乱,但是后面显示的时间部分数据还是很规整的,都是HH:MM:SS格式。因此,可以考虑现将时间部分与日期部分进行分离。拆分可以利用M语言进行,直接在Power BI Query Editor中进行。

选择导入的时间列,然后选择按照分隔符进行拆分。
拆分日期时间混合数据:MM DD HH:MM:SS_第2张图片
选择拆分的标点是空格,拆分位置选择最右侧的分隔符,将时间部分和日期部分进行分离。
拆分日期时间混合数据:MM DD HH:MM:SS_第3张图片

搞定这一步之后就是需要考虑如何去提取日期部分。从原始数据的规律上来看,日期部分可能有月份(mons),也可能有天数(Day)。可以创建一个Month列,将原始数据中的月份值提取出来,存放在该列当中,如果某一行没有月份值,则在Month列处可以填入“0”,为后续计算服务。

按照这一思路,其实现在要做的就是对数据以空格为基准进行拆分。拆分方法详解可以参考之前的Blog:让我们愉快的切割吧 - 3: 用DAX的LEN,LEFT,SEAECH等函数拆分数据 。

拆分公式如下:

Month =
IF (
    IFERROR ( SEARCH( "mons", 'Time'[Time.1] ), 0 ) > 0,
    LEFT ( 'Time'[Time.1], IFERROR ( FIND ( "mons", 'Time'[Time.1] ), 0 ) - 1 ),
    "0"
)

加IF判断的目的是由于并不是所有行数据中都有月份值,因此如果碰到没有月份数据的行,需要填一个0做补充。这里面SEARCH函数用了IFERROR函数做包裹,原因是当直接使用SEARCH或者FIND查找字母类型字符时,如果无法找到要查找的字符,就会抛出一下错误,并且导致整个DAX函数无法返回正确结果:

The search Text provided to function ‘SEARCH’ could not be found in the given text.
在给定的文本中找不到提供给函数“SEARCH”的搜索文本。

在这里插入图片描述

解决方法有两种,一个是用IFERROR进行包裹,catch ERROR后赋值。或者是填写SEARCH函数的第四个参数,也就是指定当没有找到任何数据时,返回哪个数字。

之后IF中的LEFT函数则通过判断mons字符串第一个字符出现的位置来获取起前面的数字,以作为月份值进行存储。

拆分日期时间混合数据:MM DD HH:MM:SS_第4张图片

月份搞定之后需要提取天数值。这一部分也需要两个方面考虑,一个是在有月份基础上获取天数,实际上要做的是截取某个字符串中间位置数据。另外一方面是没有月份时,要获取的其实是从左侧截取特定位置的数据。
用DAX实现,需要使用两个IF进行嵌套,之后根据提取的mons和days位置进行相应截取即可。

Day =
IF (
    SEARCH ( "days", 'Time'[Time.1],, 0 ) > 0,
    IF (
        SEARCH ( "mons", 'Time'[Time.1],, 0 ) > 0,
        MID (
            'Time'[Time.1],
            SEARCH ( "mons", 'Time'[Time.1],, 0 ) + 5,
            LEN ( 'Time'[Time.1] )
                - ( SEARCH ( "mons", 'Time'[Time.1],, 0 ) + 5 )
                - 4
        ),
        LEFT ( 'Time'[Time.1], LEN ( 'Time'[Time.1] ) - 5 )
    ),
    "0"
)

这里面内存的IF是在有月份前提下调用MID函数来提取天数值。外层的IF则是在没有月份的情况下,使用LEFT截取左侧天数值。这样,整个拆分过程就结束了。

拆分日期时间混合数据:MM DD HH:MM:SS_第5张图片

你可能感兴趣的:(PowerBI,Power,BI玩具箱,PowerBi,Power,BI,DAX,M,语言,拆分)