PowerBI中如何实现高性能的模糊词根匹配

特别说名：模糊匹配并不是适用于一个常规且常用的方法，但是在一些既定场合，或者既定行业又不得不去做这类分析，模糊匹配最早我分享过Lookup+find的方法实现，最后PowerBI上线后有分享过使用dax实现的方法，很多小伙伴在雷公子的讨论群里想了解如如何通过PowerQuery数据处理的阶段就能实现这个过程，今天雷公子就给大家简单展开介绍下吧！

先看下原始数据及实现效果

原始数据1-关键词列：

image

原始数据2-关键词词根：

image

（原始词根有300多行）

实现效果：

image

几点说明：

1、模糊词根本身就是一个笛卡尔积式的数据裂变，例如，10000行原始数据，100行词根，做完这个匹配其实就需要计算100万次，所以一般方法匹配会效率低，数据量大，表格会卡死，或者刷新特别慢

2、所以本文会介绍两种方法，一种简单易些，但是效率低；另一种，看似复杂，实际上自己套用，但是性能相对高很多的方法

方法1：简单但缺效率的方法

使用场景：关键词1万行以内，词根100以内的场景

1、加载关键词及词根数据至PowerBI
2、在关键词表中添加列，输入：
Table.SelectRows(Dim地域词根,(x)=>Text.Contains([关键词],x[地域词根])){0}?

image

3、展开词根列即可
方法说明：红色圈起来的都是Dim地域词根的列，其余是关键词表的列，类似在每一个行添加一个词根表，对表就行筛选，必须符合<地域词根包含在关键词中>，筛选出来，然后{0}是取符合条件的第一行，如果需要列出所有符合的词根，则可以删除{0}，最后一个”?”是为了容错，实际使用中也可以忽略，就是后期需要做一步替换错误的操作。

方法2：复杂高效的方式

使用场景，几十万/上百万关键词，几千甚至1万的词根，具体还要看自己硬件的性能

1、加载关键词及词根数据至PowerBI
2、点击公式栏旁边的fx，输入如下公式：

= [
        数据 = List.Buffer(Table.ToRecords(源)),
        地域词根 = List.Buffer(Table.ToRecords(Dim地域词根)),
        result = List.Transform(
            数据,(x)=>[
            关键词=x[关键词],
            地域词根 = List.Select(地域词根, each Text.Contains(x[关键词],_[地域词根])){0}?]
                ),
        table = Table.FromRecords(result)
            ][table]

image

3、展开上一步操作即可完成
PS：有没有被那么长的公式吓到呢？雷公子就给大家简单解读下
方法说明：此方法是把两个表加载至内存中进行，所以性能比较高，处理数据量大的表格效率也特别高，其实看不懂，没有一点点关系，雷公子几句话教会你怎么使用
1、公式中的黄色框的部分，两者必须保持一致
2、公式中红色部分为词根表及要匹配的词根所在的列
3、公式中蓝色部分为关键词表中的关键词列的列名称，如果你的列名也叫关键词，则无需修改
是不是比较简单？通过这个案例给大家一个提醒，就是我们在学习过程中，可以把一些复杂的问题封装为模块，在需要使用的时候直接拿来调用，更改参数即可，当然这个功能，我们也可以封装为自定义函数，未来有机会再给大家介绍，欢迎大家持续关注【Powerbipro】，powerbi.cc，了解学习更多powerbi相关知识。

PowerBI中如何实现高性能的模糊词根匹配

先看下原始数据及实现效果

原始数据1-关键词列：

原始数据2-关键词词根：

实现效果：

几点说明：

方法1：简单但缺效率的方法

方法2：复杂高效的方式

你可能感兴趣的:(PowerBI中如何实现高性能的模糊词根匹配)