YDB近似匹配使用入门

SQL是一门功能强大、简单易学的结构化查询语言。使用检索功能时,一般会指定某几个特征值,在数据库中精确查找匹配的记录。精确查询时必须为每个需匹配的特征值设置条件,缺一不可且必须保证条件正确,任何一个特征值条件设置错误都不会返回正确的结果。

而实际使用中,往往会出现信息不完全准确的情况。例如根据人的高矮、胖瘦、年龄段、性别和血型查找数据库中的记录时,如果出现信息不准确或模糊的情况,这时只需要大多数特性匹配上就可以,有一两未匹配也无关紧要。

针对上述情况,YDB引入了近似匹配的功能,实现了文本近似程度、特征匹配个数和权值匹配方法,很好的解决了不准确信息情况下的查询问题。

应用场景

下图为三种常见的近似匹配场景,从上到下为近似文本匹配、近似特征匹配和权值匹配。

近似匹配应用场景
YDB近似匹配使用入门_第1张图片

近似文本匹配

这种方法主要有两个应用场景:

一个是两个文本的近似程度匹配,该方法首先提取(需外部实现)目标文本的关键词,当待查文本包含关键词的数量超过规定的百分比后,即认为文本匹配成功。

另一种是文本分类,当存在一个标签库时,每个文本类型包含一系列标签,将这些标签作为关键词,就可以根据文本包含标签的数量对文本进行分类。

近似特征匹配

正如前面提到的,当我们根据多个特性条件查询记录时,有时不能提供全部准确的条件,而且不知道具体哪几个特征的条件是准确的,这时就要用到近视特征匹配。

这种场景常出现在紧急情况,如车祸现场受害人只能大概描述车辆的颜色、新旧程度、车型等信息,并且很有可能记忆会出错,这时使用近似特征匹配,只要多数特征符合就可以追踪到嫌疑车辆。

还有一种情况就是嫌疑目标故意更改部分特征,例如车辆使用假号牌或重新喷涂车辆颜色,都可以利用近似特征匹配方法追踪嫌疑车辆。

权值匹配

权值匹配是在近似特征匹配的方法基础上,为每个特征赋予一个权值,在满足特征匹配的基础上,成功匹配特征的权值和要大于设定值,采能认为记录匹配成功。

例如根据人的高矮、胖瘦、年龄段、性别和血型查找数据库中的记录时,可以设定至少匹配4个特征,另外为给定性别的权值为8,其它4个特征的权值为1,最小权值和为8,这就要求5个特至少匹配4个且必须包括性别特征。

使用方法

这里已三个具体的实例来演示三种匹配的使用方法。

近似文本匹配

如下图所示,字段content中文本包含标签的数据必须大于等于标签总数量的80%。

YDB近似匹配使用入门_第2张图片

近似特征匹配

如下图所示,在给定的5个特征中至少满足4个特征,才认为记录匹配成功。

YDB近似匹配使用入门_第3张图片

YDB近似匹配使用入门_第4张图片

权值匹配

如下图所示,5个特征中至少匹配4个,且匹配上的特征权值和大于等于8,才认为记录匹配成功。

YDB近似匹配使用入门_第5张图片

YDB近似匹配使用入门_第6张图片

你可能感兴趣的:(YDB近似匹配使用入门)