我们发现了一种未知的语言,现只知道其文字是以 20 个字母构成的。我们已经获取了许多段由该语言写成的文本,但每段文本只是由字母组成的序列,没有标点符号和空格,无法理解其规律及含义。我们希望对这种语言开展研究,有一种思路是设法在不同段文本中搜索共同出现的字母序列的片段。语言学家猜测:如果有的序列片段在每段文本中都会出现,这些片段就很可能具备某种固定的含义 (类似词汇或词根),可以以此入手进行进一步的研究。在文本的获取过程中,由于我们记录技术的限制,可能有一些位置出现了记录错误。可能的错误分为如下三种:
1. 删失错误:丢失了某个字母;
2. 插入错误:新增了原本不存在的字母;
3. 替换错误:某个字母被篡改成了其他的字母。
第一阶段问题: 假设我们已经获取了 30 段文本,每段文本的长度都在5000–8000 个字母之间。我们希望找到的片段的长度在 15–21 个字母之间。为简单起见,我们假设文本中出现的错误只有替换错误,而且对我们要找的片段而言,在文本中每次出现时,最多只会出现 4 个字母的替换错误。请设计有效的数学模型,快速而尽可能多地找到符合要求的字母片段,并自行编撰算例来验证算法的效果。
本文针对未知语言文本中重复片段自动搜索的问题,运用了模式识别、非监督学习中的聚类算法等思想理论,构建了含有重复字母序列片段的未知语言文本模型,综合运用了 Matlab, Excel 等软件编程以及数据分析,最终能够高效、准确的找到重复出现的字母序列片段。
本文的特色是借鉴模式识别中非监督学习的思想,利用方差这一数据统计特征把未知的样本数据中具有相似特点的数据归为一类,进而搜索出重复片段。由于重复出现字母序列片段的长度,所在文本段落中的出现位置都是随机的。针对这样的随机性和未知性,先通过方差这一数据统计特性,缩小搜索范围,相比于传统的穷举遍历法可减少搜索次数近 50 倍,大大提高了搜索速度。
针对问题一,要求解决文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误的问题。首先,运用了随机取样的方法,构建了含有重复字母序列片段的未知语言文本模型,运用了Matlab 软件编写基于方差分布的自动搜索算法,再通过该算法能够搜索到重复的字母序列片段。
针对问题二,要求解决评价所编写的算法的有效性及时效性问题,运用了 Matlab软件编程求解。最终得出本文所编写的算法有较高的准确率和时效性的结论。
本文最后给出了基于方差分布的自动搜索算法的评价,客观地评价算法的优点和缺点。优点:1.提高运算速度,简化搜索过程;2.搜索到的重复字母序列片段准确性高;3. 此算法适应性强,对模型要求低。缺点:1.搜索的结果中会有一定数量的字母片段丢失;2. 当样本增长时,搜索时间将急速增长,不适用于过大的样本数量情况下的搜索。
对问题一的分析
该问题要求在文本长度在 5000-8000 个未知语言字母(未知语言的文字由20 个字母构成)之间的 30 段文本中,搜索到长度为 15-21 个字母的重复出现的字母序列片段,并且此字母序列片段中会出现 0 至 4 个字母被篡改的替换错误。首先,所研究的语言文字—字母未知,所以需要先将用已知语言的字母标记未知语言的字母。其次,实验所需的 30 段文本样本未知,我们需要建立 30 段未知语言的文本库。再次,保证每段文本中会含有重复出现的字母序列片段,同时也需要建立随机的目标字母序列片段库,并将产生的目标字母序列片段随机插入30 段文本中的随机位置。最后,根据非监督学习中的聚类算法的思想,编写程序算法,在文本中快速且多地搜索到含有替换错误的重复出现的目标字母序列片段。
对问题二的分析
由于模型一设计的算法已可以查找出问题中所要找的片段,但为了评价算法的查找能力,我们需要建立如下评价标准。我们通过实际算例验证所编写的算法的有效性及时效性。
(1) 为方便计算,假设每段文本的长度均相同;
(2) 假设希望找到的片段长度在 15-21 个字母之间;
(3) 为了简化问题,假设问文本中出现的错误只有替换错误,并且所找片段中最多只出现 4 个字母的替换错误;
(4) 为了方便提取随机样本,假设随机抽取的 30 段样本均满足均匀分布;
(5) 由于语言未知,目前已知此语言由 20 个字母构成,为了方便生成样本研究,故使用英文字母 A~T(共 20 个)代表未知语言的 20 个未知字母。
clc;
clear;
%假设有original_num段原始数据,有target_num段目标数据,有替换错误
出现(每段目标数据有一个被随机替换)
%假设原始数据长度一致,目标数据长度随机,每段原始数据随机插入随机
段不同目标数据
%生成原始数据及目标数据
original_num = 30;
original_length = 5000; %原始数据长度
target_num = 10; %目标数据段数
target_length = ceil(rand(1,target_num)*7)+14; %目标数据长度矩阵,每一
列为对应段目标数据长度,取值为15~21
Origin_Data = ceil(rand(original_length,original_num)*20);
for i=1:target_num
temp = ceil(rand(target_length(1,i),1)*20); %按长度生成每段数据
temp = [temp;zeros(21-length(temp),1)]; %将数据补零至21位(最大),
以便于合成矩阵
Target(:,i) = temp; %生成的目标数据,每一列为一段
end
temp = []; %清空temp
%初始化替换后的目标数据
for i=1:original_num
Target_after(:,:,i) = Target; %每一列为目标数据,第三维为原始数据
个数
end
%生成替换后的目标数据
for i=1:original_num
for j=1:target_num
replace_index(i,j) = ceil(rand*target_length(1,j));
replace_value(i,j) = ceil(rand*20);
Target_after(replace_index(i,j),j,i) = replace_value(i,j);
end
end
%生成插入下标,0表示不插入
Insert_index = zeros(original_num,target_num); %初始化插入位置下标
for i=1:original_num
index = 0; %当前插入下标
last_index = 0; %记录上一次插入下标
for j=1:target_num
temp = rand;
if temp>=0.5
overlap_flag = 0; %下标重叠标志位
while(overlap_flag==0)
index = ceil(rand*(original_length-target_length(1,j))); %
随机生成下标
%如果当前生成下标与上一次生成下标差大于目标数据长度,则生成有效,
防止覆盖上一次插入值
if(abs(index-last_index)>target_length(1,j))
Insert_index(i,j) = index;
overlap_flag=1;
last_index = index;
end
end
end
end
end
temp = []; %清空temp
%将目标数据随机插入到原始数据中
for i = 1:original_num
for j=1:target_num
if Insert_index(i,j) ~= 0 %只插入下标不为0的
Origin_Data(Insert_index(i,j):Insert_index(i,j)+target_length(1,j)-1,i) =
Target_after(1:target_length(1,j),j,i);
end
end
end
%%以上为随机生成的模型代码
%%以下为自动搜索算法的代码
%开始计时
tic
%采样参数
sample_length = 14; %单次采样长度
sample_count = original_length-sample_length+1; %采样次数
%存放采样后的矩阵
Origin_Data_sample = zeros(sample_length,sample_count,original_num);
%存放方差的矩阵
Origin_Data_var = zeros(original_num,sample_count);
%采样并计算方差
for i=1:original_num
for j=1:sample_length
for k=1:sample_count
Origin_Data_sample(:,k,i) = Origin_Data(k:k+sample_length-1,i);
Origin_Data_var(i,k) = var(Origin_Data_sample(:,k,i),1);
end
end
end
%计算方差分布
var_divide_num = 13; %划分端点数,划分段数=段点数-1
max_var = max(max(Origin_Data_var)); %最大方差值
min_var = min(min(Origin_Data_var)); %最小方差值
var_divide_point = linspace(min_var,max_var,var_divide_num); %计算分割
点
var_divide_center = zeros(1,var_divide_num-1);
for i=1:var_divide_num-1
var_divide_center(i) = mean(var_divide_point(i:i+1)); %计算分割中心
end
var_distribution_num = zeros(original_num,var_divide_num-1);
for i=1:original_num
var_distribution_num(i,:) =
hist(Origin_Data_var(i,:),var_divide_center); %进行分割
end
%方差分布直方图
% figure(1)
% bar(var_divide_center,A_var_distribution_num);
% figure(2)
% bar(var_divide_center,B_var_distribution_num);
% figure(3)
% bar(var_divide_center,C_var_distribution_num);
%
%对方差及其下标进行排序
var_order = zeros(original_num,sample_count);
var_index_order = zeros(original_num,sample_count);
for i=1:original_num
[var_order(i,:),var_index_order(i,:)] = sort(Origin_Data_var(i,:));
end
%生成下标重排序矩阵,按照方差分布排序,便于后续寻找下标
for i=1:original_num
for j=1:var_divide_num-1
for k=1:var_distribution_num(i,j)
var_index_reorder(k,j,i) =
var_index_order(i,sum(var_distribution_num(i,1:j-1))+k);
end
end
end
%两两按方差分布比较,位于同一方差分布段内的才进行比较,减少比较次
数
compare_count = 1;
similar_count = 1;
similar_num = 0;
for x=1:original_num-1
for y=x+1:original_num
for n=1:var_divide_num-1
for i=1:var_distribution_num(x,n)
for j=1:var_distribution_num(y,n)
error_count = 0; %初始化错误计数位
for k=0:sample_length-1
if Origin_Data(var_index_reorder(i,n,x)+k,x) ~=
Origin_Data(var_index_reorder(j,n,y)+k,y) %如果不相等则error_count+1
error_count = error_count+1;
end
if error_count>=4 %error_count>=4时,跳出
循环
break;
end
if k == sample_length-1 %k到达最大值,判断
AB相似,则记录下标
similar_index(similar_count,compare_count) = var_index_reorder(i,n,x);
similar_index(similar_count,compare_count+1) = var_index_reorder(j,n,y);
similar_index(similar_count,compare_count+2) = var_index_reorder(i,n,x)-
var_index_reorder(j,n,y);
similar_count = similar_count+1;
similar_num = similar_num+1;
end
end
end
end
end
compare_count = compare_count+3;
similar_count = 1;
end
end
%计时结束
toc