Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling

摘要:设计gc含量恒定且满足寡核苷酸与Watson-Crick互补物之间汉明距离约束的大型寡核苷酸文库,对于降低杂交错误具有重要意义DNA计算,DNA微阵列技术,分子条形码技术。人们研究了构建这种寡核苷酸库的各种技术,从通过随机局部搜索的算法构建到通过编码理论的理论构建。提出了一种新的随机局部搜索方法,提高了搜索效率

化学合成的寡核苷酸(短单链DNA)作为DNA微阵列技术中的探针[3]、[4]和分子条码[5]-[7]中的标记,是DNA计算[1]、[2]信息存储的重要结构。DNA在这些应用中的关键特性是寡核苷酸与它们的沃森-克里克互补物特异性杂交并形成稳定的双链[8]的趋势。

为了降低寡核苷酸文库错误杂交的概率,必须满足的基本约束条件中,以下是特别重要的:
(i)文库中的两个寡核苷酸必须不同。
(ii)库中的寡核苷酸必须不同于库中的另一个寡核苷酸(Watson-Crick)的补体。
(iii)文库中每个寡核苷酸都有相似的熔化温度。
(iv) 寡核苷酸不能以使其失去化学活性的方式折叠回自身。

摘要针对寡核苷酸序列设计问题,提出了一种新的随机局部搜索方法。该方法得到了许多破纪录的寡核苷酸文库。通过计算图上最大群的穷举搜索算法,得到了几个最优寡核苷酸库.
2,定义&符号
我们将寡核苷酸建模为字母表上的序列
Σ= { A、C、G、T }。
如果σ∈Σn,序列的元素的位置i,用σi来标示σ。两个序列之间的汉明距离σ,τ∈Σn,表示dH(σ,τ),,也就是说位置的数量是不同的,当σ和τ不相同
d H (σ,τ) = |{1 ≤ i ≤ n : σ i 6= τ i }|.

We model oligonucleotides as sequences over the alphabet
Σ = {A,C,G,T}. If σ ∈ Σ n , the element in position i of the
sequence σ is denoted σ i . The Hamming distance between
two sequences σ,τ ∈ Σ n , denoted d H (σ,τ), is the number of
positions where σ and τ differ, that is,
d H (σ,τ) = |{1 ≤ i ≤ n : σ i 6= τ i }|.

Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling_第1张图片
image.png

Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling_第2张图片
image.png

此后,小写的希腊字母被用来表示寡核苷酸,如果没有其他说明,则假定它们属于一个通用集合ζ.
一个n-m的寡核苷酸库ζ ⊆ Σ n满足所有要求、


Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling_第3张图片
image.png

被称为一个 (n,d,w)-DNA密码。注意,第二个约束也同样为了τ=σ。如果ζ⊆Σn只满足汉明距离与恒gc含量约束,我们称ζ为弱(n,d,w)-DNA密码。

三。设计了一种算法
用于确定大小为A的(n,d,w) DNA编码的随机局部搜索算法通常采用以下框架。我们从一个子集开始ζ⊆ Σn 然后我们反复修改ζ,直到我们得到一个长度为A的(n,d,w) DNA code。修改步骤包括移动ζ到一个随机的邻域ζ’, 其接受概率由其接近大小为A的(n,d,w)-DNA编码决定。设计DNA编码随机局部搜索算法的关键在于:

1.良好的初始化程序;

2.N(ζ)为ζ的邻域;

3.成本(ζ),表示ζ与解决方案的接近程度;

4.f,接受概率函数;

5.合理有效的stop标准

你可能感兴趣的:(Improved Lower Bounds for Constant GC-Content DNA Codes Yeow Meng Chee and San Ling)