引力场算法及其在生物信息学中的应用
【摘要】:优化算法是当今的重要研究课题,能够从海量数据中获得所需最优解,也是极具挑战的工作。优化算法可定义如下:给定某一待解问题,求该问题的最优解,此问题一般以N元变量方程形式给出。若N远大于1,则该方程在N维空间中解的个数并不唯一,甚至是无穷个解。为获得所需方程评价标准最大值或最小值所使用的计算机方法即为优化算法,评价标准是所求问题解的集合。现实生活、生产和研究中优化算法应用相当广泛,可解决各个领域面临的诸多寻优问题,比如全球物流路径选择合理化、日程安排最优化和生产成本最小化等等。
前人对优化算法的研究已久,虽然算法目标是求得最优解,但对大规模数据却无法全局收敛,只可逼近最优解。最优算法种类繁多,有解析法、直接法、数值计算法和各种启发式搜索算法等等。其中大规模数据优化问题启发式搜索算法效果最佳,所以该方向也是研究热点与难点。启发式搜索算法目前主要包括模拟退火算法、遗传算法和粒子群算法等等。但这些算法无法解决所有问题,尤其是多峰值问题处理不佳,运算速度慢等,需要一种新算法来弥补这些缺陷。本文根据天文学的星云盘模型提出一种新型启发式搜索算法:引力场算法,并应用该模型到生物信息学的诸多领域,具体内容如下:
⑴星云盘模型描述行星形成过程:宇宙中暗星云通过各种形式组合在一起成为恒星,而宇宙灰尘则被恒星排出,在引力作用下不断凝聚并最终形成行星。将此模型通过数学建模并创新提出了引力场算法。引力场算法主要包含四个步骤,分别为灰尘初始化、灰尘分组、移动算子和吸收算子。在灰尘初始化阶段,首先要考虑解空间的维度和形式,比如求两点间距离,则两点编号所组成向量作为引力场算法灰尘,再比如求某一矩阵行列式的值,则该矩阵作为引力场算法的灰尘。然后,在灰尘的每一个维度都随机赋予一个值,但要使该分量符合解空间范围。灰尘分组算子是引力场算法的核心问题之一,分组策略较多。解空间维度是1时,可采用平均法和随机法。平均法是每一组的取值范围都相同但组内数据皆连续,随机法是指每一组取值范围不等但组内数据皆连续。当解空间维度为2时,可以采用最大公约数法和随机法。最大公约数法是将二维空间面积分解为该面积值的两个最大公约数的乘积,每一个子块成为一组。随机法只考虑其中一维数据作为分组标准,方法与一维随机法相同,另一维不作为分组标准。当解空间维度大于2时,可采用随机法和扩展随机法。随机法与二维随机法相同,只考虑其中一维数据作为分组标准,其他维不作为分组标准。扩展随机法将每一个灰尘随机赋给任意一组,每组内灰尘数据可不连续,每组灰尘数量也各不相等。扩展随机法也可用于一维和二维数据灰尘分组。移动算子是引力场算法另一个重要内容。分组结束后,计算每组内所有灰尘质量函数值并比较所有值大小,从而确定中心灰尘。每组内周围灰尘向中心灰尘方向移动,移动步伐采用两灰尘间距离乘以黄金分割数的1/10。在移动过程中,每一个周围灰尘都要受到自转系数的影响。自转是一种从中心灰尘向周围灰尘的排斥力,自转系数是发生自转的概率,自转系数随两灰尘间距离减小而增大。吸收算子指中心灰尘和周围灰尘间距离足够小时,将周围灰尘删除。若算法满足结束条件,则直接得出中心灰尘及其相应质量函数值,否则所有中心灰尘降为周围灰尘并重新分组。引力场算法通过全局极值和多极值两种方式验证,并与其他算法进行比较,结果证实引力场算法具有很高的执行效率。
⑵引力场算法已应用于基因表达聚类算法中。聚类算法所采用数据是离散形式,需要将引力场算法修改。首先,质量函数需采用两基因间距离。然后,在灰尘初始化阶段,采用待求距离的两基因编号组成的二元向量作为灰尘随机初始化值。最后,在移动算子部分,根据中心灰尘和周围灰尘相应二元素的基因编号大小关系确定周围灰尘移动方式,与连续值移动不同的是每次移动只将编号加1或减1。同时该基因对标记为使用过,因为使用过的基因对不会产生连续数据那样的非预期值,所以使用过的基因对不再计算。聚类算法通过层次聚类和非层次聚类两种聚类方式进行测试。将引力场算法结果与其他算法结果进行比较,结果证实引力场算法具有很高的执行效率。
⑶引力场算法已应用于基因调控网络构建算法中。数学模型采用微分方程模型,取值范围采用奇异值分解方法确定。奇异值分解是将基因表达值矩阵在广义逆矩阵定义下分解为三个矩阵的乘积,并以此求出网络权值矩阵的特解,进一步可求出所有可能的权值矩阵的通解。引力场算法中,最小二乘方公式作为质量函数进行优化。在灰尘初始化阶段用权值矩阵作为灰尘进行随机赋值,赋值结果需通过通解验证,若未通过需重新随机赋值。在移动算子部分,需对周围灰尘和中心灰尘N×T个对应元素进行比较,若元素值不相等,则周围灰尘元素值向中心灰尘元素值移动。得到新灰尘值后将其进行通解验证,若不能通过则重新移动,若能通过进行下一步移动。网络构建算法通过模拟数据和真实数据验证。实验证实引力场算法在基因调控网络构建算法中具有极高的执行效率。
⑷引力场算法已应用于基因表达数据的模拟算法中。通过无标度网络重连接构建算法模拟基因调控网络。通过计算得到候选父节点,以概率r选定该节点,若未选定以概率1-r选定该节点的祖先节点作为父节点,即强调中心控制节点的作用。用引力场算法模拟基因表达数据,通过奇异值分解获得表达值的解空间。灰尘采用矩阵形式,并随机初始化。在移动算子部分,周围灰尘的每个元素均向中心灰尘相应元素方向移动。用底数图验证重连接方法准确性,用三种网络构建工具包来验证引力场算法准确性。实验证实网络构建准确,引力场算法执行效率高。
综上所述,本文提出的引力场算法是一种运算速度快,执行效率高的新型启发式搜索算法。此算法可应用于生物信息学的诸多领域,包括基因表达聚类,基因调控网络构建和基因数据模拟等,执行效果良好。也可将引力场算法应用于其他领域,发展空间很大。
【相似文献】
中国期刊全文数据库
前20条
1
雷耀山,王翼飞;用FCM聚类和非参数回归方法推断基因调控网络[J];上海大学学报(自然科学版);2005年01期
2
王锐;陈洪;张彦琦;郭波涛;易东;;信息熵在基因调控网络构建中的应用[J];激光杂志;2008年01期
3
艾对元;;基因组中重复序列的意义[J];生命的化学;2008年03期
4
应文豪;王士同;;使用稳态系统和粒群优化算法进行基因调控网络推断[J];计算机应用与软件;2009年03期
5
陈颖;汪旭升;许玲莉;沈勤;王晓冬;陆璐;;基因表达数量性状定位的研究进展[J];生命科学;2009年01期
6
王珏;吴垠;陈欢;;芯片数据分析进展[J];科技风;2009年12期
7
徐挺;尹大强;;小分子RNA及其在化学品毒理学中应用的展望[J];环境化学;2011年01期
8
徐挺;赵静;胡霞林;尹大强;;环境污染物发育毒性机制研究的系统生物学方法进展[J];生态毒理学报;2011年01期
9
姜伟,李霞,郭政,饶绍奇;基因表达时间延迟调控关系识别软件ITdGR[J];生物信息学;2005年03期
10
崔光照,张勋才,曹祥红,董亚非,王延峰;基于动态贝叶斯网络的多时延基因调控网络构建[J];科学技术与工程;2005年17期
11
姜伟;李霞;郭政;李传星;王丽虹;饶绍奇;;时间延迟基因调控网络重构的决策树方法研究[J];中国科学C辑;2005年06期
12
虞慧婷;吴骋;柳伟伟;付旭平;贺佳;;基因调控网络模型构建方法[J];第二军医大学学报;2006年07期
13
宋纯鹏;王鹏程;;基因芯片新技术及其在生物和医学领域的应用[J];河南大学学报(医学版);2006年02期
14
张家军;蔡传政;王翼飞;;基因调控网络中的延滞动力学[J];应用科学学报;2007年01期
15
张宏怡;张军英;;延迟基因调控网络重构问题研究[J];西安电子科技大学学报;2007年05期
16
刘万霖;李栋;朱云平;贺福初;;基于微阵列数据构建基因调控网络[J];遗传;2007年12期
17
刘天飞;唐国庆;唐强;李学伟;;运用布尔网络模型和贝叶斯网络模型推测基因调控网络的比较研究[J];四川农业大学学报;2008年02期
18
刘岭;易东;;基因调控网络建立的生物动力学方程研究[J];第三军医大学学报;2007年08期
19
王正华;刘齐军;朱云平;;基因调控网络的模块化组织研究[J];遗传;2008年01期
20
周晖杰;;复杂网络理论在基因调控网络中的应用[J];重庆科技学院学报(自然科学版);2009年05期
中国重要会议论文全文数据库
前10条
1
王亚丽;周彤;;大规模基因调控网络因果关系的辨识[A];第二十九届中国控制会议论文集[C];2010年
2
杨仲南;;拟南芥绒毡层发育和功能基因调控网络[A];植物分子生物学与现代农业——全国植物生物学研讨会论文摘要集[C];2010年
3
蔡德培;;环境内分泌干扰物对垂体-性腺轴相关的基因调控网络的不良影响及其中药治疗的拮抗作用[A];中国生理学会消化内分泌生殖代谢生理专业委员会2011年消化内分泌生殖学术会议论文摘要汇编[C];2011年
4
周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
5
初正伟;;反SP自消费管理业务支撑方案[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
6
谢刚;黄清南;梁晓光;徐敏;;大规模非对称线性代数方程组的Krylov算法[A];中国工程物理研究院科技年报(1998)[C];1998年
7
黄家洁;;基于MODIS数据的二类水体叶绿素反演算法理论及其实现[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
8
谢坤武;陈世强;;一种分类数据的聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
9
王赟;王妙月;彭苏萍;;改进的遗传算法及其在地球物理反演中的应用[A];1998年中国地球物理学会第十四届学术年会论文集[C];1998年
10
倪少权;肖容国;陈华群;耿敬春;陈广秀;;客运专线动车组周转图编制优化的研究[A];扩大铁路对外开放、确保重点物资运输——中国科协2005年学术年会铁道分会场暨中国铁道学会学术年会和粤海通道运营管理学术研讨会论文集[C];2005年
中国博士学位论文全文数据库
前10条
1
郑明;引力场算法及其在生物信息学中的应用[D];吉林大学;2013年
2
王莉;基于动态虚拟语义社区的知识通信[D];太原理工大学;2010年
3
张律文;基因调控网络的数值研究[D];上海大学;2010年
4
王政霞;时滞基因调控网络的稳定性研究[D];重庆大学;2009年
5
张文兵;基因调控网络的随机动力学分析[D];东华大学;2012年
6
7
8
缑葵香;基于贝叶斯理论的基因调控网络建模研究[D];天津大学;2010年
10
中国硕士学位论文全文数据库
前10条
2
叶丽燕;基于自适应推进算法的多视角机动车检测技术[D];浙江师范大学;2010年
4
潘为;基因调控网络的分析与控制[D];中国科学技术大学;2011年
5
张如贝;基于微分方程模型的基因调控网络稳定性分析[D];南京信息工程大学;2011年
6
扶凌云;基因调控网络鲁棒稳定性分析[D];中南大学;2011年
8
罗嘉;一类基因调控网络的定性分析[D];武汉科技大学;2010年
10
王拓;基因调控网络的线性回归模型及其鲁棒性分析[D];西安电子科技大学;2012年
中国重要报纸全文数据库
前10条
1
张建松 张学全;我国科学家揭示白血病治疗的基因调控网络[N];中国医药报;2000年
2
任海军;中国科学家发现稻米食用品质基因调控网络[N];粮油市场报;2009年
3
张开逊;回望人类发明之路[N];大众科技报;2005年
5
通讯员 戴世勇 记者 张孔生;稻米口味有望“调控”[N];扬州日报;2010年
6
记者 王宝琳;我首次采用基因组学技术研究中药[N];科技日报;2009年
7
阿志;动手做游戏不是梦[N];电脑报;2004年
8
佚名;虚拟物流风险管理研究[N];现代物流报;2007年
9
新华;我国发现稻米品质控制基因调控网络[N];中国食品报;2009年
10
游雪晴 实习生 刘晓倩;寻找埋在“垃圾”中的财富[N];科技日报;2005年