全国计算机信息高新技术考试生物信息分析(中级)考试大纲

全国计算机信息高新技术考试生物信息分析(中级)

考 试 大 纲

第一单元 基因组学相关基础知识(8分)

1、人类基因组组成与遗传规律:DNA的分子结构、DNA复制方式、人类基因组DNA序列特征(2分);

2、基因及其表达与调控:基因的基本结构、基因的表达、基因表达的调控(2分);

3、基因突变及其生物学效应:基因突变类型、基因突变的生物学效应、基因突变的诱变因素;DNA损伤的修复(2分);

4、人类基因组学:人类基因组计划、人类基因组单体型图计划、人类DNA元件百科全书计划、人类表观基因组计划、癌症基因组图谱计划(2分)。

第二单元 测序技术相关基本知识(10分)

1、PCR技术的基本原理与流程:PCR实验原理、PCR实验流程、影响PCR循环反应体系正常运转的关键因素(2分);

2、第一代测序技术:Sanger 双脱氧末端终止法测序原理、测序特点、技术流程及优劣势;(2分)

3、第二代测序技术:五种不同测序平台(454焦磷酸测序、SOLiD 连接测序、Illumina 边合成边测序技术、Ion Torrent 半导体测序技术、华大基因Complete Genomics测序仪)的测序原理、测序特点、不同测序平台文库构建类型、不同类型文库构建原理、下机数据特点、技术流程及优缺点;(5分)

4、第三代单分子测序技术:Nanopore测序原理及流程、单分子实时(SMRT)DNA测序、文库制备、测序原理及数据读取方法。(1分)。

第三单元 生物统计学方法与原理(6分)

1、生物统计学相关基本概念及原理:生物信息分析中涉及到的均值、众数、中位数、中程数、N50、概率、误差、变量、数据分布、显著性检验、p值、相关性、离散程度等统计学基本概念。(3分)

2、常用生物数据统计方法:多重检验、假设检验、差异分析、多重矫正、数据统计特征、Lander-Waterman模型、基因组特征参数估计、数据分析结果的展示与评论(3分)。

第四单元 Linux系统的基本操作与常用命令(6分)

1.Linux 操作系统安装:个人电脑安装Linux虚拟机安装的具体流程与方法(1分);

2.Linux 操作系统基本操作:Linux操作系统安装与登录方法、简单的集群登录与操作方法(1分);

3.Linux 操作系统常用基本命令:pwd,cd,mkdir,rm,cp,mv,cat,less,wc,cut,uniq,df等常用命令(2分);

4.Linux 操作系统常用操作符号:|,>,>>等常用操作符号(1分);

5.VI编辑器的使用方法;(1分)。

第五单元 Perl 语言简单编程与数据处理分析(10分)

1、perl语言编程环境、编程语言的格式:变量、标量数据、换行符、列表与数组、哈希、正则表达式、perl语言的帮助系统(2分);

2、perl语言各命令、代码的含义及文件信息处理:文件的输入与文件输出、序列提取、子程序、统计FASTA序列文件子程序(2分);

3、perl语言的常用基本操作:利用perl读取FASTA文件中碱基序列,统计FASTA文件的CG含量,统计序列的长度分布、并对测序数据进行删除、挑取、排序等基础操作(2分);

4、在Perl程序中调用其它软件:Perl里调用R、Perl里调用BWA比对软件、Perl里调用Samtools软件、Perl里调用Soap SNP软件、Perl里调用GATK软件(2分);

5、利用perl编写简单的生物信息分析程序:(格式转换程序、利用正则表达式处理文本、基因组信息的统计、遗传漂变模拟等)(2分)。

第六单元 R语言编程、绘图及生物统计分析(10分)

1.R语言相关基础知识:R语言的历史、定义、功能、现状、优势及帮助系统;R程序的安装与运行;R语言的语法、对象及属性;(2分)

2.使用R对生物数据进行统计分析: R语言数据结构、类型及常用运算符;R数据结构——向量建立、向量运算、数组、数据框、列表、因子、 R程序设计;生物统计数据的读取与存储——数据浏览与编辑、数据读取、分析与存储;(3分)

3.R的基础绘图工具:常用绘图函数的含义、高级绘图参数、常用绘图参数、画图面板分割及图形保存(2分)

4.使用R绘制简单图形:散点图、条形图、文氏图、饼图、盒形图&频率直方图、热图的绘制方法(3分)。

第七单元 生物信息分析常用软件及分析方法(40分)

1、生物信息分析相关序列比对原理、算法、流程及软件使用方法:序列比对原理、流程及常用软件使用方法——序列比对原理与算法 、常用全局比对软件使用方法、常用局部比对软件、Blast在线软件、常用短序列比对软件 SOAP2 ;数据的质量控制及结果解读(10分);

2、基因组de novo组装:基因组de novo组装原理及常用软件使用方法——组装的概念、意义相关基础知识、mate-pair文库构建 、不同测序数据特点、组装基本思路 、overlap、Contig、scaffold、N50等基本概念、利用测序深度及泊松分布模型预估测序数据量、Kmer深度分布 、Kmer分析方法的其他应用范围 、组装的具体流程和算法、组装结果影响因素、组装常用结果评估指标、SOAP de novo 组装软件下载安装与使用方法、下机数据质量控制、基因组大小的评估&数据纠错、SOAP de novo 配置文件(10分);

3、基因组重测序:基因组重测序原理及常用软件使用方法——比对方法及常见问题说明、比对数据的质量控制,深度与覆盖度统计、变异检测、结构变异检测、突变检测数据QC、数据注释突变数据库、群体遗传突变分析(10分);

4、基因注释:基因注释原理、流程及常用软件使用方法——基因组组装结果是否符合注释要求的结果评估与质量控制、不同类型重复序列预测方法及分析流程、利用Genscan、Glimmer进行基因结构注释的软件使用方法、利用Genewise进行基因同源结构预测的流程及软件使用方法;利用tRNAscan进行ncRNA预测的操作方法、数据的质量控制及结果解读(10分)。

第八单元 生物信息分析常用数据库 (10分)

1、NCBI数据库的结构、使用方法、NCBI PubMed 文献检索方法;(2分)

2、GO功能注释数据库的组成、结构、用途及在线检索方法;(2分)

3、KEGG数据库的组成、结构、用途、在线检索方法及其生物学意义;(2分)

4、DAVID数据库的组成、结构、用途、在线检索方法及其生物学意义;(2分)

5、UCSC、UniProt、UniRef、UniPare等数据库的结构及其代表的生物学意义及其使用方法(2分)。

你可能感兴趣的:(全国计算机信息高新技术考试生物信息分析(中级)考试大纲)