Ⅰ.考查目标
近年来,随着人类基因组计划(HGP)在世界范围内的实施,产生了大量的基因组信息,分析这些信息是人类基因组研究必不可少的重要内容。基因组信息学涉及基因组信息的获取、处理、存储、分配、分析和解释等所有方面。人类基因组共有约30亿个碱基对,对如此大量的信息数据进行搜集、存储及分配是生物学领域从未遇到过的问题。这些数据中包括编码人类全部蛋白质和结构核糖核酸(RNA)的信息,以及调控这些蛋白质和核酸装配成生物体的信息。因此解读这些信息是一个很大的难题。生物信息学基础主要研究新一代测序测序技术的原理和方法、测序数据分析方法及应用、核酸序列比对、基因的功能注释与富集、复杂疾病的系统生物学研究及ncRNA的功能、ncRNA与复杂疾病的关系,蛋白质组、表观遗传和统计遗传等,也就是“读懂”人类基因组。
Ⅱ.参考书
《生物信息学》,第2版,李霞,雷健波,李亦学等,人民卫生出版社,2015年。
《生物信息学理论与医学实践》,李霞主编,人民卫生出版社,2013年。
《生物信息学》,李霞,李亦学等,人民卫生出版社,2010年。
《生物信息学》,第3版,陈铭主编,科学出版社,2018年。
Ⅲ.考试形式和试卷结构
答卷方式:闭卷,笔试,所列题目全部为必答题
答题时间:180分钟
卷面满分:150分
考试题型:名词解释(含英文)、选择题、填空题、问答题 、论述题
Ⅳ.考查内容
(一) 生物医学网络资源
【基本内容】
(一)DNA、RNA和蛋白质网络资源:序列信息资源(Ensemble、GenBank、EMBL、DDBJ、SWISS-PROT)、结构信息资源(PDB)、遗传变异网络资源(dbSNP、dbGap)等。
(二)组学数据资源:基因组学资源(UCSC)、转录组学资源(GEO、SRA、TCGA)、蛋白质组学资源(HPA)。
【基本要求】
1. 掌握常用的网络资源,能从中熟练获取DNA、RNA和蛋白质序列。
2. 掌握常用的组学网络资源,能从GEO、SRA和TCGA等项目中熟练下载数据,并会用UCSC获取常用基因元件信息,并进行可视化。
(二) 序列比对
【基本内容】
(一)序列比对:定义、描述序列相似性的指标、序列相似性及比对原理;核酸序列分析的基本步骤和方法、基因两两比对算法,局部比对搜索的策略;序列相似性及比对原理。Clustal Omega程序使用方法、多序列比对动态规划算法原理、星型比对及树形比对的基本原理。
(二)双序列比对:核酸或蛋白质序列比对所用到的几种典型的替换记分矩阵的原理、常用数据库搜索工具的原理和使用方法、定量描述序列的相似性、序列同源与序列相似、垂直同源和水平同源。常用数据库搜索工具的参数及意义。
(三)多序列比对:几类不同的多序列比对方法与适用条件、参数的设定及其意义、使用Ensembl Genome Browser和UCSC Genome Browser多序列比对与基因组数据相结合的网站。
(四)序列特征分析:原核生物基因和真核生物基因组结构特点;蛋白质结构特点;DNA序列特征及其分析方法;蛋白质序列特征及其分析方法,用于DNA序列特征分析和蛋白质序列特征分析的相关软件的使用、RNA二级结构的预测方法。
【基本要求】
1. 了解序列比对的定义,理解序列相似性及比对原理,明白全局比对和局部比对的差别,会使用描述序列相似性的指标。熟练掌握Clustal Omega程序使用方法。
2. 掌握核酸或蛋白质序列的双序列比对所用到的几种典型的替换记分矩阵的原理、常用数据库搜索工具的原理和使用方法,如何定量的描述序列的相似性、序列同源与序列相似、垂直同源和水平同源的区别。常用数据库搜索工具的参数的意义。
3.掌握几类不同的多序列比对方法,特点与适用条件,参数的设定及其意义,理解使用不同的参数进行比对可对结果产生显著的影响,并理解这种影响是怎么产生的。学会使用几个重要的多序列比对与基因组数据相结合的网站,即Ensembl基因组浏览器(Ensembl Genome Browser)和UCSC基因组浏览器(UCSC Genome Browser),这些网站所包含的大量基因组比对和基因组注释信息是非常重要的生物信息学资源。
4.了解真核生物基因结构特点;蛋白质结构特点;掌握DNA序列特征及其分析方法;蛋白质序列特征及其分析方法,用于DNA序列特征分析和蛋白质序列特征分析的相关软件的使用。
5.了解RNA二级结构的预测方法;有关序列综合分析软件的功能、运行环境、参数设计等。
(三) 新一代测序技术和工作流程
【基本内容】
(一)新一代测序分析:提出、新一代测序仪的基本技术原理、流程、特点、与芯片技术的差别、应用。生物信息学概念及其主要特征,新一代测序分析。生物信息学的应用及其在复杂疾病研究中的应用;新一代测序数据的预处理。
(二)DNA-seq:DNA测序流程、原始数据的获取、预处理、映射、组装、DNA重测序与个体变异发现、细菌基因组测序与致病性位点发现、宏基因组测序与感染性疾病分析、外显子组测序。
(三)RNA-seq:RNA测序流程、RNA-seq技术与micro-技术的比较、原始数据的获取、预处理、映射、组装、定量、差异表达的计算、非编码RNA测序。
(四)ChIP-Seq:测序流程、原始数据的获取、预处理、映射、组装、peak的识别、获取组蛋白修饰区域、获取转录因子结合区域、位置频率矩阵及位置权重矩阵的计算方法及应用、转录因子结合位点的预测及分析方法。
【基本要求】
1. 了解新一代测序技术的基本原理、流程及其与芯片数据的差异。
2. 掌握DNA-Seq数据分析流程,能够利用外显子组测序数据获得体细胞突变及其插入、缺失等遗传变异,并对变异进行序列特征以及功能分析。
3.掌握RNA-Seq数据分析处理流程,能够对RNA-Seq数据进行映射、组装以及定量,获得编码基因以及非编码RNA的表达水平。
4. 掌握ChIP-Seq数据映射组装方法,以及Peak识别方法,获得候选转录因子结合区域。
(四) 基因表达分析
【基本内容】
(一)基因表达谱芯片技术:寡核苷酸芯片的制备原理,原位合成技术的操作流程,寡核苷酸芯片的应用范畴和代表性芯片类型,cDNA微阵列概念,制备原理,基因表达谱的数据处理与分析、生物芯片技术产生背景、的功能和应用。
(二)miRNA芯片技术:miRNA表达谱的数据处理与分析,miRNA表达谱与基因表达谱的整合分析、miRNA表达芯片在复杂疾病中的应用。
(三)lncRNA芯片技术:lncRNA表达谱的数据处理与分析,lncRNA表达谱与两miRNA表达谱、基因表达谱的整合分析、lncRNA表达芯片在复杂疾病中的应用术。
【基本要求】
1. 了解基因表达芯片、miRNA芯片以及lncRNA芯片的制备流程及方法。
2. 掌握基因表达芯片数据获取、处理与分析的常用方法,能够利用基因表达芯片获取复杂疾病差异表达基因。
3. 掌握miRNA芯片数据处理分析方法,整合miRNA-mRNA表达数据分析复杂疾病中miRNA调控异常。
4. 掌握lncRNA芯片处理分析方法,利用lncRNA芯片获得差异表达lncRNA技术流程,以及整合miRNA、基因表达分析技术。
(五) 基因注释与功能分类
【基本内容】
(一)基因注释:定义、注释数据库GO和KEGG、本体论的概念和特点、GO的三个本体论、功能注释的证据、KEGG通路的特点、GO和KEGG得使用、GO和KEGG数据库产生与发展历程。
(二)功能富集:原理、常用方法、基于阈值的富集分析、无阈值的富集分析、
基因集功能富集分析方法和常用工具;功能富集分析中的常见注意事项和误区;本体论的概念。
(三)功能数据的拓展使用:基于同源预测基因的功能、基于共表达预测基因的功能。
【基本要求】
1. 了解功能数据库GO和KEGG的发展历史,构建流程、特点以及意义。
2. 掌握GO和KEGG数据获取、处理以及分析方法,能够熟练获取基因、功能、通路注释信息。
3. 了解功能注释与功能富集的差异,掌握功能富集的原理、常用方法以及工具等。
4. 掌握基因功能预测的常用方法。
(六) 复杂疾病系统生物学
【基本内容】
(一)复杂疾病的概念;复杂疾病的特点;精准医学;常用疾病基因数据库OMIM、DO等;复杂疾病系统生物学的理解。孟德尔疾病的概念及特点;基因的致病机理。
(二)癌症系统生物学:癌症的十大特征;癌症的高通量组学研究;衰老的概念;衰老与癌症的关系,常用高通量多组学数据整合分析方法。
(三)常用数据资源和研究进展:OMIM、TCGA、GWAS cataloge等。
【基本要求】
1. 了解复杂疾病与精准医学的基本概念。
2. 掌握常用复杂疾病数据库,如OMIM, TCGA等的使用方法,能够快速获取数据资源。
3. 了解癌症的十大分子特征,衰老与癌症的关系。
4. 掌握高通量组学分析研究的常用整合方法。
(七) ncRNA与复杂疾病
【基本内容】
(一)ncRNA:定义、特点、分类、miRNA及生物合成机制、lncRNA及生物合成机制、miRNA和lncRNA的区别和联系。
(二)ncRNA与靶基因:miRNA的靶基因预测算法和原理;lncRNA的靶基因预测算法和原理;高通量实验检测miRNA的靶基因;高通量实验检测lncRNA的靶基因。miRNA和靶基因数据库;lncRNA和靶基因数据库;miRNA调控生物学网络;lncRNA调控生物学网络。
(三)ncRNA与复杂疾病:miRNA和lncRNA表达的高通量检测及计算分析;识别疾病相关的新的或已知的miRNA和lncRNA;miRNA和lncRNA致病机制和功能的预测;致癌ncRNA和抑癌ncRNA的识别。miRNA和lncRNA表达检测流程的差异;预测新的lncRNA和miRNA的步骤;常用的疾病相关miRNA和lncRNA数据库。
【基本要求】
1. 了解非编码RNA的基本概念以及与复杂疾病的关系。
2. 掌握miRNA靶基因常用预测算法以及miRNA靶基因获取流程,能够提取miRNA-靶基因调控关系,并对调控网络进行系统分析。
3. 掌握lncRNA常用数据库及其靶基因数据资源,能够提取lncRNA靶基因并对调控网络进行分析。
(八) 蛋白质组学
【基本内容】
(一)蛋白质:蛋白质的组成;蛋白质的理化性质;蛋白质常用数据库;直系同源、旁系同源、相似性等概念。
(二)结构域、蛋白质家族的概念;蛋白质序列及常用数据资源。蛋白质的一级结构到四级结构的特点及区别;蛋白质motif,蛋白质结构域,蛋白质家族的概念及联系。
(三)蛋白质组学:定义、发展历程、研究内容、生物信息的历史和蛋白质组学在其中的位置;蛋白质组学的主要研究方向和领域;
(四)常用蛋白质组学数据类型,如质谱数据、RPPA蛋白芯片等;质谱等蛋白质组学数据分析流程以及分析方法。
(五)复杂疾病蛋白质组学数据资源,如CPTAC,数据获取、分析方法以及复杂疾病中蛋白质组学差异的识别以及功能分析方法。
【基本要求】
1. 了解蛋白质组学基本概念。
2. 掌握蛋白质常用序列、结构等数据库的使用分析方法,能够获取蛋白质序列、结构等数据,并利用常用分析方法预测蛋白质结构域等。
3. 了解复杂疾病蛋白质组学发展历史。
4. 熟悉RPPA蛋白芯片、质谱等蛋白组学数据的获取、预处理以及分析方法。
5. 掌握质谱等蛋白质组学数据分析方法。
(九) 蛋白质互作组信息学
【基本内容】
(一)蛋白质互作:定义、类型、物理互作、遗传互作、常用的高通量检测方法。
(二)蛋白质互作网络:常用的蛋白质互作组数据库;网络的表示方式;矩阵表示方法;行列式表示方法;
(三)拓扑指标的计算;度、度分布、无尺度网络、聚类系数、小世界网络、最短路径、拓扑系数、介数等
(四)模块的识别:模块的定义;蛋白互作网络模块的识别;蛋白质互作网络motif的识别;蛋白质互作网络的动态性分析。
(五)蛋白质组与复杂疾病:疾病基因在蛋白质互作网络中的拓扑特征和模块化特征;利用拓扑指标优化疾病基因;利用模块优化疾病基因;整合多组学数据优化疾病基因。
【基本要求】
1. 了解蛋白质互作常用实验检测方法。
2. 掌握蛋白质互作数据资源,能够获取蛋白质互作数据,并利用常见的网络表示方式对蛋白质互作进行处理。
3. 掌握蛋白质互作网络拓扑指标的计算方法及其意义。
4. 掌握蛋白质互作网络模块识别方法及应用。
5. 熟悉复杂疾病蛋白质互作网络的应用方法,如疾病基因预测以及功能分析等。
(十) 统计遗传学
【基本内容】
(一)绪论:统计遗传学的性质、研究内容、任务及其在遗传学中的地位;统计遗传学的发展史;基因作图的基本概况。
(二)群体遗传学:基本概念与原理、单核苷酸多态的基本概念、基因频率与基因型频率的概念;Hardy-Weinberg平衡定律(定律内容、定律证明、平衡检验);亲属对基因型联合分布(父子对兄弟对的基因型联合分布律);常染色体位点连锁相不平衡(连锁、交叉、重组、重组率、连锁平衡,连锁不平衡、连锁分析的基本概念)。影响群体结构的因素(迁移,突变,选择,遗传漂变和非随机交配)。
(三)关联分析:关联分析的基本原理、理论基础;基于群体数据的关联分析的基本方法:person 卡方检验;优势比的含义及其点估计和区间估计。基于家系数据的关联分析方法:传递不平衡检验(TDT检验);基于群体数据的关联分析方法:Armitage 趋势检验;全基因组关联分析方法。
(四)单体型分析:单体型的定义及应用;单体型块的定义以及单体型块的划分;标签SNP;单体型推断的方法,单体型关联分析方法。HapMap计划(一期、二期和三期)。
(五)系统遗传学中的基本方法:Gene-based关联研究方法;SNP的交互作用分析方法;pathway-based关联研究方法;网络为基础的关联研究策略。系统遗传学简介。
(六)Meta分析研究:Meta分析的基本原理,Meta分析步骤,以及常用分析软件。Meta分析在生物医学以及生物信息领域的应用,全基因组范围关联分析的Meta策略。
【基本要求】
1. 了解统计遗传的基本概念,任务以及发展历史。
2. 熟悉群体遗传学的基本概念及原理,HW平衡定律的内容以及证明。
3. 掌握常用关联分析的基本方法;单体型分析常用方法以及系统遗传学分析的基本流程及方法。
4. 熟悉Meta分析的原理、步骤以及分析软件。
(十一) 计算表观遗传学
【基本内容】
(一)计算表观遗传学概要:表观遗传学的性质、研究内容、研究目的、任务及其在生物医学领域中的地位;表观遗传学的发展史;表观遗传现象;染色质结构和功能;真核细胞的表达调控。
(二)基因组的DNA甲基化: DNA甲基化概况;DNA甲基化对转录的调控;CpG岛的特点。CpG岛及DNA甲基化的生物学意义;DNA甲基化在基因组的分布;实验方法寻找CpG岛。DNA甲基化检测的常用技术。DNA甲基化检测技术在疾病、发育过程中的应用。CpG岛预测方法的核心思想;BS-Seq数据预处理方法;高通量450K数据分析方法;常用的CpG岛预测软件;常用的BS-Seq数据处理软件
(三)组蛋白修饰的表观基因组:组蛋白修饰的生物学基础;组蛋白修饰的基因组定位;组蛋白修饰的调控基因表达。组蛋白密码;组蛋白修饰与DNA甲基化的相互作用。组蛋白修饰检测的常用实验技术。组蛋白修饰的实验技术的应用。ChIP-Seq数据的峰值探测。常用的组蛋白修饰分析工具;常用的计算表观遗传学数据库。
(四)基因组的染色质重塑和基因组印记:核小体定位的实验和计算方法;峰值分析方法;染色质重塑的假设;染色质重塑的模式;常用软件。染色质重塑复合物的功能、种类;核小体定位的意义。印记基因的识别;机器学习预测印记基因;常用数据库。基因印记的生物学基础;基因组印记的起源。
(五)计算表观遗传学与疾病:利用差异甲基化筛选识别疾病标记;利用构建DNA甲基化网络的策略识别疾病标记。癌症基因组中DNA甲基化的特征;癌症DNA甲基化网络的拓扑特征。
【基本要求】
1. 了解计算表观遗传学基本概念及其研究内容。
2. 熟悉DNA甲基化、组蛋白修饰、基因组印记基本概念及其研究内容。
3. 掌握DNA甲基化、组蛋白修饰、染色质重塑等数据处理、分析方法,能够识别复杂疾病中DNA甲基化、组蛋白修饰以及核小体定位等差异,并对其功能进行分析。
4. 掌握计算表观遗传学与复杂疾病常用分析方法及流程,软件工具等。