当前位置:首页 >> 其它课程 >> 生物信息学期末考试答案

生物信息学期末考试答案


一、名词 Bioinformatics:生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科 学等诸多学科的理论方法,以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行 储存、检索和处理分析,并进一步挖掘和解读生物学数据。 Consensus sequence:共有序列——决定启动序列的转录活性大小。各种原核启动序列特定区域内 (通常在转录起始点

上游-10 及-35 区域)存在共有序列,是在两个或多个同源序列的每一个位置上多 数出现的核苷酸或氨基酸组成的序列。 Data mining:数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关 系性的信息的过程。数据挖掘通常是利用计算方法分析生物数据,即根据核酸序列预测蛋白质序列、结 构、功能的算法等,实现对现有数据库中的数据进行发掘。 EST: (Expressed Sequence Tag)表达序列标签——是某个基因 cDNA 克隆测序所得的部分序列片段, 长度大约为 200~600bp。 Similarity:相似性——是直接的连续的数量关系,是指序列比对过程中用来描述检测序列和目标 序列之间相同 DNA 碱基或氨基酸残基顺序所占比例的高低。 Homology:同源性——是两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同 祖先。从足够的相似性能够判定二者之间的同源性。 Alignment:比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们 的结构、功能以及进化上的联系。或是指为确定两个或多个序列之间的相似性以至于同源性,而将它们 按照一定的规律排列。 BLOSUM:模块替换矩阵——是指在对蛋白质数据库搜索时,采用不同的相似性分数矩阵进行检索的 相似性矩阵。以序列片段为基础,从蛋白质模块数据库 BLOCKS 中找出一组替换矩阵,用于解决序列的 远距离相关。在构建矩阵过程中,通过设置最小相同残基数百分比将序列片段整合在一起,以避免由于 同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中,计算出每个残基位置的平均贡献, 使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比,产生了不同矩阵。 PAM(Point Accepted Mutation):突变数据矩阵 PAM 即可接受点突变——指 1 个 PAM 表示 100 个残 基中发生一个残基突变概率的进化距离。在序列比对中,能够反映一个氨基酸发生改变的概率与两个氨 基酸随机出现的概率的比值的矩阵。 Contig:叠连群——是指一组相互两两头尾拼接的可装配成长片段的 DNA 序列克隆群,也指彼此间 可通过重叠序列而连接成连续的、扩展的、不间断的 DNA 序列的交叠片段产物。通过比对不同的序列, 我们能够发现片段的顺序,并且 contigs 能被添加、删除、重排列来形成新的序列。 Phylogenetic tree:系统发生树又称为演化树(evolutionary tree)——是表明被认为具有共同 祖先的各物种间演化关系的树,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同 祖先,而节点间的线段长度对应演化距离(如估计的演化时间) 。它用来表示系统发生研究的结果,用 它描述物种之间的进化关系。 In Silico Cloning:电子克隆——是近年来发展起来的一门基于表达序列标签(ESTs)的快速克 隆基因的新技术,其利用种子序列从 EST 及 UniGene 数据库中搜索相似性序列,进行拼装、检索、分析 等,以此获得目标基因的全长 cDNA,在此基础上也能够实现基因作图定位。 二、问题思考 1、生物信息学这门学科是如何发展起来的? 答:生物学数据爆炸式增长 生物大分子数据库相继建立 生物技术与计算机技术并行飞速发展

Internet 的广泛应用 人类基因组计划(HGP)的推动 生物信息学的产生是生命科学发展的必然。 2、举例说明生物信息学的主要应用? 答: a. 获取各种生物的全基因组及其他数据; b. 新基因发现; c. 单核苷酸多态性分析; d. 基因组中非编码区域的结构与功能; e. 从基因组水平研究生物进化及其他遗传语言的可能; f. 全基因组的比较研究; g. 基因功能预测; h. 遗传疾病的研究以及关键基因鉴定; i. 蛋白质组学研究; j. 新药设计和定向化酶; k. 生物芯片. 3、为什么说生物信息学是大规模研究生命科学的利器? 答:生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科,是综合运用生 物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法,以互联网为媒介、数据库为载 体、 利用数学和计算机科学对生物学数据进行储存、 检索和处理分析, 并进一步挖掘和解读生物学数据。 目前,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解读。还包括:蛋白质空 间结构模拟、预测和药物分子设计;软件开发和方法学研究。未来,生物信息学将进一步揭示生命系统 的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。因此, 生物信息学是大规模研究生命科学的利器。 4、生物信息学涉及的生物大分子信息有哪些? 答:涉及的有: 1)核算序列 DNA 包括:基因组序列、基因序列、cDNA、EST、碱基修饰、DNA 功能模块/位点(如启动子、剪接体、表 达调控位点等)。 2)蛋白质 Protein 包括:氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、 3D 结构。 5、在大分子序列分析中,为何局部比对比全局比对更有意义? 答:全局比对(global alignment)——指全长序列比对,用于相似性很高的序列间的分析。 局部比对(local alignment)——指生物分子序列常常是局部具有较高的相似性,呈板块分布。 此法用于整体相似性较低的序列分析,灵敏度高。 原因: 1)全局比对是沿整个长度实现序列之间匹配的最大化,尝试对齐整个序列。而局部比对是对动态 规划算法的修改,是给两个序列之间得分最高的地方进行匹配,集中在寻找相似度高的序列的延伸。因 此相比而言, 在序列分析中将未知序列同已知序列进行相似性比较, 局部比对的准确性比全局比对更高。 因为要实现整个序列长度的相似性匹配,比起局部匹配分析带来的误差更大; 2)另外,与局部序列比对算法相比,全序列比对算法会导致一些局部序列相似性较高而全序列相 似性很小,因为全序列的平均效应而将两者的相似性漏检。一般对于 2 个未知关系的序列,使用局部序

列比对工具要比用全序列比对工具好。而对于一个较长的序列和一个较短的序列的比对,也应该使用局 部序列比对工具。 3)再则全局比对的最高分是最后一个,而局部比对的任何一个地方都可能是最高分,即任何地方 都可以是对位起始点,可见局部比对操作更为灵敏。 4)应用范围上,全局比对仅适用于相似性很高的序列间分析,而局部比对一般用于相似性较低的 序列分析,但是也可以用于高相似性序列分析,这样的分析结果会更加精准。 所以局部比对比全局比对更加有意义。 6、在大分子序列分析中,为何蛋白质的取代矩阵比核酸的取代矩阵更复杂? 答:取代矩阵(substitution matrix)的规则是“奖励匹配位点,罚扣不匹配位点” ,故又称为计分 矩阵(scoring matrix) 。核算序列分析利用碱基取代矩阵,通过相似性比对匹配与否进行打分,便可 以分析出其大致的碱基组成,特异位点等。而蛋白质序列利用其氨基酸残基取代矩阵分析,由于蛋白质 的序列组成复制,而且蛋白质的功能是通过其三维高级结构来执行的,该结构又不一定处于静态,在行 使功能的过程中,一般会发生相应的改变,所以氨基酸残基的进化取代不能简单地表述各种残基在结构 和功能上的关系,所以要对蛋白质序列进一步的分析就需要更加复杂的取代矩阵。 7、多重比对的用途?BLAST 的用途? 答:多重比对的用途主要用于: 1) 系统演化分析,解释物种之间的进化关系; 2) 基因预测; 3) 蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸; 4) 研究一个家族中的相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。 BLAST 是现在应用最广泛的序列相似性搜索工具,主要用于: 1) 新 DNA 序列的发现、定位与分析、结构和功能预测; 2) ESTs 的分析; 3) 寻找分析远源关系的蛋白质序列; 4) 实验设计如 PCR Primer,Mutagenesis Studies,构建 Profile(--谱)等; 5) 揭示相似性和同源性,发现系统发育的信息; 6) 寻找数据库中没有标注的编码区、发现保守区域、特定序列框等重要信息。 8、聚类分析的策略? 答:聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技 术。其策略方法为: 先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进 化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重 新构建比对,直到所有序列都被加入为止。 第一步:点击 File→Load Sequences 输入序列文件。 第二步:点击 Alignment 设定比对的一些参数。 第三步:点击 Alignment→Do Complete Alignment 开始序列比对。 第四步:点击 File→Save Sequence as...比对完成,选择保存结果文件的格式。 9、电子克隆比传统的实验克隆有何优势?为何能实现电子克隆? 答:电子克隆利用种子序列从 EST 及 UniGene 数据库中搜索相似性序列,进行拼装、检索、分析等, 以此获得目标基因的全长 cDNA,在此基础上也能够实现基因作图定位。 其相比实验克隆所具有的优势有: 1) 实验进程短、快捷、设备简单; 2) 成本低、得率高、针对性强等;

3) 对操作人员技术要求不高; 4) 另外运用电子克隆的方法延伸得到的 cDNA 几乎囊括了所有疑似为目的基因的 cDNA 序列。 能实现电子克隆是因为: EST 数据库的不断完善, 使得电子克隆策略已成为克隆新基因的重要方法。 从 GenBank 的核酸(nr)数据库中检索已测序列生物的目的基因,获得目的基因 cDNA 序列,以该 序列为模板对另一种未测序列生物 EST 数据库进行 BLAST 检索,获得与之部分同源的 EST 群,从中选取 一条 EST 作为种子序列 BLAST 检索该生物的 EST 数据库,将检出与种子序列同源性较高或有部分重叠的 EST 序列拼接组装为重叠群(contig) ,再以此重叠群序列重复以上 BLAST 检索过程,反复进行 EST 重叠 群序列的拼接和比对,直至检出所有的重叠 EST 或重叠群不能继续延伸,最终获得未测序列生物基因的 cDNA 全序列。 10、蛋白质分子结构的层次?相应的分析工具? 答:蛋白质一级结构分析: 1) ProtParam:蛋白质理化参数检索; 2) ProtScale:蛋白质亲疏水性分析; 3) coiled-coil 卷曲螺旋预测。 蛋白质二级结构预测:二级结构指α ‐helix,β ‐sheet,无规则卷曲(coil),motif 等组件。 预测方法: 1) 神经网络、遗传算法、机器学习等; 2) 与已知二级模板建立序列谱矩阵(profile matrix)、PSI‐BLASTP; 3) 与同源蛋白多重比对。 模式和序列谱分析:EBI:InterProScan 整合出的部分数据库有: Proside 蛋白质结构域、家族和功能位点; Pfam 蛋白质家族比对; TMHMM 跨膜区预测。 蛋白质三级结构预测: 实验测定方法:X-ray、NMR、Cryo-EM; 理论预测方法:同源建模、折叠识别、从头计算。 三、综合分析 1、DNA 序列的鉴定策略 答:鉴定三步骤: 1) 找到序列中的非编码区 编码区与非编码区显著不同,重复序列和低复杂序列排除基因的可能性,首先屏蔽掉。屏蔽重复序 列的分析程序有:RepeatMasker, XBLAST, CENSOR 等。此外,确定待检序列是否真实(载体污染,宿主 序列污染,纯度因素等) ,载体序列污染分析程序有:NCBI / VecScreen;EMBL / Blast2 EVEC。 2) 找基因 根据基因特征信号,如保守序列(启动子,CpG 岛)、起始和终止密码子、polyA,碱基频率,密码子 偏好,EST。原核生物采用可读框 ORF 检测基因非常有效。 CpG 岛的预测工具:EMBL-EBIK 的在线工具 CpGPlot; 转录终止信号的预测方式:真核生物基因末端有终止子信号,在 mRNA 终止密码子下游具有 polyA 加 尾信号 AATAAA,可用于基因终止位点的预测。在线预测工具:POLYAH; 启动子预测分析工具:TRES、Neural network、Dragon promoter finder、PromoterScan;

可读框 ORF=起始密码子 ATG——终止密码子 TGA 或 TAG 或 TAA。 开放读框的识别分析程序有:ORF Finder (NCBI), GenScan, GenomeScan。 采用 mRNA 序列预测基因:以公共数据库获得 mRNA /cDNA,从基因组序列预测基因,在线预测工具 (NCBI) Spidey。 3) 鉴定找到的基因 建立基因模型以便核对,同源性搜索增加可信度 2、蛋白质结构分析和预测的策略 答:策略为: 1) 在数据库中搜寻与蛋白质序列相似的模板; 2) 查询序列和已知三维结构的蛋白质序列的相似性比对; 3) 如果符合相似则直接进行结构比较建模; 4) 如果不相似则先进行蛋白质家族、功能域、聚类分析,再与已知的蛋白质结构比对,有关 系的才进行比较建模; 5) 若还是不相关,则对蛋白质序列进行结构分析,对可以预想出其结构的蛋白质预测其三维 结构,对无法预想出结构的蛋白质在实验室中进行进一步结构分析。

知识点 生物信息学研究的基本方法 ?生物学数据库的建立 ?生物学数据的检索 ?生物学数据的处理 ?生物学数据的利用 生物信息数据的存储格式 一般由两/三部分组成:纪录信息、特性注释、序列本身 FASTA 格式(序列最简单注释) ?序列文件的第一行是由大于符号(>)打头的任意文字说明,主要为标记序列用。 ?从第二行开始是序列本身,标准核苷酸符号或氨基酸单字母符号。通常核苷酸符号 大小写均可,而氨基酸一般用大写字母。 ?文件中和每一行都不要超过 80 个字符(通常 60 个字符) 。 GenBank 和 EMBL 数据库基本数据的格式 序列名称、长度、日期

序列说明、编号、版本号 物种来源、学名、分类学位置 相关文献作者、题目、刊物、日期 序列特征表 碱基组成 序列本身(每行 60 个碱基) PDB 格式 记录除了原子坐标外,还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。此外, 还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫 键位置等和结构有关的数据。 蛋白质序列的格式 FASTA、序列文件格式、PDB 数据格式 一次数据库 直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。 一级核酸数据库:GenBank 数据库、EMBL 数据库、DDBJ 数据库 一级蛋白质序列数据库:SWISS-PROT 库、PIR 库 一级蛋白质结构数据库:PDB 数据库 二次数据库 在一级数据库、实验数据、文献数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识 和信息的进一步整理得到的数据库。 人类基因组图谱库 GDB、转录因子和结合位点库、TRANSFAC、蛋白质序列功能位点数据库 Prosite 等。 蛋白质数据库 序列数据库(序列及其注释) : SWISS-PROT、PIR (protein information resource)、NCBI(其功能和应用范围快速拓展) 模体和结构域数据库(结构域、功能域) : PROSITE、Pfam (protein families database of alignments and HMMs) 结构数据库: PDB (protein databank) 蛋白质分类数据库: SCOP、CATH、FSSP PDB 是目前最主要的收集生物大分子(蛋白质、 核酸和糖, 以及病毒)三维结构的数据库,是通过 X 射线单 晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数 据库。 NCBI 数据库检索系统 Entrez Entrez 是 NCBI 开发的基于 WWW 的数据库检索工具,它可以用来搜索 20 多个集成在 NCBI 中的数据库信 息。 数据库搜索:BLAST & FASTA

多序列比对工具 Clustal W:对 DNA 和蛋白质进行多序列联配并且生成亲缘树的工具。 EMBL:提供在线的基于万维网界面的 ClustalW 服务: 对 Clustal W 的结果进行观察的程序为:njplotWIN95, treeview, 等 构建进化树------基于大分子序列进化 分子系统发育:DNA 在进化过程中积累突变,从而导致不同株系后代的 DNA、RNA 和蛋白质的分支。这个 原则被用于进化树的构建。 进化树构建的基本步骤 1、多序列比对(自动或手动) :用 Clustal,有些软件已整合上 Clustal, 如 MEGA。 2、确定建树方法(取代模型) :距离(UPGMA, NJ, ME)、最大节约(MP)、最大似然(ML), 3、建树; 4、进化树评估。 电子克隆 7.1 利用 UniGene 数据库进行序列电子延伸 7.2 从数据库中获取 cDNA 全长序列 7.3 序列拼接 本地拼接软件 Windows:Sequencher, DNAstar, ? Unix: CAP3, Phrap, TIGR Assembler, Velvet, ? 在线服务:CAP3 网址 7.4 基因的电子表达谱分析

7.5 核酸序列的电子基因定位分析 蛋白质序列的获取 直接测序:Edman,蛋白质组技术 翻译编码的 DAN 序列:ORF,EBI protein machine 搜索或检索数据库 同源建模是将目标序列在蛋白质结构数据库(PDB)比对搜索, 找出最好的 模板来构建新的结构, 再做能量最小化运算, 获得接近”真实”的蛋白质结构. ExPASY 提供三种生物信息学蛋白结构预测工具 1 Homology modeling;同源建模(25%以上一致性被认为有相似的结构) 2 Threading; 串线法(一致性低于 30%时) 3 ab initio 从头算(基于能量最低原则,分子力学、分子动力学) 同源建模的基本步骤 1 同源的参考蛋白搜索(PDB) 2 确定结构保守区: 如果目标蛋白有 2 个以上已知结构的参考蛋白,可将之叠加确定保守区,若仅一个有 空间结构则做多重比对. 3 蛋白主链建模: 保守区主链坐标直接来自参考蛋白的, 环区可用片段搜索或自动生成. 4 侧链安装: 在转子文库中挑选最佳残基侧链构象组合. 5 优化处理: 根据分子动力学和分子力学.(能量最小化计算) 6 合理性检测: 常用 Profiles-3D 检测. PubMed 文献检索 PubMed 是美国国家医学图书馆下属的国家生物技术信息中心(NCBI)开发的、基于 WWW 的查询系统: 1.如何理解生物信息语言的复杂性和生物信息学的局限性? 答:物体或者事物的属性,分为单一或者极度复杂,他们可通过任何方式,比如声音、光波、电波、颜 色、行为、温度、气体、形态、能量等,传递到与之关联的事物的外界,却又得到多种应答:沟通、接 纳、排斥、刺激。 2、几种常用的序列格式: ①GenBank 序列格式 ②GCC 序列格式 ③EMBL 序列格式 ④ASN.1 序列格式 ⑤PIR/CODATA 序列格式 ⑥SwissProt 序列格式 ⑦Plain/ASCII.Staden 序列格式 ⑧FASTA 序列格式 ⑨NBRF 序列格式 ⑩GDE 格式 ⑾Intelligenetics 序列格式 ⑿PDB 格式


更多相关文档:

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、 名词解释 生物信息学, 二级数据库, FASTA 序列格式, genbank 序列格式, Entrez,BLAST, 查询序列(query) ,打分矩阵(scoring matrix) ,...

生物信息学_复习题及答案(打印)

生物信息学_复习题答案(打印)_农学_高等教育_教育专区。一、名词解释: 1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,...

生物信息学复习题及答案(陶士珩)

生物信息学复习题 一、 名词解释 生物信息学, 二级数据库, FASTA 序列格式, genbank 序列格式, Entrez, BLAST,查询序列(query) ,打分矩阵(scoring matrix) ,...

生物信息学考试_模拟题2

[√] 20 课程名称:Bioinformatics(生物信息学)考试时间: 姓名: 一、 班级: 不定项选择题(每题 2 分,共 15 题,共 30 分) A.chain terminction sequencing...

生物信息学复习题及答案 西农_图文

生物信息学复习题答案 西农_理学_高等教育_教育专区。西农 生物信息 期末考试 复习题 答案 生物信息学复习题答案(陶士珩)名词解释 1. Homology (同源):来源...

南京工业大学生物信息学期末考试

南京工业大学生物信息学期末考试_院校资料_高等教育_教育专区。2016年南京工业大学生工类专业,生物信息学期末考试,后面的大题基本都来自于这份文件,选择题部分需要从...

生物信息学结业考查试卷及答案

生物信息学结业考查试卷答案_理学_高等教育_教育专区。生物信息学选修课 结业考查试卷答案生物信息学考查试卷 2013 - 2014 学年 第二学期 生命科学与技术学院...

生物信息学试题整理

生物信息学试题整理_教育学_高等教育_教育专区。生物信息学试题整理UTR 的含义是(B )。 A. 编码区 B. 非编码区 C. 低复杂度区域 D. 开放阅读框 motif 的...

2012生物信息学考试试题

二.填空题 1. 常用的三种序列格式:NBRF/PIR,FASTA 和 GDE 2. 初级序列数据...翠花-2012生物信息学复习... 13页 2下载券 2012生物信息学期末考试... 1...

生物信息学_复习题及答案(打印)

生物信息学_复习题答案(打印)_基础医学_医药卫生_专业资料。一、名词解释: 1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介...
更多相关标签:
生物信息学期末考试 | 智慧树期末考试答案 | c 期末考试题及答案 | 军事理论期末考试答案 | 飞机鉴赏期末考试答案 | 2016电大期末考试答案 | 2017高一期末考试答案 | 职场沟通期末考试答案 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com