人类后基因组研究进展
2006-09-17 15:47:57   来源:不详   评论:0 点击:

人类后基因组研究进展
胡波  张延静
(北京化工大学化学工程学院生物化工系,北京 100029)
 
?  摘  要  人类对自身基因组的研究不断发展,已从结构基因组学转向功能基因组学阶段。本文概述了人类后基因组的研究内容及进展状况。
    关键词  人类基因组  人类后基因组  基因治疗  基因药物  蛋白质组  基因芯片
  ?中图分类号  Q 78    文献标识码  A    文章编号  1009-4725(2003)04-0021-04
 
Progress of the Study of Human Post?genome
Hu Bo  Zhang Yanjing
(College of chemical Engineering, Beijing University of chemical Technology, Beijing 100029)
 
    Abstract  The main direction of study in genomics has been transferred from structural genomics to functional genomes. The studies of human post?genomics are reviewed including the current situation of the gene expression profile,genomic diversity,model organism,genomic comparation and evolution studied by microarray,serial analysis of gene expression,proteomics,bioinformatics,and so on.
    Key words  DNA micoarray  human genome  human post?genome  gene therapy  gene druges
??
随着人类基因组计划(HGP)的顺利进行,生物医学研究已进入后基因组时代(Post?genome era)[1]。基因组学的研究从结构基因组学(Structural genomics)过渡到功能基因组学(Functional genomics)。结构基因组学代表基因组分析的早期阶段,这个阶段以建立生物体高分辨遗传、物理和转录图谱为主。而以功能基因组学为代表的后基因组时代是利用结构基因组学提供的信息,系统的研究基因功能。它以高通量、大规模实验方法及统计与计算机分析为特征[2]。8~10万个基因的功能研究比HGP更为复杂和艰巨,必将成为下个世纪生命科学研究的主战场。后基因组研究涉及的主要内容及方法有:
   1  生物信息学(Bioinformatics)
    随着人类基因组计划(HGP)在世界范围内的展开,产生了巨量的基因信息,分析这些信息是人类基因组研究必不可少的内容。这也促成了生物信息学的发展。生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象,组织和分析呈指数增长的生物学数据的一门学科。研究DNA和蛋白质,以计算机为主要工具,发展各种软件,把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息之后进行蛋白质空间结构的模拟和预测,然后依据特定蛋白质功能进行必要的药物设计。故此,生物信息学是由数据库、计算机网络和应用软件三大部分组成,对基因组信息学、蛋白质结构模拟以及药物设计的研究为主要目的的学科。结构基因组学提供了巨大的DNA和蛋白质数据,功能基因组学的一个任务就是如何充分利用数据库去研究基因功能[3]
    生物信息学在人类基因中的应用[4]主要有:
    (1) 新基因的发现与鉴定
    使用基因组信息学的方法是发现新基因的重要手段,比如在啤酒酵母完整基因组(约1200万bp)所包含的5932个基因中,大约60%是通过信息分析得到的。
    (2)非编码区信息结构分析
    虽然对约占人类基因组 95%的非编码区的作用人们还不清楚,但从生物进化的观点看来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调控有关。应用生物信息学可以分类与确定非编码区中各种组分、寻找新的非三联体的编码方式、研究编码区和非编码区中信息调节规律等三个方面来揭示非编码区的秘密。
    (3)对生物进化的研究
    自1859年Darwin的物种起源 (Origin of Species)发表以来,进化是对人类自然科学和自然哲学发展的最重大贡献之一。自上世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。现在随着序列信息的大量出现开展分子进化的研究具有了极好时机。
    (4)完整基因组的比较研究
    在后基因组时代,生物信息学家面对的不仅是序列和基因而是越来越多的完整基因组,由此而来的比较基因组学必须通过生物信息分析法采用现代手段来完成。
    (5)大规模基因功能表达谱的分析
    大规模基因功能表达谱的分析从数学角度看不是简单的 NP问题、动力系统问题或不确定性问题,目前发展的新方法和工具无论是生物芯片还是蛋白质组技术都更强烈地依赖于生物信息学的理论、技术与数据库。
    (6) 药物设计
    传统的药物研制主要是从大量的天然产物,如动物、植物、微生物和合成有机、无机化合物中进行筛选。往往得到一个可供临床使用的药物要筛选 1万种不同的化合物,要经过 10年左右的时间和耗资 2.5~3.0亿美元。当前生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷迁移、构象变化等。理论模拟还可研究包括生物分子及其周围环境 (如水、离子等 )的复杂体系和生物分子的量子效应。这些模拟的结果为天然生物大分子的改性和基于受体结构的药物分子设计提供了依据。
    2  基因功能研究
    人类后基因组计划的关键点是基因的功能研究,这也是对功能基因加以开发利用研究的基础。主要包括以下内容:
    2.1  基因表达谱的绘制
    基因表达mRNA的水平反映了在一定环境、细胞类型、生长阶段和一定细胞状态下基因的功能信息。因此绘制所有基因的表达谱非常重要。目前,科学工作者已相继建立了mRNA差异显示、代表性差异分析、抑制性消减杂交、基因表达系列分析和cDNA微阵列等技术。新近在综合上述技术的优缺点的基础上建立的基因鉴定集成法是具有充分利用生物基因信息数据库进行基因鉴定(识别),并能提高稀有拷贝基因鉴定效率的优点[5]
    2.2  基因调控研究
    基因表达调控是功能基因组学研究的主要内容之一,不同条件下基因表达谱的变化是基因组调控的结果。这种调控直接决定了不同组织细胞中蛋白质的变化,进而影响相应的生化代谢通路的作用,最终引起一定的表型变化。所以,欲研究某一特定基因的功能,就不能不研究其表达的调控方式和机理。此外,现已知道,许多模式生物基因组虽然在长度上比人类的少,但所包含的基因数基本一致,只是少了一些非编码序列和在基因组中所处位置有所不同,这种差异造成他们表达谱的很大不同,因此,基因表达谱的差异是基因调控的不同之故。
    2.3  模式生物体和比较基因组学研究
    利用模式生物基因组与人类基因组之间编码顺序上和组织结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构,这便是比较基因组学。[6]
    所有生物都是通过一个共同的进化树联系在一起。因此研究一个生物可为其它生物提供有用的信息,其主要促进作用体现在:(1) 利用基因顺序上的同源性克隆人类疾病基因。(2) 模式生物基因组研究揭示人类疾病基因。(3) 充分利用模式生物实验系统上的优越性来为最终了解人类基因服务。(4) 模式生物基因组研究加深了对基因组结构的认识。(5) 比较基因组作图使连锁信息和基因组资源从作图较为详尽的物种转移到作图不完善的物和用于复杂性状的分析[6]
    目前与人类基因组计划同步进行的模式生物有E.coli、酵母、线虫、果蝇和小鼠,还有一些与人类生活密切相关的哺乳动物。酵母作为第一个真核生物基因组于1996年完成DNA测序; 线虫作为第一个多细胞生物基因组于1998年底完成测序[6]。而果蝇、小鼠和其它模式生物的基因组也以惊人的速度在进行。大量数据的积累将使人类对于生命以及人类自身有崭新的认识。
    2.4  功能基因组学的研究方法
    (1) 诱变技术
    定向诱变 (targeted mutagenesis) :定向诱变是利用同源重组技术,使胚胎干细胞(embryonic stem cell,ES cell)内目的基因产生定点突变,这些突变可进一步用于基因敲除、转基因动物、显性负突变等研究。最近两年发展了许多构建靶结构的新方法如酿酒酵母中微同源重组(microhomologous recombination)[7],通过PCR的方法产生一个特定的靶DNA片段,这个片段含有一个两侧带有与酵母基因同源的 35~ 50 bp作为选择性标记,就足以促进酵母的同源重组,而在小鼠ES细胞中,至少需要 19 kb的连续基因组DNA才能产生有效的同源重组。以往这种方法只用在酵母中,现在也用到小鼠上。
    表型诱变 (phenotype?driven mutagenesis)定向诱变方法是用于已知基因的突变,而表型诱变是用于未知基因,其主要优点是无需知道哪个基因以及这些基因的何种突变导致特定的表型或疾病[1]。用表型诱变剂进行诱变后,可以用筛查整个基因组的办法来寻找新的显性或隐性突变。该方法需要大量的小鼠杂交群体,工作量较大,但这种全基因组扫描法是筛查整个基因组中单一突变的最好方法,因为任何一个导致一定表型的可能突变都可以被检测出来。
    (2) 进化印记方法
    基于生物的进化历程必定会在分子序列上留下相应的进化印记,即家族特异模体和直系同源簇特异模体组成的功能特异模体。首先用严格的进化分析方法把基因家族划分成各个直系同源簇,然后构建家族及每个直系同源簇的特异模体,借助已有的生物学事实,形成功能模体库。每一个未知基因产物的功能就用搜索此功能模体库来鉴定[8]
    3  蛋白质组学研究(Proteomics)
    由于生物功能的主要体现者是蛋白质,而蛋白质有其自身特有的活动规律,仅仅从基因的角度来研究是远远不够的。蛋白质的修饰加工、转运定位、结构形成、蛋白质与蛋白质的相互作用、蛋白质与核酸的相互作用等,均无法从在基因组水平上的研究获知。1990年代中期,国际上萌发了一门在整体水平上研究细胞内蛋白质的组成及其活动规律的新兴学科——蛋白质组学(Proteomics)。
    蛋白质组 (Proteome)的概念最早是在1994年由澳大利亚 Macquarie大学的 Marc Wilkins和 Keith Williams首先提出来的。目前,美国、澳大利亚、欧洲和日本等已纷纷成立了有关的研究机构和公司,有人预测21世纪生命科学的重心将从基因组学转移到蛋白质组学。蛋白质组学以蛋白质组为研究对象,从蛋白质整体水平上来认识生命活动的规律。蛋白质组学的核心内容包括两个部分:蛋白质组研究体系的建立、完善和重要的生物学问题有关的功能蛋白质组研究[9]
    3.1  蛋白质组研究的主要手段
    相对于基因组研究的进展速度,蛋白质组的研究显得相对滞后,主要原因是研究手段中众多技术问题尚未很好解决。从这几年中对基因组全序列分析已经完成的一些低等生物蛋白质组的研究看来,目前最现实、最有效的技术是双向凝胶电泳分离纯化蛋白质,结合计算机定量分析电泳图谱,并进一步用质谱对分离到的蛋白质进行鉴定,并运用现代生物信息学的知识和技术对所得到的天文数字的数据进行处理,对蛋白质以及它们执行的生命活动作出尽可能最精细、最准确、最本质的阐述[10]。当前蛋白质组的研究可分为两个阶段:第一阶段是建立一个细胞或一个组织或一个机体在“正常”条件下的蛋白质二维凝胶图谱,或称参考图谱,即所谓“组成蛋白质组”。第二阶段则要研究在各种条件下的蛋白质组的变化,从中总结出生命活动的规律,可以称为“功能蛋白质组”。
    (1) 双向凝胶电泳
    双向凝胶电泳在1975年由 O’Farrell以及Klose和 Scheele等人发明,其原理是第一向基于蛋白质的等电点不同用等电聚焦分离,第二向则按分子量的不同用 SDS-PAGE分离,把复杂蛋白混合物中的蛋白质在二维平面上分开。近年来经过多方面改进已成为研究蛋白质组的最有实用价值的核心方法[11]
    (2) “双向”高效柱层析
    所谓“双向”高效柱层析,实际上是先进行一次分子筛柱层析,从柱上流出的蛋白峰自动进入第二向层析,通常是利用蛋白质表面疏水性质进行分离的反向柱层析[12]。这第二次分离的原理与双向电泳中利用蛋白质等电点分离完全不同,因此两种方法起到互相补充的作用。和双向电泳相比,“双向”高效柱层析的优点是可以适当放大,分离得到较多的蛋白量以供鉴定。另一个优点是流出的蛋白峰可以直接连通进入质谱进行鉴定,避免了“印迹”的步骤和因此引起的的缺点。
    (3) 质谱技术
上面所说的两种技术都是分离技术,而质谱则是鉴定技术。质谱技术的原理并不新鲜,但是在1980年代早期出现的两种新的离子化技术,使质谱从仅能分析小分子挥发物质到可以研究生物大分子,1980年代末又发明了两种更新的离子化技术,一种是介质辅助的激光解吸 /离子化 (matrix-assisted laserdesorption / ionization,MAL DI),另一种是电喷雾离子化 (electrospray ionization,ESI)。这些技术使能快速而极为准确地测定生物大分子的分子量;再结合各种新的质谱分析技术,便可以在各种水平上研究蛋白质,为蛋白质研究开辟了新的道路,使蛋白质组研究从蛋白质鉴定深入到高级结构研究,以及各种蛋白之间的相互作用研究。可以预见,未来的质谱技术必将是从基因组到其功能的各级水平的蛋白质研究的主要工具。用质谱技术可以进行的从基因组到蛋白质功能的研究可以归纳为表1[13]
 
表1  用质谱技术可以进行的从基因组到其功能的蛋白质研究[13]
问题/任务
有关的质谱技术
在基因组,蛋白序列库和EST序列库用 MAL DI或ESI?MS,ESI?MS/ MS中筛到的蛋白是已知蛋白吗?
MAL DI?PSD做肽谱,或做全蛋白的 ESI?MS/ MS
如未知,提供足够的序列信息做克隆蛋白鉴定,二级修饰,二硫键,异构体 (序列错误)
ESI?MS/ MS,MAL DI?PSD 分子量测定,再用 MAL DI或ESI?MS或 MS/ S做肽谱
高级结构 :折叠,稳定性,单体或多聚体
用 ESI?MS监测重氢交换,MAL DI?或 ESI?MS监测表面标记,非变性条件下 ESI?MS,MAL DI?MS监测交联
蛋白质何时和什么分子,怎样相互作用?
亲和技术与 MAL DI?或 ESI?MS结合,MAL DI?或 ESI?MS监测表面标记和有限水解
 
    (4) 生物信息学
当前生物信息学已经不仅是高效地进行对基因组 /蛋白组数据的分析,而且可以对已知的或新的基因产物进行全面的功能分析。例如用生物信息学对用质谱得到的肽指纹图谱 (peptide mass fingerprinting)数据分析出了一个新的在进化过程中保守的模序 (motif),它对蛋白质的结构和功能具有重要意义。用分子模建 (molecular mod?elling)揭示了在耐热菌 Thermus aquaticus的肽延伸因子 EF?Tu中的一个模序 (340~345)对维持三个结构域之间的整体构象的完整性有重要意义。肽指纹图谱原先只是一个普通的蛋白质分析技术,但通过生物信息学处理则可以得到有功能意义的结构信息,甚至预测部分蛋白质的功能。
    3.2  蛋白质组研究的应用
    蛋白质组研究在学术上的重大意义已如前述。同时,其研究成果还将在医药和工业上得到广泛应用。对人类基因组在不同病理条件下所表达的蛋白质组的比较研究,和对一些致病细菌蛋白组的研究,将对了解疾病的原因和进行防治起到决定性的作用。现在肺病杆菌的基因全序列已经测定,蛋白组的研究也已开始进行[14]。心肌肥大症的蛋白组研究也已经起动,发现了与肌肉收缩密切有关的一种肌球蛋白的过度表达[15]。农业上,育种也将从现在的通过个别基因的转移来改进个别性能,进人整体性能的改善。除人基因组外,有 50多种生物的基因组分析已经完成或即将完成。一种在 90℃生长的单细胞生物 Aquifex的基因组的信息显然将对新的工业用酶的开发作出贡献,而病原体 Staohylococusaureus基因组和蛋白质组的研究将发展新的抗菌素。可以预期蛋白质组研究必将对人类生活质量的提高和人的寿命的延长起巨大的作用。
    4  基因的应用与开发研究现状[16]
    人类基因组和后基因组的研究成果为其实际应用与开发——基因诊断、基因治疗、基因药物的开发设计打下了坚实的基础,使现代医药界能从基因入手,对各种与基因异常有关的疾病进行基因治疗和开展以基因为基础的新药开发研究,从根本上达到治愈疾病的目的。
    随着人类基因组研究成果的大量涌现,人类对发病机制的深入了解,极大推动了基因治疗研究的深入进行。目前,体细胞基因治疗已进入实施阶段,有的已进入临床Ⅱ期、Ⅲ期。性细胞基因治疗虽还有争论,且技术和理论还不成熟,但也已提到议事日程。全世界已有 21个国家开展基因治疗临床试验,90 %以上的试验都是在美国进行,现有 380个临床治疗草案,参加治疗的病人有三千多人。据估计,商业性基因治疗可能在近年进入市场,到那时基因治疗将发展成为一种常规治疗方法,象遗传病、癌症和艾滋病等目前无法医治的疾病都能从根本上治愈,到 2010年全世界遗传病基因治疗市场至少可达 38亿美元。
    人类药物发现经历了从自然界发现药物,随机筛选发现药物,到以机制为基础和以靶结构为基础的新药发现和开发过程,但由于不能在根本上从基因分子水平了解疾病发病的实质,长期以来对许多遗传性疾病没有有效治疗的药物。人类基因组研究的伟大成就,使药物的发现和开发进入了一个新的阶段。这不仅使人们对药物作用靶与发病机制的关系有了足够的认识,也使人们能以基因为基础开发设计新药。可以说,新基因的发现——新的药物作用靶的发现,为药物设计提供了生物学基础和标向,随着新基因的发现,更多的基因药物也将不断出现,相信生物医药产业也必将成为未来经济的支柱产业之一。
    收稿日期:2003-2-10
参 考 文 献
[1] Woychik R P,Klebig M L,Justice M J,et al. Functional genomics in the post?genome sra[J]. Mut Res,1998,400(1~2): 3~14
[2] Hieter P,Boguski M. Functional genomics: its all how you read    it[J]. Science,1997,278 (5338): 601~602
[3] 陈润生. 当前生物信息学的重要研究任务[J]. 生物工程进展,1999,19(4):11~12
[4] 陈润生. 当前生物信息学的重要研究任务[J]. 生物工程进展,1999,19(4):11~14
[5] 曾平耀,陈主初. 基因鉴定集成法:全基因组基因表达研究的新策略[J]. 生命科学,2000(1):15~18
[6] 吴学军,柴建华. 比较基因组学和人类基因组研究[J]. 生物工程进展,2000,20(1):57~59
[7] Manivaskam P,Weber S C,McElver J,et al. Micro?homology mediated PCR targeting in Saccharomyces cerevisiae[J]. Nucl Acids Res,1995,23(14):2799~2800[8]解涛,陈洁丁,达夫. 基因组功能预测的进化印记方法[J]. 生物化学与生物物理学报,1999 31(4):433~439
[9] 李伯良,李林吴,家睿.功能蛋白质组学[J]. 生物工程进展,1999,19[J]. (4):15~16
[10] Hum phery?Smith I et al. Proteome research: Complementarily and limitations with respect the RNA and DNA worlds[J]. Electrophoresis,1997,18:1217~1242
[11] Paper Symposium Microbial Proteomes. Presentation at the Siena 2 D Electrophoresis Meeting (16~18,Sept,1996). Electrophoresis,1997,18:August
[12] J O piteck G J et al. Comprehensive two?dimensional HPL C for the isolation of over expressed proteins and proteome mapping[J]. Anal. Biochem,1998,258:349~361
[13] Roepstorff P . Mass spectrometry in protein studies from genome to function[J]. Current Opinion in Biotechnology,1997,8:6~13
[14] Cole ST etal . Deciphering the biology of Mycobacterium tu?berculosis from the complete genome sequence[J]. Nature,1998,3 93 :537
[15] A rnott D et al. An integrated approach to proteome analysis: Identification of proteins associated with cardiac hypertrophy[J]. Anal Biochem,1998,258:1~1
[16] 舒薇,郭勇. 人类基因组及后基因组研究进展及其应用与开发研究现状[J]. 生物技术通报,2000(4):1~5
 
    【作者简介】  胡波,男,24岁,北京化工大学在读硕士研究生,主要研究方向:糖类衍生物。联系电话:13611037149。
 

相关热词搜索:人类 类后 后基 基因 因组 组研 研究 究进

上一篇:利用SAS软件优化胆固醇降解菌F-1的发酵培养基
下一篇:制药工业中的生物催化

分享到: 收藏