人类已进入一个崭新的生物世纪,基因芯片以其无可比拟的信息量、高通量、快速、准确地分析基因的本领,在基因功能研究、临床诊断及新药开发等方面显示了巨大的威力,已成为人类捍卫生命的一大利器,被誉为是基因功能研究领域最伟大的发明之一。
【结构基因组学】研究所有基因的结构和染色体定位,用传统方法费时费力;【功能基因组学】研究基因表达调控和基因表达产物在机体发育、分化及疾病中的作用,需要在基因组尺度进行平行研究。而【基因芯片(Biochip)】的出现为解决以上问题提供了一个新的方法,该技术将大量序列已知的寡聚核苷酸固定在支持物上,与标记的样品分子进行杂交,通过检测杂交信号的强弱获取样品分子的数量和序列信息。
有关芯片数据的分析的方法介绍
DNA芯片能够同时分析大量的信息,包括单核苷酸变异多态性(Singe Nuleotide Polymorphisms,SNP)已表达序列标志(Experessed Sequence Tage,EST)和基因克隆等。用基因芯片测定细胞生长不同时期的基因表达、测定正常组织与肿瘤组织的DNA变化,测定用药前后DNA发生的变化、测定基因突变等,就可能发现新药、进行疾病的基因诊断、疾病的预报、弄清人类生物学的奥秘。因此芯片的数据分析显得尤为重要。芯片数据分析主要是通过芯片各点数据的分析比较和芯片间的数据比较来实现的。目前常用的芯片数据分析手段有直观视图分析、统计学分析和生物学分析。
1、芯片的数据归一化
在芯片实验中,各个芯片的绝对光密度值是不一样的,直接比较多个芯片表达的结果显然慧导致错误的结论,因此在比较多个芯片实验时,必须减少或消除各个实验之间的差异。最常用的方法便是芯片数据的归一化处理。归一化的方法可以用特定的对照基因或者叫做“看家基因(Housekeeping Genes)”法,或将各点光密度值或比值除以所有点的平均值法,或附带一些参数如平均值等以作为该芯片的内部对照。但至今为止仍无真正意义的理想的归一化方法,特别时对于不同实验室间的芯片数据的比较。
“看家基因”法时比较常用的方法,该法是选择一个通用基因或DNA片断作为对照基因固定在芯片上,杂交时将一定量的与之互补的荧光标记探针混合到杂交液中。这样可以将对照点信号与各样点信号比较,其比值便可消除各实验室的差异,从而达到归一化的目的。理想的对照基因应能在所有的实验中均能得到可靠的信号,且重视性好,稳定性好,易于得到推广。然而,目前还尚未找到这样的理想对照基因。
除了上述归一化方法外,为比较多个芯片表达的数据,还应严格控制每次实验的条件,如:目标DNA标记的程度、荧光激发和发射的效率、测定的条件等。使实验在相同的环境和条件下进行。
2、芯片数据的视图分析
视图分析使最简单、最直接、最直观的分析方法。通常用散点图(二维和三维)、直方图和饼图直观地显示芯片表达的结果,对于结果较为明显的数据,可以直接作出判断。
3、芯片数据的统计学分析
从芯片测定结果的大量数据中获取有用的生物学信息,统计学的处理分析是必不可少的。统计学分析已广泛用于大规模基因表达的分析。统计分析可以帮助生物学家发现新的基因、DNA序列、基因的突变位点等。目前应用于基因芯片表达数据统计分析的主要方法是聚类分析(Cluster Analysis)。聚类分析是研究事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类。其方法是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较大的归在另一类。聚类分析根据其聚类指标或计算方法分成许多种。在基因芯片表达数据分析中,应用最为广泛的是系统聚类分析(hierarchical clustering),此外还有Bayesian聚类分析,逐步聚类分析(k-means clustering),自组图分析(self-organizing maps,SOMs),二向聚类分析(two-way clustering),神经网络聚类分析(neural network clustering),组成分分析(principal component analysis),***标度分析(multidimensional scaling analysis),affinity grouping,market basket analysis,link analysis,decision trees, rule induction,genetic algorithms等统计分析手段。
系统聚类分析法是将芯片表达的数据点分配进入有严格等级的层层嵌套的子集。最相接近的数据点分成一组,并用一个新点来替换,该新点的值为此两点的平均值,其他点同样处理,然后用同样的方法进行下级处理,直至最终成为一个点,这样数据点就形成一个家谱的树状结构,树枝的长度表示两组数据的相似程度。系统聚类分析适合于具有真正等级下传的数据结构,不适合于基因表达谱可能相似的复杂数据集。
聚类分析将基因与最相关的表达谱放在一起,分析的基础是总基因组的线性相关。生物系统的有序性质可以保证聚类分析方法会揭示出生物行为的有趣特征。
Bayesian聚类分析是高度结构化的方法,适合于事先能够分配的数据集。逐步聚类分析法是完全没有结构化的方法,完全在局部范围内处理数据,产生一个无组织的簇(Cluser),比较难以理解。自组图分析允许将部分结构强加于簇中,结果直观易于理解,适合于复杂的***数据。二向聚类分析适合于高度组织化的基因表达数据。***标度分析可以显示两维欧氏(Euclidean)距离,即实验样品间的大概相关程度。主成分分析可以去定数据变化较大的点和变化的范围。
理想情况下每个簇对应于一个基因,但由于大量或低丰度的基因,可以存在一些非重叠的簇,簇的数量可能超过序列已经导出的独立基因的数量。加上软件中图象重叠对齐的误差,可能产生伪簇。对于没有明显重叠的数据,各种聚类分析产生相同的簇,但如果数据分散及相互交叉,不同的聚类分析可能产生不同结果,此时应根据生物学分析来作出推断。
生物芯片表达数据分析的软件的开发已越来越受到科学家和开发商的重视,不断有新统计方法软件推出。BioDiscovery公司开发的基因芯片表达数据分析软件GeneSightTM中和了数据库管理、系统聚类分析。神经网络聚类分析、主成分分析和时间系列分析(Time Series Analysis)等分析手段,还有直观的视图分析方法。这类软件还有Imaging Research Inc.的Array VisionTM基因芯片表达分析软件。Stanford大学还在Internet网上提供自由下载的芯片数据聚类分析软件Cluster。其网址为http://rana.stanford.edu/software。适合于多种芯片表达的数据分析。
4、芯片的生物学分析
生物学分析是根据视图分析的结果,结合生物学知识作出相关判断。时间过程分析(time-course analysis)是用较多的一种方法,可以用于分析细胞生长不同时期的基因表达、正常组织与肿瘤组织的DNA变化、测定用药前后DNA发生的变化、基因突变等。
生物芯片的数据处理目前仍在发展之中,并不断有新的技术或方法被应用,随着生物芯片的广泛应用,芯片的数据处理将日臻完善。
介绍几个芯片制造公司:
Affymetrix——生物芯片革命的领导者:1991年Affymax公司开始了生物芯片的研制,1992年从Affymax派生出来世界上第一家专门生产生物芯片的公司,即位于美国加利福尼亚圣克拉拉硅谷中心地带的Affymetrix(美国NASDAQ上市,现属葛兰素制药公司所有),Affymetrix创造了生物学和计算机等学科的惊人交叉,是目前世界上最有影响、最具领导力的基因芯片开发制造商,同时在遗传信息获得、分析、管理系统方面,也处于领先地位。
Affymetrix开发了拥有国际专利的寡聚核苷酸原位光刻合成技术,在高密度芯片领域形成了国际垄断,是目前全球唯一一家拥有成熟的商品化高密度芯片的公司。1998年生产出带有13.5万个DNA探针的芯片,目前与惠普公司联合研制每张芯片高达40万种探针的高密度芯片。Affymetrix公司的芯片加工工艺易于批量生产,只要知道了一种基因的基本结构,就可以制造出可以从任何基因的DNA探针。目前已经用于人,小鼠,酵母等多种芯片。
Affymetrix公司的芯片已经在全世界科技界得到最广泛和最可靠的应用。
Clontech公司—— Atlas Array系列,最早的尼龙膜芯片
Incyte Pharmaceuticals Inc.——基因技术综合平台的成功者
Microbionics——塑料生物芯片
摩托罗拉(Motorola)——研发传染病快速诊断生物芯片
Ciphergen公司——蛋白质芯片产业龙头
Nanogen锁定临床检验芯片
Illumina实力直逼Affymetrix
Illumina,则是相当年轻的公司,青出于蓝而胜于蓝,外界公认其非常具有潜力,最大的特色就在于它DNA芯片密度之高无人能出其右;究竟密度能有多高?Illumina将DNA片段放在一个个非常细微的小珠珠上(beads),而芯片上则设计一个个只能放一个小珠的凹槽。 靠着制作简单、芯片面积又小的技术,Illumina足以和Affymetrix抗衡,因为论价格,肯定比Affymetrix便宜多了,这也是外界看好的理由。国家人类基因组南方研究中心引进世界第三台Illumina SNP检测仪器。
2003 年5 月7 日,制药和诊断巨头罗氏(Roche)宣布到2004 年底前推出6 种基因芯片产品,用于病人诊断,检测药物反应,病毒检测,检测肿瘤危险性等。罗氏花费了7000 万美元从Affymetrix 手里获得基因芯片技术的18 年使用权。 |