2基因组学
基因组学
概念
基因组(Genome):一个生物体、细胞器或病毒的整套基因,即全部基因的总称(包括所有的编码区和非编码区)
基因组学(Genomics):以基因组分析为手段,对所有基因进行基因组作图、核苷酸序列分析、基因定位、时序表达模式和基因功能分析的一门科学
最终目标
1、获得生物体全部基因组序列
2、鉴定所有基因的功能
3、明确基因之间的相互作用关系
4、阐明基因组的进化规律
基因组学研究内容
结构基因组学:通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学。
功能基因组学:又称后基因组学,利用结构基因组学提供的信息系统地研究基因功能(诠释)。
基因组作图
基因组作图:在长链DNA分子(染色体)不同位置寻找特征性的标记,并将其定位在染色体的特定位置上(相对和绝对),得到遗传图和物理图
基因组测序路线
基因组作图-建立路标
像是修一条很长很长的路,首先要建立路标,确定路标在整条路上的位置,分段同时去修。
建立路标:位置必需是固定的。

人类基因组计划
目的
完成人类23条染色体的基因组作图和DNA全长序列分析,进行基因的鉴定和功能分析。确定人类基因组所携带的全部遗传信息,并确定、阐明和记录组成人类基因组的全部DNA序列。
HGP测序的技术方法
Sanger法(链终止法)测序
原理
4个反应体系中分别加入4种不同的ddNTP,浓度低于dNTP。反应终止后,分四个泳道进行电泳(聚丙烯酰胺凝胶),分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3’端的双脱氧碱基,可依次阅读合成片段的碱基排列顺序。
自动化测序仪
双脱氧核苷酸的基础上,再在碱基上加上荧光发光基团,并且AGCT 4种碱基各标一种颜色的发光基团。
只需一个反应即可完成测序。
GAP产生的原因和对策
基因组学的研究方法
(一)遗传图谱的构建
遗传图谱概念
遗传图谱:又称为连锁图(linkage map),是指基因或DNA标记在染色体上的相对位置与遗传距离,后者通常以基因或DNA片段在染色体交换过程中的分离频率(遗传分析)厘摩(图距单位:cM)来表示,cM值越大,两者之间距离越远。
基本原理及步骤
(一)基本原理
两个基因在染色体上的距离越近,它们之间发生重组的几率就越低,联系越紧密。因此,一个基因与染色体上其他已知基因之间的遗传距离由连锁紧密关系反映,而后者由两个基因的重组频率反映。
cM含义:1 cM的遗传距离表示在100个配子中两个基因有1个重组子(1%重组率)。在哺乳动物中,遗传图谱上1cM的距离大约相当于物理图谱上1,000,000 bp。
用途:通过该图谱可分清各基因或分子标记之间的相对距离与方向
(二)基本步骤
1、选用合适的遗传标记
2、遗传分析测定群体中不同个体的遗传标记情况
3、对遗传标记数据进行连锁分析(重组率),构建连锁图)
遗传标记
所有标记必须具有多态性,所有多态性本质是基因突变的结果。
1、形态学标记:直观表型
2、细胞学标记
3、生化标记
4、分子标记:特征序列,无表型标记
形态学标记
形态标记或表型标记
DNA分子标记
简称分子标记,以DNA序列的多态性作为遗传标记
DNA分子标记种类
1、第1代限制性片段长度多态性( restriction fragment length polymorphism, RFLP) 绘制连锁图。
2、第2代简短串联重复(short tandem repeats, STR )连锁图 。
3、第3代单核苷酸多态性( single nucleotide polymorphism, SNP)连锁图
限制性片段多态性(RFLP)
通过酶切多态差异判断重组(分子遗传分析)
DNA序列能或不能被某一酶酶切,相当于一对等位基因的差异。
限制性片段长度多态性(遗传距离测定)
遗传图的应用
1、确定基因在染色体上相对位置
2、对可疑疾病易感基因进行定位,从而为今后致病基因的克隆奠定基础。
由于遗传图谱分辨率和精确度有限,所以需要物理图谱来检验和补充遗传图谱。
(二)物理图谱的构建
物理作图:是利用分子杂交分析和PCR等分子生物学技术检测DNA分子,对有显著特征的序列(标记)进行直接定位
区别:遗传图谱基于遗传学分析(杂交实验,大量后代样本)
主要方法
1、限制性作图
2、荧光原位杂交(fluorescent in situ hybridization,FISH)
3、序列标记位点(sequence tagged site,STS)
限制性作图
定义:将限制性酶切位点标定在DNA分子的相对位置。
局限性:只能应用于相对较小的DNA分子(片段越大,切点越多,需要比较的片段越多,大小相似的片段会重叠在一起)。
原理:比较一条DNA分子被不同限制性内切酶切割所产生的片段大小,确定酶切位点的相对位置。
基本步骤:
第一种酶切,电泳确定DNA片段的大小。
第二种酶切,电泳确定DNA片段的大小。
上述两种酶混合处理,电泳确定DNA片段的大小。
收集上述资料进行对比组装。
两种酶切位点交替出现的区段用加减法确定其的相对位置。

荧光原位杂交技术(Fluorescence in situ hybridization,FISH)
根据碱基互补配对原则,通过特殊手段使带有荧光物质的探针与目标DNA结合,最后用荧光显微镜即可直接观察目标DNA所在的位置。对目标DNA进行定性、定量或相对定位分析(探针的位置)。
优缺点
FISH可以用于大基因组,但难于操作,数据积累慢,一次实验定位的标记不超过3-4个。
序列标记位点(Sequence tagged site, STS)
序列标记位点(Sequence tagged site, STS):指一段短的DNA序列,通常长度在100-500bp,易于识别。
基本要求:STS的序列必须是已知的STS必须在拟研究的染色体上有唯一的定位。
基本原理:
两个STS 出现在同一片段(打断)的机会取决于他们在基因组中的距离,彼此靠的越近,分离的几率越小,彼此相隔越远,分离的几率越大。
两种STS之间相对距离的估算与连锁分析的原理一样,它们之间的图距根据它们的分离频率来算。
STS序列的来源
◼ 表达序列标记 (expressed sequence tag EST) 是通过互补DNA(cDNA)克隆分析获得的短序列(基因的单克隆序列)。(mRNA逆转录而来)
◼ 简单序列长度多态性( simple sequence length polymorphism,SSLP),由1~6个核苷酸组成的基本单位重复多次构成的一段DNA,在长度上具有多态性。
◼ 随机基因组序列可以通过对克隆的基因组DNA的随机小片段进行测序或在数据库中搜寻贮存序列获得。
◼名词解释
限制性作图 、荧光原位杂交、序列标记位点、序列标记位点作图、作图试剂
◼问答
1、物理作图的主要方法有哪些?原理分别是什么?各有什么优缺点?
2、什么叫序列标记位点?序列标记位点需要具备什么条件?如何在基因组当中寻找序列标记位点?
(三)基因组测序与序列组装
有了路标就可以分段完成每一段路(即每一段DNA信息怎么排序)
第一代DNA测序方法
链终止法测序
原理
4个反应体系中分别加入4种不同的ddNTP,浓度低于dNTP。反应终止后,分四个泳道进行电泳(聚丙烯酰胺凝胶),分离长短不一的核酸片段(长度相邻者仅差一个碱基),根据片段3’端的双脱氧碱基,可依次阅读合成片段的碱基排列顺序。
聚丙烯酰胺凝胶电泳能分辨出只差一个核苷酸的单链DNA分子。
自动化测序仪
美国应用生物系统公司(Applied Biosystems,ABI)公司在Sanger法基础上开发出荧光标记的双脱氧法测序试剂BigDyeTM。
双脱氧核苷酸的基础上,再在碱基上加上荧光发光基团,并且AGCT 4种碱基各标一种颜色的发光基团。
第一代测序技术总结
开端(1977): Sanger链终止法、Gilbert降解法。
主流:荧光标记(BigDye)和计算机信号分析系统的自动测序仪
优势:
1.准确性高(高于2,3代技术),为测序行业的“金标准”;
2.每个反应可以得到700-1000bp的序列(读长),序列长度高于二代测序;
3.价格低廉(几十块),设备运行时间短,适用于低通量的快速研究项目。
局限性:
1.一个反应只能得到一条序列,因此测序通量低;
2.虽然单个反应价格低廉,大量序列的成本很高。
第二代测序技术
即高通量测序,下一代测序(Next Generation Sequencing, NGS)。
Solexa技术:一种基于边合成边测序技术(Sequencing-By-Synthesis,SBS)。
(桑格法是合成(完成后)测序)
基本过程:样品制备、成簇、测序、数据分析(完成后会产生数百万个reads, 拼装组合(计算机)成完整序列)
第二代测序总结
优势:
1.一次能够同时得到大量的序列数据,相比于一代测序技术,通量提高了成千上万倍;
2.单条序列成本非常低廉。
缺点:
1.序列读长较短,Illumina技术为250-300bp,454技术500bp左右
2.由于建库中利用了PCR(桥式)富集序列,因此有一些含量较少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR过程中有一定概率会引入错配碱基;
3.想要得到准确和长度较长的拼接结果,需要测序的覆盖率较高,导致结果错误较多和成本增加。
基因组测序的主要策略
主要有两种策略实现基因组的测序
- 全基因组霰弹法
- 逐步克隆法(重叠群法)
(一)全基因组霰弹法
也称“鸟枪法”,是将基因组DNA打成小片段进行测序,随机测序
特点:不需预先了解任何基因组的情况,即使缺少遗传图或物理图也可完成整个基因组顺序组装。

缺陷1:各个重叠群之间尚有待填的空隙(gap)
原因:
① 测序间隙:测序时遗漏的序列克隆
解决办法:通过相邻已知序列作为探针筛选已有的基因组文库(重新选择相近克隆)
② 物理间隙:载体或宿主菌选用不当而被丢失的序列
解决办法:利用其它宿主菌与载体重新构建文库
缺陷2:重复序列导致错误组装(真核生物中存在大量的重复序列)
“鸟枪法”优点:
速度快,简单易行,成本较低,可在较短时间内通过集中机器和人力的方法获得大量的基因片断。
“鸟枪法”缺点:
1.拼接组装比较困难,尤其重复序列较高的地方难度较大。
2.许多序列片段难以定位在确切的染色体上,成为游离片断;
3.许多地方由于没有足够的覆盖率而形成空缺。
—原核生物基因组更适合鸟枪法测序—
(二)逐步克隆法(重叠群法)
将基因组划分为重叠群(克隆,百万级碱基),根据相对位置(重叠)先将各个克隆首尾连接拼接。在单个重叠群中,采用鸟枪法测序,然后在重叠群内进行组装。(up to down)
主要流程

BAC文库:Bacterial Artificial Chromosome,细菌人工染色体
重叠群的排列方法
(1)STS路标构建重叠群contig
(2)染色体步移法
先从基因文库的一个克隆开始,然后从文库中寻找与之重叠的第二个克隆,再继续确定第三个克隆,依次类推。
缺点是速度缓慢,只适合小基因组或小区段染色体物理图绘制
- 重叠群法缺点:费用相对于鸟枪法要稍高一些,完成整个基因组测序周期也要长些。
- 重叠群法优点:通过这种方法得到的基因组数据是最为准确和精细的数据,也是基因组测序的最终目标。大基因组”完成图”目前大多都是通过这种方法获得的。
两种大规模基因组测序策略的比较
| 项目 | 全基因组霰弹法 | 逐步克隆法 |
|---|---|---|
| 遗传背景 | 不需要 | 需要(需构建精确的物理图谱) |
| 速度 | 快 | 慢 |
| 费用 | 低 | 高 |
| 计算机性能 | 高(以全基因组为单位进行拼接) | 低(以BAC为单位进行拼接) |
| 适用范围 | 草图 | 精细图 |
| 代表测序物种 | 果蝇、水稻 | 人、线虫 |
(四)在基因组中搜寻基因(基因鉴定)
基因组序列的注释(搜寻基因、基因功能的测定)
主要方法:
(1)根据基因结构特征搜寻基因
(2)同源基因查询搜寻基因
(3)实验分析确认基因
(五)基因功能研究
确定基因序列后,下一步是确定它的功能。
利用计算机分析基因功能
同源性推测新基因功能。
同源性分析可以给出整个基因或其中某一区段功能的有关信息。
实验分析确定基因功能
方法:改变基因状态,观察结果
系统生物学的钥匙🔑-干涉
- Loss function:基因失活(降低基因或删除基因)
- Give function: 超表达(提高基因的表达)
功能基因组学简介
基因表达谱:指构建处于某一特定状态下的细胞或组织的cDNA文库,通过大规模的cDNA测序,定性、定量分析其群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,编制成的数据表。
基因表达谱类型:
- 组织、细胞表达谱(个体的,绝对的)
- 差异的组织、细胞表达谱(不同个体,相对的)
- 诱导的细胞表达谱(干扰条件)
专用技术:SAGE分析;基因芯片
基因表达系列分析(SAGE)
SAGE, serials analysis of gene expression
在整体水平上对细胞或组织中的大量转录本同时进行定量分析,而无论其是否为已知基因。
第一,来自转录物内特定位置的一小段寡核苷酸序列(9~11bp)含有鉴定一个转录物特异性的足够信息,可作为区别转录物的标签(tag);
第二,通过简单的方法将这些标签串联在一起,形成大量多联体(concatemer),对每个克隆到载体的多联体进行测序,并应用SAGE软件分析,可确定表达的基因种类,并可根据标签出现的频率确定基因的表达丰度(abundance)。

7、PCR扩增(Ditages) PCR扩增依据Linker A和Linker B序列设计。
只有含有Linker A和Linker B的双标签才能得到有效的扩增。采用12%的聚丙烯酰胺凝胶电泳纯化PCR产物,回收扩增片段。
8、分离纯化双标签 采用锚定酶酶切回收的扩增产物,酶切产物采用12%的聚丙烯酰胺凝胶电泳回收片段,即得双标签。
9、双标签随机连接形成串联子(Concatemers) 纯化的双标签采用连接酶使之成锁链状形成不同大小的串联子。8%的聚丙烯酰胺凝胶电泳回收一定片段长度的串联子。
10、克隆串联子、测序 将串联子克隆测序载体中,测定串联子的序列。
11、计算机辅助分析 测序结果采用SAGE软件包进行分析,获得标签序列及其丰度信息,每个标签可通过与Genbank数据库进行对比,从而可确认其代表的基因。
SAGE技术总结
灵敏性
相对于经典的实验技术(EST测序法等检测不到的低丰度的基因),具有相当高的灵敏性(比EST技术的敏感度要高26倍)。
全局性
如array、PCR等,都是对已知基因设计探针来检测生物个体在不同的生理或病理状态下的基因表达水平,但对于新基因却无法推测其变化水平,都是一种封闭式的差异基因表达技术。
SAGE则不需事先知道基因的信息(开放式),就能够全局性地检测所有基因的表达。另外一个显著的特点是同时分析大量基因的转录信息提供表达谱。
基因芯片表达谱分析
将大量(400条/cm2)基因探针分子固定于载体(玻片或薄膜),然后与标记的样品分子(mRNA、cDNA、基因组DNA等)进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子数量(表达量)和序列信息(表达个体)。
步骤:
a.将寡核苷酸片段作探针,固定于固相支持物上。
b.将待检测样品与对照样品的mRNA逆转录成cDNA后,用两种不同的荧光分子(Cy3和Cy5)标记.
c. 样品与探针分子杂交,根据荧光强度检测基因表达水平。
优点:
一次性对大量(受技术限制)样品序列进行检测和分析,从而解决了传统核酸印迹杂交技术操作繁杂、自动化程度低、操作序列数量少、检测效率低等问题。




