写给自己看的遗传学,从经典遗传学规律基因

文章来源:视网膜劈裂(症)   发布时间:2021-4-27 16:24:12   点击数:
 裂变式营销求职招聘QQ群 http://www.uribu.net/fengshang/xinchao/1013.html
写给自己看的遗传学:经典遗传学规律遗传学,起初是研究生物体形态、生理、行为特征的遗传和变异规律的学科,可以说是经典遗传学,经典遗传学的奠基人是修道院的孟德尔。后来,随着基因研究的深入,遗传学开始研究基因和基因组的结构与功能。因此,对于经典遗传学,这里只谈三个定律:孟德尔的分离定律和自由组合定律,以及摩尔根的连锁互换定律。高中生物其实已经学过,本文只是重新讲一遍凑字数罢了。1.分离定律:孟德尔种植豌豆。豌豆自花传粉,闭花受精。野生状态下,开红花的豌豆,后代都是红花;开白花的豌豆,开的都是白花。孟德尔将红花和白花的豌豆植株杂交(这两株植株就叫亲代),也就是在开花前把花苞掰开,除去雄蕊,然后在雌蕊柱头上涂上不同颜色的豌豆花花粉,由此长出的豆荚中的豌豆和将其种下去长出的植株就叫子一代(F1)。有趣的事发生了,他发现,不论是红花授粉给白花,还是白花授粉给红花,F1代全部都开出了红花。像这样具有一对相对性状(红花和白花)的纯合亲本进行杂交,F1代为杂合体,其中一个形状表现出来(红花),另一个则暂时不表现(白花),表现出的那个亲本的性状(红花)就是显性性状,另一个性状(白花)就是隐性性状。当然,也存在一些显隐性区别不那么明显的例外,比如共显性、不完全显性、镶嵌显性等,这个之后再说。让F1代红花植株自花传粉,得到的豌豆和再将其种下去长出的植株就叫子二代(F2)。F2中,又出现了表现隐性性状——白花的植株,这就叫分离。F2中的显性性状(红花)植株和隐性性状(白花)植株的数量比例为3:1。对于一对完全显性的性状,两个纯合亲本杂交,F1代只表现显性性状,F2代性状以显性3:隐性1的比率出现。这就是所谓的分离定律:在配子形成时,纯合子中相同染色体上占有同一基因位置的、分别来自双亲的两个基因会发生分离,其结果是杂种子二代(F2)和回交一代(B1,子一代和亲本杂交)中性状都会发生分离。分离定律的实质是:同源染色体上的控制同一性状、不同表现形态的基因,称为等位基因,它们在体细胞中成对存在,且不相融合;一对等位基因在配子(生殖细胞)形成时彼此分开,分别进入不同的配子中,随配子遗传给后代。开红花的基因是N,开白花的基因是n。那么红花豌豆亲本基因型就是NN,白花豌豆亲本基因型就是nn。二者杂交,F1代基因型是Nn,N是显性,所以开红花。F1代产生两种配子,N和n。F1自交,雌雄配子数目相等,随机结合,生成NN、Nn、nN和nn四种F2代基因型,数量各占1/4。只要豌豆基因型里面有N,就开红花,所以说F2代中红花:白花=3:1。2.自由组合定律:现在,孟德尔找到两株豌豆植株,当作亲本。其中一个子叶黄色而豆粒饱满,另一个子叶绿色而豆粒皱缩。按照之前分离定律的理解,子叶颜色由一对等位基因控制,暂时记作Z和z;同理,豆粒基因饱满与否,记作B和b。实验的两个亲本,一个基因型是ZZBB,产生ZB的配子;另一个则是zzbb,产生zb的配子。杂交后得到F1代,基因型ZzBb,表现为黄色子叶,豆粒饱满。F1代自花授粉,产生四种雌雄配子:ZB、Zb、zB、zb,生成数目为1:1:1:1。雌雄配子自由组合,产生F2代。根据前面所说的显隐性,可以把F2代性状总结为黄色子叶和豆粒饱满、黄色子叶和豆粒皱缩、绿色子叶和豆粒饱满、绿色子叶和豆粒皱缩比例为9:3:3:1。这两对相对性状中,任何一对单独拿出来都是符合分离定律的。至此,我们已经了解了什么是自由组合定律:具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的非等位基因表现为自由组合。自由组合定律的实质是:一对染色体上的等位基因与另一对染色体上的等位基因的分离或组合是彼此间互不干扰的,各自独立地分配到配子中去。3.连锁互换定律:摩尔根的实验室中出现了一只白眼雄果蝇。野生的果蝇眼睛通常是红色的。摩尔根让这只白眼雄果蝇与红眼雌果蝇交配,得到的F1代全是红眼果蝇。似乎和孟德尔定律没什么区别嘛!无非就是证明红眼是显性性状罢了。摩尔根让F1代果蝇互相交配,发现F2代确实红眼和白眼数量比例为3:1。然而,F2代雌果蝇全是红眼的,雄果蝇中红眼和白眼数量比例为1:1。摩尔根还将最开始那只白眼雄果蝇与F1代红眼雌果蝇,红眼雄果蝇、红眼雌果蝇、白眼雄果蝇、白眼雌果蝇的比例为1:1:1:1。这是巧合吗?经过一番研究,摩尔根给出了这样的解释:雌果蝇有两条X染色体,雄果蝇有一条X染色体和一条Y染色体。控制白眼的基因w是隐性基因,控制红眼的基因W是显性基因,这两类基因都是位于X染色体上的(一条X染色体上只有W或w基因中的一个);Y染色体上没有相对应的控制果蝇眼睛颜色的等位基因。因此,白眼雄果蝇的基因型是X(w)Y,与它交配的亲本野生红眼雌果蝇的基因型是X(W)X(W)。摩尔根和他的同事由此总结出了连锁和互换定律:位于一对同源染色体上的两对(或两对以上)等位基因,在向下一代传递时,同一条染色体上的不同基因连在一起不相分离的现象,叫做连锁。同一条染色体上的两个基因大部分是连锁的,有一小部分的同一染色体上基因会发生交换,产生了不符合孟德尔定律的性状比例。连锁和互换定律的本质是:在进行减数分裂形成配子时,位于同一条染色体上的不同基因,常常连在一起进入配子;在减数分裂形成四分体时,位于同源染色体上的等位基因有时会随着非姐妹染色单体的交换而发生交换,因而产生了基因的重组。最后来谈几个简单的概念。第一个,具有相对性状的纯合亲本杂交,后代出现介于双亲之间的性状,这就是不完全显性。不完全显性的典型例子就是PTC(苯硫脲)尝味实验。PTC这个化合物是苦的,尝味能力由一对等位基因决定,这里表示成T和t好了。T对t不完全显性。TT的人可以尝到1/~1/mol/L的PTC溶液的苦味,tt的人只能尝出1/mol/L的PTC溶液的苦味,因此tt的人被称为“PTC味盲”。而Tt的人对于PTC的尝味能力较低,只能尝出1/~1/mol/L的PTC溶液的苦味。T基因和t基因的显隐性关系就没那么明显,不是说有了T基因的人尝味能力就一定一样了,还是有区别的。第二个,控制一对相对性状的等位基因,可以各自在身体的不同部分分别表现出显性,这就是镶嵌显性,由谈家桢先生发现。亚洲异色瓢虫鞘翅上有很多色斑变异。鞘翅底色是黄色的,有的是前缘带黑色,有的是后缘带黑色。这两种瓢虫杂交的F1代表现为鞘翅的前后缘都有黑色。第三个,一对等位基因在杂合个体中都呈显性,都显现出来,这就叫共显性。例如ABO血型,控制ABO血型的基因有三个,I(A)、I(B)和i。I(A)I(A)和I(A)i都是A型血,I(B)I(B)和I(B)i都是B型血,I(A)和I(B)都对i呈显性。但当基因型为I(A)I(B),I(A)和I(B)都表现为显性,血型为AB型。而像ABO血型这样的,群体中不同个体,同源染色体相同位点上存在大于两种等位基因的情况,就叫做复等位基因。但是任何一个二倍体个体,最多只能具有复等位基因中的两个不同的等位基因。写给自己看的遗传学(二):DNA和RNA所谓基因,就是能产生一条多肽链或功能RNA所需的全部核苷酸序列。绝大多数情况下,基因指的是DNA的其中一段序列,但是从广义上讲,“RNA病毒的基因”指的是RNA,照这么讲RNA也该算是基因。因此本篇主要讲DNA的基本结构,顺带提一下RNA的基本结构。DNA由碱基、脱氧核糖和磷酸组成,碱基和脱氧核糖结合成脱氧核糖核苷,糖分子再跟磷酸分子结合形成脱氧核糖核苷酸,碱基分四种:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)、T(胸腺嘧啶)。RNA由碱基、核糖和磷酸组成,同DNA一样,碱基和核糖结合成核糖核苷,糖分子再跟磷酸分子结合形成核糖核苷酸,碱基分四种:A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)、U(尿嘧啶)。脱氧核糖核苷酸和核糖核苷酸都是通过磷酸二酯键连接成长链的。1.DNA的基本结构先讲DNA。绝大多数DNA分子都是由两条碱基互补的单链构成,呈线性或者环状;只有某些噬菌体或病毒的DNA是以单链形式存在的,例如猪圆环病毒。DNA分子的糖-磷酸位于外侧、碱基位于内侧、一条链上的碱基和另一条链上的碱基通过氢键配对形成的反向平行双螺旋结构,我已经不想多作叙述。就DNA的碱基数量而言,A=T,C=G。而A和T总是通过2个氢键相连接,C和G则通过3个氢键相配对。高温或者较高的pH值下,DNA分子的氢键遭到破坏,双螺旋解开,形成两条互补的单链,这个过程叫做变性。变性后的互补链缓慢冷却,又会重新连接成规则的双螺旋结构,这个过程叫做复性。A和T之间的氢键数量较少,因此A-T的变性和复性比C-G容易。关于DNA变性的现象研究发现,含有DNA的溶液的最大紫外光吸收波长在nm处,而且双螺旋DNA的吸光值大大低于单链DNA——这是因为单链DNA暴露出了更多的共轭双键。DNA变性就是解开双链的过程,当DNA溶液的温度逐渐升高到水的沸点附近时,溶液在nm处的吸光度也逐渐增加,这就叫做增色效应。反之则叫做减色效应。实验室往往通过检测DNA溶液的紫外吸光度来监测DNA的变性过程。将温度相对于nm处吸光度作图,得到的就是DNA的解链曲线。在一个很窄的温度范围内,DNA溶液的吸光度会急剧上升。人们把吸光度增加到最大值一半时的温度称为DNA的解链温度,也叫DNA的熔点(Tm)。DNA的Tm值和DNA的长度、碱基的GC含量等因素有关。G+C碱基的含量越高,DNA的Tm值就越高(G-C连有三个氢键,堆积力较大);溶液的离子强度越高,Tm值也越高(溶液中的阳离子可以中和DNA的负电荷使其稳定);DNA均一性越高,解链温度的范围就越小。DNA的一级结构,就是指4种核苷酸的连接及排列顺序。碱基在长链中的排列是千变万化的,这也就构成了DNA分子的多样性。而DNA的二级结构,就是两条多核苷酸链反向平行盘绕的双螺旋结构。二级结构大概可以分成两类:一类是右手螺旋,最常见的是B-DNA结构,其次常见的是A-DNA结构;另一类是左手螺旋,即Z-DNA。B-DNA结构是DNA钠盐在较高湿度下的结构,既规则又稳定,是普遍存在的,富含A-T的DNA尤其常常呈现出B-DNA的结构。B-DNA链间有螺旋形的凹槽——小沟(约1.2nm交叉)和大沟(约2.2nm交叉),相邻碱基对平面间距0.34nm,以3.4nm为一个结构重复周期,双螺旋直径2.0nm。换言之,每圈螺旋包含10对碱基。A-DNA则是相对湿度在75%以下时会出现的结构,螺旋宽而短,倾斜大,偏向双螺旋的边缘,具有一个深窄的大沟和宽浅的小沟。当DNA处于转录状态时,DNA模板链和它转录所得到的RNA链之间形成的双链就是A-DNA。两条RNA互补链形成的双螺旋结构也是A-DNA。Z-DNA细长,大沟平坦而小沟深窄,核苷酸构象顺反相间,每圈螺旋有12对碱基。dT-dG的多聚家族就是这种构象,该家族是一种短的重复序列,嘌呤和嘧啶交替排列。Z-DNA可以调控转录,它一般在邻近转录区域的调节区域,就像是机场跑道边的塔台。只有当它变成B-DNA构象的时候,转录才能够得到开始的指令。DNA的高级结构是DNA双螺旋进一步扭曲盘绕形成的特定空间结构,包括超螺旋、线性双链纽结、多重螺旋等等,其中以超螺旋最为常见。超螺旋分为正超螺旋(右手)和负超螺旋(左手)两种,负超螺旋在细胞DNA中比较常见。这两种超螺旋可以在拓扑异构酶或者溴化乙锭的作用下相互转变。在电场中,相同分子质量的超螺旋DNA的迁移率大于线性DNA,线性DNA的迁移率又大于开环的DNA。那么,我们可以通过电泳的方式将三者分开,这个实验通常被拿来判断细菌质粒是否被破坏——天然质粒呈环状双链结构,稍被破坏就是开环结构,双链皆断开就是线性结构。DNA在复制时,是“半保留”的:DNA分子双链解开,形成两条互补的单链;每条单链都可以作为复制的模板,分别合成与自己互补的新链,产生互补的2条链。这样,新形成的2个DNA分子中的碱基和原来DNA分子完全一样。每个子链(新产生的DNA分子)中,都有一条链来自亲链(原来的DNA分子),另一条链是以亲链为模板新合成的。DNA的复制还有其它的特点,在本篇中就不再详细讲述,留待后文。2.RNA的基本结构然后来说RNA,生物体中的RNA主要有三类:mRNA,编码特定蛋白质序列;tRNA,特异性解读mRNA的遗传信息,并且运载相对应的氨基酸加入肽链;rRNA,直接作为核糖体的组成,成分参与蛋白质合成。除此之外,自然界还存在着snRNA、miRNA、lncRNA等等其它非编码RNA。RNA通常是单链的线性分子,骨架中含有核糖,这个和DNA分子不同。DNA分子骨架中没有核糖,只有脱氧核糖。RNA自身频繁折叠,因为它也有A、C、G、U四种碱基,所以也可以形成许多互补配对的区域,形成茎环结构、发夹结构、凸结构、环结构等等。正因此,RNA仍然具有大量双螺旋结构特征。RNA本身除了可以A-U和C-G配对外,还可以形成类似G-U这样不同寻常的碱基对,这大大增加了RNA分子局部区域碱基配对的概率。RNA分子小沟宽浅,大沟深窄,不太适合特异性结合蛋白质,但还是有些蛋白质可以序列特异性地结合RNA。RNA的三级结构非常复杂且不规则,暂时不作深入探讨。写给自己看的遗传学(三):染色体染色体由DNA、组蛋白、非组蛋白以及少量的RNA组成,它是遗传物质的主要载体。原核生物的染色体通常是一个裸露的环状双链DNA分子,结合有稀疏的蛋白质,但是也有例外——比方说霍乱弧菌中曾经发现过2个环状染色体。真核生物的染色体在细胞核内,是线性的,只有在有丝分裂的过程中才能在光学显微镜下看到它的身影。在较长的分裂间期,染色体是以染色质的形式存在于细胞核中的,纤细而且松散。本篇主要涉及染色体的三个方面:染色体组成、染色体组型(也叫核型)、染色体畸变。对于本篇而言,不要求掌握染色体核型的详式和简式,但最好能够看懂,这样就省得每次看到都要翻查资料了。1.染色体组成染色体的形态结构并不是本篇的重点,奈何后面有所涉及,只好先讲清楚。染色体是在细胞有丝分裂或者减数分裂时遗传物质存在的特定形式,是间期的染色质紧密组装的结果。不同生物的染色体数目不同,当然染色体数目相同的未必是同一种动物——比如Wistar大鼠和大熊猫体细胞中都是21对染色体。中期染色体由两条相同的姐妹染色单体构成,彼此以着丝粒相连。着丝粒染色浅,而着丝粒区域外面有一种蛋白质复合物结构——动粒,动粒就像是扎马尾的发卡一样把姐妹染色单体“夹”在一起,所以着丝粒区域也叫主缢痕(着丝粒区是内缢的)。除了着丝粒外,染色体还有其它的染色较浅的缢缩部位,就叫次缢痕,核仁组织区(NOR)就位于次缢痕部位,本篇不谈。这里简单说明一下有丝分裂和减数分裂,细节请参看细胞生物学相关书籍。高中生物应当也是学过这方面内容的,所以此处不作深入阐述。有丝分裂可以让每条染色体复制成的两条染色单体均等地分到两个子细胞,使子细胞获得和母细胞相同的遗传信息。细胞有丝分裂可以分成四个时期:前期、中期、后期和末期,细胞上一次有丝分裂结束到下一次有丝分裂开始之间的时间称为间期。间期是DNA合成和细胞生理代谢活动旺盛的时期。间期又可以细分为:G1期(蛋白质合成)、S期(DNA合成)、G2期(此时细胞中含有两套完整二倍体染色体)。M期就是分裂期。G1、S、G2、M四个时期构成一个细胞周期。细胞周期有三种检查点,第一种是DNA损伤检查点,第二种是DNA复制检查点,第三种是纺锤体组装检查点。到了这些检查点,细胞周期就会暂停并且进行监控周期运行情况,如果一切正常则可继续运行,否则进入休眠期。再说减数分裂,减数分裂是配子生成过程特有的染色体分离行为,减数分裂前的细胞染色体复制一次,单个细胞有4套染色体;细胞连续进行2次分裂,产生4个细胞,每个细胞中只有1套染色体,称为单倍体细胞。减数分裂产生的雌雄配子可以结合成为合子,合子是二倍体细胞,与体细胞染色体数目相同。第一次减数分裂可以分成前期Ⅰ、中期Ⅰ(各二价体排列在赤道板上,纺锤丝把着丝粒拉向两极)、后期Ⅰ(二价体同源染色体分开,但染色体着丝粒没有分开)和末期Ⅰ(进入子细胞的每条染色体有两条染色单体,染色体解旋),前期Ⅰ可以分成细线期(染色质浓缩成细而长的细线,每条染色体含有两条染色单体)、偶线期(同源染色体开始形成联会复合体)、粗线期(染色体进一步压缩变粗,同源染色体配对完成形成二价体)、双线期(染色体更进一步变短变粗,二价体种同源染色体分开,非姐妹染色单体可出现交叉)和终变期(染色体更加短而粗)。第二次减数分裂也可以分成前期Ⅱ、中期Ⅱ、后期Ⅱ和末期Ⅱ,后期Ⅱ时,含两条染色单体的染色体着丝粒一分为二,染色单体向两极移动,在末期Ⅱ形成4个子细胞。每条染色单体由一条完整的双链DNA分子和蛋白质组成。细胞发生分裂时,每条染色体都要复制一次。发生复制的单个DNA单元叫复制子。每个复制子在每次细胞分裂期间只复制一次。复制子有控制复制启动的元件,称为复制起点,有的还有一个复制终点。原核细胞染色体只有一个复制子,也只有一个复制起点。细菌细胞的质粒有自己独立的复制子,严紧型质粒受控于细菌细胞而同细菌染色体同步复制,松弛型质粒独立于细菌细胞而自主复制。真核生物细胞染色体上有多个复制子,但是复制速率远低于原核生物。真核生物染色体复制子中启动DNA复制的序列,叫做自主复制序列(ARS)。自主复制序列有一个AT富集区,所有ARS中都有一段AT碱基对组成的同源序列。染色体末端有膨大的粒状结构,像两顶帽子一样戴在染色体两端,这就是端粒。端粒在维持染色体稳定性和DNA复制完整性方面起重要作用,和细胞寿命的决定也有着密切的联系。哺乳类和其它脊椎动物端粒的保守重复序列是TTAGGG,串联重复~次,序列长度可以在~0bp不等(数据来源于翟中和《细胞生物学第4版》)。人类的端粒DNA长度大约是0~10bp,序列相当保守,多是由富含鸟嘌呤核苷酸的短寡核苷酸串联重复DNA序列构成,伸展到染色体的3端。端粒区内的重复序列是一种单链断开的结构,可以免受DNA连接酶的作用,末端序列则呈发夹结构而不会被核酸酶识别降解。一个基因组有着相同的端粒序列,换言之,一个细胞内所有染色体的端粒序列是相同的。染色体的端粒随着复制(细胞的分裂)会变短,人的体细胞中的染色体端粒随着人的年龄增长也会变短,这将影响细胞的寿命。这就要提到一种蛋白质核酸复合物——端粒酶。端粒酶是一种反转录酶,可以将物种特异的内在RNA作为模板,逆转录出母链端粒DNA,并且添加在染色体的3端。但是端粒酶合成的子链末端是不完整的,所以,染色体每复制一次,端粒的序列还是会丢失一些,长度也就会缩短一些。迄今为止,只在生殖细胞和恶性肿瘤细胞内发现端粒酶的活性,所有体细胞内尚未发现端粒酶的活性。恶性肿瘤细胞能够无限制地在体内体外分裂繁殖,与端粒酶的活性相关。有一些染色体末端还有球形染色体节段,叫随体,它通过次缢痕区和染色体主体部分相连。随体是由异染色质构成的。先从染色质开始说。染色质可以分为两类:常染色质和异染色质。常染色质为主要成分,它被碱性染料染色时颜色较浅,着色均匀。分裂间期的时候,它高度分散,占据了细胞核内的大部分空间。构成常染色质的DNA主要是单一序列DNA和中度重复DNA(比如tRNA基因),有一点可以肯定,活性表达的基因一定是处于常染色质中的,但常染色质中并非所有基因都在表达。常染色质的凝缩程度可能支配着基因的表达活性,分裂周期的不同阶段中凝缩程度也不相同。凝缩得越紧密,表达活性一般是越低的。也就是因为这个道理,所以分裂中的染色体是没有转录活性的。异染色质折叠压缩得非常致密,处于聚缩状态,而且在细胞分裂周期中致密程度不怎么变化,用碱性染料染色比较深。异染色质可以分成组成型异染色质(结构异染色质)和功能型异染色质(兼性异染色质)两大类。前者是一种永久性的、在染色体上有固定位置的异染色质,由相对简单、高度重复的DNA序列(如卫星DNA)构成,在整个细胞周期中都在转录表达方面具有惰性,也就是几乎不进行基因表达。最典型的结构异染色质是位于染色体的着丝粒周围,当然也可以位于染色体端粒、次缢痕等等位置,甚至可以组成整条染色体,比如蝇的第4号点状染色体。后者是某些类型细胞或者一定的发育阶段中,原来的常染色质聚缩,失去基因转录活性,转变成的异染色质。在其它细胞系谱里,这类异染色质可能仍然是具有基因活性的常染色质。例如雌性哺乳动物的体细胞核内,两条X染色体的其中一条就是随机失活的,处于异染色质状态,另一条则依旧是常染色质。在上皮细胞核内,这条异染色质状态的X染色体就叫巴氏小体。检查羊水胚胎细胞中的巴氏小体就可以知道胎儿的性别,因为雄性哺乳动物的体细胞X染色体是常染色质状态,是具有基因活性的,这样就可以和雌性哺乳动物进行区分。然后讲到核小体的概念。由DNA和组蛋白组成的染色质纤维细丝,其实是许多核小体连成的念珠状结构。电子显微镜下,可以看到一条细丝连着一连串直径为10nm左右(不同资料数据可能会有微小区别,但是总体而言在10nm左右)的球状体,这种由H2A、H2B、H3、H4各两个组蛋白分子生成的八聚体叫核小体,bp左右的DNA分子如同围巾一样盘绕在八聚体上。核小体的形状类似于一个扁平的圆柱体,就像是一叠圆形的山楂片,直径10nm,高6nm,许多核小体构成了连续的染色质DNA细丝。每个核小体外面连有一个H1组蛋白,位于两个核小体之间的DNA分子上。H1组蛋白很容易被抽提,且不会影响到核小体的结构。不同组织、不同类型的细胞,甚至同一细胞染色体的不同区段,八聚体外盘绕着的DNA分子长度是不同的。但是,用核酸酶水解核小体,只产生bp的核心颗粒,包括组蛋白八聚体和bp的DNA(盘绕1.75圈)。DnaseⅠ或者小球菌核酸酶可以切断游离DNA的磷酸二酯键,用它们处理染色质后电泳分离,可以得到一些DNA片段,大小均为bp基本单位倍数(、、等)。核小体的形成是DNA压缩的第一阶段,它将DNA压缩成1/7(压缩比为7)。当有H1组蛋白存在时,进一步压缩,10nm的染色质细丝盘绕成螺旋管状30nm粗丝纤维,通称螺线管。螺线管每一螺旋有6个核小体,压缩比为6。螺线管进一步压缩成超螺旋,这一步的压缩比为40。分裂间期比较松散的染色质的压缩比就是~0,接近于超螺旋时的压缩比乘积(7×6×40)。超螺旋圆筒还可以再次压缩,压缩比为5,总乘积近于00,即染色体的压缩比。2.染色体组型每种生物染色体的数目与形态是一定的,这可以当作一种分类的标准。在细胞有丝分裂期间观察到的细胞内整套染色体叫染色体组型,又称核型。将一个体细胞的全部染色体按照大小、形态特征顺序排列构成的图像就是核型的图像。比方说,人的二倍体核型是46条染色体,包括22对常染色体和X、Y这2条性染色体。按照着丝粒在染色体上的位置,可以将染色体分成端着丝粒染色体(着丝粒位于染色体一端)、亚端着丝粒染色体(着丝粒靠近染色体一端)、近中着丝粒染色体(着丝粒靠近染色体中央)、中着丝粒染色体(着丝粒位于染色体中央,又名等臂染色体)。中期染色体经过酶或者其它化学试剂处理,染料染色后可以显现出染色深浅不一的带纹。这种沿着染色体长轴、明暗或者深浅相间的带纹图形称为染色体带型。而使染色体带型显现的方法,叫显带技术。未经显带处理的染色体也是可以观察到“带”的存在的,只不过使用了染料染色,“带”会更加清楚。一般来说,把富含A-T的染色体节段称为阳性带,它被姬姆萨染料染成深色,复制较晚,含基因较少;把富含G-C的染色体节段称为阴性带,它被姬姆萨染料染成浅色,复制较早,含基因较多。人类染色体非显带核型就是按照常规染色方法得到的染色体标本,一般用秋水仙素在有丝分裂中期使细胞不再继续分裂,低渗液处理使细胞膨大破裂、染色体分散,固定液固定后用姬姆萨染料染色。除了着丝粒和次缢痕外,染色体均匀着色。值得注意的是,虽然使用了姬姆萨染料,但这并不是显带技术,因为这种方法无法让染色体呈现带纹。染色体核型的描述方法为:染色体总数,性染色体的组成(两者用逗号隔开)。例如正常男性的核型为“46,XY”。正常的核型中,染色体成对存在,每对染色体的形态结构、大小和着丝粒位置基本上相同,这些成对的染色体互相称为同源染色体。不同对染色体就叫非同源染色体。人类染色体显带核型,自然就是显带技术得到的染色体标本核型图了。显带技术很多,如:Q显带技术,用荧光染料氮芥喹吖因(QM)处理染色体,在荧光显微镜下可以观察到染色体出现一条条横纹带,叫做Q带;G显带技术,碱、胰蛋白酶或其它盐溶液处理染色体标本后,再用姬姆萨染料染色,普通显微镜下即可观察到深浅相间的带纹,叫做G带。G带的深染色带是Q带的亮带,G带的浅染色带是Q带的暗带。除此之外,还有:R显带技术,磷酸盐溶液及高温处理标本后,再用姬姆萨染料染色,R带和G带刚好相反(G带的深染色带是R带的浅染色带,G带的浅染色带是R带的深染色带);T显带技术,将染色体标本加热后,姬姆萨染料可以将染色体末端区域特异性深染,只显示染色体末端的端粒部分;C显带技术,用氢氧化钠或氢氧化钡处理标本后,用姬姆萨染料染色,使着丝粒和次缢痕的结构异染色质部分深染,Y染色体长臂远端2/3的区域也被深染,所以可以检测Y染色体、次缢痕区、着丝粒的变化;N显带技术,用硝酸银染色,使染色体的随体和核仁形成区(NOR)呈现出特异的黑色银染物,具有转录活性的NOR会被着色,其本质是一种和rRNA转录有关的酸性蛋白质被着色。每一条染色体都以着丝粒为界标,分成短臂(p)和长臂(q)。染色体又可以分成几个区,每个区分成几个小带,以着丝粒为起点,分别向短臂和长臂末端标号为1区、2区……,以及1带,2带……界标所在的带就是1带,所以说被着丝粒一分为二的带,分别叫做长臂的1区1带和短臂的1区1带。描述一条染色体时,按照染色体序号、臂的符号、区的序号、带的序号连续列出,例如5p15表示第5号染色体,短臂,1区,5带——如果这个带发生缺失,则会引起5p-综合征(猫叫综合征)。人类中期染色体的带纹较少,只有~条G带带纹。处在早中期的染色体则可能分辨出~0条G带带纹,称为高分辨显带。高分辨显带的命名方法是在原带型后面加一个“.”,在“.”后加上亚带的序号;如果有次亚带,则把次亚带的序号直接写在亚带序号后面。比如13q14.2和13q14.3,缺失这两个染色体片段则会导致视网膜母细胞瘤;再比方说HLA复合体(人类白细胞抗原复合体),它位于第六号染色体6p21.3。可以想想看这三个片段位于哪条染色体的什么部位。3.染色体畸变染色体畸变是指体细胞或生殖细胞内染色体发生的异常改变,可以分为数目畸变和结构畸变两大类。染色体畸变的实质是染色体或染色体节段上基因群的增减或者位置的专一,遗传物质因此发生了变化,结果会引发染色体病。病情跟细胞不同周期和个体不同发育阶段有关。先讲数目畸变。生物的染色体数目是恒定的。用n表示单倍体细胞的一套染色体数目,人类体细胞染色体数目2n=46,而人类正常生殖细胞精子和卵子所包含的全部染色体叫做一个染色体组,精子和卵子都是单倍体,染色体数目都是n=23。体细胞的染色体数目整组或整条地增加或者减少,称为染色体数目畸变。染色体数目畸变可以分成两种,一种是整倍体改变,另一种是非整倍体改变。整倍体的染色体数目是单倍体染色体数目的整倍数。在2n的基础上增加一个染色体组(n),就是三倍体。以此类推,三倍体以上的四倍体、五倍体等等,统称为多倍体。大多数真核生物的体细胞是二倍体,配子是单倍体。但也有例外,比方说蜜蜂中,雄蜂是单倍体(未受精的卵发育而成),雌蜂则是受精卵发育而成的二倍体。但多倍体高等植物的配子中染色体数目就不止一套,比如六倍体普通小麦的配子有3套染色体组。3个以上相同染色体组的细胞或个体叫同源多倍体,多倍体细胞里的染色体组来自不同亲本,就叫异源多倍体。如果染色体的数目变化是以单倍体数目n为基数,整倍地增加或减少,就叫整倍体改变。人类的三倍体胎儿很容易发生流产,因为细胞分裂时染色体的分配很容易紊乱(形成三极纺锤体)。一般来说,存活下来的多是嵌合体(2n/3n)。四倍体则更加罕见,嵌合体比较容易存活下来。所谓嵌合体,就是同时存在两种或两种以上核型的细胞系的个体,可以是数目异常之间、结构异常之间或者数目和结构异常之间的嵌合。通俗地说,就是一个个体,比如说一个人,体内有些细胞是2n条染色体,有些细胞是3n条染色体,这就是数目嵌合体;有些细胞发生了染色体结构畸变,有些细胞没有发生染色体结构畸变,这就是结构嵌合体。整倍体改变的原因有很多:双雄受精,一个正常的卵子同时与两个正常的精子发生受精,形成三倍体合子;双雌受精,一个二倍体的异常卵子(可能是次级卵母细胞未形成第二极体)与一个正常的精子发生受精,形成三倍体合子;核内复制,也叫核内有丝分裂,指DNA复制而细胞不发生分裂(细胞分裂一次,DNA复制两次),主要形成四倍体,这在肿瘤细胞中比较多见。一个体细胞的染色体数目增加或减少了一条或数条,就称为非整倍体改变,这在临床上十分常见。当体细胞染色体数目少了一条或数条,就称为亚二倍体,写作2n-m(mn);当体细胞染色体数目多了一条或数条,就称为超二倍体,写作2n+m。正常的2n个体叫二倍体,也叫双体;如果双体中缺少一条染色体(2n-1),导致某对同源染色体只剩下一条,则称为单体(单体型);如果双体中缺少一对同源染色体(2n-2),则称为缺体(缺体型),临床上尚未见到有这种人类个体,可见这种类型比较难以存活;如果双体中缺少两条非同源染色体(2n-1-1),则称为双单体(双单体型);如果双体中多了一条染色体(2n+1),导致某对同源染色体变成三条,则称为三体(三体型),人类的三体型病例颇常见,多数寿命不长且严重畸形;如果双体中多了两条染色体(2n+2),导致某对同源染色体变成四条,则称为四体(四体型);如果双体中多了两条非同源染色体(2n+1+1),则称为双三体(双三体型)。三体型以上的非整倍体改变统称为多体型,多体型常见于性染色体中。有的细胞中,某些染色体数目增加,另一些染色体数目减少,增加和减少的染色体数目相等,结果染色体总数不变,还是2n,但这并不是正常的二倍体核型,称为假二倍体。假二倍体的个体也是不正常的,同样会产生很严重的疾病。多数非整倍体的产生原因就是在性细胞成熟过程或受精卵早期卵裂中,发生了染色体的不分离或丢失。细胞分裂进入中后期时,某一对同源染色体或姐妹染色单体彼此没有分离,而是同时进入一个子细胞,那么产生的两个子细胞中,一个染色体数目增多成为超二倍体,另一个染色体数目减少成为亚二倍体——这个过程称为染色体不分离。受精卵卵裂早期有丝分裂姐妹染色单体不分离,则产生两到三种细胞系嵌合体;第一次卵裂时不分离,则形成超二倍体和亚二倍体两个细胞系嵌合体;第二次卵裂时不分离,则形成三个或三个以上细胞系嵌合体(46/47/45)。不分离发生得越晚,正常二倍体细胞系比例越大。第一次或第二次减数分裂时,同样可以发生染色体不分离。在细胞有丝分裂中,某一染色体没有与纺锤丝相连,就不能移向两极参与新细胞形成;或者在移向两极时行动迟缓,滞留在细胞质中,造成染色体丢失。非整倍体的描述方法是:染色体总数,性染色体组成,+(-)畸变染色体序号。比如标准型唐氏综合征患者第21号常染色体多了一条,核型为47,XX(XY),+21。如果是少了一条X染色体,就直接表示为45,X——这是特纳综合征患者的核型。接下来讲染色体结构畸变。染色体受到外界因素的影响,发生断裂,断裂片段重接。如果重新接合的位置是原来断裂的位置,那么就称为愈合,染色体恢复正常。如果染色体断裂后移动位置与其它片段相接或者丢失,那就会引起染色体结构畸变(重排)。可诱发染色体断裂的因子叫诱裂剂,染色体畸变可以分成稳定畸变和不稳定畸变。稳定畸变可以通过细胞分裂稳定地继续保持在子细胞中,不稳定畸变则会在细胞分裂中丢失。稳定畸变分成很多种。第一种是缺失,缺失是染色体片段的丢失,这个片段的基因也随之丢失。缺失可以分成末端缺失和中间缺失:末端缺失指染色体发生一次断裂后未发生重接,断裂下来的末端片段没有着丝粒,所以不能连上纺锤丝而丢失了;中间缺失是染色体发生了两次断裂,两个断点间的无着丝粒片段丢失了,然后两个断片重新接在一起。例如1号染色体长臂2区1带到长臂末端缺失了,这是末端缺失,简式记作46,XX(XY),del(1)(q21);详式记作46,XX(XY),del(1)(pter→q21··);再如3号染色体上的q21和q31区段发生断裂重接,中间的片段丢失,则属于中间缺失,简式记作46,XX(XY),del(3)(q21q31);详式记作46,XX(XY),del(3)(pter→q21::q31→qter)。这里的pter和qter意思就是短臂和长臂的末端,很好理解的,即“terminal”。当一条染色体长臂和短臂各发生一次断裂时,两个断裂点就会相互连接形成环状染色体,这是一种特殊的缺失现象——换言之,含有着丝粒的片段会变成环状。比方说2号染色体的p21和q31片段同时断裂,形成了环状染色体,简式记作46,XX(XY),r(2)(p21q31);详式记作46,XX(XY),r(2),(::p21→q31::)。两条同源染色体,一条发生了微小缺失,另一条的该位置上没有发生缺失,则基因上表现为杂合性;如果这时候,没有缺失的那一条染色体也发生了缺失,那么基因上又表现为纯合性。这是非常好理解的,比方说抑癌基因所在染色体发生了缺失,只要有一个抑癌基因存在,依然可以抑制肿瘤发生;但是如果这个仅存的抑癌基因也没了,那么细胞就将癌变。可以利用杂合性缺失这点,将抑癌基因定位在染色体上。第二种是重复,指的是一条染色体上某一区段有额外的重复拷贝。重复比缺失更常见,危害也更小。根据染色体带型分析,可以分辨出是正向重复(重复区段和原区段取向一致)还是反向重复(重复区段和原区段取向相反)。不仅仅是染色体的某一区段可以重复,染色体组同样也可以重复——当然,染色体组的重复一般会被归为染色体的数目畸变。重复的起因是同源染色体的不等交换,即同源染色体在联会时没有正确配对,错配的区域内发生了染色体交换,结果一条染色体发生缺失,另一条染色体则发生重复。第三种是易位,即一条染色体的片段移到另一条非同源染色体的臂上。易位主要可以分成三种:相互易位、罗伯逊易位和插入易位。两条非同源染色体同时断裂,断裂的片段交换后,重新连接,这种易位就是相互易位。如果说相互易位的过程中没有丢失任何染色体片段,则称为平衡易位。平衡易位是相互易位的一种类型,发生平衡易位的个体常会产生染色体不平衡的子代。比方说,2号染色体长臂2区1带和5号染色体长臂3区1带同时断裂,交换重接,形成易位,简式记作46,XX(XY),t(2;5)(q21;q31);详式记作46,XX(XY),t(2;5)(2pter→2q21::5q31→5qter;5pter→5q31::2q21→2qter)。罗伯逊易位又名着丝粒融合,两条着丝粒极其靠近染色体一端的亚端着丝粒染色体——基本上可以看作端着丝粒染色体了——在着丝粒区发生断裂后,两条长臂连接到一起形成一个较大的染色体,两条极短臂连接则构成一个很小的染色体,小的染色体往往会在第二次分裂中丢失,这样一来,原先的2条染色体只剩下了1条。因此罗伯逊易位的个体所携带的染色体数目会比正常个体少1条,可是罗伯逊易位的个体表型多是正常的,只是可能产生异常的配子。其原因是丢失的由2条短臂组成的小染色体几乎全是异染色质,细胞所需的基因基本上都在2条长臂上。对于个体本身来说,丢失小染色体倒是没有什么大的关系。既然有着丝粒融合,那也有其逆过程发生,也就是罗伯逊裂解。罗伯逊易位是两条染色体变成了一条,罗伯逊裂解则是一条染色体分裂成了两条,共同之处在于两者均不改变染色体数目。插入易位是两条非同源染色体同时发生断裂,这两条染色体的断裂次数一共是三次,其中一条染色体的片段插入到另一条染色体的非末端部位。这种易位就比相互易位和罗伯逊易位要少见,毕竟是发生了三次断裂,不是很常见的现象。罗伯逊易位和插入易位的简式和详式都与相互易位类似,不再赘述。第四种是倒位,即同一条染色体上两次断裂,产生断片颠倒°后重新连接形成的染色体上基因顺序的重排。倒位如果发生在染色体的同一条臂上,就称为臂内倒位;如果倒位片段是跨越着丝粒区的,则称为臂间倒位。臂内倒位需要用染色体显带技术才能判断其发生与否,臂间倒位则不需要,因为臂间倒位会改变两个臂的长度。例如1号染色体的p22和p34同时断裂,发生臂内倒位,则简式记作46,XX(XY),inv(1)(p22p34);详式记作46,XX(XY),inv(1)(pter→p34::p22→p34::p22→qter)。如果是臂间倒位,比方说2号染色体的p15和q21同时断裂发生倒位,则简式记作46,XX(XY),inv(2)(p15p34);详式记作46,XX(XY),inv(2)(pter→p15::q21→p15::q21→qter)。发生倒位的时候,同源染色体是不能正常配对的,而是形成一个圆圈,同源部分才能发生配对,我们把这个圆圈叫做倒位环。着丝粒可能会在倒位环内或者外,如果在倒位环内,环内会发生基因重组(交换片段),发生单次重组形成的配子基本是不能存活的;如果在倒位环外,则往往不会交换,染色体被拉断而形成死亡的配子。简而言之,倒位的片段可以大大抑制该染色体上基因的重组。此谓倒位的交换抑制效应。利用倒位的交换抑制效应,可以制造出一种永远以杂合状态保存下来、不发生分离的品系,称为永久杂种,也叫做平衡致死系。通常情况下,比方说A基因可以控制产生非糯性的水稻品系,那么要保留非糯性水稻品系的基因,最好是保留AA基因型的个体,因为AA基因型个体的后代全都是AA基因型的,而Aa基因型个体的后代则可能会产生aa的个体,需要人工筛选,太过麻烦。但是,某个致死基因如果需要保留,是不能选择纯合子的,因为纯合子会直接死亡。那么致死基因怎么办呢?比方说Cy(翻翅)基因是一种纯合致死的隐性基因,就可以用同属于一条染色体上的任何一个致死基因h基因来平衡——选择出一条染色体上有Cy基因无h基因、另一条染色体上有h基因无Cy基因的果蝇随机交配,产生三种基因型的子代:两条染色体上都只有Cy基因无h基因,致死;两条染色体上都只有h基因无Cy基因,致死;一条染色体上有Cy基因无h基因、另一条染色体上有h基因无Cy基因,该种子代的基因型和它的父母亲相同。这样一来,就将这样的杂合子通过自然选择巧妙地保留了下来,避免了人工选择的麻烦。除了上述种类的染色体畸变之外,还有一些特别的染色体畸变。比方说等臂染色体,即一条染色体两臂在形态和遗传结构上都是相同的。细胞分裂期间,染色体着丝粒区在水平方向上发生断裂,使染色体的两个臂分开,两条长臂、两条短臂分别形成一条染色体,这两条就都是等臂染色体。以雌性个体的X染色体为例:如果某条等臂染色体两条臂都是长臂,简式记作46,X,i(Xq);详式记作46,X,iX(qter,cen,qter)。如果某条等臂染色体两条臂都是短臂,简式记作46,X,i(Xp);详式记作46,X,iX(pter,cen,pter)。这个cen是代表着丝粒,“centromere”取前三个字母,是着丝粒的英文缩写。这和之前提及的罗伯逊易位异曲同工,所以说等臂染色体也是一种易位。再比如说两条染色体同时发生断裂,两个具有着丝粒的片段断端相连接,形成一条双着丝粒染色体,这也是一种染色体畸变。比如5号染色体的q31和9号染色体的q21片段分别断裂,两个具有着丝粒的片段断端重新连接成一条双着丝粒染色体,简式记作46,XX(XY),dic(5;9)(q31;q21);详式记作46,XX(XY),dic(5;9)(5pter→5q31::9q21→9pter)。不同的染色体畸变会产生不同的生物学效应,比方说一个显性基因的片段发生缺失,那么它的同源染色体对应位置上的基因即使是隐性的,也会显现出来,这就是假显性现象。类似的效应还有很多。除此之外,染色体畸变可以被用来育种,比方说将卵色的相关基因片段易位到性染色体上,以筛选出雄蚕,在此就不细讲了。如果对此感兴趣,可以去搜索有关的资料。写给自己看的遗传学(四):基因组和DNA序列分析基因组就是一个细胞或病毒所携带的全部遗传信息或整套基因,包括每条染色体和所有亚细胞器的DNA序列信息。研究基因组学科的就是基因组学。本篇主要分成两部分:基因组构成和基因组学研究方法(包括测序)。虽然分节很少,但是本篇的内容很长,找到加黑体句子附近的文字大略地浏览一下,可以说是很有效率的方法。1.基因组构成生物体基因组由整套染色体组成,一条染色体中有一个双链DNA分子,DNA分子里面的核苷酸排列顺序分别构成了基因和基因外的结构单元。生物体的单倍体基因组(生殖细胞的染色体数目是体细胞的一半,故称单倍体。此处就指的是这个概念)所含DNA的总量就叫做C值。每种生物都有自己特定的C值。即使是同一类生物中,不同种的基因组大小也有很大的差别。在一些低等的真核生物中,C值一般是随着生物的进化而增加的,比如蠕虫的C值大于藻类,藻类的C值又大于细菌——因为比较复杂的生物体,需要更多的基因去控制性状。然而,爬行类和棘皮动物的C值大小几乎和哺乳动物相等,而有一些显花植物和两栖类动物的C值甚至比哺乳动物还大得多。这就是著名的C值反常现象,也叫C值悖理:C值往往与种系进化的复杂程度不一致,生物基因组大小与生物在进化上所处的地位高低无关。但是编码每类生物所需要的最低DNA含量(最小基因组)基本上和生物在进化上所处的地位相对应——进化地位越高,形态结构越复杂,最小基因组也越大。基因组的DNA分子可以从不同的角度进行分类。第一种分类方法,可以分成基因序列和非基因序列。基因序列就是指基因组中决定蛋白质或者RNA产物的DNA序列,一端为ATG起始密码子,另一端则是终止密码子。当一个DNA序列以ATG为起始密码子开始,随后是一个个三联体密码子,但是还未发现与这个序列相对应的蛋白质产物,此时这种DNA序列在遗传学上就叫做可读框(ORF)。一般来说,一个可读框相当于一个基因,只是产物尚未被发现或者证实。非基因序列就是除了基因之外基因组所有的DNA序列,以两个基因之间的居间序列为主。值得一提的是,可读框的定义可以被放宽到“一组连续的含有三联体密码子的能够翻译成为多肽链的DNA序列,由起始密码子开始,到终止密码子结束”(朱玉贤《现代分子生物学第4版》的定义),进一步也可以被放宽到“从mRNA的起始密码子AUG开始到终止密码子为止的连续核苷酸密码所对应的基因序列”(刘祖洞《遗传学第3版》定义)。这些定义都是可以被接受的。第二种分类方法,基因组DNA可以分为编码序列和非编码序列。编码序列是编码RNA和蛋白质的DNA序列,所有不属于编码序列的统称为非编码序列。基因是由内含子和外显子组成的,内含子就是基因内的非蛋白质编码序列。第三种分类方法,可以分为单一序列和重复序列。基因组里只出现一次的DNA序列就叫单一序列,比如基因序列就多半是单一序列,但并非全部都是。重复序列指基因组里重复出现的DNA序列,有的散在分布,有的聚集成簇。根据重复频率,重复序列又可以分成轻度重复序列(单倍体基因组里一般只有2~10份拷贝,结构基因基本上都属于此类。2~3份拷贝有时可被视为单一序列)、中度重复序列(10~00份拷贝,常是非编码序列,也包括各种rRNA、tRNA和某些结构蛋白基因,比如组蛋白基因)、高度重复序列(成千上万份拷贝,例如卫星DNA等非编码序列)。原核生物基本上是没有重复序列的,真核生物中重复序列则占据着相当的比例。同一类生物中基因组大小主要差别在于重复序列,即某一个DNA序列在基因组内有不止一个拷贝。各种不同的序列的总长度叫做序列复杂性,序列复杂性的高低反映了序列所包含的遗传信息量有多少。基因组的复杂程度还取决于基因的外显子的多寡。所谓外显子,就是指编码蛋白质或者RNA的DNA序列——这个解释并不算完整,此处只是为了帮助理解,以后还会继续提到。原核生物的基因基本没有外显子和内含子之分。重复序列家族包括基因和基因以外的序列,以非基因序列为主,多半来源于RNA介导的转座过程。在真核生物基因组中,来源相同、结构相似、功能相关的一组基因可以被归入一个基因家族。这些重复序列一般来源于RNA介导的转座过程,即来源于反转录转座子。转座是遗传信息从一个基因座转移到另一个基因座,这个过程是由可移位因子介导的遗传信息重排。根据重复序列在基因组中的组织形式,可以分成串联重复序列和散在重复序列。简单重复序列,就是指简单序列的重复,是DNA在复制期间通过滑移而产生的完整或不完整的短串联重复序列。它在连锁分析中非常有用,可以作为标记。简单重复序列有以下几种类型:1,卫星DNA,高度重复的DNA序列,氯化铯介质中密度梯度离心可以将卫星DNA和其它DNA分开,形成含量较大的一个主峰和高度重复序列小峰,后者就是卫星DNA区带。不同物种的卫星DNA区带数量往往不相同。很多卫星DNA序列位于染色体的着丝粒部分,也有一些在染色体臂上。这类DNA的CG含量和密度都比较低,是高度浓缩的异染色质组成部分,通常属于串联重复序列,并不转录。卫星DNA可以进一步分成微卫星DNA(2-20bp)和小卫星DNA(几百bp)。2,倒位重复序列,两个序列的互补拷贝在同条DNA链上反向排列,两个互补拷贝可以通过共价键连接,在一条DNA分子内形成碱基配对的“发夹”结构。这样说不够直观,我举一个例子,A链的核苷酸顺序从5端到3端,是GCACTTC……GAAGTGC,B链的核苷酸顺序则是A链从3端到5端的倒序,即CGTGAAG……CTTCACG。这样的序列可以让单条直线形DNA链发生折返。3,多聚dT-dG家族,类似于TGTGTGTG这样嘌呤和嘧啶交替排列的双核苷酸串联重复,平均长大概40bp,在人的基因组中大量散布。这种类型的序列往往造成DNA双螺旋呈左旋,形成Z-DNA。散在重复序列,则可以分成四种类型:1,长散在重复序列(LINEs),是分散分布在基因组中单元长度0bp左右的重复序列,在人基因组中有上万份拷贝。LINEs中有许多亚家族(3’非编码区不同),绝大多数是L1重复序列,L1重复序列在人和小鼠的基因组中都更倾向于分布在性染色体上。2,短散在重复序列(SINEs),是分散分布在基因组中单元长度~bp左右的重复序列,在人基因组中只有Alu重复序列这个亚家族是有活性的。3,长末端重复序列(LTR)的反转录病毒样因子,哺乳动物的LTR因子是来源于脊椎动物专一的反转录转座子的一个分支。最初的反转录病毒可能来源于内源性反转录病毒样因子(ERV),最后ERV渐渐减少,在人类基因组中接近灭绝。今天人类基因组中的内源性反转录病毒因子来自反转录病毒的感染。4,DNA转座子,这是通过病毒或细胞内寄生物作为载体而水平转移到新的宿主基因组的一种基因序列。由于是通过病毒之类进行转座,所以这种行为可以被动物的免疫系统阻止。本小节在此作出总结。真核生物基因组的特点有很多,其中最突出的特点就是含有大量的重复序列,如前文所述,而且编码蛋白质的功能DNA大多数被不编码蛋白质的非功能DNA所分隔开。这就是所谓的“断裂基因”,也就是指真核生物的基因有内含子结构。因此,真核生物的基因组特别庞大,存在着大量的DNA多态性,一般来说远大于原核生物的基因组,而且绝大多数(90%以上)都是非编码序列。DNA多态性,就是指DNA序列中发生变异而导致的个体间核苷酸序列的差异,包括单核苷酸多态性(SNP)和串联重复序列多态性等等。除此之外,真核生物基因组存在着大量的顺式作用元件,包括启动子、增强子、沉默子等,这些概念本篇暂且不提,留到《遗传信息的调控》篇讲述。真核生物基因组还具有端粒结构。端粒结构是一种DNA序列和蛋白质的复合体,见《染色体》篇,本篇不再详细描述。最后要提到,真核生物基因组的转录产物是单顺反子,“单顺反子”的概念将留待《遗传信息的传递》篇阐述。原核生物基因组则很小,大多数只有一条染色体,DNA含量也很低。原核生物基因组的特点有:结构简练,基因组中DNA分子绝大部分是用来编码蛋白质的,不转录的部分通常是控制基因表达的元件,很少冗余(真核生物基因组有冗余现象);一些功能相关的RNA和蛋白质基因,会丛集在基因组特定部位,形成转录单元,可被一起转录成含多个mRNA的分子,即多顺反子mRNA;有重叠基因,即同一段DNA携带两种不同蛋白质的信息,分成三种情况——A基因完全被包含在B基因里面、A基因和B基因有部分重叠、A基因和B基因有一个碱基对的重叠。2.基因组学研究方法基因功能的表达,首先要转录,产生转录物。转录的定义,可以借用高中课本的说法,即“以双链DNA中的确定的一条链为模板,以A、U、C、G四种核糖核苷酸为原料,在RNA聚合酶催化下合成RNA的过程”。这是遗传信息由DNA流向RNA的过程。然后,成熟的mRNA分子中核苷酸序列被解码,并生成对应的特定氨基酸序列,这个过程叫翻译,是遗传信息最终表达实际功能的过程。所以也有很多科学家对转录物组、蛋白质组、表型组进行研究。有关基因组学研究主要分成以下几个方面:第一个就是基因组作图,即绘制基因组的遗传连锁图、物理图、转录图和全序列图。所有的图谱都需要作图的界标或者叫遗传标记,“遗传标记”就是指可以追踪染色体、染色体的某一节段、某个基因或某一特定DNA序列在家系中传递轨迹的任何一种遗传特性。遗传标记使用得越多、越密集,得到的图谱分辨率就越高。这么讲可能有点抽象,举几个例子来说明。第一代DNA遗传标记是RFLP(限制性片段长度多态性)和RAPD(随机扩增多态DNA),前者指的是用某一种限制性内切酶切割不同个体的DNA,不同的DNA序列存在着不同的内切酶识别位点,就会产生不同长度和数目的DNA片段;后者指的是不同的DNA序列导致引物结合效率不同,这将会影响PCR扩增。然而,这2种遗传标记提供的信息量还是不足,第二代DNA遗传标记——VNTR(可变数目串联重复片段界标)和STRP(短串联重复多态性界标)应运而生。前者指的是基因组DNA中广泛分布着单位长度6~12个核苷酸的串联重复序列,它们以头-尾或者头-头或者尾-尾的形式串联成簇。DNA某些位置上,这种重复单位数目不同。以限制性内切酶识别串联重复序列两侧,并且进行酶切,产生重复单位数目不等的片段。后者指的是长度为2~6个核苷酸的微卫星DNA重复单元,原理与VNTR相似,而且这种重复单元分布更平均、频率更高、多态性更明显,所以更适合作为遗传标记。第三代遗传标记是SNP(单核苷酸多态性),指分散于基因组中单个碱基的差异,包括缺失、插入和替换——大多数是替换(嘌呤、嘧啶之间的置换),以CG序列上出现最为频繁,而且多半是C脱氨转换为T。绝大多数SNP位于非编码区,位于编码区的SNP叫cSNP。SNP直接以序列变异作为标记,这将大大提高基因组作图的精度。顺便提一句,SNP和点突变蛮像的,但是前者在群体中出现频率大于1%,后者小于1%,以此来作区分。以上三代遗传标记可以在除全序列图以外所有图谱中使用(全序列图的界标是每一个核苷酸)。还有2种遗传标记是构建物理图时使用的,那就是标定位置序列(STS)和表达序列标签(EST)。前者是基因组中的单一DNA序列,后者则是某一cDNA(mRNA反转录出来的DNA,没有内含子)中特有的一段DNA序列。将多态的遗传标记作为界标,通过计算细胞减数分裂过程中,同源染色体间交叉和互换导致遗传标记重组的频率,来确定这两个标记在染色体上的相对位置,作出来的图就是遗传连锁图,简称遗传图。遗传标记之间的距离以厘摩(cM)为单位,当两个遗传标记之间的重组值为1%时,图距就是1cM。经典遗传图只能标明基因之间的相对位置,无法标明具体位置,自然也就无法直接克隆。当然,现代作图的时候,遗传图可以转换成物理图。基因在遗传图上的位置就叫基因座,每个基因座上可以有不同的等位基因。遗传图的具体做法可以参见《连锁交换与连锁分析》篇。除了遗传图,我们还可以作物理图。物理图是以特定的DNA序列为界标(多使用STS),直接排列在基因组DNA分子上,界标之间的距离用物理长度——即核苷酸对的数量来表示,基本测量单位是Mb、kb、bp。STS只是基因组中任何单拷贝的短DNA序列,长度~bp。STS物理图至少需要5套整个基因组的DNA片段,各个DNA片段将作为模板,用来自不同STS界标上的序列作为引物,进行PCR扩增。STS界标足够多,那么物理图就足够精细。最精细的物理图就是全序列图,即根据全基因组DNA测序结果作的图。可以从全序列图上看到人类基因组和其它动物基因组之间的同源现象。物理图的作图方法有两类,一类是从长到短作图,用基因组内识别序列很少的限制性内切酶作用,分离到许多大片段,再用识别序列很多的限制性内切酶作用,切成小片段排列成序;另一类是从短到长作图,一开始就通过控制酶量和反应时间等因素,用识别序列很多的限制性内切酶进行部分酶切(作用于一部分基因组DNA),产生一些互相之间有一定重叠部分的片段(即所谓“叠连群”,contig),并用PCR予以证实,这些片段可以通过两两缀连,逐渐连成长片段。第一种方法不易丢失片段,图谱较完整,但耗费人力、物力和时间比较严重;第二种方法比较精细,分辨力高,只是容易丢失短片段,造成图谱上的空档。现在我们比较常用的是第二种方法。转录图,也叫cDNA图,也被称为表达序列标签(EST)图。实验中,可以通过得到的某一段cDNA或一个EST,筛选出全长的转录物,并且将该转录物对应的基因准确地定位在基因组上。第二个是测序,即测定全基因组DNA分子的核苷酸排列顺序。实际上这也是一种作图,就是制作全序列图。测序分成手工测序和自动测序。手工测序主要是桑格法(链终止法或双脱氧法):以单链DNA为模板,用一段很短的寡核苷酸DNA当引物,加入DNA聚合酶(去掉了5-3外切核酸酶活性的DNA聚合酶Ⅰ的克莱诺片段),,再加入大量的dATP、dTTP、dCTP、dGTP和适量的一种ddNTP(2,3-双脱氧核苷三磷酸,掺入到新合成寡核苷酸链3-端会导致DNA链延伸终止),与单链模板复性,互补结合成双链。以ddATP为例,加入大量带放射性同位素磷标记的脱氧核苷酸和适量的ddATP,适当温育之后,双脱氧核苷酸不可能掺入可与其互补的每一个位置(因为脱氧核苷酸的量比较大),所以会产生出不同长度的DNA片段混合物,它们有相同的5-末端,在3-末端的ddATP处终止。将这种混合物加在变性凝胶上,电泳分离,可以得到一系列全部以3-末端ddATP为终止残基的DNA片段(梯状条带)。同样的操作分别加入ddCTP、ddTTP、ddGTP,点到同一变性凝胶上电泳,然后X射线底片曝光,可以直接读出DNA的核苷酸顺序。此外还有马克夏姆-吉尔伯特法。这是一种化学测序法,将片段的一个末端利用放射性同位素磷标记,分成四份,用特定的化学反应降解部分的DNA(对于某一种脱氧核苷酸专一)。反应产物用聚丙烯酰胺凝胶电泳分离成一系列DNA片段,X射线曝光底片读序。测序技术进一步发展,全基因组鸟枪法测序技术出现,随机挑选带基因组DNA的质粒进行测序,在计算机的帮助下进行序列拼接。我们尝试建立高度随机、插入片段大小1~2kb的基因组文库,保证克隆数;也尝试高效、大规模的末端测序,开发新的拼接软件,建立λ文库,以填补测序缺口。尽管如此,以鸟枪法测序高等真核生物基因组(存在大量重复序列)时,还是会导致拼接错误。在处理较大的真核基因组序列分析时,通常用稀有限制性内切核酸酶先将待测基因组降解为几十万个碱基对的片段,再分别进行测序,或者根据染色体上已知基因或遗传标签的位置来确定部分DNA片段的排列顺序。最后介绍几种新的测序技术。这些测序技术都在中国常见的遗传学教材中出现,所以在此简单叙述一下。第二代测序技术均基于桑格法进行改进。第二代测序技术主要是采用了大规模的矩阵结构芯片分析技术,说白了就是用了芯片这个固相载体。基本流程如下:先将基因组DNA随即切成小片段,然后在小片段DNA分子末端连上接头,接着变性得到单链模板文库(意思就是得到了一大堆单链的小片段模板),再将单链小片段DNA固定在固体表面,之后对固定片段克隆扩增、制成polony芯片,最终利用DNA聚合酶或连接酶,对芯片上的DNA进行循环反应,读取碱基连接产生的信号,对阵列图像进行时序分析,获得DNA片段的序列,并且通过计算机形成叠连群获得全基因组序列。第一种是罗氏(Roche)的焦磷酸测序。系统首先将随机片段化后的基因组DNA变性成单链并稀释,让每个磁珠通过表面引物“捕获”至多一个DNA分子。然后每个磁珠在封闭的乳胶小泡中PCR扩增至数千拷贝,再次变性去除游离的DNA分子。富集磁珠并置于光纤载片的小槽内,以4种天然核苷酸为底物合成互补链。当某个新添加的核苷酸被整合到延伸的DNA链中,它释放的焦磷酸被硫酸化酶转化成ATP,荧光素酶利用这个ATP催化荧光素释放光信号,被光纤束连接的CCD检测到。系统主要的错误出在碱基插入和缺失,尤其是测同多聚核苷酸的片段时(因为这种片段的长度检测只能通过光信号强度推断)。第二种是Illumina的Solexa基因组分析仪。Solexa同样先随机片段化基因组DNA,然后将各个单链模板与固相基底上的正、反向PCR引物随即杂交引起互补链合成,随后经过DNA变性引起邻近引物桥连扩增。不同模板生成的扩增子集群散布在基底的不同位置,形成阵列。测序过程中,测序引物与模板末端的共同接头序列杂交,在DNA聚合酶催化下以4种3-OH位置加了一个可切除修饰基团的核苷酸为底物合成互补链。每一轮链延伸只有一个碱基整合,因为修饰基团会阻止下一个核苷酸整合。每个核苷酸还带有一个可切除的荧光标记基团。也就是说,每一轮链延伸,都检测一遍荧光图像信号,检测完后切除修饰基团和荧光基团,进入下一轮合成。Solexa系统主要的错误出在碱基替换。由于修饰和荧光基团的切除可能会不完全,有效读长也会偏短。第三种是ABI公司的SOLiD。SOLiD系统采用双碱基编码探针,片段化基因组DNA后用乳胶PCR进行扩增,这些步骤和系统类似。测序引物与模板DNA杂交后,启动八核苷酸探针与模板的杂交。从第n位碱基开始,用DNA连接酶催化连接、采集荧光信号、切除探针后三位核苷酸及所标记的荧光标签三步循环。简并八核苷酸探针的第一位和第二位碱基决定探针的荧光标记颜色。10次循环,产生10个荧光信号,对应DNA序列上每5个碱基中的前两个碱基序列。10次循环后,变性恢复单链模板,选用不同引物,从n-1位碱基重新开始10个循环,以此类推。SOLiD系统的主要错误在于碱基替换,测序通量最大,读长较短。第二代测序技术仍然使用了体外PCR扩增,这会引入突变,也会影响序列丰度等信息。所以,第三代测序技术HeliScope单分子测序法出现了。HeliScope和Solexa原理相似,但没有模板扩增这一步,也不需要阻断链延伸的修饰基团,因为它是对于单个分子进行测序。它是用高度敏感荧光检测装置进行测序的。HeliScope的主要错误在于碱基缺失,可以通过使模板链变性并去除、对新合成链二次测序来提高准确性。除此之外,还有片段化单分子实时荧光测序的PacificBiosciences测序系统、构建带有荧光染料的DNA聚合酶的Life/VisiGen技术,以及尚未正式投入使用的纳米孔测序策略等等,这些都是第三代测序技术了,主要特点是单分子序列分析。新的高通量测序平台的应用,全基因组相关分析(GWAS)的发展,基因组的分析手段变得越来越全面,基因组的秘密也越来越多地展现在我们面前。还有混杂基因组学,是研究混杂基因组的——比如直接提取土壤样品中所有微生物的总DNA(因为有些微生物是难以分离培养的),限制性内切酶酶切片段克隆在表达载体中,然后去转化宿主细胞,表达出大量的产物。混杂基因组学对于研究已经灭绝的古生物和生物进化方面理论很有帮助。本篇已经介绍了一些分子生物学的内容,更多相关知识可以去了解分子生物学和基因工程相关书籍。来源:生命科学教育、生物学参考扫码
转载请注明:http://www.sohubb.com/yfzl/9820.html
  • 上一篇文章:
  • 下一篇文章: 没有了