| 查看: 234 | 回复: 1 | |||
| 当前主题已经存档。 | |||
[交流]
转贴----基因7(中文版)第二章----有东西与大家共享
|
|||
|
[watermark]第二章 从基因到基因组 我们可以从多个层次来考虑基因和基因组图谱的绘制工作: *一张连续的遗传图谱可以根据遗传重组频率来确定突变之间的距离(或是突变发生的位置)。它是通过对显形突变观察来确定的。因为根据遗传图上多点叠加所计算出来的遗传频率会有所偏差,而不能正确的表达基因特性。 *一张连续图谱也可以通过测定基因组DNA之间的重组来构造。这些断点会因为限制性内切酶的作用而产生不同的序列变化。因为这些变异很常见,所以可以通过几乎所有的生物体的所有突变来观察。它和其它所有的图谱有一样的弱点:两点间距离需要通过重组来确定。 *限制性酶切图是通过限制性内切酶将DNA切成片断,然后确定不同断点之间的距离来构造的。它们根据DNA的长度来表达长度,所以它们提供遗传物质的自然图谱。限制性酶切图没有固定的基因识别点。因为它和基因图有关,所以突变必须在限制点上表达它们的作用。基因组上的大变化可以因为它们对基因大小的影响或是限制性片段的数量而被发现。点突变的发现会困难得多。 *如果一个DNA的分离片段被给出来,我们可以确定它们在两点之间的顺序。通过选择一个合适的点,短区域可以被结合到一个整体区域和其附近的顺序上。通过比较一个DNA顺序和该基因代表的蛋白序列,我们可以描绘出编码多肽链的区域代码,而且通过在两个方向上延长顺序,邻近基因的距离可被确定。 通过比较普遍基因与一个突变等位基因的顺序,我们可确定突变的本质和其发生的位点。这决定了基因图谱(建立在突变位点的基础上)和物理图谱(建立在均匀组成的DNA序列基础上)的关系。最终基因组的图谱区域可以通过DNA碱基对来表达,而不是通常遗传学的相对图谱单元。根据DNA顺序确定的图谱很高程度上给出了基因型。 相同的技术被在不同层次上用来对基因和基因组进行鉴定和排序。在其他情况下,这种方法被用来测定DNA的连续片段以便获得一张连续的遗传图谱。其中最重要的特征是片段与片段之间的表达是相关联的,我们可以由此确定片段是否丢失。这种方法被同时用在对限制性片段的排序和片段的连接上。 由于基因可以被蛋白产物的性质或有时是仅仅一些DNA顺序而确定下来,所以我们不再依据所提供的原始材料来构建基因组图谱。当然,突变对于确定基因产物的功能来说是在关重要的。一种补偿特定基因自然突变的缺失的方法可以那些允许动物基因组中的基因被扰乱、允许零突变的顺序被观察到的方法来提供。随着技术而来的是新基因的介绍,突变基因而在体外构建并在体内探测到,这个增加了确定基因的能力。我们将在第3章讨论这些技术的应用来延伸、替代传统的遗传学。 限制性图谱是通过将DNA切割为特定片段而构建的 一旦一个DNA片段被分离开,一个关键性步骤en route以获得它的顺序而在分子水平上构建核酸图谱。任何DNA分子的物理图谱可以通过在特定的位点断裂而得到,这些位点的距离可被精确测量到。为了确定较短顺序的DNA双链作为断裂的目标,特定的裂点可以通过限制性内切而获得来实现。 每一种限制性酶对应一个特定的双链目标DNA,该DNA通常且有4-6个碱基对。该酶可以在具有它所对应的核苷酸顺序的DNA分子中进行切除。不同的限制性酶对应不同顺序,它们的活性有很大一部分都已经被确定下来(从多种细菌中获得)。(有关它们自然寄居环境的背景将在第16章讨论)。 用来确认DNA切除位点的图叫限制性图谱。该图表示出特点是限制酶所对应核苷酸的线性顺序。图谱中的距离由碱基对来决定。短距离表示bp,长距离表示为kp,对应103个碱基对。在染色体水平上,可用Mb表示(1Mb=106bp)。 当一DNA分子被限制性酶所切除,它将断裂为特定片断,这些片断可用电泳技术来分离。切下来的DNA片断首先放在琼脂糖或聚丙烯胺凝胶上,当通上电流后,每一个片段的移动速率与分子量的对数成反比。 这个运动产生了一系列的带,每一条带对应一个特定大小的片段,且该片断沿着凝胶逐渐减小。每一个片段的长度可从凝胶上测出来,我们可用另一块同样大小的凝胶进行平行比较操作。这个操作包含一些已知大小的标准片段(称作标记),这个标记的移动决定了凝胶上片段长度和移动距离的关系。 图2.1(DNA可以被限制性内切酶切成片段然后通过凝胶电泳分离出来)显示该技术的一个例子。1个5000bp长的DNA分子由两个限制性酶A和B切成片段,而后DNA进行电泳。每一条片段的大小由已知大小的片段的位置来决定,如中部所示。这证明了酶A将DNA切成4段(长为2100, 1400, 1000, 500pb), 酶B切为3段(长为2500, 1300, 1200bp)。那么是否能根据这些数据制作一个图谱,来显示DNA分子的特定的断裂点呢? 这两种酶的切割形式可用几种方式进行相关性研究。图2.2显示double digestion分析法的原则。在该技术中,DNA可被两种酶切也可被两者之一切除。用这种技术的最有决定意义的方式是在消化液中提取每一条由酶A或B切除的片段,然后再用其它酶切除。产品同样可用电泳来分析。 我们可用这些数据构建一个原始分子量为5000bp的DNA的图谱,如Figure 2.3所示。 图2.2中每个凝胶上都根据图6.1分离出的片段作上了标记。A-2100表示用酶A所切除的DNA分子的2100bp片段。当该片段被酶B切除,它又断裂为1900bp、200bp。所以酶B的切点与其中酶A最近一端的切点相距200bp,而与另一端的酶A切点相距1900bp。如图2.3上部所示。 当我们用酶A切B-2500片段时,我们可以看到一个相关的图型,它被切成 1900bp和600bp。所以1900bp片段由两个切点而产生,A一端,B另一端。它可以从这两个单切点片段中释放出来(A-2100或B-2500),只要含有它即可。所以这些单切点片段在含有1900bp区域上进行覆盖。这种覆盖情况在图2.3第二个图片上进行描述,它将我们的图片延伸到右侧增加了一个酶B的切点。 这张图证明了一个限制性图谱制作的重要原则。当我们考虑从这些小的片段中构建一个更大的片段时,我们可以依赖长度可加性(在实验允许的范围内)。这样A-2100片段包含了200bp和1900bp片段,然而B-2500片段包含了1900bp和600bP片段。 图2。2通过两组间对比可以确定酶的作用点 当所有的片段以这种方式进行分析时,我们看到用B切原始的A片段所产生的任何一个片段在用A切原始B片段的双消化液中的其中之一中被发现。整个情况可以在双消化液(凝胶在图2.2的右边)中看到,在消化液中每一个二切点片段只出现一次,这些数据允许就这些切点置于清晰的图谱中。 限制性图谱的关键是如何利用覆盖片段。因为A-2100,B-2500片段的覆盖区处于1900bp的中部,我们可以将1900bp左边的A切点200bp与右边的B切点600bp联系起来。同样,我们可以更深入地将图谱中的两端进行延长。左边的200bp片段也可由酶A切B-1200而产生,所以下一个B切点一定位于左边1000bp处 。右边600bp片段也可由酶B切A-1400产生, 所以下一个A点一定传于右边800bp处。这样产生了图2.3的第三张图。 现在我们可以通过确定两端片段的来源来成图谱。在左边1000bp片段由B-1200或没有被酶B切的A-1000而产生。这样A-1000位于图谱的底端;换句话说,从完整的5000bp区域左端开始,距第一个A切点有1000bP, 距第一个B切点有1200bp(这就是为何B切点没有显示在上图左端, 尽管我们在分析中把末端作为B的切点)。 在图谱的右端,800bp双切片段是由酶A切除B-1300而产生的,所以我们必须在右端加一个 500bp片段。这是终端片段, 正如在单切 A消化液中所见的A-500一样。这样我们完成了图2.3底部的图谱。 图2.3 限制性酶切图可以通过将不同片断还原到原图来建立 另一有用技术是末端标记,而DNA分子的末端用放射性P元素进行标记(一定的酶可将P单元特定地加到5`或3`端)。这允许了包含末端的片段由于放射标记而被识别。这样在片段A准备中, A-1000, A-500将迅速置于图谱两端, 片段B-1200, B-1300将被认为是末端片段。 我们现在可以制作一个完整的5000bp外区域图谱。这在图2.5中又显示了它更正式的形式。这张图显示了特异的限制性酶切DNA的位置,这些切点的距离由碱基对进行测量。这样DNA被分割成一系列由限制性酶决定的确定长度的区域,这些长度区域由限制酶切割。 真正构建限制性图谱时需要许多酶,所以解决由各种各样酶产生的十分复杂的覆盖片段是十分必要的。许多更进一步的技术就用来构建图谱。 图2。4当限制性酶切片段通过其尾部标志确定时,每个片断从断裂点到尾部都有确定的距离连续的片段就通过测定相临的连续点来扩增。 图2.5限制性酶切图是DNA上的一系列线性有序点。 图上的点是通过酶A或酶B对DNA的切割来确定的。 基因多态性的体现 最早的孟得尔对基因组的分类是在等位基因的野生型和变异型之间的。随后我们发现了更多等位基因的存在,每种都会有不同的显形表达(在有些情况下你并不能恰当指出哪一种是野生型)。 基因图谱的构建是建立在基因组成数量变化存在的基础之上的。多于一种变异体的共存被称为基因多样性。作为稳定组成的复等位基因的任何位点是通过多态性定义的。更精确地说,一个等位基因如果它在成分中出现的频率>1%,即被定义为多态性。 根据表型,多态性包括一个野生型等位基因和一系列突变等位基因。考虑一下突变等位基因多形性的基础。它们拥有一种突变使得基因产品即蛋白质的功能被转化,这样产生了类型的变化。如果我们比较一下限制性图谱或是相关等位基因和DNA顺序,它们也将是多形性的,即每一张图谱或顺序将不同于其它。 尽管野生型从表形上讲是不明显的,它自己可能是多形性的。野生型等位基因的多种观点可能由那些并不影响他们功能的不同顺序而被区分出来,因此在表形变异体上不能检测出来。从基因型的角度考虑,一个种群可能有扩展的多形性。许多不同顺序变异体可能在一给定地方存在,它们中一些因为它们影响了表现形而明显,但其它即由于它们无可视效果而被隐藏。 我们因此看到在一个地方,那可能有一个变化的连续体,包括那些影响DNA顺序但却不影响蛋白质顺序的,那些影响蛋白质顺序却不影响其功能的,那些创造具有不同活性的蛋白质的,那些创造无功能的突变蛋白质的。 图2.6 点突变对限制性酶切点的影响是通过限制性酶切片段的变化来发现的。我们可以通过比较不同个体的限制性图谱来探测基因组的一些变形。这个尺度是用一个限制性酶的断裂而产生的片段变化而构成的,图2.6显示了当一个目标切点存在于一个个体的基因组而与其它相分离,则在第一个基因组中的额外断裂将产生两个片段,与第二个基因组中的单片段相对应。 因为限制性图谱独立于基因功能之外,这个水平上的变形可被探测出来不管这个顺序变化是否影响表形。可能仅仅一小部分在基因组上的限制性位点的多态性直接影响了表型,大部分并不影响蛋白质产品(例如,因为它们位于基因之间)。 图2.7 限制性酶切点的多态性现象会跟据孟德尔定律来传递。四组等位基因上的酶切记号在所有可能的情况中被成双找到且不相互干扰。 两个个体之间限制性图谱的不同被称为限制性片段长度多形性。它可以被用作一个基因标记,正如其它标记一样。我们直接获取基因型,代替了检测表形一些特点,正如限制图谱所示。图2.7显示了一个包含了三代的限制多形性家谱。它在DNA片段标记的水平上,展示了孟德尔分离定律。 图2.8 限制性点的多态性可以作为基因记号利用其表现型(比如说眼睛的眼色)来测量重组频率 重组频率可以在一个限制性标记和一个可视表形标记间被测出来,如图2.8所示。这样一个基因型图谱可包含基因形和表型标记。 因为限制性标记并不束缚于那些影响表型的基因组变化,它们在分子水平上提供了能确定基因型位点的强有力的技术。一个典型的问题集中于表形上已知效果的一个突变,在这时相关的基因位点可能置于基因图谱上,但对此我们没有任何关于对应基因或蛋白的知识。许多具损伤或致命性的人类疾病属于这一类,例如胆囊纤维样病变显示了孟德尔的遗传性,但突变功能的分子机制直到它可以作为标识该基因的结果,而准确分辩出时才知道。 如果限制性多形性在基因组中无规律出现,其中一些就出现在特异的目标基因旁。我们可以通过它们与突变表型的紧密联系的本质,来辩别出这样的限制性标记。如果我们比较受DNA疾病困扰的病人和正常人的DNA图谱,我们可以发现一个特殊的限制性切点总是存在(或分离缺失)于病人。 一个假想的例子显示于图2.9。这个位置对应于寻找限制性标记与表型的100%的联锁。它使暗含限制性标记与突变基因靠得如此近,以致于它通过重组手段从没被分离开过。 图2.9 如果一个限制性酶切点与某表现型相关联,那么这个点就应该被定位在相关基因处。一些变化可能会使某些连接异于正常人而与致病基因相似。 这样一个标记的分辨有两个重要结果: 它可以提供一个探测疾病的诊断进程。一大类疾病在遗传上能很好的辩认,但在分子角度上却不易分析。如果一个限制性标记与表形可靠地连接,则它的存在可用来诊断疾病,不管是在出生前还是其后。 这将导致基因的分离,限制性标记一定在基因图谱上,位于基因相对近的地方,如果这两个地方很少或根本没有重组。尽管“相当近”在基因角度上可能成为根据DNA碱基对而定的相当的距离,然而它提供了一个我们可能沿着DNA链前进到基因本身的起点。 当我们寻找致病基因的时候,除非粗略的缺失或其它显著变化确定了病人中的致病基因,确定位点是非常困难的。任何并未由疾病的遗传标记的重组而得到分离的基因都是位点的候选者。这意味着在这个基因上的RFLP必然出现在该病的任何情况中,可能在一个DNA区域上有许多这样的基因被确认与这种病紧密联系。尽管基因图谱不能证明任何特殊的基因对该病负责,但它可能排除了目标基因,带有一种疾病的一个病人显示出了在一个目标位点与RFLP重组的现象足以排除那个位点。 相反地是证明一个对某种疾病负责的基因的缺陷的存在的困难。显示每一个带病病人在基因中有突变是很有必要的。在一些情况下,与一种疾病相关的突变不仅影响一种基因,而是更大的缺乏,与疾病相关的基因可能不很明显。唯一能牵连到基因的另人满意的证据是证明它能在各种情况下致病,而且在某些情况下,它是唯一的致病基因。这需要内部突变的确认,即采取点突变或小的缺失的形式。 人类基因组的庞大决定探测一个特别的限制性多形性远不只是一个繁琐的任务。在确认需要检测的基因组相关部分时存在有实际的困难,与传统的基因标记相比,我们需要一个能够覆盖所有基因组的限制性标记的电池。用这样一个方便的电池,去浏览一个能与已知标记相联系的新的标记(表型或基因型)已成为可能。 RFLPs在人类基因组中出现的如此频繁以至于它在制作基因图谱时非常有用。如果将任何两个个体染色体等位基因顺序进行比较,个体碱基对的出现不同的频率>1每1000bp。那些影响限制性位点的碱基变换可以作为RFLPs被探测出来。 一旦一个RFLP被置于一个连接集中,它将置于遗传图谱上,而且距其侧面标记的图谱距离也被确定下来。有关人和老鼠图谱RFLPs的努力引导到两类基因组连接图谱的构造。人类图谱包含>5000种标记, 并被1.6cm的平均距离而分离开来,若鼠图谱则包含>7000种标记,其平均距离为~0.2cm。任何未知点可以为这些位点的连接而检测出来,且这些位点能通过这种方式很快置于图谱之上。 一些有趣的特点出现于人类的RFLP图。重组速率在女性与男性中是不同的。典型染色体在女性中其长度是男性的1.9倍,即在卵子中的重组几率几乎二倍于在精子中。这样,男性中每个图谱单元有约1.2×107 bp ,但在女性中(见表6.1)约 7×106bp每个图谱单元。每条染色体(在图谱单元中)的基因长度与其物理长度(我们先前在图3.8讨论过 D.melanogaster染色体的巨大数量与物质关系)成比例。这种关系并不完全一致,然后,重组几率的地方性不同发生在每一种性别当中。在染色体末端有一种朝向多形性和重组率的增长的趋势。 RFLPs的存在提供了用来建立明确本子代关系技术的基础。在血统受到怀疑的情况下,父母与孩子间合适的染色体区域的比较允许这个关系的绝对指定。用来确定个体的DNA限制性分析的应用被称为DNA指纹分析法。我们将在第4章详细讨论人类基因组中用来制图的变化多端的“微小卫星”顺序。 真核基因常是间断的 真核基因被分子图谱描绘出来以后,我们估计它们可能将会和原核基因有相同的结构。我们因此推测基因是由一段和蛋白质共线性的DNA组成的。但是由DNA 和信使RNA之间结构的比较显示它们存在着许多差异,信使RNA往往包含一段核苷酸序列,按照基因编码规则,这段序列与蛋白生成物有关,但是这些基因包括了编码区的另外的序列,这些序列代表了蛋白。但基因包括了位于编码区的多余序列,它们可以中断表达蛋白的序列。在真菌中这种差异是常见的,但在细菌中就罕见了。 组成间断基因的DNA序列分为两类,如图2.10: 1. 外显子: 代表着信使RNA。精确地说。基因都是以外显子来开始和终止的,与此相对应的是RNA的5’端和3’端; 2. 内含子则是在当初级转录产物被送到成熟RNA加工时插入的可移动序列。 Figure2.10间断基因通过前驱RNA被表达。当外显子被拼接到一起的时候,内含子移开。 基因表达需要一个新的步骤,这个步骤在原核生物中是不发生的。 DNA代表了基因组,但RNA是一个前体,它不能被用来制造蛋白,首先,内含子必须从RNA中转移出来,移到仅由外显子组成的信使RNA上,这个过程叫RNA的拼接。它包括一个初级转录产物上的精确缺失,在另外一侧的RNA末端形成的一个共价完整分子。我们将在第22章讨论拼接的机理和调控。 结构基因包含了在基因组上点之间的区域,这些点对应RNA上的5’端和3’端终止碱基。我们知道转录始于mRNA的5’端,但也有可能它扩展超过了5’末端,从而产生DNA切割。(见22章)基因的定义可以被扩展到在基因两端的调控区域,这些区域是用来启动和(有时)终止基因表达的。 这会让我们对基因的认识有什么改变呢?随着拼结,外显子被连接成在 DNA中它们所存在的那种序列,这样在单个的外显子和相应的部分蛋白链上基因和蛋白的共线性被获得,基因中突变顺序和蛋白质中氨基酸被代替顺序是一致的。但是基因中的距离与蛋白中的距离并不完全相符。基因的计算由起始RNA(前体)而非信使RNA所决定。 所有的外显子都在相同的RNA分子上,而且它们的拼结仅仅是分子内的反应。通常没有被不同RNA分子所携带的外显子,因此这种机制排除了任何代表不同等位基因拼结的序列。因此突变在一个不与其它互补的基因的外显子上,这样它们被定义为互补组。 内含子突变会造成什么后果呢?既然内含子并不是信使RNA的一部分,它们中的突变并不影响蛋白结构,然而,它们能阻止信使RNA的生成——例如,通过抑制外显子的拼结,这种突变仅仅作用在携带它的等位基因上,因此与另外等位基因上的突变相互补,组成了作为外显子的等同互补组的一部分。 真核基因并不需要被间断。一些相应的蛋白产物为原核基因,在酵母中,大部分基因实际上是不被间断的,在更高级的真核生物中,许多基因被间断,而且内含子往往比外显子要长,所产生的基因比编码区也要大。 断裂基因的结构是保守的 当一个基因是连续的时,DNA的限制的图谱和mRNA图谱是相对应的 (通过标记一个cDNA可逆转录获得)。 当基因含有内含子时,每个基因末端的图谱对应着一个信息序列末端的图谱,但是在基因内部,图普是多样化的,因为存在着一些“额外”序列,而信息序列中不存在这些“额外”序列,每一个这样的区域对应于一个内含子。图2.11就 是一个例子。它对比了β-球蛋白基因和mDNA的限制图谱。这里有两个内含子,每个内含子包含一段cDNA没有的限制位点。 在cDNA和基因中外显子中限制性位点的模式是一样的。 Figure2.11老鼠β-globin cDNA 与遗传DNA限制性图谱的比较显示基因拥有在cDNA没有的两个附加区域,其他区域能在cDNA和基因之间被精确的校正 最终,通过核基因组与cDNA克隆的比较,就可以精确地定位出内含子序列,达到序列水平上的分辨率是保证我们能够确定每个基因片段都被辨识的基础,短的内含子或外显子若恰好不含有限制性位点,常在限制酶图谱中丢失(若一个内含子存在于一个长的外显子之中,则易被丢失,若一个外显子长度小于50bp,也很难和cDNA探针杂交从而被丢失),但一个序列的对比是清晰的,图2.12显示一个存在于编码区内的内含子常会破坏阅读框架的完整性,但在cDNA中,阅读框架是完整的。 Figure2.12内含子是基因中一段序列,但在mRNA没有(这里用cDNA序列表示出来)。阅读框用交替出现的开放或封闭阻点来显示,注意全部三个可能的阅读框被内含子终止密码阻碍。 还没有一个特殊的规律来描述变化多样的真核基因结构,有些基因是连续的,所以它的基因组序列和mRNA是共线性的,大多数高等真核生物的基因是不连续的,但内含子的大小和数量变化很大。一般来说,核基因的内含子在所有阅读框架中都终止密码子,而且它们都不具有编码蛋白的功能。 各种类型的基因都可能是不连续的:编码蛋白的核基因,编码rRNA的核仁基因,以及编码tRNA的基因等,断裂现象也存在于一些低等真核生物的线粒体,叶绿体基因中,断裂基因并不存在于每一种真核生物中,同时它也可以存在于细菌和噬菌体中,尽管它在原核生物基因组中很少出现。 在编码mRNA的基因中,两端的外显子常包含一些非翻译的先导序列和尾部结构,中间的外显子才编码蛋白,而编码rRNA或tRNA的断裂基因,外显子没有编码蛋白的功能。 一些断裂基因只有一个或很少的内含子。球蛋白是被广泛研究的一个例子。(见第四章)存在两种普遍的球蛋白基因α、β,它们有共同的结构类型,哺乳动物球蛋白基因的结构也有着一致性。(见2.13) 在所有已知活性的球蛋白基因中,断裂现象发生在同源性位点上,包括哺乳动物、鸟类和青蛙,第一个内含子总是相当短,第二个内含子又相当长,但绝对长度是有变化的,常常由于第二个内含子的变化导致整个球蛋白基因长度的变化,在老鼠中,α-球蛋白基因的第二个内含子只有150bp,所以整个基因长850bp,而β-球白的主要基因长1382bp。可见,基因长度的变化比mRNA长度变化范围大得多(α-球蛋白mRNA长585bp,而β-球蛋白mRNA长620bp) DHFR(二氢叶酸还原酶)有一个较大的基因(见图2.14),由6个外显子组成,相对应mRNA长度为2000bp,但是它的DNA序列却十分长,这是由于它的内含子非常长的缘故,在三种哺乳动物中,外显子基本保持一样,内含子的相对位置也不改变,但长度变化却非常大,这就导致了基因长度范围为25~31bp。 Figure2.14哺乳动物DHFR基因有相同的亲缘组织:很短的外显子和很长的内含子,但对应内含子长度变化很大 球蛋白和DHFR基因说明了一个普遍现象:那些在通化过程中相关的基因有着相类似的结构,至少包括了一些含子位置的保守性,基因长度的变化主要取决于内含子长度的变化。 外显子序列是保守的而内含子却是变化的 若问一个结构基因是否是非重复的,答案很模糊,因为常常某段基因从总体上说是特殊的,但其内部的外显子却与别的基因的外显子相关联。作为一种规律,当两个基因有联系,它们外显子之间的关系比内显子之间的关系要密切。在极端情况下,两个基因的外显子可能为相同的蛋白序列编码,但内显子可能不一样。这表明这两个基因来源于共同祖先基因的复制。然后拷贝之间的不同之处被计算出来,但为了编码蛋白功能的需要,在外显子中它们是被限制的。 我们后来看到当我们考虑基因的进化时,外显子被认为是基本的构成材料。一个基因可能有一些和另一个基因的外显子有关系的外显子,但其他的外显子可能没有关系。通常内显子在这种情况下完全没有关系。这些基因起源于个别外显子的复制和转运。 两个基因的亲缘关系可以用点阵绘图的方法来描述,图2.15中每一个点都表明在两个基因 中存在相同位点,如果两个基因完全相同,那么所有点将组成一条倾斜角45度的直线。这条直线会因为两序列缺乏相同性而断断续续,也可能因为相对于另一个序列有缺失或插入而水平或垂直移位。 Figure2.15鼠αmaj和αmin球蛋白基因序列在密码区有紧密的亲缘关系,但在侧面区域和大内含子则不同。数据由Philip Leder提供。 当老鼠的两个β-球蛋白基因相比时,这条直线延伸穿过了三个外显子和一个小的内含子,但在侧翼序列和大的内含子部分却消失了,由此可以看出,编码序列是相关的,且这种亲缘关系可以保留在外显子一内含子边界处,但在较长的内含子和基因端部序列,不存在这种相关性。 两个外显子的差异程度直接与两个蛋白差异程度相关联。外显子的差异主要由于碱基替代造成的,在被翻译的序列内,外显子由于受到编码AA这一功能的限制而很少改变序列,且许多变化并未影响密码子的含义,因为这些发生变化的碱基常是密码子的第三个碱基,在非翻译序列(如5’端和3’端序列)中,发生变化的可能性大了许多。 而在内含子中,序列变化多是由于碱基插入或缺失或替换造成的。内含子演化的速度比外显子快得多,不同物种相同基因相比较,有时发现外显子是同源的,而内含子却有很大差异。 在内含子、外显子中突变速率是相同的,但外显子通过不利因素的选择,有效地修复了这些突变,而内含子,由于不编码功能蛋白,可以自由地发生突变,通过不断积累最终导致巨大差别,这种差异也说明了内含子不具备序列特异性这个特征,人们一直未弄清它的存在对基因功能是否是必须的。 利用外显子的保守性分离基因用来确定基因的一些主要手段是基于外显子保守性和内含子变化性之间的差别。若一个基因它的功能在一定范围物种中具有保守性,这个序列编码的蛋白一定具以下特征:1、它一定有一个可译框(可读框);2、在别的物种中它有相关序列。这些特征可以被用来分离基因。 假定我们通过基因数据已经知道一段特定序列位于一个给定染色体上的某个区域,如果我们缺乏对此基因产物的了解,我们如何判定基因在这个可能(举例)大于100kb的区域中的具体位置呢? 我们以一个大致位于这个区域附近的克隆为起始,然后我们“走”过经基因库确定重叠克隆的区域,如图2.16所示。来自第一克隆末端的片断是用来分离沿染色体延展很长的克隆。这些回旋的克隆是被用来分离另一种的。在一个循环中,一个新的基因被选择,原因是它的限制图谱的一端和以前克隆的一端同时生成,但在另一端有新材料。它有可能走过上百kb,典型速度是每月>100kb。染色体移动让邻近的一些大的染色体区域在克隆库中再现。[/watermark] |
» 猜你喜欢
导师想让我从独立一作变成了共一第一
已经有9人回复
博士读完未来一定会好吗
已经有23人回复
到新单位后,换了新的研究方向,没有团队,持续积累2区以上论文,能申请到面上吗
已经有11人回复
读博
已经有4人回复
JMPT 期刊投稿流程
已经有4人回复
心脉受损
已经有5人回复
Springer期刊投稿求助
已经有4人回复
小论文投稿
已经有3人回复
申请2026年博士
已经有6人回复
» 本主题相关商家推荐: (我也要在这里推广)

2楼2003-09-25 19:51:03













回复此楼
