一种DNA片断体外定向自我剪接机制的结果分析和验证

第一部分文献综述

　1.1限制性内切酶的发现与分类

限制性核酸内切酶是识别生物体中特定DNA碱基序列并在该区域切割双链DNA序列的核酸内切酶[1-3]。目前发现的大多数限制性核酸内切酶都来源于细菌。它们在细菌中的生物学功能主要是通过切割入侵的外源DNA序列，防止异源DNA无法有效转录(例如噬菌体)，从而使外源DNA序列(生命体)失去生命力，但不会破坏细菌本身DNA的原始遗传信息，形成细菌体内一种天然的免疫防御机制。

1.1.1限制性内切酶的发现

Arber[4](1962)在研究大肠杆菌时，提出细胞内限制和修饰作用的模型假说：一是可以识别DNA碱基序列的限制酶, 另一个则是可以识别与相应的限制酶相同的碱基序列的修饰酶，Yuan和Meselson (1968)证实了这一假设。

Arber等(1968)首次从大肠杆菌B株细胞中发现了第一个限制性核酸内切酶。Smith等(1970)发现流感嗜血杆菌(H-aemo-philus influenzaed)可以在不降解自身DNA情况下降解侵入细菌体内的噬菌体DNA；通过纯化DNA水解酶，确定了其高度特异性识别序列和切割位点，并将其命名为HindⅡ，这是第一个被发现的Ⅱ型限制性内切酶。后续研究发现，HindⅡ酶切后的DNA片段可以重组，这种限制性内切酶逐渐成为研究基因组成、表达及功能的重要工具。

限制性内切酶广泛存在于原核生物中。通过对原核生物基因组进行测序和分析，发现许多可编码限制性内切酶的基因，因而发现更多种类的限制性内切酶。在1980年代初期，通过克隆技术将限制性核酸内切酶基因进行异位表达，避免其原始细胞中其他核酸内切酶的污染，并提高了限制性内切酶的纯度和产量，其纯化过程也不断优化。

1.1.2 限制性内切酶的分类

根据切割位点识别序列之间的距离差异、激活因子的差异以及它们是否同时具有甲基化酶活性，可将限制性内切酶分为Ⅰ、Ⅱ、Ⅲ三大类(图1A、B)[5]。

基于限制性内切酶的切割特征可分为两种类型：非特异性切割位点和特异性识别的核苷酸序列(仅特定序列可被切割)。可以特异性识别的切割位点应具有回文序列，即在切割位点，沿一条链的正向读取的碱基序列与另一条链的反向读取的序列相同。

又根据限制性内切酶在特定切割部位的不同切割方法，可分为位错切割和平面切割。位错切割是指切割两条DNA链的不同部分，中间被几个核苷酸隔开，切割末端形成类似回文结构的单链末端，该末端与具有互补碱基的靶基因片段相连，因此称为粘性末端，如BamH I等。平面切割指切割两条链特定序列的相同部分，切割后形成具有非粘性末端的平口，且切割部位位于回文序列的中间以形成平整末端，如Sam I。

图1三种限制性内切酶的特性及切割双链DNA示意图

(A)三种限制性内切酶的特性；(B)三种限制性内切酶切割双链DNA示意图。

Fig.1 Characteristics of three kinds of restriction endonucleasesandschematic demonstration ofdigesting double-strand DNAby them

(A) Characteristics of three restriction endonucleases; (B)Schematic demonstration of 3 kinds of restrictionendonucleasesdigesting double-strand DNA.

　1.2 限制性内切酶的应用

由于限制性内切酶对DNA分子有特定的切割能力，因而自发现Ⅱ型限制性内切酶以来，成为人们在分子水平上切割目的DNA片断和分析遗传信息的重要工具。

1.2.1 限制性内切酶在染色体DNA分析中的应用

用限制酶将DNA切割成一系列片段，通过琼脂糖凝胶电泳将上诉一系列片段分离开，通过迁移速度或在电子显微镜下观察各种片断的大小。这些片段在整个基因组中的顺序主要由几种不同的限制性酶决定，这些酶部分水解DNA，然后通过电泳分析产物。DNA中每个脱氧核苷酸的顺序分析也可用相同的方式进行。

1.2.2 限制性内切酶在基因工程中的应用

限制性内切酶可特异性地识别双链DNA中的特定碱基序列，并通过切割双链DNA中每条链上的磷酸二酯键来断裂DNA。在实际应用中，可根据需要切割DNA。但是，在自然情况下，生物体内限制酶通常不切割自身DNA分子，仅切割外源DNA。

目前已经从原核生物中分离出多种限制性内切酶，且已商业化并广泛用于基因工程中，已成为重要的切割工具，是基础克隆中最重要的工具酶之一，是重组技术和基因诊断中的一类重要酶。其应用范围包括构建DNA基因物理图谱、DNA碱基序列分析、基因定位和分离、相关的DNA分子比较等。限制性内切酶的广泛使用使得基因工程技术得到飞速发展。

　　1.3基因编辑技术

基因编辑技术主要利用一种人工设计和修饰的核酸酶，在基因组水平上对靶基因进行定向切割，以实现基因敲入、敲除和定向置换的最终效果[6-8]。其作用机理是修饰的序列特异性核酸酶可以锚定到基因组的靶序列位点，从而切割靶DNA序列产生双链断裂(Double-strand break,DSB)，并进一步诱导非同源末端连接(Non-homologous end joining,NHEJ)，这就导致基因组中碱基的插入和缺失。除了NHEJ修复外，如果在基因编辑过程中同时引入外源性目标基因的同源序列，以及同源重组(Homologous recombination,HR)启动导入序列与目标序列之间的修复，可以实现目标基因的突变修复或产生定点插入和替换、基因叠加突变[9,7-8]。

基因编辑技术发展过程中先后出现三代系统，即锌指蛋白核酸酶(Zinc finger nucleases, ZFNs)[10-11]、类转录激活因子效应物核酸酶(Transcription activator-like effector nucleases, TALENs)[12-13]和规律成簇的间隔短回文重复(Clustered regulatory interspaced short palindromic repeat, CRISPR)[14-15]。ZFN和TALEN都是人工融合蛋白，包含一个融合到限制性内切酶Fok I的非特异性核酸酶功能域的DNA结合域。ZFN和TALEN已经成功地应用于许多生物，包括植物[16-17]。2013年以来，基因编辑主要利用CRISPR/Cas9及其改良技术手段，最近又出现CRISPR/Cas变体Cas12a(Cpf1)。CRISPR/Cas9系统基于RNA引导的Cas9核酸酶，可靶向基因组中大部分靶位点。它高效、精确地定向编辑基因组，即双链DNA分子特异性切割，导致双链DNA断裂，然后激活同源重组的修复机制或易错的非同源末端修复机制以实现基因编辑[18]。与Cas9 一样，Cpf1也是由RNA引导的核酸酶，但其识别的PAM是T富集区。另外，Cpf1可能会在PAM的远端导致交错的双链断裂，从而产生粘性缺口。该蛋白的发现丰富了CRISPR系统并扩大了其在基因编辑中的应用。

1.3.1 锌指核酸酶技术(ZFNs)

ZFNs是一种人工重组的核酸内切酶，由锌指蛋白DNA结合酶和非特异性核酸内切酶Fok I构成[19-21]，它是21世纪初开发的第一代基因编辑技术[22]。

ZFNs的第一个成分是锌指蛋白，在真核细胞中很常见，参与转录调控和蛋白质相互作用[23]。ZFNs的第二个组成部分是FokI nuclease。FokI是在黄杆菌中发现的一种限制性酶，由DNA识别和切割结构域组成[24]。FokI仅在形成二聚体时才能切割DNA[25]，因此ZFNs进行基因编辑需要结合至DNA顶部和底部链的两个单体才能诱导DSB。

Wright等(2005)取得重要突破，他们率先使用ZFN进行植物细胞基因编辑，证明ZFN可以用于植物基因打靶；通过利用烟草原生质体中有缺陷的选择标记基因的恢复，他们证明与随机整合相比，基因打靶频率最多可提高10-1[26]。同时，Lloyd等人(2005)证明了ZFNs可以通过NHEJ来突变拟南芥基因组中人工引入的限制性位点[27]。2009年，Wright等和陶氏化学公司独立证明，DSB诱导的HR可以利用ZFNs修饰烟草和玉米的内源基因[28-29]。在玉米中，ZFN介导玉米IPK1基因的基因打靶是以重组IPK1的表达产生抗除草剂表型的方式获得。结果表明基因打靶的频率非常高，在大多数实验中均达到10%以上[29]。

1.3.2 转录激活因子核酸酶基因编辑技术(TALEN)

TALEN系统中关键因子是转录激活因子样效应蛋白(TALEs)，是在革兰氏阴性植物病原体(如Xanthomonas)中发现的一类新型的DNA结合蛋白[30-31]。Bonas等发现细菌病原体Xanthomonas将TALEs传递到给宿主[32]。且该蛋白质带有与各种植物启动子结合的DNA结合域[13,33-34]。DNA结合域由一系列不同数量的重复单元组成，每个重复单元由33-35个高度保守的氨基酸残基组成，仅第12、13位的氨基酸具有不同的重复序列，且单体存在差异，该位点称为重复可变双氨基酸残基(Repeat variable diresidues,RVD)，它们负责DNA特异性识别。由于每个RVD识别不同的DNA碱基，例如，NI识别A、HD识别C、NG识别T和NN识别G，因此，RVD的差异也就决定了TALE对DNA识别的特异性[12,35-36]。

TALEN系统由包含核定位信号的N末端结构域，识别特定DNA序列的中央结构域和具有FokI核酸内切酶功能的C末端结构域组成。与ZFN相似，TALEN通过TALE元件与DNA序列特异性结合，FokI切割形成DSB，特定序列的转化由NHEJ或HR完成。

研究表明，TALENs在植物基因工程中具有很好的潜在用途[37-38]。Li等通过TALEN介导将突变基因导入水稻OsSWEET14基因的启动子已证明基于病原体的转录因子的结合基序被破坏，这导致水稻抗病性的增强[39]。Wright等利用TALENs在多达30%的转化烟草原生质体中引入ALS基因的靶向突变[26]。同时，Wright等[26]还利用供体模板在烟草中进行了TALEN介导的基因打靶实验，该供体模板在ALS和YFP标记基因之间产生了基因融合。这使得利用流式细胞术测定YFP荧光定量的基因打靶效率成为可能。且基因打靶的频率高达14%。最近，TALENs也已被用于短孢子虫[40]和大麦[41]中进行定向编辑。

1.3.3 规律成簇的间隔短回文重复/效应蛋白(CRISPR系统)

CRISPR技术最早于1987年在大肠杆菌K12 iap基因侧翼序列中被发现[42]，2002年被命名为串联间隔短回文重复序列(clustered regularly interspaced short palindromic repeats, CRISPR)[43]。Cas9蛋白与单向导RNA(Single-guide RNA, sgRNA)结合不仅具有识别功能，而且还具有切割功能。由于Cas9独特的RNA-DNA识别机制，靶向特定位点变得简单，尤其是在同时编辑多个靶标时，CRISPR-Cas9基因编辑技术与ZFNs和TALENs前两代技术相比，操作步骤大大简化，编辑效率显著提高[44]。此外，在CRISPR-Cas9基础上还开发出多种基因编辑技术，将切割活性缺失型的Cas9与其他效应蛋白结合在一起进行基因定位、激活、抑制甚至定点诱变[45-48]。

Zetsche B等(2015)发现CRISPR家族Type 2V成员Cpf1不仅具有良好的DNA靶向切割活性[49]，而且还具有与CRISPR-Cas9显着不同的编辑特性[49-55]。Cpf1识别的PAM(protospacer-adjacent motif)序列富含T，与Cas9识别的NGG PAM 互补，大大扩展了第三代基因编辑技术的应用范围。就突变类型而言，与倾向于形成单个碱基插入缺失(Indel)的CRISPR-Cas9系统不同，CRISPR-Cpf1编辑系统倾向于产生几个碱基甚至大片段的缺失。

以上两种CRISPR编辑系统已迅速应用于多个物种。

1.4 CRISPR/Cas9系统

1.4.1 CRISPR/Cas9的发现及分类

CRISPR/Cas是细菌和古细菌进化出的一种适应性免疫系统，用于失活入侵的外来病毒和DNA中的基因功能。CRISPR/Cas主要由CRISPR序列元件和Cas基因家族蛋白组成。其中，CRISPR是“簇规则间隔短回文序列”的缩写形式，由29bp的重复序列和32-33bp的非重复序列组成，其结构稳定，由短而高度保守的前导序列，重复序列和间隔子组成[56]；而Cas则代表的是CRISPR RNA(crRNA)结合蛋白，具有切割DNA序列的能力[43]。

CRISPR/Cas系统包含I-VI等6种类型[57]。I型系统的特征蛋白Cas3含有用于降解靶标的DNase和解旋酶结构域，III型CRISPR/Cas系统的特征蛋白Cas10则具有RNase的活性[58]。II型CRISPR/Cas系统包含Cas1、Cas2、Cas9和第4个成员Csn2或Cas4。其中，Cas9是II型CRISPR/Cas系统的标志性基因，其编码的蛋白质除了在crRNA生物合成中起作用，同时在切割外源DNA方面也起着至关重要的作用。CRISPR/Cas9系统由crRNA，反式激活crRNA(tracrRNA)和Cas9蛋白等3部分组成[59]。

1.4.2 CRISPR/Cas9的机制

CRISPR/Cas9由于其简单性、多功能性和专一性，已成为研究基因功能和改善农作物的重要生物技术工具[60]。Cas9具有RuvC和His-Asn-His (HNH)两个DNA切割结构域，其断裂的双链DNA(double-stranded DNA, dsDNA)位点主要位于PAM序列上游3 bp处[61]。HNH结构域切割crRNA的互补链，而RuvC样结构域切割dsDNA的相反链[62]。因此，CRISPR/Cas9使用易错的NHEJ或HR机制在体内修复DNA。NHEJ通常会导致DNA在切割位置随机插入缺失，而HR通过在预测的DSB位点添加具有序列同源性的供体DNA模板来实现供体序列(donor fragment)插入或基因替换[61]。

Cas9与crRNA和tracrRNA建立核糖核蛋白(ribonucleoprotein, RNP)复合物来有效地切割DNA。crRNA在匹配和识别靶标DNA中起至关重要的作用。它包含一个序列，该序列通过与靶DNA的碱基配对将Cas9 RNP引导至特定基因座，形成一个R环。R环的形成激活了HNH和RuvC样核酸内切酶结构域，分别用于切割DNA的靶链和非靶链，形成DSB[63]。tRNA与募集到复合物中的crRNA和Cas9蛋白结合[64]。gRNA是由tRNA和crRNA组成的嵌合分子，由一个18-20-nt间隔序列与PAM附近的靶DNA互补而形成。PAM是一个3-nt(NGG)序列，位于sgRNA目标位点的下游，在和Cas9结合介导的DNA切割中起着至关重要的作用[65]。因此，CRISPR/Cas9基因编辑分三步进行：(1) 核定位Cas9蛋白的表达；(2) 生成含有20-nt与靶基因互补的gRNA；(3) 需要NGG PAM位点识别，且该位点必须位于靶位点3’末端附近。在sgRNA的指导下，sgRNA和Cas9在基因组中搜索靶标，并在PAM位点上游约3 bp处产生平末端DSB[66]。

1.4.3 CRISPR/Cas9的应用

CRISPR/Cas9具有不同的识别位点，可同时编辑多个位点而无需二聚化。Cas9蛋白有与Fok I酶相似的功能，具有高基因编辑效率，低细胞毒性以及对靶位点精确编辑，靶位点外不会发生基因突变，还具有易操作和稳定遗传优势[67]。CRISPR/Cas9技术已广泛用于编辑多种植物功能基因，包括拟南芥[68]、水稻[69]、玉米[70]、大豆[71]、高粱[72]、棉花(陆地棉)[73-74]、番茄[75]和马铃薯[76]等。

在拟南芥原生质体中，基于NHEJ的靶向编辑效率高达5.6%，而在烟草细胞中高达38.5%[77]。2015年，CRISPR/Cas9介导的大豆基因组编辑首次取得成功[78]；李东昊等(2017)使用CRISPR系统同时编辑水稻系统中8个功能基因，证明CRISPR系统可以同时靶向并敲除多个基因，实现多基因同时编辑[79]。Li等使用CRISPR/Cas9编辑棉花GhMYB25-like A和GhMYB25-likeD基因，两个基因靶点的编辑效率分别是14.2%至21.4%[80]。

　1.5 CRISPR/Cas12a (Cpf1)

1.5.1 CRISPR/Cpf1的发现及结构

CRISPR/Cas12a(Cpf1)属于II类CRISPR系统，由RNA引导。该系统主要由弗朗西斯氏菌属(Francisella)的FnCpf1，氨基酸球菌属(Acidaminococcus) 的AsCpf1和毛螺菌科(Lachnospiraceae)的LbCpf1组成，3者均具有DNA核酸内切酶活性。其中FnCpf1与CRISPR/Cas9类似，但表现出一些独特的特征[49]。

Cpf1由单个crRNA引导，并利用富含T的PAM序列切割靶标dsDNA[49]。Cas9切割DNA产生平末端，Cpf1在PAM的远端位置生成末端交错的DSB，这可能具有一定的优势，尤其是在进行基因功能敲入时，可能会提高基于NHEJ机制的敲入效率[81]。

1.5.2 CRISPR/Cpf1作用原理

Cas9利用HNH和RuvC核酸内切酶结构域分别切割目标和非目标DNA链[82]。而Cpf1由一个RuvC核酸内切酶结构域和一个可切割DNA的Nuc结构域组成[83]，并以Nuc域替换了Cas9切割的DNA链的HNH核酶域[84-85,83]。另有报道，Cpf1可作为一种将前体crRNA剪切为成熟crRNA的RNase[86]，并已被用于处理植物中基因编辑的crRNA阵列[87]，这些特征提高了Cpf1切割位点的插入效率[88]。

由crRNA引导的Cpf1与特定PAM附近的DNA靶序列结合，催化DNADSB，激活细胞内NHEJ或HR修复机制，并实现诸如基因敲除、插入和替换的编辑效果[84,89-91,83,92-93]。与Cas9在PAM位点附近引入双链断裂并产生平末端不同[82]，Cpf1切割PAM位点远端的DNA并产生5-nt粘性末端[49]。这一特性使Cpf1成为有效的体外DNA拼接的工具，并基于Cpf1消化和T4 DNA连接酶介导连接建立DNA拼接标准，即C-Brick[94]。值得注意的是，C-Brick标准既能识别长DNA序列，又能在部分之间产生短疤痕，具有广泛的应用潜力。

为进一步探索Cpf1识别和剪切RNA和DNA的机制，研究者从相关结构对其进行了分析，并比较了其与Cas9的异同。Dong等[95]分析了LbCpf1-crRNA二元复合物的晶体结构，表明该复合物为双叶结构，具有三角形外观，且复合物中央带有带正电的通道。与以扩展构象结合Cas9的sgRNA不同，crRNA是高度失真的构象，一旦被Cpf1蛋白中间的寡聚核苷酸结合域(oligonucleotide binding domain, OBD)识别，就会导致Cpf1的松散构象形成紧凑的三角结构。此时，位于蛋白质中心的带正电荷的通道可以接受crRNA和靶序列形成的异源双链体，从而促进下一步反应的进行。据推测，OBD的环状螺旋(looped-out helical domain, LHD)结构域与识别双链DNA底物的PAM序列有关。Stella等[84]确定了三链R环(“R”茎环)结构，对明确FnCpf1准确识别靶DNA序列等相关分子机制具有重要的意义。

1.5.3 CRISPR/Cpf1的编辑特点

与Cas9的机制和结构特征不同，Cpf1不仅在基因编辑中具有更好的切割活性和更高的特异性，而且在多基因编辑中也具有更显著的优势。

1.5.3.1用于切割目标DNA的CRISPR/Cpf1位点

与Cas9使用RuvC和HNH结构域进行平末端切割不同，Cpf1则用RuvC和Nuc结构域将靶DNA的第23位互补链和第18位非互补链作为靶标，以产生交错的切割粘性末端[95]。

除了切割靶DNA的互补链外，Lei等[96]还增加了Cpf1的切割特性。不仅靶标DNA的互补链的23位被切割，而且非互补链的第18位也被切割，并且在非互补链的14至18位形成多个切割位点。此外，还发现Cpf1的切割位点受crRNA间隔子序列长度的影响。当间隔序列的长度大于或等于20时，Cpf1倾向于切割非互补链的第18位；当间隔子序列长度小于20时，Cpf1倾向于切割非互补链的14位。此特性有助于插入新的DNA序列，并使Cpf1更有效地激活HR[93]。同时，Cpf1能在较短间隔子长度的crRNA介导下特异性切割靶DNA的第14与22位，形成8-nt长黏性末端的特征，结合具有高精度连接特性的Taq DNA连接酶，将其开发为体外无缝编辑大型DNA片段的新工具。

15.3.2 CRISPR/Cpf1对PAM选择范围

Cas9蛋白倾向于含G的PAM序列，而5′-NGG-3’PAM在选择CRISPR-Cas靶序列中的作用非常有限。相反，16种Cpf1家族蛋白都显示出对富含胸腺嘧啶的PAM的选择偏好性[49,97-98]。Tu M等[91]发现，FnCpf1对PAM序列的识别可以延长到5′-KYTV-3’。因此，Cpf1的应用开发使基因编辑的选择范围扩大，尤其是它编辑富含嘧啶的PAM的靶位点更具优势。

1.5.3.3 CRISPR-Cpf1的特异性

Cpf1不仅具有更好的切割活性，同时也具有更高的特异性。体外实验中，Kleinstiver等[99]使用GUIDE-seq分析来比较AsCpf1、LbCpf1与SpCas9的脱靶条件。大多数脱靶位点中，Cpf1插入缺失的频率小于0.1％。与SpCas9相比，Cpf1几乎没有脱靶的现象，对基因编辑特别是基因治疗来说更重要[90,99,100]。

1.5.3.4 CRISPR/Cpf1对多基因的编辑

Cpf1丰富了CRISPR家族，Cpf1又以其独特的编辑功能成为Cas9技术的重要补充。基因组功能研究、遗传育种和其他过程中需要多基因突变体，因此使用CRISPR技术对多基因进行编辑非常重要。尽管已经报道Cas9可用于多基因编辑，例如核糖核酸酶和Cas9共表达策略以及转运RNA(tRNA)和导向RNA策略的组合[101-103]，但这些策略在设计、成本或经济上仍然不方便，限制了Cas9在多基因编辑中的应用。

Cpf1则在很大程度上弥补了Cas9在多基因编辑中的缺点。而且与Cas9相比，Cpf1在多基因编辑中具有以下优点：(1) Cas9切割DNA需要两个小RNA分子，而Cpf1只需一个RNA分子；(2) Cas9切割可形成平末端，而Cpf1形成粘性末端，粘性末端比平末端更易于操作；(3) Cpf1切割距离识别位点较远，选择范围较宽；(4) Cpf1可以识别连续2或3胸腺嘧啶(T)的PAM序列，从而扩展基因编辑范围；(5) Cpf1除了能对DNA切割外，同时也能对RNA切割，有利于构建多基因编辑载体[104,55]。

由于Cpf1仅依靠crRNA即可完成基因组编辑且可独立介导pre-crRNA的加工而无需其他分子的干预，RNA的加工能力又独立于DNA剪切功能[49]。利用Cpf1的这一独特功能，Zetsche等[55]设计一个CRISPR阵列，对HEK-293T细胞中的DNMT1、EMX1、VEGFA和GRIN2b等4个基因同时编辑，并对小鼠大脑中的DRD1、MECP2和NLGN33等3个基因同时编辑成功。

1.5.4 CRISPR/Cpf1的应用

CRISPR/Cas9已广泛应用于遗传育种、基因治疗等领域，而Cpf1系统具有多个编辑特点，因而有望成为与Cas9特性互补的一种新基因编辑工具。

Kim等[105]使用AsCpf1和LbCpf1以RNP的形式编辑大豆FAD2基因和烟草AOC基因。Cpf1产生更多的基因功能缺陷类型，且显示出更精确的靶向特异性，也就是说，在每个可能的脱靶位点都没有发现脱靶现象；同时还利用LbCpf1/AsCpf1在烟草叶片原生质体对烟草茉莉酸酯合成酶基因ALLEN OXIDE CYCLASE(AOC)编辑成功。

Yin等使用CRISPR/Cpf1系统研究控制水稻叶片气孔密度的OsEPFL9基因，以OsEPFL9第一个外显子作为基因编辑的靶标位点，结果表明，基因编辑阳性水稻植株的远端表面的气孔密度降低8倍以上[106]。Wang等在3个水稻基因中选择6个位点，比较FnCpf1和LbCpf1的活性，发现Cpf1均可实现有效突变，且FnCpf1的活性低于LbCpf1[107]；同时，Wang等还设计由4个crRNA单元组成的crRNA矩阵序列，分别编辑OsRLK和OsBEL基因，每个位点的敲除效率在40%-75%之间。Hu等也利用Cpf1多基因编辑系统成功地编辑多个水稻基因[108]。Cpf1系统在水稻实现简单有效的多基因编辑，扩展了CRISPR系统在植物中的应用，并为水稻基因组编辑提供了新的工具。

　1.6研究的目的与意义

限制性内切酶通过特异性地识别双链DNA中的特定碱基序列，而且只能识别一个特定位点；同时，限制性内切酶只能剪切DNA，而不能同时对剪切后的DNA片断重新连接。

尽管基因编辑技术不断发展，但仍存在一些不足。首先，目前应用最广泛的CRISPR/Cas9技术一般情况下只能执行基因功能敲除，不能有效地使用同源重组和其他方法来取代基因片段和“敲入”基因功能。最后，尽管CRISPR/Cpf1的PAM与大多数CRISPR/Cas9不同之处在于它在5’端富含T序列，但对PAM序列相对固定的要求也限制了Cpf1在实际应用中对靶标的选择。

而我们在前期实验中发现一种未曾报道过的DNA剪接新机制，即DNA片段在PCR扩增过程中，可以将两个相同的正向重复序列剪切后重新拼接在一起，形成新的较短的序列。本研究旨在统计分析这种新的剪接机制的结果，并作进一步的验证。

这种DNA自我剪接的机制将有可能应用于基因编辑技术体系，在受体生物特定DNA中和供体DNA同时进行定向剪接，实现对基因功能的 “敲入”，从而有可能实现DNA片断定向替换的基因编辑目的，为未来基因编辑技术提供新的思路和方向。

　　1.7 研究内容

本实验选取不同大小的DNA分子片段，这些片断均包含一段特定的发夹结构。我们发现，这些DNA片断在体外PCR扩增过程会发生自我剪切（cleavage)和拼接(splice)。回收剪接后的产物，进行二代高通量测序，对测序结果数据库(clean data)中进行分析：首先在原始的DNA序列里查找到各种正向短重复序列的位置，设想两两序列之间进行剪切再拼接，于是得到拼接后的序列，然后用这些预期拼接后的序列在clean data中进行比对与读数的查找(blast)，记录其剪接序列的读数，对部分有读数的剪接序列做进一步的验证分析。

第二部分试验材料与方法

　2.1试验材料与试剂

2.1.1植物材料

水稻品种日本晴叶片。

2.1.2质粒

包括NJZL ( 2.3 kb) 、F7869 ( 1.0 kb)、F2-28 ( 2.1 kb )等3个质粒，均为带有特定发夹结构(大约500 bp ) DNA的T-载体质粒。

2.1.3试验试剂

PCR扩增MIX(南京诺唯赞)、胶回收试剂盒(天根)、琼脂糖、TAE电泳缓冲液、LB培养基、胰蛋白胨、酵母提取物、氯化钠、琼脂、氨苄青霉素、T-载体连接试剂盒(生工)、Trans1-T1感受态细胞(全式金)、CTAB 、质粒提取试剂盒(Megan)。

2.1.4主要试验试剂的配制

LB液体培养基(400ml)：胰蛋白胨(4g)、酵母提取物(2g)、氯化钠(4g)；固体培养基再加入琼脂(6g)。将以上成分混匀后，加入400ml的超存水，灭菌20 min。

氨苄青霉素：5g Ampicillin置50 ml塑料离心管中，加入40 ml ddH2O，充分混合溶解之后定容至50 ml, 0.22 μm滤膜过滤除菌，小份分装(1 ml/管)后，置于20℃保存。

2% CTAB：CTAB (20 g/L)、NaCl (81.82 g/L)、0.5mol/L EDTA (pH=8.0，40mL/L)、1mol/L Tris-HCl (pH=8.0，100 m L/L)，用去离子水定容至1000mL。

2.1.5试验仪器

表1实验仪器信息

Tab.1Informationof Experimental Instrument

仪器名称	来源
HH-6数显三用恒温水箱	科析仪器
HC-2518高速离心机	中科中佳
D1008E 高速离心机	SCILOGEX
移液枪	GILSON
培清JS-780全自动凝胶成像分析仪	培清
超纯水机	Kertone
超低温冰箱	Thermo
超净工作台	苏净安泰
DYY-6C型电泳仪	北京六一
PCR扩增反应离心管	BIO
GI54DWS立式压力蒸气灭菌锅	ZEALWAY
T-100 PCR扩增仪	BIO
金属浴	COYOTE
WD-9403X蓝光观察仪	北京六一
智能恒温培养振荡器(HNY-2102C)	天津欧诺
电子天平(LQ-A1002)	上海科平

　2.2试验方法

2.2.1水稻叶片DNA的提取(CTAB)

(1) 取适量水稻叶片，12000 rpm离心1 min；

(2) 加700 µl的CTAB在65℃水浴锅加热45 min，后加700 µl氯仿，12000 rpm离心15 min，吸上清；

(3) 2倍体积100%乙醇，-20℃冷冻30 min，12000 rpm离心15 min，弃上清；

(4) 700 µl的70%乙醇洗涤2次(每次12000 rpm离心15 min，且均弃上清)；

(5) 空离2 min，吸出液体，65℃水浴锅凉5 min，加100 µl纯水溶解5 min，振荡摇匀，12000 rpm离心30 s，收集DNA。

2.2.2构建目的基因载体

由金斯瑞生物科技有限公司合成并构建分别含有3个不同长度DNA片段的质粒载体。每个DNA片段除了含有特定的发夹序列(500 bp)外，且不同长度的DNA片段也含有不同的组成结构。

2.2.3 PCR扩增体系

(1) PCR扩增采用25µl的PCR反应体系：DNA模板1 µl、5ʹprimer 1 µl、3ʹprimer 1 µl、Vazyme Green Mix酶12.5µl和ddH2O 9.5µl。PCR的反应条件设置为：94℃预变性5 min，94℃变性30 s，退火温度55-58℃退火30 s，72℃延伸30 s-150 s，设置28-32个循环(温度、时间和循环数主要根据引物的长度大小和酶的扩增效率来确定)，72℃终延伸5 min，12℃保存。

(2) 琼脂糖凝胶电泳检测PCR产物

制胶体系：琼脂糖2 g、缓冲液100 ml，配置好后晃动锥形瓶混匀，放置在微波炉中加热至全部溶解，取出待不烫手后加入核酸染料5 µl，插入梳子等待凝固。琼脂糖凝胶完全凝固后放入电泳池中，在胶孔第一个位置加入DNA ladder Maker，其他位置按照顺序每个孔5 µl的PCR扩增产物，120 V、100 mA，跑样50 min，电泳结束后在紫外成像仪下进行观察，通过DNA ladder Maker大小鉴定是否为需要的DNA条带，然后切出目的条带割胶回收。

2.2.4 PCR产物割胶纯化回收

根据电泳结果割胶回收目的条带，操作步骤如下：

(1) 割胶目的条带，称重加等体积PN溶液，50℃水浴(注意：如果直接纯化，则按1：3比例加入PN溶液)；

(2) 500 µl的BL溶液于CA2吸附柱中，12000 rpm离心1 min弃废液；

(3) 将步骤(1)所得溶液室温放置2 min后加入CA2吸附柱中静置2 min后12000 rpm离心1 min弃废液；

(4) 加600 µl的PW漂洗液室温静置5 min，12000 rpm离心1 min弃废液，此步骤重复2次；

(5) 12000 rpm空离2 min，之后室温静置15 min；

(6) 将吸附柱放在一个新的且干净离心管中，加40 µlddH2O，静置2 min,离心2 min，得到回收产物，置于-20℃保存。

2.2.5 PCR回收产物T-载体连接

回收产物连接T-载体体系：

2×Rapid Ligation Buffer 5 µl、PGEM-T Easy Vector 1 µl、PCR Product 3 µl和T4 DNA Ligase 1 µl，之后4℃连接过夜。

2.2.6转化

回收产物4℃连接过夜后，转化Trans-T1感受态细胞，具体转化步骤如下：

(1) 从-80℃冰箱取出适量Trans-T1感受态细胞于冰上解冻；

(2) 解冻后取5 µl连接产物于50 µl感受态细胞，轻混匀，冰浴30 min；

(3) 冰浴后，42℃水浴锅中热击30 s，在冰浴2 min；

(4) 加500 µl的LB(不含Amp)液体培养，37℃、200 rpm摇床中振荡培养1h；

(5) 吸80 µl细胞悬液均匀涂在(含Amp)LB固体培养基上；37℃培养平板过夜。

2.2.7阳性克隆鉴定

(1) 在含Amp抗性的LB固体平板上挑取单克隆菌落，将其接种于含500 µlAmp抗性的LB液体培养基中，在37℃、200 rpm摇床中振荡培养5h左右；

(2) 取1µl菌液，用相对应的引物配对进行菌落PCR的鉴定。

(3)PCR扩增结束后进行凝胶电泳检测，将获得的阳性克隆单株测序。

2.2.8质粒提取

(1) 目的菌种接种培养过夜摇菌培养，1000 rpm离心1 min弃培养基；

(2) 250 µl Buffer P1，高速重悬细菌；

(3) 250 µl Buffer P2，颠倒混匀8-10次；

(4) 350 µl Buffer NP3,颠倒8-10次彻底中和，13000 rpm离心1 min；

(5) 上清液放入收集管中，13000 rpm离心1 min；

(6) 弃废液，加500 µl Buffer PW1，13000 rpm离心1 min；

(7) 弃废液，加600 µl Buffer PW2，13000 rpm离心1 min，重复操作该步骤；

(8) 弃废液，13000 rpm离心2 min；

(9) 80 µl Elution Buffer, 静置1 min，13000 rpm离心1 min洗脱DNA，质粒-20℃保存。

2.2.9 高通量测序

把1F2R、NJZL、F7869和F2-28的PCR扩增产物分别进行高通量测序。其中1F2R和NJZL的高通量测序由武汉博越致和生物科技有限公司完成，而F7869和F2-28的高通量测序由杭州联川生物技术有限公司完成。

高通量测序前处理：包括片断打断处理和不打断处理。加上通用接头，均连接到通用测序载体上，进行高通量测序。

测序数据整理：对通过高通量测序得到大约6000000条测定的序列(raw data)，剔除通用载体序列后得到clean data数据库。

2.2.10正向重复序列(direct repeats)整理

打开DNAStar中Editseq软件，分别在DNA片断1F2R (1.49 kb)、NJZL (2.3 kb)、F7869 (1.0 kb )、F2-28 (2.1 kb)原始序列中找到所有正向重复序列及其位置，用于分析那些预期的正向重复序列两两之间的剪切和拼接。

2.2.11剪切和拼接结果的查找

根据原始DNA序列里正向重复序列的数量和位置，设想两两之间剪切且拼接可形成一个新的较短的序列。将剪切拼接形成的序列在clean date中进行读数的查找(blast)，分别统计四个DNA片段正向重复序列两两之间剪切拼接后形成新的较短的序列的读数(reads)。

2.2.12验证有读数的剪接序列

对部分读数的剪接序列，在Primer Premier 5软件中设计验证所需的特异引物，并合成设计的引物(生工生物有限公司)。

用设计合成的特异引物进行PCR的扩增，凝胶电泳检测后回收目的条带，将回收产物连接T-载体并转化大肠杆菌、挑取单克隆，同时对挑取的单克隆菌株进行菌液PCR的鉴定，将鉴定出的阳性单克隆菌株测序。

2.2.13高通量测序中重组序列的验证

特异引物进行PCR扩增，凝胶电泳检测后，将目的条带割胶回收，回收产物进行T-载体连接、转化大肠杆菌、挑取单克隆，并对挑取的单克隆菌株进行菌液PCR的鉴定，鉴定出的阳性菌株测序。

第三部分结果与分析

　3.1 1F2R DNA片断PCR过程中剪接结果的统计分析

3.1.1 DNA片断序列结构

1F2RDNA片断全长约1.49 kb(图2B)，其中包含1段长约500 bp特定的发夹结构，即可以产生反向互补的回文结构(图2A)。

3.1.2 1F2R DNA片断高通量测序

引物序列：

1F: 5’AGTTGCTGAGGTTCGTTTGG 3’

2R: 5’TGGAGGTTCTTGAGGCAGTT 3’

以水稻基因组DNA为模板，特异引物1F和2R配对进行PCR扩增。电泳结果可以看出，有最亮的1.49 kb条带。同时，该条带下面还有2个亮度清晰的条带，分别是大小为1.226 kb和0.264 kb的条带(图2C)。

我们将1.49 kb条带下面的1.226 kb条带回收，连接到T载体并转化大肠杆菌，挑单克隆，用通用引物M13F和M13R对T载体质粒测序。将测序结果在DNA Star Megalign软件和Chromas峰形图软件中与原始序列进行仔细的比对和分析，我们发现该1.226 kb片断是由于1.49 kb片断在两对正向重复序列之间分别进行剪切后再拼接形成的：一种是在1.49 kb原始序列内3个GCAGC位点中第1个和第3个之间进行剪切再拼接(图2D)；二是在1.49 kb原始序列内3个TGTAGCC位点中第1个和第2个之间进行剪切再拼接(图2E)。这两种剪切方式中均会有一段0.264 kb的中间片断被切除下来(图2D(c);2E(c))。

这种特殊的DNA片断体外剪切和拼接机制以前未曾报道过。同时，我们还观察到，除了1.49 kb、1.226 kb和0.264 kb这3条亮的PCR产物条带外，电泳图还有其他相对比较弥散的条带。这些结果促使我们作进一步的设想：在体外PCR扩增过程中，1.49 kb片断中其他任意2个正向重复序列之间是否也会发生类似的剪切和拼接呢？也就是说，这种DNA片断体外剪切后拼接的机制是否具有普遍性呢？

为了验证这个猜想，我们将1.49 kb于DNA片断作模板扩增的所有PCR产物混合回收，进行高通量测序，对这个特殊的剪切和拼接机制进行更深入的分析与验证。

图 2 PCR扩增1F2R(1.49 kb) DNA片段时在2对正向重复序列(GCAGC或TGTAGCC)位点处进行自我剪切和拼接

(A) 500 bp发夹结构示意图； (B) 1F2R (1.49 kb) DNA片断序列结构；(C)PCR扩增1F2R (1.49 kb) DNA片段的凝胶电泳以及可能由1F2R (1.49 kb) DNA片段PCR扩增过程中的自我剪切、拼接或缺失产生的较小DNA片段；(D) (a) 由1F2R (1.49 kb) DNA片段PCR扩增过程中自我剪切和拼接产生的1F2R (1.49 kb) (WT)和CSF1 (1.226 kb) DNA片段在Megalignment中的部分对比结果；剪切和拼接位点在1对正向重复的GCAGC上(第1和第3个位点，浅蓝色下划线)；(b) 1.226 kb DNA片段的部分色谱图；(c)PCR扩增1F2R (1.49 kb) DNA片段的自我剪切和拼接机制的示意图，自我剪切和拼接后仅有的正向重复序列GCAGC用浅蓝色表示；(E) (a) 1F2R (1.49 kb) (WT)和CSF1(1.226 kb)DNA片段在Megalignment中的部分对比结果；后者是由前者中1对正向重复序列TGTAGCC (第1和第2个位点，蓝色下划线)之间的自我剪切和拼接产生的；(b)1.226 kb DNA片段的部分色谱图；(c) PCR扩增1F2R (1.49 kb) DNA片段的自我剪切和拼接机制的示意图，自我剪切和拼接后保留的正向重复序列TGTAGCC用蓝色表示。在(D)和(E)中，相同颜色的下划线表示相同的碱基序列。

Fig. 2 Self-cleavage-and-splice at pair of direct repeats, GCAGC or TGTAGCC, in the 1F2R(1.49 kb) DNA fragment during PCR amplification

(A) Schematic demonstration of the 500 bp hairpin; (B)Structure of 1F2R (1.49 kb) DNA fragment sequence; (C)Agarose gel electrophoresis of PCR-amplified 1F2R (1.49 kb) DNA fragment along with smaller DNA fragments probably resulting from self-cleavage-and-splice or deletion during PCR amplification of 1F2R (1.49 kb) DNA fragment; (D) (a)Partial megalignment of the DNA fragments of 1F2R (1.49 kb) (WT) and CSF1 (1.226 kb) resulting from self-cleavage-and-splice of 1F2R (1.49 kb) DNA fragment during PCR amplification. The cleavage-and-splice site is at the pair of direct repeat GCAGC (the first and third copies, light blue-underlined);(b)Partial chromatogram of 1.226 kb DNA fragment;(c) Schematic demonstration of the self-cleavage-and-splice mechanism of 1F2R (1.49 kb) DNA fragment during PCR amplification. The only direct repeat GCAGC remaining after self-cleavage- and-splice was colored in light blue; (E) (a) Partial megalignment of the DNA fragments of 1F2R (1.49 kb) (WT) and the around 1.226 kb (CSF2); the later resulted from the self-cleavage-and-splice at pair of direct-repeat TGTAGCC (the first and second copies, blue-underlined), in the former; (b)Partial chromatogram of the around 1.226 kb DNA fragments as shown in B; (c)Schematic demonstration of the self-cleavage-and-splice mechanism of 1F2R (1.49 kb) DNA fragment during PCR amplification. The only direct repeat TGTAGCC remaining after self-cleavage-and-splice was colored in blue. In(C)and (D), the same-colored underlines annotating base sequences represented identical sequences.

3.1.3正向重复序列(direct repeats)位点的整理

在对高通量测序结果的序列库(read database)进行查找和比对之前，首先我们对1F2R (1.49 kb)原始序列中所有的正向重复序列列出清单。表2列出1F2R (1.49 kb)片断中部分正向重复序列的位置，其余的正向重复序列位置统计附表A。可以发现，在1F2R (1.49 kb)序列中，有较多的正向重复序列，碱基数呈现出5-20 bp不等。

表21F2R (1.49 kb)片断中部分正向重复序列位置

Tab. 2 Partiallist ofdirect repeats in 1F2R (1.49 kb) DNA fragment

碱基数(bp)	正向重复序列	位置1	位置2	位置3	位置4	位置5	位置6	位置7
5	GTAGG	1194	1254
6	GTTTTA	249	424	436	460	707
7	AAAACTA	194	226	259	290	383	414
8	ATCTGTAG	484	577	640	669	700	766
9	ATTGGCTAT	860	872
10	AAATCTGTAG	575	638	667	764
11	ACAAAACTACA	192	224	257	288	381
12	ATCTGTAGTTTT	484	577	640	669	700
13	TGTAGTTTTGTGA	487	519	551	580	611	643	672
14	CTGTAGTTTTGTGA	486	550	579	642	671
15	TGTAGTTTTGTGATA	580	611	672
17	TCACAAAACTACAGGTA	190	255
18	TTTATCACAAAACTACAG	218	251	375
19	AATCTGTAGTTTTGTGATA	483	576	668
20	TTAAATCTGTAGTTTTGTGA	573	636

3.1.4两个正向重复序列之间的剪接结果统计

获得高通量测序结果后，我们先设想1F2R (1.49 kb)体外PCR扩增过程中，如果两个相同的正向重复序列剪切后重新拼接后形成新的较短序列，保留一个重复序列。然后我们利用这个假设产生的新序列在数据库里进行比对，查找数据库里面是否存在这样对应的序列读数。结果发现，对于大部分正向重复序列来说，数据库中确实存在两个正向重复序列之间剪切后再拼接形成的新的较短序列读数。

通过在高通量测序数据库中查找这些设想可能通过以上所描述的剪切拼接机制产生的剪接序列，我们发现，这些剪接序列存在与否的情况是：读数(read) 为0，表明可能相应的两个重复序列之间没有发生剪接事件(event)；二是剪接序列有一定数量的读数(reads)，表明相应的两个重复序列之间发生剪接事件。

我们对部分有读数的序列做进一步的验证分析。表3列出1F2R (1.49 kb)片断中部分正向重复序列剪接的结果，剪接序列中所有的红色和黑色标记均指代不同的碱基序列，其中红色标记均为正向重复序列的本身，而两边的黑色标记是各自的正向重复序列两边的序列。其余1F2R (1.49 kb)片断正向重复序列两两位点之间剪接结果的统计附表B。

表3 1F2R (1.49 kb)片断中部分正向重复序列剪接结果的统计

Tab.3Result statistics of cleavage-and-splice of 1F2R(1.49 kb) DNA fragment between some pair of of direct repeats

正向重复序所在位置及个数	剪接位点	剪接序列	读数(reads)
正向重复序所在位置及个数	剪接位点	剪接序列	NJZL-1 R1	NJZL-1 R2	NJZL-2 R1	NJZL-2 R2
AGTGTCT 3个(240-365-397)	1-2	GATTTAGTGTCTTCATT	30	32	0	1
	1-3	GATTTAGTGTCTCCATT	15	8	3	4
	2-3	CATTTAGTGTCTCCATT	33	35	0	1
ATTTAGTGT 3个(236-329-361)	1-2	TACAGATTTAGTGTATTCG	3	7	0	0
	1-3	TACAGATTTAGTGTCTTCA	34	28	0	1
	2-3	TATAGATTTAGTGTCTTCA	13	4	0	0
AGAGA 3个(742-744-1208)	1-2	AAGGAAGAGAAGAGC	0	0	0	0
	1-3	AAGGAAGAGAAATTA	0	0	0	0
	2-3	GGAAGAGAGAAATTA	0	0	0	0
TTTATCACAAAACTACAG 3个(218-251-375)	1-2	TACAATTTATCACAAAACTACAGGTACT	4	3	0	0
	1-3	TACAATTTATCACAAAACTACAGATTCA	30	27	1	0
	2-3	TTCGTTTTATCACAAAACTACAGATTCA	11	6	0	4

注：红色标注序列为剪接后保留的一个重复序列本身，红色标注序列两端分别为剪接处两个正向重复序列中前一个重复序列的前端序列和后一个重复序列的后端序列。

3.1.5 1F2R内正向重复序列GTAGG之间剪接验证的结果

(1) 设计引物的序列：

ctcgatctcgtaggggaagtagaaggaagtagaagaggaaaggatgttgagatgaacattgggataagggtggtgaggcttagatcggaggcggtgatggagcttcgaccatgtggcgacactattgaaaagtattggacaagggtgtttgcgttggcgtggccatggaggtccagacaacggatgcttcacatcttggtgtggttgcgagtggcggcgatggacagggcaggcacaactgcctcaagaacctcca

(2) 引物序列：

GTAGGF1: 5ʹCTCGATCTCGTAGGGGAAGTAGAA3ʹ

GTAGGR1: 5ʹGGAGGTTCTTGAGGCAGT3ʹ

GTAGGR2: 5ʹTGTGAAGCATCCGTTGTC3ʹ

注：GTAGGF1为正向重复序列两两之间剪切拼接的序列

前期的位点统计结果表明，原始序列里只有两个GTAGG位点，分别是1194和1254。

以水稻基因组DNA为模板扩增1F2R (1.49 kb)片断的回收产物为模板，引物1F和2R配对PCR扩增产物作为验证GTAGG剪接序列的模板。引物GTAGGF1和GTAGGR1(目的条带大小254 bp)、GTAGGF1和GTAGGR2(目的条带大小192 bp)分别配对来验证这2个位点之间否真的存在剪切拼接的情况。

凝胶电泳结果中，我们可以看到这两种引物搭配都有扩增条带(图3A)，且都与预期的目的条带大小接近，这进一步说明该重复序列之间有可能存在有和GCAGC(1-3位点)和TGTAGCC(1-2位点)相似的剪接情况。

为了进一步验证这个相似的剪接情况，我们把GTAGGF1+GTAGGR1搭配所扩增出来的条带割胶回收连接T-载体并转化大肠杆菌、挑选20个单克隆。对挑取的单克隆用GTAGGF1+GTAGGR1引物进行菌液PCR鉴定，可以看到20个单克隆菌株中有16个菌珠DNA模板扩增出预期大小的DNA条带(图3B)。挑取4个单克隆菌液PCR产物测序。

将测序结果在DNA Star MegAlign软件中与原始序列进行比对分析，发现所测序的4个PCR产物中有3个是在预期位置，即1194-1254之间剪接形成的(图3C)。表明GTAGG的2个位点之间存在剪接机制。

由于我们并不能确定这个新的剪接机制是否具有普遍性，且1或2个正向重复序列的剪接结果也不能说明这个新的剪接机制就一定具有普遍性，于是我们又继续对1F2R(1.49 kb)DNA片断里的其他正向重复序列进行了分析与验证。

(A)以1F2R(1.49 kb)回收产物为模板并以引物1F+2R配对进行PCR扩增的产物为DNA模板，引物GTAGGF1+GTAGGR1、GTAGGF1+GTAGGR2分别配对进行PCR扩增的凝胶电泳结果；1-10：引物GTAGGF1+GTAGGR1配对；14-23：引物GTAGGF1+GTAGGR2配对；11和24：阴性对照；(B)以引物GTAGGF1+GTAGGR1配对PCR扩增的回收产物连接T-载体转化大肠杆菌挑取单克隆菌落为DNA模板，引物GTAGGF1+GTAGR1对单克隆进行菌液PCR扩增的凝胶电泳结果；1-20：引物GTAGGF1+GTAGGR1配对，21：阴性对照；(C)(B)中PCR产物测序结果。M：DNA ladder Marker。

Fig. 3 Verification of self-cleavage-and-splice between pair of direct repeat GTAGG

(A) Agrose gel electrophoresis of PCR product amplified by using primer set of GTAGGF1+GTAGGR1 and GTAGGF1+GTAGGR2,and recovered 1F2R (1.49 kb) product as template with primer set of 1F+2R PCR product amplified as DNA template; 1-10: primer set of GTAGGF1+GTAGGR; 14-23: primer set of GTAGGF1+GTAGGR2; 11 and 24: negative control; (B)Agrose gelelectrophoresis of PCR product amplified by using primer set of GTAGGF1+GTAGGR1, and monoclones of E. colitransformed with T-vector harbouring PCR product of F1R1 as DNA template; 1-20: primer set of GTAGGF1+GTAGGR1; 21: negative control; (C)Sequencing results of PCR product as mentioned in (B). M: DNA ladder Marker.

3.1.61F2R内正向重复序列TGTGG之间剪接验证的结果

(1) 设计引物的序列：

ttggcccgtgtggcgacacgacactattgaaaagtattggacaagggtgtttgcgttggcgtggccatggaggtccagacaacggatgcttcacatcttggtgtggttgcgagtggcggcgatggacagggcaggcacaactgcctcaagaacctcca

(2)引物序列：

TGTGGF1: 5ʹTTGGCCCGTGTGGCGACA 3ʹ

TGTGGR1:5ʹTGGAGGTTCTTGAGGCAGT 3ʹ

TGTGGR2:5ʹTGTGCCTGCCCTGTCCAT 3ʹ

注：TGTGGF1为正向重复序列两两之间剪切拼接的序列

前期的位点统计结果表明，在原始序列中有3个TGTGG位点，分别是25、1346和1434。本结果验证25-1346之间的剪接方式(位置)。

以1F2R (1.49 kb)片断为模板，引物1F和2R配对进行PCR扩增的产物作为验证TGTGG剪接序列的DNA模板。然后用引物TGTGGF1和TGTGGR1(目的条带大小157 bp)、TGTGGF1和TGTGGR2(目的条带大小138 bp)分别配对，进行PCR扩增。凝胶电泳结果表明，虽然两种引物搭配都有条带，但TGTGGF1与TGTGGR1引物搭配扩增的条带更接近预期的目的条带大小位置(图4A)。

为了验证TGTGG的25和1346两个位点之间剪接拼接形成的新的较短的序列是否存在，因此我们把引物TGTGGF1+TGTGGR1搭配所扩增出来的条带割胶回收，连接T-载体转化大肠杆菌，挑选20个单克隆。用这些单克隆菌液作DNA模板，引物TGTGGF1与TGTGGR1配对进行菌液PCR鉴定，其中13个菌株DNA模板扩增预期大小的PCR产物(图4B)。随机挑取4个单克隆菌液PCR产物测序。

测序结果表明，所测序的4个PCR产物中有2个是在预期位置，即25-1346之间剪接形成的(图4C)。说明在25和1346这两个位点之间正向重复序列TGTGG具有剪接机制的存在。

这进一步说明剪接机制在1.49 kb DNA片断里可能具有普遍性，为了更进一步的证明剪接机制在1.49 kb DNA片断里具有普遍性，针对1.49 kb DNA片断里的其他正向重复序列两两位点之间剪接形成的序列我们做了进一步验证。

图4正向重复序列TGTGG之间剪接验证

(A) 以1F2R (1.49 kb)片断为模板并以引物1F+2R配对进行PCR扩增的产物为DNA模板，引物TGTGGF1+TGTGGR1、TGTGGF1+TGTGGR2分别配对进行PCR扩增的凝胶电泳结果；1-7：引物TGTGGF1+TGTGGR1配对；11-16：引物TGTGGF1+TGTGGR2配对；8和21：阴性对照；(B)引物TGTGGF1+TGTGGR1配对PCR扩增的回收产物连接T-载体，转化大肠杆菌挑单克隆菌液为DNA模板，引物TGTGGF1+TGTGGR1进行菌液PCR扩增的凝胶电泳结果；1-20：引物TGTGGF1+TGTGGR1配对，21：阴性对照；(C)(B)中PCR产物测序结果。M：DNA ladder Marker。

Fig. 4 Verification of self-cleavage-and-splice between pair of direct repeat TGTGG

(A) Agarose gel electrophoresis of PCR product amplified using primer set of TGTGGF1+TGTGGR1 and TGTGGF1+TGTGGR2, and 1F2R (1.49 kb)fragmentas template with primer set of 1F+2R PCR product amplified as DNA template; 1-7: primer set of TGTGGF1+TGTGGR1; 11-16: primer set of TGTGGF1+TGTGGR2; 8 and 21: negative control; (B)Agarose gelelectrophoresis of PCRproduct amplified by using primer setof TGTGGF1+TGTGGR1, and monoclones of E. colitransformed with T-vector harbouring PCR product of F1R1 as DNA template; 1-20: primer set of TGTGGF1+TGTGGR1; 21: negative control; (C)Sequencing results of PCR product as shown in(B).M: DNA ladder Marker.

3.1.7 1F2R内正向重复序列GCAGC之间剪接验证的结果

(1) 设计引物序列：

agagagaagagcagcacagaacagactccaagacctaacgtgtgtgtgattggtgggaccaggtattaatagtatagtaagcaactattgtatgaattggctattatattggctatagatgatttggagcttactattatagctagccaatctaatagtttattcatacaatagttacttataaacatatactacaccattaatatatggtcccgcctctcgtacacatataacgttttggagtctgtgctgcagctggctacaaatttgtagcctgctttgcttctctctcctcttttttctcttccacatgtgcttatagctgacttgtagcctgctattgtacctgctctaaacgagattcaataaaatgttactattaaataatgggcacttattaaatctttacgtagacctctactcgatctcgtaggagaaataaaagagaaattatattgtgaatctttgctgagacttttactcgatcttgtaggggaagtagaagaggaaaggatgttgagatgaacattgggataagggtggtgaggcttagatcggaggcggtgatggagcttcgaccatgtggcgacactattgaaaagtattggacaagggtgtttgcgttggcgtggccatggaggtccagacaacggatgcttcacatcttggtgtggttgcgagtggcggcgatggacagggcaggcacaactgcctcaagaacctcca

(2) 引物序列为：

GCAGCF1:5ʹAGAGAGAAGAGCAGCACAGA3ʹ

GCAGCR1:5ʹGCACAGACTCCAAAACGT3ʹ

GCAGCR2:5ʹATTTGTAGCCAGCTGCAG3ʹ

注：GCAGCF1为正向重复序列两两之间剪切拼接的序列

前期正向重复序列位点整理结果表明原始序列里有3个GCAGC位点，即752、780和1016处，本结果验证752-780之间的剪接方式(位置)。

以1F2R (1.49 kb)片断为模板，引物1F 和2R 配对进行PCR扩增的产物作为验证GCAGC剪接序列的模板。然后用引物GCAGCF1和GCAGCR1(目的条带大小249 bp)、GCAGCF1和GCAGCR2(目的条带大小266 bp)分别配对，进行PCR扩增。凝胶电泳表明，两种引物搭配都有条带，但引物GCAGCF1+GCAGCR1配对扩增的条带更符合预期的目的条带(图5A)。

虽然通过PCR扩增有所需的目的条带，但是这不能说明在752和780这两个位点之间就存在与752和1016这两个位点之间相似的剪接机制，所以我们把GCAGCF1+GCAGCR1引物配对扩增的条带割胶回收进行T-载体连接、转化大肠杆菌，挑选20个单克隆。在以挑取的单克隆菌液为DNA模板，GCAGCF1+GCAGCR1引物配对进行菌液PCR鉴定，有12个菌株作DNA模板扩增有预期大小的PCR产物条带(图5B)。随机取4个单克隆菌液PCR产物测序。

将测序结果与原始序列比对分析后发现，测序的4个PCR产物均是以预期剪接方式(位置)形成的，即752-780之间(图5C)。测序结果同样表明在752和780这两个位点之间具有剪接机制的存在

图5 正向重复序列GCAGC之间剪接验证

(A)以1F2R (1.49 kb)片断为模板并以引物1F+2R配对进行PCR扩增的产物为DNA模板，引物GCAGCF1+GCAGCR1、GCAGCF1+GCAGCR2分别配对PCR扩增的凝胶电泳结果；1-9：GCAGCF1+GCAGCR1配对；13-21：GCAGCF1+GCAGCR2配对；10和22：阴性对照；(B)引物GCAGCF1+GCAGCR1配对PCR扩增的回收产物进行T-载体连接转化大肠杆菌，挑取的单克隆的菌液DNA为模板，引物GCAGCF1+GCAGCR1配对对菌液PCR扩增凝胶电泳结果；1-20：GCAGCF1+GCAGCR1；21：阴性对照；(C)(B)中PCR产物测序结果。M：DNA ladder Marker。

Fig. 5 Verification of self-cleavage-and-splice between pair of direct repeat GCAGC

(A)Agarose gel electrophoresis of PCR product amplified by using primer sets of GCAGCF1+GCAGCR1 and GCAGCF1+GCAGCR2, and 1F2R (1.49 kb)fragmentas template with primer set of 1F+2R PCR product amplified as DNA template; 1-9: primer set of GCAGCF1+GCAGCR1; 13-21: primer set of GCAGCF1+GCAGCR2; 10 and 22: negative control;(B) Agarose gelelectrophoresis of PCR product amplified using primer set of GCAGCF1+GCAGCR1, and DNA template ofmonoclones of E. colitransformed with T-vector harbouring PCR product of GCAGCF1+GCAGCR1 as DNA template.after ligating the recovered product of F1+R1 into the T-vectors; 1-20: primer set of primers GCAGCF1+GCAGCR1; 24: negative control;(C)Sequencing results of PCR product as mentioned in (B).M：DNA ladder Marker.

通过对1F2R (1.49 kb)DNA片断里的部分正向重复序列剪接结果的统计分析与验证，我们发现1.49 kb片断中的2个正向重复序列之间确实存在剪接机制，这也进一步的说明DNA片断体外定向剪接机制可能具有普遍性。但是这个普遍性也仅限于1F2R (1.49 kb)DNA片断。

为了研究这个新的剪接机制在其他不同长度的DNA片断里是否同样具有普遍性，我们随后又继续做了NJZL(2.3kb)、F7869(1.0kb)、F2-28(2.1kb)这三个不同长度DNA片断的相关实验。

　3.2 质粒NJZL中插入片断PCR过程中剪接结果的统计分析

3.2.1载体构建

为了进一步验证上述所发现的由发夹结构介导的DNA体外剪切拼接机制是否广泛存在，我们构建NJZL质粒载体(图6A)。该载体基本骨架是T-载体pUC57，多克隆位点插入全长大约2.3 kb的融合片断，其中包含长约500 bp的发夹序列和约1.35 kb的大肠杆菌基因组转座子(DNA)片段(图6A)。

3.2.2 质粒NJZL DNA片断高通量测序

以质粒NJZL作DNA模板，特异引物CellF1和CellR1配对，进行PCR扩增。凝胶电泳结果表明，除1条较亮的主条带外，还有其他不同亮度的条带(图6B)。

同样，我们猜想这可能是由于在PCR扩增过程中，DNA片断自身发生剪切后拼接所产生的。为了进一步验证这个猜想，我们将其PCR产物混合回收，进行高通量测序，在测序结果查找所有期望的读数(reads)，并对查找结果进行统计分析和验证。

图6 人工构建(合成)NJZL载体结构及NJZL质粒为DNA模板并以引物CellF1和CellR1配对PCR扩增的凝胶电泳结果

(A) 人工构建(合成)的NJZL的载体结构；(B)NJZL质粒为DNA模板，引物CellF1+CellR1配对进行PCR扩增产物凝胶电泳结果。

Fig. 6 Artificially synthesized vector NJZL and agarosegel electrophoresis of PCR product amplified using primerset of CellF1+CellR1,and NJZL plasmidas DNAtemplate

(A)Schematic diagram of structure of artificially synthesizedvector NJZL; (B)Agarose gel electrophoresis of PCR productamplified using primer set of CellF1+CellR1 and NJZL plasmid as template.

3.2.3正向重复序列(direct repeats)位点的整理

同样，我们先用软件在NJZL (2.3 kb)DNA片断原始序列中搜索并整理出所有的正向重复序列。统计结果总体来看，碱基数长度为5-22 bp。表4列出NJZL (2.3 kb)中部分正向重复序列的位置，其余正向重复序列位置统计附表C。

表4NJZL (2.3 kb)片断中部分正向重复序列位置

Tab.4Partiallist ofdirect repeats in NJZL (2.3 kb) DNA fragment

碱基数(bp)	正向重复序列	位置1	位置2	位置3	位置4	位置5
5	TTTGC	1065	1537	2044	2230
6	AAGTAC	530	622	807	1565
7	TATTAAA	372	436	2143	2161
8	CGTGTAGT	380	1498
9	GATTTATAC	1149	1338
10	GCAAGCCAAC	846	1760
11	TGTAGCCTGCT	2034	2094
12	ATCTGTAGTTTT	410	503	566	595	1965
13	ATTTAGTGTCTTC	162	287
14	TCACAAAACTACAG	116	148	181	305
15	TGTAGTTTTGTGATA	413	506	537	598
17	TCACAAAACTACAGGTA	116	181
18	AAATCTGTAGTTTTGTGA	501	564	593
19	AATCTGTAGTTTTGTGATA	409	502	594
20	AAATCTGTAGTTTTGTGATA	501	593
22	ATTTATCACAAAACTACAGATT	143	300

3.2.4两个正向重复序列之间的剪接结果统计

在对剪接结果分析统计时我们发现，这些剪切后重新拼接形成的序列有两种不同的情况：一是两两位点之间可能不存在剪接机制，表现为剪接序列查找的读数(reads)为0；二是两两位点之间可能存在剪接机制，表现为剪接序列查找后有一定数量的读数(reads)。

同样，我们针对其中部分有剪接序列读数结果做进一步的验证。表5列出NJZL (2.3 kb)片断在部分正向重复序列中剪接的结果，剪接序列中所有的红色和黑色标记分别指代正向重复序列的本身和各自的正向重复序列两边的序列。其余NJZL (2.3 kb)片断正向重复序列位点之间剪接结果的统计详见附表D。

表5NJZL (2.3 kb)片断中部分正向重复序列剪接结果的统计

Tab. 5 Statistics of reads with recombination sequence by cleavage-and-splice at partial pairs of direct repeat of NJZL (2.3 kb)DNA fragment

正向重复序列所在位置及个数	剪接位点	剪接序列	读数(reads)
正向重复序列所在位置及个数	剪接位点	剪接序列	NJZL-1 R1	NJZL-1 R2	NJZL-2 R1	NJZL-2 R2
TGTTGAG 3个766-1777-2279	1-2	CGAACTGTTGAGTCGTT	0	0	0	0
	1-3	CGAACTGTTGAGATGAA	0	0	0	0
	2-3	TAAGCTGTTGAGATGAA	0	0	0	0
AAGCCAGC 2个79-1359	1-2	GGCCTAAGCCAGCATCAC	2	2	25	15
AATCTGTAGTTTTGTGATA 3个409-502-594	1-2	CACTGAATCTGTAGTTTTGTGATATAGTG	21	16	0	1
	1-3	CACTGAATCTGTAGTTTTGTGATAGATCA	13	7	0	0
	2-3	TCTTAAATCTGTAGTTTTGTGATAGATCA	26	22	1	2

3.2.5 NJZL内正向重复序列AAGCCAGC之间剪接验证的结果

以从JY13中提取的质粒NJZL为DNA模板，通用引物M13F和M13R配对进行PCR扩增。凝胶电泳结果表明，2.0kb左右的条带最亮且是目的条带(图7A)，将其割胶回收，后以其回收产物为模板进行PCR扩增。

以上述质粒胶回收产物为DNA模板，通用引物M13F和M13R配对进行增PCR扩增，凝胶电泳结果表明和直接以提取的NJZL质粒为模板扩增的条带所在位置相符(图7B)，将其PCR产物纯化回收，以其为DNA模板进行剪接序列的验证。

图7 JY13中提取的质粒NJZL为DNA模板以引物M13F+M13R配对PCR扩增的凝胶电泳结果

(A)JY13中提取的质粒NJZL为DNA模板并以引物M13F+M13R配对进行PCR扩增产物的凝胶电泳；(B)以(A)中PCR扩增的回收产物为DNA模板，引物M13F+M13R配对进行PCR扩增产物的凝胶电泳结果。

Fig. 7 Gel electrophoresis of PCR product amplified using primer set of M13F+M13R，and NJZL plasmidextracted fromJY13 as DNA template

(A)Agarose gel electrophoresis of PCR product amplified by using primer set of M13F+M13Rand NJZL plasmid extracted from JY13 as DNA template; (B) Agarose gel electrophoresis of PCR product amplified by usingprimer set of M13F+M13R, and recovered product of PCR amplification in (A) as DNA template.

(1) 设计引物序列：　TAAATGGCCTAAGCCAGCATATCACTGACAATGAGCGGTGTGGTGTTACTCGGTAGAATGCTCGCAAGGTCGGCTAGAAATTGGTCATGAGCTTTCTTTGAACATTGCTCTGAAAGCGGGAACGCTTTCTCATAAAGAGTAACAGAACGACCGTGTAGTGCGACTGAAGCTCGCAATACCATAAGCCGTTTTTGCTCACGGATATCAGACCAGTCAACAAGTACAATGGGCATCGTATTGCCCGAACAGATAAAGCTAGCATGCCAACGGTATACAGCGAGTCGCTCTTTGTGGAGGTGACGATTACCTAACAATCGGTCGATTCGTTTGATGTTATGTTTTGTTCTCGCTTTGGTTGGCAGGTTACGGCCAAGTTCGGTAAGAGTGAGAGTTTTACAGTCAAGTAAGGCGTGGCAAGCCAACGTTAAGCTGTTGAGTCGTTTTAAGTGTAATTCGGGCAGAATTGGTAAAGAGAGTCGTGTAAAATATCGAGTTCGCACATTTTGTTGTCTGATTATTGATTTTTGGCGAAACCATTTGATCATATGACAAGATGTGTATCTACCTTAACTTAATGATTTTGATAAAAATCATTAGGGGATTCATCAGTGCAAAGTATCTGTAGTTTTATGAAATTTACTCTTTAAAAAAATAAAGGAAGAGAGAAGAGCGGCGGGTTACAAATCTGTAGCCTGCTTTGCTTCTCTCTCCTCTTTTTTCTCTTCCACATGTGCTTATAGCTGACTTGTAGCCTGCTATTGTACCTGCTCTAAACGAGATTCAATAAAATGTTACTATTAAATAATGGGCACTTATTAAATCTTTACGTAGACCTCTACTCGATCTCGTAGGAGAAATAAAAGAAAATTATATTGTGAATCTTTGCTGAGACTTTTACTCGATCTTGTAGGGGAGTAGAAGAGGAAAGGATGTTGAGATGAACATTGGGATAAGGGCTCTCTCCTCAATCTCTAGA

(2) 引物序列：

AAGCCAGCF1:5ʹTAAATGGCCTAAGCCAGCAT 3ʹ

AAGCCAGCR1:5ʹCAACCAAAGCGAGAACAA 3ʹ

AAGCCAGCR25ʹATCTGTTCGGGCAATACG 3ʹ

注：AAGCCAGCF1为正向重复序列两两之间剪切拼接的序列

前期位点统计结果表明，在NJZL (2.3 kb)原始序列中有两个AAGCCAGC位点，分别是79和1359。

为了进一步验证这个新的剪接机制是否同样在NJZL(2.3 kb)DNA片断的PCR扩增过程也存在，我们以JY13中提取的质粒NJZL 为DNA模板PCR扩增的纯化回收产物稀释50倍后为DNA模板，引物AAGCCAGCF1和AAGCCAGCR1(目的条带大小357 bp)、AAGCCAGCF1和AAGCCAGCR2(目的条带大小250 bp)分别配对，进行PCR扩增。凝胶电泳结果表明，两种引物搭配的扩增均有条带(图8A)，说明该重复序列之间可能存在和1F2R (1.49 kb)DNA片断相似的剪接情况。

因此我们把AAGCCAGCF1+AAGCCAGCR1搭配扩增出的条带割胶回收进行T-载体连接、转化大肠杆菌，挑选20个单克隆。以挑取的单克隆菌液为DNA模板，引物AAGCCAGCF1+AAGCCAGCR1配对进行菌液PCR鉴定，其中6个单克隆菌液作DNA模板扩增有条带(图8B)。将有PCR产物条带的编号的单克隆菌液进行测序，获得T-载体中插入的相应的PCR产物片断的序列。

测序结果在DNA Star Megalign软件中与原始序列进行比对分析发现，其中5个菌液作DNA模板的PCR产物是在预期位置79-1359之间剪接产生的 (图8C)。

本结果说明了这个新的剪接机制同样发生在NJZL(2.3 kb)DNA片断的PCR扩增过程。

图8正向重复序列AAGCCAGC之间剪接验证

(A)以从JY13提取的质粒NJZL为模板PCR扩增的纯化回收产物稀释50倍为DNA模板，引物AAGCCAGCF1+AAGCCAGCR1、引物AAGCCAGCF1+AAGCCAGCR2分别配对进行PCR扩增的凝胶电泳结果；1-9：引物AAGCCAGCF1+AAGCCAGCR1配对；13-21：引物AAGCCAGCF1+AAGCCAGCR2配对；10和22：阴性对照；(B)引物AAGCCAGCF1+AAGCCAGCR1配对PCR扩增的回收产物连接T-载体挑取单克隆后再用引物AAGCCAGCF1+AAGCCAGCR1对单克隆菌液PCR扩增的凝胶电泳结果；1-20：引物AAGCCAGCF1+AAGCCAGCR1配对，21：阴性对照；(C) (B)中PCR产物测序结果。M：DNA ladder Marker。

Fig. 8 Verification of self-cleavage-and-splic at pair of direct repeat AAGCCAGC

(A)Agarose gel electrophoresis of PCR product amplified using primer set of AAGCCAGCF1+AAGCCAGCR1and AAGCCAGCF1+AAGCCAGCR2, and NJZL plasmid extracted from JY13 as template, the PCRpurify recovered product diluted 50 times as DNA template; 1-9: primer set of AAGCCAGCF1+AAGCCAGCR1; 13-21: primer set of AAGCCAGCF1+AAGCCAGCR2; 10 and 22: negative control;(B) Agarose gelelectrophoresis of PCRproduct amplified using primer set of AAGCCAGCF1+AAGCCAGCR1, and single clones as DNA template of E. colitransformed with T-vector harbouring PCR product of AAGCCAGCF1+AAGCCAGCR1; 1-20: primer set of AAGCCAGCF1+AAGCCAGCR1; 24: negative control;(C)Sequencing results of PCR product as mentioned in(B). M : DNA ladder Marker.

　3. 3 质粒F7869 中插入片断PCR过程中剪接结果的统计分析

3.3.1载体构建

前面我们研究结果表明，2个含有500 bp发夹结构的DNA片断在体外PCR过程中在任何2个相同的正向重复序列之间都可以进行剪切后再拼接。

本章我们再次人工构建F7869载体(图9A)。该载体骨架仍为T-载体pUC57，在多克隆位点插入的DNA片断全长大约1.0 kb，其中500 bp的发夹序列后面接一段长约500 bp的大肠杆菌aroA功能基因的部分片段。

3.3.2 质粒F7869 DNA片断高通量测序

将质粒F7869(1.0 kb)直接转化大肠杆菌涂板后挑10个单克隆菌株(编号为1-1~1-10)，以其中编号为1-2的单克隆菌液为DNA模板，通用引物M13F和M13R配对，进行PCR扩增。PCR产物的凝胶电泳结果中，除1条最亮的主带外，同样还有其他不同亮度的条带(图9B)。

根据前面类似的结果，这些不同亮度的条带很可能也是由于PCR过程中发生剪接导致的。为了进一步验证这个猜想，我们仍回收总的PCR产物，进行高通量测序。

图9人工构建(合成)的F7869载体结构及质粒F7869转化大肠杆菌挑单克隆(1-2菌株)菌液DNA为模板并以引物M13 F+M1R配对进行PCR扩增的凝胶电泳结果

(A) 人工构建合成的F7869的载体结构；(B) 质粒F7869转化大肠杆菌挑单克隆(1-2菌株)菌液DNA为模板并以引物M13F+M13R配对进行PCR扩增凝胶电泳结果。

Fig.9 Artificially synthesized vector F7869and agarose gel electrophoresis of PCR product amplified by using primerset of M13F+M13R and the single clones (1-2 strain)ofF7869-transformated E.colias DNA template

(A)Schematic diagram of structure of insertional DNA fragment in artificially synthesized vector F7869;(B)Agarosegel electrophoresis of PCR product by using primerset of primers M13F+M13R and F7869-transformated single clones(1-2 strain) as DNAtemplate.

3.3.3正向重复序列(direct repeats)位点的整理

与前面一样，我们先将F7869 (1.0 kb)原始序列中所有碱基数长度5-22 bp不等的正向重复序列统计列表。表6列出F7869 (1.0 kb)片断中部分正向重复序列位置，其余正向重复序列位置统计附表E。

表6F7869(1.0 kb)片断中部分正向重复序列位置

Tab.6Partiallist ofdirect repeats in F7869(1.0 kb) DNA fragment

碱基数(bp)	正向重复序列	位置1	位置2	位置3	位置 4
5	TTTTA	9	88	275	299
6	GTTTTA	87	262	274	298
7	ATGAAGA	341	373	1008
9	CTGGCGGCA	575	768
10	TTTCACAAAA	26	151
11	AAATGAAGATA	339	371
13	ATTTAGTGTCTTC	74	199
15	TGTAGTTTTGTGAAA	357	389	481
17	AATCTGTAGTTTTGTGA	321	477
18	TTTATCACAAAACTACAG	89	213
19	AATCTGTAGTTTTGTGATA	321	506
20	AAATCTGTAGTTTTGTGATA	413	505
22	ATTTATCACAAAACTACAGATT	55	212

3.3.4两个正向重复序列之间的剪接结果统计

如前面结果一样，对剪切拼接形成的序列进行分析统计时我们发现，这些剪接形成的序列均呈现出不同的情况：一是两两位点之间的剪接序列查找的读数(reads)为0，这说明在这部分的两两位点之间不存在剪接的情况；二是两两位点之间剪接的序列之间有一定的读数，这表明这些剪接序列之间可能存在剪接的情况。

表7列出F7869 (1.0 kb)插入片断在部分正向重复序列剪接的结果，剪接序列中所有的红色和黑色标记均指代不同的碱基序列，其中红色标记均为正向重复序列的本身，而两边的黑色标记是各自的正向重复序列两边的序列。其余正向重复序列剪接结果的详细信息统计附表F。

表7 F7869 (1.0 kb) 片断中部分正向重复序列剪接结果的统计

Tab.7 Statistics of partial result of cleavage-and-splice between pair of direct repeat of F7869 (1.0 kb) DNA fragment

正向重复序列所在位置及个数	剪接位点	剪接序列	样品重复	读数(reads)
正向重复序列所在位置及个数	剪接位点	剪接序列	样品重复	clean- R1	clean- R2	raw -R1	raw- R2
TCTAT 2个(120-980)	1-2	TACAATCTATATATC	(1)	2	6	22	12
			(2)	2	5	8	10
			(3)	2	1	30	17
AGTGTCT 3个(78-203-235)	1-2	GATTTAGTGTCTTCATT	(1)	39	24	39	24
			(2)	27	26	26	25
			(3)	40	34	40	33
	1-3	GATTTAGTGTCTCCATT	(1)	8	3	8	3
			(2)	7	5	7	5
			(3)	13	5	13	5
	2-3	CATTTAGTGTCTCCATT	(1)	5	5	5	5
			(2)	9	8	10	8
			(3)	5	4	5	4
TAAATTT 2个(22-351)	1-2	AAGAGTAAATTTGTAGT	(1)	0	0	0	0
			(2)	0	0	0	0
			(3)	0	0	0	0

　3.4 质粒F2-28中插入片断PCR过程中剪接结果的统计分析

3.4.1载体构建

至此，我们已经选取含有500 bp发夹结构的3个不同DNA片断，分析和验证在这3个DNA片断的PCR扩增过程中，均会在2个相同的正向重复序列之间发生剪切后拼接。

本章我们仍继续人工构建F2-28载体(图10A)。该载体骨架仍为T-载体pUC57，在多克隆位点插入的DNA片断全长大约2.1 kb，其中500 bp的发夹序列后面接一段长约1.35 kb的DNA片段，是前面构建的质粒NJZL中含有的转座子，但在其中两个位点分别插入9 bp的片断。

3.4.2 质粒F2-28 DNA片断高通量测序

将质粒F2-28直接转化大肠杆菌涂板后挑20个单克隆菌株(编号为1-1~1-20)，我们以其中编号为1-2的单克隆菌液为DNA模板，然后用通用引物M13F和M13R配对，进行菌液PCR扩增。在凝胶电泳结果中，除了1条最亮的主条带外，依然还有其他不同亮度的条带(图10B)。

这可能是由于在PCR扩增过程中DNA片断里的正向重复序列两两之间发生自我剪切和拼接所致。为了对剪接机制进一步验证，我们回收总的PCR产物，进行高通量测序。

图10 人工构建(合成)的F2-28载体中插入DNA片断的结构及质粒F2-28转化大肠杆菌后挑单克隆(1-2菌株)菌液DNA为模板并以引物M13 F+M13 R配对进行PCR扩增的凝胶电泳结果

(A) 人工构建(合成)的F2-28载体中插入DNA片断的结构示意图，其中红色片断是在原NJZL发夹结构后面片断的基础上插入的两个片断；(B)质粒F2-28转化大肠杆菌后挑单克隆(1-2菌株)菌液DNA为模板并以引物M13F+M13R配对进行PCR扩增的凝胶电泳结果。

Fig. 10 Schematic diagram of structure of insertional DNA fragment in artificially synthesized vector F2-28 and agarosegel electrophoresis of PCR product amplified by using primerset of M13F+M13R,andsingle clone(1-2 strain)of F2-28-transformatedE. colias DNAtemplate

(A)Schematic illustration of structure of insertional DNA fragment in artificially synthesized vector F2-28,the red segments are the two inserted segments based on the segments behind the original NJZL hairpin structure; (B)Agarosegel electrophoresis of PCR product usingprimerset of primers M13F+M13R and DNA of F2-28-transformated single clone (1-2 strain) as template.

3.4.3正向重复序列(direct repeats)位点的整理

同样，我们依然首先在F2-28 (2.1 kb)载体中插入DNA片断的原始序列中搜索所有的正向重复序列。表8列出F2-28 (2.1 kb)片断中部分正向重复序列的位置，其余正向重复序列位置详细信息见统计附表G。

表8F2-28 (2.1 kb)片断中部分正向重复序列位置

Tab. 8Partiallist ofdirect repeats in F2-28 (2.1 kb) DNA fragment

碱基数(bp)	正向重复序列	位置1	位置2	位置3	位置 4
5	GTGAC	1108	1118	1238	1661
6	ACAATG	275	1121	1392	1587
7	GAGTAAC	703	1501
8	TAGTTTTA	360	384	1988
9	ATTTAGTGT	162	255	287
10	TTTCACAAAA	114	239
11	AGATTTAGTGT	160	253
13	ATTTAGTGTCTTC	162	287
15	TGTAGTTTTGTGAAA	445	477	569
17	AATCTGTAGTTTTGTGA	409	502	565	594
18	TTTATCACAAAACTACAG	144	177	301
19	AATCTGTAGTTTTGTGATA	409	502	594
20	TTAAATCTGTAGTTTTGTGA	499	562
22	ATTTATCACAAAACTACAGATT	143	300

3.4.4两个正向重复序列之间的剪接结果统计

与前面结果一样，在对剪切后拼接形成的序列统计时，我们发现这些剪切后重新拼接形成的序列存在不同的情况：首先，读数为0的剪接序列，表明这部分正向重复序列的两两位点之间没有发生剪接事件，即这部分的剪接序列之间不存在剪接机制；其次，有一定读数的剪接序列，表明这些有读数的剪接序列之间可能发生了剪接事件，这就进一步的说明有读数的剪接序列之间可能存在剪接机制。

表9列出F2-28 (2.1 kb)片断在部分正向重复序列剪接的结果。所有在剪接序列中出现部分红色和黑色标记的序列分别指代正向重复序列的本身和各自的正向重复序列两边的序列。其余正向重复序列剪接结果的统计附表H。

表9 F2-28 (2.1 kb)片断中部分正向重复序列剪接结果的统计

Tab.9 Statistics of partial result of cleavage-and-splice between pair of direct repeat of F2-28 (2.1 kb) DNA fragment

正向重复序列所在位置及个数	剪接位点	剪接序列	样品重复	读数(reads）
正向重复序列所在位置及个数	剪接位点	剪接序列	样品重复	clean- R1	clean- R2	raw -R1	raw- R2
AATTTA 2个（142-1999)	1-2	TGTACAATTTACTCTT	(1)	1	1	1	1
			(2)	2	0	2	0
			(3)	1	0	1	0
TTCGTTT 3个（172-265-1687)	1-2	GTGTCTTCGTTTATAAC	(1)	6	5	6	5
			(2)	4	2	4	2
			(3)	5	2	5	2
	1-3	GTGTCTTCGTTTGATGT	(1)	0	0	0	0
			(2)	0	1	0	1
			(3)	0	0	0	0
	2-3	GTGTATTCGTTTGATGT	(1)	0	0	0	0
			(2)	0	0	0	0
			(3)	0	0	0	0
			(3)	0	0	0	0

3.5剪接机制中正向重复序列在发夹结构的位置分析

在1F2R(1.49 kb)DNA片断体外PCR扩增过程中我们发现2个正向重复序列之间发生剪切和拼接，而且还发现这个剪接机制不同于限制性内切酶的酶切机制，于是我们猜想DNA片断中具有500bp发夹结构的1对正向重复序列之间可能存在一种以前尚未报道的新的剪接机制。

为了进一步验证这个新的剪接机制是否具有普遍性，随后我们又继续做了NJZL(2.3 kb)、F7869(1.0 kb)、F2-28(2.1 kb)这3个载体结构中插入的不同长度DNA片断的相关实验。对NJZL(2.3 kb)、F7869(1.0 kb)和F2-28(2.1 kb)结构中共3个DNA片断PCR扩增产物均进行高通量测序，对这些测序结果中获得的正向重复序列两两之间剪切和拼接读数(reads)分析统计时，然后我们发现了这3个不同长度的DNA片断同1F2R(1.49 kb)DNA片断一样，在体外PCR扩增过程中均能在相同的正向重复序列之间自我剪切和拼接。

总结以上4个DNA片断的实验结果，我们发现在剪接机制中，任何1对正向重复序列可以位于500bp发夹结构的两侧或同一侧，均发生同样的剪切后拼接事件(图11A和11B)。

图11 PCR扩增过程中，DNA片段中具有500 bp发夹结构的1对正向重复序列之间可能存在自我剪切和拼接的通用机制

正向重复序列对分别位于500 bp发夹结构的两侧(A)或同一侧(B)。

Fig. 11 Putative self-cleavage-and-splice mechanism between direct-repeat pair in DNA fragment with 500-nt-hairpin structure during PCR amplification

Proposed model of self-cleavage-and-splice in the case that both of direct-repeat pair lie at same sides (B)or each at oppositesides(A)of the 500 bp hairpin.

3.6 发夹结构促使大肠杆菌基因组DNA对外源质粒NJZL的DNA片断替换

以上我们发现4个包含500 bp发夹结构且长度不同的DNA片断，在体外PCR扩增过程中均能使相同的正向重复序列之间自我剪切和拼接。

在这个基础上我们又做进一步猜想，500 bp发夹结构的存在是否可能促使DNA(基因)之间进行片断交换或替换?

3.6.1载体(质粒)构建和质粒高通量测序

为了验证这个猜想，我们以前面实验所用到的质粒NJZL为基本材料。该质粒实际上是基于质粒F2-4TSS(wild-type sites)进行了一些碱基修改后合成得到。F2-4TSS中包含500 bp发夹结构，后面连接的DNA片断中插入一个来自大肠杆菌基因组的转座子，我们在这个野生型转座子中5个位点进行了碱基修改(图12A)。图12A中黑色碱基为未修改之前的野生型序列(wild-type)，红色显示碱基为人工修改后合成的NJZL序列。

而后将该合成的质粒转化大肠杆菌，挑10个单克隆菌株，将这些单克隆菌液混合提质粒后，对质粒本身直接进行高通量测序。

3.6.2 质粒NJZL高通量测序数据库中重组序列的查找

我们设想NJZL序列转座子中5个碱基修改位点中有可能会被对应大肠杆菌转座子的野生型位点(片断)替换，且5个碱基修改位点之间存在不同的替换组合情况，形成新的重组序列。将重组序列在高通量测序数据库中查找，发现有预期的读数(reads)(~150 bp)，这表明NJZL中5个碱基修改位点被大肠杆菌转座子对应野生型位点替换。再将这些得到的read(读数)序列在DNAStarMegalign软件中与原NJZL(MS)的对应序列进行对比分析后发现，read(读数）重组序列中，NJZL (MS)碱基修改位点被替换成WT位点的个数和重组情况有6类型，我们分别命名为RMS1-RMS6 (Recombination of modified sequences 1-6) (图12B)。合成序列即人为修改后NJZL插入序列中修改序列碱基为红色，即MS(Modified sequences)，对应野生型为正常黑色。

图12质粒NJZL转化大肠杆菌并对转化后的质粒进行高通量测序及重组序列的统计结果

(A) 大肠杆菌转化后验证质粒NJZL的DNA片断替换(修改位点)的实验示意图；(B) 与供体相对应的6个突变的质粒NJZL具有如(A)中所示的重组序列的读数。

Fig. 12 DNA fragment conversion (modified sites) in plasmid NJZL following its transformation of E. coli

(A)Schematic of experiment to test DNA fragment replacement (modified sites) of plasmid NJZL following its transformation ofE. coli; (B)6 NJZL plasmid corresponding to the donor reads with recombination sequence as shown in (A).

3.6.3各种重组序列reads的替换情况

3.6.3.1重组序列(read)RMS1

RMS1总读数为36(图13)。

与MS (NJZL)的序列进行对比分析，发现RMS1是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点2和3之间发生替换，同时位点1左边发生替换(图13)。

3.6.3.2重组序列(read)RMS2

RMS2总读数为42(图13)。与MS (NJZL)的序列进行对比分析，发现RMS2是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点4和5之间发生替换，同时位点2左边发生替换(图13)。

3.6.3.3重组序列(read)RMS3

RMS3总读数为42。与MS (NJZL)的序列进行对比分析，发现RMS3是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点5右边区段发生替换，同时位点2和和3之间区段发生左边替换(图13)。

3.6.3.4重组序列(read)RMS4

RMS4总读数为30。与MS (NJZL)的序列进行对比分析，发现RMS4是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点5右边区段发生替换，同时位点4和5之间区段发生左边替换(图13)。

3.6.3.5重组序列(read)RMS5

RMS5总读数为48。与MS (NJZL)的序列进行对比分析，发现RMS5是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点5右边区段发生替换，同时位点4和5之间区段发生左边替换(图13)。

3.6.3.6重组序列(read)RMS6

RMS3总读数为42。与MS (NJZL)的序列进行对比分析，发现RMS6是MS (NJZL)序列和大肠杆菌野生序列(WT)之间在位点3右边区段发生替换，同时位点2和3之间区段发生左边替换(图13)。

图13转化大肠杆菌后质粒NJZL中DNA片断转化(修改位点)汇总

左上部分是人工合成的转座子序列与质粒NJZL中的5个修改位点以及质粒F2-4TSS或大肠杆菌基因组中的野生型序列(WT)在Megalignment中的部分比对结果。左下部分是质粒NJZL中的修改转座子与野生型转座子比较的示意图。不同的碱基在质粒NJZL中以红色突出显示。用NJZL特异性引物CellF1和CellR1配对进行PCR扩增2.54 kb融合DNA片段进行。右侧部分显示所有替换区域的重组事件导致1-6读数序列。

在高通量重测序的clean database中通过blasting获得了6个读数的序列，MS1-MS6，并定位到质粒NJZL。重组序列是由大肠杆菌基因组的DNA片段替换到质粒NJZL同源区域而产生的。

Fig. 13 Summary of DNA fragment conversion (modified sites) in plasmid NJZL following its transformation of E. coli

Top left part is megalignment of the partial manually-synthesized transposon sequence with 5 modified sites in NJZL plasmid and its wild-type sequence (WT) in F2-4TSS plasmid or from E. coligenome. Bottom left part is the schematic comparison of modified transposon in NJZL plasmid and wild-type transposon. The variant bases in the modified transposon in NJZL were highlighted in red. F2-4TSS- and NJZL- specific primers CellF1 and CellR1 for PCR-amplifying the 2.54 kb fusion DNA fragment were indicated.

Right part showed the all the crossover regions of recombination events leading to 1-6 read sequences.

MS1-MS6, 6 reads, were harvested via Blasting across the clean database of high-throughput re-sequencing and mapped to NJZL plasmid. Recombination sequences in these reads were generated due to the DNA fragment replacement from the transposon of E. coli genome into homologous region of plasmid NJZL.

3.6.4 质粒NJZL高通量测序中得到的重组序列(RMS)的验证

质粒NJZL高通量测序中得到的重组序列(RMS)表明NJZL质粒中修改位点被大肠杆菌对应野生型序列发生了替换，我们通过PCR及PCR测序的结果验证这些结果的真实性。

引物序列：

F2-4(Exchange)F5: 5ʹ GTAGCCAGAATGCCGACC3ʹ

F2-4(Exchange)R1: 5ʹGCGGGCGTTCATGCTCAGA3ʹ

其中F2-4(Exchange)F5是质粒NJZL中插入片断中第2个碱基修改位点序列特异引物，红色字母即表示修改碱基。而F2-4(Exchange)R1是质粒NJZL中插入片断中第4个碱基修改位点对应的野生型位点序列设计的引物。因此F2-4(Exchange)F5+F2-4(Exchange)R1配对，用经过转化大肠杆菌后提取的质粒NJZL做DNA模板进行PCR扩增的产物，就是第2个到第4个碱基修改位点之间重组片断(序列)。

我们将编号为1、2、3、4和5的NJZL转化的单克隆菌液混合接种于含Amp抗性的LB液体培养基中，37℃、200 rpm摇床中振荡培养12 h左右，提取质粒，得到1-5菌株混合质粒。

以NJZL转化大肠杆菌的1-5单克隆混合菌株提取的质粒(NJZL)为DNA模板，引物F2-4(Exchange)F5和F2-4(Exchange)R1配对进行PCR的扩增。根据(图14A)凝胶电泳结果来看可能存在约110 bp左右目的条带。

将F2-4(Exchange)F5+F2-4(Exchange)R1的PCR产物回收，连接到T-载体，转化大肠杆菌后挑选20个单克隆后分别提质粒，用引物F2-4(Exchange)F5和F2-4(Exchange)R1配对进行PCR扩增，有13个质粒有预期大小的PCR产物条带(图14B)，选其中8个测序。

测序结果表明，在1-5混合质粒中基因组序列替换质粒序列位置3(图14C)；在1-5混合质粒中基因组序列替换质粒序列替换位置3和4(图14D)；在1-5混合质粒中基因组序列替换质粒序列位置4(图14E)。

图14 质粒NJZL高通量测序中重组序列的验证

(A)NJZL转化大肠杆菌的1-5单克隆混合菌株提取的质粒(NJZL)为DNA模板，引物F2-4(Exchange)F5+F2-4(Exchange)R1配对PCR扩增的凝胶电泳；1-2：样品，3：阴性对照；(B)引物F2-4(Exchange)F5+F2-4(Exchange)R1配对PCR扩增产物的凝胶电泳。所用的DNA模板为质粒，该质粒通过是用图(A)PCR回收产物连接到T-载体后转化大肠杆菌提取得到的。1-10、13-22：阳性结果，23：阴性对照；(C)位点3替换；(D)位点3和4同时替换；(E) 位点4替换。M：DNA ladder Marker。

Fig. 14 Verificationof recombination sequence in high-throughput-sequencing of plasmid NJZL

(A)Agarose gel electrophoresis of PCR product amplified by using primer set of F2-4(Exchange)F5+F2-4(Exchange)R1 and extracted plasmid (NJZL) extracted from mixture of single clones (1-5) of NJZL-transformed E. coli as DNA template; 1-2: postivie sample, 3: negative control;(B) Agarose gel electrophoresis of PCR product amplified by primer set of F2-4(Exchange)F5+F2-4(Exchange)R1 and extracted plasmid (T-vector) possessing the ligated PCR product as shown in (A); 1-10and 13-22: postivie samples, 23: negative control;(C)Replacement of site 3; (D)Replacement of sites 3 and 4;(E)Replacement of sites4. M：DNA ladder Marker.

表10 扩增PCR引物清单

Tab. 10List of primers for PCRamplification

Primer name	Primersequence
1F	AGTTGCTGAGGTTCGTTTGG
2R	TGGAGGTTCTTGAGGCAGTT
GTAGGF1	CTCGATCTCGTAGGGGAAGTAGAA
GTAGGR1	GGAGGTTCTTGAGGCAGT
GTAGGR2	TGTGAAGCATCCGTTGTC
TGTGGF1	TTGGCCCGTGTGGCGACA
TGTGGR1	TGGAGGTTCTTGAGGCAGT
TGTGGR2	TGTGCCTGCCCTGTCCAT
GCAGCF1	AGAGAGAAGAGCAGCACAGA
GCAGCR1	GCACAGACTCCAAAACGT
GCAGCR2	ATTTGTAGCCAGCTGCAG
CellF1	GCCTGCAGGTCGACGATTGCGACT
CellR1	TCTAGAGATTGAGGAGAGAGCCCT
AAGCCAGCF1	TAAATGGCCTAAGCCAGCAT
AAGCCAGCR1	CAACCAAAGCGAGAACAA
AAGCCAGCR2	ATCTGTTCGGGCAATACG
M13F	TGTAAAACGACGGCCAGT
M13R	CAGGAAACAGCTATGACC
F2-4(Exchange)F5	GTAGCCAGAATGCCGACC
F2-4(Exchange)R1	GCGGGCGTTCATGCTCAGA

第四部分 讨论

以CRISPR/Cas9和CRISPR/Cpf1为代表的第3代基因编辑技术在基础研究、疾病预防和种质创新等方面已越来越不可缺少。各种物种的普遍适用性、灵活性、高效率以及操作的方便性使基因编辑技术飞速发展和广泛的应用。

CRISPR/Cas9系统有诸如低细胞毒性、对靶位点精确编辑及稳定遗传等优势，但其只能对靶基因进行功能敲除，却不能有效地使用同源重组和其他方法来取代基因片段和“敲入”基因功能。

Cas9识别G富集的PAM区域，而Cpf1主要识别T富集的PAM区域，这就使Cpf1成为CRISPR工具组的一个强有力的补充。Cpf1具有可识别连续2或3胸腺嘧啶(T)的PAM序列和双链断裂产生粘性末端等优势，但其对PAM序列相对固定的要求也限制了Cpf1在实际应用中对靶标的选择。

本研究发现DNA片段在PCR扩增过程中，可以将两个相同的正向重复序列剪切后重新拼接在一起，形成新的较短的序列。我们对剪接的新序列统计分析，并选取一定数量的有读数的序列进行PCR和测序验证，确定这种DNA自我剪切拼接的机制，为该剪接机制的进一步开发利用提供理论依据。使这种DNA自我剪接的机制将有可能应用于基因编辑技术体系，在受体生物特定DNA中和供体DNA同时进行定向剪接，实现对基因功能的 “敲入”，从而有可能实现DNA片断定向替换的基因编辑目的，为未来基因编辑技术提供新的思路和方向。