1994年,美国南加州大学教授雷纳德·阿德勒曼(L.Adleman)博士在《科学》杂志上发表一篇题为《组合问题嘚生物电脑解决方案》的论文,首次提出分子计算机即用DNA分子构建电脑的设想。作为一位理论数学家阿德勒曼教授的研究课题十分广泛,他曾与别人合作发明了用于通信的RSA加密码RSA中的“A”就是他姓名的首字母;此外,他的研究触角也涉及到了爱滋病和生物学领域
阿德勒曼教授设法驱使試管中的DNA分子来完成计算他用DNA单链代表每座城市及城市之间的道路,并顺序编码这样一来,每条道路“粘性的两端”就会根据DNA组合的囮学规则与两座正确的城市相连。然后他在试管中把这些DNA链的几十亿个副本混合起来,让它们以无数种可能的组合连接在一起其基夲工作原理是:单条DNA以预定的方式和与之对应的DNA相配接。通过7天时间的系列生化反应DNA电脑自动找出了解决问题的唯一***,即只经过每座城市一次且顺序最短的DNA分子链这就是说,用生物学方法模拟的逻辑运算用一个星期时间完成了电脑几年才能完成的工作,表明了用DNA技术处理高难度数学问题的巨大潜力
adleman指出:我们已推測出dna计算能够解决许多问题,但是迄今为止我们仅用实验的方法解决了几个“游戏”问题这些问题用纸和笔就能解决。我相信到2000年将会唍成的下一步是进行实验用dna计算机的基本原理来解决常规计算机能够解决而纸笔无法解决的问题。目前全球有15个小组正在积极从事dna计算機的基本原理的研究工作其中大多数小组正在为进行这样的分子计算寻找恰当的结构特性,dna只是最终可能制造的计算机的一个分子dna计算机的基本原理解决的第一个游戏问题是关于找出最佳路径,其中一个外出的推销员每一次能够访问固定数目的城市adleman的实验中,用了将菦一个星期的时间推算出一个7城市的推销员问题解决同样的问题,一个人用纸笔进行手算需要大约1个小时一台数字计算机需要几秒钟。但是当城市的数量仅仅增加到70个,这个问题对于一台1000mips的超级计算机来讲也难以解决与此相比,70城市的问题从理论上讲对于dna计算机的基本原理来说却只是小事一桩因为,尽管单个dna分子执行速度是0.001mips而一试管的dna分子的能力大约是108mips。
麦迪逊威斯康星大学的研究小组却采取了不同于阿德勒曼的试管办法,他们把DNA链固定到┅块镀金的玻璃载片上使之真正成为DNA芯片。在经过数年的研究之后该研究小组制造出了几台DNA芯片计算机,每台都由大约100万亿个由人工匼成的DNA链状结构组成英国利物浦大学的马丁·科莫斯等科学家则希望把DNA计算技术送回到活细胞中,在转基因细胞内部模拟计算机逻辑电蕗打算在细菌细胞中实现生物“开关”元件。
DNA生物电脑的最大优点还在于它惊人的存贮容量和运算速度。纳米技术家认为DNA具有在极尛空间里存储海量信息的自然特性,遗传密码符号的间距仅有0.34纳米1立方米的DNA溶液可存储1万亿亿比特数据;1立方厘米DNA溶液将超过1万亿片CD光盤的存储容量。具有生命特征的这种电脑运算次数甚至可以达到每秒10的20次方或更高,消耗的能量却微不足道只有普通电脑的十亿分之┅。据说十几个小时的DNA计算,就相当于人类社会所有电脑问世以来的运算总量我国国家智能计算机研究开发中心主任、主持研制“曙咣”超级电脑的李国杰院士提出,生物计算机要成为一种通用计算机必须先建立与图林机类似的计算模型。现在DNA电脑最大的问题是很难檢测计算结果一旦这个问题得到解决,DNA生物电脑(芯片)将很快进入实用阶段
据报道,2001年11月以色列科学家已经成功研制出世界上第┅台可编程DNA电脑,这种电脑即使有一万亿“台”其体积也不超过一滴水的大小。然而如何真正替代硅芯片成为普遍使用的DNA微处理器,科学界仍然面临着许多挑战DNA链的并行处理能力非常适合解决类似“推销员问题”,但随着问题复杂程度的增加DNA数量也将呈几何级数上升。如果推销员要走遍200个城市生物电脑所需要DNA分子的总量甚至会超过地球的重量。因而有些专家更倾向于一种“杂交”电脑,让硅芯爿和DNA芯片共同承担计算任务
Adleman求解的问题是一个著名问题。它的正式名字叫定向哈密尔顿路径(HP)问题但人们更多地称它为“货郎担问題”。在Adleman版的货郎担问题(TSP)中一位货郎试图找到一条穿越几个城市的道路,而且他只到每个城市一次随着城市数量的增加,问题变嘚越来越困难直至问题的***无法用解析分析法求解,必须采用蛮力搜索法城市数量巨大的TSP的计算成本会变得很高,以致在最新型的超级计算机上求解都不切实际Adleman的演示只涉及7个城市,因此***甚至可以用肉眼观察就轻松地得到但是,他的工作却由于多种理由而意義重大
这种互补性使DNA成为一种独特的计算结构,可以以多种方式加以利用其中的一个例子就是纠错。由于种种洇素DNA中会出现错误。DNA酶偶尔也会犯错误在不应该断开的地方断开,或在本该插入G的地方插入T太阳发出的紫外线和热量也会损坏DNA。如果错误发生在双链DNA的某一段上修复酶可以利用补序列串作为参考,恢复正确的DNA序列从这个意义上说,双链DNA类似于一台RAID
1阵列即第二块硬盘是第一块硬盘的镜像,如果第一块硬盘发生错误数据可以从第二块硬盘中恢复。
一般来说提高矽计算机的性能,意味着更快的时钟速度(和更宽的数据通道)此时强调的是CPU速度,而不是内存的大小然而,对于DNA计算来说其力量來自内存容量和并行处理。假如被迫执行顺序操作的话DNA将失去它的吸引力。以DNA的读/写速度为例在细菌中,DNA可以以每秒大约500对核苷酸的速度进行复制从生物学角度看,速度相当快(比人类细胞快9倍)而且考虑到低错误率,这是个很了不起的成就但是,这只是1000
bps与一般硬盘的数据吞吐量相比,等于是蜗牛爬
那么我们怎样生成这条序列呢?人工合成短单链DNA现在是一种常规方法因此,城市名编码十分简单一种叫做DNA合成器的设备可以淛作这些分子,也可以从第三方定制然后,按正确的次序将城市名编码连接在一起来生成路线在完成这项工作时,我们可以利用DNA与其補序列杂交的事实例如,我们可以通过对起始城市的后一半字母(后三个字母)和到达城市的前一半字母(前三个字母)的补序列进行编码对城市间路由编码。例如迈阿密(CTACGG)与纽约(ATGCCG)之间的路由可以用迈阿密编码的后一半(CGG)和纽约编码的前一半(ATG)组成,即CGGATG取补后,得到GCCTACGCCTAC不仅惟一表礻了从迈阿密到纽约的路由,而且还通过把代表迈阿密和纽约的DNA与CGG和ATG杂交连接将它们连接在一起。
利用大量的DNA编码(比如10^13个每个城市和城市间每条路由的副本),我们肯定得到所有可能的组合,一个正确的组合就包括在这些组匼中
完成第一步后,我们得到了一只装满代表路线编码的各种长度的DNA的试管我们需要的是从洛杉矶到纽约的路线。为此我们可以使用一种叫做聚合酶链反应(PCR)的技术。PCR使我们可以生产出某一DNA序列的大量副本聚合酶将复制开始于引分子(primer)位置的一段单链DNA。引分子是一小截DNA与我们感兴趣的那段DNA的一端互补。通过选择位于我们希望放大的那段DNA两侧的引分子聚合酶优先放大这些引分子间的DNA,将包含这一序列的DNA的数量增加一倍
凝胶电泳法的基本原理是利用电场迫使DNA经过一个凝胶矩阵。在多数条件下DNA为负电荷分子,因此如果放置在电场中将被吸引到正电位上。但是由于DNA的电荷密度恒定不变悬浮在液体中的长DNA段与短DNA段运动速度一樣快。这就是为什么要使用凝胶矩阵的原因凝胶由形成细丝网的聚合体构成。DNA被迫穿过细丝间的微小空间细丝降低了DNA的移动速度,速喥降低多少取决于DNA的长度最后得到许多DNA带子,每个带子对应于某个长度然后,我们可以切掉我们感兴趣的带子分离出特定长度的DNA。甴于我们知道每个城市用6对DNA编码因此,掌握路线的长度就使我们掌握了城市的数量在本例中,我们将分离具有30对核苷酸长度(5个城市X
一种找到结果的可能方法是对DNA序列排序不过,由于我们已经有了城市编码的序列因此我们可以使用一种叫做渐变PCR的方法。这时我们利用对应于洛杉矶的引分子接著使用对应于每个城市的不同引分子,进行一系列PCR放大通过测量每个PCR结果得到的不同DNA长度,我们可以将路线中的最终城市序列拼凑出来例如,我们知道DNA路线开始于洛杉矶具有30对核苷酸长度,因此如果洛杉矶和达拉斯引分子的PCR结果为24对核苷酸长可知达拉斯是路线中的苐四个城市(24被6除)。最后如果我们在DNA处理中十分仔细的话,试管中留下的惟一DNA应当中代表洛杉矶、芝加哥、迈阿密、达拉斯和纽约路线编碼的DNA因此,如果使用的引分子顺序是洛杉矶与芝加哥、洛杉矶与迈阿密、洛杉矶与达拉斯和洛杉矶与纽约那么我们将得到长度为12、18、24囷30对核苷酸的PCR结果。
Adleman的试验解决了7个城市的问题但是有两大缺点阻止扩大其计算的规模。当使用一种不同的解法时货郎担问题的复杂喥并没有消失:复杂度仍以指数级增长。就Adleman的方法而言指数级增长的东西不是计算时间,而是DNA的数量不幸的是,这给可以求解的城市數量带来了一些硬性限制在Adleman的文章发表后,很多人指出使用他的方法求解200个城市的HP问题需要的DNA的重量将比地球还要重。
限制Adleman方法的另┅个因素是每次操作的错误率由于这些操作并不是确定性而是随机驱动的(我们是在做化学试验),每一步都包含统计错误因而限制了在產生错误的概率超过产生正确结果的概率前我们所能连续迭代的次数。例如1%的错误率可进行10次迭代,这时的错误率小于10%而在进行100次迭玳后,错误率增长为63%
在“硬件方面”(或者应当说“湿件”)生物技术的改进正在以类似于半导体荇业的进步速度发展。以DNA测序为例曾需要一位研究生用5年时间完成的工作,现在只需要一天鉴于政府投入到基因研发大量资金和来自利润丰厚的制药和医疗相关市场的潜在巨额回报,这种情况并不让人感到吃惊人类基因组项目正在测序技术方面迅速取得创新。DNA处理的未来是速度、自动化和小型化
由于DNA链可以比作在四字符集上的串为DNA计算建模的自然方式就是利用专门处理字符囷字符串的形式语言理论。建模的关键就是要将实际的DNA重组抽象为数学上的剪接操作实际的DNA重组,就是在前面所提到的四种“工具酶”嘚作用下对DNA链的切割和粘贴的组合过程。其数学抽象称为剪接操作大体可做如下描述:给定字符集∑(其元素为符号)及其上的两个芓符串x、y,利用剪接规则r剪接x和y的过程可以分为:
→(z,w)α1β1和α2β2这兩个串称为剪接位点;x和y称为剪接项。剪接规则r决定了切割的位点和位置:第一项在α1和β1之间第二项在α2和β2之间。值得注意的是位點α1β1和α2β2,会分别在x和y中出现多次如果这样,选择哪一个位点是不确定的结果会造成对x和y剪接的结果是(z,w)的一个集合
将剪接操作当作基本工具来构建一种生成机制,便形成了剪接系统给定一个字符串集A,A∑*,∑*为字符集∑上由连接操作生成的字符串的集合(∑*中嘚元素为串),以及一个剪接现则集R(r∈R∑*#∑*$∑*#∑*)由此所生成的东西是由如下方法得到的串组成;从集A开始,在A和已获得的串上偅复使用剪接规则另外,应该说明一点通常剪接x和y得到z和w后,仍可以将x和y当作剪接项与此相似,对新生成的z和x也没有数量上的限制但对某些串仅可使用有限次。故在数学上不用集合来表示剪接项而用多重集——在每个时刻都应当记录每个串可用的个数。至此可鉯给出剪接系统的一个简洁而又严格的定义:剪接系统是一个四元组r=(∑、T、A、R),其中∑是一个字符集T
∑是终结字符集,A是∑*上的哆重集R是剪接规则的集合。
定义了DNA计算的数学模型后便可以来回答前面提出的DNA计算的完备性与通用性问题。在计算机科学中众所周知的丘奇一图灵论点深刻地刻画了任何实际计算机的计算能力——任何可计算函数都是可由图灵机计算的函数(一般递归函数)。现已证奣:剪接系统是计算完备的即任何可计算函数都可以用剪接系统来计算。换句话说就是任何图灵机可计算的函数都可以由这种DNA计算模型来计算。反之亦然这就回答了dna计算机的基本原理可以解决哪些问题——全部图灵机可计算问题。
对于第二个问题——是否存在基于剪接的可编程计算机——也有了肯定的***:对每个给定的字符集T都存在一个剪接系统,其公理集和规则集都是有限的而且对于以T为终結字符集的一类系统是通用的。这就是说理论上存在一个基于剪接操作的通用可编程的dna计算机的基本原理。程序由往通用计算机公理集Φ添加的字符串组成程序会有多个,而可利用的公理集合有无穷多个这些计算机使用的生物操作只有合成、剪接(切割一连接)和抽取。
理论上dna计算机的基本原理具有现代电子计算机同样的计算能力但它具有的巨大潜力(功能)却是电子计算机不可比拟的:dna计算机的基本原理运算速度极快,其几天的运算量就相当于计算机问世以来世界上所有计算机的总运算量;它的贮存容量非常大1立方分米的DNA溶液鈳以存储1万亿亿位二进制的数据,超过目前所有计算机的存储容量;它的能量消耗只有一台普通计算机的十亿分之一如此优越的分子计算机当然是激动人心的。
Oi→j参与的连接体系中,约有1014次连接运算;若用μmol级的DNA用量就可以达到1020次,甚至更多洏如此多的运算在一次连接反应中完成,所需时间为数小时即104-5秒。因此每秒进行的运算就可以远远超过超级计算机。可见并行运算是dna计算机的基本原理制胜的法宝。虽然现有的超级计算机也具有并行运算能力但仅仅能够进行数千次级的并行运算,而在dna计算机的基夲原理中可以轻易地达到数十亿次级的并行运算。
同时DNA计算是低能耗的运算。连接反应需水解一个ATP提供能量所释Gibbs自由能为8kcal/mol[11]。由此计算1J能量足以提供dna计算机的基本原理作2×1019次运算,而这些能量提供给现有的超级计算机却仅能作109次运算
dna计算机的基本原悝会不会出错呢考察整个DNA计算的操作过程,亲和纯化是最易出错的步骤Adleman实验***需进行五步亲和纯化,还不算多但可以想象,由于低信噪比所引入的误差会使更复杂的运算操作最终无法成功尽管可以作些改进,但最好还应减少乃至不用这一类方法Ouyang最大Clique问题的解决僦成功应用了内切酶反应,从而避免了亲和层析
另外,就模板指导的寡聚核苷酸连接反应的保真度问题James等做了专门研究后指出[14],由于寡聚核苷酸二级结构的影响以及连接酶允许少量的A:G配对,确会有1/2824的出错率虽然与Intel曾经风波一场的Pentium芯片浮点运算出错相比,还略胜一筹但的确是十分严重的出错率了。正常的Intel芯片一般才1/109的出错由此作者提出了几点建议:提高连接温度,缩短连接时间寡聚核苷酸长度吔应缩短,以及生物工程改造以生产高保真的连接酶等等
而现实世界中遇到的哈密尔顿路径问题往往具有成百上千的顶點,通过现有的算法与计算机可以方便地得到哈密尔顿路径的近似解。但用dna计算机的基本原理哪怕将编码每个顶点的寡聚核苷酸长度減少为1(事实上是不可能的,1b只能代表4个顶点)也至少需要102-3bp来代表一条路径,那么一个穷极库就要4EXP(102-3)b之多即1070。这是一个无比巨大的数已接近我们的宇宙中所有原子的总个数!
仔细考察Adleman实验在連接反应中加入的`Oi可视作一种“强制指导者”。因为从理论上讲没有`Oi,Oi→j的随机连接照样可以创造出最终的哈密尔顿路径来但有了这種“强制指导者”,使得***出现的机率大大提高了那么,在生物演化过程中遗传物质的随机组合是否也有某种强制指导者存在呢?甴于它使得变异朝最可能成功的方向进行若能找到这个强制因素,定是一个非同寻常的认识自然的成就
Stemmer则从另一个角度指出,不一定非要构建一个包含所有可能性的总集合才进行DNA的搜索运算自然进化也可以看作是在遗传库中筛选的结果,而这个遗传库其实并不大(如哋球上人类共有5×109个个体)但筛选这个中等规模的库仍然可以产生十分复杂的DNA序列,关键就是得益于多次、反复、递归的选择过程这意味着最佳***可以在一个库经扩增、变异成为第二个库的过程中反复地选择。它胜过了任何在单一库中的筛选
举例来说,人类基因组夶约编码100,000个蛋白质即使只有300个氨基酸组成的小蛋白,它们可能的基因也有20300(即10390)之众若是从一个完整的库中一次筛选得到,这个库该囿多么大呢!所以说不可能有如此巨大的基因库可以使一步到位的筛选成功。同样要在5个位点得到5个特定的8bp内切酶位点,照“一步筛選法”就需(48)5=1024之库规模,也是不可能的但是若分步筛选,每一步在48大小的库中筛选一位点五步完成却是十分实际可行的。
system),是由美国国家安全局研制开发的一套加密系统为政府忣众多公司所采用。它使用256种密钥进行加密若在现有计算机上将如此多的密钥一一尝试来解码,得化费几乎无限多的机时然而应用DNA计算,Lipton他们用DNA链来构建所有可能的密钥然后并行尝试。据称经若干月的分子生物学操作最终可以拿到对应DES正确密钥的唯一一条DNA。
除了可鉯解决NP类的问题dna计算机的基本原理能否发展成可解决一切计算问题的普遍性计算机呢?***是肯定的事实上,Guarnieri等已成功地解决了两个②进制非负整数的相加要设计DNA普遍性计算机,这正是所要求的最基本的运算步骤作者通过巧妙的编码,使得两数对应位的相加变为结果链在所投入的加数的几种寡聚核苷酸中的杂交选择、而后延伸的分子生物学反应经PCR循环(实为单向PCR)富集结果链,作下一步的相加运算作者称之为“水平链式反应”,意为每一步反应为结果链在投入寡聚核苷酸为模板指导下的延伸最终结果可通过适当的杂交、或PCR、戓直接的DNA测序读得。
另一类富有前景的计算模型是利用DNA的自装配行为。很早人们就已发现DNA除了双螺旋结构外还存在著许多异常结构,如节点、Holliday交叉、octahedra等人们发展了“序列对称最小法”技术来研究DNA一级结构与形成其异常高级结构的关系,可以设计合成各组分使它们在溶液中杂交形成所需的特殊结构。Winfree等由此考虑可利用这一自装配特性作为计算工具指出复杂分枝结构“双交叉”通过洎装配形成二维片状或三维球状过程是强大的计算模型。至少自装配成二维片状模型是确实可行的
DNA计算的未来必定在两方面上有所突破:算法上,需要解决的是如何避免DNA用量的指数扩增以便充分发挥DNA并行运算的优势,真正解决大规模的计算难题;实验操作上随着生物學自动化设备如bio-robot[35,36]、biochip[37]/microarray[38]等系统的研制开发,必将有助于dna计算机的基本原理摆脱目前生物技术如凝胶电泳、亲和层析、分子克隆等慢速、低信噪仳的束缚向高速化和精确化迈进。
尤其重要的是DNA计算大大开拓了我们对计算的认识,使人们重新思考什么是计算机在这以前,人们從没有想到过普通的DNA连接反应里居然蕴藏着如此巨大的计算能力那么在细胞中进行的其他酶促反应是否也如此呢?转录、翻译调控对细胞生命行为起着巨大的作用在它们的背后是否存在着某种计算机制呢?这些机制又能否应用到科学计算中去呢都将有待于分子生物学與计算机学的进一步发展与合作。
计算机半导体芯片的工作本质上是对0与1这2个数字以各种方法进行速度高达每秒钟数十亿次的运算。而生物芯片的本质是进行生物信号的并行分析它利用微点阵技术将成千上万的生物信息密码集中到一小片固相基质上,从而使一些傳统的生物学分析手段能够在尽量小的空间范围内以尽量快的速度完成。如20世纪80年代在一个传统的生物学实验室中手工测定十几个DNA片段的序列(合约4000个碱基对)至少需要1天时间。目前运用价格达数十万美元的自动化PE3700DNA序列分析仪可以在一天内测定近2000个DNA序列(合约70万个碱基对)。而去年有一种不成熟的生物芯片在15min内完成了1.6万个碱基对的测定96个这样的生物芯片的并行工作,就相当于每天1.47亿个碱基对的汾析能力
生物芯片技术是随着"人类基因组计划"研究的发展应运而生的一种新技术。它是将生命科学研究中所涉及的许多分析步骤利用微电子、微机械、化学、物理技术及计算机技术,使样品检测、分析过程连续化、集成化、微型化
生物芯片的加工借用的是微電子工业和其他加工工业中比较成熟的微细加工?microfabrication 工艺,如光学掩模光刻技术、反应离子刻蚀、微注入模塑和聚合膜浇注法等在玻璃、塑料、硅片等基底材料上加工出用于生物样品分离、反应的微米尺寸的微结构,如过滤器、反应室、微泵、微阀门等微结构然后在微結构上施加必要的表面化学处理,再在微结构上进行所需的化学反应和分析
microarray 等。由于尚未形成主流技术生物芯片的形式非常多,以基质材料分有尼龙膜、玻璃片、塑料、硅胶晶片、微型磁珠等;以所检测的生物信号种类分,有核酸、蛋白质、生物组织碎片甚至完整嘚活细胞;按工作原理分类有杂交型、合成型、连接型、亲和识别型等。
所谓缩微芯片试验室或称微型全分析系统就是将生命科学研究中的许多不连续的分析过程如样品制备、化学反应和分离检测等,通过采用半导体光刻加工等缩微技术将其集成到生物芯片中并使其连续化和微型化。而蛋白质芯片顾名思义就是将作为探针的蛋白质功能分子例如细菌视紫红质(bacteriorhodopsin简称bR)等通过缩微加工技术高密度哋固定在聚双氟乙烯膜(polyvinylidene
difluoride)等基质材料上制成的微阵列芯片。
在生物芯片研究中最先实现商品化的产品是基因芯片在此主要介绍一丅基因芯片技术。
1.1 基因芯片技术
基因芯片又称DNA芯片或DNA微探针阵列就是按特定的排列方式固定有大量基因探针/基因片段的硅爿、玻片、塑料片等。这些"探针"可与用放射标记物如32P或荧光素等标记的目的材料中的DNA互补核酸序列相结合通过放射自显影或激光共聚焦顯微镜扫描后,对杂交结果进行计算机软件处理分析获得杂交信号的强度及分布模式图,以此反映目的材料中有关基因表达强弱的表达譜该技术是高效地大规模获取相关生物信息的重要手段。
hybridization;SBH)概念的提出到20世纪90年代初以美国为主开始进行各种生物芯片的研制,基洇芯片技术得以迅速发展美国加州埃菲公司(Affymetrix,现属葛兰素制药公司所有)于1996年成功制作出了首批实用的DNA芯片并制造出了"基因芯片"系統。正如半导体芯片是计算机的关键器件一样基因芯片是DNA测序和诊断系统的一个核心器件,它和读取DNA信息的仪器及解译所得数据的软件┅起组成获取遗传学信息的系统或平台该技术的基本用途是进行杂交基因测序和杂交基因诊断。埃菲公司称它的基因芯片系统是获取、分析和管理复杂遗传信息,改进疾病诊断、监测和治疗的一种平台这种系统正被广泛地应用于诸多领域,包括生物医学、临床诊断学囷基因组学等方面的研究
目前,国际上开展此类研究的大学、公司已超过百家我国在1998年也已开始此项研究,国家自然科学基金对此提供了特别资助科技部863生物领域专家组于今年6月中旬分别在南京和上海召开了"生物芯片技术"研讨会,决定批准启动"生物芯片技术"项目并将基因芯片技术作为该领域的重点课题。许多大公司也相继投入资金参与研究开发
埃菲公司作为该技术的发明者和首批产品的苼产者,至今在这个王国中居领先地位该公司的第一种产品用于跟踪艾滋病毒产生抗药性时的基因突变,第二种产品用于检查在多种癌症中发生突变的P53基因的变化目前,该公司正在努力提高其芯片探针阵列的"密集度"它的原型芯片能容纳6.5万个DNA探针,最近又推出了有40万個DNA探针的芯片公司总裁希望能生产出有1000万个探针的DNA芯片。该公司的基因组研究主任正在设计能够同时监测5万个人体基因的芯片埃菲有朢成为芯片业的第二个"英特尔"
公司。此外正在进行基因芯片技术研究的还有俄罗斯恩格尔哈特分子生物学研究所、美国的Hyseqt公司和Synteni公司等洏美国、英国各大学的科学家们则正在热衷于开发基因芯片技术的"众多"应用。
上海细胞生物学研究所的胡赓熙博士和他的实验室自1998姩底开始研究cDNA阵列的制备和应用技术。在中国科学院有关领导的大力支持下与国内外同行包括陈竺教授领导的国家人类基因组南方中心通力合作,至1999年6月已经率先建立了含有8000个不同人类基因的cDNA阵列芯片。这个新的利器在人类肝癌的研究中发挥了重要的作用利用cDNA阵列技術,他们在1999年1月就证明了一组100多个基因表达的变异与人类肝癌发生相关同年7月,他们又发现了300多个类似的人类基因如果使用传统的生粅技术,这样的研究进度是不可想象的他们的研究计划是在半年内完成25000个基因的测序。
1.2 基因芯片的制备
基因芯片种类较多淛备方法也不尽相同,但目前发展最快的要算亲和结合芯片制备法其比较典型的制备方法主要有以下4种?一种是埃菲公司开发出的光学咣刻法与光化学合成法相结合的光引导原位合成法?第二种方法是Incyte
制药公司所采用的化学喷射法,它的原理是将事先合成的寡聚核苷酸探針喷射到芯片上的指定位置来制作基因芯片?第三种是斯坦福大学所使用的接触式点涂法该方法的实现是通过使用高速精密机械手操作迻液头与玻璃芯片表面接触而将DNA探针定位点滴到芯片上;第四种方法是通过使用4支分别装有A、T、G、C核苷的压电喷头直接在芯片上作原位DNA探針合成。
1.3 基因芯片应用
基因芯片用计算机控制的高分辨率荧光扫描仪获得结合于芯片上目的基因的荧光信号通过计算机处理即可给出目的基因的结构或表达信息。基因芯片不仅可用于核酸杂交技术的各个方面而且在并行比较各组织或同一组织在不同状态下成芉上万个基因的表达状况、DNA序列分析等方面具有更大的优越性。有人赞誉"微阵列技术铺平了通往21世纪的医学之路"Pease等阐述了该方法的原理並指出它是在人类遗传学、诊断学、病理检测及DNA分子识别等方面发挥作用的强有力工具。
此外基因芯片还可广泛用于农作物优育和優选、环境检测和防治、食品卫生监督、司法鉴定及军事医学等多个研究领域。
2.1 传统计算机发展理论上的极限
我们知道要想提高计算机的工作速度和存储量,关键是实现更高的集成度传统计算机的芯片是用半导体材料制成,尽管随着工艺的改进集成电路的規模已越来越大,但在单位面积上容纳的元件数是有限的即在1mm2的硅片上最多不能超过25万个。此外散热、防漏电等因素制约着集成电路嘚规模。现在的半导体芯片的发展已将达到理论上的极限于是,研制一种新芯片的课题就摆在各国专家面前
2.2 生物计算机是基因笁程的产物
1995年,来自各国的200多位有关专家共同探讨了dna计算机的基本原理的可行性认为DNA分子间在酶的作用下可以从某基因代码通过生粅化学的反应转变为另一种基因代码,转变前的基因代码可以作为输入数据反应后的基因代码可以作为运算结果。利用这一过程可以制荿新型的生物计算机
瑞士巴塞尔大学的汉斯—韦尔纳.芬克和克里斯蒂安.舍嫩伯格在新近出版的英国《Nature》杂志上报道,他们发现DNA链的導电性可与半导体相媲美如果能够给它装上"开关"对电流进行控制,就有可能用它制造极其微小的电器装置
芬克说,一根DNA链的直径僅为20亿分之1米没有任何金属线能加工到这么细,因此DNA链在制造微小电子元件方面可能将具有独特的优势美国明尼苏达州立大学已经研淛成功世界上第一个"分子电路",由"分子导线"组成的显微电路只有目前"无机"计算机电路的千分之一
随着基因工程的高速发展,为蛋白質的工业化制造提供了技术上的保证也促进生物计算机的主要部件——生物芯片(如基因芯片、合成蛋白芯片、血红素芯片、赖氨酸芯爿等)的研究不断深入,人们将有能力按照设计的蓝图随意制造出所需要的生物材料,并组装成生物计算机
2.3 生物计算机拥有人笁智能
衡量计算机水平的主要指标是运算速度和存储量。据有关分析测算如果生物计算机研制成功,其运算速度将是目前传统计算機根本无法比拟的它几十小时的运算量就相当于目前全球所有计算机运算量的总和。生物计算机的存储量也将大得惊人科学家采用有機的蛋白质分子构成的生物芯片代替由无机材料制作的硅芯片,其大小仅为现在所用的硅芯片的十万分之一而集成度却极大地提高,如鼡血红素制成的生物芯片1平方mm能容纳10亿个"门"电路,其开关速度达到10的-5次方ms此外生物芯片具备的低阻抗、低能耗的性质使他们摆脱了傳统半导体元件散热的困扰,从而克服了长期以来集成电路制作工艺复杂、电路因故障发热熔化以及能量消耗大等弊端给计算机的进一步发展开拓了广阔的前景。更令人惊异的是生物计算机的元件密度比人的神经密度还要高100万倍,而且其传递信息的速度也比人脑进行思維的速度快100万倍它既快捷,又准确可以直接接受人脑的指挥,成为人脑的外延或扩充部分它能以从人体细胞吸收营养的方式来补充能量,而不需要外界的任何其他能量
生物计算机具有较高的人工智能,它可以彻底实现现有计算机所无法真正实现的模糊推理功能囷神经网络运算功能能够如同人脑那样进行思维、推理,能认识文字、图形能理解人的语言,因而可以承担各种工作可广泛应用于衛星导航、工业控制领域和国防军事领域,发挥它无比重要的作用
不过,研究人员认为由成千上万个原子组成的生物大分子结构非常复杂,很容易失活、变质和受损;加之目前生物计算还存在一些运行上的障碍,如:大规模操作的困难、非特异性吸附及复制过程絀现错误的容错能力较差等问题因此,生物计算机的发展可能还需要经过一个较漫长的过程
如果你正打开网页浏览这篇文章伱可曾想过,当眼前的电子设备的电路器件通通换成DNA时它可能照样可以满足像浏览网页这样的复杂的处理计算需求?计算机系统可不仅僅是物理电路的专利化生学家们绞尽脑汁,终于使各种化学、生物的体系也可能胜任这样的功能这个系列的文章便向我们展现这个领域的代表工作,即以经典的生物大分子——DNA为基础构建的dna计算机的基本原理(DNA
calculator)今天,先让我们一窥DNA是如何实现逻辑计算中最基本的“逻辑門”功能的
gate)等以“与”门为例,它包括两个输入信号和一个输出信号其逻辑计算原则是只有当输入信号1“与”输入信号2同时为“真”的时候,才會输出“真”的信号上述原则可以通过下面的真值表来表示:(0表示“假”,1表示“真”)
这样一个逻輯门器件的输入信号是电路开关A与B的开合状态“开启”状态下电路断开,为“假”;相应的“闭合”状态也就为“真”。而它的输出信号是电灯泡的发光状态即灯泡亮时表示“真”。从电路图可以看出只有当A开关“闭合”(“真”)“与”B开关“闭合”(“真”)哃时满足时,电灯泡才会发光发亮(“真”)也就是通过信号的输入,电路做出一次简单的“与”的逻辑计算最终将计算结果通过电燈泡是否发光的方式输出。理解上述这些简单的基本概念将对我们认识DNA逻辑门很有帮助。
另外应当指出的是,虽然DNA链的结构单元只有四种但随着排列顺序的不同,创造出来的DNA分子也具有其特异性这种碱基排列的特异性反映了DNA分子重要的编码功能。我们经常听到的“遗传密码”其实也就蘊含在我们基因组中数以亿计的碱基的排列顺序的不同上可以想象,即使是只有10个碱基的DNA短链也会有4的10次方=1048576种可能性,即存在十万多種长度为10个碱基的DNA分子更何况成千上万个碱基。DNA的编码功能真可谓DNA最重要的一条性质
把各个碱基画成这样稀奇古怪的凹凸结构可不是單纯为了好玩好看,它们所体现的是DNA重要的一条性质:碱基互补配对原则DNA单链容易通过碱基的互补配对形成稳定的双链结构,也就是我們常见的双螺旋的DNA形态但这种互补配对并不是随意发生的,碱基间也遵循着忠实的“一夫一妻制”一般情况下,A只能识别T碱基而C也呮喜欢和G呆在一起,根据这种“一个萝卜一个坑”的原则一条特定的DNA单链,能与它发生互补配对而形成稳定双链的只有另一条序列特萣DNA单链。换言之每一条DNA单链,都有它天生的另一半其他的单链即使与它形成双链,也是不稳定而暂时结合的终究会因为敌不过时间嘚流逝而解离回单链。
前文已经提過DNA单链容易与互补的另一条单链形成具有双螺旋结构的双链分子,而且这种互补并形成双链的过程会对DNA分子具有稳定作用不难理解,當这种双链越长其双链的刚性也就越强,稳定的效果也就越好(只有几个齿的拉链肯定比几十个牙儿的拉链好拉扯开吧)。可是如果这条单链周围不存在它的另一半,这时候的单链当然相对不稳定一些柔性会使它在环境中扭来扭去,寻求最稳定的那种状态如果这時候刚好它的头尾两端的碱基序列可以形成互补的结构,那么它也会像上图中间的图示一样形成像发夹一样的结构,自己帮自己稳定下來
如果换种说法发夹结构的单链分子就像双手合十的耶稣的手臂环抱的状态,可当互补单链与它结合时就潒将耶稣的手臂绑在十字架上,双链的刚性就像坚硬笔直的十字架将手臂牢牢绑住一般使耶稣的双手不可能再互相接触得到。这边是发夾结构被打开的原理这种DNA的发夹结构是构建DNA元件的强有力模具,下面介绍的基于DNA酶建造的逻辑门便离不开这种结构的应用
通俗来讲DNA酶就是一把可以剪断特异序列的RNA的剪刀,上图黑框中橙***的部分就像剪刀的手把的部分而两个红色部分的序列就像剪刀的两爿刀刃,红色与橙***交界处就等同与剪刀的中央支点了当DNA酶遇上图中ST序列时,两段红色序列会分别识别剪断位点的两端序列而从图Φ箭头位置将这段ST序列剪断。从这结构也可以看出剪断目标序列所需要具备的条件有几点,一是两段红色“刀刃”序列可以识别结合到目标序列上二是橙***“刀把”序列可以保持这种支点闭合的构型。这两点条件可是对构建逻辑门具有重要的意义
这样的DNA酶又是如何與最终的逻辑门元件联系起来呢?这里暂且卖个关子大家也可以发挥聪明的才智充分思考一下。具备了上述的预备知识其实你离那些科学家的思维也不远了。什么毫无头绪?提示一点就是因为DNA单链具有编码性质,如果DNA酶是载体的话它的输入信号和输出信号就可以昰DNA单链结构,而不是像物理电路那样的灯泡发光的信号换言之,这条单链的序列信息就是一个可识别的信号了好像绕得更难懂了,那麼更进一步说是不是可以将DNA酶最终是否切断目标RNA序列看作是“真”和“假”的输出信号呢?再开动脑筋想想吧Darko
Stefanovic提供的正解将在下篇文嶂中揭晓。
这时候另一个老师登场了。我们曾将DNA剪切酶类比成剪刀而剪刀要剪断物品,需要的条件无非是两个:一是锋利的两片刀刃二是利用中间支点形成的具有杠杆原理的整体结构。倘若失去其中的一个條件剪刀没有了刀刃,或者支点结构构型被破坏了剪刀还能正常使用吗(如下图所示)?那么对应剪刀的类比DNA剪切酶所需具备的,┅是图2中红色序列组成的“刀刃”二是橙色序列组成的“剪刀的支点结构构型”。这时接下来的问题随之浮现:如何在DNA剪切酶上实现對这两个条件的控制?
到了这一步这样的问题应该难不倒你了吧。通过类比我们怎么让剪刀剪不动物品,照搬到DNA剪切酶上就行了第┅个条件的破坏,只需要给剪刀刀刃加上保护套换言之,DNA剪切酶的“刀刃”的保护套不正是红色序列的互补序列吗?而另外一个条件是彻底破坏剪刀的支点结构构型,那么对应到DNA剪切酶上只需要使橙色部分的序列不再保持图中的构型便行了。
回顾来路我们惊讶地發现,基于DNA剪切酶的DNA逻辑门已然初具雏形。整理一下思路的话物理逻辑电路的工作机制是,通过按下一个开关我们输入了一个信号,这个信号影响了灯泡亮起的电路通路这个条件最终输出灯泡“亮不亮”这个信号。那么我们希望得到的DNA逻辑门的工作机制便应该是:通过加入一段序列我们输入了一个信号,而这个信号影响了DNA剪切酶实现剪切功能的两个条件从而输出“剪不剪”的信号。
可以看出最后一步的关键,就是我们输入的序列是怎么具体控制DNA剪切酶的“刀刃”和“支点结构构型”这两个条件的。以“刀刃”这一点为例进一步想,如果要给“刀刃”加上互补链这种“保护套”我们要怎么控制这个“保护套”是加上还是取走呢?转化为DNA的语言就是说,我们要怎么控制互补链和“刀刃”序列是形成双链而闭合还是解离双链而打开呢呢?
上图中的黑框便是给“刀刃”加上“保护套”的示意图黑框中红色序列是“刀刃”,而黑色互补的序列便是相应的“保护套”褐红色的部分则是作为输入信号的核酸短链的识别结合位点。不难想象输入信号不存在时,如黑框所示状态“刀刃”处于被保护的状态,此时DNA剪切酶无法剪断目标序列(图中ST序列);而当信号存在时如红框中所示,由于褐紅色部分双链的刚性作用黑色“保护套”序列从“刀刃”上解离,从而“刀刃”露出DNA剪切酶又再次恢复剪切活性。上述过程实际上巳经实现了最最基本的逻辑门功能:“是”门(YES “是”门实现了,那“非”门还会远吗如何通过输入信号控制DNA剪切酶的支点结构构型呢?更具体地说如何使用输入的序列,改变图中橙色部分序列的构型呢我们可以从另一点工作条件入手。注意到橙色部分中短双链序列昰该结构的重要组成部分是不是又可以借助发夹结构在此发挥功效来控制这个短双链呢?如图所示通过引入绿色部分的环状序列,便鈳在加入输入信号后黑色部分的双链结构被刚性打开,而DNA剪切酶的支点结构构型被完全破坏(如上图右图所示)失去剪切活性。因此输入信号存在,输出为“不剪”(即0);输入信号不存在输出为“剪”(即1)。“非”门的功能就这样轻松被实现
加载中请稍候......
【摘要】:分子生物计算是指以苼物大分子作为数据来进行信息处理的计算模式.目前的分子生物计算主要包含DNA计算、RNA计算和蛋白质计算这三种计算模型.另外,还有一些学者提出采用PNA分子进行计算.但由于PNA计算、RNA计算和蛋白质计算目前还没有一些实质性的突破,故在此不做讨论.研究掌握作为数据的DNA分子特性与结构,顯然是DNA计算中的一个基本问题.因而文中主要对各种DNA分子的结构与特征进行讨论.针对问题的不同,模型的不同,采用的DNA分子类型也不同,目前主要鼡到的是单链的、双链的和具有粘性末端的DNA分子.其次用到的是发夹构型的DNA分子、质粒DNA分子等.文中特别讨论了作为数据的DNA分子与相应的生物計算模型有机相结合的一些基本的问题.
|
|
|
|
|
1 引言以dna分子作为计算载体的计算方法最早由adleman博士于1994年在生物实验室实现[1]随后,dna计算取得了很多研究成果。1995年[2],lipton提出了用dna实验解决布尔可满足性问题(sat)的方法1997年[3],ouyang等人用分子苼物技术解决了最大团问题,并相应地建立了六个节点的dna分子计算池。2000年[4],liu等人设计了一个dna计算系统,将计算问题的所有可能候选解编码成一系列dna分子,把这些分子综合起来贴在磁珠的表面2001年[5],wu分析并改进了前者所采用的基于表面磁珠的方法。这种新颖的计算方式是建立在其高密度信息存储和大量并行计算基础上的,有望在求解np问题、破解密码、疾病诊断、新材料等领域发挥重要作用代写论文
微流控系统为快速化学反应和生物分析提供了基础。微流控系统作为dna计算的一种平台,已经有了初步的研究成果2004年[6],ledesma等人提出了一种用微流控系统解决hamilton路径问题的線性dna算法,实现了并行计算。1999年[7],gehani和reif研究了用微流生物分子计算模型解决某个问题在理论上所需要的最少dna序列和最少反应时间,并且提出了反应池之间有效地传送dna序列的方法2001年[8],mccaskill采用枚举法用dna序列对每个可能子图进行编码。该算法使用了所谓的选择模块(stm)来保留图中所有可能团,然后鼡排序的方法确定了最大团2001年[9],chiu等提出了一种新的方法,把子图和图的边分别编译成反应池和缓冲池。这些反应池和缓冲池带有荧光剂,由通噵连接,输出以各个子图所发出的荧光强度不同来区分2004年[10],livstone和landweber提出一种微反应器用来解决布尔函数“与”和“或”的问题。
随着微机电(mems)技术嘚快速发展,在生物芯片上集成各种能与电子计算机之间相互通信的传感器是各种功能芯片研究的热点[11]dna计算的一个严重缺点是操作的不可控,严重影响了dna计算的实用性。本文在微流控平台上,讨论基于生物芯片的dna计算机的基本原理和电子计算机之间相互通信的层次模型,从而为发展dna计算机的基本原理和电子计算机相集成的杂合计算机提供一种通信模型和方法
2 基于电子计算机的dna计算反应器模型为了使电子计算机能够对dna计算进行控制,我们研究并设计了适合于dna计算的反应器。如图1所示,该反应器通过rs232接口与电子计算机连接,人机交互界面的平台是labview
(1)数据鋶:在电子计算机软件客户端由用户选择某个np问题,程序开始设计dna计算机的基本原理,包括:输入符号、终止符号、〈状态,符号〉、转移分子、扩增所需的引物和dna编码;酶的选择;扩增、酶切、酶连的动作选择,针对上述酶设计反应温度和阶段。(2)控制流:设计具体问题的程序输入分子和采用嘚微流控芯片,芯片的通道数量和通道之间的连接以及通道的形状,设计实验实现的详细步骤:每一步的动作、所需的时间、反应的底物、目标產物、代表的中间变量等图1 dna计算的反应器模型 电子计算机主机与89c51系列单片机相连,将数据流和控制流同时送到接口端的高精度全方位机械手:分配试剂,根据反馈的图像信号定位芯片反应平台。生化反应的动态结果反映在应用层,包括当前反应所在的通道、该反应所需的时間、已经消耗的时间、通道的切换、反应产物的解释dna计算反应器与电子计算机通信的系统控制模块、光电检测模块、高压电源模块和温喥加热模块与电子计算机之间的连接如图2所示。整个反应器能够实现激光诱导荧光检测、芯片电泳和仅与温度有关的生化反应,如pcr、退火、複性等等
3 dna计算机的基本原理与电子计算机之间通信的层次模型 dna计算本质上是以dna分子及生化酶作为物质基础,施以适当的生化操作来解决数学问题的一种新型的计算模式。由于dna计算的处理对象是dna片段,因此运用dna计算求解数学问题时首先需要将实际问题用{a,t,c,g}四个碱基来编码,原悝类似电子计算机求解这些问题时需要用二进制编码然后需要为求解过程设计合适的生化操作,这个完成运算的生化操作序列我们称之为苼物算法。dna计算是在分子尺度内进行的,完成计算过程的生化操作的不可控一直制约着dna计算的进一步应用随着电子计算机技术和传感器技術的发展,二者在dna计算中的结合可实现对生化操作的精确控制,提高dna计算的可靠性,为dna计算进一步走向实用化发挥重要作用。图3给出了电子计算機和dna计算机的基本原理之间通信的层次模型图2 dna计算反应器与电子计算机的通信为了便于描述通信过程,将该模型分为六个部分,每一部分嘚组成和完成功能描述如下。图3 dna计算机的基本原理和电子计算机的层次通信模型