收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

An Asynchronous Parallel Model for Genome Assembly

Jintao Meng  Shengzhong Feng  Yanjie Wei  
【摘要】:正Background:Current sequencing technology(Illumina Solexa,Applied Biosystems SoLiD,and Helicos Biosciences Heliscope etc.) allows one to read millions of 35 to 100 nucleotide sequences per hour.Due to experimental errors,gaps,and genomic repeats,a much higher coverage depth of 50-fold to 300-fold is needed for accurate assembly.These factors contribute to a 300-fold to 1000-fold increase in the number of reads,resulting in billions of reads to be processed,which significantly complicates the genome assembly problem. Methods:This paper first demonstrates a multi-step bi-directed graph for the problem of genome assembly.Genome can be recovered by merging semi-extended edges to fullextended edges or contigs.Then a small world asynchronous parallel(SWAP) model is proposed to realize edge merging over a distributed one-step bi-directed graph.SWAP model applies the Lock-Computation-Unlock scheme to each vertex's small world.Later,we implement an assembler named as Para-Assembler using the SWAP model.Given the number of processes p,the complexity of this problem is reduced to 0(n/p) parallel compute time, 0(n/p) communication round,and O(glog(g)/p) communication volume,here g is the length of genomes,and n is the number of nucleotide in all input reads. Results:Simulation results shows that Para-Assembler has a factor of 20 times speedup when the number of processors scales from 10 to 640. Conclusions:The proposed SWAP introduced local synchronization and global asynchronization mechanism to maximize the parallelism in the graph algorithm.Based on SWAP model,we developed a new framework named as Para-assembler,and simulation results confirm its scalability over 640 cores.Finally Para-assembler can be used as basic computing framework for genome assembly.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;物理学报第24卷1975年总目录[J];物理学报;1975年06期
2 ;物理学报 第25卷 1976年 总目录[J];物理学报;1976年06期
3 ;气象学报第38卷目录[J];气象学报;1980年04期
4 ;《石油物探》1981年总目录[J];石油物探;1981年04期
5 ;信息与控制 第10卷(1981)总目录[J];信息与控制;1981年06期
6 ;应用数学学报 第4卷1981总目录[J];应用数学学报;1981年04期
7 ;数值计算与计算机应用 第2卷 1981年 总目录[J];数值计算与计算机应用;1981年04期
8 ;物理学进展 第2卷 总目录[J];物理学进展;1982年04期
9 J.M.格维希阿尼 ,刘雄冠 ,黄洪章;全球发展模型的构模方法(二)[J];系统工程理论与实践;1982年02期
10 徐峰,潘乃德,高德荫;二维波动方程地震偏移差分格式的稳定性[J];石油物探;1982年03期
11 ;国外有关力学学术会议一览表[J];力学进展;1982年02期
12 ;国外遗传学新书目[J];遗传;1982年03期
13 ;空间科学学报 第2卷 1982年 总目录[J];空间科学学报;1982年04期
14 ;气象学报第40卷目录[J];气象学报;1982年04期
15 黄志同;解释结构模型中的级划分和骨架阵[J];南京理工大学学报(自然科学版);1982年04期
16 ;第5卷 1983年 总目录[J];地震学报;1983年04期
17 ;空间科学学报 第3卷 1983年总目录[J];空间科学学报;1983年04期
18 ;气象学报第41卷目录[J];气象学报;1983年04期
19 ;地震学报 第6卷 1984年 总目录[J];地震学报;1984年04期
20 ;1979年—1984年分类目录[J];地震学报;1984年04期
中国重要会议论文全文数据库 前10条
1 R.Stephanie Huang;;Genome-wide Discovery and Clinical Validation of Pharmacogenomic Markers for Chemotherapy[A];第十届全国化疗药理暨抗感染药理高峰论坛资料汇编[C];2010年
2 ;Chemical Biology of Natural Products:From Genome to Drug Discovery[A];中国化学会第八届天然有机化学学术研讨会论文集[C];2010年
3 ;The Mitochondrial Genome of Baylisascaris procyonis[A];中国畜牧兽医学会家畜寄生虫学分会第六次代表大会暨第十一次学术研讨会论文集[C];2011年
4 陈勇;毛凤楼;李国君;徐鹰;;Genome-wide Discovery of Missing Genes in Biological Pathways of Prokaryotes[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
5 ;LTR retrotransposon prediction in algae genome of Coccomyxa Sp.c169,C.reinhardtii,V.carteri,E.siliculosus genome using In Silico analysis[A];中国藻类学会第八次会员代表大会暨第十六次学术讨论会论文摘要集[C];2011年
6 ;The Draft Genome Sequence of Ae.tauschii,the D Genome Donor of Common Wheat[A];第十二届全国植物基因组学大会论文集[C];2011年
7 Helene Blanche;Howard Cann;Lars Bolund;Karsten Kristiansen;;Building the sequence map of the human pan-genome[A];培育生物产业,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
8 Laurie Goodman;Ines Hellmann;Michael Inouye;John Pool;Karsten Kristiansen;Gane Ka-Shu Wong;Rasmus Nielsen;Richard Durbin;Lars Bolund;;The diploid genome sequence of an Asian individual[A];培育生物产业,发展绿色经济——第五届中国生物产业大会·2011基因科学与产业发展论坛会刊[C];2011年
9 顾明亮;牛文全;;Strategies and Challenges of Genome-Wide Association Studies[A];第四届全国生物信息学与系统生物学学术大会论文集[C];2010年
10 Thomas Mitchell;;What We are Learning from Whole Genome Studies of the Rice Blast Fungus?[A];中国植物病理学会2010年学术年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 袁细国;基因组变异仿真与基因组模式鉴定[D];西安电子科技大学;2011年
2 巴恒星;中国梅花鹿全基因组初步组装、分析及单核苷酸多态性研究[D];中国农业科学院;2012年
3 杨铁林;利用人类全基因组拷贝数变异和SNP多态性揭示骨质疏松和肥胖症的遗传致病机理[D];西安交通大学;2009年
4 刘军;面向并行工程的CAPP关键技术的研究与实现[D];南京航空航天大学;2001年
5 马银亮;高浓度气固两相流的数值模拟研究[D];浙江大学;2001年
6 JONES CHILIMA;[D];浙江大学;2001年
7 Hongbiao CHEN;[D];广东外语外贸大学;2001年
8 左伟;基于RS、GIS和Models的区域生态环境系统安全综合评价研究[D];南京师范大学;2002年
9 尹中立;中国上市公司资本效率研究[D];中国社会科学院研究生院;2003年
10 赵伟荣;阳离子红X-GRL染料的UV、O_3、O_3/UV氧化处理研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 王吉星;对象/关系映射在.NET平台下的研究与应用[D];吉林大学;2007年
2 高青松;基于数据降维技术的全基因组区域化关联分析统计推断方法研究[D];山东大学;2011年
3 阿里;玉米大斑病菌NPS6基因的克隆和功能分析[D];吉林大学;2012年
4 默韶京;长穗偃麦草中AP2/EREBP类转录因子基因的克隆与功能验证[D];河北农业大学;2011年
5 汪巧;转cry1Ac基因抗虫棉鄂杂棉1号外源插入序列分析及特异性PCR检测方法[D];中国农业科学院;2011年
6 张明镜;哺乳动物染色体断裂区域的识别及相关基因分析[D];西北农林科技大学;2010年
7 张清;运动单胞菌基因组尺度代谢网络模拟[D];天津大学;2010年
8 赵雪雅;栽培花生基因组BAC文库的构建[D];郑州大学;2011年
9 华萌;面向对象建模语言的可视化建模开发方法研究——标准建模语言UML及Rational产品的实际应用[D];天津财经学院;2000年
10 王忠凯;烷基萘磺酸盐的合成及其在三次采油中的应用[D];大连理工大学;2000年
中国重要报纸全文数据库 前10条
1 徐志忠;保险行销与教练魔法[N];中国保险报;2003年
2 刘娜;谈财务会计报告的改进[N];中国财经报;2001年
3 本报记者 张晶;中国模特“黑皮书”[N];中国纺织报;2005年
4 渤海证券有限责任公司 朱伯军;股权分置改革中的利益均衡分析[N];证券日报;2005年
5 旭涛 编译;新加坡PDCM模式:加强教师终身学习[N];中国教育报;2005年
6 住明正等 日本东京大学气候系统中心等;利用地球模拟器开发全球变暖预报模式[N];中国气象报;2003年
7 李开鹏 温德成;SPSS统计软件:帮你试验和检验[N];中国质量报;2005年
8 广西 和剑;人物3D面部造型[N];电脑报;2004年
9 北京 杨峰;在UG中进行英制与公制的转换[N];电脑报;2004年
10 内蒙古 流浪的火焰;Sempron超频经验谈[N];电脑报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978