SAM/BAM文件处理 - 生物信息 - 生物秀
标题: SAM/BAM文件处理
摘要: [SAM BAM文件处理]当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary)。 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档。SAM由头文件和ma…… [关键词:基因组 序列 模板 特异性 测序 染色体 生物信息学]……
当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B取自binary)。 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档。SAM由头文件和map结果组成。头文件由一行行以@起始的注释构成。而map结果是类似下面的东西:
HWI-STFPACXX:7::66670 0 chr1 M4I5M * 0 0 TTGGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCACCAATATG CCCFFFFFHHGHHJJJJJHJJJJJJJJJJJJJJJJIJJJJJJJJJJJJIJJ AS:i:-28 XN:i:0 XM:i:2 XO:i:1XG:i:4 NM:i:6 MD:Z:2C41C2 YT:Z:UU NH:i:3 CC:Z:chr15 CP:i: XS:A:+ HI:i:0
HWI-STFPACXX:7:: chr1 M * 0 0 ACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACAGTGTTT CFFFFHHJJJJIJJJJIJJJJJJJJJJJJJJJJJJJJJHHHHFA+FFFC@B AS:i:-3 XN:i:0 XM:i:1 XO:i:0 XG:i:0NM:i:1 MD:Z:44G6 YT:Z:UU XS:A:+ NH:i:3 CC:Z:chr15 CP:i: HI:i:0
HWI-STFPACXX:7::53305 16 chr1 M * 0 0 CGCTGGAGCCGGTGTTTGTCATGGGCCTGGGCTGCAGGGATCCTGCTACAA #############AB=?:*B?;A?&2+233++;A+A2+&7==@7,A&A&=& AS:i:-5 XN:i:0 XM:i:2 XO:i:0 XG:i:0NM:i:2 MD:Z:8A21T20 YT:Z:UU XS:A:+ NH:i:4 CC:Z:chr15 CP:i: HI:i:0
看上去很类似fastq文件,它也有read名称,序列,质量等信息,但是又不完全一样。首先,每个read只占一行,只是它被tab分成了很多列,一共有12列,分别记录了:
1. read名称
2. SAM标记
3. chromosome
4. 5′端起始位置
5. MAPQ(mapping quality,描述比对的质量,数字越大,特异性越高)
6. CIGAR字串,记录插入,删除,错配以及splice junctions(后剪切拼接的接头)
7. mate名称,记录mate pair信息
8. mate的位置
9. 模板的长度
10. read序列
11. read质量
12. 程序用标记
显然,其中chromosome至CIGAR的信息都是非常重要的。但是这些对我们不重要,我们只需要了解SAM/BAM文件是什么,就可以了。重要的是如果进行下游的操作。 要操作SAM/BAM文件,首先需要***samtools。它的***过程和所有的linux/unix程序一样,都是经过make之后生成可执行程序,然后把它的路径告知系统,或者放在系统可以找到的位置就可以了。 比如:
tar zxvf samtools-0.1.18.tar.bz2
cd samtools-0.1.18/
samtoolpath=`pwd`
PATH=PATH:$samtoolpath
然后就可以按照samtools主页上介绍的工具进行各种操作了。我们最常见的几步操作比如 0. SAM,BAM转换
samtools view -h file.bam & file.sam
samtools view -b -S file.sam & file.bam
1. sorting BAM文件。大多数下游程序都要求BAM文件是被排过序的。
samtools sort file.bam outputPrefix
2. 创建BAM index。这也是被大多数下游程序所要求。
samtools index sorted.bam
3. index模板基因组。这也是被大多数下游程序所要求。
samtools faidx Homo_sapiens_assembly19.fasta
在很多时候,我们还会看到一种扩展名为BED的mapping文件。其具体格式也是几经变化,但是现在以UCSC的描述为准。从BAM文件转换成BED文件,我们需要***BEDtools。下载***就不多说了。示例一个如何从BAM文件转换成BED文件的命令:
bamToBed -i reads.bam & reads.bed
更多的具体内容可以参见其说明文档。 当然,还有很多种格式来记录mapping的结果,大多数都收录在UCSC的帮助文档中。比如上次有人问及的.bw是什么文件(bigWig文件)之类的,都可以在那里找到***。 上次谈及fastq文件时,有讲过其质量评估的问题,那么在mapping之后,如何对mapping的结果进行评估呢? 最简单的,就是通过samtools来评估mapping质量了。
samtools idxstats aln.sorted.bam
注意,这一步之前需要经过sort和index。结果会显示:
chr1 12404 0
chr10 33316 0
chr11 50325 0
chr12 76527 0
chr13 11799 0
chr14 49332 0
chr15 72649 0
chr16 8669 0
chr17 44866 0
chr18 9331 0
chr19 6779 0
chr2 17357 0
chr3 47950 0
chr4 80584 0
chr5 34814 0
chr6 55095 0
chr7 63859 0
chr8 16734 0
chr9 22219 0
chrX 48378 0
chrY 078 0
其中第一列是染色体名称,第二列是序列长度,第三列是mapped reads数,第四列是unmapped reads数。 如果是RNAseq,我们可以使用broad institute的RNA-SeQC来得到更加完整的报告。下载到文件之后,也许需要***BWA来获取更精准的结果,但是如果不***的话,也可以进行分析。一般来说,这一步不需要特别精准的结果,所以我很少使用BWA选项。下载的文件如果是.zip结尾的,直接把它改写成.jar就可以运行了。 在它的主页上下载所需要的Example RNA-seq Data。下载结束之后,该解压的解压缩。接下来运行:
samtools index example/ThousandReads.bam
samtools faidx example/Homo_sapiens_assembly19.fasta
java -Xmx2048m -jar RNA-SeQC_v1.1.7.jar -n 1000 -s "TestId|example/ThousandReads.bam|TestDesc" -t example/gencode.v7.annotation_goodContig.gtf -r example/Homo_sapiens_assembly19.fasta -o ./testReport/ -start gc -gc example/gencode.v7.gc.txt
以上的参数只有一个与其说明文档不一样的地方就是使用了-Xmx2048m来指定java虚拟机的内存大小为2G。如果遇到java.lang.OutOfMemoryError,还可以指定得再大些。
当然如果是自己的文件的话,还需要多两步:
1.BAM,reference及GTF文件的基因组名称必须一致。
2.需要使用picard工具包中的CreateSequenceDictionary来构建一个dictionary文件。
原文来自:http://pgfe.umassmed.edu/ou/archives/3050
相关热词:
..........
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
官方微信号:shengwuxiu
***:021-JPEG格式的图像也能动?_百度知道关键词:RO地图 .rsm .rsw .gnd .gat
内容来自dedecms
正文: RO中与地图相关的文件格式主要有 *.rsm *.rsw *.gnd *.gat ==================================================== ·rsm文件 rsm文件存放在Data\model下,它是资源模型文件(resource model), 内容来自dedecms
用来描述一件3D模型,比如一棵树,一座建筑物,一
copyright dedecms
个酒桶等等。rsm文件除了包含多边形信息以外,还记录着使用到的材质贴图的文件名。 本文来自织梦
贴图文件为BMP格式,存放在
织梦好,好织梦
Data\texture下,大多为256色,但是根据我以前的试验,应该也可以使用24bit色。 织梦内容管理系统
另外,rsm文件也支持动态效果,也就
内容来自dedecms
是说3D模型是可以活动的,比如钟楼地图中会转动的齿轮之类…… 织梦内容管理系统
内容来自dedecms
==================================================== ·rsw文件 rsw文件存放在Data目录下,它是资源世界文件(resource world),用来描述一张地图中摆放的各个元素、
一些基本的几何形状以及一些声音效果。比如在地图的某个位置放一棵树,在rsw文件中应该会存储为某某座标 内容来自dedecms
处放置一个某某目录下的某某rsm文件,还有当玩家走到这颗树附近时播放某个wav文件。 织梦内容管理系统
此外rsw还可以放置一些简单的几何形状,比如圆柱、立方体之类。我们可以使用UltraEdit之类的16进制编辑工具修改rsw文件, 本文来自织梦
比如打开data\prontera.rsw,把 公棱檬采\唱公01.rsm换成 公棱檬采\唱公07.rsm,就可以把首都道路边上的树换成椰子树。 内容来自dedecms
同理,只要你能找到樱花树的rsm文件,也可把首都路边的树木换成樱花树。
本文来自织梦
本文来自织梦
==================================================== ·gnd文件 gnd文件存放在Data目录下,是地面模型文件(ground model),用来描述一张地图的地面模型(不带其他元素), 内容来自dedecms
比如prontera.gnd就是首都的地面模型,没有房屋、树木这些附加元素。 织梦好,好织梦
==================================================== ·gat文件 gat文件存放在Data目录下,是地面高度表文件?(Ground Altitude Table?), 织梦好,好织梦
应该是用来描述地图中各个座标处的高度以及玩家是否可以走到这个位置。
copyright dedecms
阅读本文的人还阅读过下面的文章
热门相关信息
推荐相关信息
最新相关信息 上传我的文档
下载
收藏
该文档贡献者很忙,什么也没留下。
下载此文档
正在努力加载中...
...(苏轼)海面雷霆聚,江心瀑布横,(范仲淹)千里波涛...(PPT)
下载积分:1351
内容提示:...(苏轼)海面雷霆聚,江心瀑布横,(范仲淹)千里波涛...(PPT)
文档格式:PPT|
浏览次数:37|
上传日期: 09:36:16|
文档星级:
该用户还上传了这些文档
...(苏轼)海面雷霆聚,江心瀑布横,(范仲淹)千里波涛...(PPT
官方公共微信只需一步,快速开始
扫一扫,访问微社区
只需一步,快速开始
扫一扫,访问微社区
后使用快捷导航没有帐号?
- [售价 30 枚宝石]