sambamba — samtools 的高效平替工具

sambamba — samtools 的高效平替工具

sambamba 是一个 BAM 文件处理工具。

sambamba
sambamba

它使用了 D 语言的多线程和异步 IO 特性,实现了高效的并行化处理。sambamba 可以在多核 CPU 上同时运行多个任务,利用硬盘和内存的带宽,提高了处理速度。sambamba 还使用了一些优化算法和数据结构,比如快速排序,哈希表,位图等,减少了内存占用和磁盘读写。

sambamba 支持 samtools 和 picard 的大部分功能,而且速度更快,内存占用更少,操作更简单。sambamba 不仅可以对 BAM 文件进行排序、索引、过滤、统计、标记重复等常见的操作,还可以进行一些特殊的功能,比如区域过滤,标记重复序列,检测结构变异等。sambamba 还支持多种输入和输出格式,比如 CRAM、SAM、BED、VCF 等,让我们可以灵活地处理各种数据类型。

此外,sambamba 还弥补了 samtools 无法对超过 512Mb 长度的染色体建立 bam 文件索引的缺陷,例如:

$ samtools index -b test.sort.bam test.sort.bam.bai
[E::hts_idx_check_range] Region 536870922..536871063 cannot be stored in a bai index. Try using a csi index[E::sam_index] Read 'E00548:269:HV7NVCCXY:3:2117:26494:57301' with ref_name='chr1H', ref_length=558535432, flags=81, pos=536870923 cannot be indexed
samtools index: failed to create index for "Atlas.sort.bam": Numerical result out of range

错误信息表明区域 536870922..536871063 无法存储在 .bai 索引中,并建议尝试使用 .csi 索引。但是 GATK 等一些生信工具不支持 .csi 格式的索引文件。sambamba 能够给最大参考序列长度的 bam 文件构建 bai 索引。

https://lomereiter.github.io/sambamba/docs/sambamba-markdup.html

安装方式

使用 conda 安装

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值