Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

Awesome-Bioinformatics-CN

生物信息学软件,资源和工具库的精选列表
https://github.com/feifei9606/Awesome-Bioinformatics-CN

Last synced: 1 day ago
JSON representation

  • 二代测序

    • 生信流程

      • bcbio-nextgen - 已验证可扩展的,社区开发的变异检测,注释,预测,RNA-seq和小RNA分析流程 [ [web](https://bcbio-nextgen.readthedocs.io) ]
      • nf-core - 基于Nextflow的社群维护的精选分析流程
      • bcbio-nextgen - 已验证可扩展的,社区开发的变异检测,注释,预测,RNA-seq和小RNA分析流程 [ [web](https://bcbio-nextgen.readthedocs.io) ]
      • Awesome-Pipeline - 流程资源列表
      • snakepipes - 基于snakemake的流程,包括ChIP-seq,mRNA-seq, noncoding-RNA-seq, ATAC-seq, scRNA-seq,Hi-C,Whole Genome Bisulfite Seq/WGBS [ [paper-2019](https://academic.oup.com/bioinformatics/article/35/22/4757/5499080) ]
      • ngs-preprocess - 基于Nextflow的预处理短/长读长reads流程 [ [web](https://ngs-preprocess.readthedocs.io/en/latest/?badge=latest) ]
    • 序列处理

      • MultiQC - 汇总多个样本的生物信息分析结果到一张报告 [ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/27312411) | [web](http://multiqc.info) ]
      • AfterQC - 对FASTQ数据自动过滤,triming,移除错误和质控[ [paper-2017](https://pubmed.ncbi.nlm.nih.gov/28361673) ],后作者使用C++重新实现,成为
      • fastp
      • FastQC - 高通量测序数据FASTQ质控工具 [ [web](http://www.bioinformatics.babraham.ac.uk/projects/fastqc) ]
      • Fastqp - 基于`python`的FASTQ和SAM质控工具
      • Fastx Tookit - FASTQ/FASTA 短序列处理工具:去接头,trimming,碱基质量过滤,masking[ [web](http://hannonlab.cshl.edu/fastx_toolkit) ]
      • SeqFu - 基于Nim的处理FASTA/FASTQ工具集[ [paper-2021](https://www.mdpi.com/2306-5354/8/5/59) | [web](https://telatin.github.io/seqfu2/) ]
      • SeqKit - 基于`Go`的跨平台,超快处理FASTQ/FASTQ文件的工具包[ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/27706213) | [web](https://bioinf.shenwei.me/seqkit) ]
      • Seqtk - 处理FASTA/FASTQ格式中序列的工具箱
      • smof - UNIX-风格的FASTA操作工具
    • 序列比对

      • WFA - wavefront比对算法(WFA)利用序列的相似性加速比对 [ [paper-2020](https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btaa777/5904262) ]
      • Bowtie 2 - 一种超快速且节约内存的工具,将测序序列与参考序列进行比对。[ [paper-2012](https://pubmed.ncbi.nlm.nih.gov/22388286) | [web](http://bowtie-bio.sourceforge.net/bowtie2) ]
      • BWA - DNA序列间两两比对的Burrow-Wheeler Aligner
      • Parasail - 用于全局,半全局和局部序列比对的SIMD C库[ [paper-2016](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-0930-z) ]
      • POA - 偏序比对用于多序列比对以及同源序列保守序列[ [paper-2002](https://academic.oup.com/bioinformatics/article/18/3/452/236691) ]
      • MMseqs2 - 用于蛋白质和核酸序列数据集超快、敏感搜索和聚类工具 [ [paper-2017](https://www.nature.com/articles/nbt.3988) | [paper-2018](https://www.nature.com/articles/s41467-018-04964-5) ]
      • MUMmer - 整基因组比对 [ [paper-1999](http://mummer.sourceforge.net/MUMmer.pdf) | [paper-2002](http://mummer.sourceforge.net/MUMmer2.pdf) | [paper-2004](http://mummer.sourceforge.net/MUMmer3.pdf) | [web](http://mummer.sourceforge.net) ]
    • 变异检测

      • freebayes - 基于贝叶斯单倍型多态性发现及基因分型 [ [web](http://arxiv.org/abs/1207.3907) ]
      • deepvariant - 深度学习变异检测 [ [Nature Biotechnology-2018](https://doi.org/10.1038/nbt.4235) ]
      • Octopus - 基于多态性贝叶斯分型模型的变异检测 [ [Nature Biotechnology-2021](https://www.nature.com/articles/s41587-021-00861-3) ]
      • Delly - 整合paired-end和split-read分析的结构变异识别[ [paper-2012](https://pubmed.ncbi.nlm.nih.gov/22962449) ]
      • lumpy - 基于概率框架检测结构变异 [ [paper-2014](https://link.springer.com/article/10.1186/gb-2014-15-6-r84) ]
      • manta - 从双端比对数据中检测结构变异和Indel [ [paper-2015](https://pubmed.ncbi.nlm.nih.gov/26647377) ]
      • gridss - 基因组重排检测工具集 [ [paper-2017](https://pubmed.ncbi.nlm.nih.gov/29097403) ]
      • cnvkit - 靶向DNA测序拷贝数变异检测 [ [paper-2016](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004873 ) ]
      • freebayes - 基于贝叶斯单倍型多态性发现及基因分型 [ [web](http://arxiv.org/abs/1207.3907) ]
      • GATK - 高通量数据变异检测金标准[ [web](https://software.broadinstitute.org/gatk) ]
      • smoove - 结构变异检测,基因分型
    • 流程管理

      • Bpipe - 一种定义流程不同阶段及串联起来的轻量语言 [ [web](http://docs.bpipe.org) ]
      • Common Workflow Language - 用于描述分析工作流程和工具的规范,从工作站到集群,云和高性能计算(HPC)环境的各种软件和硬件环境中都具有可移植性和可伸缩性 [ [web](http://www.commonwl.org) ]
      • Cromwell - 面向科学工作流程的工作流程管理系统 [ [web](https://cromwell.readthedocs.io) ]
      • Nextflow - 基于UNIX管道概念建模的流畅DSL,简化了以可移植方式编写并行和可扩展管道的过程。 [ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/29412134) | [web](http://nextflow.io) ]
      • Ruffus - 广泛用于科学和生物信息的计算流程Python库[ [paper-2010](https://pubmed.ncbi.nlm.nih.gov/20847218) | [web](http://www.ruffus.org.uk) ]
      • SeqWare - 基于Hadoop Oozie的工作流系统用于云环境中的基因组数据分析 [ [paper-2010](https://pubmed.ncbi.nlm.nih.gov/21210981) | [web](https://seqware.github.io) ]
      • Snakemake - Python中的工作流管理系统,旨在通过提供快速舒适的执行环境来降低创建工作流的复杂性 [ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/29788404) | [web](https://snakemake.readthedocs.io) ]
      • Workflow Descriptor Language - Broad开发的流程标准(已archived) [ [web](https://software.broadinstitute.org/wdl) ]
      • BigDataScript - 跨系统脚本语言,用于处理具有不同算力的计算机系统中的大数据流程的跨系统脚本语言 [ [paper-2014](https://pubmed.ncbi.nlm.nih.gov/25189778) | [web](https://pcingola.github.io/BigDataScript) ]
      • Galaxy - 一个流行的开源,基于Web的平台,用于数据密集型生物医学研究。 从数据分析到工作流管理再到可视化工具一站式解决 [ [paper-2018](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6030816) | [web](https://galaxyproject.org) ]
    • 格式转化

      • seqmagick - 方便使用Biopython进行文件格式转化 [ [web](http://seqmagick.readthedocs.io) ]
      • bioconvert - 目前支持45种格式,95种转换[ [web](https://bioconvert.readthedocs.io/en/master/) ]
    • 数据分析

      • Hail - 可扩展基因组分析(类似pandas?)
      • GLNexus - 群体测序项目中可扩展gVCF合并以及联合变异检测[ [paper-2018](https://www.biorxiv.org/content/10.1101/343970v1.abstract) ]
    • 表达定量

      • Cufflinks - Cufflinks组装转录本,估计表达风度,RNA-seq样本差异表达和调控分析 [ [paper-2010](https://www.nature.com/articles/nbt.1621) ]
      • RSEM - RNA-Seq数据基因层次和转录本层次表达定量 [ [paper-2011](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-323) | [web](http://deweylab.github.io/RSEM/) ]
    • 富集分析

    • BAM文件工具

      • samtools - 操作高通量测序数据的工具箱 [ [paper-2009](https://pubmed.ncbi.nlm.nih.gov/19505943) | [web](http://htslib.org) ]
      • bamtools - 处理BAM文件工具集 [ [paper-2011](https://academic.oup.com/bioinformatics/article/27/12/1691/255399) ]
      • bam toolbox
      • mergesam - 自动SAM/BAM文件转换
      • mosdepth - WGS,WES,pannel快速BAM/CRAM测序深度计算 [ [paper-2017](https://pubmed.ncbi.nlm.nih.gov/29096012/) ]
      • SAMstat - SAM/BAM文件统计 [ [paper-2010](https://academic.oup.com/bioinformatics/article/27/1/130/201972) | [web](http://samstat.sourceforge.net) ]
      • Somalier - BAMs/CRANs/VCFs/GVCFs 快速样本交换及相关性检查 [ [paper-2020](https://pubmed.ncbi.nlm.nih.gov/32664994) ]
      • Telseq - 从全基因组测序数据中估计端粒长度 [ [paper-2014](https://academic.oup.com/nar/article/42/9/e75/1249448) ]
      • sambamba - 2015](https://academic.oup.com/bioinformatics/article/31/12/2032/214758) ]
    • VCF文件工具

      • vcflib - 解析和操作VCF文件的C++库
      • bcftools - VCF文件操作的工具及 变异检测[ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/26826718) | [paper-2017](https://pubmed.ncbi.nlm.nih.gov/28205675) | [web](http://samtools.github.io/bcftools) ]
      • vcfanno - 使用VCFs/BEDs/tabixed文件注释VCF [ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/27250555) ]
      • vcftools - VCF操作和统计(比如连锁不平衡,等位基因频率,Fst)[ [paper-2011](https://pubmed.ncbi.nlm.nih.gov/21653522) ]
    • GFF/BED文件工具

      • AGAT - 处理GTF/GFF格式基因注释文件工具集[ [web](https://agat.readthedocs.io/en/latest/?badge=latest) ]
      • gffutils - GFF和GTF文件操作工具及相互转换[ [web](http://daler.github.io/gffutils) ]
      • BEDOPS - 快速,高度可扩展且方便并行处理的基因组分析工具 [ [paper-2012](https://academic.oup.com/bioinformatics/article/28/14/1919/218826) ]
      • Bedtools2 - 基因组分析的“瑞士军刀” [ [paper-2010](https://pubmed.ncbi.nlm.nih.gov/20110278) | [paper-2014](https://pubmed.ncbi.nlm.nih.gov/25199790) | [web](https://bedtools.readthedocs.io) ]
    • Python包

      • cyvcf - [pyVCF](https://github.com/jamescasbon/PyVCF) 使用Cython加速版本
      • cyvcf2 - Cython + HTSlib == 快速解析VCF,比pyVCF还快 [ [paper-2017](https://pubmed.ncbi.nlm.nih.gov/28165109) | [web](https://brentp.github.io/cyvcf2) ]
      • pyBedTools - Python封装的bedtools](https://github.com/arq5x/bedtools). [ [paper-2011](https://pubmed.ncbi.nlm.nih.gov/21949271) | [web](http://daler.github.io/pybedtools) ]
      • pyfaidx - Python访问fasta文件
      • pysam - Python封装的[samtools](https://github.com/samtools/samtools). [ [web](https://pysam.readthedocs.io/en/latest/api.html) ]
      • pyVCF - Python解析VCF文件 [ [web](http://pyvcf.readthedocs.org/en/latest/index.html) ]
      • cruzdb - Python访问USCC数据库 [ [paper-2013](https://academic.oup.com/bioinformatics/article/29/23/3003/248468) ]
      • pyensembl - Python访问Ensembl数据库 [ [web](https://pyensembl.readthedocs.io/en/latest/pyensembl.html) ]
      • bioservices - Python访问生物Web服务,如KEGG, BLAST [ [paper-2013](https://academic.oup.com/bioinformatics/article/29/24/3241/194040) | [web](http://bioservices.readthedocs.io) ]
    • 组装

      • SPAdes - SPAdes (St. Petersburg genome assembler) 原核生物基因组组装/分析工具集
      • SKESA - SKESA,微生物基因组序列重头组装。使用保守的启发式方法,在基因组中的重复区域创建断点。 这会生成高质量的序列,而不会显著影响连续性。
    • 长读长测序

      • canu - 单分子序列组装工具,大小基因组均适用
      • flye - 适用repeat graph进行单分子测序重头组装
      • hifiasm - haplotype-resolved de novo assembler for PacBio HiFi reads
      • wtdbg2 - 基于模糊Bruijn graph方法的长读长组装
    • 变异模拟

      • wgsim - **Comes with samtools!** - 测序数据模拟 [ [web](https://popmodels.cancercontrol.cancer.gov/gsr/packages/wgsim) ]
      • Bam Surgeon - 在已有`.bam`文件中添加变异,用于变异检测工具测试 [ [web](https://popmodels.cancercontrol.cancer.gov/gsr/packages/bamsurgeon) ]
    • 变异注释

      • SIFT - 预测氨基酸替换是否影响蛋白质功能 [ [paper-2003](https://pubmed.ncbi.nlm.nih.gov/12824425) | [web](http://sift.jcvi.org) ]
      • SpliceAI - 预测遗传变异对剪切的影响[ [Cell-2020 ](https://linkinghub.elsevier.com/retrieve/pii/S0092867418316295) ]
      • ensembl-vep - 遗传变异注释和效果预测
      • SnpEff - 遗传变异注释及效果预测工具箱 [ [paper-2012](https://www.tandfonline.com/doi/full/10.4161/fly.19695) | [web](https://pcingola.github.io/SnpEff) ]
    • 注释

      • Prokka - 快速进行原核基因组注释,Prokka是微生物基因组注释最常用的工具之一。
      • Bakta - Bakta 是一种用于对细菌基因组和质粒进行快速和标准化注释的工具。 它以 JSON 和生物信息学标准文件格式提供dbxref -rich和 sORF 的注释,用于自动下游分析。
      • Bacannot - 基于Nextflow的细菌基因组注释的流程 [ [web](https://bacannot.readthedocs.io/en/latest/?badge=latest) ]
  • 数据库访问

  • 资源

  • 在线社区

  • 许可

  • 软件包套件

    • (Poly)merase - 合成生物学GO库和命令行工具
    • Rust-Bio - 基于`Rust`的生物信息学常见数据结构和算法[ [paper-2016](http://bioinformatics.oxfordjournals.org/content/early/2015/10/06/bioinformatics.btv573.short?rss=1) ]
    • SeqAn - 基于`C++`的序列分析库
    • Biopython - 基于`Python`的进行生物计算的免费工具,包括使用技巧,包以及详细文档。属于 [Open Bioinformatics Foundation](http://open-bio.org/)的一部分,同时也包含NCBI eutils的API来访问NCBI数据库[ [paper-2009](https://pubmed.ncbi.nlm.nih.gov/19304878) | [web](https://biopython.org) ]
    • Biocaml - 基于OCaml的高性能生物信息库
    • BioJulia - 基于`Jujia`的生物信息学和计算生物学框架[ [web](https://biojulia.net) ]
    • Bioconductor - 基于`R`语言的用于分析高通量数据的工具平台,截至到3.12版本已收录1900多个软件包[ [paper-2004](https://link.springer.com/article/10.1186/gb-2004-5-10-r80) | [web](https://www.bioconductor.org) ]
    • Bioconda - [conda包管理器](http://conda.pydata.org/docs/intro.html)中专门针对生物信息学软件的一个channel,包括3000+的生物信息学软件包[ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/29967506) | [web](https://bioconda.github.io) ]
  • 数据处理

    • 命令行工具

      • jq - 命令行处理JSON文件
      • easy_qsub - 使用脚本模板快速提交PBS任务,支持多个输入文件
      • grabix - 随机访问BGZF文件的轻量工具。
      • gsort - 按照指定顺序排序基因文件
      • wormtable - 大型数据集单写多读
      • zindex - 压缩文本文件创建索引
      • jq - 命令行处理JSON文件
      • Bioinformatics One Liners - 只一行命令进行生物数据处理
      • BioNode - 模块化和通用的生物信息学工具,Bionode为生物信息学分析工作流提供了可移植的UNIX命令行工具和JavaScript API [ [web](http://bionode.io) ]
      • bioSyntax - vim/less/gedit/submie中生物数据格式(SAM, VCF, GTF, FASTA, PDB等)语法高亮 [ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/30134911) | [web](http://www.bioSyntax.org) ]
      • CSVKit - 操作CSV/TAB分割文件的工具 [ [web](https://csvkit.readthedocs.io/en/latest) ]
      • csvtk - 另一个跨平台,高效实用的CSV/TSV工具箱 [ [web](https://bioinf.shenwei.me/csvtk) ]
      • tabix - 表格数据建立索引 [ [paper-2011](https://pubmed.ncbi.nlm.nih.gov/21208982) ]
      • tmux - 终端多路复用器,可以在一个屏幕上创建,访问,控制多个终端。同时可以断开连接并继续在后台运行
      • 这里
      • datamash - 数据转换和统计 [ [web](http://www.gnu.org/software/datamash) ]
  • 可视化

    • 基因组浏览器/基因图

      • Squiggle - DNA序列可视化 [ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/30247632) | [web](https://squiggle.readthedocs.io/en/latest/) ]
      • biodalliance - 轻量级基因组浏览器,支持多种经典的基因组文件格式,比如bigWig,BAM,VCF等[ [paper-2011](https://pubmed.ncbi.nlm.nih.gov/21252075) | [web](http://www.biodalliance.org) ]
      • BioJS - 收录生物学数据可视化的JS组件库 [ [paper-2014](https://pubmed.ncbi.nlm.nih.gov/25075290/) | [web](http://biojs.net/) ]
      • Circleator - 使用BioPerl和SVG环形可视化基因组相关数据 [ [paper-2014](https://pubmed.ncbi.nlm.nih.gov/25075113) ]
      • DNAism - 基于D3的DNA数据可视化JS库 [ [paper-2016](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-0891-2) | [web](http://drio.github.io/dnaism/) ]
      • IGV js - 基于Java的基因组浏览器,同时提供JS版本。支持多种数据格式 [ [paper-2019](https://pubmed.ncbi.nlm.nih.gov/31099383) | [web](https://software.broadinstitute.org/software/igv) ]
      • JBrowse - 通过插件和track个性化高度定制的基因组浏览器 [ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/27072794) | [web](http://jbrowse.org/) ]
      • pileup.js - 可交互,高度定制的基于web的基因组浏览器JS库 [ [paper-2016](https://pubmed.ncbi.nlm.nih.gov/27153605) ]
      • Island Plot - 基于D3的基因组浏览器[ [paper-2015](https://pubmed.ncbi.nlm.nih.gov/25916842/) ]
      • PHAT - 病原-宿主可视化分析工具 [ [paper-2018](https://pubmed.ncbi.nlm.nih.gov/30561651) | [web](https://chgibb.github.io/PHATDocs) ]
      • scribl - HTML5 canvas 基因组图形库 [ [paper-2012](https://pubmed.ncbi.nlm.nih.gov/23172864) | [web](http://chmille4.github.io/Scribl) ]
      • pyGenomeTracks - Python绘制基因组浏览器track
      • WashU EpiGenomoe Browser - 表观基因组浏览器 [ [Nucleid Acids Research 2019](https://academic.oup.com/nar/article/47/W1/W158/5511467) | [web](https://epigenomegateway.wustl.edu/) ]
    • Circos相关

      • [paper-2014
      • [paper-2014
      • [paper-2014
      • [paper-2014
      • Circos - 基因组数据环形可视化Perl包 [ [paper-2009](https://pubmed.ncbi.nlm.nih.gov/19541911) | [web](http://circos.ca) ]
      • circlize - Circos R包 [ [paper-2014](https://www.ncbi.nlm.nih.gov/pubmed/24930139) ]
      • fujiplot - GWAS结果Circos展示 [ [paper-2018](https://www.nature.com/articles/s41588-018-0047-6) ]
      • circosJS - 基于d3的Circos JS库
    • 染色体可视化

    • Venn图

      • UpSetR - 另一种展示集合交并集的方式 [ [Bioinformatics-2017](https://academic.oup.com/bioinformatics/article/33/18/2938/3884387) ]
  • 数据压缩

    • gtz
    • Genozip - 常见基因组文件格式(BAM, CRAM, FASTQ, VCF等)压缩 [ [web](https://genozip.readthedocs.io/) | [paper-2021](http://dx.doi.org/10.1093/bioinformatics/btab102) ]
  • 数据下载

    • GGD - Go Get Data; 命令行下载基因组数据 [ [web](https://gogetdata.github.io) ]
    • SRA-Explorer - 快速获得SRA下载链接和其它信息 [ [web](https://sra-explorer.info) ]