1.exceldnaå¯ä»¥åç¼è¯ä¹
2.GeneWise 简介及安装方法
3.Blend文件格式
4.一文详解基因组denovo组装原理和实战
5.细菌耐药基因及毒力基因分析实战-ABRicate安装及使用指南
6.基因编辑工具分享(八)| DeepBaseEditor:碱基编辑效率预测模型
exceldnaå¯ä»¥åç¼è¯ä¹
å¯ä»¥ãExcelDNAæ¢ç¶æ¯ä¸ªå¼æºé¡¹ç®ï¼å°±å¯ä»¥å¨æºç ä¸åä¸äºä¿®æ¹ï¼æ¯æåç¼è¯ï¼éè¦æé«ç代ç ç¥è¯æå¯ä»¥è¿è¡ç¼è¯ã计ç®æºè½¯ä»¶ååå·¥ç¨ï¼Reverseengineeringï¼ä¹ç§°ä¸ºè®¡ç®æºè½¯ä»¶è¿åå·¥ç¨ï¼æ¯æéè¿å¯¹ä»äººè½¯ä»¶çç®æ ç¨åºï¼æ¯å¦å¯æ§è¡ç¨åºï¼è¿è¡âéååæãç 究âå·¥ä½ï¼ä»¥æ¨å¯¼åºä»äººç软件产åæ使ç¨çæè·¯ãåçãç»æãç®æ³ãå¤çè¿ç¨çç¯èã
GeneWise 简介及安装方法
Genewise是验验证Wise2软件的核心程序,主打功能为蛋白质序列与DNA序列比对,证源预测DNA序列编码区域。验验证Ensembl的证源pipeline程序表明其应用广泛,尽管开发已有多年历史,验验证仍深受多家公司青睐用于基因组注释。证源流量管理源码
安装Genewise流程如下:
首先,验验证访问官方下载地址~birney/wise2...>,证源使用wget进行下载。验验证
$ wget ebi.ac.uk/~birney/wise2...
解压tar.gz文件:
$ tar -zxvf wise2.4.1.tar.gz
进入src目录进行源代码相关修改:
$ cd wise2.4.1/src
将所有makefile中的证源glib-config替换为glib-2.0。
$ find . -name makefile | xargs sed -i 's/glib-config/pkg-config glib-2.0/'
更新函数名,验验证如getline和isdigit。证源
$ perl -p -i -e's/getline/getline_ReadSeqVars/g' ./HMMer2/sqio.c
$ perl -p -i -e 's/isnumber/isdigit/'models/phasemodel.c
将csh脚本替换为sh脚本。验验证
$ perl -p -i-e's/csh welcome.csh/sh welcome.csh/' makefile
进行编译。证源
$ make all
编译完成,验验证系统会显示相关路径,进行环境配置:
$ export WISECONFIGDIR=/public/home/lvqiang/software/wise2.4.1/wisecfg/
可选是否加入环境变量,进入bin目录验证安装情况:
$ ./genewise -help
显示帮助信息,确认安装成功。
具体参数、使用方法及结果解读,待实际数据应用时,再深入撰写详细教程。
手机查看时,可能命令行部分显示排版异常,建议使用网页端查看。
本文使用 文章同步助手 同步完成。
Blend文件格式
文件结构的探讨
文件结构是理解Blend文件格式的关键,可通过参考相关资料进行深入学习。
文件头(FileHeader)是Blend文件的核心部分,编码为DNA1,由SDNA结构体实现。
SDNA包含四个重要属性:names、ldmps源码types、typessize、structures。依BlenderV版本为例,names长度为,types长度为,typessize长度与types一致,structures长度为个。
理论上,structures长度应为types长度减去原子类型个数,但实际为个,原因是部分DNA类型包含非DNA类型的字段,相关结构信息未保存在SDNA数据中。这些结构体的特征可参考source\blender\makesdna\DNA_ID.h中的类型IDOverrideLibraryRuntime定义。
所有前带有两个#字符的结构体未保存在SDNA数据中。四个属性长度的理论上限为(倒排索引使用的是ushort),实际上限为。因此,当前的存储容量足够使用。
Editor解析
使用Editor(V.0.1)对Blend文件进行解析,已提交模板文件至editor,预计不久即可完成解析。
模板文件
实现的模板文件内容包含对SDNA中第一个结构体Link的详细说明。
示意图使用draw.io绘制,以帮助理解。
DNA数据生成
makesdna工具用于生成DNA数据。
Blend信息获取
在浏览Blender网页时,发现JanWalter的个人网站,其Rust语言的blend_info库一直在更新,已能读取blend文件中的模型并自行渲染。如欲深入了解Blend文件格式,可阅读其博客或下载blend_info源码。adjustresize 源码
一文详解基因组denovo组装原理和实战
面向未来生物医疗数据挖掘应用场景下,如何实现数据计算或挖掘的可扩展性、可重用性、可视性、伸缩性、高保真性。
关于更多生物医疗大数据分析工具和软件的介绍和使用请看六点了官网[1]。
1、基因组组装
2、基于De-Bruijn Graph的组装算法
3、SOAPdenovo的安装和使用说明:安装、说明、配置、运行
4、SOAPdenovo案例实战:数据下载、配置、运行、输出
大家好,这是我们六点了给大家介绍生物信息大数据分析基因组数据分析系列文章第一篇。我们会持续为大家分享关于生物医疗大数据处理相关的知识和案例,希望帮助大家更好地进行自己项目中生物医疗健康大数据处理工作。本篇文章主要四部分来为大家介绍基因组的denovo的知识和以及详细应用案例。①基因组组装、 ②基于De-Bruijn Graph的组装算法、 ③SOAPdenovo的安装和使用说明:安装、说明、配置、运行,以及 ④SOAPdenovo案例实战:数据下载、配置、运行、输出。curator 源码
基因组组装 (Genome assembly)是生物信息学领域的核心问题,想要深入研究一个生物体,获得参考基因组是第一步也是必须的一步。基因组组装是将原始的下机序列还原成DNA序列片段、以至于整个物种全基因组序列的过程。
基因组组装是基因组分析的关键,对物种起源与进化,挖掘功能基因进而研究疾病发生和发展具有重大意义。
然而由于目前市面上广为应用的二代测序技术获得的测序序列一般都较短,因此如何通过短片段组装成完整的基因组成了亟待解决的问题。
基因组组装可分为基于参考基因组的组装(Mapping assembly)和从头组装(denovo assembly)。两者主要的区别在于是否存在已知的基因组参考序列作为参照。本文我们主要介绍的是denovo组装,即不依赖任何基因组参考序列相关信息而进行的序列组装。目前,应用于主流的基因组denovo组装的算法主要有两个[1]:OLC方法 (Overlap-Layout-Consensus)和 DBG方法 (De-Bruijn Graph)[2]。
而DBG方法的核心思想是将序列拼接问题转化为人们所熟知的欧拉图(Euler Graph)问题[3]。
DBG方法内存消耗相对较低,运算速度快,且准确率高。
目前主流的基因组装算法都是基于DBG方法改进设计的。
前面我们说到基因组denovo组装两种方法,下面主要展开说说基于De-Bruijn Graph的组装算法的基本原理。此处,就以目前使用比较广泛,由华大基因团队开发的SOAPdenovo[4]为例。软件的参考文献[5]有兴趣可以在参考资料看一下读读。
A:基因组DNA打断成小的片段,进行建库和双端测序。~bp的进行直接双端测序,长的片段2-kb的则先进行环化再进行双端测序。
B:组装的pvcreate 源码核心部分,进行De-Bruijn Graph的构建。构建De-Bruijn图的第一步是将测序read k-mer化,而所谓的k-mer是指将reads分成包含k个碱基的字符串,即拿一个k长度的窗口在整个read上1个碱基一个碱基的滑动,每次滑动窗口内部都会产生一个k大小的序列,即为一个k-mer,因此一般长短为m的reads可以分成m-k+1个k-mers。其中k一定是奇数,如果是偶数遇到回文序列可能会产生完全相同的k-mers。我们将k-mers作为图的节点,如果两个节点有 K-1个共同重叠子集,就把两个节点连接在一起,这样就会形成De-Bruijn Graph,可以看到该图可以很好地展现出序列的顺序信息。
C:进行图结构的精简。尽管前面步骤已经初步构建出图形,但是实际上由于测序错误,重复,杂合等原因,图上会出现很多类似翼尖(tips)、气泡(bubbles)等问题,因此还需要进一步简化。此处简化主要包含四个方面:1)去除tips(可能为测序错误导致的);2)去除低覆盖度的路径;3)解开微小重复的区域(可以通过read穿过来解决)4)合并bubbles气泡区(可能为测序错误,重复或者杂合导致的)。
D: 拆分出contig。在重复的节点处剪断,输出contigs。
E: 构建scaffolds。重新用reads和contigs进行比对,使用paired-end信息来把单一的contigs连接成scaffolds。1)paired reads 比对到contigs上,使临近的contig建立连接;3)paired-end信息的不同插入片段被用来一步步从短到长的建立scaffold.
F: 最终是把多个scaffold组装成无GAP的基因组序列。
SOAPdenovo目前已更新到SOAPdenovo2, github[6]链接: github.com/aquaskyline/...。
直接下载二进制[7]( sourceforge.net/project...)
源代码安装:
安装完可以看到SOAPdenovo-mer,SOAPdenovo-mer两个执行文件。mer代表支持的kmer最大长度为,mer代表支持的kmer最大长度为,除了支持的kmer长度不同外,其他用法完全相同。
SOAPdenovo由于计算量相对较大,对电脑的配置有一定的要求,官网对运行配置的说明:SOAPdenovo 的适用目标是大型植物和动物基因组,尽管它也适用于细菌和真菌基因组。它运行在至少 5G 物理内存的 位 Linux 系统上。对于像人类这样的大基因组,大约需要 GB 的内存。运行SOAPdenovo-mer即可看到SOAPdenovo主要包含了以下6个子命令:
其中,1-5分别表示组装的4个步骤(1,2是两种构图方式,二选一),all则用于一次执行以上的4个步骤。实际应用中,可以使用SOAPdenovo all 一步式跑完,也可以分成4步单独去跑。
soapdenovo需要一个配置文件config_file,里面给定输入文件和一些参数设置。 下面是配置文件的示例和说明:
拆分式:
一步式:
输出文件:运行完会有不少的文件生成,其中后缀分别为contig和scafSeq即为对应组装结果,分别对应contig和scaffold的结果。
下面我们找个NA样本的测序数据,具体来实践一下吧。
下载测序数据:
准备配置文件
vi config_file, 填入以下内容:
运行命令
此处我们将程序运行的标准输出和标准错误都分别重定向到对应的log和err文件中了。一步式运行:
四步单独运行:
输出结果
此处我们的测试数据做了截取,因此可以非常快速的跑完,具体的结果如下图所示,可以看到生成了不少的中间结果文件,其中组装出来的contig和scaford结果即图上圈出来的两个文件: *.contig:contig序列文件,fasta格式; *.scafSeq:scaffold序列文件,contig之间的gap用N填充 。
*.log和*.err是运行的日志,里面包含很多的统计信息,如N,N,contig/Scaffold等信息。
*.scaf:包括scaffold中contig的详细信息;在scaffold行中包括scaffold名字、contig长度和该scaffold长度。在contig行包括contig名字、contig在scaffold上的起始位置、正反链、长度和contig间的链接信息
*.links:contig间的pair-end连接信息
*.readOnContig:reads在contig上的位置。
从sixoclock下载soapdenovo2
此外,六点了官网基于CWL (common workflow language) 对SOAPdenovo2软件进行了封装,通过我们开发的`sixbox` 软件可以快速进行软件的运行。对sixbox不了解可以通过六点了官网了解下。下面是具体的运行步骤如下:
1)下载cwl 源码
sixbox pull cadc5-1a-4a-b-d6ee0db 或 在六点了官网上下载soapdenovo2.cwl
2) 下载数据
3) 使用sixbox生成参数模板文件(YAML) , 并配置yaml文件
不熟悉的,可以直接粘贴下方示例内容到soapdenovo2.job.yam
4)使用sixbox运行
运行结束即可看到当前目录或者指定的输出目录输出对应的SOAPdenovo 组装的结果文件。
至此,SOAPdenovo的实战体验基本就结束了。
以上为我们给大家带来的基因组denovo的基本原理知识,以及在平台上运行经典的SOAPdenovo的详细操作过程。也欢迎大家去我们六点了官网看我们放上去的SOAPdenovo2的CWL流程工具。
如果对生物医疗健康大数据相关内容感兴趣也可以持续关注我们。想要探索更多的软件流程或者知识文档,可以到六点了官网查看。
References
[1] 六点了官网: sixoclock.net
[2] OLC方法 (Overlap-Layout-Consensus)和 DBG方法 (De-Bruijn Graph): zh.wikipedia.org/wiki/%...
[3] 欧拉图(Euler Graph)问题: baike.baidu.com/item/欧拉图/
[4] SOAPdenovo: github.com/aquaskyline/...
[5] 参考文献: genome.org/cgi/doi/.1...
[6] github: github.com/aquaskyline/...
[7] 二进制: sourceforge.net/project...
细菌耐药基因及毒力基因分析实战-ABRicate安装及使用指南
ABRicate是一款专门用于快速分析微生物基因组数据的软件,它能基于细菌基因组组装结果进行分析,利用自带的数据库,帮助用户轻松检测抗生素耐药基因和毒力因子等。
ABRicate的数据库包含了大量有关抗生素耐药性和毒力因子的信息,使得用户能够准确地识别和理解基因组数据中的关键信息。
安装ABRicate的步骤相对简单,可以使用conda环境管理器进行安装。首先,创建一个名为abricate的conda环境以避免依赖关系冲突。然后,激活此环境,并通过conda命令安装abricate及其依赖项。安装完成后,执行测试以确保软件成功安装。
ABRicate依赖的软件包包括any2fasta、BLAST+ >2.7.0、Perl模块(LWP::Simple、Bio::Perl、JSON、Path::Tiny)、git以及unzip和gzip。完成这些依赖的安装后,可从GitHub下载软件源码并进行相应的检查。
在使用ABRicate时,用户可以通过查看支持的数据库和更新数据库来获取最新的信息。软件还提供了一些参数选项,如--db用于指定数据库,默认使用NCBI数据库,--datadir用于更改数据库库的路径,--minid和--mincov用于设置DNA身份和覆盖率的阈值,以及--summary用于整合批量结果到一个表格。
运行ABRicate后,软件会输出表格文件,用户可以根据需要进行分析和解读。在获取结果后,用户可以参考ABRicate的官方文档或GitHub页面以获取更详细的信息。
请关注密码子实验室公众号,了解更多信息。转发此内容,欢迎分享。如有任何课程相关问题,请联系唯那生物技术客服小唯,微信号:winnerbio。请勿在回复中包含关注、转发、点赞、评论等相关信息。
基因编辑工具分享(八)| DeepBaseEditor:碱基编辑效率预测模型
碱基编辑器(base editors,BE)是基于CRISPR/Cas系统改造的新型基因编辑技术,包括腺嘌呤碱基编辑器(ABEs)和胞嘧啶碱基编辑器(CBEs)。该技术广泛应用于诱导点突变,但确定特定核苷酸在基因组环境中的编辑可能性需要耗时的实验。当编辑窗口包含多个靶核苷酸时,会产生多种基因型产物,影响碱基编辑效率和产物频率的确定。
今天,舒桐小编将介绍Myungjae Song等人开发的基于深度学习的特异序列碱基编辑效率预测模型DeepBaseEditor。该模型能预测任何目标序列上ABE和CBE指导的编辑效率和结果频率,预测相关系数在0.到0.之间。此工具将有助于通过碱基编辑对遗传病进行建模和治疗性纠正。
ABE和CBE的工作原理如下:CBE的核心部件是nCas9或dCas9与胞嘧啶脱氨酶结合,当融合蛋白在sgRNA的引导下靶向基因组DNA时,胞嘧啶脱氨酶结合到特定的R-loop区ssDNA处,将胞嘧啶(C)脱氨变成尿嘧啶(U)。通过DNA复制或修复,U最终转变为胸腺嘧啶(T),实现C•G碱基对至T•A碱基对的替换。ABE则由nCas9(DA)与人工定向进化的腺嘌呤脱氨酶组成,当融合蛋白在sgRNA的引导下靶向基因组DNA时,腺嘌呤脱氨酶结合到ssDNA上,将腺嘌呤(A)脱氨变成肌苷(I)。I在DNA水平被当作G进行读码与复制,实现A•T碱基对至G•C碱基对的替换。
DeepBaseEditor由研究人员基于卷积神经网络的深度学习框架开发,使用高通量方法评估了ABE和CBE在,和,个靶序列上的编辑效率与结果比例。通过HT_ABE_Train、HT_ABE_Test、HT_CBE_Train和HT_CBE_Test数据集训练和验证模型,模型预测准确性用Pearson相关性评估。研究人员开发了ABE_Efficiency(Pearson r = 0.)、CBE_Efficiency(Pearson r = 0./0.)、ABE_Proportion(Pearson r = 0./0.)和CBE_Proportion(Pearson r = 0./0.)模型。将ABE_Efficiency与ABE_Proportion、CBE_Efficiency与CBE_Proportion结合,生成了DeepABE与DeepCBE,这两个DeepBaseEditor在预测碱基编辑结果的频率方面表现出了出色性能(DeepABE Pearson r = 0./0.;DeepCBE Pearson r = 0./0.)。
研究者可从githup下载DeepABE与DeepCBE的源代码,进行碱基编辑效果分析。此外,作者提供了一个友好的在线工具DeepBaseEditor,用户只需输入待编辑的目标序列,即可进行sgRNA设计及碱基编辑效率预测。根据预测结果,研究者可筛选出编辑效率最高的sgRNA进行后续实验。
舒桐科技提供sgRNA设计、扩增子测序及基因编辑效率分析等服务,有需求的读者欢迎咨询。