标题 | 生物信息学数据分析的计算机软件搭配 |
范文 | 刘桢 摘 要:数据分析是生物信息学的核心,当前用于数据分析的生物信息学软件众多,但兼容性差。本文以分析研究Linux系统中的bowtie、samtools、g++及x11设计开发出生物信息数据分析高速高兼容性的可视化流程。其中bowtie用于生物数据比对,samtools用于数据的储存,g++用于权限环绕,x11用于可视化。 关键词:数据分析;数据比对;数据储存;可视化 生物信息学数据分析核心在于数据格式的转化、数据的储存及可视化。数据格式转化涉及数据比对,数据储存涉及将比对后的数据转储。在当前有较多软件用于数据分析的不同阶段。但是多数软件之间相互不兼容使得数据分析繁琐冗杂。本文基于当前生物信息数据分析繁琐环节设计搭配出了一套兼容性强、分析速度快的流程。该流程可以为高校内各种中小型实验室服务。 1 比对软件安装 比对常用的工具有bowtie/bowtie2, BWA,SOAP1/SOAP2等。在转录组比对中,通常比对都会经历两部分问题,一部分是基因组比对,一部分是转录组比对。当比对是在基因组上比对时若物种为真核生物又要考虑是否是外显子还是内含子,如果是原核生物比对又要考虑重叠基因。在转录组比对上,这个问题又要考虑是mRNA比对还是小RNA比对。当比对产生碱基变化的时候要考虑是比对出错还是测序出错。所以在这个基础上将比对转化为数学上的函数映射问题,这部分问题可以采用以上方法解决。使用bowtie来map DNA测序,使用tophat来map RNA测序。实际上,tophat是通过调用bowtie来完成工作的。而tophat1和tophat2的差别最主要的就是调用了bowtie1还是bowtie2。Bowtie是一个超级快速的,较为节省内存的短序列拼接至模板基因组的工具。它在拼接35碱基长度的序列时,可以达到每小时2.5亿次的拼接速度。而该软件读取的读段长度相对较长,可以较好比对。 下载及配置方式 Wget http://downloads.sourceforge.net/project/bowtiebio/bowtie2/2.2.9/bowtie22.2.9linuxx86_64.zip? r=https%3A%2F%2Fsourceforge.net%2Fprojects%2Fbowtiebio%2Ffiles%2Fbowtie2%2F2.2.9%2F&ts=1473729431&use_mirror=nchc&unzip bowtie22.2.9linuxx86_64.zip cd bowtie22.2.9echo 'PATH=$PATH:/home/shuxue/soft/bowtie22.2.9/' >> 2 SAMtools安装 SAMtools是一个储存数据的工具,安装配置非常麻烦。首先需要安装编译很多前置包[2] build static libraries .../zlib1.2.1]# ./configure .../zlib1.2.1]# make test .../zlib1.2.1]# make instal .../zlib1.2.1]# make clean .../zlib1.2.1]# ./configure ——shared .../zlib1.2.1]# make test .../zlib1.2.1]# make install .../zlib1.2.1]# cp zutil.h /usr/local/include .../zlib1.2.1]# cp tar jxf samtools1.5.tar.bz2 cd samtools1.5 echo 'export PATH=$PATH:/opt/biosoft/samtools1.5/bin' /etc/profile cd ../ && rm rf samtools1.5 samtools1.5.tar.bz2 3 配置g++ 對所有用户有效修改/etc/profile 对个人有效则修改~/.bashrc 在PATH中找到可执行文件程序的路径。sudo export PATH =$PATH:$HOME/usr/bin gcc找到头文件的路径 sudo export PATH=/usr/contain/libxmlsnvown2:/Mysqlsi export C_contain_PATH sudo export PATH=export C_contain_PATH/usr//contain/libxmlsnvownPLUS_contain_PATH 动态链接库的路径 C_contain_PATH/usr//contain/libxmlsnvownPLUS_contain_PATH source bashrc #找到静态库的路径 LIBRARY_PATH=$LIBRARY_PATH:/Mysqlsi export LIBRARY_PATH 使用source,可以将修改的bashrc更改,或者重启。[3]生成文件的依赖关系,比如:g++ MM;在屏幕上可以展示两者的动态相关性,根据动态相关性设置重定向;[4]MM无法在重定向时期检查Shell语法的正确性,所以需要注意重定向期间语法和路径的正确性。 4 X11的安装 Linux是基于命令操作的操作系统,同windows不同,windows是图形可视化界面系统。根据两者系统的不同。惯于使用windows系统的用户在转入Linux系统时非常不熟悉。需要使用X11来过渡。简言之,X11是将命令格式的操作空间变为可视化的操作空间。综合X11下,Linux系统中的bwa/bowtie等软件也可以被X11间接可视化,所以X11的安装是新用户使用Linux系统的重要关键部分之一。不过,X11与Windows的可视化界面不同,这种不同类似于windows的DOS环境与Linux环境的终端不同。不同之处在于Windows离开DOS后可以继续使用,而Linux不能离开终端,也不能完全离开可视化。[5]。 点击 System > Preference > Remote Desktop,允许远程连接 若Uuntu下没有安装xfs服务与xdm服务,先进行安装 #sudo aptget install xfs #sudo aptget install xdm X11提供的顯示管理器是xdm,配置文件在/etc/X11/xdm/xdmconfig改为下面的方式: 保存后,重新启动ubuntu 即可在Ubuntu环境下使用图形化界面。 5 结论 bowtie适用于各种生物测序数据的比对,比对速率高。 samtools则可以将各种数据分析结果进行储存。保证数据的完整性。 X11能将命令式的Linux界面变为可视化界面,方便数据的图形化展示。 参考文献: [1]范玉磊,张杰,卢群,孙文.基于便携式Ubuntu的GAMIT安装与使用[J].地理空间信息,2017,15(06):2830+4. [2]罗名驹. 基于ARM CortexA9的嵌入式Linux内核移植研究与实现[D].广东工业大学,2017. [3]蒋熹.浅析如何在Ubuntu使用qcow2快速创建虚拟机[J].科技资讯,2016,14(31):17+19. [4]孙中祥,洪芳华.Ubuntu Linux系统安全分析[J].江苏科技信息,2016(10):3335. [5]柴宝强,刘光明,李葆光,马尧.基于Ubuntu操作系统OpenStack虚拟化环境的部署[J].甘肃科技,2015,31(23):1317. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。