标题 | 生物信息学分析的计算机环境最优配置 |
范文 | 刘桢 于岸洲 摘要:生物信息学是现代生物学、计算机科学和数学的交叉学科,主要通过数学方法借助计算机对生物数据进行科学分析,相对于传统实验方法更高效、更具有逻辑性。本文主要以Linux系统的衍生系统——Ubuntu系统为分析系统,介绍如何配置最适合于生物信息学分析的计算机环境。 关键词:生物信息学;分析环境配置;Ubuntu系统;生物数据分析 生物信息学是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,是生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示繁杂的生物数据所蕴含的生物学意义。ubuntu系统基于Debian发行版和GNOME桌面环境。它的目标在于为用户提供一个最新的、相对稳定的主要由自由软件构成的操作系统,可免费使用,并带有社团及专业支持。本文介绍了如何借助Ubuntu系统,配置较优的生物信息学分析环境。 1 生物信息分析环境的配置 1.1 安装win+Ubuntu双系统 第一步:进入程序员管理空间Win + X,在管理磁盘栏目下面选择二进制空间完好且较大的空间进行分配。将分配空间进行二进制码压缩,选择60*1024MB的二进制空间压缩。然后产生黑色可用空间。 第二步:同样在程序员空间下进入电源选项,修改原来在windows系统下的電源功能。将原来的默认值修改为关闭快速启动的值,保证在安装Ubuntu系统后的grub正常运行。最后使用wq方式保存当前安装。也可以进入DOS环境编译修改win的设置。 第三步:在DOS环境中restart个人终端。通过快捷键进入bios空间。进入方式依据PC型号不同而不同,进入系统bios后将U盘启动调整为最优先项目,设置后再次restart切换进入ubuntu安装界面。进入ubuntu主界面后在U盘中找到刻录的ISO文件双击打开ubuntu安装文件,完成默认设置。[1] 第四步:在Ubuntu下创建新的二进制空间,以add方式创建四个新的分区空间,分区空间以之前分配的60*1024MB为基准。首先将10*1024MB分配为基础二进制空间,又在基础二进制空间上,添加20*1024MB作为空间的起始部分。通过布尔转换设置空间的日志及逻辑分区,将剩下的空间全部作为衔接双系统的swap逻辑空间。 切换回windows系统设置引导内容,保证两个系统在开机中有选择性进入栏目。在DOS下进入/boot编译设置,将引导路径设置为由windows下主导的路径。restart终端,进入Win10下的EasyBCD完成最后的引导设置。在进入add新条目栏目下选择Linux/BSD操作系统,在“驱动器”栏目选择接近200M的Linux分区,点添加条目。 1.2 修改gcc 为了将Ubuntu系统配置为适合生物信息分析系统,方便编译生物信息分析软件,需要修改gcc,通常计算机内置gcc为以下: Lrwx 1 root root 7 2018.02.18 22:45:31 /usr/bin/ect/gcc>gcc4.6 rwxrxrx 1 root root 2215423 2018.02.18 22:45:31 /usr/bin/etc/gcc4.4 rwxx 1 root root 214369 2018.02.18 22:45:31 /usr/bin/etc/gcc4.5 rwxrxrx 1 root root 336547 2018.02.18 22:45:31 /usr/bin/etc/gcc4.6 由上面显示可以看出默认安装的是gcc4.6,现在来改成gcc4.4: (1)rmdir pgcc-4.6 /usr/bin/etc/gcc。将这个连接的软性设置删除 (2)terminal:sudo rmdir r /usr/bin/etc/gcc & chown /usr/bin/etc/gcc 770 (3)创建一个软连接,指向gcc4.4[2] (4)terminal:sudo ln s /usr/bin/etc/gcc4.4 /usr/bin/etc/gcc (5)terminal using:gcc v (6)使用内建 specs 目标:i686linuxgnu 配置为: ../src/configurevwithpkgversion='wksngbusgkxhjkg/Ubuntu/Linaro4.4.611ubuntu2'withbugurlPATH=$PATH&file:///usr/share/doc/gcc4.4/README.Bugsenabl,fortran,objc,objc++prefix=/usr/shufkgu/kgihgfnue/programsuffix=4.4/dhiajsd/ighugriuenableshared/dajcunduewithsystemzlib libexecdir=/usr/lib withoutfdcuekshuf/cbiutgk/lognu/logout/ttext=posix/PATH:bashrc>>sifhu/ubuntu/clude/c++/4.4libdir=/usr/lib/longus/ubutnu/usr/bin/etcenableclocale=gnutdcxxdebugenableobjcgc/snculsi/enabletargets=all/prefix/disablewerrorwitharch32=i686withtune=genericenablechecking=release/ubuntubuild=i686linuxgnuhost=i686linuxgnu target=i686linuxgnu 2 软件安装与编译 2.1 Fastx_toolkit 高通量测序数据下载后的原始fastq文件,包含4行,其中一行为质量值,另外一行则为对应序列,我们都了解高通量的数据处理首先要进行质量控制[3],这些过程包括去接头、过滤低质量reads、去除低质量的3和5端,去除N较多的reads等,而针对高通量测序数据的质控软件也有很多,一般使用Fastxtoolkit,下载如下: fastx_toolkit0.0.13.2.tar.bz2libgtextutils0.6.1.tar.bz2 tar zxvflibgtextutils0.6.1.tar.bz2 cd libgtextutils0.6.1 ./configure && make && sudo make install Export PATH PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH cd ../fastx_toolkit sudo make install 2.2 TopHat安裝 TopHat是一个快速将RNASeq数据剪接映射的程序,它将读段大小分散成不同的小片段,对每个小片段进行重新建模,再根据空位罚分机制将小片段和参考基因组上的片段进行比对。在片段长度足够小的时候会增加非特异性比对次数,所以需要设置最小片段的最大长度限制。通常大基因组物种选择长读段测序,设置较大最小片段的最大长度,小基因组物种则反之。 直接下载适合于Linux x86_64的二进制文件,解压缩即可使用。 http:tophat.cbcb.umd.edu/downloads/tophat2.0.8b.Linux_x86_64.tar.gz 需要注意,很多接头序列比较长,应搞清楚具体实验时的接头长度。通常情况下,我们需要将接头之间的序列进行比对和过滤。 3 结论 生物信息的环境配置首先要将原Ubuntu系统的g++/gcc进行修改,这样可以将权限及操作环境修改为最适合生物信息分析的状态。 软件安装上,使用Fastx_toolkit和比对软件可以对各种测序结果进行数据分析。 Tophat可以将数据进行动态映射,保证数据分析的快速性。 参考文献: [1]郭敏,张东林,刘艳军,彭永东,王建涛,付志新,董淑珍,刘铮铸,巩元芳,李祥龙.蓝狐MITFM基因序列扩增及生物信息学分析[J].中国畜牧兽医,2018(01):4756. [2]汤庄力,王添,肖生祥,王晓鹏.表皮松解性掌跖角化病一家系KRT9基因突变检测及生物信息学分析[J].中国麻风皮肤病杂志,2017,33(12):709711+716. [3]罗文奇.计算机技术在生物信息学研究中的应用分析[J].中国管理信息化,2017,20(20):151152. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。