《生物信息学分析的计算机环境最优配置》-工学论文，科技论文-论文范文参考-科学狗论文网

标题

生物信息学分析的计算机环境最优配置

范文

刘桢于岸洲

摘要：生物信息学是现代生物学、计算机科学和数学的交叉学科，主要通过数学方法借助计算机对生物数据进行科学分析，相对于传统实验方法更高效、更具有逻辑性。本文主要以Linux系统的衍生系统——Ubuntu系统为分析系统，介绍如何配置最适合于生物信息学分析的计算机环境。

关键词：生物信息学；分析环境配置；Ubuntu系统；生物数据分析

生物信息学是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，是生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学，计算机科学和信息技术而揭示繁杂的生物数据所蕴含的生物学意义。ubuntu系统基于Debian发行版和GNOME桌面环境。它的目标在于为用户提供一个最新的、相对稳定的主要由自由软件构成的操作系统，可免费使用，并带有社团及专业支持。本文介绍了如何借助Ubuntu系统，配置较优的生物信息学分析环境。

1 生物信息分析环境的配置

1.1 安装win+Ubuntu双系统

第一步：进入程序员管理空间Win + X，在管理磁盘栏目下面选择二进制空间完好且较大的空间进行分配。将分配空间进行二进制码压缩，选择60*1024MB的二进制空间压缩。然后产生黑色可用空间。

第二步：同样在程序员空间下进入电源选项，修改原来在windows系统下的電源功能。将原来的默认值修改为关闭快速启动的值，保证在安装Ubuntu系统后的grub正常运行。最后使用wq方式保存当前安装。也可以进入DOS环境编译修改win的设置。

第三步：在DOS环境中restart个人终端。通过快捷键进入bios空间。进入方式依据PC型号不同而不同，进入系统bios后将U盘启动调整为最优先项目，设置后再次restart切换进入ubuntu安装界面。进入ubuntu主界面后在U盘中找到刻录的ISO文件双击打开ubuntu安装文件，完成默认设置。[1]

第四步：在Ubuntu下创建新的二进制空间，以add方式创建四个新的分区空间，分区空间以之前分配的60*1024MB为基准。首先将10*1024MB分配为基础二进制空间，又在基础二进制空间上，添加20*1024MB作为空间的起始部分。通过布尔转换设置空间的日志及逻辑分区，将剩下的空间全部作为衔接双系统的swap逻辑空间。

切换回windows系统设置引导内容，保证两个系统在开机中有选择性进入栏目。在DOS下进入/boot编译设置，将引导路径设置为由windows下主导的路径。restart终端，进入Win10下的EasyBCD完成最后的引导设置。在进入add新条目栏目下选择Linux/BSD操作系统，在“驱动器”栏目选择接近200M的Linux分区，点添加条目。

1.2 修改gcc

为了将Ubuntu系统配置为适合生物信息分析系统，方便编译生物信息分析软件，需要修改gcc，通常计算机内置gcc为以下：

Lrwx 1 root root 7 2018.02.18 22：45：31 /usr/bin/ect/gcc>gcc4.6

rwxrxrx 1 root root 2215423 2018.02.18 22：45：31 /usr/bin/etc/gcc4.4

rwxx 1 root root 214369 2018.02.18 22：45：31 /usr/bin/etc/gcc4.5

rwxrxrx 1 root root 336547 2018.02.18 22：45：31 /usr/bin/etc/gcc4.6

由上面显示可以看出默认安装的是gcc4.6，现在来改成gcc4.4：

（1）rmdir pgcc-4.6 /usr/bin/etc/gcc。将这个连接的软性设置删除

（2）terminal：sudo rmdir r /usr/bin/etc/gcc & chown /usr/bin/etc/gcc 770

（3）创建一个软连接，指向gcc4.4[2]

（4）terminal：sudo ln s /usr/bin/etc/gcc4.4 /usr/bin/etc/gcc

（5）terminal using：gcc v

（6）使用内建 specs

目标：i686linuxgnu

配置为：

../src/configurevwithpkgversion='wksngbusgkxhjkg/Ubuntu/Linaro4.4.611ubuntu2'withbugurlPATH=$PATH&file：///usr/share/doc/gcc4.4/README.Bugsenabl，fortran，objc，objc++prefix=/usr/shufkgu/kgihgfnue/programsuffix=4.4/dhiajsd/ighugriuenableshared/dajcunduewithsystemzlib libexecdir=/usr/lib withoutfdcuekshuf/cbiutgk/lognu/logout/ttext=posix/PATH：bashrc>>sifhu/ubuntu/clude/c++/4.4libdir=/usr/lib/longus/ubutnu/usr/bin/etcenableclocale=gnutdcxxdebugenableobjcgc/snculsi/enabletargets=all/prefix/disablewerrorwitharch32=i686withtune=genericenablechecking=release/ubuntubuild=i686linuxgnuhost=i686linuxgnu target=i686linuxgnu

2 软件安装与编译

2.1 Fastx_toolkit

高通量测序数据下载后的原始fastq文件，包含4行，其中一行为质量值，另外一行则为对应序列，我们都了解高通量的数据处理首先要进行质量控制[3]，这些过程包括去接头、过滤低质量reads、去除低质量的3和5端，去除N较多的reads等，而针对高通量测序数据的质控软件也有很多，一般使用Fastxtoolkit，下载如下：

fastx_toolkit0.0.13.2.tar.bz2libgtextutils0.6.1.tar.bz2

tar zxvflibgtextutils0.6.1.tar.bz2

cd libgtextutils0.6.1

./configure && make && sudo make install

Export PATH PKG_CONFIG_PATH=/usr/local/lib/pkgconfig：$PKG_CONFIG_PATH

cd ../fastx_toolkit sudo make install

2.2 TopHat安裝

TopHat是一个快速将RNASeq数据剪接映射的程序，它将读段大小分散成不同的小片段，对每个小片段进行重新建模，再根据空位罚分机制将小片段和参考基因组上的片段进行比对。在片段长度足够小的时候会增加非特异性比对次数，所以需要设置最小片段的最大长度限制。通常大基因组物种选择长读段测序，设置较大最小片段的最大长度，小基因组物种则反之。

直接下载适合于Linux x86_64的二进制文件，解压缩即可使用。

http：tophat.cbcb.umd.edu/downloads/tophat2.0.8b.Linux_x86_64.tar.gz

需要注意，很多接头序列比较长，应搞清楚具体实验时的接头长度。通常情况下，我们需要将接头之间的序列进行比对和过滤。

3 结论

生物信息的环境配置首先要将原Ubuntu系统的g++/gcc进行修改，这样可以将权限及操作环境修改为最适合生物信息分析的状态。

软件安装上，使用Fastx_toolkit和比对软件可以对各种测序结果进行数据分析。

Tophat可以将数据进行动态映射，保证数据分析的快速性。

参考文献：

[1]郭敏，张东林，刘艳军，彭永东，王建涛，付志新，董淑珍，刘铮铸，巩元芳，李祥龙.蓝狐MITFM基因序列扩增及生物信息学分析[J].中国畜牧兽医，2018（01）：4756.

[2]汤庄力，王添，肖生祥，王晓鹏.表皮松解性掌跖角化病一家系KRT9基因突变检测及生物信息学分析[J].中国麻风皮肤病杂志，2017，33（12）：709711+716.

[3]罗文奇.计算机技术在生物信息学研究中的应用分析[J].中国管理信息化，2017，20（20）：151152.

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。