MITOS 您所在的位置:网站首页 线粒体基因组编码37个结构蛋白基因 MITOS

MITOS

#MITOS| 来源: 网络整理| 查看: 265

今天给大家介绍MITOS这个线粒体在线注释网站,该网站主要用来注释动物线粒体和部分真菌,但是不推荐用来注释植物的线粒体。 小编主要从版本、使用说明、注释结果说明、注意事项、注释文件这五个方面来进行介绍。

一、版本 MITOS网站有新版(http://mitos2.bioinf.uni-leipzig.de/index.py)和旧版(http://mitos.bioinf.uni-leipzig.de/index.py)两种版本。小编推荐大家使用新版界面,相对与旧版,新版界面操作更方便,数据库较新,注释信息更全,并且可以预测线粒体OH(repeat origin、control region)区,这是旧版所不具备的。

二、使用说明 今天小编用某一昆虫的线粒体序列(环状序列,完整的线粒体序列)来说明MITOS网站的使用步骤。 1.NCBI下载线粒体序列 该昆虫线粒体序列下载网址是https://www.ncbi.nlm.nih.gov/nuccore/EU725832.1/,文件以fasta文件存储。 在这里插入图片描述 在这里插入图片描述 2.序列上传注释 打开新版MITOS界面,上传从NCBI下载的fasta文件,调整参数。小编注释的是昆虫线粒体,所以在这里选择“Metazoa”(后生动物)、“5 Invertebrate”(无脊椎动物),其余注释选项暂且使用默认参数,然后点击“submit”开始注释。 在这里插入图片描述 在这里插入图片描述 Reference: Fungi:真菌 Metazoa:后生生物 Opistbokonta:后鞭毛生物

Genetic Code: 2 Vertebrate :脊椎动物 3 Yeast :酵母 4 Mold:霉菌 5 Invertebrate:无脊椎动物 9 Echinoderm:棘皮动物 13 Ascidian:海鞘类 14 Alternative Flatworm:扁虫 16 Chorophycean:绿藻

三、注释结果说明 注释结果(以下主要以新版为例进行说明)。大家可能会疑惑,新旧版区别到底是啥?其实区别也不是特别大,新版注释结果会在每个tRNA后面注明其反密码子,而旧版注释结果中注明的不是反密码子,而是与其互补的密码子,并且旧版注释缺少OH结构区(上面也提到过),也未给出基因cds区的起始/终止密码子,所以旧版对于新版注释结果效果而言差了一点。 如下图,第一列(Name),线粒体主要结构区名称;第二、三列(Start、Stop),该结构区在该线粒体序列(输入文件fasta序列)中的起始、终止位置;第四列(Strand),该结构区位于正链(+)/负链(-);第五列(Length),该结构区长度(bp);第六列(ovl/nc),该结构区和上一个结构区的间隔,若为负数,则表明二者区域有所重叠(正常现象,只要不很大就没什么问题);第七列(Codons),若为蛋白编码基因(CDS区),则标明起始/终止密码子;第八列(Infos),若为非编码RNA(rRNA、tRNA),则同时给出其二级结构图。 在这里插入图片描述 在下图中,以不同颜色表示了不同类型的注释区域,包含CDS区、rRNA、tRNA等。其中,出现在上方的区域表示它们位于我们所提供的线粒体序列的正链,下方的区域则位于序列负链。 在这里需要特别关注的是下方提示的文字。它会提示哪些基因或RNA没有注释到,哪些基因或RNA断开了,哪些基因或RNA之间存在重叠等等。基因或RNA间存在重叠是正常现象,只要重叠区域不是很大,就代表基因组没什么大问题。若有出现未注释到的基因或RNA,或者断开的情形,需重点关注。 在这里插入图片描述 四、注意事项 1.线粒体序列正负链问题 通常,我们需要保证大部分注释结果出现在正链中,如上结构图所示这样。 如果大部分注释结果出现在负链,那么我们需要对原始输入序列作个反向互补处理后,再重新注释。如下图,表明我们需要在原序列基础上取个反向互补序列。 在这里插入图片描述 2.线粒体主要区域是否注释完全 最下方小字部分,Features not found,即为未注释出的区域。就线粒体主要结构区类型而言,以高等动物线粒体为例,它们的基因、非编码RNA等还是比较保守的(这里指的种类、数量,而非碱基组成),一般来讲就是由13个蛋白编码基因,2个rRNA,16个tRNA,1个OL区和1个OH区组成。当然,也会有例外的情形。若出现未注释到的区域时,首先在NCBI、EMBL等数据库中查找一下该物种的同种或近缘物种的已发表的线粒体序列,看这些序列中是否也缺乏这些区域。若参考序列中同样缺乏,那么我们大致可断定该物种线粒体中本身是不存在这些区域的;若参考序列中存在这些区域,那么就预示着该物种可能真实存在这些区域只是MITOS并未注释到,这时我们就得想办法再注释一下,例如更改注释参数,不行的话还需通过其它的方法寻找该区域(如借助近缘物种作blast比对确定位置;对于未注释到的tRNA,还可使用tRNAscan-SE等tRNA预测软件来预测。 有时候还存在内含子结构,存在内含子时,基因边界更难确定。特别是在真菌线粒体的注释中,结构区变异较大远非动物线粒体注释这么轻松。这时候线粒体的功能注释就会更加繁琐。 我们的示例中,未注释到“OL”结构区。事实上,通过查找其近缘物种的线粒体,我们已确定了该物种线粒体中本身即不存在“OL”结构区,因此这里就可以不用注释它了。

3.注释结果中是否出现了“断开”、“冗余”的区域 最下方小字部分,Split/duplicated features,断开、冗余的区域。如果序列出现组装错误,或者MITOS注释参数过于宽松,就容易出现这类情形。其实一般来讲线粒体这种小基因组的组装不会有什么大的组装问题。可以根据提示,先检查下这些区域,例如我们的示例中提示“rrnL”、“OH”区断开。我们检查后发现(如下所示),除了最后的“OH_0”长度足够长之外,其余的“OH_1-a”、“OH_1-b”等的长度都过短(这其实是线粒体中一段比较长的重复序列),它们就显得不可信,也就是冗余的部分,需要剔除;而对于“rrnL”,我们发现两段“rrnL”之间夹杂着“OH_1-a”,而我们已知“OH_1-a”是错误的注释结果,那么就表明这两段“rrnL”其实是一个“rrnL”,需要连接起来(连接后的长度正好就可以了)。除了手动操作外(将本次的结果文件下载下来,如gff注释文件、tbl注释文件等,见下文;然后在这些文件中手动剔除、连接等),也可以尝试重新调整下MITOS的参数设置,参数严格一些,再运行一次,或许可以直接得到理想的结果。这样对于我们的示例来讲,就能使得那些不可信的“OH”区不再注释到,且“rrnL”也能注释完全。 在这里插入图片描述 4.对于重叠区 最下方小字部分Overlaps展示了具有重叠区域的两段结构。在动物线粒体中,出现重叠区域很正常。NCBI、EMBL等数据库中登记的线粒体序列,也经常能看到这种重叠的结构,所以这个一般来讲不算问题,只要重叠区不是特别离谱的话就没什么大碍。

5.线粒体序列起点位置调整(起点调整仅限环状序列) 最后确认无误,或者说你通过了一系列的方法获得了可靠的注释结果后,先不着急导出结果。尽管动物线粒体结构单元在种类上通常来讲比较保守,但是不同的物种之间,这些结构单元在基因组中的排列顺序可能相差较大。最好对它们确定个前后顺序。 此外,如果你的线粒体序列是环状的,注释结果中还可能会出现某段结构区在末尾处仍未到终点,然后延伸至起点位置继续(如下所示)。这时候肯定也需要调整下起点位置,不要在注释结果中出现这类的状况。 在这里插入图片描述 起点在序列末尾处,然后继续延伸,由于是环状的序列,因此会在起点处继续延伸,终点在序列起始位置

通常,我们需要将某些特定的基因(或RNA)放在起始位置,该基因(或RNA)的第一个碱基即调整为整个线粒体基因组的第一个碱基。至于将哪个基因(或RNA)放在起始位置,需要通过其同种或近缘物种的已发表的线粒体序列来确定。若无可比较的参考线粒体,那么一般我们就会将OH区放在最末端,因此OH区之后的第一个基因(或RNA)就是起始位置了。调整好起点后,再对调整后的序列重新注释一下。

在这里插入图片描述 7.MITOS注释结果下载 在经过不断地调整后,正负链调整好了、没有缺失的结构区、断开的位点已经修复、冗余的注释结果已经去除、重叠结构区的长度可以接受、对于环状的序列起点也已经调整好了等,你可以将MITOS的注释结果下载自本地浏览及进一步编辑。或者,结果中仍然存在一些问题,如上文提到的存在冗余区域等,但是你不想再重新设置参数运行MITOS,而是想在结果文件中手动将这些区域删除;或者注释结果中缺少了一些结构区,用MITOS外的方法找到,这时也想要手动添加进来等,也需要首先将结果文件下载自本地编辑。 在MITOS的结果界面,点击左侧的链接即可下载对应的文件。 在这里插入图片描述 五、注释文件

BED注释文件 包含了线粒体序列id、线粒体各结构区名称及位置、以及和数据库中序列比对的e值等信息。 在这里插入图片描述 GFF注释文件 包含了线粒体序列id、线粒体各结构区名称及位置、以及和数据库中序列比对的e值等信息。 在这里插入图片描述 TBL注释文件 如果你想将你的线粒体基因组序列和注释信息上传NCBI时,NCBI会让你提供该文件作为上传信息。 在这里插入图片描述 FAS & FAA fasta文件 fas文件为核酸序列,包含cds编码区及非编码RNA区;faa文件为氨基酸序列,只包含cds编码区。 在这里插入图片描述 在这里插入图片描述 protein & ncRNA plot 主要为线粒体中cds区和非编码RNA区在线粒体基因组中的位置分布,及其对应的比对e值信息等。 在这里插入图片描述 在这里插入图片描述 raw data压缩包 包含了你的线粒体序列和数据库中参考序列的比对结果详情。如果你对注释结果有所疑问,不妨查看下这其中的中间文件。 在这里插入图片描述



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有