篆体字作品 | 篆体字知识 | 加入收藏 篆体字转换器软件可转换多种篆体字在线预览 网页版 V2.0
篆体字转换器

当前位置:篆体字网 > 知识库 >

ncbi

时间:2023-12-26 22:36:20 编辑:篆字君 来源:篆体字网

美国国家生物技术信息中心 ( National Center for Biotechnology Information ,NCBI )( http: //www.ncbi.nlm.nih.gov/ ) 是美国国家分子生物学信息资源中心,也是全球最有影响的生物学网站之一。 NCBI 开发有 Genbank 等公共数据库,提供 Pubmed 、 BLAST 、 Entres 、OMIM 、 Taxonomy 、 Structure 等工具,可对国际分子数据库和生物医学文献进行检索和分析,并开发用于分析基因组数据和传播生物医学信息的软件工具。 NCBI 还支持与推广多种医学及科技方面的数据库,包括:三维蛋白质结构的分子模型数据库 ( MMDB) 、孟德尔人类遗传( OMIM )、特殊人类基因序列集( UniGene )、人类基因组基因图( Gene Map of the Human Genome )、生物分类游览器( Taxonomy Browser )以及与国立癌症研究所合作的癌症基因组解剖学项目(CGAP )等。 NCBI 的所有数据库和程序软件都可在 NCBI 的匿名 FTP服务器( ftp : //ncbi.nlm.nih.org )上获取。

随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的工具了。那么各位小伙伴们,你能说出NCBI有多少数据库吗?有哪些实用的工具吗?不知道的就进来看看吧!

本篇文献转自:http://www.bio1000.com/experiment/fenzi/237847.html。文章写得比较早,小编为此修改并添加了一些东西!

1 NCBI数据库更新进展

1.1 PubMed搜索功能的增强

NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。一个“内容传感器”是根据作者姓名、所属杂志名称或杂志名缩写、出版日期、卷号或刊号等信息进行分析,然后将符合条件的搜索结果排列到结果列表的顶端。另一个“内容传感器”是根据文章是否与用户给出的条件,例如是否与某种药物相关,在NCBI的新增数据库PubMed Clinical Q&A中进行搜索,然后给出搜索结果。

1.2 primer-BLAST分析工具

Primer-BLAST(http://www.ncbi.nlm.nih.gov/tools/primer-blast/)在设计出引物之后还在某些相应数据库中进行BLAST搜索,因此可以得到特异性引物,扩增出目的片段。用户在给出DNA模板的同时还可以限定正向引物或反向引物,这样,NCBI就只会给出另一条引物。如果用户给出了模板DNA和两条引物序列,Primer-BLAST就只会运行BLAST程序,帮助用户对引物进行分析。用户也可以只给出两条引物而不给出模板序列,这时Primer-BLAST会通过BLAST程序分析出与这对引物最匹配的模板序列。Primer-BLAST进行BLAST搜索的数据库包括RefSeq mRNA、BLAST nr和12种模式生物基因组数据库。

1.3 BLAST的改进及更新

NCBI对BLAST进行了全新的改版,推出了最新的web BLAST report。在最新的BLAST比对结果页面中,“图形化概要(Graphic Summary)”、“具体描述(Descriptions)”以及“序列比对(Alignments)”等部分页面都可以展开和收起。此外,网页上还提供了“结果输出格式选项(Formatting)”和“结果下载选项(download)”,在下载选项中还新增了CSV格式下载。这样,读者可以轻松地将BLAST的比对结果输入到表格处理软件中去。另外,BLAST比对结果页面上的“Alignments”部分还提供了每一条命中序列在Entrez GENE中的相关信息,这些信息包括基因名称、来源物种以及在PubMed数据库中与该基因有关条目的数目等。

“BLAST tree”结果输出模式可以测量不同序列间的距离,自动收起亚类信息等。现在,可以以Newick 格式或Nexus格式下载 BLAST tree结果,也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍ncbi blast的一个新网址:URL: blast.ncbi.nlm.nih.gov。NCBI建议读者都使用这个网址登陆NCBI BLAST,因为该BLAST使用更多的计算机进行分析,也具有更强的系统容错能力。

1.4 Entrez Gene改进及更新

基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contig sequences),即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,Entrez Gene推出了新的“Limits”服务,用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。

Entrez Gene会按以下三种顺序对搜索出的基因进行排序:

1. 按照基因名排序。

2. 按照相关性排序,即按照结果与用户搜索所使用的关键词,例如基因名称等的匹配程度排序。

3. 按照基因重要性排序,即按照该基因在PubMed、Homologene、Protein Clusters、OnlineMendelian Inheritance in Man(OMIM)或Bookshelf 中文献数量的多少进行排序。

2 .ENTREZ搜索系统

2.1 Entrez

Entrez数据库是一个整合了多个数据库的综合检索系统,它包含了35个不同数据库的信息,共收录有超过350,000,000条记录(表1)。Entrez数据库支持使用简单的布尔查询(Boolean queries)方式进行文本搜索,可以下载不同格式的数据资料,还可以按照生物学关系提供与其它相关记录的链接。这些链接给出的都是最简要的信息,例如会给出一条序列和报道该序列的论文摘要,或者会给出一条蛋白质序列的编码DNA序列或该蛋白质的3D结构图。这种通过计算机运算,即基于比较序列相似性或PubMed中摘要的相似性,所给出的相关链接信息可以以最快的速度提供给用户大量的相关信息。还有一种叫做“LinkOut”的功能将这种链接功能扩展到了与外部数据库,例如各物种基因组数据库之间的链接。Entrez中搜索到的数据可以以多种格式输出,也可以打包下载或逐个下载。

2.2 My NCBI

My NCBI功能是为了方便用户储存个人配置信息,例如搜索条件、LinkOut参数或文件出处等而设的。用户登陆自己的My NCBI帐户后,就可以进行保存搜索设置、管理邮件等操作了。My NCBI中有一种称作“Collections”的功能可以让用户储存搜索结果和文献结果。BLAST中也设有类似的功能,这样用户就可以使用同一条件进行多次比对了。同时往NCBI递交转录组、基因组等相关数据都需要注册,获得自己的My NCBI账户!

3 BLAST比对系统

可与在站点https://blast.ncbi.nlm.nih.gov/Blast.cgi看到除常规BLAST的各种blast延伸版本。

3.1 BLAST

BLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。比对之后,BLAST会按照评分高低、序列相似度对结果进行排序,另外BLAST还可以对小鼠数据库以及其它基因组数据库进行比对。

蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmental samples)。

3.2 BLAST output formats

标准的BLAST输出格式包括默认的配对比对格式(default pairwise alignment)、搜索定位的多序列比对格式(query-anchored multiple sequence alignment formats)、简单的可解析的Hit Table格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwise with identities)”的格式能更好地突出目标序列与检索序列之间的差别。而Web BLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。用户也可以设定一个E值的阈值来筛选比对结果。

3.3 MegaBLAST

MegaBLAST也是一种BLAST程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用MegaBLAST进行批量比对操作,这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具,借助它能对增长迅速的Trace Archives数据库和标准BLAST使用的数据库进行快速检索。NCBI还为跨物种核酸序列快速搜索提供了Discontiguous MegaBLAST,它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。Discontiguous MegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。

3.4 Genomic BLAST

NCBI在Map Viewer(http://www.ncbi.nlm.nih.gov/mapview/)中还有未已完成测序的物种设有Genomic BLAST。通过默认的Genomic BLAST对某个物种的基因组序列进行blast比对,获得相关信息。

3.5NCBI在线BLAST用法

首先进行Blast类型的选择:

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;
blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;
blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;
tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;
tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

基本步骤如下:

1)进入在线blast界面,可以选择blast特定的物种(如下)。不同的blast程序上面已经有了介绍。这里以常用的Blast 中nucleotide blast作为例子。

Human 人

Mouse 小鼠

Rat 大鼠

Arabidopsis thaliana 拟南芥

Oryza sativa 水稻

Bos taurus 牛

Danio rerio 斑马鱼

Drosophila melanogaster 黑腹果蝇

Gallus gallus 乌骨鸡

Pan troglodytes 黑猩猩

Microbes 微生物

Apis mellifera 蜜蜂

更多物种blast请使用此网址:http://www.ncbi.nlm.nih.gov/genome/browse/

选择相应的物种做BLAST即可!

2),粘贴fasta格式的序列(可以是多条奥!!)或使用Accession number(s)、gi(s)(注意仅使用数字,不加上标志符gi)。选择一个要比对的数据库,如果是人和鼠则进行相应的选择,否则选择Others中的nr/nt 。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,如Job Title就是这次比对的名字,随便起一个即可;Organism为物种,可以填入你想比对的物种(分类单元如green plant等)的名字(拉丁名字,输入几个字母后会出现索引的)。第一个直接填入框中,往后需要点击一下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进行比对。

另外对于Limit by Entrez Query这一部分也为选填内容,若填写可以进行更为有效的限制,如可以限制分子类型、序列长度等等。具体限制内容如下:

protease NOT hiv1[organism]这将会将Blast检索限定在proteases,但不包含 HIV 1.1000:2000[slen]对于核酸这将会将检索的序列的碱基长度限制在1000 to 2000bp, 对于蛋白质,则将残基个数限制在1000 to 2000 。

10000:100000[mlwt]这将检索的蛋白序列的分子重量限制在10 kD to 100 kD. src specimen voucher[properties] 这将检索范围限制在在来源特征中注有specimen_voucher(物种证明人)的序列中。all[filter] NOT enviromnentalsample[filter] NOT metagenomes[orgn] 这将会排除宏基因组研究和来自未知环境的样品未知序列。

3)blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。

4)注意一下你输入的序列长度。注意一下比对的数据库的说明。

5)blast结果的图形显示。没啥好说的(注意标题157Blast Hits意思为共有157条比对上的序列)。

6)blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。在下面图中可以在左边的复选框中选择,然后点击download可以一起下载这些序列。下载格式一般选择FASTA(complete sequence)格式较好。

7)blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1299,看Identities这一值,才匹配到1264bp,而输入的序列长度也是为1509bp,就说明比对到的序列要长一点。

附:

E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5 就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:

1)当目标序列过小时,E值会偏大,因为无法得到较高的S值。
2)当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
3)有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。

E值总结:

E值适合于有一定长度,而且复杂度不能太低的序列。
当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。
当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。

一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。

Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;

Gaps是指多出或少的碱基或缺失的碱基数;缺失或插入(Gaps):插入或缺失。用'—'来表示。

Strand=plus/plus指两条序列方向相同,如果是plus/minus,即意味着一条是5'到3',一条是3'到5',或一条是正向,另一条是反向序列。

8)Blast 的三个程序

1)MEGABLAST 常被用于鉴定核酸序列。

MegaBLAST是一种BLASTN程序,主要是用来在同一物种非常相似的序列(相似度大于等于95%)之间同源性的比较。鉴定某一段核酸序列是否存在于数据库,最好的方法就是选择MEGABLAST。当然,BlastN/MEGABLAST/Discontiguous MEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计用于非常相似长序列之间的比对,可用于寻找查询序列的最佳匹配的序列。总之此程序主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快用于同一物种间的。

2)Discontiguous MEGABLAST

用于查找不同物种的相似的核酸序列,而不是查询相同的序列。

DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。这是因为密码子的简并性。 blastn 比MEGABLAST 更为敏感是因为它使用一个短的默认字长11.所以 blastn从其他物种寻找同源性比MEGABLAST 更好。blastn 字长可以从默认值调整至7来增加检索的敏感性 用相同字长检索在discontiguous MEGABLAST 的效率和敏感度要高于标准的blastn。

需要重点指出的是核酸序列的相似性检索并不是在其他物种中发现同源蛋白编码区的最好的方法。要完成这项任务最好要通过蛋白质水平上的相似性检索。可以采用direct protein-protein BLAST和translatedBLAST searches的方法进行。

3)BlastN 运行缓慢,但是允许将字长降低到7个碱基,增加检索的敏感性。

9)Filter(较少用)

Filter (Low-complexity)

过滤器(Filter):过滤器可以屏蔽查询序列中低成分复杂性(Low CompositionalComplexity)片断(所谓低成分复杂性片段指四种碱基出现的机会不均等,往往是某几个碱基连续出现如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能过虑待比对的序列及其转录产物中的低成分复杂性片断,不能过虑数据库中存在的序列中低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,其可以消除统计学上有重要意义但生物学上没意义的区域的对比,使输出结果只呈现在生物学上有意义的区域。而对于blastn以外的其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。
有时在与WISS-PROT和refseq数据库中进行比对时SEG程序未起作用,这也是正常的。

4文献资源

4.1 PubMed数据库(文献下载的重要来源)

目前,PubMed数据库中收录有自1860年以来20,400种生命科学类杂志、刊物刊登过的超过1800万条的文献记录。这些文献中有980万条摘要信息,最早的记录可追溯至19世纪80年代,其中有870万条可以检索到全文。PubMed数据库与其它Entrez数据库都保持着密切联系,这样可以在不同的数据库之间架起一座连接的桥梁。PubMed数据库还会通过计算机自动检索出包含相近MeSH词汇、文献题目以及摘要的相关文献信息提供给用户。默认的“AbstractPlus”输出格式给出了该文献的摘要信息和五篇与该文献相关信息的简单介绍,这样用户就可以获得更多的有关资讯了。

4.2 PubMed Central

PubMed Central是一个收录生命科学领域同行评审期刊(Peer Reviewed Journals)文献的数据库,现收录超过160万条全文文献,并且仅去年一年就增长了51%。而且,包括《核酸研究》(Nucleic Acids Research)在内的480多种期刊会为PubMed Central提供全文文献。

所有参与PubMed Central的出版商也都必须在文献出版后12个月之内免费为PubMed Central提供全文文献。由于NIH于2008年4月7日开始执行向公众免费开放使用的政策,故而PubMed Central也必须免费向公众开放使用。如此一来,用户使用Entrez就可以搜索到PubMed和PubMed Central中的所有文献信息了。

4.3 NCBI Bookshelf、NLM Catalog以及Journals database

NCBI Bookshelf通过与作者和出版商合作,收录了86种在线教科书和生物医药类图书。NCBI Bookshelf作为独立于Entrez数据库的一个单独数据库,它里面的信息也可以通过文本搜索或Entrez数据库,例如PubMed、PubMed Central、Gene和OMIM中的链接搜索到。NCBI Bookshelf中的图书不是象普通图书那样一本一本的存放的,而是按照内容将它们分成了230,000个不同的部分、章节进行储存的。用户浏览其中一个内容的时候也可以跳到该书的其它部分或者直接搜索这本书中的特定内容进行阅读。

NLM Catalog为藏书超过130万册的美国国立卫生图书馆(NLM)记录设立目录信息,包括杂志、图书、手稿、计算机软件、录音文件和其它电子资源。每一条记录都可链接到NLM LocatorPlus和具有相近题目或MeSH词汇的相关文件目录信息。

Journals database(期刊数据库)包含了每一个Entrez数据库中的所有期刊信息。目前共收录有超过22,000条记录,期刊数据库为每一份期刊都建立了ISO刊名缩写索引、出版日期索引和NLM catalog链接索引以及Entrez中引用该期刊中文献的索引。

5基因序列信息以及相关序列信息

5.1数据库

5.1.1 Gene

Gene数据库为用户提供基因序列注释和检索服务,还会链接到NCBI的Map Viewer、Evidence Viewer、ModelMaker、BLAST Link (Blink)、protein domains from the Conserved DomainDatabase(CDD)等数据库资源以及其它与基因相关的资源。Entrez Gene数据库收录了来自5300多个物种的430万条基因记录。而且,NCBI除了拥有自己的注释工作人员之外,还在不断从许多其它国际合作组织那里获取新的基因注释记录信息。

Gene数据库与PubMed中最新引文之间的链接是由基因注释人员负责维护的,这项功能也被称作GeneRIF。完整的Entrez Gene数据集以及物种特异性的数据亚集可以在NCBI FTP站点中的NCBI ASN.1中找到。一种可以将NCBI ASN.1格式转化成XML格式的名为ene2xml的软件也可以到ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/gene2xml下载。

5.1.2 UniGene和EST

UniGene从属于GenBank的一部分,专门收集转录体序列数据,包括EST序列和非冗余序列,每一条UniGene记录都代表一个潜在的基因。UniGene收录了GenBank中来自所有物种的EST序列。UniGene数据库每周都会更新EST信息,每两个月会更新序列信息。

5.1.3 HomoloGene数据库

HomoloGene数据库是一个在21种完全测序的真核生物基因组中自动检索同源基因的系统,包括直系同源与旁系同源(统计信息见http://www.ncbi.nlm.nih.gov/homologene/statistics/)。HomoloGene的结果报告包括基因同源性和来自OMIM、小鼠基因组信息学(Mouse Genome Informatics, MGI)、斑马鱼信息网络(Zebrafish Information Network, ZFIN)、酵母基因组数据库(Saccharomyces Genome Database, SGD)、直系同源基因簇(Clusters of Orthologous Groups,COG)和果蝇数据库(FlyBase)的基因表型信息。HomoloGene下载功能能下载HomoloGene中的转录体、蛋白质和基因组序列信息,还能下载基因组中特定基因的上游和下游序列。

5.1.4 Reference Sequences

Reference Sequences(RefSeq)数据库(http://www.ncbi.nlm.nih.gov/refseq/)是一个收录注释过的非冗余转录体、蛋白质和基因组序列数据库。至今已收集了65,964,245条蛋白序列,涉及60,892个物种。用户可以通过Entrez核酸和蛋白质数据库搜索到RefSeq序列,也可以通过NCBI FTP站点(ftp://ftp.ncbi.nlm.nih.gov/refseq/release/)进入RefSeq数据库。

5.1.5 GenBank和其它数据库来源的序列

用户可以通过三个Entrez数据库——Nucleotide、EST和Genome Survey Sequence(GSS)(这三个数据库在E-Utilities中分别称作nuccore、nucest和nucgss)搜索到GenBank中的序列。Entrez Nucleotide数据库含有除了收录之外的GenBank中所有的序列,它还收录有全基因组鸟枪法测序序列、第三方注释序列(Third Party Annotation sequences)和Entrez结构数据库中的序列。对这些记录中编码序列概念上的翻译信息都收录在了Entrez蛋白质数据库中。EST数据库收录了GenBank EST中的所有数据和没有生物学注释信息的“单分子识别首次通过(first-pass single-read)”的cDNA序列。同样,GenBank中的GSS数据库也收录了没有生物学注释信息的单分子识别首次通过的基因组序列。

5.2分析工具

5.2.1 ORF Finder、Spidey和Splign

NCBI提供了几种分析工具可以帮助用户在基因组内发现编码序列。Open Reading Frame(ORF)Finder程序可以将一段DNA序列按照6种进行翻译,然后返回某一段DNA序列中可能的ORF。

Spidey工具将一组真核生物的mRNA序列与一个基因组序列进行比对,使用4种物种的RNA剪切模型(脊椎动物、果蝇、秀丽隐杆线虫和植物)来预测RNA剪切位点。Splign是一种通过比对cDNA和基因组序列来发现剪切位点的工具,它可以在测序出现错误的情况下使用,还可以进行跨物种的比对。Splign使用了一种Needleman-Wunsch算法,与区域化算法(compartmentization algorithm)一起使用能发现可能的基因位点。用户可以在Splign网页上下载单独为大批量分析而专门设计的Splign工具使用。

5.2.2 Electronic PCR(e-PCR)

反向e-PCR(http://www.ncbi.nlm.nih.gov/tools/epcr/)。用户设计完引物后,可以用反向e-PCR搜索该物种基因组数据库和转录体数据库来预测基因组结合位点、扩增片段大小和引物特异性,在线版的物种很少,用户可以自己下载软件,然后用自己的基因组。

5.2.3 Conserved CDS database(CCDS https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)

不同的科研小组使用他们各自的方法研究同一物种基因组时,对于基因组中的基因定位可能会得到相似但不完全相同的结论。这样,就会对其它的科研工作者造成困扰。在所有的模式生物中,目前对人类和小鼠的基因组序列研究得最多也最透彻,因此它们最适合用来作为“标准的(consensus)”基因注释的“实验材料”。

CCDS数据库计划(www.ncbi.nlm.nih.gov/CCDS/)就是由NCBI、欧洲生物信息学研究院(European Bioinformatics Institute)、韦尔科姆基金会桑格研究院(Wellcome Trust Sanger Institute)和加州大学圣克鲁兹分校(UCSC)共同合作建立的标准的有关人类和小鼠基因蛋白质编码区的数据库,该数据库会不断更新来保持其高水准。用户可以在CCDS的网页上使用基因名或序列ID进行搜索,还可以链接到Entrez Gene数据库、历史记录信息、转录体和蛋白质序列、Map Viewer、Ensemble Genome Browser、UCSCGenome Browser和桑格研究院的Vega Browser。用户可以到ftp.ncbi.nlm.nih.gov/pub/CCDS/下载CCDS序列数据。

6基因组信息

6.1数据库

6.1.1 Genome

Genome数据库(http://www.ncbi.nlm.nih.gov/genome/)收录真核生物完整基因组数据(包括基因组组装数据及注释数据)以及动物、绿色植物和真菌的染色体信息。而对于更高等的真核生物基因组,Entrez Genome数据库会直接链接到NCBI Map Viewer。原核生物、病毒和真核生物细胞器的基因组则可以链接到专门的页面和BLAST页面。另外还专门设有植物基因组页面(Plant Genomes Central Web page),在上面可以查询到完整的植物基因组测序计划、植物基因组BLAST或者Map Viewer等信息。

顺便介绍常用下在基因组地方:

NCBI下载。

1、进入NCBI,点击Assembly

2、输入要下载的物种名字,本处以小麦为例。输出结果如下:

以第2条这一版本为例进行点击查看如下:

3、点击右上角Download the GenBank assembly,出现如下界面:

4、点击下载你想要的GFF、基因组文件即可。

Ensemble

进入ensemble网站:http://asia.ensembl.org/index.html。

在网站最下方有Ensembl Bacteria;Ensembl Fungi;Ensembl Plants;Ensembl Protists;Ensembl Metazoa几个子数据库

我想检索小麦,故进入Ensembl Plants数据库,如下。点击选择物种Triticum aestivum

进入如下界面。

点击Download DNA sequence (FASTA)

另外还以一种简便方法就是直接从下面页面下载,网址是:

http://asia.ensembl.org/info/data/ftp/index.html

Phytozome(JGI)下载

1、注册账号

https://contacts.jgi.doe.gov/registration/new

2、进入主页面https://phytozome.jgi.doe.gov/pz/portal.html#

3、选择物种Triticum aestivum v2.2

4、点击Bulk data

5、点击Ok proceed to data

进入如下界面

6、点击v2.2,可以看到如下界面

7、选择自己想要的基因组,蛋白质、GFF文件等下载(这里面还有最长转录本primaryTranscriptOnly*信息啊,在由可变剪接情况下不用自己处理奥)

6.1.2 NCBI Trace Archives

Trace Archives数据库储存了由凝胶/毛细血管测序平台(例如Applied Biosystems ABI 3730)测序(一代测序)获得的序列数据。

6.2分析工具及资源

6.2.1 Map Viewer

NCBI的Map Viewer显示了基因组集合、遗传标记及物理标记以及相关注释信息和比对信息等其它分析结果。Map Viewer的主页www.ncbi.nlm.nih.gov/mapview/提供了包括人类、小鼠和大鼠(Rattus norvegicus)在内的超过100种物种的基因组数据。用户可以看到的图谱将根据物种的不同可能会有所不同,或许包括细胞遗传图谱(cytogenetic maps)、物理图谱(physical maps)和各种不同的序列图谱。源自同一物种的多个基因组图谱可以在同一个页面中显示。

6.2.2 Model Maker以及Evidence Viewer

Model Maker(MM)是用来构建转录模型的一种工具,它将通过由从头预测法(ab initio predictions)预测出来的外显子以及通过与GenBank中的转录体数据库EST和RefSeq比对之后得来的外显子,与NCBI的人类基因组数据库结合在一起来构建转录模型。

Evidence Viewer(EV)则将所有能支持基因注释信息正确性的序列信息证据进行了归纳总结,它采用的是将RefSeq、EST等GenBank中的转录体信息与基因组重叠群进行比对的方法。EV显示了每一个外显子的详细比对结果,并突出显示了其中不匹配的部分。

6.2.3 Entrez cancer Chromosomes

Entrez cancer Chromosomes (Entrez癌症染色体)数据库包含了与人类癌症有关的人类染色体畸变信息,例如基因缺失或转位等。Entrez癌症染色体数据库由三个部分组成,即NCI/NCBI SKY(SpectralKaryotyping)/M-FISH(Multiplex-FISH)和CGH(Comparative Genomic Hybridization)数据库;美国国立癌症研究院(NCI)为癌症染色体畸变信息设立的Mitelman数据库以及NCI为再发癌症染色体畸变设立的数据库。每一个畸变都以图形的形式表现出来,并附之相关临床病例信息和文献信息。

6.2.4 TaxPlot、GenePlot和gMap

TaxPlot可以同时给出来自两个物种蛋白质之间的相似性以及原核生物或真核生物参考物种的完整基因组信息。与其相关的另一个工具GenePlot则可以给出一对完整微生物基因组内的片段,经可视化的缺失、转位或倒位操作之后,其编码蛋白质之间的相似性。gMap工具将预先计算过的微生物全基因组比较结果与BLAST比较结果以及核酸序列相似的基因组聚类结果结合在一起进行比对,然后将相似的片段以图形化的方式表现出来。

6.2.5 Influenza Genome SequencingProject(IGSP)

IGSP(流感基因组测序计划)为研究流感的科研工作者提供了越来越多的序列资料,他们可以借此找出流感病毒致病的遗传性状。到目前为止,该计划已经得到了超过33,000条流感病毒序列。NCBI的流感病毒资源也和IGSP之间设有链接,还可以通过PubMed找到所有最新的有关流感病毒方面的文献和各种在线分析工具及数据库资源。这些数据库包括NCBI的流感病毒序列数据库(Influenza Virus Sequence Database),该数据库收录有GenBank和RefSeq中超过70,000条流感病毒的序列。科研人员借助流感病毒资源提供的各种工具能对超过83,000条流感蛋白质序列进行分析。Entrez的生物学数据库中还收录有超过100条流感病毒蛋白质结构信息和350多条有关流感病毒种群研究的资料。还有一种在线流感病毒基因组注释工具能帮助科研工作者们分析新发现的流感病毒序列并进行注释,然后将结果通过tbl2asn等上传工具递交给NCBI的GenBank数据库。

6.2.6 Entrez Protein Clusters

Entrez Protein Clusters(Entrez蛋白质聚类数据库)收录了由完整的原核生物基因组和叶绿体基因组编码的28万多条已确认的RefSeq蛋白质序列,并将这些序列按照分类学的规则进行了归类(聚类)。NCBI可以将这些蛋白质聚类信息用于基因组范围内的比对,也可以用于简化的BLAST——简单的微生物蛋白BLAST(Concise Microbial Protein BLAST,www.ncbi.nlm.nih.gov/genomes/prokhits.cgi)比对之用。蛋白聚类数据库还包括注释信息、出版信息、结构域和结构信息、相关库外链接和分析工具(例如多序列比对工具和系统发生分析工具)信息等。蛋白质聚类数据库还通过GenomeProtMap(http://www.ncbi.nlm.nih.gov/sutils/protmap.cgi)与其它基因组数据库有链接。

7基因型和表型信息

7.1基因型和表型数据库

认识遗传和环境因素与人类疾病之间的关系,对于帮助我们提高疾病诊治水平来说具有非常重要的意义。大范围的基因型研究能为基因组相关调查、医疗测序、分子诊断以及发现基因型和非临床特性之间的关系等研究提供数据资料。基因型和表型数据库(dbGaP;www.ncbi.nlm.nih.gov/sites/entrez?db=gap)是Entrez系统的一部分,它负责管理与可见特征(表型)相关的遗传特征(基因型)。该数据库收录的资料来自由NIH资助的全基因组关联分析(genome-wide association study, GWAS)结果。(详见grants.nih.gov/grants/gwas/index.htm。)目前dbGaP数据库收录的数据来自25个研究项目,用户可以通过疾病名称或基因名称进行搜索、浏览。为了保证研究项目的机密性,dbGaP数据库只接受“去识别(de-identified)”的数据,同时还要求使用个人资料(individual-level)的研究者接受审核。不过,用户可以不受任何限制的浏览研究文件、操作流程和项目问卷调查等资料。

7.2 dbSNP

dbSNP数据库(单核苷酸多态性数据库)收录的是单核苷酸多态性信息,例如单个碱基的替换、缺失或插入信息。共收录有将近1800万条人类SNP信息和3300万条其它各物种的SNP信息。dbSNP数据库还收录确认信息、种群特异性等位基因频率信息(population-specific allele frequencies)和个体基因型信息。所有这些信息都可以在dbSNP数据库的FTP站点中找到。

7.3供常规临床应用的数据库

7.3.1 dbMHC

dbMHC数据库是有关主要组织相容性复合体(MHC)的数据库。它收录了各种MHC等位基因的变异信息,这些信息与器官移植以及个体对感染性疾病的易感性有非常重要的关系。dbMHC数据库收录了1000多条MHC等位基因序列以及这些等位基因在人群中出现的频率,还收录了人白细胞抗原(HLA)的基因型与全世界临床造血干细胞移植成功率之间的信息。

7.3.2 dbLRC

dbLRC数据库则是全面收录白细胞受体复合物(LRC)等位基因信息,主要关注LRC中的KIR基因。

7.3.3 dbRBC

dbRBC数据库收录的是与红细胞抗原或血型有关的基因及其序列信息。该数据库是将血型抗原基因突变数据库(Blood Group Antigen Gene Mutation Database)中的资源与NCBI中的相关资源整合到一起组建而成的。dbRBC数据库里收录的每一个基因都有详细的信息,还有国际输血学会(ISBT)通过等位基因命名法对血型等位基因的命名。上述这三个数据库都带有多序列比对工具、分析纯合型或杂合型序列的工具以及DNA探针比对工具。

7.4 OMIM

NCBI的OMIM是Entrez的一个组成部分,主要收录人类基因和遗传病相关信息,它由约翰霍普金斯大学(Johns Hopkins University)的VictorA. McKusick小组负责维护。OMIM数据库收录了疾病表型与基因的相关信息,包括对该遗传病详细的描述、基因名称、遗传方式、基因定位、基因多态性以及详细的相关参考文献信息。

2016年9月22日,中国“诺亚方舟”——中国国家基因库正式投入运行。这是继美国、日本、欧盟之后,全球第四个建成的国家级基因库,也是目前为止世界最大的基因库。未来大众掌握自己的健康数据将不再是出现在科幻电影中的情节。

借着国家基因库这股强劲的龙卷风,今天小编为您送上广受关注的、与人类遗传性疾病相关的数据库——Online Mendelian Inheritance in Man(OMIM)。

OMIM(http://omim.org/)意为在线《人类孟德尔遗传》,是持续更新的、关于人类基因和遗传紊乱的数据库。它主要着眼于可遗传的或遗传性的基因疾病,包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。对临床医生和生物医药研究人员而言,OMIM是珍贵的基因组学基础资源。

OMIM前世今身

MIM原是由美国Johns Hopkins大学医学院Victor AMcKusiek教授主编的《人类孟德尔遗传》(Mendelian Inheritance in Man:Catalogs of HumanGenes and Genetic Disorders,MIM),这本书一直是医学遗传学最权威的百科全书,被誉为医学遗传学界的《圣经》。MIM 包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。MIM 制定的各种遗传病、性状、基因的编号,简称MIM 号,被全世界公认。有关疾病的报道必须冠以MIM 号,以明确所讨论的是哪一种遗传病。

疾病基因及其分子医学的研究日新月异,尽管印刷版本的MIM一厚再厚,但已很难跟上医学遗传学发展的步伐。因此,1987年联机形式的OMIM应运而生,免费供全世界科学家浏览和下载。目前,OMIM在Johns Hopkins大学医学院Dr. Ada Hamosh的指导下,由McKusick-Nathans遗传医学研究所编辑和授权。

OMIM数据库内容组成

上图是OMIM界面图示,我们能够看到OMIM数据库的组成部分,介绍如下:

Home:OMIM主界面

About:介绍OMIM信息

Satistics:包括3部分内容,即数据增加或删改信息、OMIN条目统计、OMIM基因图谱统计

Downloads:注册下载或API

Help:常见问题、搜索帮助、链接帮助和API帮助

ExternalLinks:外部资源链接

Terms ofUse:如何在参考文献中引用OMIM

如何解读MIM编号?

被世界公认的MIM号如何解读,有何特殊意义?下面我们来解读MIM独特的六个位编号。

100000-299999:常染色基因座或表型(条目创建时间早于1994年5月15日)

300000-399999:X连锁位点或表型

400000-499999:Y连锁位点或表型

500000-599999:线粒体位点或表型

600000-699999:常染色体位点或表型(条目创建时间晚于1994年5月15日)

如果是等位基因异质性,MIM编号后面会加上小数点和4位数字,指明变异。例如:HBB基因(141900)等位基因变异的MIM编号是141900.0538。

MIM编号前的符号代表什么?

*:基因

#:描述型条目,通常是一个表型,而不是特殊位点

+:条目包括已知序列基因和表型的描述

%:该条目描述了已经确定的孟德尔表型或含有未知的分子基础的表型位点

^:这个条目已经不存在,已经从数据库中移除或被移至其他条目中了

无符号:孟德尔遗传情况还未被明确,或者它从里一条记录的性状中分离的情况还不明确

如何使用OMIM检索信息?

OMIM支持多种搜索方式,详细介绍如下:

1、基础搜索方式:

1)输入MIM号或症状,搜索结果会按照信息匹配多少顺序一一列出。

2)使用+/-,如:输入+muscular +dystrophy -duchenne,搜索到的条目包括muscular、dystrophy 但不包括duchenne。

3)使用引号,搜索短语,如:“+muscular +dystrophy”-“duchenne gene”, 搜索到的条目包括“muscular dystrophy”但不包括“duchenne gene”。

4)使用通配符?和*,?用于单字母匹配搜索,*用于多字母匹配搜索。如:输入dystroph*,系统会反馈dystrophia/dystrophin/dystrophic/dystrophy等的条目。输入dystroph?,系统会反馈dystrophin/dystrophic/dystrophy等,但是不会出现dystrophia的条目。

5)支持Boolean 符号搜索,如:输入muscular AND dystrophy NOT duchenne,与+muscular+dystrophy –duchenne,系统反馈信息一致。

6) 分组搜索,有时使用Boolean 搜索,系统反馈信息不精确,不能迅速看见我吗想要查询的信息,这时我们可以采用分组搜索的方式。分组搜索使用小括号对输入信息进行分组,如:(muscular AND dystrophy) OR (duchenne AND gene)。

7) 近似搜索:限制两个词之间的距离,使用~。如:'muscular dystrophy'~10,搜索到的条目中muscular与 dystrophy之间的距离不会超过10个字母。

8) 日期搜索:以年/月/日的形式搜索,可以加-、*等。

9) 染色体位置搜索:输入1p36-p32,搜索结果显示位于这个区域基因对应的条目。

2、高级搜索方式,如下图所示。您可以限定搜索信息范围,精确搜索。

OMIM能够搜索那些信息?

以“+141900”为例,OMIM反馈信息如下图所示(搜索结果部分显示)。

总结性信息:基因名、染色体的位置(参考GRCh38)、与该基因相关的表型。

详细描述信息:基因描述、基因结构、基因图谱、假基因、基因功能、生化化学特征、分子遗传学、动物模型、等位基因变异、临床提要等,另外还包括参考文献、条目创建日期、创建人、编辑史等信息。

如果您还想看更多信息,可以查看OMIM提供的外部资源链接。

7.5 OMIA

OMIA(动物在线孟德尔遗传)数据库是一个有关动物(除了人类和小鼠)基因和遗传病的数据库,由澳大利亚悉尼大学(University of Sydney, Australia)的FrankNicholas教授等人建立。该数据库收录了超过2500条记录,其中包括文本信息、参考资料信息以及与OMIM、PubMed和Entrez Gene这些数据库之间的链接。

8基因表达

8.1 Gene Expression Omnibus(GEO)

GEO(基因表达精选集)是一个储存高通量功能基因组学数据的数据库,这些高通量功能基因组学数据来自芯片和二代测序得到的试验数据。GEO除了收录基因表达数据之外还收录其它数据,例如基因组拷贝数变异数据、基因组-蛋白相互作用数据以及基因组甲基化数据等。该数据库既接受原始数据,也接受经过处理的数据。GEO数据库被分为两个部分收录在Entrez中,分别是GEO Profiles数据库(它负责收录一个基因在一次试验中的定量基因表达数据)和GEO数据库(收录整个试验的数据)。

8.2 GENSAT

GENSAT是有关小鼠中枢神经系统基因表达谱的数据库,这些数据是由美国神经障碍和中风研究院(National Institute of NeurologicalDisorders and Stroke)提供的。GENSAT储存了小鼠大脑的组织切片图像,这些组织切片中都含有各种标签,例如增强的绿色荧光蛋白标签等,这样可以根据标签的荧光强度来判断基因的表达量。GENSAT共收录了8万多幅图像资料,还提供搜索功能、资料下载功能、缩放功能和比对功能。

8.3 Entrez Probe

NCBI Probe database(探针数据库)是一个公共的核酸试剂数据库,它可以提供试剂信息、销售厂家信息、探针有效性信息,还可以计算序列相似性。该数据库储存了960万条探针序列,这些探针可以分为31大类,包括用于基因分型的探针、发现SNP的探针、基因表达探针、基因沉默探针、基因测序探针等等。

8.4SRA数据库

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点,将SRA数据分为四类:

Studies-- 研究课题

Experiments-- 实验设计

Runs-- 测序结果集

Samples-- 样品信息

SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的,一个study 可能包含多个Experiment。

Experiments包含了Sample、DNA source、测序平台、数据处理等信息。

一个Experiment可能包含一个或多个runs。

Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分:

ERP或SRP表示Studies;

SRS 表示 Samples;

SRX 表示 Experiments;

SRR 表示 Runs;

教一下大家如何更加快速的(可都是Mb/s的速度奥)下载SRA文件,还有其他NCBI上所有数据大家自己发挥,都能找到,快速下载!

一、window系统

1、软件下载。Aspera Connect下载, 下载地址:http://www.asperasoft.com/downloads,选择相应版本,安装到本地电脑上;

2、数据网址获得。所有适用于aspera下载的数据均在此网址内http://www.ncbi.nlm.nih.gov/projects/faspftp/,你只需要找到对应的数据点击即可弹出aspera软件下载界面,下载即可(一个一个下,不可贪多奥!)

SRA数据下载截图,找到对应的SRR号,点击黄色部分SRR000001.sra即可完成下载

基因组相关信息网址:找到genome,然后找到对应物种拉丁文即可,注意点击黄色部分向右的小箭头,会翻页的奥!(别找不到自己的物种)

二、linux系统

1. 进入linux服务器,下载aspera。

输入:wgethttp://downloads.asperasoft.com/download/sw/connect/3.1/aspera-connect-3.1.1.70545-linux-64.tar.gz

将会开始下载。

2. 下载完毕后,解压,输入: tar xvf aspera-connect-3.1.1.70545-linux-64.tar.gz

3. 安装输入:sh aspera-connect-3.1.1.70545-linux-64.sh

4. cd 到/home/usrname文件夹,ls-a就能看到 .aspera

这就是安装的文件夹。

5. 重要一步,添加环境变量,否则不能用。输入

exportPATH=$PATH:/home/username/.aspera/connect/bin

6. 数据下载。

可以按照这个模板去下载了SRA数据(如果很多可以把所有命令写到一个shell里面,nohup提交睡大觉去就可以了,明早一醒,全部ok)

nohup /home/usrname/.aspera/connect/bin/ascp -i/home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.srahttp://www.360doc.cn/article/ &

9分子结构和蛋白质组学

9.1 MMDB

NCBI的MMDB数据库收录了Protein Data Bank数据库中经试验验证过的数据信息,包括蛋白质结构域注释信息、与相关文献的链接信息、蛋白质和核酸序列信息、PDB异基因(PDB heterogens)信息、CDD中的保守结构域信息和经VAST算法计算出的结构邻域(structural neighbors)信息。用户可以通过在MMDB数据库中进行文本搜索得到相关的简要结构信息图,还能链接到NCBI结构和在比对浏览器Cn3D中查看搜索结果。

9.2分析工具

Blink工具能显示预先计算(pre-computed)出的BLAST比对结果,即与Entrez数据库中每一条蛋白质序列相似的序列。用户可以限定一些参数,例如物种类别或被比对的数据库等来对结果进行筛选。

9.2.1开放式质谱搜索算法

开放式质谱搜索算法(Open Mass Spectrometry Search Algorithm,OMSSA)是一种与BLAST类似的算法,利用和BLAST中E值一样的方法在已知的蛋白质序列数据库(非冗余数据库或refseq数据库)中找出与待测序列最相近的已知序列。在OMMSA的网页上可以一次分析2000多个样品。用户还可以到ubchem.ncbi.nlm.nih.gov/omssa/download.htm.站点下载可进行更大量分析的OMSSA软件。

9.2.2 HIV-1/Human Protein InteractionDatabase

美国国立过敏和传染病研究所艾滋病部(The Division of Acquired Immuno DeficiencySyndrome of The National Institute of Allergy and Infectious)与南方研究院(Southern Research Institute)和NCBI合作,建立了HIV-1/Human Protein InteractionDatabase(HIV-1/人类蛋白相互作用数据库),用来记录HIV-1病毒蛋白和人类宿主细胞蛋白之间的相互作用。在www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html网页上用户可以找到蛋白质在RefSeq中的检索号、Entrez Gene ID号、相互作用的氨基酸位点、对相互作用的简单描述、关键词和PubMed ID号等信息。

10 PubChem

PubChem是NIH设立分子图书馆以及开展研究小分子化学、结构和生物学特性工作的基础。三个Entrez数据库——PCSubstance、PCCompound和PCBioAssay收录了所有的相关信息。这三个数据库共收录有将近4100万条小分子记录和1900万种结构。其中750,000条记录都在PubChem中收录的1200种生物检测方法中的至少一种生物检测试验中具有活性。PubChem不仅与PubMed、PMC等Entrez数据库有链接,还与Entrez Structure和EntrezProtein有链接,这样就将基因组水平的生物大分子与细胞代谢水平的小分子联系起来了。用户可以使用文本在PubChem数据库中进行搜索,也可以使用各种格式的化学分子式或化学结构进行搜索。

11.Taxonomy

物种系统分类学数据库,可以用做进化树的显示工具。

这里可以选择在线输入名字或者导入文件。

我以导入文件为例:

我的文件如下:

Human

Mouse

Rat

Dog

保存为txt文本格式,然后导入,然后点击运行:

点击select

然后点击save 保存为pyhlip tree格式

然后用treeview软件打开。

这样我们就得到了物种从系统分类上的进化关系。

本文总结了BLAST序列相似性搜索程序、ENTREZ 搜索系统、PubMed搜索功能、GenBank和其它数据库来源的序列、分析工具及资源、基因型和表型信息数据库、Gene Expression Omnibus(GEO)数据库、分子结构和蛋白质组学、PubChem等NCBI数据中资源的功能和使用方法。

Copyright:2021-2023 篆体字转换器 www.dddtedu.com All rights reserved.