Sample 3300007358

Basic Information
IMG/M Taxon OID	3300007358 Open in IMG/M
GOLD Reference (Study \| Sequencing Project \| Analysis Project)	Gs0063646 \| Gp0052690 \| Ga0104765
Sample Name	Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 159551223 reassembly
Sequencing Status	Permanent Draft
Sequencing Center	Baylor College of Medicine, J. Craig Venter Institute (JCVI), Washington University in St. Louis
Published?	N
Use Policy	Open

Basic Information

IMG/M Taxon OID

3300007358 Open in IMG/M

GOLD Reference
(Study | Sequencing Project | Analysis Project)

Gs0063646 | Gp0052690 | Ga0104765

Sample Name

Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 159551223 reassembly

Sequencing Status

Permanent Draft

Sequencing Center

Baylor College of Medicine, J. Craig Venter Institute (JCVI), Washington University in St. Louis

Published?

Use Policy

Open

Dataset Contents
Total Genome Size	139591620
Sequencing Scaffolds	18
Novel Protein Genes	21
Associated Families	18

Dataset Contents

Total Genome Size

139591620

Sequencing Scaffolds

Novel Protein Genes

Associated Families

Dataset Phylogeny
Taxonomy Groups	Number of Scaffolds
All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Alloprevotella → Alloprevotella sp. oral taxon 473	2
Not Available	4
All Organisms → cellular organisms → Bacteria	3
All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales	1
All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria → Candidatus Saccharimonas → Candidatus Saccharimonas aalborgensis	3
All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	3
All Organisms → Viruses → Predicted Viral	1
All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae	1

Dataset Phylogeny

Taxonomy Groups

Number of Scaffolds

All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Alloprevotella → Alloprevotella sp. oral taxon 473

Not Available

All Organisms → cellular organisms → Bacteria

All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales

All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria → Candidatus Saccharimonas → Candidatus Saccharimonas aalborgensis

All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria

All Organisms → Viruses → Predicted Viral

All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae

Ecosystem Assignment (GOLD)
Name	Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase
Type	Host-Associated
Taxonomy	Host-Associated → Human → Digestive System → Oral Cavity → Tongue Dorsum → Human → Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Ecosystem Assignment (GOLD)

Name

Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Type

Host-Associated

Taxonomy

Host-Associated → Human → Digestive System → Oral Cavity → Tongue Dorsum → Human → Human Microbial Communities From The National Institute Of Health, Usa, Hmp Production Phase

Alternative Ecosystem Assignments
Environment Ontology (ENVO)	Unclassified
Earth Microbiome Project Ontology (EMPO)	Host-associated → Animal → Animal surface

Alternative Ecosystem Assignments

Environment Ontology (ENVO)

Unclassified

Earth Microbiome Project Ontology (EMPO)

Host-associated → Animal → Animal surface

Location Information
Location	USA: Maryland: Natonal Institute of Health
Coordinates	Lat. (^o)	39.0042816	Long. (^o)	-77.1012173	Alt. (m)	N/A	Depth (m)	N/A
Location on Map

Zoom:	Powered by OpenStreetMap^©

Location Information

Location

USA: Maryland: Natonal Institute of Health

Coordinates

Lat. (^o)

39.0042816

Long. (^o)

-77.1012173

Alt. (m)

N/A

Depth (m)

N/A

Location on Map

Zoom:

Family	Category	Number of Sequences	3D Structure?
F032313	Metagenome	180	N
F033081	Metagenome	178	Y
F046433	Metagenome	151	N
F051211	Metagenome	144	N
F054110	Metagenome	140	N
F068942	Metagenome	124	N
F072446	Metagenome	121	N
F077405	Metagenome	117	N
F078842	Metagenome	116	N
F080164	Metagenome	115	N
F084362	Metagenome	112	N
F085820	Metagenome	111	N
F089055	Metagenome	109	Y
F094007	Metagenome	106	N
F095633	Metagenome	105	N
F103430	Metagenome	101	N
F103432	Metagenome	101	N
F103433	Metagenome	101	N

Family

Scaffold	Taxonomy	Length	IMG/M Link
Ga0104765_100107	All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Alloprevotella → Alloprevotella sp. oral taxon 473	53004	Open in IMG/M
Ga0104765_100297	Not Available	35341	Open in IMG/M
Ga0104765_101137	All Organisms → cellular organisms → Bacteria	17773	Open in IMG/M
Ga0104765_101883	All Organisms → cellular organisms → Bacteria	12750	Open in IMG/M
Ga0104765_102867	All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales → Prevotellaceae → Alloprevotella → Alloprevotella sp. oral taxon 473	9293	Open in IMG/M
Ga0104765_103544	Not Available	7770	Open in IMG/M
Ga0104765_104203	All Organisms → cellular organisms → Bacteria → FCB group → Bacteroidetes/Chlorobi group → Bacteroidetes → Bacteroidia → Bacteroidales	6655	Open in IMG/M
Ga0104765_106210	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria → Candidatus Saccharimonas → Candidatus Saccharimonas aalborgensis	4580	Open in IMG/M
Ga0104765_106260	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	4552	Open in IMG/M
Ga0104765_106294	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria → Candidatus Saccharimonas → Candidatus Saccharimonas aalborgensis	4529	Open in IMG/M
Ga0104765_107157	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria → Candidatus Saccharimonas → Candidatus Saccharimonas aalborgensis	3955	Open in IMG/M
Ga0104765_107849	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	3577	Open in IMG/M
Ga0104765_111670	All Organisms → cellular organisms → Bacteria → Bacteria incertae sedis → Bacteria candidate phyla → Candidatus Saccharibacteria	2279	Open in IMG/M
Ga0104765_113521	All Organisms → cellular organisms → Bacteria	1930	Open in IMG/M
Ga0104765_113584	All Organisms → Viruses → Predicted Viral	1918	Open in IMG/M
Ga0104765_116369	Not Available	1538	Open in IMG/M
Ga0104765_119714	All Organisms → cellular organisms → Bacteria → Proteobacteria → Gammaproteobacteria → Pasteurellales → Pasteurellaceae → Haemophilus → Haemophilus parainfluenzae	1239	Open in IMG/M
Ga0104765_130385	Not Available	758	Open in IMG/M

Sequences

Scaffold ID	Protein ID	Family	Sequence
Ga0104765_100107	Ga0104765_10010750	F068942	MIRKILSLPTLALCFTLCTALFAGCGEKIEGFVTEVRWSNVKNPEYGEYINIRLKAEGETFTTVGDHSWISFSNDVSTLDTFTRHDIPKVDKDTAYYKDIVIYLTRNESKGTATLKLVAPPNRTQQPKQFKFSVSVTPPGTYIFKVHQPALPAKAQ*
Ga0104765_100297	Ga0104765_10029713	F084362	MYLMNCAFTVRWSDEKNKPHAKTYATESDAKRAKKWLLEHGVRSVDIAVKINNKPAGSLKDDKPSETEAGQKGFWWEK*
Ga0104765_100297	Ga0104765_10029742	F103430	MKLITIKAFIGSNNKTKKLEVDKIISTVNANHEAFTLQYPVIGCWKGEVEETAVLYLSGERQKVMNTLSELKEVLDQETIAYQIENDLQLI*
Ga0104765_101137	Ga0104765_10113711	F103433	MKEWSKNKPGVVFFFVVWFILSISFIGNFFGTGLWNGWFDGFQKDSSAIVEKTAYCKNKYDYKGPLIAADSKDYNKIMMSQDCNPSQVKPYVSQYGLQARVIAGLSPNDASRIPAYIKRVSIFLAVLTAFLLALVVQKIRVLFGGITASVFAIMLAFSPWIAGYARNIYWIEPMLIAPFVISFVGYQYFKKSKKLWLFYIIESVAMFLKLLNGYEYVSTIAISVLVPIIFFELVHKNVKIINLWKQAVPVFAAAVVAFFGAYWVNFVSLTDYYGSSDKAASAINARASDRGISGIRSMRAYAVGNFKILRPETYNFINQLVNLDNMANNSGKTYKYIIVNVVNYLLLPAITLPVHINGMFGEFIQSILFWTILGYLIILSSRKIIGKKYSRPFLWSMNFSVIGAFCWLALMPGHALPHAHINGIIFYIPLLLFVYVLIGLWADYVVKRTVKYE*
Ga0104765_101883	Ga0104765_10188310	F089055	LKVEKMNSTPECVTKTPEIKAREKEAREKLAVIFSDAEQRDNSKVNPELGKTAFDVANIPNNAAVDLCNKALGSYGKSLDRIKNSPLEAVWAIGTSLQHLRDEYKTEESCG*
Ga0104765_102867	Ga0104765_1028671	F072446	MKKLLFLLSGLCLYCLAACDNDHEPTKPVRPFHGDTLAQIAWNFPFIVEQHYHSIPGIVPEGTTYRVPVIPRSVEDKTKKEYNDMDLGKEAHLVFRATVHGDTINRRRKELDAIALQLGRLTETSIGTSPVLCGVKSIEAVGIAENGNTYDLSWEIKLRIRDYFGRVKHRSSGIVTLDCEDTQSKTAKYVVPLGRIREYELAEHIQPELKFYLPVKRCMDFSSIRFAITLFNGKVLSFQHKLPSKSVLQELPSKSVQQYYTPNGYERESTYFTALWPVPDYKYNEMEW*
Ga0104765_103544	Ga0104765_1035441	F103432	MKKLIHSLFSLSLLLALSGLFCTTACQDDAEPTQRAGLISTDSLIHAAEVYDGKAFEHVVSTTAAGLRVSEPRRVVPMLPRQLHVEMEGKTLFRRHNLPSVSAYSFQVLAVGDTIYRQKESDAEFNADLDALFHESIGIAPRLFGVRELSVVGIDRKGKPRDLGNYSCPLLQGKRKNVNYRTREGVFHEHYEAASVDTFSVKSDWLLKTKAEPSLYAPSFRLLVWEQPAEGCTKLRFTLTLVDGRSLVAEVPLY*
Ga0104765_103544	Ga0104765_1035442	F080164	MRPISFVLSLLLGVIGLTLCAAPQVTLRERANAFPLITEKDASEIDAPYAWRMPVVPLRLDNREIRNFAKFPLLPSLSGGILTVRVLVVGDTVAVHRDLMDDFAKRCRTTLGLGVRTAPKLFGIKGMHVYGVQKDGGRQTVDEQVTLHLPGFEKTEKPLHYKGQTGQLVLCEYYGSHRGDLLLNAANARPEIFGELCPVVDFHFPVELRRAYAWLLLEIELEDGTKLSTSLQHYDEQTSILDHPDRS*
Ga0104765_104203	Ga0104765_10420310	F032313	MACDNNTPQEKPHEQEKHEVPVPKPKPQFDEVGERIWYGQTPAMRLDSTDYGAGLIWVLEMRTSSIPKQRFDSLFKQTVWEIKDICAVETDLSLAKKIPRFVGGSITKEFTCRNGVILRHMQGIDINCVDTVNYVYNEDLNEIVLEGTGIRWYVLRLNKYAVEFLQQGHNIWGPFDWYYGRNSGRSEVTLEAK*
Ga0104765_104203	Ga0104765_1042039	F032313	MNFMSNCNWRAQSVSIESFKIVLMYRFLILLFALTLMACDNNTPQEKPHEQEKHEVPVPVSKPQFDEVGERIWYGRTPAMRLDSTDYGAGLTSVFGMLTSKISKQRFDSLFKQTVWEIKDIRVVETDLSLAKKNPGIMGWVTTTEFTCRNGVIVLHRQGIDVNHVDTVNYVYDEVGNEIVLEGTGIRWTVLRLNKNAVEFLQRGRTMWGPFDWYYGRNSGRSEVTLEAK*
Ga0104765_106210	Ga0104765_1062102	F046433	MSELSASLDVLDVLNPVTPPDLTLQAQDTSRNNPVTYVVDDGYMGTRTSDPCFRKMRRETTEYKALNEFLYFMKMVEPYVPDRIKDNARELRNELVFLGMSELHFAATALAKRLRYHLEVDNKPVYIDVGNSLSQCRVKNEMKSSQYILSLVLSKFPDDEFEEYEGRLKVYGGRGEIDKSSKILFLDDWIIGGDQVRERISVFEAYNNPGAHKVSVLVMAASSNYIDNGIGADSLWGEATYPVEAYYRLKNDHNDWGVSRVTGVHSSTDSAFGCEVDDIAYRAIEGGILKGEGIDELSLPALANIVRPYRNGEDFDGLSRFRQLLEKG*
Ga0104765_106260	Ga0104765_1062602	F051211	MRVKKAIKVFEKIRDLPYGTSGSDEVWSCYQKCVLLKQELQHIGITSQLLIGVFDWQDLQIPEHILKIRRQQYERHVILRVFIDEFAYDVDPSIDIGLTPMLPMACWDGKSSTTTMAPLRRLRVYRPHSLHERILSQLQRKIFRSNPESFYTAIDIWLATIRVNSSPNAFNLIETVYYSHLNNLIATR*
Ga0104765_106294	Ga0104765_1062943	F095633	MRNYENFTEIGRGEGLTEGELRTMGALAMKATEELKKTTIRKEAVLLGSVPFGSWDEFAKAAQEMAAHSYEPIPVKINTKRLIATASLDDGGEMSVEERSVPEEVFIDLSRTRCVVDADRSHKSYKFTCPVLEKFPDGELYPIREVYVISAIDVNGSQEVDFKIIYGNLN*
Ga0104765_107157	Ga0104765_1071575	F033081	MAWLFKKGMPQDPKPVFVWPRLVTEIENAGYFSRRKFSILAVGLIIMTIATIKMLLLVPGLNQSVVSLLTRGLETFLPTRWATVTAWTVGMAGVFLMGDLTNYTPSQMFLHKIKATRFEVYNIILFLALLEEQAFRSGSERWNWRERVRASVCFGLLHIANIWYSFAAGIALSVTGFGFLLVYLWRYRKYRSQIIATAAATTVHALYNAIALSLIAVVLAIDIAKLL*
Ga0104765_107849	Ga0104765_1078493	F078842	MIISSIYKIADNDGLIAHIYEHLLAQYVLKRLQDNEFFVLSDIILSAKTYGDTCFMDAELYSSEVKKTYDEALREFDKLVIPEDDILRAASECGIEMNRNIAEVDRSELSKKLREVQISPWCKQIDMAYRKAHDESSVNTLFRTSYIKYSKESDDLFRECVLEYSIDESHIQTPVDQALAAIVMQIVALNFLTVVREKYTVYDRGDQWSEASISVGYRMFLGLLKKDDKIINQLNCDFLEYIKILSSSVFCDNLQKALVRCSDNHKQVILNRSTLNAILGGCIIGGKGWLEMADSARIRQMINSIELDVYEVNS*
Ga0104765_111670	Ga0104765_1116703	F046433	MIELPPSPDALSELSPVAPPKLLSQAQDASRDNLMVYVKADNYLGTETSDPSFMESRCKTTEYEAINDFVQFIEMTKHYLPDYMEDCAKELIDELAFLGVPELNFAANALAKRLRHHLEVDNKPVYIDVGNSLSQYRAKNEMKSSQYILSLILSKFPDDEFEEYEGRLKVYGGRGEIDKSSKILFLDDWIISGDQVKERIAGFEVDNDPESHEASVLVMAASGDYLDNGISAYSQYGGATYPVEACYVLKNSPDAGGMSRVTGIHSSTDNTFGYEVDGIAYCAIERGILKGEKINELSLPALANIVRPYRNGEDFDGLSRFRQLLERE*
Ga0104765_113521	Ga0104765_1135212	F094007	MKSKTVEVLELARPSRAGVIDVVDSDGNVVPLDYLGEDFVPDANSYGDEDFTKRNRIIVEMCDLFGRIRRRAGFAERHRGRGDYDRARRIERNRGSDISEVGRLAISACEACPLKLDCELYGKLGGAVLSDVLDYKKVRTATSLTKAGKKRSGWNKGCIDNNA*
Ga0104765_113584	Ga0104765_1135843	F054110	VLDVNYQPTIKKLLKALQMNGRRYVVDVRQSWSKFDKPCKVYIVNRMYTEEEYKLTFPHKYKKGKTFKQGQLYKKESEYSSTKQHEVLLFLVKTYKGGD*
Ga0104765_116369	Ga0104765_1163691	F085820	MRSTFYLFAMLFLATTFFSCETVEPSPRATWGEIVNPIEAFMYPRDLKVVAAREEGRRWLILVVPDSTKSSFAPTSKSTPAEVARYKELSQLVGNPTEPVVNECHFHRTWLTQGVKAIRVVRTQADGRDEDVTAQCGNLYFYTDKQIFDCQFKCGNRSIFAKPLGETVEADYLWLPGRDVFGLVAPPNPDHLKQRIVLRLADGTEIEKELSEKRKK*
Ga0104765_119714	Ga0104765_1197143	F077405	ATTSRPRPWQGRALPTELFPHLLVAKQRGVFYGFILLCQIKFVKNFFDWLKIIQKQKVRLK*
Ga0104765_130385	Ga0104765_1303851	F080164	PQVTLRERANAFPLITEKDESEIDAPYAWRLPVVPLSLDNREIRNFAKYPLLPSLSGGKLTVRVLVVGDTVAVHQDLMDDFAKRCRTTLGFGVRTAPKLFGIKGMHVYGVQKDGSRQAVDKQVTLHLPGFEKAEKPLLYKGQEGRLVLCEYYESHRGDLLLNAANAHPEIFGELCPVVDFHFPVELRRAYAWLLLEMELEDGTKLSTSLQHYDEQTSILDHPDRS*

NMPFamsDB

NMPFamsDB

NMPFamsDB

A database of Novel Metagenome Protein Families

A database of Novel Metagenome Protein Clusters

A database of Novel Metagenome Protein Clusters

3300007358: Human tongue dorsum microbial communities from NIH, USA - visit 1, subject 159551223 reassembly

Overview

Ecosystem and Geography

Associated Families

Associated Scaffolds

Sequences