Research: 2014

Friday, December 19, 2014

BACE, Curto - PCR

Performed PCR:

	1 Rxn (μl)	Rxn Number	Total
		96
dH2O	11.3		1084.8
Premix F	15		1440.0
pA (50μM)	0.2		19.2
pH' (50μM)	0.2		19.2
Taq (5units/μl)	0.3		28.8

DNA	3.0

rDNA 16S Gene for 1500 bp

Primers Used:

Forward Primer - pA -> 27f / E8F

Reverse Primer - pH' -> 1525f / E1541F

ThermoCycler:
95 for 4:00 min
*95 for 0:40 min
*55.5 for 0:30 min
*72 for 2 min
72 for 3:30 min
Hold at 4
*Repeat for 30 cycles

LOOKED REALLY GOOD!

Transfer 20 uL to new plate - READY FOR SEQ

Claudia sent out to Beckman Genomics Institute on 1/13/15

Monday, December 15, 2014

Curto - PCR

Took Kristen's Curtobacterium strains from deep freeze and plated.

Performed PCR:

	1 Rxn (μl)	Rxn Number	Total
		12
dH2O	13.3		159.6
Premix F	15		180
pA (50μM)	0.2		2.4
pH' (50μM)	0.2		2.4
Taq (5units/μl)	0.3		3.6

DNA	1

rDNA 16S Gene for 1500 bp

Primers Used:

Forward Primer - pA -> 27f / E8F

Reverse Primer - pH' -> 1525f / E1541F

5 of the 9 strains amplified

Need to reevaluate strains that failed

Thursday, December 11, 2014

Went back to the hdf5 file and attempted to solve problem in MatLab (Rich helped a lot!)

Solved the array issue:

%% Load the data
a=h5info('name of hdf file');% return structured array of the hdf
% hieracrchy for reference
observdata=h5read('name of hdf file','/observation/matrix/data');
observIndices=h5read('name of hdf file','/observation/matrix/indices');
observIndptr=h5read('name of hdf file','/observation/matrix/indptr');
ids=h5read('name of hdf file','/observation/ids');

%% Get the OTU indices
% You need a cell array of strings of your desired OTUs stored as variable
% qList

for i=1:length(qList)
qInd=find(strcmp(qList,ids));
end

%% find the data

outmat=zeros(length(qList),length(sampleIndptr));

for i=1:length(qInd)
p=observdata(observIndptr(qInd(i)):observIndptr(qInd(i)+1));
pI=observIndices(observIndptr(qInd(i)):observIndptr(qInd(i)+1));
for j=1:length(pI)
outmat(i,pI(j)+1)=p(j); %plus one to correct for matlab python coordinate changes
end
end

Merged files and got the following with all metadata!!!!!

EMP Biom Files Pt. VI - Green Planet

Got access to the Green Planet server and am able to login.

Was informed by Chad Cantwell that QIIME may or may not be installed in the new environment (server was updated recently and it may not be running)

Contacted Steve Hatosy (from Adam's lab) and was super helpful.
When you login to the server (through ssh), type: . /sopt/qiime/set_paths_1.4
This should set the paths to the QIIME script

Code to run:
split_otu_table_by_taxonomy.py
-i full_emp_table_w_tax.biom #open source biom file
-L 5 #split taxonomy at Family level
-o ./L5/ #file directory

>> SystemError: Negative size passed to PyString_FromStringAndSize

This is (I think) due to large size of the input file (biom file 2.63 GB). From my correspondence with people in the Knight Lab, the file should need ~30GB of memory to load.

Protocol for Cluster:

ssh -Y abchase@gplogin3.ps.uci.edu
enter login information
pwd #gets cluster directory
exit cluster
from local terminal. you can upload files to the cluster:

scp /Users/MartinyLab/Desktop/alexs-stuff/EMP/EMPopen/full_emp_table_w_tax.biom abchase@gplogin1.ps.uci.edu:/home/abchase

Run QIIME code with cluster file directory

Tuesday, December 9, 2014

BACE - Isolate Strains

12/8/2014
Got done streaking the cultures grown on BACE media (n=39). Took no cultures from 1:10000 dilutions

12/9/2014
Got done streaking the cultures grown on Loma Ridge media (n=40). Took no cultures from 1:10000 dilutions

Monday, December 8, 2014

Curto - Kristen's Isolates

Need to find Kristen's Curtobacterium isolates. Jen sent spreadsheet with isolates that have been deep frozen "~/Documents/Research/m.curtobacterium/bacterial-strains/bacterial-cultures.xlsx"

From Lab Intranet, strains to consider (n=9):

109
115
136
145
163
171
183*
190*
213**

*originally classified as Okibacterium in Kristen's spreadsheet
**not listed in spreadsheet

Kristen says the spreadsheet in outdated but Intranet should be correct.

Streaked strains on to new LB plates and, eventually, sequence 16S to verify that they are Curtobacterium

Thursday, December 4, 2014

BACE - Culture litter

Took Boston litter and ran through autoclaved sieves (2000 um -> 250 um -> 25 um)

***NEXT TIME - GRIND UP LITTER BEFOREHAND

Scraped water and residue in bottom two filters into 50mL conicals
Add litter residue to vacuum filter (no vacuum attached) with 100 um filter
Rinse conicals 2x with autoclaved DI H2O
Total of 200 mL of litter residue and add to new set of 50mL conicals
Dilute each tube to 1x, 1:100, 1:1000, 1:10000
Plate 100 uL of each dilution on media plates:

For this experiment, plated on both Loma Ridge Media and BACE Media

Tuesday, December 2, 2014

EMP Biom Files Pt. V

Still working on open source files. not really sure how to access array data from hdf5 files

However, wrote short code to organize the 2 OTUs from the closed_ref_emp_table to combine with merged mapping file:

import os
import csv

mydir = os.path.expanduser("~/Desktop/alexs-stuff/EMP/")

in_file = mydir + "EMP_10k_merged_mapping_final.txt" #master mapping file

#need txt file with sample ids that had curto hits
wanted_file = mydir + "EMPclosed/sample-ids-curto.txt"

out_file = mydir + "EMPclosed/curto-samples.csv"

wanted = set()

with open(wanted_file) as f:
for line in f:
line = line.strip()
if line != "":
wanted.add(line)

count = 0

with open(in_file, "rb") as tsvin, open(out_file, "wb") as csvout:
tsvin = csv.reader(tsvin, delimiter = '\t')
csvout = csv.writer(csvout)

for row in tsvin:

if row[0] in wanted:
count = count + 1
csvout.writerows([row])

print "Converted %i records" % count

Output looks like this in excel after some editing:
Total samples: 136 with 111 in the merged mapping file

Friday, November 21, 2014

EMP Biom Files Pt. IV

Got in touch with Daniel MacDonald from the Knight Lab:

Sent him the full_emp biom file and he said it is fine but takes about ~30GB to parse (really prohibitive). Converted the open reference biom file into hdf5 format:

ftp://thebeast.colorado.edu/pub/full_emp_table_w_tax.hdf5

Wrote the following code. Only outputs one column (OTUs), but did confirm that curt OTUs are present in the file

import os

import h5py

mydir = os.path.expanduser("~/Desktop/alexs-stuff/")

in_file = mydir + "EMP/EMPopen/full_emp_table_hdf5.h5"

wanted_file = mydir + "EMP/greengenes-curto-only.txt"

out_file = mydir + "EMP/emp-curto-only.txt"

wanted = set()

with open(wanted_file) as f:

for line in f:

line = line.strip()

if line != "":

wanted.add(line)

hdf5_file = h5py.File(in_file, "r")

count = 0

with open(out_file, "w") as h:

for keys in hdf5_file["observation"]["ids"]:

if keys in wanted:

count = count + 1

h.write(keys + "\n")

print "Converted %i records" % count

hdf5_file.close()

Monday, November 17, 2014

EMP Biom Files Pt. III

Got in touch with Sean Gibbons and he was able to forward some code:
https://github.com/klocey/rare-bio/blob/master/tools/ConvertBiom/ConvertBiom.py
***script scans through giant biom file in smaller pieces, rather than loading entire file into memory

Output is a sparse abundance matrix
each row is: OTU, site, number of reads

Example (first 10 lines from open reference biom file):
0 0 7.0
0 1 10.0
0 2 13.0
0 3 7.0
0 4 2.0
0 5 3.0
0 6 3.0
0 7 3.0
0 158 320.0
0 159 32.0

Not really sure how to interpret data

Friday, November 14, 2014

EMP Biom Files Pt. II

***ALL DONE ON THE MAC IN THE LAB***

Need to make biom file into classic format to pull out Curto files
Should look something like:

Sample

Taxonomy

OTU 1

OTU 2

…

OTU n

Biom Convert

biom convert
-i full_emp_table_w_tax_closedref.biom
-o full_emp_closedref_taxonomy.txt
--biom-to-classic-table
--header-key taxonomy

Generated .txt file but too large to export into Excel - ERROR - not enough memory

Need to breakdown master .biom file:

split_otu_table_by_taxonomy.py
-i full_emp_table_w_tax_closedref.biom
-L 3 #level3 taxonomic split (class level)
-o ./L3/

Need to split further - maybe at L5:

split_otu_table_by_taxonomy.py
-i full_emp_table_w_tax_closedref.biom
-L 5 #level5 taxonomic split (family level)
-o ./L5/

Problem: only 2 Curto OTUs present in outputted .biom file. Asked Sean Gibbons what he thought:
"Yep, any of the OTUs with 'New' in the name did not hit the reference database, so you won't find them in the closed ref table. Number-only labels are Greengenes IDs, and those should all be in the closed ref table."

So - try again with open reference database? crashed last time when I ran previous code on the open reference biom file (see Pt I)
RESULT: SystemError: Negative size passed to PyString_FromStringAndSize

^Probably due to too large of input file
full_emp_table_w_tax.biom is 2.63 GB - probably crashes as a security measure

Tuesday, November 11, 2014

EMP Biom Files

Not too sure what to do with .biom files from S.Gibbons

Two files:

full_emp_table_w_tax_closedref.biom
full_emp_table_w_tax.biom

Need to figure out how to pull Curtobacterium metadata from above master files

***Neither attempt has been able to utilize the open reference .biom file - ERROR***

Attempt 1:

QIIME - filter_samples_from_otu_table.py

Under "List-based Filtering":

-i full_emp_table_w_tax_closedref.biom
--sample_id_fp curto-only.txt

RESULT: nothing
PROBLEM: curto-only.txt contains OTUs, not individual samples

Attempt 2:

QIIME - filter_otus_from_otus_table.py

Use feature to extract Curtobacterium OTUs

-i full_emp_table_w_tax_closedref.biom
-e curto.only.txt #this excludes samples from new .biom
--negate_ids_to_exclude

RESULT: generates new .biom file
PROBLEM: I think it only contains a handful of OTUs, or not working?

Summary table from .biom

Num samples: 15481
Num observations: 2
Total count: 197
Table density (fraction of non-zero values): 0.005

Compared to Summary table from master .biom

Num samples: 15481
Num observations: 69444
Total count: 654448644
Table density (fraction of non-zero values): 0.016

Generated by "biom summarize-table" function

EMP Update

I was able to figure out which OTUs from the rep_set file were Curtobacterium:

Searched taxonomic assignment file from S.Gibbons for "Microbacteriaceae" n=2713

searchfile = open("rep_set_tax_assignments.txt", "r")
for line in searchfile:
if "f__Microbacteriaceae" in line: print line
searchfile.close()

Created a smaller fasta file by pulling out Microbacteriaceae sequences from giant 'rep_set.fna' file from S.Gibbons

from Bio import SeqIO
fasta_file = "rep_set.fna" #input fasta file
wanted_file = "microbacteriaceae-only.txt" #input interesting sequence IDs, one per line
result_file = "microbacteriaceae-only.fasta" #output fasta file
wanted = set()
with open(wanted_file) as f:
for line in f:
line = line.strip()
if line != "":
wanted.add(line)
fasta_sequences = SeqIO.parse(open(fasta_file),'fasta')
count = 0
with open(result_file, "w") as f:
for seq in fasta_sequences:
if seq.id in wanted:
count = count + 1
SeqIO.write([seq], f, "fasta")

print "Coverted %i records" % count

QIIME - assign_taxonomy.py on new 'microbacteriaceae-only.fasta'

Aligned with GreenGenes core set (same reference as GenBank protocol)

Performed above procedure to generate 'curtobacterium-only.fasta' n=53

Monday, November 10, 2014

BACE - Leaf Litter

Jen contacted Jeff Dukes at Purdue to get leaf litter from their grassland site in Boston.

Hopefully, this will be shipped next week (11/17).
***Claudia sent them a box on 11/13/14***

Need to find the leaf litter media from lab intranet (Kristen could help).

Found the following:

- Grind litter for 30 seconds to break into smaller chunks. Continue until you have ~200ml of ground litter.

- Add litter and 1 liter of DI water to large flask. Cover top with foil.

- Place on stir plate for 24 hours.

- Allow litter to settle for 24-48 hours.

- Decant liquid (siphon or scoop) into clean flask (you should have ~800 ml of media).

- Filter media through 100 μm, 8 μm, 3 μm, and 0.8 μm membranes (I use larger sizes first to decrease the use of expensive 0.8 μm filters).

- Transfer media into autoclavable jug. Add 15g agar and fill with DI water until final volume reached 1 litter.

- Autoclave (Liquid cycle)

Earth Microbiome (EMP)

EMP has been down for months. Trying to get access to their databases.
Heard from EMP: rebuilding database. any day now it will be up and running

Got access to the EMP files from Jack Gilbert and Sean Gibbons

open reference OTU table (.biom)
closed reference OTU table (.biom)
rep sequences (.fna)
phylogenetic tree (.tre)
metadata file (.txt)
taxonomic assignments (.txt) - from emp_10k_rdp

Wednesday, October 29, 2014

Genbank - Phylogeny (Updated)

I combined the Metadata into the phylogeny to show that Curtobacterium displays a degree of niche specificity

Saturday, October 25, 2014

Genbank - OTU specialization

Go through each OTU and see whether there is a habitat specification
Compare to phylogeny

Thursday, October 16, 2014

Genbank - Relate Metadata to Phylo

Use isolation source (extracted from GenBank files using extract-data-from-genbank.py) to see what habitat each sequence was obtained from.

Problem - most sequences do not have adequate information in iso_source to sufficiently conclude where the sequence originated
Use the title of the paper (listed in GenBank file) to lookup paper

Find geographic location and origin of sequence in Methods Section

Time intensive - better way to do this?

Categorize the sequences into either Terrestrial, Aquatic, or Air-borne

Subcategorize into various fields listed in excel doc

BLAST-gg-aligned-with-otus.xlsx

Thursday, October 9, 2014

Genbank - Curto Results File

Took master file BLAST-combined.fasta and needed to filter out curto sequences

Build algorithm to sort through file and pull out curto sequences and write in new file

Make a reference text file with curto accession numbers

curto-accession-numbers.txt

Run code to make new curto only file

curto-only2.py

Problem - new file had >4000 sequences (should be 982)

Multiple duplicate accession numbers - need to remove
Build algorithm to keep unique accession numbers

duplicate-removal.py

All curto and frigo bacteria -> curto-and-frigo-only.fasta

Added outlier sequence (AB695377.1 Sediminihabitans luteus) for phylo reference

curto-and-frigo-only-with-outlier.fasta

Create OTUs within curto and frigo genera

Used QIIME pick_otus.py

Use default confidence intervals (97% (n = 41))
Use curto-and-frigo-only-with-outlier.fasta as input file

curto-and-frigo-only-with-outlier_otus.txt
Generated biom file - not important with such closely related taxon

otu-table.biom

Pick representative sequence for each OTU

pick_rep_set.py
rep_set.fna

Assign Taxonomy to each rep set to make sure everything has worked so far

assign_taxonomy.py
/taxonomy-results/rep_set_tax_assignments.txt

Must align multiple rep sequences to template - greengenes core database (16S gene)

align_seqs.py
Use PYNAST with min length of 75% of the median sequence length

Filter alignment (filter_alignment.py)

Remove positions which are gaps in every sequence (common for PyNAST, as typical sequences cover only 200-400 bases, and they are being aligned against the full 16S gene)
Removed some OTUs due to failure to align (moved to new file):

OTU2
OTU3
OTU4
OTU8
OTU10
OTU11
OTU26
OTU30
OTU37
OTU38
OTU39
OTU40

Removal of these OTUs reduced the overall number of samples by 50
Should have 933 samples left in 30 OTUs

Make phylogeny - newick file

make_phylogeny.py
Need to reroot file (in FigTree) for outlier

For Reference: QIIME Review

Genbank - Curto Only Fasta File

1. Take master fasta file (BLAST-combined.fasta)
2. Need to extract only curto and frigo taxonomic alignments
3. Create a .txt file with Accession Numbers
a. Sort through BLAST-combined-curto_tax_assignments.txt for curto and frigo
i. Above file was generated from QIIME assign_taxonomy.py
b. Add accession numbers of only curto and frigo and create curto-accession-numbers.txt
4. Run curto-only2.py to cross-reference .txt file to master .fasta file
a. Basically, code sorts through BLAST-combined.fasta and pulls out the information if the accession number is in the curto-accession-numbers.txt file
b. PROBLEM: program adds ALL matching accession numbers (n = 4355, should be n = 982)
i. curto-and-frigo-only-with-dups.fasta
c. The extra sequence data is from duplicate accession numbers - need to filter out
5. Run duplicate-removal.py to filter out duplicate accession numbers, not duplicate sequences
6. FINALLY, have a fasta file with only curto and frigo sequences (n = 982 - verified)
a. curto-and-frigo-only.fasta

Genbank - Protocol for Metadata extraction from GenBank

Protocol for Curto Sequences

1. BLAST GreenGenes Rep Sequences and take top 5000 hits per sequence blasted
2. Query search for "microbacteriaceae curtobacterium 16S ribosomal RNA gene"
a. Returned 1255 results
b. Concatenate results onto GG rep sets
3. Created GenBank file with all results (n = 41246)
a. combined-curto.gb
4. Run extract-data-from-genbank.py and export results to .csv file
a. Took accession number, Genbank ID, title, isolation source, host, and rep sequence
b. Tallied number of unique records (n = 11484)
5. Convert .gb to .fasta file using gb-to-fasta.py
6. Use QIIME to assign-taxonomy.py using PYNAST
7. Add taxonomic information to .csv file
8. Delete duplicate accession numbers and align taxonomic information with genbank info
a. Created master sheet with (n = 11419) sequences that aligned with GreenGenes database
b. Had 9237 isolation sources
c. Excel - Duplicate Removal
9. Took accession numbers that aligned with curto (n = 959) and isolation sources (n = 736)
***NOTE*** A lot of sequences only aligned to the Family level
Sample below of information extracted - master file: BLAST-gg-aligned.xlsx

10. Run sequence-cleaner.py and export list of accession numbers with get-accession.py for reference of which sequences were duplicates
a. List of duplicate sequences: duplicate-BLAST-sequences.xlsx

Genbank - GreenGenes Curto Rep Sequences

GreenGenes Rep Sequences

583016 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>583016
GAGTTTGATCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGATGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGACGGCCGATCGCATGGTCTGGTCGTGGAAAGATTTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGAAAGCCTGATGCAGCAACGCCGCGTGAGGGACGACGGCCTTCGGGTTGTAAACCTCTTTTAGTAGGGAAGAAGGGAGCTTGCTCTTGACGGTACCTGCAGAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAGAGCTCGTATGCGGTTTGACGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGTAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGAACACCGATGGCGAAGGCAGATCTCTGGGCCGTTACTGACGCTGAGGAGCGAAAGCGTGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATGTACTGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTATACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTATGTTGCCAGCGGTTCGGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTGAGGTCTGCAACTCGACCTCATGAAGTCGGAGTCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTGGCCTAACCCTTGTGGAAGGAGCCGTCGAAGGTGGGATCGGTAATTAGGACTAAGT

173906 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>173906
AGTCGAACGATGATGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTCACACGTGAGTGCACCTGCCCCTGTACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGATCACTGGCCGCATGGTCTGGTGGTGGAAAGATTTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGAAAGCCTGATGCAGCAACGCCGCGTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTTAGTAGGGAAGAAGCGAAAGTGACGGTACCTGCAGAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAGAGCTCGTAGGCGGTTTGTCGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGTAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGAACACCGATGGCGAAGGCAGATCTCTGGGCCGTAACTGACGCTGAGGAGCGAAAGCATGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCATGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATACACCGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTGTACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTATGTTGCCAGCGGGTTATGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGGCTCAGTTCGGATTGAGGTATGCCACTCGACCTCATGAAGTCGGAGTCGCTAGTAAGAGCAGATCAGCAACGCTGCGGTGCAGACGTTACCCGGGCCTTGGAACAACACCGCCCGTACAAGTTCATGAAAGTCGTCACAACCCGAAGCCGGTGGCCTAACCCTTGTGGAAG

4327233 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>4327233
GACGAACGCTGGCGGCGTGCTTAACCGTTGCGAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGTTAGTGGCGAACGGGTGTGTACACTTAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGACTACGGGTCGCATGGCCTGGTGGTGGAAAGATTTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGAAAGCCTGATGCAGCAACGCCGCGTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTTAGTAGGGAAGAAGCGAAAGTGACGGTACCTGCAGAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAGAGCTCGTAGGCGGTTTGTCGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGATAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGAACACCGATGGCGAAGGCAGATCTCTGGGCCGTAACTGACGCTGAGGAGCGAAAGCGTGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATACACCGGTAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTGTACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTATGTTGCCAGCGCGTTATGGCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTGAGGTCTGCAACTCGACCTCATGAAGTCGGAGTCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGGGCCTTGTACACACCACCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTGGCCTAACCCTTGTGAAGGAGCCGTCGAAGGTGGGATCGGTGATTAGGACTAAGTCGTAACAAG

106397 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>106397
AACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGATGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGACGGCCGATCGCATGGTCTGGTCGTGGAAAGATTTTTTGGTTGGGGATGGACTCCCGGCCTATCACCTTGTTGGTGAGGTAATGGCTCACCAAGGCAACAACGGGTACCCGGCCTAAAAGGGTGACCGGCCACACTGGGACTGAAACACGGCCCAAACTCCTACGGGAGGCACCATTGGGGAATATTGCACAATGGGCAAAACCCTGATGCACCAACCCCCCTTGAGGGACAACGGCCTTCGGGTTTTAAACCTCTTTTATTAGGGAAAAAGGGACCTTGCNCTTGACGGTACCTGCAAAAAAACCACCGGCTAACTACTTGCCACCACCCGCGGTAATACTTAGGGTGCAACCTTTTTCCGGAATTATTGGGCTTAAAAACCTCTTAGGCGGTTTGTCCCTTCTGCTGTGAAATCCCAAGGCTCAACCTCGGGCTTGCATTGGGTACGGGCAAACTAAATTGCGGTAGGGGAGATTGGAATTCCTGGTGTACCGGTGGAATGCGCAAATATCAGGAGGAACACCGATGGCGAAGGCARATCTCTGGGCCGTTACTGACGCTGAGGAGCGAAAGCGTGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATATACCGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTATACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTTTATGTTGCCAGCGGTTCGGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTTTCAGTTCGGATTGAGGTCTGCAACTTGACCTCATGAAGTCGGAGTCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTGGCCTAACCCTTGTGGAAGGAGCCGTCGAAGGTGGGATCGGTAATT

2532575 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>2532575
GCGGCGTGCTTAACACATGCAAGTCGAACGATGATCAGGAGCTTGCTCCTGTGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACNGGATATGACGGCCGATCGCATGGTCTGGTCGTGGAAAGATTTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGCAAGCCTGATGCAGCAACGCCGCGTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTTAGTAGGGAAGAAGCGAAAGTGACGGTACNTGCAGAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAGAGCTNGTAGGCGGTTTGTCGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGTAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGAACACCGATGGCGAAGGCAGATCTCTGGGCCGTAACTGACGCTGAGGAGCGAAAGCGTGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCACGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATATACCGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTATACAGGTGGTGCATGGTNGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCNTTCTATGTTGCCAGCGGTTCGGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTGAGGTCTGCAACTCGACCTCATGAAGTCGGAGTCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTGGCCTAACCCTTGTGGAAGGAGCCGTCGAAGGTGGGATCGGTGATTAGGACTAAGTCGTAACAAGGTAGCCGTACCGGAAGGTGCGGCT

849178 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>849178
GAGTTTGATCATGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAAGTCGAACGATGATCACGAGCTTGCTCCTGTGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACCACGTCTAATACTGGATATGATCGCTGGCCGCATGGTCTGGTGGTGAAAAGATTTTTTGGTTGGGAATGGACTCCCGGCCTATCACCTTGTTGGTGAGGTAATGGCTCACCAAGGCAACAACGGGTAGCCGGCCTGAAAGGGTGACCGGCCACACTGGAACTGAAACACGGCCCAAACTCCTACGGGAGGCAGCATTGGGAAATATTGCACAATGGGCGAAAGCCTGATGCACCACCCCGCCGTGAGGAATGACGGCCTTCGGGTTGTAAACCTCTTTTATTAGGGAAAAACCAAAAGTGACGGTCCCTGCAAAAAAAGCACCGGCTAACTACTTGCCACCAGCCGCGGTAATACTTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAAAGCTCGTAGGCGGTTTGTCGCGTCTGCTGTGAAATCCCAAGGCTCACCCTCGGGCTTGCATTGGGTACGGCCAAACTAAATTGCGGTAGGGAAGATTGAAATTCCTGGTGTACCGTGTGAAATGCGCAATATATCAGGAGGAACACCGATGGCAAAGGCAGATCTCTGGGCCTTAACTGACCCTAAGAAGCGAAACCTTGGGGGAGCGAACAGGATTAAAATACCCTGGTAGTCCACGCCTAAAAACGTTGGCCGCTAGATGTAGGGACCTTTCCACGTTTCTGTGTGGTAGCTAACCCATTAAGCGCCCCGCGTAGGGAGTACGGCCGCAAGGCTATAACTCAAAGGAATTGACGGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGGGAAGAACCTTACCAAGGCTTGACATCCACCGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTGTACAGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAATCCTCGTTCTATGTTGCCAGCGCGTTATGGCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATCCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTTAGGTATGCAACTCGACCTCATTAAGTCGGAGTCGTTAGTAATCGCAGATCAGCAATCGGTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCAAGTCAAGAAAGTCGGTAACACCCGAAGACCGGTGGCCTAACCCCTTGTGGAAGGAGCCGTCGAAGGTGGGATCCGGTGATTAGGACTAAGTCGTAACAAGGTAGCCGTA

4432662 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>4432662
AACGATGATGCCNAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGATCACTGGCCGCATGGTCTGGTGGTGGAAAGATTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGGTGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACAATGGGCGAAGGCCTGATGCAGCAACGCCGCCTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTAGTAGGGAAGAAGCGAAAGTGACGGTACCTGCAGAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGTGCAAGCGTTGTCCGGAATTATTGGGCGTAAAGAGCTCCTAGCCGGTTTGTCGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGTAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGGGCACCGATGGCGAAGGCAGATCTCTGGGCCGTAACTGACGCTGAGGAGCGAATGCATGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCATGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGCCGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGCCCGCACAAGCGGCGGAGCATGCGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATACACCGGAAACGGCCAGAGATGGTCGCCCCCGGGTGGTCGGTGTACTGGTGGTGCATGGTTGTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTCGTTCTATGTTGCCAGCGGGGTTATGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCGTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTGAGGTCTGCAACTCGACCTNATGAAGTCGGAGNNNCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGNCCTTGTACACACCGCCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTNNCCTAACCCTGCGGAAGNAGCCGTCGAAGGTG

404720 k__Bacteria; p__Actinobacteria; c__Actinobacteria; o__Actinomycetales; f__Microbacteriaceae; g__Curtobacterium; s__

>404720
CATGCAAGTCGAACGATGATGCCCAGCTTGCTGGGTGGATTAGTGGCGAACGGGTGAGTAACACGTGAGTAACCTGCCCCTGACTCTGGGATAAGCGTTGGAAACGACGTCTAATACTGGATATGATCACTGGCCGCATGGTCTGGGGGTGGAAAGATTTTTTGGTTGGGGATGGACTCGCGGCCTATCAGCTTGTTGGTGAGGTAATGGCTCACCAAGGCGACAACGGGTAGCCGGCCTGAAAGGGTGACCGGCCACACTGGGACTGAAACACGGCCCAAACTCCTACGGGAGGCAGCAGGGGGGAATATTGCACAATGGGCGAAAGCCTGATGCAGCAACGCCGCGTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTTAGTAGGGAAAAAGCGAAAGTGACGGTACCTGCAAAAAAAGCACCGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGGGGCAAGCGTTGTCCGGGGAATTATTGGGCGTAAAGAGCTCGTAGGCGGTTTGTCGCGTCTGCTGTGAAATCCCGAGGCTCAACCTCGGGCTTGCAGTGGGTACGGGCAGACTAGAGTGCGGTAGGGGAGATTGGAATTCCTGGTGTAGCGGTGGAATGCGCAGATATCAGGAGGAACACCGATGGCGAAGGCAGATCTCTGGGCCGTAACTGACGCTGAGGAGCGAAAGCATGGGGAGCGAACAGGATTAGATACCCTGGTAGTCCATGCCGTAAACGTTGGGCGCTAGATGTAGGGACCTTTCCACGGTTTCTGTGTCGTAGCTAACGCATTAAGCGCCCCGCCTGGGGAGTACGGCCGCAAGGCTAAAACTCAAAGGAATTGACGGGGGCCCGTCACAAGCGGCGGAGCATAGCGGGATTAATTCGATGCAACGCGAAGAACCTTACCAAGGCTTGACATACACCGGAAACGGCCAGAGATGGTCGCCCCCTTGTGGTCGGTGTACAGGTGGTGCATGGTTGTCGTCCAGCTCGTGTCGTGAGATTGTTGGGTTAAGTCCCGCAACGAGCCGCAACCCTCGTTCTATGTTGCCAGCGGGTTATGCCGGGGACTCATAGGAGACTGCCGGGGTCAACTCGGAGGAAGGTGGGGATGACGTCAAATCATCATGCCCCTTATGTCTTGGGCTTCACGCATGCTACAATGGCCGGTACAAAGGGCTGCGATACCGTAAGGTGGAGCGAATCCCAAAAAGCCGGTCTCAGTTCGGATTGAGGTCTGCAACTCGACCTCATGAAGTCGGAGTCGCTAGTAATCGCAGATCAGCAACGCTGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCAAGTCATGAAAGTCGGTAACACCCGAAGCCGGTGGCC