assembling two haplotype in example1_simple_snp

29 views

Skip to first unread message

Kshitij Tayal

unread,

Oct 12, 2015, 7:14:38 PM10/12/15

to cortex_var

Hi,

I'm a newbie to Cortex_var and I've run into some confusion which I'm not sure how to resolve. I am under the impression that CORTEX assembles (http://cortexassembler.sourceforge.net/) a genome segment from a fastq file, with and without the help of reference alignment.In example1_simple_snp we are given a list of reads under reads.fasta. When i ran

../../bin/cortex_var_31_c1 --se_list list_reads --kmer 31 --max_read_len 100 --format FASTA --detect_bubbles1 0/0 --output_bubbles1 bubbles_called_from_reads

it gave me this output as mentioned in the readme file

>var_1_5p_flank length:259 average_coverage:18.47 min_coverage:1 max_coverage:46 fst_coverage:1 fst_kmer:TGAGTCACTGCATATACATACTCACAACTTT fst_r: fst_f:A lst_coverage:35 lst_kmer:ATATAATTATGAGTCATTATTTTTGTTTTGC lst_r:G lst_f:AC

TGAGTCACTGCATATACATACTCACAACTTTATTCTATAATGTAATATTCTATAAAGTAGCTGTATCAGTTTATACTTTAACCAGTAATGGACAAGATTTTCTATTACTTCCCATCTTTGTTATTACTTTTAGACTCTAACTTTTATCAGGCTCATGGATGTAAAAAGCATCTCAGGGTGGTTTTAATTTGCATTTATCTGCTCATCTATGAAGATGAGCTTCTTTTCATATAATTATGAGTCATTATTTTTGTTTTGC

>branch_1_1 length:32 average_coverage:22.81 min_coverage:14 max_coverage:32 fst_coverage:35 fst_kmer:ATATAATTATGAGTCATTATTTTTGTTTTGC fst_r:G fst_f:AC lst_coverage:47 lst_kmer:TTCTTTTGTTTATGCATTTTGCTTGTTCTAT lst_r:GT lst_f:G

ATTCTTTTGTTTATGCATTTTGCTTGTTCTAT

>branch_1_2 length:32 average_coverage:15.32 min_coverage:12 max_coverage:20 fst_coverage:35 fst_kmer:ATATAATTATGAGTCATTATTTTTGTTTTGC fst_r:G fst_f:AC lst_coverage:47 lst_kmer:TTCTTTTGTTTATGCATTTTGCTTGTTCTAT lst_r:GT lst_f:G

CTTCTTTTGTTTATGCATTTTGCTTGTTCTAT

>var_1_3p_flank length:352 average_coverage:29.58 min_coverage:3 max_coverage:53 fst_coverage:47 fst_kmer:TTCTTTTGTTTATGCATTTTGCTTGTTCTAT fst_r:GT fst_f:G lst_coverage:2 lst_kmer:ACCACTTGTTCTATTACTGCTGTAACAAATT lst_r:T lst_f:

GTCTTATTTTTCCTGTTGATTTTTGGGAGTTCATATATATTCTAAATGTATATTTATTCACTTATATATATGTTGTAAATATTACAGTTTATGATTTGTCACCTTATGATATCTTCCAAATAGAGAAGCTTTATATTTTGATGTAGTCATATGTTCATTTTTCCTCCTTAATGTTTGTTTTTCTTGGTTCTATGACCTACCAAAAGTAACAAAAATTCTCATTTATTTTTAATCTAAATGTTTTAAGTATTTTCCTGGAATTCACCTTGAATTGATTTCTATTGGAGATAGGTATCCAATCTAATTTGCCTCATATGGATAACCACTTGTTCTATTACTGCTGTAACAAATT

I don't understand what to make out of this. In other words the output doesn't make any sense to me . Can somebody help me in decodify it in respect to the haplotype? What i want is that it should assemble and return me the two haplotype i.e. one from father and other from mother. In other words i want the two assembled genome from the fasta file.

>first_haplotype This is the chromosome that comes from the father.

AATTTGTTACAGCAGTAATAGAACAAGTGGTTATCCATATGAGGCAAATTAGATTGGATACCTATCTCCAATAGAAATCAATTCAAGGTGAATTCCAGGAAAATACTTAAAACATTTAGATTAAAAATAAATGAGAATTTTTGTTACTTTTGGTAGGTCATAGAACCAAGAAAAACAAACATTAAGGAGGAAAAATGAACATATGACTACATCAAAATATAAAGCTTCTCTATTTGGAAGATATCATAAGGTGACAAATCATAAACTGTAATATTTACAACATATATATAAGTGAATAAATATACATTTAGAATATATATGAACTCCCAAAAATCAACAGGAAAAATAAGACATAGAACAAGCAAAATGCATAAACAAAAGAAGGCAAAACAAAAATAATGACTCATAATTATATGAAAAGAAGCTCATCTTCATAGATGAGCAGATAAATGCAAATTAAAACCACCCTGAGATGCTTTTTACATCCATGAGCCTGATAAAAGTTAGAGTCTAAAAGTAATAACAAAGATGGGAAGTAATAGAAAATCTTGTCCATTACTGGTTAAAGTATAAACTGATACAGCTACTTTATAGAATATTACATTATAGAATAAAGTTGTGAGTATGTATATGCAGTGACTCAGCATATTCATTGCTAGT

>second_haplotype. This is the chromosome that comes from the mother. Identical to the father except for a G-->T SNP

AATTTGTTACAGCAGTAATAGAACAAGTGGTTATCCATATGAGGCAAATTAGATTGGATACCTATCTCCAATAGAAATCAATTCAAGGTGAATTCCAGGAAAATACTTAAAACATTTAGATTAAAAATAAATGAGAATTTTTGTTACTTTTGGTAGGTCATAGAACCAAGAAAAACAAACATTAAGGAGGAAAAATGAACATATGACTACATCAAAATATAAAGCTTCTCTATTTGGAAGATATCATAAGGTGACAAATCATAAACTGTAATATTTACAACATATATATAAGTGAATAAATATACATTTAGAATATATATGAACTCCCAAAAATCAACAGGAAAAATAAGACATAGAACAAGCAAAATGCATAAACAAAAGAATGCAAAACAAAAATAATGACTCATAATTATATGAAAAGAAGCTCATCTTCATAGATGAGCAGATAAATGCAAATTAAAACCACCCTGAGATGCTTTTTACATCCATGAGCCTGATAAAAGTTAGAGTCTAAAAGTAATAACAAAGATGGGAAGTAATAGAAAATCTTGTCCATTACTGGTTAAAGTATAAACTGATACAGCTACTTTATAGAATATTACATTATAGAATAAAGTTGTGAGTATGTATATGCAGTGACTCAGCATATTCATTGCTAGT

How to do that using cortex_con. If not then how to accomplish that using other tools.?

Reply all

Reply to author

Forward

0 new messages