Archivos binarios:
Dentro de los archivos ASCII de uso común por los programas de
bioinformática están los siguientes:
Formatos archivos de secuencias:
Tipos de archivos y archivos de secuencias
En computación existen básicamente dos tipos de archivos,
los archivos ascii y los archivos binarios. El vocablo ascii
es un acrónimo para American Standard Code for Information Interchange.
Es un estándar que asigna un valor numérico a cada carácter,
con lo que se pueden representar los documentos llamados de Texto Plano,
es decir, los que son legibles por seres humanos. Los archivos binarios
son todos los demás. Como ejemplos tenemos:
Archivos ascii
Todos estos archivos se caracterizan por tener ciertos formatos distintivos,
que hacen posible su reconocimiento por parte de los
programas de manipulación y análisis de
secuencias como el PHYLIP, el
GCG; entre muchos otros. A
continuación se muestran algunos de los formatos mencionados
señalando cada una de sus características distintivas:
La primera línea del archivo contiene el número de especies
o secuencias a analizar
y luego, el número de caracteres (nucleótidos o aminoácidos)
separados por espacios en blanco (no por
comas). Seguidamente, se debe colocar el nombre o identificador de cada especie
o secuencia
(máximo 10 caracteres) que puede incluir
signos de puntuación y espacios en blanco. Luego debe colocarse la
secuencia en sí; es decir los
caracteres, en código de una letra, correspondientes a la
proteína, molécula de ARN o de ADN.
Las secuencias pueden ser colocadas en columnas
de diez (10) caracteres cada una para facilitar la lectura de las mismas.
Luego puede o no colocarse una línea en blanco separadora entre el
primer y el segundo grupo de secuencias. Es importante que el número de
caracteres de todas las líneas sea igual.
6 39
Archaeopt CGATGCTTAC CGCCGATGCT
Hesperorn CGTTACTCGT TGTCTCTGCC
Baluchith TAATGTTAAT TGTCGATGCT
B. virgin TAATGTTCGT TGTCGAAGCA
Brontosau CAAAACCCAT CATCGTTGCT
B.subtili GGCAGCCAAT CACCGAAGCT
TACCGCCGAT GCTTACCGC
CGTTGTCGTT ACTCGTTGT
AATTGTTAAT GTTAATTGT
CGTTGTTAAT GTTCGTTGT
CATCATCAAA ACCCATCAT
AATCACGGCA GCCAATCAA
El formato especificado arriba se conoce como "intercalado" (o interleaved).
También existe una forma alternativa de estructurar los archivos, que se
conoce como "secuencial", en la cual todos los datos de la primera especie son
presentados, luego los de la segunda especie, y así sucesivamente.
3 39
Archaeopt CGATGCTTAC CGCCGATGCT
TACCGCCGAT GCTTACCGC
Hesperorn CGTTACTCGT TGTCTCTGCC
CGTTGTCGTT ACTCGTTGT
Baluchith TAATGTTAAT TGTCGATGCT
AATTGTTAAT GTTAATTGT
LOCUS
CTRL 1184 bp
mRNA
PRI 19-MAR-1999
DEFINITION Homo sapiens chymotrypsin-like
(CTRL) mRNA.
ACCESSION NM_001907
NID
g4503136
VERSION NM_001907.1
GI:4503136
KEYWORDS .
SOURCE human.
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia;
Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1
to 1184)
AUTHORS Larsen,F.,
Soliheim,J., reseland,J., Thorsen,L., Eriksen,J.A. and
Prydz,H.
TITLE Molecular
cloning and immunological detection of a novel
Chymotrypsin-like pancreatic protease
JOURNAL Unpublished
FEATURES
Location/Qualifiers
source
1..1184
/organism="Homo sapiens"
/db_xref="taxon:9606"
/map="16q22.1"
/clone="C1 to C25"
/tissue_type="pancreas"
/clone_lib="Clontech cDNA lambd_gt11 HL11630"
gene
1..1184
/gene="CTRL"
/db_xref="MIM:118888"
/db_xref="LocusID:1506"
sig_peptide
11..64
/product="chymotrypsin-like"
CDS
11..805
/gene="CTRL"
/EC_number="3.4.21.-"
/codon_start=1
/db_xref="MIM:118888"
/translation="MLLLSLTLSLVLLGSSWGCGIPAIKPALSFSQRIVNGENAVLGS
WPWQVSLQDSSGFHFCGGSLISQSWVVTAAHCNVSPGRHFVVLGEYDRSSNAEPLQVL
SVSRAITHPSWNSTTMNNDVTLLKLASPAQYTTRISPVCLASSNEALTEGLTCVTTGW
GRLSGVGNVTPAHLQQVALPLVTVNQCRQYWGSSITDSMICAGGAGASSCQGDSGGPL
VCQKGNTWVLIGIVSWGTKNCNVRAPAVYTRVSKFSTWINQVIAYN"
misc_feature
65..109
/note="activation peptide"
mat_peptide
110..802
/product="chymotrypsin-like"
polyA_signal
836..841
/note="A, primary"
BASE COUNT
258 a 361 c 307 g
258 t
MVEIVYWSGT GNTEAMANEI EAAVKAAGAD VESVRFEDTN
VDDVASKDVI LLGCPAMGSE
YVKE1
SQLSWKRLLMKGYIPPYKPAVS-----NSMDTSNFDEEFTR-----EKPIDSVVDEYLSES
YVKE1
------QKQF
Symbol comparison table: GenRunData:Pileuppep.Cmp
CompCheck: 1254
GapWeight: 3.000
Pi3k.Msf MSF: 377 Type:
P July 12, 1996 10:40 Check: 167 ..
Name: Tor1_Yeast
Len: 377 Check: 7773 Weight: 1.00
//
1
50
51
100
Symbol comparison table: GenRunData:blosum62.cmp
CompCheck: 6430
seqlist.msf MSF: 167
Type: P September 5, 1997 15:15
Check: 8487 ..
Name: perro Len: 167 Check: 7676 Weight:
1.00
//
1
50
51
100
{
{
ORIGIN
1 atctgccacg atgttgctgc tcagcctgac cctaagcctg gttctcctcg gctcctcctg
61
gggctgcggc attcctgcca tcaaaccggc actgagcttc agccagagga ttgtcaacgg
121 ggagaatgca
gtgttgggct cctggccctg gcaggtgtcc ctgcaggaca gcagcggctt
181 ccacttctgc
ggtggttctc tcatcagcca gtcctgggtg gtcactgctg cccactgcaa
241 tgtcagccct
ggccgccatt ttgttgtcct gggcgagtat gaccgatcat caaacgcaga
301 gcccttgcag
gttctgtccg tctctcgggc cattacacac cctagctgga actctaccac
361 catgaacaat
gacgtgacgc tgctgaagct cgcctcgcca gcccagtaca caacacgcat
421 ctcgccagtt
tgcctggcat cctcaaacga ggctctgact gaaggcctca cgtgtgtcac
481 caccggctgg
ggtcgcctca gtggcgtggg caatgtgaca ccagcacatc tgcagcaggt
541 ggctttgccc
ctggtcactg tgaatcagtg ccggcagtac tggggctcaa gtatcactga
601 ctccatgatc
tgtgcaggtg gcgcaggtgc ctcctcgtgc cagggtgact ccggaggccc
661 tcttgtctgc
cagaagggaa acacatgggt gcttattggt attgtctcct ggggcaccaa
721 aaactgcaat
gtgcgcgcac ctgctgtgta tactcgagtt agcaagttca gcacctggat
781 caaccaggtc
atagcctaca actgagctca ccacaggccc tccccagctc aacccattaa
841 agacccaggc
cctgtcccat catgcattca tgtctgtctt cctggctcag gagaaagaag
901 aggctgttga
gggtccgact ccctacttgg acttctggca cagaaggggc tgagtgactc
961 cttgagtagc
agtggctctt cctagagtag ccatgccgag gccggggccc ccacccctcc
1021 tccagggcaa
ccccttggtc ctacagcaag aagccagaac tgttggaatg aatggcagcc
1081 ctccctggag
aggcagcctg tttactgaat acagaggata cgtttacaaa ctgaatacgc
1141 ataataaata
actgcacatt ctccatccaa aaaaaaaaaa aaaa
//
ID ECGOR
standard; DNA; PRO; 1500 BP.
AC M13141;
SV M13141.1
NI g146247
DT 19-SEP-1987 (Rel. 13, Created)
DT 19-APR-1990 (Rel. 23, Last
updated, Version 1)
DE E.coli gor gene encoding
glutathione reductase, complete cds.
KW flavoprotein disulfide
oxidoreductase; glutathione reductase; gor gene.
OS Escherichia coli
OC Bacteria; Proteobacteria;
gamma subdivision; Enterobacteriaceae;
OC Escherichia.
RN [1]
RP 1-1500
RX MEDLINE; 86243410.
RA Greer S., Perham R.N.;
RT "Glutathione reductase
from Escherichia coli: ...
RL Biochemistry 25:2736-2742(1986).
DR SWISS-PROT; P06715; GSHR_ECOLI.
CC Potential -35 and -10 regions
are located at positions 21-26 and
CC 43-48 respectively, and
a potential stem-loop terminator is found
CC at 1438-1468.
XX
FH Key
Location/Qualifiers
FT source
1..1500
FT
/organism="Escherichia coli"
FT
/db_xref="taxon:562"
FT CDS
79..1431
FT
/db_xref="PID:g146248"
FT
/db_xref="SWISS-PROT:P06715"
FT
/note="glutathione reductase (EC 1.6.4.2)"
FT
/transl_table=11
FT
/protein_id="AAA23926.1"
FT
/translation="MTKHYDYIAIGGGSGGIASINRAAMYGQKCALIEAKELGGTCVNV
FT
GCVPKKVMWHAAQIREAIHMYGPDYGFDTTINKFNWETLIASRTAYIDRIHTSYENVLG
FT
EKIVGIHGIGFGMDEMLQGFAVALKMGATKKDFDNTVAIHPTAAEEFVTMR"
XX
SQ Sequence 1500 BP; 369 A;
375 C; 420 G; 336 T; 0 other;
GGAGTAATTG CAGCCATTGC
TGGCACCTAT TACGTCTCGC GCTACAATCG CGGTAATCAA 60
CGATAAGGAC ACTTTGTCAT
GACTAAACAC TATGATTACA TCGCCATCGG CGGCGGCAGC 120
GGCGGTATCG CCTCCATCAA
CCGCGCGGCT ATGTACGGCC AGAAATGTGC GCTGATTGAA 180
GCCAAAGAGC TGGGCGGCAC
CTGCGTAAAT GTTGGCTGTG TGCCGAAAAA AGTGATGTGG 240
CACGCGGCGC AAATCCGTGA
AGCGATCCAT ATGTACGGCC CGGATTATGG TTTTGATACC 300
ACTATCAATA AATTCAACTG
GGAAACGTTG ATCGCCAGCC GTACCGCCTA TATCGACCGT 360
//
>P1;FXME
flavodoxin - Megasphaera elsdenii
C;Species: Megasphaera elsdenii
C;Date: 13-Jul-1981 #sequence_revision
13-Jul-1981 #text_change 05-Apr-1995
C;Accession: A92137; A92156; A00331
R;Tanaka, M.; Haniu, M.; Yasunobu, K.T.;
Mayhew, S.; Massey, V.
J. Biol. Chem. 248, 4354-4366, 1973
A;Reference number: A92137; MUID:73197809
A;Accession: A92137
A;Molecule type: protein
A;Residues: 1-77,'GKKLK',83-137 <TAN>
A;Experimental source: strain LC1
A;Contents: annotation
C;Comment: Some anaerobic bacteria, when
grown on iron-deficient media, produce flavodoxin instead of ferredoxin,
which flavodoxin can replace in certain reactions.
C;Superfamily: flavodoxin; flavodoxin
homology
F;4-135/Domain: flavodoxin homology <FLX>
>P1;FXME
ELEDSVVEPF FTDLAPKLKG KKVGLFGSYG WGSGEWMDAW
KQRTEDTGAT VIGTAIVNEM
PDNAPECKEL GEAAAKA*
>SASP of: sap3 check: -1
from: 1 to: 279 July 29, 1996 13:56
MTDNLTTTHGGSTTLELLAQYNDHRSKKDKSIEHIEKGTCSGKERNPSYDEIFTENIKLK
LQVQEYETEIESLEKVIDMLQKNREASLEVVLEQVQNDSRDSYVNDQSFVLPPRSAERKA
HIKSLNLPIPTLSPPLQQGSDVALETSVTPTVPQIGVTSNTSISRKHLQNMILNDEIEAN
SSFSSPKIINRSVSSPTKIHSEQLASPAASVTYTTSRITIKSPNKGSKSPLQERLRSPQN
PNRMTAVINNHLHSPLKASTSNNLDELTESKSQQLTNDAIQKNDRVYSSITSSAYTTGTP
TSAAKSPSSLLEVKEGENKALGFSPASKEKLDDFTQLLDSSFGEEDLVNTDSKDPLSIKS
CLUSTAL W(1.60) multiple sequence alignment
YVKE2
KDISWKKLLLKGYIPPYKPIVK-----SEIDTANFDQEFTK-----EKPIDSVVDEYLSAS
YVKE_H
RRIDWEKLENREIQPPFKPKVC------GKGAENFDKFFTR-----GQPVLTPPDQLVIAN
YVKE_M
RSIDWDLLEKKQALPPFQPQIT-----DDYGLDNFDTQFTS-----EPVQLTPDDEDAIKR
*.
.
YVKE2
------QKQF
YVKE_H D-----QSDF
YVKE_M D-----QSEF
* *
PileUp of: @Pi3k.Fil
GapLengthWeight: 0.100
Name: Tor2_Yeast
Len: 377 Check: 8562 Weight: 1.00
Name: Frap_Human
Len: 377 Check: 9129 Weight: 1.00
Name: Esr1_Yeast
Len: 377 Check: 8114 Weight: 1.00
Tor1_Yeast
.......GHE DIRQDSLVMQ LFGLVNTLLK NDSECFKRHL DIQQYPAIPL
Tor2_Yeast
.......GHE DIRQDSLVMQ LFGLVNTLLQ NDAECFRRHL DIQQYPAIPL
Frap_Human .......GHE
DLRQDERVMQ LFGLVNTLLA NDPTSLRKNL SIQRYAVIPL
Esr1_Yeast
.......KKE DVRQDNQYMQ FATTMDFLLS KDIASRKRSL GINIYSVLSL
Tor1_Yeast
SPKSGLLGWV PNSDTFHVLI REHRDAKKIP LNIEHWVML MAPDYENLTL
Tor2_Yeast
SPKSGLLGWV PNSDTFHVLI REHREAKKIP LNIEHWVML MAPDYDNLTL
Frap_Human STNSGLIGWV
PHCDTLHALI RDYREKKKIL LNIEHRIML MAPDYDHLTL
Esr1_Yeast
REDCGILEMV PNVVTLRSIL STKYESLKIK Y....SLKS LHDRWQHTAV
!!AA_MULTIPLE_ALIGNMENT 1.0
PileUp of: @seqlist
GapWeight: 12
GapLengthWeight: 4
Name: gato Len: 167 Check: 7676 Weight:
1.00
Name: conejo Len: 167 Check: 8765 Weight:
1.00
Name: vaca Len: 167 Check: 8735 Weight:
1.00
Name: mono Len: 167 Check: 6585 Weight:
1.00
Name: humano Len: 167 Check: 7528 Weight:
1.00
perro
~~~~~~~~~~V LSPADKTNVK AAWGKVGAHA GEYGAEALER
MFLSFPTTKT
gato
~~~~~~~~~~V LSPADKTNVK AAWGKVGAHA GEYGAEALER
MFLSFPTTKT
conejo ~~~~~~~~~~V
LSAADKTNVK AAWSKVGGHA GEYGAEALER MFLGFPTTKT
vaca
~~~~~~~~~~V LSAADKTNVK AAWSKVGGHA GEYGAEALER
MFLGFPTTKT
mono
~~~~~~~~~VQ LSGEEKAAVL ALWDKV..NE
EEVGGEALGR LLVVYPTWTQ
humano ~~~~~~~~~VH
LTPEEKSAVT ALWGKV..NV DEVGGEALGR
LLVVYPTWTQ
perro
YFPHFDLSH .........G
SAQVKGHGKK VADALTNAVA HVDD..MPNAL
gato
YFPHFDLSH .........G
SAQVKGHGKK VADALTNAVA HVDD..MPNAL
conejo
YFPHFDLSH .........G
SAQVKAHGKK VGDALTLAVG HLDD.L.PGAL
vaca
YFPHFDLSH .........G
SAQVKAHGKK VGDALTLAVG HLDD.L.PGAL
mono
FFDSFGDLI NPGAVMGNPK VKAHGKKVLH
SFGEGVHHLD N...L...KGT
humano FFESFGDLS
TPDAVMGNPK VKAHGKKVLG AFSDGLAHLD
N..L...KGTF
1.- Especificar el
tipo de archivo (!!RICH_SEQUENCE 1.0).
2.- Indicar el inicio de la sección
donde se da toda la información y los datos de la(s) secuencia(s)
("..").
3.- Escribir la secuencia y sus atributos o la información
que se desee colocar sobre ella encerrando esta sección del archivo
entre llaves ("{ .. . . }"), la palabra "sequence" debe aparecer justo
entre la información particular de una secuencia y la secuencia
en sí.
!!RICH_SEQUENCE
1.0
..
{
Clon 5 de la genoteca XL-45 de humano
sequence
AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGA
CTTACATCCT CATTACTATT
CTGCCTAGCA AACTCAAACT ACGAACGCAC TCACAGTCGC
ATCATAATCC TCTCTCAAGG
ACTTCAAACT CTACTCCCAC TAATAGCTTT TTGATGACTT
CTAGCAAGCC TCGCTAACCT
CGCCTTACCC CCCACTATTA ACCTACTGGG
AGAACTCTCT GTGCTAGTAA CCACGTTCTC
CTGATCAAAT ATCACTCTCC
TACTTACAGG ACTCAACATA CTAGTCACAG CCCTATACTC
}
Clon 31 de la genoteca BC-1 de chimpance
sequence
AAGCTTCACC GGCGCAATTA TCCTCATAAT CGCCCACGGA
CTTACATCCT CATTATTATT
CTGCCTAGCA AACTCAAATT ATGAACGCAC CCACAGTCGC
ATCATAATTC TCTCCCAAGG
ACTTCAAACT CTACTCCCAC TAATAGCCTT TTGATGACTC
CTAGCAAGCC TCGCTAACCT
CGCCCTACCC CCTACCATTA ATCTCCTAGG GGAACTCTCC
GTGCTAGTAA CCTCATTCTC
CTGATCAAAT ACCACTCTCC TACTCACAGG ATTCAACATA
CTAATCACAG CCCTGTACTC
}
Clon 107 de la genoteca de gorila
sequence
AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA
CTTACATCAT CATTATTATT
CTGCCTAGCA AACTCAAACT ACGAACGAAC CCACAGCCGC
ATCATAATTC TCTCTCAAGG
ACTCCAAACC CTACTCCCAC TAATAGCCCT TTGATGACTT
CTGGCAAGCC TCGCCAACCT
CGCCTTACCC CCCACCATTA ACCTACTAGG AGAGCTCTCC
GTACTAGTAA CCACATTCTC
CTGATCAAAT ACCACCCTTT TACTTACAGG ATCTAACATA
CTAATCACAG CCCTGTACTC
}
![]()
![]()
Next:Archivos
PostscriptUp:Taller
UNIXPrevious:Formatos
de archivos