1. BIOINFORMATICA

Per bioinformatica intendiamo l'applicazione degli strumenti informatici ai problemi della biologia.
In questo senso comprende:

1) gli strumenti per il gestire ed utilizzare banche dati (principalmente) di sequenze, ma anche
2) tutti gli algoritmi per l'analisi delle sequenze e per la predizione del comportamento delle corrispondenti molecole, e piu' in generale di sistemi biologici (biologia computazionale) ed infine
3) tutti gli strumenti per la condivisione delle informazioni di natura biologica.

2. BANCHE DATI

Le banche dati piu' usate sono quelle di

1) sequenze di proteine e acidi nucleici.

2) strutture biomolecolari o di composti di interesse biomedico

3) pubblicazioni scientifiche in forma di sommario e talvolta in forma integrale.

Oltre a queste ci sono altre banche dati piu' specifiche su singoli organismi o singole classi di biomolecole o ancora di dati termodinamici ed altre ancora. A queste si accede tipicamente facendo una ricerca con parola chiave in uno dei tanti motori di ricerca esistenti o da siti che contengono links di interesse biomedico.

L'accesso ed il recupero di informazione dalle banche dati di sequenze, strutture e pubblicazioni biomediche sono divenute ormai pratiche frequenti e indispensabili alla ricerca in biologia molecolare, biochimica, biofisica, bioetc....

Quasi tutti i servizi di cui parleremo nel seguito sono oggi gestiti dai cosiddetti browsers in maniera grafica. Uno dei browser piu' usati e' Netscape. Questo accetta come input un indirizzio URL e gestisce, con l'ausilio di altri programmi (plug-ins), l'informazione richiesta. Una precisazione importante e' che, rispetto al materiale cartaceo, tutta l'informazione disponibile in rete puo' cambiare indirizzo o (come si dice) non venire piu' mantenuta. Questo e' purtroppo il caso di banche dati o siti informativi curati da singoli gruppi di ricerca. Per questo motivo e i problemi a cio' connessi, alcune grosse istituzioni fungono da riferimento stabile per la bioinformatica.

Fra le piu' importanti ci sono:

National Center for Biotechnology Information

European Bioinformatics Institute

Research Collaboratory for Structural Bioinformatics

Oltre a queste istituzioni ce ne sono altre che gestiscono servizi abbastanza generali da far prevedere che saranno mantenuti e aggiornati in maniera stabile. Fra questi ci sono:

ExPASy (Expert Protein Analysis System) mantenuto dallo Swiss Bioinformatics Institute

Japanese GenomeNet Server mantenuto dall'Institute for Chemical Research in Kyoto (J).

e molte altre a cui si puo' acceder dai links dai questi siti.

Fatte queste precisazioni e' utile distinguere fra banche dati primarie che contengono il dato grezzo con scarse informazioni al contorno e banche dati secondarie, o curate oppure ancora annotate, che contengono il dato sperimentale e varie annotazioni e riferimenti pertinenti.

2.1.1 Banche dati di sequenze di acidi nucleici

A seguito degli sviluppi impressionanti nel sequenziamento genomico, queste stanno diventando sempre piu' importanti e sempre piu' complete. La prima banca dati di questo genere fu realizzata allo European Molecular Biology Laboratory all'inizio degli anni '80

Oggi esiste una collaborazione internazionale, la International Nucleotide Sequence Database Collaboration, che cura lo scambio quotidiano di sequenze fra i tre primi repositori di sequenze di nucleotidi la GenBank (al National Institute of Health, Bethesda, MD), l'EMBL nucleotide database gestito dall'EBI (Hinxton, UK) e la DNA Database of Japan (Mishima, J).

Ognuno di questi tre centri accetta sottomissioni di sequenze, ma tutte e tre offrono, attraverso servizi diversi, la stessa informazione. Prima di vedere come si acceda all'informazione contenuta in banca dati vediamo l'organizzazione di questa informazione nel caso di GenBank, anche se considerazioni simili valgono per EMBL e DDBJ.

L'unita' di informazione di GenBank e' il GenBank Flat File (GBFF) un file che contiene una sequenza di nucleotidi contigui (fino a 350.000) e alcune informazioni relative. Il file consta di tre parti.

1) Header dove ci sono diverse linee informative che riguardano la sequenza in generale:

LOCUS che contiene un identificatore di quella sequenza (all'inizio era legato al significato biologico della sequenza, ma ora tutte le combinazioni di lettere mnemoniche sono esaurite), il numero di nucleotidi, il tipo di molecola (DNA, mRNA, etc.), il codice di divisione (tre lettere con significato tassonomico o comunque di classificazione, come HTG, high throughput genome per le sequenze genomiche o CON per assemblare lunghe sequenze da altre sequenze, ed infine la data di deposito.

DEFINITION che e' spesso l'unica informazione che viene visualizzata in molte applicazioni, come l'allineamento di sequenza.

ACCESSION Il numero di accesso (ottenuto dagli autori all'atto del deposito) e la versione.

VERSION Nel caso la sequenza abbia piu' versioni.

KEYWORDS Parole chiave che dovrebbero condensare il significato biologico della sequenza. Queste vengono compilate con grande attenzione.

SOURCE L'organismo da cui e' stata isolata la sequenza

REFERENCE Le pubblicazioni che descrivono la sequenza e il sequenziamento con riferimento a Medline (la banca dati delle pubblicazioni biomediche)

2) FEATURES dove sono riportate annotazioni (generate spesso in maniera automatica per quanto riguarda le sequenze provenienti dai progetti genoma) riguardo parti della sequenza o il suo prodotto genico. Fra le Features particolarmente importante e' il campo CDS che specifica quale regione nucleotidica codifica per una sequenza proteica. Le sequenze peptidiche di traduzione vengono automaticamente inviate alle banche dati di proteine. La composizione in basi ella sequenza. Occorre tenere presente che la stragrande maggioranza di sequenze proteiche non e' sequenziata direttamente, ma tradotta da sequenze di nucleotidi con conseguenti possibili errori....

3) La sequenza stessa

2.1.2 Banche dati di sequenze di proteine

L'organizzazione di queste banche dati segue regole simili a quelle viste per la GenBank. All'inizio negli anni '60 le sequenze peptidiche vennero raccolte da Dayhoff e collaboratori nell'Atlas of Protein Sequences and Structures che poi divento' la Protein Information Resource (PIR). Attualmente le banche dati di sequenze piu' importanti sono:

PIR - Protein Information Resource, mantenuta dalla National Biomedical Research Foundation a Whashington (DC) in collaborazione con Japan International Protein di Tsukuba (J) e Munich Information Center for Protein Sequences, Martinsried (D).

SwissProt/TrEMBL - Swiss Protein Database mantenuta da A. Bairoch all'Universita' di Geneve (CH). Contiene sequenze determinate direttamente o da traduzione di sequenze nucleotidiche. L'estensione TrEMBL garantisce che anche le ultime sequenze depositate in EMBL e non ancora incluse nella release di SwissProt vengano considerate.

PRFDB - Protein Research Foundation Database, mantenuta dalla Protein Research Foundation a Osaka (J) che contiene sequenze provenienti da sequenziamento diretto, da traduzione di acidi nucleici. Questa banca dati include anche sequenze pubblicate, ma non depositate, che quindi non si trovano in SwissProt o TrEMBL.

2.2 Banche dati di strutture di proteine, acidi nucleici e molecole di interesse biomedico

L'informazione concernente la struttura molecolare viene generalmente codificata in una lista di atomi (indicati con il loro nome, il monomero ed eventualmente la subunita' a cui appartengono) seguiti dalle coordinate x, y e z. Oltre alle coordinate atomiche puo' essere fornita informazione topologica circa i legami chimici fra gli stessi atomi, anche se per strutture standard di proteine e acidi nucleici questa informazione e' omessa perche' di dominio comune. Le Banche dati piu' complete sono:

Protein Data Bank - PDB un tempo al Brokhaven National Laboratory ed ora mantenuta dal National Center for Biotechnology Information. Questa contiene principalmente strutture di proteine, ma anche strutture di proteine ed acidi nucleici e di soli acidi nucleici. Alcune strutture non sono sperimentali, ma ottenute per modellistica.

Nucleic Acid Database, mantenuta dal Nucleic Acid Database Project alla Rutgers University (NJ). Contiene strutture di acidi nucleici e di loro complessi. Questa e' organizzata per categoria di strutture, ad es. single, double, triple stranded DNA etc.

Per entrambe queste banche dati il formato e' quello della PDB. Chiaramente, benche' alcune informazioni circa la struttura siano riportate nelle righe che precedono le coordinate (ad es. sulle regioni in alfa-elica o sui ponti disolfuro etc.) queste informazioni non sono obbligatorie. Quindi e' opportuno avere a disposizione un programma di visualizzazione molecolare.

National Cancer Institute Drug Information System 3D database. Una banca dati che contiene le strutture 3D di piu' di 400000 composti farmaceutici. Questi possono essere confrontati con un farmacoforo al fine di trovare molecole che leghino target molecolari. Dettagli su come sono state costruite le molecole e strumenti per la ricerca in banca dati si trovano nello stesso sito.

2.3 Banche dati di articoli e letteratura scientifica biomedica.

La National Library of Medicine ha sviluppato, in collaborazione con vari editori di riviste a carattere biomedico una banca dati di riferimenti biobliografici e, dove possibile, con collegamento all'articolo in formato elettronico. Il valore di tale banca dati e' enorme ai fini della ricerca, perche' permette di reperire informazione su tutta la letteratura scientifica su argomenti di carattere biomedico. La completezza di questa banca dati e' notevole essendovi recensite anche riviste a diffusione nazionale. Generalmente si cercano parole chiave che possono essere combinate con operatori del tipo AND, OR e NOT, ma si possono anche combinare le parole chiave con il nome degli autori o il titolo della rivista.

2. Esercizio - Analizzate per quanto possibile la seguente entry della GenBank

LOCUS 7766897 162 aa MAM 22-APR-1999
DEFINITION Chain A, Bovine Beta-Lactoglobulin A.
ACCESSION 7766897
PID g7766897
VERSION GI:7766897
DBSOURCE pdb: chain 65, release Apr 22, 1999;
    deposition: Apr 22, 1999;
    class: Transport Protein;
    source: Mol_id: 1; Organism_scientific: Bos Taurus;
    Organism_common: Bovine; Variant: A; Gene: Blg Cdna;
    Expression_system: Pichia Pastoris; Expression_system_common:
    Yamadazyma; Expression_system_strain: Gs115;
    Expression_system_vector_type: Plasmid; Expression_system_plasmid:
    Pttq18blg; Expression_system_gene: Blg Cdna;
    Non X-ray method: Nmr, 10 Structures.
KEYWORDS .
SOURCE Bos taurus.
ORGANISM Bos taurus
    Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
    Mammalia; Eutheria; Cetartiodactyla; Ruminantia; Pecora; Bovoidea;
    Bovidae; Bovinae; Bos.
REFERENCE 1 (residues 1 to 162)
AUTHORS Kuwata,K., Hoshino,M., Forge,V., Era,S., Batt,C.A. and Goto,Y.
TITLE Solution structure and dynamics of bovine beta-lactoglobulin A
JOURNAL Protein Sci. 8 (11), 2541-2545 (1999)
MEDLINE 20061012
REFERENCE 2 (residues 1 to 162)
AUTHORS Kuwata,K., Hoshino,M., Forge,V., Era,S., Batt,C.A. and Goto,Y.
TITLE Direct Submission
JOURNAL Submitted (22-APR-1999)
COMMENT Revision History:
APR 26 0 Initial Entry.
FEATURES Location/Qualifiers
    source 1..162
    /organism="Bos taurus"
    /db_xref="taxon:9913"
    SecStr 16..21
    /sec_str_type="sheet"
    /note="strand 1"
    SecStr 22..28
    /sec_str_type="sheet"
    /note="strand 2"
    SecStr 31..34
    /sec_str_type="sheet"
    /note="strand 3"
    SecStr 36..39
    /sec_str_type="sheet"
    /note="strand 4"
    SecStr 42..50
    /sec_str_type="sheet"
    /note="strand 5"
    SecStr 52..63
    /sec_str_type="sheet"
    /note="strand 6"
    SecStr 64..75
    /sec_str_type="sheet"
    /note="strand 7"
    Bond bond(66,160)
    /bond_type="disulfide"
    SecStr 80..86
    /sec_str_type="sheet"
    /note="strand 8"
    SecStr 88..96
    /sec_str_type="sheet"
    /note="strand 9"
    SecStr 101..109
    /sec_str_type="sheet"
    /note="strand 10"
    Bond bond(106,119)
    /bond_type="disulfide"
    SecStr 116..124
    /sec_str_type="sheet"
    /note="strand 11"
    SecStr 130..138
    /sec_str_type="helix"
    /note="helix 1"
    SecStr 146..151
    /sec_str_type="sheet"
    /note="strand 12"
ORIGIN
1 ayvtqtmkgl diqkvagtwy slamaasdis lldaqsaplr vyveelkptp egdleillqk
61 wendecaqkk iiaektkipa vfkidalnen kvlvldtdyk kyllfcmens aepeqslvcq
121 clvrtpevdd ealekfdkal kalpmhirls fnptqleeqc hi
//

3. RECUPERO DI INFORMAZIONE

L'informazione contenuta in banca dati, ad es. una sequenza peptidica o una struttura proteica, viene recuperata generalmente attraverso delle richieste per parole chiave o indicando il codice che identifica il pezzo di informazione a cui si e' interessati, qualora lo si conosca. Generalmente si puo' inviare una richiesta di questo tipo alla banca dati via email oppure interattivamente collegandosi con un browser a siti dedicati a questo servizio. La richiesta via email permette generalmente un maggiore controllo sulla richiesta stessa e in qualche caso la ricerca puo' essere fatta su piu' banche dati. La ricerca interattiva ha invece il vantaggio di poter apportare direttamente modifiche alla richiesta fatta in base ai risultati ottenuti. Un sito che offre richieste a diverse banche dati usando un ambiente integrato e' il sistema Entrez del National Center for Biotechnology Information. Questo permette di fare ricerche usando essenzialmente la stessa sintassi su diverse banche dati. L'informazione contenuta in banca dati, ad es. una sequenza peptidica o una struttura proteica, viene recuperata generalmente attraverso delle richieste per parole chiave o indicando il codice che identifica il pezzo di informazione a cui si e' interessati, qualora lo si conosca. Uno dei problemi piu' comuni con le richieste per parola chiave e', analogamente a quello che succede sui motori di ricerca, che molte piu' sequenze di quelle di interesse contengono in qualche linea la parola chiave cercata, o viceversa, contiene solo sinonimi della stessa. Un esempio puo' essere costituito da proteine che legano il DNA e ne dirigono la trascrizione, che possono essere indicate come proteine che legano il DNA o come fattori di trascrizione, o ancora come proteine contenenti motivi strutturali capaci di legare il DNA.

3. Esercizio - Recuperate alcune sequenze proteiche (ad es. la beta-lactoglobulin bovina sul sito NCBI). Cercate di analizzare i risultati.

Esercizio - Cercate nella swissprot sequenze con la keyword thionin (piccole tossine di origine vegetale) salvate le sequenze in formato fasta.
 

4. CONFRONTO DI SEQUENZE CON BANCHE DATI

Il numero di sequenze (di acidi nucleici e proteine) depositato nelle banche dati e' tali che con tutta probabilita' per qualsiasi sequenza su cui si stia lavorando esistano e siano disponibili molte sequenze simili. Ha quindi interesse cercare le sequenze che mostrano "somiglianza" (similarity) con la sequenza allo studio. Molto spesso la somiglianza di due sequenze deriva da una comune origine evolutiva, in tal caso le sequenze si dicono omologhe. L'analisi di sequenze simili permette da un lato di formulare ipotesi sulla struttura e sulla funzione, ad esempio, della proteina di interesse qualora ci sia una proteina simile di cui queste siano note. Dall'altro lato l'analisi di molte sequenze permette di evidenziare caratteristiche conservate all'interno di una famiglia di proteine, di mappare queste caratteristiche sulla proteina allo studio e di fare ipotesi sui residui importanti per capirne la stabilita' o la funzione.
Al termine somiglianza e' possibile dare un significato quantitativo o sulla base di proprieta' chimico fisiche dei residui da comparare o molto piu' praticamente considerando la probabilita' di mutazione di un residuo in un altro confrontando sequenze che mostrino una chiara origine evolutiva comune. Anche se le velocita' di mutazione dipendono dalla posizione e dal ruolo dei residui, tabelle empiriche di mutazioni per unita' di tempo danno una misura di somiglianza in termini evolutivi.

Un aspetto importante degli allineamenti e' anche la significativita' statistica. In pratica occorre essere consapevoli della probabilita' di osservare un certo grado di somiglianza dovuto unicamente al caso. Questa dipende ovviamente dalla dimensione della banca dati, ma anche dalla composizione e dalla complessita' della sequenza da confrontare. E' in ogni caso fondamentale essere certi che le somiglianze osservate siano significative. Alcuni dei programmi citati di seguito danno anche questa informazione.

4.1 Metodi di allineamento ottimali e matrici di sostituzione

Il problema di allineare due sequenze, che non abbiano un grado di somiglianza molto elevato, e' un tipico problema di ottimizzazione e di non facile soluzione. Due sequenze proteiche possono avere residui diversi, inserzioni e delezioni di lunghezza variabile, e questo ovviamente aumenta i possibili allineamenti a dismisura. Needleman e Wunsch nel 1970 hanno sviluppato un algoritmo che ancora oggi e' usato per trovare allineamenti globali. In pratica oggi viene usata una modifica dell'approccio proposto da Smith e Waterman che evita l'allineamento delle intere sequenze, ma confronta solo le regioni che mostrano somiglianza. L'idea di base e' quella di costruire allineamenti locali e propagare il punteggio (assegnato premiando le identita' o la somiglianza fra residui e penalizzando le inserzioni o le delezioni) dell'allineamento locale ai residui ancora da allineare. Il risultato e' una matrice di numeri in cui l'allineamento migliore viene rappresentato come un cammino ad alto punteggio.

Il problema di trovare l'allineamento migliore fra due sequenze A e B equivale a trovare una corrispondenza fra le posizioni della sequenza A e quelle della sequenza B. Consideriamo l'insieme di tutti i possibili appaiamenti:

Mat(i,j) ---> appaiamento di A(i) e B(j)

Un allineamento e' rappresentato da un insieme di elementi di questa matrice.

Ad es. considero l'allineamento

FLWRTWS

-SWKTWT questo si rappresenta come un cammino nella matrice Mat(i,j)
 
F L W R T W S
S X
W X
K X
T X
W X
T X

E' chiaro che se Mat(m,n) fa parte dello stesso allineamento di cui fa parte Mat(i,j) allora deve essere necessariamente che o i>m e j>n oppure m>i e n>j, cioe' le corrsipondenze sono sequenziali.

A scopo di esempio consideriamo il piu' semplice punteggio che possiamo assegnare ad un appaiamento: 1 se A(i)=B(j) e 0 altrimenti. L'allineamento migliore sara' quello che ha piu' alto punteggio, cioe' piu' identita'. L'algoritmo di Needleman e Wunsch e' ricorsivo.
Si assegna ad ogni cella il punteggio iniziale (1 o 0 in questo esempio senza penalita' per i gap).
Per ogni cella considero il punteggio piu' alto dei cammini che portano a quella cella. Si parte dall'estremo terminale della matrice si assegna il punteggio corrispondente alla cella.  Per ogni nuova cella che considero sommo il punteggio piu' alto dei sottocammini che portano a quella cella, che si trova nella riga o colonna sottostante. Continuo la procedura riga per riga fino al termine della matrice. L'allineamento e' dato dal cammino a piu' alto punteggio, che necessariamente si trova nella prima riga (o colonna), che termina nell'ultima riga o colonna.

Es. allineamento di CRPM contro LCRKP

Comincio da Mat(5,4) che da 0, poi Mat(5,3) che da 1 e completo la prima riga. Passo alla seconda riga fino a Mat(4,2) per cui il migliore sottocammino e' quello che comprende Mat(5,3) e cosi' pure per Mat(4,1).
 
C R P M
L
C 1
R 1
K 1 1 0 0
P 0 0 1 0

Poi passo alla riga 3 fino a Mat(3,2) per cui il migliore sottocammino comprende Mat(5,3) (con un gap che in questo esempio non da' penalita'), sommo il punteggio della cella con quello del sottocammino e procedo a terminare la riga 3. Passo alla riga 2, la prima cella che ottiene punteggio diverso da 0 e' Mat(2,2) per cui il sottocammino migliore comprende (con gap) Mat(5,3).
 
C R P M
L
C 1 1 0 0
R 1 2 0 0
K 1 1 0 0
P 0 0 1 0

Considero Mat(2,1) che contiene come sottocammino ottimale quello che include Mat(3,2) (a punteggio 2) sommo i punteggi ed infine completo per la riga 1 e seguo il cammino a piu' alto punteggio nella matrice risultante.
 
C R P M
L 2 1 0 0
C 3 1 0 0
R 1 2 0 0
K 1 1 0 0
P 0 0 1 0

L'allineamento risultante e' quindi:

LCRKP-

-CR-PM

Matrici di sostituzione

E' evidente che il punteggio dipendera' dal punteggio che viene assegnato ad ogni possibile mutazione e all'apertura ed al prolungamento delle interruzioni. La piu' semplice matrice di punteggio e' quella che assegna il valore 1 ad ogni residuo conservato e 0 ad ogni residuo non conservato. Schemi piu' flessibili prendono in conto le probabilita' di mutazione spontanea a vari intervalli di di tempo. Fra le piu' usate matrici di punteggi per la sostituzione si trovano la PAM250 (costruite dagli allineamenti a coppie di sequenze simili) e le piu' recenti BLOSUM basate su allineamenti multipli e ritenute piu' affidabili. Chiaramente la matrice di punteggi da' solo dei valori medi per le probabilita' di mutazioni in quanto queste dipendono dalla posizione e dal ruolo specifico del residuo all'interno della sequenza.

Per completezza vengono riportate qui di seguito due delle matrici di sostituzione piu' comunemente usate:

BLOSUM62 amino acid substitution matrix.

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid
           substitution matrices from protein blocks.  Proc. Natl. Acad.
           Sci. USA 89: 10915-10919.

{
GAP_CREATE 8
GAP_EXTEND 2
}

      A    B    C    D    E     F    G    H    I    K     L    M    N    P    Q     R    S    T    V    W     X    Y    Z
A     4   -2    0   -2   -1    -2    0   -2   -1   -1    -1   -1   -2   -1   -1    -1    1    0    0   -3    -1   -2   -1
B    -2    6   -3    6    2    -3   -1   -1   -3   -1    -4   -3    1   -1    0    -2    0   -1   -3   -4    -1   -3    2
C     0   -3    9   -3   -4    -2   -3   -3   -1   -3    -1   -1   -3   -3   -3    -3   -1   -1   -1   -2    -1   -2   -4
D    -2    6   -3    6    2    -3   -1   -1   -3   -1    -4   -3    1   -1    0    -2    0   -1   -3   -4    -1   -3    2
E    -1    2   -4    2    5    -3   -2    0   -3    1    -3   -2    0   -1    2     0    0   -1   -2   -3    -1   -2    5

F    -2   -3   -2   -3   -3     6   -3   -1    0   -3     0    0   -3   -4   -3    -3   -2   -2   -1    1    -1    3   -3
G     0   -1   -3   -1   -2    -3    6   -2   -4   -2    -4   -3    0   -2   -2    -2    0   -2   -3   -2    -1   -3   -2
H    -2   -1   -3   -1    0    -1   -2    8   -3   -1    -3   -2    1   -2    0     0   -1   -2   -3   -2    -1    2    0
I    -1   -3   -1   -3   -3     0   -4   -3    4   -3     2    1   -3   -3   -3    -3   -2   -1    3   -3    -1   -1   -3
K    -1   -1   -3   -1    1    -3   -2   -1   -3    5    -2   -1    0   -1    1     2    0   -1   -2   -3    -1   -2    1

L    -1   -4   -1   -4   -3     0   -4   -3    2   -2     4    2   -3   -3   -2    -2   -2   -1    1   -2    -1   -1   -3
M    -1   -3   -1   -3   -2     0   -3   -2    1   -1     2    5   -2   -2    0    -1   -1   -1    1   -1    -1   -1   -2
N    -2    1   -3    1    0    -3    0    1   -3    0    -3   -2    6   -2    0     0    1    0   -3   -4    -1   -2    0
P    -1   -1   -3   -1   -1    -4   -2   -2   -3   -1    -3   -2   -2    7   -1    -2   -1   -1   -2   -4    -1   -3   -1
Q    -1    0   -3    0    2    -3   -2    0   -3    1    -2    0    0   -1    5     1    0   -1   -2   -2    -1   -1    2

R    -1   -2   -3   -2    0    -3   -2    0   -3    2    -2   -1    0   -2    1     5   -1   -1   -3   -3    -1   -2    0
S     1    0   -1    0    0    -2    0   -1   -2    0    -2   -1    1   -1    0    -1    4    1   -2   -3    -1   -2    0
T     0   -1   -1   -1   -1    -2   -2   -2   -1   -1    -1   -1    0   -1   -1    -1    1    5    0   -2    -1   -2   -1
V     0   -3   -1   -3   -2    -1   -3   -3    3   -2     1    1   -3   -2   -2    -3   -2    0    4   -3    -1   -1   -2
W    -3   -4   -2   -4   -3     1   -2   -2   -3   -3    -2   -1   -4   -4   -2    -3   -3   -2   -3   11    -1    2   -3

X    -1   -1   -1   -1   -1    -1   -1   -1   -1   -1    -1   -1   -1   -1   -1    -1   -1   -1   -1   -1    -1   -1   -1
Y    -2   -3   -2   -3   -2     3   -3    2   -1   -2    -1   -1   -2   -3   -1    -2   -2   -2   -1    2    -1    7   -2
Z    -1    2   -4    2    5    -3   -2    0   -3    1    -3   -2    0   -1    2     0    0   -1   -2   -3    -1   -2    5

PAM120 amino acid substitution matrix.

{
GAP_CREATE 11
GAP_EXTEND 4
}

      A    B    C    D    E     F    G    H    I    K     L    M    N    P    Q     R    S    T    V    W     X    Y    Z    *
A     3    0   -3    0    0    -4    1   -3   -1   -2    -3   -2   -1    1   -1    -3    1    1    0   -7    -1   -4   -1   -8
B     0    4   -6    4    3    -5    0    1   -3    0    -4   -4    3   -2    0    -2    0    0   -3   -6    -1   -3    2   -8
C    -3   -6    9   -7   -7    -6   -4   -4   -3   -7    -7   -6   -5   -4   -7    -4    0   -3   -3   -8    -4   -1   -7   -8
D     0    4   -7    5    3    -7    0    0   -3   -1    -5   -4    2   -3    1    -3    0   -1   -3   -8    -2   -5    3   -8
E     0    3   -7    3    5    -7   -1   -1   -3   -1    -4   -3    1   -2    2    -3   -1   -2   -3   -8    -1   -5    4   -8

F    -4   -5   -6   -7   -7     8   -5   -3    0   -7     0   -1   -4   -5   -6    -5   -3   -4   -3   -1    -3    4   -6   -8
G     1    0   -4    0   -1    -5    5   -4   -4   -3    -5   -4    0   -2   -3    -4    1   -1   -2   -8    -2   -6   -2   -8
H    -3    1   -4    0   -1    -3   -4    7   -4   -2    -3   -4    2   -1    3     1   -2   -3   -3   -3    -2   -1    1   -8
I    -1   -3   -3   -3   -3     0   -4   -4    6   -3     1    1   -2   -3   -3    -2   -2    0    3   -6    -1   -2   -3   -8
K    -2    0   -7   -1   -1    -7   -3   -2   -3    5    -4    0    1   -2    0     2   -1   -1   -4   -5    -2   -5   -1   -8

L    -3   -4   -7   -5   -4     0   -5   -3    1   -4     5    3   -4   -3   -2    -4   -4   -3    1   -3    -2   -2   -3   -8
M    -2   -4   -6   -4   -3    -1   -4   -4    1    0     3    8   -3   -3   -1    -1   -2   -1    1   -6    -2   -4   -2   -8
N    -1    3   -5    2    1    -4    0    2   -2    1    -4   -3    4   -2    0    -1    1    0   -3   -4    -1   -2    0   -8
P     1   -2   -4   -3   -2    -5   -2   -1   -3   -2    -3   -3   -2    6    0    -1    1   -1   -2   -7    -2   -6   -1   -8
Q    -1    0   -7    1    2    -6   -3    3   -3    0    -2   -1    0    0    6     1   -2   -2   -3   -6    -1   -5    4   -8

R    -3   -2   -4   -3   -3    -5   -4    1   -2    2    -4   -1   -1   -1    1     6   -1   -2   -3    1    -2   -5   -1   -8
S     1    0    0    0   -1    -3    1   -2   -2   -1    -4   -2    1    1   -2    -1    3    2   -2   -2    -1   -3   -1   -8
T     1    0   -3   -1   -2    -4   -1   -3    0   -1    -3   -1    0   -1   -2    -2    2    4    0   -6    -1   -3   -2   -8
V     0   -3   -3   -3   -3    -3   -2   -3    3   -4     1    1   -3   -2   -3    -3   -2    0    5   -8    -1   -3   -3   -8
W    -7   -6   -8   -8   -8    -1   -8   -3   -6   -5    -3   -6   -4   -7   -6     1   -2   -6   -8   12    -5   -2   -7   -8

X    -1   -1   -4   -2   -1    -3   -2   -2   -1   -2    -2   -2   -1   -2   -1    -2   -1   -1   -1   -5    -2   -3   -1   -8
Y    -4   -3   -1   -5   -5     4   -6   -1   -2   -5    -2   -4   -2   -6   -5    -5   -3   -3   -3   -2    -3    8   -5   -8
Z    -1    2   -7    3    4    -6   -2    1   -3   -1    -3   -2    0   -1    4    -1   -1   -2   -3   -7    -1   -5    4   -8
*    -8   -8   -8   -8   -8    -8   -8   -8   -8   -8    -8   -8   -8   -8   -8    -8   -8   -8   -8   -8    -8   -8   -8    1

4.2 Metodi di allineamento sotto-ottimali

FASTA - Per la ricerca estensiva di somiglianza fra una sequenza (detta query) e tutte le sequenze (dette target) depositate in baca dati si usano generalmente metodi meno sofisticati, ma piu' veloci. Il primo dei programmi veloci ad avere avuto larga diffusione e' stato FASTA. Questo programma cerca match esatti di "parole" o k-uple e poi allinea le sequenze che mostrano diversi match. In pratica si stabilisce la lunghezza della parola da cercare ad esempio 2, e quindi si cercano tutte le sequenze target che abbiano molte identita' di 2 residui adiacenti. Se la lunghezza della parola e' 1 si cercheranno le identita' dei singoli residui. Se la lunghezza e' maggiore di due l'algoritmo e' piu' veloce, ma la probabilita' di mancare sequenze simili e' piu' alta. Immaginiamo solo a scopo di esempio di avere una sequenza con identita' del 40% con la sequenza target ma che non mostri piu' di tre residui consecutivi identici, in tal caso una ricerca con k-upla di 4 non la ritroverebbe. Le sequenze trovate con questa procedura vengono poi ulteriormente analizzate con algoritmi di allineamento ottimali.

Come altro esempio di allineamento considero FASTP, che e' la versione rifinita dell'algoritmo FASTA per le proteine.

L'idea di fondo e' che se due sequenze sono simili avranno almeno delle identita' fra residui (k-upla =1) o fra coppie di residui adiacenti (k-upla =2).

Ad es.

FLWRTWS (target sequence)

SWKTWT (query sequence)

L'algoritmo proposto da Lipman funziona pressapoco cosi':

1) Viene costruita una tabella dove per ogni amminoacido (o coppia di amminoacidi se kupla=2) si listano le posizioni dove compare.

F 1

L 2

W 3, 6

R 4

T 5

S 7

2) Si cercano gli allineamenti con il metodo della "diagonale". Si trovano le identita' e si misura la differenza di posizione (offset) nella sequenza. Ad es. per la sequenza 2

la S in posizione 1 nella query sequence si trova in posizione 7 nella target sequence (offset=7-1=6)

1 S offset 6

2 W offset 1 e 4

4 T offset 1

5 W offset 1 e -2

6 T offset -1

3) Si contano i punteggi ottenuti per ciascun offset aumentando il punteggio quando si trova una identita' e diminudendolo quando non si trova alcuna identita'.

Gli offset con punteggio piu' alto rappresentano gli allineamenti migliori. Le sequenze scelte con questo criterio vengono poi allineate globalmente. Nelle versioni recenti la stessa procedura viene seguita per i cinque offset a punteggio piu' alto.

La distribuzione statistica dei punteggi degli allineamenti ottenuti con il metodo della diagonale da' una indicazione della significativita' degli allineamenti ottenuti. Ci si aspetta che ci sia un grande numero di allienamenti a basso punteggio (dovuto alla identita' casuale di piu' posizioni ad uno stesso offset fra la query sequence e le target sequence in banca dati), mentre le sequenze significative dovrebbero avere punteggi nettamente superiori a quelli attesi in base al numero di sequenze depositate in banca dati ed alla composizione della query sequence.

Un esempio di distribuzione di punteggi e' riportata qui di seguito:

< 20 863 0:=====

22 0 0:

24 0 0:

26 2 2:*

28 14 25:*

30 81 149:*

32 306 577:== *

34 1045 1564:====== *

36 2925 3213:=================*

38 5368 5310:=============================*

40 7971 7407:=========================================*===

42 9957 9054:==================================================*=====

44 10706 9987:=======================================================*====

46 10069 10172:========================================================*

48 9611 9739:======================================================*

50 8595 8887:=================================================*

52 7636 7813:===========================================*

54 6559 6674:=====================================*

56 5262 5574:============================== *

58 4590 4576:=========================*

60 3638 3707:====================*

62 2916 2972:================*

64 2320 2364:=============*

66 1907 1868:==========*

68 1368 1469:========*

70 1122 1152:======*

72 837 900:=====*

74 631 702:===*

76 483 546:===*

78 349 424:==*

80 299 330:=*

82 213 252:=*

84 132 200:=*

86 112 155:*

88 87 120:*

90 74 93:*

92 47 72:* :=== *

94 27 55:* :== *

96 29 43:* :==*

98 25 33:* :=*

100 24 26:* :=*

102 9 20:* :=*

104 11 15:* :*

106 6 12:* :*

108 7 9:* :*

110 4 7:* :*

112 3 6:* :*

114 2 4:* :*

116 3 3:* :*

118 1 3:* :*

>120 829 2:*==== :*=======================================

e' importante notare che la distribuzione che si ottiene non e' Gaussiana, ma comunque con un massimo pronunciato come atteso a valori bassi dei punteggi e con una forma a campana. In genere si considera la deviazione standard dei punteggi casuali e si calcola per un certo punteggio la seguente grandezza (z-score):

z-score = (score-mean of random scores)/(std. dev. of random scores)

La regola empirica e' che per z-score > 10 l'allineamento e' statisticamente significativo.

BLAST - Ha molti aspetti simili a FASTA, anche se gli algoritmi usati sono diversi. In generale pero' permette il match non esatto delle parole e quindi e' possibile mantenere la lunghezza delle parole piu' elevato senza perdere eccessivamente informazione. Inoltre una volta trovato un allineamento se ne cercano estensioni entro un certo numero di residui contigui. Le ultime versioni di questo programma presentano molti sviluppi interessanti fra cui l'uso della vicinanza delle k-uple simili per assegnare il punteggio e l'uso di profili per l'allineamento. Oltre a cio' BLAST  ha il vantaggio di fornire una valutazione della significativita' statistica dell'allineamento.

4. Esercizio - Allineate la sequenza della lattoglobulina (bovina) contro la banca dati (ad es. Swiss-Prot) usando fasta o blast. Esaminate i risultati.

5. ALLINEAMENTI MULTIPLI E PROFILI

Spesso il confronto simultaneo di piu' sequenze e' in grado di fornire informazioni non evidenti al solo esame delle coppie di sequenze allienate ed inoltre permette di costruire una sorta di "profilo" della famiglia di sequenze simili per l'identificazione di relazioni distanti di somiglianza. Il confronto di piu' sequenze, come e' facile intuire, e' notevolmente piu' complesso dell'allineamento di coppie di sequenze. La maggior parte dei metodi disponibili in rete usano una qualche estensione del confronto a coppie e procedono ad indentificare le coppie piu' simili e ad allineare progressivamente le altre sequenze sull'allineamento multiplo costruito fino a quel momento. Per questo motivo questi algoritmi sono detti di "allineamento multiplo". Fra i vari programmi disponibili vedremo come lavora il programma CLUSTAL ed il programma MultAlin.

CLUSTAL W - Si comincia con l'allineamento a coppie di tutte le sequenze che si vogliono allineare. Poiche' queste sono in genere in numero limitato si possono usare algoritmi di allineamento ottimali. Viene costruita quindi una matrice di "distanze" fra le sequenze e viene costruito un albero filogenetico (anche se questo non ha necessariamente alcun significato evolutivo). Le due sequenze piu' simili vengono allineate e la sequenza piu' simile a queste (cioe' piu' vicina nell'albero filogenetico) viene allineata alla famiglia costituita dalle due precedenti e progressivamente tutte le sequenze vengono allienate alla famiglia delle n seuqenze allineate in precedenza.

MultAlin - Lavora in modo simile a CLUSTAL W ma ad ogni nuovo allineamento le distanze vengono ricalcolate e pertanto l'intera procedura viene ripetuta fino a quando non ci sono piu' variazioni nell'allineamento.

Molto spesso gli allineamenti multipli rivelano caratteristiche delle sequenze molto difficili da individuare con allineamenti a coppie. Ad es., oltre alla semplice conservazione di un residuo, puo' emergere la presenza in una certa famiglia di proteine di un residuo carico in una certa posizione oppure la presenza di un amminoacido idrofobico. L'insieme di caratteristiche di una sequenza amminoacidica ne costituisce il profilo. Spesso le caratteristiche, ristrette ad una certa regione della proteina, identificano un motivo strutturale o un possibile sito funzionale. Ad es. proteine che contengono il motivo strutturale elica-turn-elica sono distinte da sequenze semisconservate di poco piu' di una decina di residui. Riconoscere un possibile motivo elica-turn-elica in una proteina fa sorgere l'ipotesi che possa essere coinvolta nel legame del DNA come molte altre proteine che contengono tale motivo. Il Dr. Bairoch dell'Universita' di Ginevra ha collezionato una raccolta di motivi strutturali sotto il nome di Prosite, annotandone estensivamente le caratteristiche e creando per quanto possibile collegamenti ipertestuali a proteine, letteratura e altre banche dati rilevanti. In genere nelle ricerche di una sequenza contro profili anche questa banca dati viene consultata.
Sul sito dell'EBI e' disponibile  Interpro  un servizio che confronta una sequenza proteica contro Prosite ed altre banche dati di profili o patterns come PFam e Prints.

5. Esercizio - Prendendo le sequenze ottenute per le tionine all'esercizio 3, create un allineamento multiplo usando il programma clustalw.
(qui sono riportati per comodita' i risultati salvati in formato fasta:
>CRAM_CRAAB
TTCCPSIVARSNFNVCRLPGTPEALCATYTGCIIIPGATCPGDYAN
>SA21_SORBI
RVCRRRSAGFKGLCMSDHNCAQVCLQEGWGGGNCDGVMRQCKCIRQC
>SIA1_SORBI
RVCMGKSQHHSFPCISDRLCSNECVKEEGGWTAGYCHLRYCRCQKAC
>SIA3_SORBI
RVCRRRSAGFKGLCMSDHNCAQVCLQEGWGGGNCDGVIRQCKCIRQC
>THG1_ARATH
MKLSMRLISAVLIMFMIFVATGMGPVTVEARTCESQSHRFKGTCVSASNCANVCHNEGFV
GGNCRGFRRRCFCTRHC
>THG1_MAIZE
RVCRRRSAGFKGVCMSDHNCAQVCLQEGYGGGNCDGIMRQCKCIRQC
>THG1_NICPA
MARSLCFMAFAVLAMMLFVAYEVQAKSTCKAESNTFPGLCITKPPCRKACLSEKFTDGKC
SKILRRCICYKPCVFDGKMIQTGAENLAEEAETLAAALLEEEMMDN
>THG1_WHEAT
KICRRRSAGFKGPCMSNKNCAQVCQQEGWGGGNCDGPFRRCKCIRQC
>THG2_ARATH
MKFSMRLISAVLFLVMIFVATGMGPVTVEARTCASQSQRFKGKCVSDTNCENVCHNEGFP
GGDCRGFRRRCFCTRNC
>THG2_WHEAT
KVCRQRSAGFKGPCVSDKNCAQVCLQEGWGGGNCDGPFRRCKCIRQC
>THG3_ARATH
MKLSVRFISAALLLFMVFIATGMGPVTVEARTCESKSHRFKGPCVSTHNCANVCHNEGFG
GGKCRGFRRRCYCTRHC
>THG4_ARATH
MKLSLRLISALLMSVMLLFATGMGPVEARTCESPSNKFQGVCLNSQSCAKACPSEGFSGG
RCSSLRCYCSKAC
>THGF_HELAN
MKSSMKMFAALLLVVMCLLANEMGGPLVVEARTCESQSHKFKGTCLSDTNCANVCHSERF
SGGKCRGFRRRCFCTTHC
>THGF_TOBAC
MARSLCFMAFAILAMMLFVAYEVQARECKTESNTFPGICITKPPCRKACISEKFTDGHCS
KLLRRCLCTKPCVFDEKMIKTGAETLVEEAKTLAAALLEEEIMDN
>THG_HORVU
RICRRRSAGFKGPCVSNKNCAQVCMQEGWGGGNCDGPLRRCKCMRRC
>THG_PETIN
MGRSIRLFATFFLIAMLFLSTEMGPMTSAEARTCESQSHRFHGTCVRESNCASVCQTEGF
IGGNCRAFRRRCFCTRNC
>THN1_VISAL
KSCCPBTTGRBIYBTCRFGGGSRZVCARISGCKIISASTCPSYPBK
>THN1_WHEAT
CLLILGLVLEQLQVEGKSCCRSTLGRNCYNLCRARGAQKLCAGVCRCKISSGLSCPKGFP
KLALESNSDEPDTIEYCNLGCRSSVCDYMVNAAADDEEMKLYVENCADACVSFCNGDAGL
PSLDAY
>THN2_VISAL
KSCCPNTTGRNIYNTCRFGGGSREVCASLSGCKIISASTCPSYPDK
>THN2_WHEAT
MGSKGLKGVMVCLLILGLVLEQVQVEGKSCCRTTLGRNCYNLCRSRGAQKLCSTVCRCKL
TSGLSCPKGFPKLALESNSDEPDTIEYCNLGCRSSVCDYMVNAAADDEEMKLYVENCGDA
CVNFCNGDAGLTSLDA
>THN3_HORVU
MAPSKSIKSVVICVLILGLVLEQVQVEGKSCCKDTLARNCYNTCHFAGGSRPVCAGACRC
KIISGPKCPSDYPKLNLLPESGEPDVTQYCTIGCRNSVCDNMDNVFRGQEMKFDMGLCSN
ACARFCNDGAVIQSVEA
>THN3_VISAL
MEVVRGSSLVLLVLLLGALLVSQVESKSCCPNTTGRNIYNACRLTGAPRPTCAKLSGCKI
ISGSTCPSDYPKFYCTLGCESSQCATNSNGDAEAVRCKTACSDLCQDVDDA
>THN5_HORVU
MATNKSIKSVVICVLILGLVLEQVQVEAKSCCKNTTGRNCYNACRFAGGSRPVCATACGC
KIISGPTCPRDYPKLNLLPESGEPNATEYCTIGCRTSVCDNMDNVSRGQEMKFDMGLCSN
ACARFCNDGEVIQSVEA
>THN5_WHEAT
MGGGQKGLESAIVCLLVLGLVLEQVQVEGVDCGANPFKVACFNSCLLGPSTVFQCADFCA
CRLPAGLASVRSSDEPNAIEYCSLGCRSSVCDNMINTADNSTEEMKLYVKRCGVACDSFC
KGDTLLASLDD
>THN6_HORVU
MAPSKSIKSVVICVLILVLVLEQVQVEGKSCCKDTLARNCYNTCRFAGGSRPVCAGACRC
KIISGPKCPSDYPKLNLLPESGEPDVTQYCTIGCTNSVCDNMDNVFRGQEMKFDMGLCSN
ACARFCNDGAVIQSVEA
>THNA_HORVU
MVCLLILGLVLEQVQVEGKSCCRSTLGRNCYNLCRVRGAQKLCAGVCRCKLTSSGKCPTG
FPKLALVSNSDEPDTVKYCNLGCRASMCDYMVNAAADDEEMKLYLENCGDACVNFCNGDA
GLTSLTA
>THNB_HORVU
MGSKGLKGVMVCLLILGLVLEHVQVEGKSCCRSTLGRNCYNLCRVRGAQKLCANACRCKL
TSGLKCPSSFPKLALVSNSDEPDTIDYCNLGCRASMCDYMVNAAADDEEMKLYVEHCSDA
CVNFCNGDVGLTSLTA
>THNB_VISAL
FRNVESKSCCPNTTGRNIYNTCRLGGGSRERCASLSGCKIISASTCPSDYPKFYCTLGCQ
SSKCASITTPPNSEVDAEAVRCKAACSNLCDFGVTTNQEIQDD
>THNB_WHEAT
MGSKGLKGVMVCLLILGLVLEQVQVEGKSCCKSTLGRNCYNLCRARGAQKLCANVCRCKL
TSGLSCPKDFPKLVLESNSDEPDTMEYCNLGCRSSLCDYIVNAAADDEEMKLYVEQCGDA
CVNFCNADAGLTSLDA
>THN_DENCL
KSCCPTTAARNQYNICRLPGTPRPVCAALSGCKIISGTGCPPGYRH
>THN_PHOLI
KSCCPSTTARNIYNTCRLTGTSRPTCASLSGCKIISGSTCBSGWBH
>THN_PHOTO
KSCCPTTTARNIYNTCRFGGGSRPVCAKLSGCKIISGTKCDSGWNH
>THN_PYRPU
KSCCRNTWARNCYNVCRLPGTISREICAKKCDCKIISGTTCPSDYPK
>THZ2_MAIZE
RVCMGKSQHHSFPCISDRLCSNECVKEDGGWTAGYCHLRYCRCQKAC
)

Esecizio
Analizzate i risultati. Prendete una delle sequenze delle tionine (ad es. la crambina) e inviate questa sequenza al programma pfscan per esaminarne il profilo corrispondente.

6. PREDIZIONI STRUTTURALI

Tanto in base a studi teorici quanto all'esame estensivo delle strutture di proteine depositate in banca dati e' possibile fare delle predizioni con un livello di accuratezza fino al 70% di residui correttamente predetti circa la struttura secondaria che una proteina dovrebbe assumere nella sua conformazione nativa. I metodi che vengono usati generalmente dividono le possibili strutture secondarie in diverse classi ad es. alpha, beta, turn, altro e, data una sequenza, predicono per ciascun residuo la struttura secondari. Una maniera semplice ma efficace di fare cio' e' quella di assegnare ad ogni residuo una probabilita' di trovarsi in una conformazione e poi di assegnare a ciascun residuo la conformazione avente maggiore probabilita' media su una finestra di un certo numero di residui attorno a quel residuo. Questo metodo suggerito da Chou e Fasman raggiunge una accuratezza attorno al 60% (disponibile presso il  pole bio-informatique lyonnaise ). Un approccio statisticamente piu' avanzato e' quello seguito da Garnier Osguthorpe e Robson (GOR IV method, disponibile presso il pole bioinformatique lyonnaise ) che prendono in considerazione la correlazione fra il residuo di cui si vuole predire la struttura secondaria e i residui entro una finestra di 16 residui attorno a questo. La predizione viene fatta considerando queste correlazioni. Un approccio sostanzialmente simile in spirito, ma completamente diverso per quanto riguarda gli algoritmi usati, e' quello proposto da Rost e Sander, che hanno "istruito" una rete neurale a fare predizioni di struttura secondaria e di molte altre proprieta', su un insieme di proteine, ovviamente con basso grado di somiglianza, e poi usano la rete neurale per predire le nuove sequenze (PredictProtein presso la Columbia University di New York ).
Oltre alle predizioni strutturali, si possono predire sulla base della sola sequenza molte proprieta' chimico-fisiche, quali il punto isoelettrico, il peso molecolare o il profilo di idropaticita' (ProtParam oppure  ProtScale  presso il server Expasy). Tutte queste sono utili per interpretare le analisi biochimiche che si compiono di routine in laboratorio.

6. Esercizio - Prendete le sequenze della crambina, della purotionina e della viscotossina dall'esercizio 3 e fatene l'esame delle proprieta' chimico fisiche.
Crambina:
TTCCPSIVAR SNFNVCRLPG TPEALCATYT GCIIIPGATC PGDYAN
beta-Purotionina:
KSC CKSTLGRNCY NLCRARGAQK LCANVCRCKLTSGLSCPKDF PK
viscotossina A3:
KSCC PNTTGRNIYN ACRLTGAPRP TCAKLSGCKI ISGSTCPSDY PK
Ci sono differenze fra le proprieta' chimico-fisiche per le tre sequenze ?

6. Esercizio - Fate la predizione della struttura secondaria per la beta-lattoglobulina con i metodi disponibili in rete. Osservate delle differenze fra le varie predizioni?
 

Testo consigliato: Baxevanis A. D. e Ouellette B. F. F. -Bioinformatics - A practical guide to the analysis of genes and proteins. Wiley-Interscience, New York, 1998.