logo
  • userLoginStatus

Welcome

Our website is made possible by displaying online advertisements to our visitors.
Please disable your ad blocker to continue.

Current View

Biomedical Engineering - Bioinformatica e Genomica Funzionale

Completed notes of the course

Complete course

CODING GENES Le sequenze del genoma sono messe a disposizione in banche date pubbliche e sono a disposizione della comunità scientifica. Le banche dati primarie sono: 1. Banca dati Europea (EMBL) 2. Banca Dati Statunitense (GENBANK) 3. Banca dati Giapponese (DOBJ) Si tratta di banche dati equivalenti dal punto di vista del contenuto perché l’aggiornamento è continuo , quindi le differenze sono sulle specificità dei singoli database . In esse troviamo sequenze del genoma umano ma anche di altre specie. PROTEIN STRUCTU RE AND FUNCTION I geni che codificano proteine hanno un prodotto proteico, cioè una molecola che si forma per traduzione di una sequenza di nucleotidi . La sequenza di amminoacidi ricavata viene detta struttura primaria (successione di amminoacidi). Abbiam o poi la struttura secondaria che si riferisce a conformazioni strutturali di base (alpha eliche filamenti beta , che sono i costituenti fondamentali del folding finale cioè della struttura terziaria che è la struttura più complessa della proteina. La tradu zione di due sequenze geniche che si complessano tra loro danno vita alla struttura quaternaria. Le proteine sono da sempre identificate come le molecole che realizzano le operazioni necessarie all’intero della cellula, infatti abbiamo proteine che si occu pano di rendere possibili le reazioni, proteine di trasporto, proteine di canale (stanno sulla membrana e permettono il passaggio di ioni). Questo non vuol dire che guardiamo alle proteine solo come scopo finale ma guardiamo i geni come sono fatti nella lo ro anatomia, guardiamo l’RNA, guardiamo tutti gli elementi di modulazione che intervengono per la regolazione (aspetto fondamentale per la comprensione dei meccanismi fisiologici e patologici). N.B. Si parla di diverse omiche che attengono ai diversi tipi di molecola. A livello di informazione, saltelliamo con disinvoltura da un layer all’altro; chiaramente sul fronte sperimentale, c’è una certa e normale specializzazione tra le diverse tecnologie. La potenza delle omiche sta nel sfruttare tutti i dati al m eglio. L’alterazione della proteina è il problema più chiaro da risolvere, quindi le alterazioni della sequenza (le mutazioni) si cercano soprattutto nella parte che codifica le proteine, cioè la parte di genoma trascritta e tradotta in una sequenza di am minoacidi perché nel momento in cui c’è un cambio di base che fa sì che un amminoacido sia diverso da quello di altri individui, questo può essere facilmente identificato come il responsabile di una condizione non fisiologica. SICKLE CELL ANEMIA Ci sono va ri esempi che vengono utilizzati in queste carrellate introduttive in cui le patologie che vengono considerate sono esempi di patologie in cui ci sono alterazioni puntiformi, cioè che riguardano una singola base che determina l’alterazione della sequenza d el DNA e quindi del Dna che verrà trascritto in RNA e che verrà tradotto con un cambio di amminoacido. Come nell’anemia calciforme dove una singola base (adenina che diventa timina) determina il cambio di un singolo amminoacido (l’acido glutamico è sostitu ito dalla valina) determinando un cambio della struttura della proteine; che in questo caso è la catena dell’emoglobina, che intacca il funzionamento dell’emoglobina stessa e della vitalità dei globuli rossi che assumono la tipica forma che dà nome alla pa tologia. Questo è un esempio in cui il flusso, cioè la catena di eventi che determina la condizione patologica, è chiara. Tuttavia la sfida è anche comprendere i meccanismi molecolari alla base delle malattie complesse, in cui concorrono diversi elementi g ià a livello genico. PROTEIN DATABANKS Altri database per le proteine è segnata dalla banca dati UniProt (sono presenti sequenze amminoacidiche) che è divisa in due sezioni: 1. Swiss -Prot : parta verificata manualmente in maniera tale da lasciarla non ridonda nte il più possibile 2. Trembl : è una sorta di anticamera in cui le sequenze nuove inviate dai vari laboratori, anche se non verificate, sono comunque messe a disposizione della comunità scientifica in attesa di verificare se inserirle in Swiss -Prot o elimina rle. Un altro database è il PDB (Protein Data Bank) che contiene le strutture delle proteine risolte, cioè dotate di struttura tridimensionale nota. La s ingola entry è un file che contiene le coordinate geometriche nello spazio degli atomi della molecola proteina. La bioinformatica è un cammino che poggia su algoritmi implementati online, dunque c’è una miriade di risorse sia come algoritmi che come database. TOWARDS PERSONALIZED MOLECULAR MEDICINE Il fatto di essere nella cosiddetta era post -genomica, ci oè dopo il sequenziamento del genoma umano, proietta la medicina in un’era necessariamente molecolare dove lo studio delle patologie sta cercando di sfruttare al massimo questo nuovo punto di vista. Ci vorrà molto tempo prima di portare nella realtà clinic a la potenzialità delle scoperte del genoma umano. Il fatto di avere a disposizione la sequenza del genoma umano NON rende assolutamente nulla compreso, questo è solo il numero di partenza di una lunga galoppata. LEZIONE 2 ANALISI DI SEQUENZE: ALGORITMI DI ALLINEAMENTO OTTIMO E’ stato subito necessario avere un approccio analitico e oggettivo per confrontare delle sequenze. Non siamo nel campo della genetica, è qualcosa di più astratto che dobbiamo cercare di comprendere. Nel genoma ci sono tante sequenze ed è assolutamente lecito e utilizzato il fatto di confrontare una sequenza amminoacidica con un’altra sequenza più caratterizzata per ottenere delle conoscenze. Questo è un paradigma molto sfruttato all’interno del genoma umano perché ci sono proteine si mili che condividono parti di sequenza, cioè sequenze simili grazie a geni che fanno la stessa cosa. Abbiamo dunque la possibilità di confrontare sequenze in maniera oggettiva. Lo stesso discorso vale per strutture non note, cioè trovare una sequenza simil e a quella non nota e mutare le informazioni; ma anche in questo caso è necessario confrontare le sequenze e vedere quali sono le parti effettivamente simili e quali non lo sono. L’evoluzione che in passato era studiata guardando ai caratteri fenotipici os servabili diventa qualcosa di quantitativo e analitico grazie all’analisi di sequenza, cioè per mettere in relazione degli organismi si utilizza il genoma. Per il confronto abbiamo bisogno di un approccio oggettivo offerto dall’algoritmo di allineamento. P er allineamento intendiamo l’operazione che consentano di mettere in corrispondenza le sequenza e quindi valutarne in maniera oggettiva e quantitativa la similarità. SIMILARITA’ VS OMOLOGIA Similarità (proprietà osservabile e quantificabile) non va confusa con l’omologia, che è una proprietà binaria (due proteine o sono omologhe o non lo sono) e fa riferimento all’esistenza di un comune genitore da cui sono derivate le due sequenze osservate. Le sequenze omologhe possono ulteriormente suddivise in: 1. ortolog he: geni omologhi che svolgono una funzione simile e corrispondente in due specie diverse; 2. Paraloghe: geni omologhi all’interno della stessa specie, cioè una sequenza iniziale si è duplicata all’interno della stessa specie e poi due derivati si sono specia lizzate per svolgere funzione più o meno diverse. DOT PLOT Il primo modo per confrontare sequenza è molto pratico: si tratta del cosiddetto DOT PLOT: vado ad orlare la matrice con una sequenza sul lato superiore e un’altra sequenza sul lato sinistro, poi l e confronto cercando di osservare le corrispondenze. Questo tipo di grafico, in casi molto semplici, può essere anche utilizzato. WINDOW MATCHING Una strategia più flessibile è quella di vedere in una finestra se c’è un analogia di almeno tot caratteri. HO W EVALUATE ALIGNMENTS Sono stati poi sviluppati veri e propri algoritmi di allineamento che permettono di affrontare meglio questo problemi. Questi algoritmi poggiano su uno schema di punteggio. Il risultato si ottiene allineando le sequenze posizione per posizione, le corrispondenze sono evidenziate al meglio inserendo dei cosiddetti gap (rappresentati dai trattini) in maniera tale da spostare le sottosequenze ed evidenziare le similarità. Gli schemi di punteggio poi consentono di valutare quantitativament e il fatto che una posizione veda una perfetta corrispondenza oppure la presenza di un gap in una sequenza oppure un miss -matching (presenza di basi diverse). ALGORITMS MODELS Questi algoritmi sono detti ottimi in quanto garantiscono la soluzione migliore . Abbiamo a disposizione due algoritmi ottimi: 1. Globale: l’allineamento che ottengo contiene entrambe le sequenze a confronto per tutta la loro lunghezza. 2. Locale: il risultato può coinvolgere una sola porzione della sequenza. Cominciamo dall’allineamento ottimo globale:  Ci serve uno schema di punteggio: le differenze sono penalizzate da punteggi bassi o negativi, i match conteggiano punteggi alti. Bisogna ricordate che le 4 basi sono divise in purine (adenina e guanina con struttura più ingombrante) e pirimidine (citosina e timina): l’accoppiamento di basi appartenenti a categorie diverse comporta un conteggio di penalizzazione più basso rispetto a quello che otteniamo dall’accoppiamento di basi appartenenti alla stessa categoria. Lo schema di punteggio contiene a priori uno score per l’inserimento di un gap; procediamo nel riempimento della matrice per colonne;  Orliamo la matrice con le due sequenze che vogliamo confrontare e procediamo a riempire la matrice che conterrà dei valori corrispondenti al pun teggio di allineamento ottimo per quelle sotto sequenze. Per riempire la matrice della procedura, inizio con uno zero e poi inserisco in maniera incrementale la penalità stabilita per il gap;  La matrice viene riempita per colonne valutando 3 opzioni possib ili: 1. Spostamento verticale corrisponde all’inserimento di un gap: avanzo sulla sequenza a sinistra prendendo un carattere da li ma sono ferma sulla sequenza in alto la quale avrà un gap in quella posizione che sto ipotizzando di aggiungere; 2. Spostamento or izzontale corrisponde all’inserimento di un gap: sto ferma sulla sequenza di sinistra e aggiungo un carattere sulla sequenza in alto; 3. Cella di provenienza è quella diagonale a cui aggiungo il punteggio proveniente dallo schema di punteggio: aggiungere un c arattere a ciascuna sequenza. Procedo riempiendo tutta la matrice procedendo con le scelte (privilegiando quella che restituisce il massimo valore possibile) e segnando il percorso con delle frecce. Se ci sono delle opzioni che danno lo stesso valore, terr ò memoria di entrambe le possibilità e dunque segneremo il percorso di entrambe le scelte. =l punteggio assegnato all’allineamento ottico delle nostre sequenze è quello riportato nell’ultima casella in basso a destra. Ci possono essere più percorsi, tutti corrispondenti ad allineamenti ottimi. Per dare la soluzione completa, bisogna calcolare tutti gli allineamenti valutando in maniera esaustiva tutti i percorsi a ritroso che abbiamo a disposizione N.B . una freccia diagonale corrisponde a prendere un carat tere da ciascuna, una freccia verticale significa prendere un carattere dalla sequenza di sinistra e mettere un gap nella sequenza in alto; una freccia orizzontale corrisponde a prendere un carattere dalla sequenza in alto ed inserire un gap nella sequenza a sinistra. La procedura può essere sintetizzata attraverso una scrittura di tipo matematico dove f è la matrice della procedura e gli indici puntano alle celle della matrice:  (0,0) : cella in alto a destra  (i,j): generica cella che avrà un valore in base al massimo che possiamo ottenere da 3 possibilità: 1. Spostamento verticale: cella della riga precedente di quella che vogliamo riempire in cui vado a prendere il valore della cella di provenienza a cui sommo ‘d’ che è la penalità corrispondente al gap; 2. Spos tamento orizzontale: prevede di prendere il punteggio della cella della colonna precedente e sommare ad esso la penalità relativa al gap; 3. Spostamento diagonale: prendiamo un carattere da ciascuna sequenza in cui prendo il valore dalla cella della riga e de lla colonna precedente a cui sommo il punteggio che leggo nello schema di punteggio per quello specifico allineamento. Delle 3 opzioni, prendo il massimo. Passiamo all’allineamento locale: Rispetto al globale, nel locale è presente una quarta opzione di riempimento della matrice che consiste nell’aggiungere uno zero: questo implica, direttamente come prima conseguenza, che non ci sono numeri negativi (se tra le opzioni canoniche il massimo valore possibile che possiamo raggiungere è negativo, andremo comu nque ad inserire lo zero). Altra differenza: questa volta il punteggio lo ricaviamo andando a cercare la cella con il valore massimo e che sarà la cella di partenza da cui ricostruire l’allineamento. MATRICI DI SOSTITUZIONE La matrice di sostituzione sar ebbe lo schema di punteggio utilizzato per l’algoritmo ottimo. Parliamo in particolare della matrice BLOSUM (blocks substitution matrix) che è una matrice di sostituzione ottenuta prendendo delle sequenze amminoacidiche abbastanza simili tra loro, già alli neate; sono state estratte le porzioni di questi allineamenti multipli prive di gap, che chiamiamo blocchi. Andiamo a valutare gli allineamenti all’interno dei diversi blocchi per ricavare la matrice di sostituzione, cioè lo schema di punteggio. Vediamo il meccanismo su un blocco giocattolo in cui abbiamo poche sequenze, poche sostituzioni e un alfabeto di soli 3 caratteri; siccome stiamo ricavando la matrice di sostituzione di sequenze tutte allineae, c’è una circolarità risolta realizzando uno schema di p unteggio banale in cui il match vale 1 e il miss -matching vale 0. In questo blocco abbiamo 6 sequenze allineate tra di loro osservate su 4 posizioni: abbiamo quindi 24 amminoacidi osservati. Possiamo pertanto ricavare le frequenze di occorrenza dei 3 carat teri:  14/24 per A  4/24 per B  6/24 per C Possiamo poi a ricavare la frequenza delle coppie; le coppie possibile sono 60: abbiamo 4 volte le 4 posizioni, le combinazioni per ricavare delle coppie sono (6 2) [FATTORALE]. Gli allineamenti sono quindi le combinazioni che ottengo da 6 elementi se faccio combinazioni su 2 elementi. Ottenute le frequenze e le coppie, vado a costruire la matrice. In particolare prendiamo in considerazione 2 fattori: 1. La proporzione osservata: calcolata per le diverse coppie e a llineamenti; 2. La proporzione attesa: data dal prodotto delle frequenze occorrenza degli elementi presenti nella sequenza (se gli elementi sono diversi, si moltiplica per 2); Si fa poi il rapporto tra proporzione osservata e proporzione attesa, prendendolo t rasformato nel logaritmo in base 2 moltiplicato per 2; arrotondo il risultato al numero intero più vicino. N.B. Nella realtà la matrice di sostituzione è 20*20 (perché sono 20 amminoacidi) e rispecchia quanto si vede nelle sequenze reali: una sostituzione che si osserva poco in natura sarà penalizzata da un punteggio negativo mentre una sostituzione che si osserva spesso in natura sarà caratterizzata da un punteggio elevate. N.B. La dicitura BLOSUM è sempre seguita da un numero che indica una percentuale di identità (es 62%): le sequenze con identità mutua sopra il numero indicato (62%) sono state riunite e concorrono come unica sequenza nei conteggi appena visti. Supponiamo di avere la collezione di sequenze, tra le quali ci sono sequenze molto vicine tra d i loro con identità sopra il 62%; queste vengono raggruppate come unico cluster e vengono considerate come unica sequenza nei conteggi appena visti. Questo vuol dire che ci teniamo come sequenze su cui fare i calcolo quelle che hanno al massimo il 62% di i dentità. La soglia può cambiare: possiamo avere varie percentuali di identità e d conseguenza i diversi tipi di blosum; questo si riflette sul tipo di utilizzo che possiamo fare, infatti più è alta la percentuale più sarà adatta a confrontare sequenze vici ne evolutivamente. Dunque se vogliamo allineare sequenze vicine evolutivamente con poche differenze è più adatta una blosum85 rispetto ad una blosum24, ad esempio. Più è alta la percentuale, più conterò come singole sequenze quelle che sono simili tra lor o; più è bassa la percentuale, più avrò costruito la matrice di sostituzione sulla base di sequenze che sono meno simili tra di loro. LEZIONE 3 COMPLESSITA’ DEGLI ALGORITMI OTTIMI L’allineamento ottimo, per quanto tale, è molto costoso in termini computaz ionali sia per tempi di calcolo che per occupazione di memoria ; per ottenere un risultato pressoché immediato per confrontare sequenze, l’allineamento ottimo non è indicabile. Solitamente abbiamo una sequenza amminoacidica che deve essere confrontata con a ltre sequenze per vedere se ci son similarità e ricavare qualche informazione. Questo comporta la presenza di tanti allineamenti; si incorre ad una soluzione euristica, data dalla pratica, che non assicura dal punto di vista teorico la soluzione ottima ma, in base alla pratica, risulta essere comunque uno strumento utile che fornisce delle soluzioni accettabili. BLAST Studiamo la più famosa soluzione euristica per il problema dell’allineamento. BLAST, che consente di confrontare una sequenze con tantissime frequenze note, è una famiglia di programmi: 1. BLASTP: consente di confrontare una sequenza amminoacidi con un database di amminoacidi; 2. BLASTN: consente di confrontare una sequenza nucleotidiche con un database di sequenze nucleotidiche; 3. BLASTX: l’input è un a sequenza di DNA che viene tradotta in tuti i modi possibili e confrontata con un database di sequenze amminoacidiche; 4. TBLASTN: si parte da una proteina, questa verrà allineata con la traduzione di sequenze nucleotidiche del database target; 5. TBLASTX: la s equenza in input è nucleotidica, le sequenze del database target sono nucleotidiche ma l’allineamento viene fatto sulle rispettive possibili traduzioni; Le possibili traduzioni sono 6 perché ci sono 3 basi per ogni filamento. Supponiamo di avere una sequenza di DNA con una serie di caratteri a noi sconosciuti, questa può essere tradotta in 3 modi possibili: 1. Partire dalla prima base 2. Partire dalla seconda base 3. Partire dalla terza base Se shifto ancora ritroviamo la successione di amminoacidi della prima modalità di traduzione. Se però non abbiamo annotazioni di questa sequenza, la possiamo tradurre anche sul filamento antiparallelo su cui andremo a considerare le basi complementare e a tradurre la stinga corrispondente nelle 3 modalità possibili (per un totale di 6 possibili traduzioni). Dunque la sequenza di DNA può essere tradotta in 3 modalità diverse, chiamate OPEN READING FRAME . BLAST cerca di risolvere il problema in maniera più efficiente spezzettando il problema e concentrando l’attenzione su par ti di sequenze piuttosto che sulla sequenza intera. Studiamo l’algoritmo su BLASTP:  si parte dalla costruzione di un vocabolario fatto dalle sotto sequenze di lunghezza fissata W (‘words) con sovrapposizione; se ad esempio W=3, consideriamo tutte le parole da 3 che possiamo costruire con sovrapposizione;  non ci accontentiamo delle sotto sequenze: cerchiamo di ampliare il vocabolario prendendo parole che sono variazioni delle sotto sequenze reali ma comunque simili alla sotto sequenza originaria sopra una ce rta soglia. Confronto quindi le 2 parole sulle 3 posizioni e vado a vedere nella matrice di sostituzione quanto vale l’appaiamento di amminoacidi nelle prima, seconda e terza posizione ed ottengo un punteggio; se il punteggio supera una certa soglia T, all ora la sotto sequenza variata di essere inclusa nel vocabolario;  Costruito il vocabolario, le parole all’interno vengono cercate nel database; questo meccanismo rende più efficiente la ricerca di parole simili;  Una volta trovata la parola, l’algoritmo cerc herà di estendere l’allineamento a monte e a valle dalla parola che all’inizio è di sole posizioni cercando di costruire un allineamento più ampio della lunghezza della parola;  Gli allineamenti vengono poi valutati dal punto di vista statistico. Quindi abb iamo 3 fasi: 1. Viene compilata la lista di parole selezionate in base ai punteggi 2. Si cercando le corrispondenze selezionate in un database 3. La corrispondenza viene estesa a monte e a valle per vedere se c’è una corrispondenza che interessa una regione più amp ia L’estensione viene estesa fin quando risulta conveniente: nel grafico viola si vede il punteggio cumulativo man mano che l’estensione avanza. C’è la corrispondenza originale sulla parola di 3 aminoacidi e poi, cercando di estendere l’allineamento, il pu nteggio viene aggiornato. Il criterio implementato in blast è quello di terminare l’estensione nel momento in cui il punteggio scende sotto il massimo raggiunto. BLAST è uno strumento di analisi proposto tanti anni fa; dopo la prima versione, c’è stata un aggiornamento per velocizzare l’analisi basata sulla scelta di elaborare sequenze che abbiamo almeno una corrispondenza di 2 parole entro una certa distanza; sul grafico osservato, la distanza va valutata sulla diagonale. Se osserviamo il grafico, su cui s ono riportate la sequenza in input e quella nel database, ci sono delle crocette che corrispondono alle corrispondenze; la sequenza in database sarà tenuta nel risultato ed elaborata ulteriormente se e solo se c’è una coppia di corrispondenze che giacciono sulla diagonale ad una distanza entro un parametro A. Sulla base del repertorio accumulato fino ad ora, il fatto che le corrispondenze debbano essere sulla diagonale implica che non ci sono gap; quindi si va da una corrispondenza all’altra senza inserire gap nell’allineamento. Questo è un filtro aggiunto dopo la prima versione per velocizzare ulteriormente l’analisi. Come risultato si ottengono tante sequenze simili alla sequenza in input ed una significatività in termini di valore atteso (e -value); più è piccolo questo valore, più l’allineamento è significativo e si discosta dalla casualità. =l punteggio, per quanto essenziale nell’allineamento, non si guarda mai nella pratica. I possibili risultati sono 3: 1. Quando c’è perfetta corrispondenza, viene ripetut o l’amminoacido; 2. Quando ci sono i vuoti vuol dire che non c’è corrispondenza; 3. Quando ci sono i ‘+’ vuol dire che gli amminoacidi non sono identici ma rappresentano delle sostituzioni non troppo gravi dal punto di vista biochimico. Ciò che l’algoritmo restituisce è la collezione di allineamenti con i rispettivi punteggi. Nella slide abbiamo una tipica rappresentazione grafica in cui ci sono barre colorate che rappresentano le sequenza individuate e in questo caso i diversi colori ind icano i diversi range di punteggi raggiunti. =l risultato di blast è l’elenco delle sequenze allineamento alla quiery e il punteggio correlato alla significatività statistica. Viene riportato un esempio di allineamento tra due sequenze molto simili tra l oro: in alto viene riportata la sequenza quiery, poi c’è la sequenza del database. Gli amminoacidi identici vengono riportati nella sequenza al centro; viceversa, in caso di mancate corrispondenze, posso trovare uno spazio o un ‘+’. Lo score può essere gre zzo oppure può essere normalizzato e riportato in termini di bit score. Il bit score è ottenuto dallo score calcolato con l’allineamento elaborato attraverso la trasformazione riportata in slide (lampa: dipende dalla matrice di sostituzione; k: dipende dal la matrice del database). Torniamo alla statistica: si è partiti da un’osservazione pratica in cui è stato calcolato il punteggio che si ottiene per caso con una sequenza sonda andando a valutare gli allineamenti di un’ampia collezione di sequenza; in altr e parole, presa una sequenza qualunque, vado ad allinearla con un database di sequenze e vado a vedere quanti allineamenti ottengo con i vari tipi di punteggio. Questa distribuzione delinea questo tipo di informazione: abbiamo l’istogramma per gli allineam enti relativi ai diversi valori di punteggio. A seconda del punteggio, abbiamo un diverso numero di sequenze (i quadratici indicano gli allineamenti ottenuti per i diversi valori di punteggi in maniera casuale). Quella che si delinea è una distribuzione ch e non è proprio gaussiana ma è una distribuzione asimmetrica che ben si modella con un’altra distribuzione caratterizzata in statistica, quella del valore estremo. In base alla descrizione analitica del suo andamento (le formule), è stato possibile che la probabilità di avere un punteggio ‘S’ sotto un certo valore di soglia ‘x’ è pari alla formulazione riportata nella slide. Il fatto di poter scrivere la probabilità con una forma esplicitata è data dal fatto di riconoscere nell’andamento empirico dei punteg gi proprio il comportamento del valore estremo e quindi dà la possibilità di adottare le formule di questa distribuzione per trattare analiticamente l’andamento dei punteggi. P-value Facciamo un ragionamento parallelo sull’occorrenza degli eventi con eleva to punteggio, cioè sopra una certa soglia. In generale la probabilità di trovare un HSP (high score segment) con un punteggio >= S può essere modellato da una distribuzione di Poisson utile a fare riferimento ad eventi discreti e in cui la variabile modell izzata è proprio :SP. Questa corrisponde alla probabilità di trovare ‘b’ :SP con ‘E’ come valore atteso con cui essi si presentano. Se questa è l’espressione della probabilità che abbiamo scritto basandoci sulla densità di probabilità di Poisson (gamma: va lore atteso; k: valore assunto dalla variabile), ponendo b=0 otteniamo la probabilità di ottenere 0 HSP che si riduce alla scrittura con esponenziale riportata nella slide. A questo punto, togliendo ad 1 la probabilità di trovare 0 HSP, ricaviamo la probab ilità di trovarne almeno 1; questa è l’espressione della probabilità che ottengo tramite ragionamento basato sull’utilizzo della poissoniana che esprime la relazione tra P -value e valore atteso ‘E’. Richiamiamo poi il valore della probabilità scritto in vi rtù dell’utilizzo del valore estremo ed otteniamo l’espressione del valore atteso ‘E’ (non è una probabilità; quantità che ci aspettiamo in media di HSP con almeno quel punteggio). Più E -value è alto, più è facile ottenere per caso il risultato e quindi do bbiamo fare attenzione a fare affidamento sul risultato in quanto facilmente ottenibile a caso). Blast restituisce le sequenze allineate corredate da un punteggio che viene ottenuto considerando in punteggi della matrice di sostituzione scelto. Assieme al punteggio, normalizzato con lo score, viene dato anche P -value che rappresenta la significatività statistica che non viene data in termini di probabilità ma in termini di P -value. Significatività statistica: numero che ci aspettiamo in media di eventi di q uel tipo, dove gli eventi sono gli :SP di almeno punteggio ‘S’ ottenuto tramite l’allineamento. Solitamente blast restituisce sequenze che corrispondo ad un P -value di almeno 10. Più è piccolo questo valore, più l’evento è raro e più è significativo il ris ultato che stiamo guardando; viceversa se il P -value è alto possiamo ottiene allineamenti con un punteggio pari maggiore al punteggio ottenuto facilmente (è un evento comune). E’ molto più semplice guardare la significatività statistica per capire se il r isultato che stiamo guardando è qualcosa di facilmente ottenibile a caso oppure qualcosa di raro perché il punteggio, anche se normalizzato, non è facilmente valutabile. Nella pratica, man mano che andiamo verso E -value e P -value piccoli, i due valori ten dono a coincidere. [ATTENZ=ONE ALLA FORMAL=TA’ TEOR=CA D= P -VALUE ED E -VALUE]: sono entrambe significatività statistiche in quanto consentono di valutare quanto è rilevante il risultato; dal punto di vista pratico vado a vedere quanto il valore di signific atività è piccolo (E -value e P -value sotto una certa soglia) perché più è piccolo il valore e più il risultato è significativo (si discosta dalla casualità). POSITION SPECIFIC SCORING MATRIX (PSSM) Esiste una variante dell’algoritmo blast, C -blast, che s i basa su una matrice di sostituzione posizione specifica. Si tratta di una matrice rettangolare in cui abbiamo n righe per m colonne (n righe sono tanti quanti sono i caratteri dell’alfabeto [20 nel caso di sequenze amminoacidiche], m sono le posizione co nsiderate [lunghezze della quiery o dell’allineamento utile]). Non è più una matrice quadrata ma una matrice rettangolare in cui ogni punteggio corrisponde al punteggio relativo ad un certo amminoacido er una spefcifica posizione occupata, quindi non è un punteggio di allineamento tra un carattere e l’altro am si da valore al fatto che un carattere occui una certa posizione nell’allineamento formato. Questa variante di blast è un tipo di analisi iterativa, cioè dobbiamo effettuare più round di analisi er ar rivare al risultato; ad ogni iterazione si aggiorna la matrice di posizione specifica. Vediamo in sintesi come funziona:  si entra in gioco con una matrice di sostituzione qualunque (tipicamente BLOSUM62) perché la matrice di posizione specifica si costrui sce con l’analisi stessa; per effettuare la prima iterazione utilizziamo quindi una matrice di sostituzione normale  con un blast ottengo l’elenco delle sequenze simili con significatività sopra una certa soglia  le sequenze selezionate, vengono elaborate i n quanto allineate e, sulla base dell’allineamento, viene elaborata la matrice posizione specifica in quanto viene calcolato il peso dato dalla frequenza di occorrenza che ogni carattere ha in una specifica posizione  la matrice viene calcolata dando un val ore ad ogni amminoacido per ogni posizione dell’allineamento  il punteggio viene nel dettaglio calcolato in base alle frequenze di occorrenza e tenendo conto delle frequenze di background (frequenza con cui si presentano tutti gli amminoacidi stimati du un’ osservazione quantitativa del sistema che stiamo osservando) e correggendo per il peso delle frequenze, nel senso che le sequenze ridondanti vengono penalizzate in modo da non polarizzare la matrice di sostituzione  calcolata la matrice posizione specifica con uno score per i 20 amminoacidi nelle diverse posizioni, viene effettuata una nuova iterazioni e quindi una nuova ricerca nelle sequenze del database, questa volta non utilizziamo la BLOSUM62 ma direttamente la matrice posizione specifica come sonda del la nostra ricerca e quindi un operatore elaborato sulla base delle sequenze ottenute nella prima iterazione  le sequenze così trovate che ben si adattano alla matrice posizione specifiche e che danno un punteggio elevato rispetto a questa ricerca, saranno i l nuovo risultato  di nuovo valuto le sequenze più significative per rifinire la matrice di posizione specifica ed effettuare una nuova iterazione sulla base dell’operatore così corretto  il processo si itera; ad ogni iterazione correggo la matrice posizione specifica in modo da trovare nuovi risultati. Quando arrivo ad un punto di convergenza, arrivo al termie del procedimento perché le iterazioni non danno più nuovi risultati Utilizzare c -blast al posto di blast permette di trovare più risultati rispetto alla classica ricerca blast perché c - blast ha maggiore sensibilità. Con c -blast effettuiamo una ricerca di allineamenti potenziata in cui andiamo ad elaborare una matrice custom specifica per la ricerca che può aiutare a trovare sequenze dalla significativ ità più remota rispetto al punto di partenza e che però possono avere un significato importante dal punto di vista biologico. Blast arriva fino ad un certo punto mentre c -blast consente di catturare similarità un po’ meno forti che la matrice di sostituzio ne specifica può individuare. LEZIONE4 FILOGENETICA La filogenetica ha come scopo lo studio delle relazioni dal punto di vista evolutivo. Si tratta di un’ulteriore strumento che abbiamo per manipolare sequenze e consente di studiare meglio il genoma umano per il paradigma secondo cui le regioni osservate sono regioni funzionali e possiamo prendere qualcosa dagli altri organismi e proiettarlo sull’homo sapiens. L’approccio è quello di costruire alberi filogenetici che mettano in relazione le varie sequ enze. Mentre nel passato le relazioni potevano essere valutate solo su aspetti morfologici, nel momento si hanno a disposizione le sequenze tutto ciò diventa quantitativo e legato al dato di sequenza. La genetica umana stesa ha visto questa evoluzioni: da osservazioni qualitative si è passato ad evoluzioni quantitative ed oggettive. L’albero è un particolare tipo di grafo (struttura composta da nodi e connessioni). All’interno di un grafo possiamo individuare un percorso come insieme di connessioni consecut ive e diremo che un grafo è connesso se dati due noti qualunque esiste almeno un percorso che li collega. Un albero è un grafo connesso con esattamente un percorso per ogni due nodi. Talvolta le connessioni sono dotate di una misura, cioè un dato quantitat ivo che caratterizza l’entità della connessione stessa. Sulla parte sinistra della slide è riportato lo schema di un possibile albero con la radice (nodo da cui tutti gli altri nodi discendono), poi distinguiamo i nodi terminali o foglie. Quando non parlia mo né di nodi terminali né di radice, parliamo di nodi interni. Le foglie rappresentano le entità che vogliamo mettere in relazione, tipicamente sequenze; in filogenetica tali nodi sono rappresentati da sequenze, dette OPU, rappresentative di organismi e g enomi specifici a seconda del problema che stiamo affrontando. Se osserviamo l’albero evidenziato nel cerchio e poi guardo i due alberi al lato, noto che l’albero in alto non è equivalente all’albero a sinistra mentre quello in basso lo è. Dobbiamo quindi fare attenzione alla tipologia d’albero, cioè al modo in cui i nodi sono connessi tra di loro: in particolare gli alberi sulla prima riga rappresentano la stessa tipologia (indicano le stesse relazioni: A e B sono connessi da un nodo intermedio e la radice connette tale nodo intermedio con il nodo terminale C); gli alberi sulla riga in basso, invece, hanno 3 configurazioni non equivalenti tra loro e quindi indicano 3 tipologie differenti. Altra caratteristica in un albero è la presenza o meno della radice. Sulla slide abbiamo un albero dotato di radice e un albero senza radice: è intuitivo che nel primo caso la direzione del tempo è esplicita, cioè nel momento in cui l’albero è dotato di radice sto indicando anche una direzione del tempo (dalla radice ai dis cendenti); viceversa, nel caso di albero senza radice, la direzione nel tempo non è esplicita e si hanno solo relazioni tra i diversi nodi. Supponiamo di avere 3 nodi da mettere in relazione e proviamo ad immaginare quali sono i modi per mettere in relazio ne: dati 3 OPU, abbiamo 3 possibili alberi. Nel caso in cui abbiamo 4 OPU, abbiamo 3 possibili alberi senza radice e 15 alberi con radice (quindi le topologie che possiamo individuare hanno questa numerosità). Negli anni 60 è stata trovata una regola anali tica che restituisce il numero di possibile topologie, a partire dal numero di OPU, nel caso di albero senza radice e nel caso di alberi con radice. Si tratta di un’espressione con dei fattoriali che porta il numero di topologie possibili a crescere molto rapidamente in funzione del numero di OPU [10 OPU, che sono solo 10 sequenze, ci danno già un numero di topologie dell’ordine dei milioni]. Questo ci fa comprendere che il costo computazionale della costruzione di un albero filogenetico può essere un aspet to critico. Analisi filogenetica Occupiamoci adesso delle tecniche di identificazione di albero filogenetico a partire dalle sequenze e quindi al partire dal numero di OPU. I metodi si suddividono in approcci fenetici e approcci cladistici. Nel primo caso parliamo di metodi basati su ista nze mentre nel secondo caso ci si riferisce a metodi che ricostruiscono in linea di principio una possibile storia evolutivo [CLADE: è il termine con cui ci riferiamo ad un nodo tipicamente interno e a tutti e soli i nodi che da esso discendono].Nella prim a categoria inseriamo UPGMA Clustering . Nella seconda categoria inseriamo i metodi a massima parsimonia e a massima somiglianza . UPGMA CLUSTERING Si tratta di un approccio clustering gerarchico in cui, a partire dagli elementi che vogliamo elaborare, gener iamo una gerarchia che determina l’albero filogenetico. Supponiamo che i 6 pallini rappresentino le sequenze che vogliamo mettere in relazione; per visualizzare qualcosa di più concreto supponiamo di voler mettere in relazione 6 specie osservando uno speci fico gene al fino di confrontarne le varie sequenze e vederne l’evoluzione. Questo serve a fare osservazioni su u gene specifico e sulla sua funzionalità su una certa specie al fine di aiutare alla decodifica dell’informazione. Tornando alla procedura ogge ttiva, dobbiamo determinare la misura della similarità tra le varie sequenze intendendo che per ogni coppia di sequenza ho bisogno di una misura di similarità (cioè di distanza). Una volta ottenute le distanze mutue, cerco la coppia di sequenze più simili e vado a riconoscerle come tali riunendole in un cluster (es. ultime 2). Aggiorno le valutazioni sulla similarità, considerando il fatto che le due sequenze sono riunite in un elemento nuovo che prima non c’era: in questa fase quindi ho 5 elementi, non più 6. Procedo come prima individuando due elementi vicini tra di loro e di nuovo aggiorno i valori di similarità. =l processo si ripete fino a completare la gerarchia dell’albero filogenetico. ESEMPIO GIOCATTOLO: abbiamo 4 specie che vogliamo mettere in rela zione e rappresentato da sequenze di 4 basi; immaginiamo di confrontare le sequenze con un allineamento banale (senza gap, prima base con prima base, seconda con seconda etc…); possiamo delineare la matrice delle distanze. Possiamo quantificare il numero d i posizioni in cui le sequenze differiscono: ATCC e ATCG hanno solo la terza posizione differente e quindi nella matrice delle distanze calcolata ci sarà 1; tra ATCC e TTCG solo la prima e l’ultima posizione sono differenti e quindi nella matrice ci sarà 2 ; e così via…=n questo modo quantifichiamo la distanza tra le sequenze in gioco e questi valori vanno a popolare la matrice delle distanze (ci importa della semi matrice in quanto simmetrica). Una volta che ho tutte le distanze, considero le sequenze più v icine tra loro e le unico in un cluster. Aggiorno la matrice: devo tener conto del fatto che non ci sono più 4 elementi da elaborare ma 3 in virtù del fatto che due sequenze si sono unite. Il nuovo elemento deve essere valutato come tale e la distanza risp etto ad un’altra sequenza sarà la media aritmetica delle distanze originali [media della somma delle distanze di ogni sequenza del cluster rispetto alla nuova distanza].Una volta aggiornata la matrice, itero il processo fino ad ottenere l’albero filogeneti co finale. MAXIMUM PARSIMONY L’idea di questa tecnica è quella di considerare tutte le tipologie possibili in maniera esaustiva per mettere in relazione i nodi (OPU) cioè le sequenze che stiamo analizzando e che vogliamo mettere in relazione, costruendo un albero in cui le sequenze che stiamo analizzando saranno le foglie. L’idea di questa tecnica è quella di considerare tute le tipologie d’albero possibile per mettere in relazione le sequenze e scegliere come albero filogenetico quello che prevede il minor numero di sostituzioni. Guardiamo questo esempio giocattolo: abbiamo 3 possibili modi per mettere in relazioni le sequenze presenti; le barrette di colore rossa e ocra rappresentano le sostituzioni necessarie per andare da un nodo all’altro. Sulle possibi li tipologie considerare in maniera esaustiva, andiamo a calcolare il costo in termini di sostituzioni previste. L’albero che risulterà vincente sarà l’albero con il minor numero di sostituzioni (in questo caso il primo albero in cui abbiamo 2 sostituzioni , negli altri casi ci sono 3 sostituzioni). Si tratta di un metodo molto più costoso in termini computazionali rispetto a quello basato sulle distanze perché dobbiamo considerare tutte le possibili combinazioni, tutte le possibili foglie. Nella realtà esi stono soluzioni euristiche che consentono un risparmio in termini di costo computazionale. MAXIMUM LIKELIHOOD METHODS Anche in questo caso dobbiamo considerare tutte le combinazioni possibili. Quello che cambia è come vado a valutare gli alberi per stabili re la configurazione vincente: in questo caso l’albero vincente è quello a massima verosimiglianza. Per determinare la verosimiglianza di ciascun albero, sfruttiamo delle probabilità di sostituzione: abbiamo bisogno di una matrice di sostituzione, che in q uesto contendo chiamiamo modello di evoluzione. Si parte da un multi allineamento, quindi le sequenze sono messe a confronto con un multi allineamento all’interno del quale andiamo a considerare le singole posizioni colonne. Nell’esempio è evidenziata la colonna che contiene le basi CCAT riportate come foglie nel possibile albero; l’idea è quella di disporre rispetto all’albero le foglie prendendo le singole basi e calcolare tutte le possibili combinazioni che possono aver portato a quelle foglie. Ogni comb inazione viene valutata in termini di verosimiglianza che è semplicemente la produttoria di tutte le sostituzioni in gioco. L0 : probabilità di background, non ha a che fare con la sostituzione ma è semplicemente la probabilità di osservare quel carattere e si stima su un numero di sequenze rappresentative del genoma che stiamo studiando. Valutiamo tutte le verosimiglianze dei possibili alberi e le sommiamo tra loro in quanto eventi mutuamente esclusivi che portano tutti alle foglie che osserviamo. Noi siamo partiti dall’i -esima colonna del multi allineamento: dobbiamo fare il calcolo visto per tutte le colonne del multi allineamento. A quel punto tutte le possibili ricostruzioni vengono moltiplicate tra loro perché devono valere contemporaneamente (una seque nza infatti è fatta di più basi). In questo modo abbiamo ottenuto la verosimiglianza del nostro albero. Però la strategia prevede di dare un valore di verosimiglianza ad ogni possibile combinazione di albero: dobbiamo rifare il calcolo visto per ogni possi bile topologia. Si parte dalla topologia di albero che si base sulla sequenza delle basi iniziali e poi si passa alle altre topologie modificando la posizione delle basi. Una volta calcolato tutte le verosimiglianze per tutte le tipologie, sceglierò come a lbero risultato quello con la verosimiglianza più alta che risulta essere quello più probabile. BOOTSTRAPPING Tutte le volte possibili cerchiamo di dare un valore di affidabilità al nostro risultato. Quando il nostro risultato è l’oggetto albero, possiamo utilizzare la tecnica di Bootstrapping che da luogo a numeri associati ai diversi nodi degli alberi. Vediamo l’esempio giocattolo: a partire dal multi allineamento che contiene le sequenze originali, andiamo ad effettuare un campionamento delle colonne con rimpiazzo (possiamo pescare più volte la stessa cosa). Le colonne che abbiamo nell’allineamento (ricampionanto) non contiene le colonne 3 e 7 perché c’è stato un ricampionamento con rimpiazzo. Da questo allineamento calcoliamo nuovamente il nostro albero; questa operazione di ricampionamento e calcolo di albero viene fatta un numero elevato di volte (dell’ordine delle migliaia). Devo poter calcolare una proporzione che è la frequenza di occorrenza dei diversi sotto alberi. Più alto è il numero, più è signi ficativo il risultato: pur perturbando il dato, sotto strutture dell’albero si preservano; quindi le percentuali di occorrenza diventano misure di affidabilità del risultato. LEZIONE 5 PAM (Point accepted mutation) E’ una matrice di sostituzione utilizzata tipicamente nell’implementazione di Blust. Con la dicitura PAM intendiamo una sostituzione accettata nelle mutazioni: parliamo di una mutazione che si propaga. Si tratta di un operatore definito negli anni 70: la ricercatrice ha fatto questo lavoro collez ionando un certo numero di sequenza amminoacidiche sufficientemente vicine tra di loro, quindi abbastanza simili (le sequenza non differivano tra loro più del 15%). Per i blocchi ottenuti sono stati costruiti alberi filogenetici a massima parsimonia, qui ndi il singolo blocco è stato utilizzato come multiallineamtno di partenza per la costruzione dell’albero filogenetico a massima parsimonia. Esempio: abbiamo 3 sequenze e 2 posizioni; da questo mini blocco, l’albero filogenetico costruito a massima parsimo nia è quello riportato in basso (il risultato è l’insieme di 5 alberi tutti equivalenti in termini di costo: costano infatti tutti 2 posizioni). Siccome tutti gli alberi hanno lo stesso costo, ci teniamo la soluzione multipla. A questo punto contiamo il nu mero di allineamenti (abbiamo 5 addendi perché ognuno corrisponde al conteggio effettuato su un albero). I conteggi verranno da tutti i blocchi estratti e da cui abbiamo ricavato alberi filogenetici. A partire dalla matrice di conto, che chiamiamo ‘A’, pro cediamo con questi passaggi: passiamo ad una matrice di elementi ‘a’ in cui ogni elemento è stato diviso per la somma degli elementi della riga a cui appartiene; passiamo poi ad una nuova matrice di elementi più piccola moltiplicando per la costante ‘c’ tu tti gli elementi della matrice precedente tranne quelli della diagonale (questi rimangono determinati per differenza, cioè quello che manca per arrivare ad 1 e quindi se sommo tutti glie menti della riga ottengo 1); ricavo ‘c’ il quale è dato da 0.01 divis o per una doppia sommatoria (quella interna è fatta sulle sostituzioni propriamente dette eliminando le conservazioni, quella esterna considera tutti gli amminoacidi; pj: probabilità di background). In questo modo forziamo la matrice ad essere rappresent ativa di un range di sostituzione che è di 1 PAM, cioè una sostituzione mutuale accettata su 100. In questo modo otteniamo una matrice che rappresenta una certa distanza evolutiva (con cui copriamo una sostituzione dell’1%). Se vogliamo una distanza evolutiva maggiore, assumiamo che ogni posizione cambia in maniera indipendente dalle altre posizioni. La probabilità di sostituzione è identica in tutte le posizioni. L’evoluzione non ha memoria dei passi precedenti. Date queste a ssunzioni, possiamo modellare lo scenario attraverso una catena Markoviana in cui abbiamo le probabilità di sostituzione dei diversi amminoacidi. Quindi se volgiamo coprire una distanza maggiore, sfruttiamo il fatto di aver chiamato in causa il modello del le catene Markoviane e scriviamo la probabilità che, data x=a al tempo t, ci consente di arrivare a x=b dopo un tempo 2delta saltando il passaggio intermedio: La matrice che corrisponde al passo di evoluzione doppia non è altro che il prodotto dell a matrice unitaria per se stessa. Possiamo generalizzare questo concetto estendendo a ndelta. MODELS OF DNA SEQUENCES EVOLUTION Jukes -Cantor E’ modello di evoluzione che prevede che tutte le sostituzioni (elementi fuori dalla diagonale) siano equiprobabili mentre le confermazioni siano ricavate per differenza. Generalizziamo alla t -esima potenza la matrice del modello di Jukes -Canton, posto ch e sia stata effettuata la sostituzione ’= 3 . Dobbiamo quindi riscrivere gli elementi fuori dalla diagonale con ’/3 e un generico elemento della diagonale come (1 -’/3). Possiamo prendere la probabilità che ci sia una sostituzione e che sarà pari a 3 vol te l’elemento fuori dalla diagonale. Esplicitiamo tutto in funzione di t. Utilizzando l’approssimazione riportata nella SL=DE, possiamo ottenere la distanza stimata che ha l’espressione generale riportata nella SLIDE (p: proporzione di sostituzione che oss ervo nelle sequenze). N.B. Si tratta di una correzione che tiene conto delle sostituzioni che non possiamo osservare. Immaginiamo due sequenze in cui ci sono state 2 sostituzioni sulla lunghezza totale dell’allineamento e altre sequenze in cui invece ci s ono state tante sostituzioni. Se le sostituzioni sono tante, potrebbe capitare di non vederle perché potrebbe capitare che in una posizione ci sia stata già un’altra sostituzione. Quindi in questo senso, la distanza è una sorta di correzione per tenere con to di queto aspetto. Per frequenze di sostituzioni basse, la distanza rimane più o meno vicina al valore della proporzione iniziale; man mano che sale la frequenza di sostituzione, la distanza sale al fronte di voler tener conto anche delle sostituzioni ch e non posso vedere. HIDDEN MARKOV MODELS Fino ad ora abbiamo visualizzato transizioni tra caratteri dell’alfabeto (basi nel caso di Hukes -Cantor, amminoacidi nel caso di PAM). Vogliamo ora studiare i modelli markoviani nascosti, fondamentale per trovare il modello analitico. Il modello markoviano è dato da: 1. un alfabeto di simboli 2. un set infinito di stati 3. insieme di probabilità di transizione tra gli stati e di emissione Nel modello markoviano nascosto non c’è più corrispondenza tra stato e simbolo. Fino ad ora abbiamo fatto riferimento all’evento per cui un carattere diventa un altro carattere; in questo caso stiamo generalizzando lo strumento e considereremo transizioni tra stati che non corrispondono necessariamente ai caratteri dell’alfabeto ma sono in gr ado di emetterli. Osserviamo un motivo di sequenza descritto attraverso questo schema: Questo schema è fatto da 3 livelli: quadrati, quadrati ruotati e cerchi. Il primo livello è quello degli stati principali, poi abbiamo gli stati delezione (viene utili zzato per eliminare i gap) rappresentati dai cerchi e gli stati di inserzione nell’intermedio. Supponiamo di avere una serie di sequenze note per avere la stessa funzione all’interno del genoma. La prima posizione consente la A o la T, nella seconda leggo o la G o la C, nella terza c’è A o C, poi c’è la zona centrale scarsamente conservata, poi c’è una zona ben conservata in cui c’è A, nella penultima posizione c’è T o G e nell’ultima G o C. Tutto questo può essere tradotto attraverso l’espressione regolare in cui sono riportati tutti i caratteri che posso leggere nelle varie posizioni. Le sequenze sono coerenti con l’espressione regolare. Ma sono equiprobabili? NO, perché la T è vero che è presente nella prima posizione ma solo per una sequenza su 5 e così via per tutte le altre posizioni… Se l’informazione del multi allineamento la sintetizzo in questo modo, il modello perde l’effettiva occorrenza dei diversi caratteri nelle diverse posizioni. Riprendiamo dunque il modello markoviano nascosto. Questo modello descrive il nostro pattern, cioè l’allineamento da cui siamo partiti. Nella prima posizione abbiamo uno stato in grado di emettere tutti i caratteri: la base A ha una probabilità di emissione di 0.8 (4 sequenze su 5) mentre T ha probabilità di emis sione di 0.2 (1 sequenza su 5). Le frecce tra stati rappresentano le transizioni tra stati e ognuno rappresenta la probabilità di passare dallo stato precedente al prossimo (1.0 = probabilità certa). Passo al secondo stato in cui C ha probabilità di emissi one di 0.8 e G ha probabilità di emissione di 0.2. Passo allo stato successivo in cui troverò, ancora una volta, una probabilità di emissione coerente con la frequenza di sostituzione. A questo punto abbiamo due probabilità di emissione: 1. 0.4: proseguo sul layer 4 2. 0.6 probabilità di entrare nello stato inserzione Se torniamo al multi allineamento, 2 sequenze su 5 non hanno bis A questo punto abbiamo due probabilità: 1. 0.4 di rimanere prigionieri di questo stato 2. 0.6 di transizione allo stato principale Stiamo c onsiderando le sequenze in cui c’è stata l’inserzione . Sui 5 caratteri che abbiamo, per mettere il carattere successivo dobbiamo andare alla posizione delle sole A. Se siamo sulla A o sulla C della seconda sequenza, abbiamo bisogno di restare nello stato inserzione (0.4); negli altri 3 casi proseguo (0.6). Successivamente si passa con probabilità certa al penultimo stato e poi all’ultimo stato, in cui troviamo probabilità di emissioni coerenti con la frequenza di sostituzione delle sequenze. LE DUE SEQUENZ E SONO EQUIPROBABILI? Una sequenza può essere quantificata recuperando tutto il suo percorso ottenendo il valore di probabilità associato alla specifica realizzazione: Le due probabilità sono molto diverse: la prima sequenza (fatta di elementi più freque nti) è molto più probabile ella seconda (fatta di caratteri rari). La probabilità dipende dalla lunghezza della sequenza. Solitamente viene utilizzata l’espressione riportata nella SLIDE. La probabilità del modello nullo è: Questo tipo di formalismo p orta con sé tutta l’informazione che abbiamo, quindi è molto utilizzato in bioinformatica. LEZIONE 6 ANATOMY OF THE EUKARIOTIC GENE Abbiamo poi le regioni che vengono trascritte ma non sono tradotte alle estremità chiamate 5’ e 3’ per l’inizio e la fine rispettivamente. C’è poi una zona, a monte del sito di inizio trascrizione, di lunghezza non definita e che è il promotore in cui troviamo siti di legame per fattori di trascrizione. C’è una parte più vicina al sito di inizio trascrizione che solitamente c ontiene siti di legami per fattori ricorrenti e poi ci sono essere siti molto lontani dal sito di inizio trascrizione che comunque svolgono un’azione importante sulla trascrizione del gene. RUOLO DEI FATTORI DI TRASCRIZIONE I fattori di trascrizione si legano al DNA e questo legame è governato da un pattern di sequenza. Non si tratta di una sequenza esatta ma ti un pattern che consente una certa variabilità sulle diverse trascrizioni. La regolazione può essere in termini posi tivi ma anche di inibizione, questo può far immaginare un’intricata rete di interazione che sono alla base dei programmi di trascrizione. Ci sono diversi fattori di trascrizioni (4 migliaia nell’uomo) e ciascuno di questi può regolare diversi geni, quindi sulla sequenza fisica dei geni che sono regolati da un certo fattore di trascrizione ci saranno diversi siti di legami che possono essere riconosciuti. La relazione non è 1:1 (q fattore per un gene); è molto più efficiente che un fattore possa regolare più geni a seconda della funzione che il fattore deve regolare. Più fattori possono agire in combinazione sullo stesso target, quindi sulla sequenza ci saranno siti di legame specifici per diversi fattori di trascrizione. A seconda della combinazione che si r ealizza fisicamente, poi si avrà un diverso programma di trascrizione. I siti di legami sono molto brevi: possiamo avere motivi di sequenza di 6 posizioni fino a 15 -20 posizioni dove però la parte conservata è sempre più breve. Stiamo considerando un motiv o di sequenza, non una sequenza esatta che possiamo cercare in maniera banale. La posizione del sito di legame riconosciuto dal fattore si trascrizione rispetto al gene target che subisce la regolazione è in generale fuori dalla sequenza di un gene e tipic amente si colloca a monte di inizio sito trascrizione (nella regione promotrice). Le distanze possono essere molto grandi e questo è un problema per la ricerca dei siti di legame per un certo fattori perché un sito di legame po' trovarsi anche molto dista nte dal TSS. Questo dal punto di vista computazionale è un problema perché dobbiamo cercare istanze di una sequenza non esatta in spazi. A volte il fattore di trascrizione per essere più efficiente nello stabile il legame con il DNA, hanno un sito di legam e che è palindromo: vuol dire che leggo la stessa cosa su entrambi i filamenti (esempio slide), cioè l sequenza che leggo da destra a sinistra sul filamento opposto è esattamente la stessa sequenza che leggo sul filamento in alto. Questo fa sì che se arriv a la proteina nei pressi del legame, non importa come si lega perché la proteina legge la stessa cosa su entrambi i filamenti: questo aumenta la possibilità che si effettui il legame. Abbiamo siti di legame di proteine che si legano al DNA per regolare la trascrizione del gene anche molto lontano dal sito di trascrizione. Ci sono fattori di trascrizione che sono nel core promoter (molto vicini al TSS) e poi ci sono siti di legame più distanti che contribuiscono alla regolazione ma che sono più difficili da individuare (il perché di queste distanza lo capiamo se proviamo ad immaginare la molecola nello spazio, in cui avrà una conformazione non rettilinea ma sarà impaccata in maniera tale da sistemare i 2 metri di DNA all’interno del nucleo di ogni singola cel lula; quindi un sito di legame che una sequenza è lontano può essere vicino se lo pensiamo in una rappresentazione 3D). Questa informazione viene valutata per descrivere il motivo sequenza anche in termini di conservazione. Partiamo da un esempio: abbiamo una serie di sequenza che svolgono la stessa funzione, in particolare sono tutti siti di legame per un certo fattore di trascrizione (CRP) in cui abbiamo diverse stanze. Non sono tutte sequenze identiche ma sono tutte riconosciute dal fattore CRP, quindi u n motivo di sequenza. Distilliamo questo tipo di informazione andando a derivare le frequenze di occorrenza di ciascun carattere in goni posizione. In questo esempio abbiamo un motivo di sequenza di 7 posizioni, per ognuna delle quali avremo la frequenza d i occorrenza delle 4 basi semplicemente calcolando la frequenza base per base in ogni posizione. Chiamiamo questa matrice come POSITIONAL WEIGHT MATRIX che è il modo in cui tipicamente viene data informazione sui siti di legame. Esistono risorse che fornis cono motivi di sequenza e geni target verificati sperimentalmente. A questo punto possiamo valutare la conservazione (opposto di variabilità) delle diverse posizioni: se una posizione è molto conservata vuol dire che è poco caratterizzata. Shannon indica l ’entropia come misura di variabilità e incertezza. Nella formula generale abbiamo le probabilità relativa ad un certo valore i della variabile che stiamo osservando: avremo M valori possibili della variabile. Calando tutto questo nel nostro caso, avremo 4 basi della variabile di interesse (variabile: singola posizione che stiamo osservando); possiamo quindi calcolare l’entropia della singola posizione con la formula rappresentata cove i termini si riferiscono alle 4 basi. L’entropia è una misura di incerte zza e in questo caso è ottimizzata per misurare in maniera quantitativa la variabilità delle