Encode: il progetto che fa luce sulla parte non-codificante del DNA. Il DNA "spazzatura" -

I primi risultati del progetto ENCODE hanno evidenziato l’intensa attività della parte non codificante del genoma umano, il cosiddetto DNA spazzatura, dimostrando che ospita milioni di interruttori per l’attivazione e il silenziamento dei geni, organizzati in complesse reti gerarchiche. Oltre ad aumentare la nostra conoscenza sull’espressione genica, i risultati di ENCODE saranno fondamentali per interpretare con più accuratezza i risultati di altri studi in cui si analizza la relazione tra geni e malattie .

Quella parte del genoma umano che in passato era stata chiamata “DNA spazzatura”, perché non codificante per alcuna proteina, si è rivelata non solo assai utile ma addirittura la centrale di controllo di tutta l’attività dei nostri geni, attraverso milioni di “interruttori” che ne determinano i corretti ritmi di attivazione. Inoltre sarebbero mutazioni in queste regioni, più che nei geni, a provocare numerose malattie.

Sono questi i primi risultati del progetto internazionale ENCODE (Encyclopedia of DNA Elements), che sotto il coordinamento del National Human Genome Research Institute (NHGRI) e dell’EMBL-European Bioinformatics Institute (EMBL-EBI) ha visto la collaborazione di 442 scienziati in 32 istituzioni di ricerca che hanno analizzato oltre 15 terabyte di dati grezzi relativi a 147 tipi di tessuto umano, con l’obiettivo di determinare che cosa permetta di volta in volta attivazione e silenziamento di specifici geni e quali siano le differenze fra gli interruttori in azione nei vari tipi di cellule.

Nello specifico, il progetto ENCODE fornisce informazioni relative al grado di metilazione del DNA e alle modifiche chimiche degli istoni, cioè delle proteine attorno a cui è avvolto il DNA per formare la cromatina, che possono influenzare il tasso di trascrizione del DNA in RNA. ENCODE esamina anche le interazioni a lungo raggio della cromatina, come i ripiegamenti in tre dimensioni, che alterano le distanze relative fra le diverse regioni cromosomiche e possono influenzare la trascrizione. Inoltre, il progetto descrive l’attività dei fattori di trascrizione e l’architettura (posizione e sequenza) degli elementi di DNA che regolano i geni, fra cui la regione promotore a monte del punto in cui inizia la trascrizione di una molecola di RNA, e anche di altri elementi regolatori che agiscono più a lungo raggio. Un’altra sezione del progetto è dedicata a valutare l’accessibilità delle diverse regioni del DNA alla proteina DNasi I, che permette l’esposizione di geni altrimenti irraggiungibili dai fattori di trascrizione.

“Il nostro genoma è vivo grazie a questi interruttori: milioni di siti che determinano se un gene è acceso o spento”, ha osservato Ewan Birney dell’EMBL-EBI. “Il Progetto Genoma Umano ha mostrato che solo il due per cento del genoma contiene geni, le istruzioni per produrre proteine. Con ENCODE, possiamo però vedere che circa l’80 per cento del genoma è attivamente impegnato a fare qualcosa. Abbiamo scoperto che nel controllo del momento e del punto in cui vanno prodotte le proteine è coinvolta una parte del genoma molto più grande, in effetti una parte sorprendente grande, rispetto a quella impegnata nella semplice costruzione proteica”.

I primi risultati dell’analisi dei dati ottenuti da ENCODE riempiono diverse centinaia di pagine pubblicate su una serie di riviste, innanzitutto “Nature”, “Genome Biology” e “Genome Research”. Risultati paralleli basati su dati resi disponibili da ENCODE stanno già iniziando ad apparire su altre riviste ancora, come quelli pubblicati nell’ultimo numero di “Science”. Data la mole dei risultati, “”Nature” ha deciso di mettere a disposizione sul suo sito una sezione in cui è possibile collegarsi direttamente a tutti gli articoli pubblicati sulle prime tre riviste, in modo da poter approfondire i diversi temi specifici (qui l’elenco degli articoli).

I sei articoli pubblicati su “Nature” sono quelli di respiro più generale e uno dei risultati più notevoli descritti nell’articolo di apertura è appunto che ben l’80 per cento del genoma contiene elementi collegati a funzioni biochimiche. Gli autori sostengono che lo spazio tra geni è pieno di elementi regolatori e promotori della trascrizione, e anche di numerose regioni precedentemente trascurate che codificano trascritti di RNA che non sono tradotti in proteine ma che sembrano giocare un importante ruolo di regolazione. I risultati mostrano inoltre che molte varianti del DNA in precedenza collegate con alcune malattie si trovano all’interno o nelle immediate vicinanze di elementi funzionali non codificanti del DNA, fornendo nuove indicazioni per collegare variazioni genetiche e patologie.

L’articolo di Djebali e colleghi descrive il sequenziamento “ultra-profondo” di RNA preparati da molte linee cellulari diverse e da specifici compartimenti cellulari, grazie a cui i ricercatori hanno scoperto che circa il 75 per cento del genoma è passibile di trascrizione in qualche punto in alcune cellule, e che i geni sono strettamente collegati, con sovrapposizione di trascritti che li riguardano sintetizzati da entrambi i filamenti di DNA. Questi risultati, osservano gli scienziati, costringono a ripensare la stessa definizione di gene e di unità minima di ereditarietà.

Due altri articoli, di Thurman e colleghi e di Neph e colleghi, hanno studiato i cosiddetti siti ipersensibili alla DNAsi I, ossia regioni della cromatina in cui concentrazioni anche molto basse dell’enzima DNAsi I determinano facilmente cambiamenti strutturali che permettono l’esposizione di parti del DNA e quindi l’avvio della trascrizione. In queste ricerche si è anche arrivati a raddoppiare il numero di sequenze di riconoscimento note per proteine che si legano al DNA nel genoma umano, identificando una specie di “impronta digitale” di 50 copie di basi, che si osserva in migliaia di promotori. Gerstein e colleghi hanno infine esaminato i principi alla base del “cablaggio in rete” dei fattori di trascrizione, cercando di andare oltre l’individuazione delle funzioni più semplici (come ‘la proteina X si lega all’elemento Y del DNA’), per chiarire come si strutturano le gerarchie di fattori di trascrizione e come si intrecciano queste differenti reti.

Nell’articolo pubblicato su “Science”, Maurano e colleghi hanno analizzato centinaia di cellule umane e campioni di tessuto studiati nel progetto ENCODE e nel Roadmap Epigenomics Program, determinando che molte varianti non codificanti associate a malattie sono localizzate in parti del DNA destinate al controllo dell’espressione genica. Il ruolo di regolazione per queste varianti sembra specifico per particolari tipi di tessuti e stadi di sviluppo. I risultati forniscono un quadro di riferimento per l’identificazione delle basi genetiche di malattie umane complesse. In particolare, i ricercatori hanno scoperto che il 24,4 per cento delle variazioni nelle sequenze del DNA associate a disturbi autoimmuni – come diabete di tipo 1, artrite reumatoide, morbo di Crohn e lupus – si trovano in siti di legame di uno specifico insieme di fattori di trascrizione.