目前的人類參考基因組是迄今為止最準確和最完整的脊椎動物基因組,但即使經過了20年的改進,DNA序列上仍然存在空白。不過,現在科學家們已經首次從一端到另一端(“端粒到端粒”)地確定了一條人類染色體的完整序列,填補了所有空白,而且精確度達到了前所未有的水平。
對基因組學研究者來説,7月14日在《自然》雜誌上發表的人類X染色體端粒到端粒完整序列是一個里程碑。該研究的主要作者、加州大學聖克魯茲基因組學研究所的研究科學家凱倫·米加(Karen Miga)説,這個項目之所以能夠完成,是因為新的測序技術使“超長讀取(ultra-long reads)”成為可能,比如加州大學聖克魯茲分校首創的納米孔測序技術。
重複的DNA序列在整個基因組中很常見,而且總是會給測序帶來困難,因為大多數技術只能相對較短地“讀序列”,然後再像拼圖一樣把它們重新拼在一起,組裝成完整的基因組。而重複序列會產生許多看起來幾乎一模一樣的短序列,就像拼圖裏面的那種大片藍天,不知道這些片段要怎樣組合在一起的,也不知道有多少重複的片段。
Miga説:“這些多次重複的序列曾經被認為是難以處理的,但現在我們已經在測序技術上取得了飛躍。通過納米孔測序,我們獲得了能夠跨越整個重複區域的數十萬鹼基對的超長讀數,從而繞過了一些挑戰。”
填補人類基因組序列中的剩餘空白開闢了基因組的新區域,研究人員可以在這些新區域中尋找序列變異與疾病之間的關聯,併為有關人類生物學和進化的重要問題尋找其他線索。
Miga説:“我們開始發現,此前在參考序列中存在空白的一些區域實際上是人類變異最豐富的區域之一,因此我們一直缺失了許多可能對理解人類生物學和疾病很重要的信息。”
Miga和國家人類基因組研究所(NHGRI)的Adam Phillippy是這篇新論文的通訊作者,2018年,他們兩人在一篇論文中展示了用納米孔技術產生一個完整人類基因組序列的潛力,這項研究使用了牛津納米孔技術的MinION測序器,該測序器通過檢測單個DNA分子通過薄膜上的小孔(一個“納米孔”)時電流發生的變化來對DNA進行排序。隨後,他們就共同創立了Telomere-to-Telomere (T2T)聯盟,旨在追求一個完整的基因組。
這個新項目就是建立在上述的基礎上,新項目將納米孔測序技術與PacBio和Illumina公司的其他測序技術,以及BioNano基因組公司的光學圖譜結合在了一起。利用這些技術,該團隊製作出了一個完整的基因組組合,在連續性、完整性和準確性方面超過了之前所有的人類基因組組合,甚至在某些指標上超過了當前的人類參考基因組。
儘管如此,Miga表示,序列中仍然有多箇中斷。為了完成X染色體,研究小組必須手動解決序列中的幾個缺口。研究小組用超長納米孔技術解決了兩個重複片段,他們完全跨越了重複片段,並且兩邊錨定在獨特的片段。剩餘的中斷在着絲點,這是一個眾所周知的困難區域,在每個染色體中都可以發現重複的DNA。
在X染色體上,着絲點包含一個高度重複的DNA區域,該區域跨越310萬個鹼基對(鹼基A、C、T和G在DNA雙螺旋中形成對,並在其序列中編碼遺傳信息)。該團隊在重複序列中識別出變異並以它們作為標記,用這些標記來排列長片段,把它們連接在一起,從而橫跨整個着絲粒。
Miga説:“對於我來説,我們可以組裝一個3個巨鹼基大小的串聯反覆這個想法是非常令人興奮的。現在,在覆蓋了數以百萬計的鹼基之後,我們可以對這些重複區域的進行研究了,人們以前認為這是非常棘手的。”
下一步是進行完善,利用多重測序技術的數據來確保序列中每個鹼基的準確性。
Miga解釋説:“為了完善序列,我們在三個不同的測序平台上使用了一種迭代過程,以達到高度準確性。獨特的標記為超長序列讀取提供了一個錨定系統,一旦錨定讀取,就可以使用多個數據集來調用每個基。
納米孔測序除了提供超長序列讀取外,還可以檢測被甲基化修飾的鹼基。甲基化是一種“表觀”變化,不會改變序列,但對DNA結構和基因表達有重要影響。通過在X染色體上繪製甲基化模式,該團隊能夠確認之前的觀察,並揭示着絲粒內甲基化模式的一些有趣趨勢。
新的人類基因組序列來自一種名為CHM13的人類細胞系,填補了目前被稱為基因組參考聯盟構建38 (Genome Reference Consortium build 38, GRCh38)的參考基因組的許多空白。
為了完成所有CHM13染色體序列,T2T聯盟正在繼續進行研究。Miga説:“這是一個開放的聯盟,因此在許多方面,這是一個由社區推動的項目,許多人為此投入了時間和資源。”
【翻譯/前瞻經濟學人APP資訊組】
參考資料:https://phys.org/news/2020-07-scientists-human-chromosome.html