#由於原文中音訊和圖片均不能再使用,因此以連結形式給出。
我研究分子生物學已經很多年了。我也非常熱愛音樂,跟悉尼的流行樂隊蜂鳥一起玩過。一般來說這兩種追求之間沒有多少重合之處,但我最近發現可以利用DNA序列創造音樂。
這被稱為可聽化。這樣做的人們通常將DNA序列看成隨機模式,創造好聽的音樂。但如果我們使用音符發現某些關於DNA序列的有用資訊又如何呢?就像是哪些地方發生了突變?
所以我開始編碼,設計了一種工具將DNA序列轉換為音訊流。這一研究成果已發表在英國醫學委員會生物資訊雜誌上。
聽出差異
DNA是蛋白質合成的模板。DNA序列是一條長長的連續鏈,由四種基本化學物組成,即G、A、T以及C。它們以不同的模式進行復制形成基因。一個物種中很多基因的順序都是一樣的。
但某些時候序列中的某個基本化學物會與一般的模式不同,這就是突變,這就會為人類或者微生物造成問題。
在我的線上音訊工具中,任何重複性DNA序列中突變引起的變化都會被明顯地聽出來。
為了讓你能直觀地明白我在說什麼,下面是我的線上音訊工具中一個由一系列的G組成的人造測試DNA序列:
人造測試DNA GGG序列
相對的,下面是一個包含突變的人造測試DNA序列:
含突變的人造測試DNA序列
在這個自然DNA序列中,在大約13秒的時候重複音調中有一個變化表明序列中那個位置有一個微小的變化(突變):
重複DNA
編碼密碼子
在實際中當然DNA序列比這更加複雜。首先,真實的DNA序列包含密碼子。密碼子是一個三基本元序列聯合起來形成的DNA資訊單元。一個密碼子引導一個蛋白質的基本單元,即氨基酸。在自然界中,特定密碼子標記基因的起點和終點。在我的方法中,這些特殊密碼子被用於開始和終止音訊。
我並不打算讓你聽到一個音符就將其關聯到特定的密碼子,但整個音訊卻具有潛在序列的特性(正如你在例子中聽到的那樣)。
例如,編碼一種蛋白質的一段人類DNA序列(對於專業蛋友而言,這就是大鼠肉瘤RAS蛋白質,在癌症中常有涉及)。下面是以傳統的書寫形式表達出來的:
這一序列表示了人類RAS DNA序列的首個外顯子
下面是在我的線上音訊工具中聽起來的樣子:
人類RAS cDNA
最後,當我“可聽化”某些編碼細胞重要RNA組分(不是蛋白質)的序列時,你能聽到一段時間的靜音,點綴著打擊聲,所以你能聽到哪裡是停止密碼子。
通常,科學家們嚴重依賴於DNA序列的外觀檢查來揭開它們的秘密。可聽化並不是要取代外觀檢查,而是作為一種補充。
希望聆聽由DNA衍生來的音訊能幫助科學家更好地理解細胞生物學。