腫瘤之所以會發生,就是因為基因組序列的改變,腫瘤DNA中含有大量的基因組的改變,其中絕大多數突變只有很少或者沒有任何的功能或者臨牀意義,這就意味着當科學家在腫瘤相關樣本中發現了一個基因組序列的變化,這個變化很有可能完全和疾病的發生進展沒有任何關係。
過往的很多研究已經證明,很多與腫瘤相關的基因序列的改變其實並不能誘發腫瘤或者促進腫瘤的發生發展,許多突變的基因是我們常説的乘客基因(passenger gene),對應的突變稱之為乘客突變(passengers mutation),而不是驅動基因(driver gene)和驅動突變(driver mutation)。但是驅動基因的分析其實很複雜,目前有一些收集驅動基因的網站,但是比較完整,方便獲取驅動基因信息的網站還是得首推 intogen,這個網站的文章在2013年發表在Nature Methods(IF=28.467)上,雖然發表時間已經過去了比較長的時間,但是這個網站一直在維護更新,最近的一次更新是 2020.02.01,所以大家可以放心用。
大家可以從
https://www.intogen.org/download 這裏面看到詳細的更新的時間表。進入網站
https://www.intogen.org/search,這個網站主要分為三部分,這裏我們逐一介紹下。
第一趴
首先是第一部分,就是下圖這個所有框,作為一個數據庫,每個搜索功能當然是説不過去的,見圖1,如果你不知道怎麼輸入,可以點開序號2這裏的示例,比如説點擊 Search example(其實搜索的內容是Mutation distribution of BRAF in breast cancer,沒注意就是一閃而過),選擇後,他就會自動進入到搜索後的網頁,這裏我們看下是什麼樣的結果,我們將分多個圖解釋。
圖2可以看到,首先用超級大的字號告訴你,你搜索的基因是BRAF,腫瘤是 Brest adenocarcinoma。然後描述了 Brest adenocarcinoma這個腫瘤的所有突變的總體情況,比如數據集cohorts是12個,樣本是2711個,突變總數是17570286個,driver gene是99個。接着對選擇的基因BRAF進行了詳細的描述(感嘆號鼠標貼上去會顯示細緻的解釋),比如在各個數據庫的ID,Ensembl IDENSG00000157764 ;Transcript IDENST00000646891 ;Protein IDENSP00000493543。然後在一個數據集cohorts發現是一個driver gene。在9個樣本中發現了突變,突變樣本比例佔到0.33%,一共是22個編碼區的突變,在泛癌的研究中發現這個突變是一個激活突變,也就是一個oncogene,是一個已知的驅動基因。
圖3描述的是每個數據集cohorts裏面的情況,這裏只有一個數據集,然後可以看到數據集cohorts的名字是BRCA_HARTWIG,如果是多個數據集就會是多行分別展示,參見鏈接
https://www.intogen.org/search?gene=FLT3&cancer;=AML#methods。使用的驅動基因的分析方法是HotMAPS,當然這個圖中各種顏色標註的那些也是不同的驅動基因的分析軟件,告訴我們分別鑑定得到的是啥結果,發生突變的樣本個數是9個,頻率是1.27。
圖4描述的是突變的一個具體分佈,箭頭所指的是一個分享按鈕,就是你點擊就會生成一個鏈接,你保存或者發給別人可以直接看到這個結果,圖3的那個分享按鈕也是一樣的功能。默認不生成。這個圖的橫軸是氨基酸的位置,縱軸是發生的突變的個數,legend部分描述了不同的突變類型和比例,這裏就是22個突變中,truncating是4個,佔比18%,synonymous是2個,佔比9%,missense是16個,佔比是73%。然後Highlight in X-axis是可以切換X軸。
第二趴
我們接下來來看搜索界面的第二部分,見圖5和圖6。
圖5可以看到這是對所有存在於intogen樣本腫瘤信息的一個概覽圖,當前版本發佈時間是2020-02-01,一共包括66種腫瘤類型,包括221個數據集cohorts,包括28076個樣本,包括203003747個突變,包括568個驅動基因。
圖6則是分別展示每個收集的腫瘤在對應cohorts裏面的具體信息,比如Age列有兩種 Adult(A) 或者pediatric(C)兩種;Type的類型有三種Primary(P)、metastasis(M)、relapse(R),後面的cancer drivers就是統計的driver gene的個數,samples是隊列裏面的總樣本數,Mutations是包括indel在內的突變的總個數。比如第一行是説Brest adenocarcinoma屬於BRCA_TCGA這個隊列,都是Adults,都是primary的原發腫瘤,有39個driver gene,包含973個樣本,一共有119144個突變。
第三趴
第三部分就是對於發生頻率最高的driver gene做一個統計,又分為cloud、plot、table三部分。
Cloud
圖7是一個 詞雲圖,把鼠標貼近基因會告訴我你這個有多少個樣本發生了突變,點擊這個基因,比如我們點擊DNMT3A就會就如到圖8的展示結果,和我們直接在檢索裏面輸入DNMT31這基因是一樣的
Plot
圖9是用柱狀圖展示一個突變基因的結果,橫軸是發生突變基因的名字,縱軸是發生突變基因的樣本的個數,可以看到TP53、KRAS、PIK3CA排在最前面3位,都是我們常見的腫瘤發生發展相關的基因。
Table
圖10是用表格的形式來展示結果。Symbol就是我們的基因名,Mutations是Symbol這一列的值在被鑑定為driver gene的時候發生非同義突變的總數,Samples是Symbol這一列的值在被鑑定為driver gene的時候發生突變樣本的總數,Samples(%)是Symbol這一列的值在被鑑定為driver gene的時候發生突變樣本的總數佔所有樣本總數的百分比,Cohorts這一列是Symbol這一列的值在被鑑定為driver gene的時候總共納入分析的隊列總數