人類基因組中有數以萬計的基因:DNA 和 RNA 的微不足道的扭曲,它們結合在一起,表達了使我們每個人獨一無二的所有特徵和特性。每個基因都有一個名稱和字母數字程式碼,即所謂的符號,科學家用它來協調研究。但在過去的一年多時間裡,大約有 27 個人類基因被重新命名,這都是因為微軟 Excel 一直把它們的符號誤讀為日期。
這個問題並不像最初聽起來那麼意外。Excel 是電子表格界的龐然大物,科學家經常使用它來跟蹤他們的工作,甚至進行臨床試驗。但它的預設設定是以更平凡的應用為目的的,所以當用戶在電子表格中輸入一個基因的字母數字符號時,比如 MARCH1,即 " 膜關聯環 -CH 型手指 1 " 的縮寫,Excel 會將其轉換為日期:1-Mar(3 月 1 日)。
研究發現,論文中的基因資料有五分之一受到 EXCEL 錯誤影響。這是非常令人沮喪的,甚至是危險的,科學家們不得不用手整理恢復被破壞的資料。它也令人驚訝地廣泛存在,甚至影響到同行評審的科學工作。2016 年的一項研究檢查了 3597 篇發表論文旁共享的基因資料,發現大約五分之一的資料受到了 Excel 錯誤影響。
這種錯誤也沒有簡單的解決方法。Excel 並沒有提供關閉這種自動格式化的選項,避免這種情況的唯一方法就是改變各個列的資料型別。即使這樣,科學家可能會修正自己的資料,但只要別人不假思索地在 Excel 中開啟同樣的電子表格,錯誤就會重新引入。
不過,幫助已經到來了,那就是負責基因名稱標準化的科學機構 --HUGO 基因命名委員會,即 HGNC。本週,HGNC 釋出了新的基因命名指南,包括針對影響資料處理和檢索的符號。從現在開始,人類基因和它們所表達的蛋白質在命名時將考慮 Excel 的自動格式化。也就是說,符號 MARCH1 現在變成了 MARCHF1,而 SEPT1 變成了 SEPTIN1,以此類推。HGNC 將儲存舊的符號和名稱的記錄,以避免今後出現混亂。到目前為止,大約有 27 個基因的名字在過去的一年裡被這樣改變,但指導方針本身直到本週才正式公佈。