密碼學——加密者與破譯者的博弈
密碼在我們的生活中有着重要的作用,那麼密碼究竟來自何方,為何會產生呢?這篇文章介紹了密碼學的相關知識,歡迎感興趣的童鞋閲讀。
密碼學是網絡安全、信息安全、區塊鏈等產品的基礎,常見的非對稱加密、對稱加密、散列函數等,都屬於密碼學範疇。
密碼學有數千年的歷史,從最開始的替換法到如今的非對稱加密算法,經歷了古典密碼學,近代密碼學和現代密碼學三個階段。密碼學不僅僅是數學家們的智慧,更是如今網絡空間安全的重要基礎。
01 古典密碼學
在古代的戰爭中,多見使用隱藏信息的方式保護重要的通信資料。比如先把需要保護的信息用化學藥水寫到紙上,藥水幹後,紙上看不出任何的信息,需要使用另外的化學藥水塗抹後才可以閲讀紙上的信息。
再比如把需要保護的信息寫到送信人的頭皮上,等頭髮長出來後,把送信人送達目的地,再剃光頭髮閲讀信息。
這些方法都是在保護重要的信息不被他人獲取,但藏信息的方式比較容易被他人識破,例如增加哨兵的排查力度,就會發現其中的貓膩,因而隨後發展出了較難破解的古典密碼學。
1. 替換法
替換法很好理解,就是用固定的信息將原文替換成無法直接閲讀的密文信息。例如將b替換成w,e替換成p,這樣bee單詞就變換成了wpp,不知道替換規則的人就無法閲讀出原文的含義。
替換法有單表替換和多表替換兩種形式。單表替換即只有一張原文密文對照表單,發送者和接收者用這張表單來加密解密。在上述例子中,表單即為:abcde-swtrp。
多表替換即有多張原文密文對照表單,不同字母可以用不同表單的內容替換。
例如約定好表單為:表單1:abcde-swtrp、表單2:abcde-chfhk、表單3:abcde-jftou。
規定第一個字母用第三張表單,第二個字母用第一張表單,第三個字母用第二張表單,這時bee單詞就變成了(312)fpk,破解難度更高,其中312又叫做密鑰,密鑰可以事先約定好,也可以在傳輸過程中標記出來。
2. 移位法
移位法就是將原文中的所有字母都在字母表上向後(或向前)按照一個固定數目進行偏移後得出密文,典型的移位法應用有“愷撒密碼”。
例如約定好向後移動2位(abcde-cdefg),這樣bee單詞就變換成了dgg。
同理替換法,移位法也可以採用多表移位的方式,典型的多表案例是“維尼吉亞密碼”(又譯維熱納爾密碼),屬於多表密碼的一種形式。
維尼吉亞密碼
3. 古典密碼破解方式
古典密碼雖然很簡單,但是在密碼史上是使用的最久的加密方式,直到“概率論”的數學方法被發現,古典密碼就被破解了。
英文單詞中字母出現的頻率是不同的,e以12.702%的百分比佔比最高,z只佔到0.074%,感興趣的可以去百科查字母頻率詳細統計數據。如果密文數量足夠大,僅僅採用頻度分析法就可以破解單表的替換法或移位法。
多表的替換法或移位法雖然難度高一些,但如果數據量足夠大的話,也是可以破解的。以維尼吉亞密碼算法為例,破解方法就是先找出密文中完全相同的字母串,猜測密鑰長度,得到密鑰長度後再把同組的密文放在一起,使用頻率分析法破解。
02 近代密碼學
古典密碼的安全性受到了威脅,外加使用便利性較低,到了工業化時代,近現代密碼被廣泛應用。
恩尼格瑪機
恩尼格瑪機是二戰時期納粹德國使用的加密機器,後被英國破譯,參與破譯的人員有被稱為計算機科學之父、人工智能之父的圖靈。
恩尼格瑪機
恩尼格瑪機使用的加密方式本質上還是移位和替代,只不過因為密碼錶種類極多,破解難度高,同時加密解密機器化,使用便捷,因而在二戰時期得以使用。
恩尼格瑪機共有26個字母鍵和26個帶有字母的小燈泡,當按下鍵盤上的鍵時,加密後的密文字母所對應的小燈泡就會亮起來,依次記錄密文發送給接收者就實現了密文傳輸。接收者也用相同的恩尼格瑪機,依次輸入密文並獲取原文。
密碼機內裝有“轉子”裝置,每按下鍵盤上的一個字母,“轉子”就會自動地轉動一個位置,相當於更換了一套密碼錶。最開始“轉子”只有6格,相當於有6套密碼錶,後來升級到了26格,即有26套密碼錶。
如果僅僅是26套密碼錶,和維尼吉亞密碼沒有安全方面的突出特點,後來恩尼格瑪機由一個“轉子”升級到了多個“轉子”,是密碼錶套數成指數級增長。例如當有2個“轉子”時,密碼錶套數為26的平方,676種。德國二戰期間用的最高水準恩尼格瑪機具有8個“轉子”,密碼錶套數為26的8次方,達到了2000多億種。
恩尼格瑪機由6套密碼錶,升級到676套,甚至到2000多億套密碼錶,密碼錶數量如此之大,在當時靠人工的方法是無法窮盡破解的。看過電影《模仿遊戲》的都知道,破解的辦法是採用了類似現代計算機的機械機器。
03 現代密碼學
1. 散列函數
散列函數,也見雜湊函數、摘要函數或哈希函數,可將任意長度的消息經過運算,變成固定長度數值,常見的有MD5、SHA-1、SHA256,多應用在文件校驗,數字簽名中。
MD5可以將任意長度的原文生成一個128位(16字節)的哈希值,於2004年被王小云教授宣佈破譯,證明MD5具有抗碰撞性不足的安全弱點,可快速對文件進行修改而保持哈希值不變,對MD5算法的應用形成了挑戰。
SHA-1可以將任意長度的原文生成一個160位(20字節)的哈希值,2017年Google公司公告宣稱他們與阿姆斯特丹CWI研究所,共同創建了兩個有着相同的SHA-1哈希值但內容不同的PDF文件,這代表SHA-1算法已被正式攻破。
2. 對稱密碼
對稱密碼應用了相同的加密密鑰和解密密鑰。對稱密碼分為:序列密碼(流密碼),分組密碼(塊密碼)兩種。流密碼是對信息流中的每一個元素(一個字母或一個比特)作為基本的處理單元進行加密,塊密碼是先對信息流分塊,再對每一塊分別加密。
例如原文為1234567890,流加密即先對1進行加密,再對2進行加密,再對3進行加密……最後拼接成密文;塊加密先分成不同的塊,如1234成塊,5678成塊,90XX(XX為補位數字)成塊,再分別對不同塊進行加密,最後拼接成密文。前文提到的古典密碼學加密方法,都屬於流加密。
流密碼算法的代表有A5和RC4,A5是GSM規定的加密算法,RC4被應用在1999年的安全傳輸層協議(TLS)。
塊密碼算法的代表有DES,3DES,AES,相對於流密碼更為常見。DES算法使用的密鑰是64位(實際用到了56位,第8、16、24、32、40、48、56、64位是校驗位),把64位的原文輸入塊變為64位的密文輸出塊。單層DES算法於1999年被RSA公司以22小時35分鐘破解。
3DES(即Triple DES),由3支DES長度的密鑰組成(或2支,第一支密鑰和第三支密鑰相同),加密過程為:用第一支密鑰對原文進行加密,再使用第二支密鑰對第一步操作後的信息進行解密,最後使用第三支密鑰對第二步操作後的信息進行加密得到最終密文。
解密過程與加密過程相反:採用第三支密鑰對密文進行解密,再採用第二支密鑰進行加密,最後採用第一支密鑰解密得到原文。
AES,密鑰長度可為128、192、256比特三種,可以抵抗各種已知攻擊,目前為止還沒有公開的對AES有威脅的攻擊方法。
3. 非對稱密碼
對稱密碼的密鑰安全極其重要,加密者和解密者需要提前協商密鑰,並各自確保密鑰的安全性,一但密鑰泄露,即使算法是安全的也無法保障原文信息的私密性。
在實際的使用中,遠程的提前協商密鑰不容易實現,即使協商好,在遠程傳輸過程中也容易被他人獲取,因此非對稱密鑰此時就凸顯出了優勢。
非對稱密碼有兩支密鑰,公鑰(publickey)和私鑰(privatekey),加密和解密運算使用的密鑰不同。用公鑰對原文進行加密後,需要由私鑰進行解密;用私鑰對原文進行加密後(此時一般稱為簽名),需要由公鑰進行解密(此時一般稱為驗籤)。公鑰可以公開的,大家使用公鑰對信息進行加密,再發送給私鑰的持有者,私鑰持有者使用私鑰對信息進行解密,獲得信息原文。因為私鑰只有單一人持有,因此不用擔心被他人解密獲取信息原文。
私鑰對信息的加密(此時一般稱為簽名),可以確保私鑰持有者對信息的認可,大家持有公鑰即可驗證信息是由私鑰持有者發出的,表明私鑰持有者認可了信息的內容,實現了對信息進行數字簽名的效果。
常見的非對稱密碼有RSA和SM2。RSA於1977年由羅納德·李維斯特(Ron Rivest)、阿迪·薩莫爾(Adi Shamir)和倫納德·阿德曼(Leonard Adleman)一起提出的,三人姓氏開頭字母拼成RSA,迄今為止應用十分廣泛。SM2基於橢圓曲線公鑰密碼算法,為我國商用密碼體系中用於替換RSA的算法。
非對稱密碼不僅可以應用於簽名、加密中,還可以和對稱密碼組合形成數字信封,兼顧對稱加密技術和非對稱加密技術兩者的優點,既發揮了對稱加密算法速度快的優點,又發揮了非對稱加密算法的高安全、無需提前協商的優勢。
對稱密碼算法中加密和解密採用了相同密鑰,一但加密者或解密者有一方造成密鑰泄露,或在密鑰分配傳輸時泄露,都將對信息安全造成影響。非對稱密碼算法的提出,解決了這個問題,公鑰公開,私鑰個人管理,採用非對稱密碼算法在一定程度上可以簡化密鑰管理的難題。但由於公鑰在分發過程中可能被截取後篡改,接收方也無從核查接收到的公鑰所對應私鑰的持有者身份,因而非對稱密碼算法也並不宜大範圍使用。
為解決非對稱密碼算法不宜大範圍應用的問題,引入了權威機構CA(certificate authority,數字證書認證機構),由CA負責用户的身份核實,並向用户頒發數字證書,有效地形成公私鑰與持有者身份的映射關係,避免了公鑰在分發過程中可能被他人偷換的問題,增強了信任性。關於CA、數字證書等相關概念的介紹,將會在後續的文章中詳細展開。
04 如何設置密碼才安全
互聯網服務提供商為了降低數據脱庫後的影響,密碼在數據庫中多以HASH方式存儲。例如用户密碼123456在數據庫中會存儲其SHA-1值(7c4a8d09ca3762af61e59520943dc26494f8941b),驗證時用户輸入原文123456,程序會自動將原文轉為SHA-1值再同數據庫中的值進行比對。
因為HASH算法是不可逆的,不能通過密文轉換成原文,上述的方法即使脱庫,表面上看也不會造成用户密碼的泄露。但HASH算法的密文值是固定的,也就是説123456採用SHA-1運算後,值永遠是7c4a8d09ca3762af61e59520943dc26494f8941b,破譯者如果有一張常用密碼對照表,根據獲取的SHA-1值仍然可以對應出原文。
互聯網服務提供商為了降低被上述方式破解的風險,有時會採用加鹽HASH的方式,即在用户密碼前或者密碼後補充一個固定值,例如用户密碼為123456,但服務提供商在存儲時會在密碼後面補充固定鹽值,如PMtoolbox,這樣存儲時就會以123456PMtoolbox的SHA-1值(39fcbe1100c9b0c5a065b625098cab680f6b0e27)進行存儲。一但鹽值和補充規則泄露,風險與直接存儲SHA-1值是相同的,常用密碼仍然無法防禦被破解的風險。
因此在互聯網上設計密碼時,建議:
本文由 @產品工具箱 原創發佈於人人都是產品經理,未經許可,禁止轉載。
題圖來自 Unsplash,基於CC0協議