程序員進化論:從草莽英雄到達摩院,再造一個技術未來

程序員進化論:從草莽英雄到達摩院,再造一個技術未來

圖片來源攝圖網

編者按:本文來自IC實驗室,創業邦經授權轉載。

轉眼,第12個雙十一已經過去,從第一屆的27個品牌,5200萬元成交額,到如今為期23天的剁手狂歡,4982億元的成交額。

十年前光棍節的光棍們,變成了一個個推着購物車的「尾款人」。

想想看,去年我在B站第一期視頻,就是和大家介紹李佳琦和薇婭,以及科普淘寶直播的前世今生。還不到一年,他們就已經成了人盡皆知的大主播,「帶貨」更是堪稱年度熱詞。

消費社會之下的力量,是真的頂。

雙十一不僅是我等剁手青年拼手速網速的battle,也是阿里員工,尤其是程序員的年度大考。

從2009年開始,每年的雙十一都是阿里程序員最緊張的日子。他們面對的,是來自全國剁手黨的流量攻擊。而一批又一批阿里技術人,就在這一次次殘酷的戰役中倖存下來。

十二年雙十一,半部阿里技術史。

今天這期內容,我想和大家聊聊雙十一背後的阿里巴巴技術史。

01

互聯網圈有個著名的論斷:騰訊長於產品,百度強於技術,阿里重視運營。

也就是説,阿里並不是一家以技術見長的公司。

放在十幾年前,説得確實沒錯。

比如萬能的淘寶網,其實就是7個工程師在湖畔花園關了一個月做出來的,核心系統還是買的美國人現成做好的,稍微改了改就上線了。

再例如淘寶商城,也就是後來的天貓,上線之初,其實和淘寶主站完全是兩套系統,兩個網站。用户需要重新註冊、登錄才能進行購物,麻煩到難以想象。

隨着淘寶、支付寶、淘寶商城日益崛起,用户量訂單量越來越大,服務器壓力也成問題。

以阿里的技術狀況,別説雙十一這樣的活動,能維持日常運轉就拼盡全力了

偏偏是這樣的草台班子,想象力卻特別豐富。

2009年的秋天,淘寶商城運營團隊突發奇想,想要仿照美國的「黑五」,策劃一個網上購物節。策劃團隊盤算了日期,十月有黃金週,十二月有聖誕,唯獨11月沒有重要節日。

時任淘寶商城總裁,如今的阿里掌門人「逍遙子」張勇拍了板:就11月11日吧,讓沒事幹的光棍來購物吧!

第一屆雙十一的活動口號是全場五折,共有27家商户參加。

這場活動,着實暴露了阿里早年技術團隊的不成熟。

在活動之前,幾乎沒有任何預案,服務器容量、網絡帶寬容量、系統保護,統統沒有。程序員和運營們都沒想到,淘寶商城的系統竟然如此不堪一擊。

2009年11月11日,零點一到,被折扣吸引來的用户瞬間上線,淘寶商城流量暴增,一下子把服務器壓掛了。工程師們嚇了一跳,趕緊跑去重啓服務器。重啓完畢,系統是恢復了,店鋪和商品圖片又出不來了。

那一天,淘寶商城的訂單量,是平常的十倍。

不少文章都記載了那瘋狂的一天。很多商家用外鏈的圖片,結果流量太大,把外部圖片空間壓掛了;有商家的打印機因為打印訂單過多燒了起來,淘寶的客服電話被打爆了,只能拉上保安來臨時充當客服。

幸運的是,剛好在前一年,阿里技術團隊花了大力氣,經過一場「五彩石戰役」,把淘寶和商城的系統底層架構統一了。

雖然商城的流量爆炸,但相對淘寶的日常流量來説,還不算太誇張,經過一時的混亂,淘寶的交易系統算是扛過了第一次雙十一。

戰報出來,交易額達到5200萬元。

對運營團隊,這無疑是一場大勝,但技術團隊卻開始擔心:才5000多萬的交易額,技術就拉了胯,不合適吧?

雙十一過後,每個阿里技術人都心事重重:明年再來一次,我不知道這個系統頂不頂得住。

阿里的管理層也看到了這個問題:底層架構問題再不解決,會嚴重製約電商和金融業務的發展。還沒等到和騰訊百度過招,阿里自己就先自爆了。

後面幾年的情況,也正如這些他們所預料的。

2010年,第二次雙十一,程序員們信心滿滿,給系統加了一倍的容量,應該夠了吧?

而消費者給了這些天真的程序員無情的懲罰:9.36億銷售額,整整翻了18倍。

那是很多阿里程序員都耳熟能詳,最驚險的一次雙十一。

0點一過,交易量突然飆升至日常的3倍, 支付出現擁堵,系統總容量眼看着就撐不過中午。

那天所有人都在手忙腳亂地關閉各種非重要功能。就像一台電腦,為了保證主程序的運轉,殺掉了各種不重要的程序。

最後一個功能被砍掉的時候,距離數據庫崩盤,只剩下4秒。

可以説,第二次雙十一和慘敗之間,只差了4秒。如果那天系統不幸崩了,説不定現在像過年一樣的天貓雙十一狂歡節,就不會存在了。

就差4秒啊!

也就是這一年,中國的快遞行業第一次感受到了電商的恐怖,很多人第一次知道了「爆倉」這個詞。

再往後一年,2011年11月11日,在這個百年難遇的雙十一,交易量又一次翻了3倍多,來到33.6億元,2200萬件包裹。

這一年,程序員們再不敢輕敵,雖然一天警報不斷,但系統始終沒有崩潰,算是頂住了。

2012年,淘寶商城成為獨立的事業部,改名天貓。

為了天貓的第一個雙十一,集團提前半年,從5月開始籌劃,準備了一大堆方案。

可到了當天零點的時候,系統報錯、下單報錯、購物車支付報錯、支付系統報錯、購物車的東西丟失……各種報錯如潮水般湧來,系統顯示交易成功率不到50%。

事先準備的緊急方案直接上陣,但效果並不明顯。

最終到1點,下單高峯過去後,交易成功率才逐漸恢復正常。

那幾年,做淘寶和支付寶的程序員,太難了。

02

就在天貓和支付寶的兄弟們為了雙十一苦苦支撐的時候,另一批程序員也沒閒着。

2008年,微軟亞洲研究院常務副院長王堅博士離職,投奔阿里,09年成為阿里巴巴CTO,阿里雲成立。

這個阿里巴巴技術史上「最重要」,甚至沒有之一的男人,帶領另一批程序員,開始重構阿里巴巴的技術底層架構。

他們的主要任務,是自主研發雲計算操作系統,為阿里巴巴提供底層計算能力。

説得浪漫一點,就是在這艘忒修斯之船乘風破浪的同時,悄悄地把上面所有的材料給換掉,讓它脱胎換骨,成為一艘雲技術航母。

這件事的難度可想而知。

為了一步到位,他們直接拿阿里巴巴最核心的寶貝——淘寶當小白鼠,進行改造。

這件事情,外面不看好,對內得罪人。

在外面,深圳的IT領袖峯會上,李彥宏説:雲計算就是新瓶裝舊酒。馬化騰則表示,這件事幾百年一千年以後,到「阿凡達」那個時候還有可能,現在是過於早了。

兩位大佬發話,業內對雲技術一片唱衰,覺得馬雲這個不懂技術的老闆,是被王堅這個心理學博士給忽悠了。

在內部,反對聲音同樣很大。

過去,淘寶和支付寶使用的絕大部分都是 IBM 小型機、Oracle 商業數據庫以及 EMC 集中式存儲,簡稱IOE架構。

但隨着淘寶業務量越來越大,這套架構的問題也越來越明顯。

上限不高。

IOE架構可以説是IT時代的產物,面對互聯網時代指數級增長的計算量,繼續使用IOE架構,就像頂着天花板往上爬,遲早有碰壁的時候。

可這套架構,不少淘寶程序員已經用慣了,對這個要從根子上搞顛覆的阿里雲非常不感冒,對自研雲計算系統更是憂慮重重。

最後還是靠當時的淘寶技術總架構師,也就是現任阿里雲總裁行癲,給大家下了決心:「幹好了我們大家榮譽等身,幹壞了要殺要剮我來扛!」

內外交困,全世界都在反對,但王堅心意已決。

在《財新》的報道里,有一個故事。

2009年底,當時負責淘寶技術預算的劉振飛向王堅彙報,提出「淘寶2010年不會購買IBM小型機」,沒想到被王堅挑戰:「既然2010年可以不買小型機了,為什麼還要給自己留後路以後還可能購買呢?」

於是劉振飛只好在PPT裏用粗體寫上:「淘寶2010年起不再購買小型機了!」

於是3年裏,阿里砍掉了高端存儲設備,用PC服務器替代了昂貴的小型機,用自研數據庫替代了Oracle數據庫。

這場重構,讓淘寶商品庫用20%的成本實現了500%的容量。2013年,集團最後一台IBM小型機在支付寶下線。

天花板沒了,但更難的在後面。

隨着淘寶和天貓的迅猛增長,雙十一一年比一年瘋狂,阿里越來越需要強大的計算力支撐。

IOE架構更換完了,但研發多年的雲計算,算力卻跟不上。

就像令狐沖,一身的招式,內功平平。在武俠世界裏可以無招勝有招,但在技術世界裏行不通。

2013年年初,一封內部郵件直達最高管理層,郵件的內容是3個月後,現有算力會達到瓶頸,集團的電商,支付業務無法再擴張,都得被拖死。

這無異於對雲計算團隊的最後通牒。

只有3個月,雲計算團隊必須完成「飛天5K」的項目,也就是實現「底層計算系統能獨自調度5000台服務器」的目標。

突破這道門檻,計算集羣的規模才能不再受限,保證未來數據量再大,阿里依然有足夠的計算力去面對。

這是雲計算的門檻,是突破算力瓶頸的唯一方法,也是阿里巴巴集團的生死線。

這3個月,一批批工程師自發加入雲計算的大會戰。

阿里技術團隊如同完成了人類補完計劃一般,不分團隊,不分新老,輪班工作。甚至有人入職第一天,誰都不認識,就一頭扎進了代碼裏。

開發到最終階段時,為了測試雲計算的穩定性。程序員們想出了最硬核的測試方法:拔電源。要是連拔電源都能撐過去,這套系統就真的無敵了。

隨着電源的一拔,每個人的心都吊到了嗓子眼上。

四個小時候,重新接通,數據完好無損。

一場生死狂奔過後,第一套完全屬於中國人的雲計算平台:飛天,成功誕生。

第二年,阿里啓動了「登月」工程,把所有的數據彙集到這個平台上。也就是從此開始,雙十一開始逐漸「上雲」。

上了雲之後的雙十一,如同開了掛一般。

2013年之後的雙十一,逐漸採取了雲化架構,再也不用採購大量服務器來支撐這一天的流量需求,也再也沒有出現過瀕臨崩潰的驚險畫面。程序員們從此不需要手忙腳亂,可以邊喝咖啡,邊在電腦前處理各種狀況。

也就在這一年,雙十一備戰第一次採用了全鏈路壓測:對整個雙十一系統進行線上大流量真實場景讀寫壓力測試,提前發現問題。

同時阿里成立了菜鳥物流,通過大數據提前分倉,並通過物流雷達進行調配。此後,「爆倉」這個詞開始一年年地被人淡忘。

雙十一的用户體驗發生了飛躍式的提升。

2014年,雙十一全天交易量達到571億,而且在強大的底層技術支持下,實現了零漏單。

2015年,淘寶全面轉向個性推薦,千人千面,也就在這一年,第一屆雙十一晚會舉辦,成功實現了線上線下聯動。

2016年手機淘寶直播上線,用户可以在手淘和天貓客户端一邊看晚會一邊參加抽獎和互動遊戲。

2020年的雙十一,為了保證系統穩定,阿里再一次祭出了「拔電源」這種暴力測試法。

在雙十一技術團隊毫無預警的情況下,直接測試在交易系統中注入故障,對用户下單進行限流。並且對數據中心直接進行斷電測試。結果故障僅用了1分28秒便被排除,數據中心僅用了4秒便恢復供電,業務完全未受影響。

雙十一的底層技術,已經從草台班子進化到了現在的穩如泰山。

在阿里技術支撐下,今年雙11的玩法更加豐富。10月21日,阿里完成了全球首個多語言實時翻譯的電商直播,中文直播被AI實時翻譯成英語、俄語、西班牙語等語言 。而這樣的直播翻譯可以支持214種語言。

未來,李佳琪和薇婭的直播間裏,説不定會有來自全球的女生為他們剁手。

03

回顧阿里巴巴的技術歷程,我們可以明確地找到一條主線,那就是雙十一為代表的商業力量,在推動技術的發展。

也可以説過去十年,阿里技術一路狂奔,都是為了滿足互聯網商業指數級增長的計算需求。

但從2015年開始,情況倒了過來。技術力量開始反過來推動商業的進步。

標誌性的節點,是2015年,阿里正式啓動中台戰略。

簡單解釋一下,中台就是將底層的數據和技術功能打通,一家公司的不同業務之間,在保證用户隱私前提下,可以共享數據、共用功能模塊。

一方面,是避免同一功能的反覆開發造輪子。另一方面,則是為了業務共通。

「中台思維」其實一直是阿里技術的指導思想。從2008年,打通淘寶和商城系統底層架構的「五彩石戰役」開始,「底層打通」就是阿里技術人一直在做的事情。

後來阿里雲的開發,菜鳥和釘釘的誕生,都是基於同樣的指導思想。

如今,在阿里巴巴的大中台上,消費者、商家、商品、物流的數據都被打通,得到的不僅是效率提升,更是商業創新成本的大幅下降。

另一個標誌性的事件,是2017年,阿里巴巴旗下研究院:達摩院宣告成立。

這個研究院結合了基礎科學、技術創新和商業應用。在阿里的規劃中,這個研究院會如同金庸小説裏的達摩院那樣,成為一個「武學殿堂」。這個殿堂的武藝,就是世界最厲害的技術。

達摩院孵化出的半導體公司平頭哥,連續發佈了玄鐵910處理器,SoC芯片(系統級芯片)平台「無劍」和AI芯片「含光800」。含光800在業界標準的ResNet-50測試中,推理性能比目前業界最好的AI芯片高4倍,能效比是第二名的3.3倍。

如今的平頭哥,已經初步完成終端處理器IP、終端芯片設計平台SoC和雲端AI芯片的佈局,未來將推動芯片自主研發,在硬件領域為國產技術尋找突破口。

達摩院的成立,是阿里對「未來商業和技術之間是什麼關係」的一份答卷,也體現着阿里巴巴的技術價值觀:技術創造新商業。

現在,阿里巴巴已經有了一套完整的,名為阿里巴巴商業操作系統的概念。基於阿里雲、釘釘、菜鳥、阿里媽媽這些數字基礎設施,將能力輸送到阿里數字經濟體的各個業務中。

其中也包括雙十一。

04

説回雙十一。

雙十一這十二年,讓阿里練成了一身的技術內功,而這些技術,又支撐起了雙十一數百億數千億的成交額,建造出這消費社會里最搶眼的景觀,甚至有可能改變未來商業社會的形態。

2019年雙十一過後,阿里雲扛過了全球最大的流量洪峯。阿里宣佈,其核心繫統已 100% 跑在阿里雲公共雲上。

這意味着阿里巴巴已經正式成為一家「雲上企業」,一家全面智能化的企業,一個未來數字時代的新物種。

2020年雙11,阿里核心系統全面雲原生化,商業操作系統邁向數字原生。

阿里相信,數字原生時代會如同第二次工業革命的電氣時代一樣,改變整個商業社會。

再回頭看看那句論斷:騰訊長於產品,百度強於技術,阿里重視運營。

也許十年前,這個説法還挺貼切,那麼現在,至少阿里巴巴已經變了,變成了一家不折不扣的技術公司了。

疫情期間,釘釘在App Store爆火的案例,我在之前的視頻裏提到過應該不止一次。在這個新冠陰影仍未退去的大環境下,全球範圍內,更多工作、服務向線上轉移,幾乎成為板上釘釘的事實。

社會需要更多的數字化、智能化服務。當下的社會更需要阿里在人工智能、物聯網、雲計算、數據中心等為社會提供更多價值。

今年9月,阿里巴巴發佈了第一款物流機器人「小蠻驢」,同時發佈機器人平台。小蠻驢機器人集成了達摩院最前沿的人工智能和自動駕駛技術,具有類人認知智能,大腦應急反應速度達到人類7倍。面對未來即將爆發的物流需求,機器人技術,就是阿里巴巴自己的解決方案。

而就在這個雙十一,阿里推出了一項全新的技術:讀光OCR。這一技術可以將所有商品的圖片信息轉成語音信息。今年的雙十一,視障人士靠耳朵就能完成購物。

在阿里,有一支無障礙技術團隊,在努力推進技術平權。

雖然淘寶上的視障用户與用户總數相比微乎其微。2019年,雙11視障用户的訂單交易量不到雙11交易量的萬分之一。但一項有温度的技術,並不一定在乎有多少經濟回報。

在我看來,這正是商業與技術結合的真意:

技術的進步推動商業的成功,用商業的成功來創造社會的價值。

最後,我想再聊聊技術這件事。

有時,做技術,尤其是最尖端的技術,就像在黑暗中奔跑,不知道要跑多久,也不知道有沒有跑出去的一天,甚至沒有人和你同行。

最後看到光明的人,需要無條件的相信,需要一生懸命的投入,需要獨自前行的勇氣。

看到那些阿里技術人的故事,我總是想起阿里巴巴官方紀錄片《造夢者》的開頭,引用了金庸小説典故的一段文字:

「我走過山的時候山不説話,我路過海的時候海不説話。」

未來從不開口説話,它只等着造夢的人一路走向它。

本文(含圖片)為合作媒體授權創業邦轉載,不代表創業邦立場,轉載請聯繫原作者。如有任何疑問,請聯繫

版權聲明:本文源自 網絡, 於,由 楠木軒 整理發佈,共 6268 字。

轉載請註明: 程序員進化論:從草莽英雄到達摩院,再造一個技術未來 - 楠木軒