看這個國際算法競賽的世界冠軍,如何在張江挑戰人工智能皇冠
我們從30位財經人物和他們所代表的機構身上去尋找答案,記錄“浦東現象”、總結“浦東經驗”,感受吃改革飯、走開放路、打創新牌的“浦東精神”內核。
第一財經、東方財經·浦東頻道聯合推出特別節目——《乘風破浪——浦東30年,財經30人》大型人物訪談。30場對話暢敍30年家國情懷,看上海浦東,如何再造一個新未來!
尋夢張江 五年孕育獨角獸
陳運文:這邊有非常豐富的工程師資源,非常多的針對創新創業人才的政策。張江集團以及浦東新區都給我們這樣的創新企業提供非常好的幫扶政策、很好的辦公場地、很好的宣傳平台,能夠讓我們從種子期的時候就得到很多支持,一路走來迅速發展壯大。
第一財經:您2015年在浦東開始創業,當時對浦東的印象是什麼?
陳運文:我們在浦東創業時,創新創業剛剛開始興起,那邊有非常多的活動、評選等等。我印象很深的是,當時我還參加了《尋找獨角獸》這樣一個科技創新企業的評選,我們在活動當中也非常榮幸的過關斬將,最後拿到了獨角獸的大獎。
第一財經:因為你們是一個學霸的團隊,技術能力非常突出。
陳運文:我們這個團隊一直以來都在做文字大數據的挖掘工作,也代表中國參加過很多國際的數據挖掘競賽,獲得了兩次世界冠軍。所以我們這個團隊有很好的技術積累,風險投資也給了我們很大的支持,公司創辦的時候,就拿到了徐小平老師的真格基金天使輪融資1000萬元,應該是真格基金最大的一筆天使輪,所以我們迅速地把我們的產品技術和產業應用結合在一起,把產品很好地孵化出來了。
專注文字處理 摘取人工智能皇冠上的明珠
第一財經:我們採訪過很多人工智能領域的頭部公司,但是專注文本處理的,達觀是第一家。公司為什麼會選擇這個主攻方向?
陳運文:文字資料處理是一個充滿魅力的領域,人類的智慧高度濃縮在文字裏面,它和人類文明息息相關,但是文字資料處理本身又是非常難的一件事。我們用短短几個字,能夠表達氣象萬千的內容。比如一句古詩“大漠孤煙直,長河落日圓”,十個字就能表達非常豐富的含義。正因為它非常濃縮,所以讓計算機去閲讀很困難。因為它需要像我們把一個咖啡粉放到水裏面把它泡開,才能夠把短短几個字背後的意思釋放出來,才能夠理解它,所以這個過程需要非常強大的一個技術能力。但是在我們日常辦公中,每一個崗位、每一個人都離不開對文字資料的運用和處理,我們希望有一個智能化的機器人系統去幫助人完成文字資料的閲讀、寫作,能夠讓我們從繁重的日常文檔資料處理工作中解脱出來,這是我們的創業的動機。我們願意做突破這個堡壘的一支尖兵,去完成這個工作。
圖像識別、語音信息識別、文字資料識別,是拉動人工智能發展的三駕馬車。比爾·蓋茨曾經説過,文字資料處理是人工智能皇冠上的明珠。因為文字資料是人類智慧的高度濃縮,在今天的人工智能產業裏,文本識別是最難的一個領域。文本挖掘工作經歷了第一代符號主義、第二代語法規則、第三代統計學習,目前處於第四代深度學習階段,將實現用一個複雜的模型模擬人腦神經網絡運作,從而能夠像人類一樣的進行説文解字,閲讀理解。
第一財經:目前國內人工智能文本處理方面的企業大概有多少家?達觀是什麼樣一個位置?
陳運文:國內在這個領域的創業企業大概不到10家,達觀是這個行業裏的最領先的企業,不管是公司體量、業務規模還是應用場景都是最豐富的,我們建立了規模巨大的中英文語言資料庫,開發出來的自動化辦公機器人已經非常成功地運用在很多領域裏面,比如説在銀行,幫助客户經理自動化完成信貸報告的填寫,在政府,幫助公務員自動完成審批的工作,在500強企業,把人事、財務、行政、供應鏈這些原來大量靠人做的重複性的、枯燥的工作,實現自動化。
第一財經:那是不是很多的白領工種會被您的這個技術取代?
陳運文:應該説部分會被代替。但其實白領的工作分成兩類,一類為創造性的工作,一類為重複性的工作。機器人來完成的是重複機械性的工作。我們公司也有一些同事來自於傳統行業,我問他們為什麼要離開原來的崗位?他們説是因為每天的工作沒有意義,就像一個機器一樣在重複。我就説,你説對了,這些工作就應該由機器人去完成,人類就應該去做那些有創造性的、有情感的、有温度的工作。所以我們期望未來的工作是人和機器人互相搭配的一個狀態,機器人是我們人類的助手,幫我們完成那些不太願意去觸及的工作,才能夠讓社會運轉的更有效力,大幅度提高效率。比如,一個機器人和一個人力資源的職員同樣做表格填寫的工作,機器人的速度大概是人類的20倍以上,準確率也會比人類高。我們人會疲勞,會隨着心情的起伏導致工作質量的下降,但是機器人一天工作24小時,我們開發出來的RPA機器人,它能夠在各行各業很好地發揮作用。
第一財經:怎麼樣去理解RPA?
陳運文:RPA,它的英文叫Robotic Process Automation,翻譯過來就是機器人流程自動化。它把白領的工作步驟變成一、二、三、四、五、六明確的流程,編出程序安裝在電腦裏以後,就能像白領一樣自動化去完成日常辦公了。
第一財經:你預期市場覆蓋率或者對人工的替代能夠達到一個什麼樣的規模?目前已經做到了多少佔比?
陳運文:我們預期十年之內有50%的重複性日常辦公處理可以讓RPA機器人去完成。今天連1%都不到,所以這個有廣闊的市場空間,未來從1%都不到到50%這個巨大的市場空間,我們是有希望去佔領的。
第一財經:在這個方向上,最核心的技術難點是什麼?
陳運文:最難的地方就是文字資料的理解,這個需要有一個非常強大的語言模型。因為機器人它不會像人類那樣思考,對文字資料所有的理解工作都是來自於大量的運算,我們要建立一個非常優秀的、聰明的數學模型才能讓機器人像人類一樣去理解每一個字詞背後的含義。我們的漢語非常神奇,它充滿了各種各樣的暗示、省略、雙關……上下文一變,意思往往會發生變化。我舉個例子,我們經常講説:“今天天氣很冷,能穿多少穿多少”和“今天天氣很熱,能穿多少穿多少”,同樣都是“能穿多少穿多少”,上下文一變,意思就完全相反了。人類來理解毫無困難,但是機器人理解非常費勁,我們就要花很多精力,讓機器人去閲讀大量的文檔資料,進行各種各樣的訓練。同時,我們在日常工作中,除了普通的文字理解外,還要疊加人類的專業技能。比如你是一個律師,你去看一個合同的時候,不光看文字本身的意思,還會結合法律經驗和條款去解讀它。所以機器人還要去閲讀大量的法律法規,案件卷宗,才能夠像我們的法務人員一樣的去完成這些合同的審閲工作。雖然我們已經積累了超過2000億字的文字語言庫,構建了非常龐大的算法模型,但是還是有很多語言文字現象沒有得到好的理解,所以我們還在不斷地升級我們的算法模型,讓計算機越來越聰明。
文本挖掘工作,一半是技術,一半是藝術。陳運文笑稱自己的名字早已註定了與文字為伍的“宿命”:“運文、運文,運用文字。”而取名達觀有兩個原因:一是寓意通達樂觀,第二,公司的英文名稱Datagrand就是大數據的英文。
第一財經:上海是一個國際化大都市,達觀能夠處理多少國家的語言和相關的信息呢?
陳運文:目前集中在處理中文和英文兩種語言,但是我們也和外國語學校有非常深入的合作,加大中小型語種語言模型的積累。我們服務了全球的貨運巨頭,它們的的貨單、箱單、報關單上有各國文字,我們需要計算機系統自動去完成報關,自動進行貨運單據的識別填寫工作,已經取得很好的效果。所以我們也看到,整個全球的供應鏈體系裏面也可以讓自動化辦公機器人發揮很大的作用,語言文字不分國界。
第一財經:聽下來整個達觀的商業模式,還是主要以To B為主,有沒有To C的可能性?
陳運文:我覺得完全有可能。我們做過一個統計,一個人每天有1/3的時間在和文字打交道,我們發現很多人寫文字的時候特別痛苦。比如,有人寫個1000字的報告,可能抓耳撓腮花一兩天才能寫出來。那如果配備一個機器人助手,你把你的主要的思路告訴它,它可以瞬間幫你起草出很多版本、很多風格的文檔,你從裏面挑選一個,稍加潤色就能提交了。我們正在研發自動化寫作機器人。
發力奔跑 探索人類文明之光
第一財經:回顧達觀創業的這五年,在浦東的大環境當中,有哪些政策層面的支持讓你覺得非常給力?
陳運文:我覺得不管是實實在在的落户、人才公寓這些工作,還是很好的人才政策,都能夠讓我們這個企業在過去幾年聚攏非常多的優秀人才。同樣,各類創新評比浦東新區都給了我們大力的支持。
2016年,陳運文被評為“張江優秀人才”。2017年,陳運文入選浦東優秀青年崗位能手獎,併入選浦東新區“百人計劃”。2019年,入選“浦東新區十大傑出青年”。而在剛剛過去的兩個月,陳運文又獲得首屆浦東十大優秀青年企業家稱號。
第一財經:過去的五年裏,達觀在文本處理這個領域不停攀登,下一個五年的戰略是什麼?
陳運文:未來五年,我們要做的最重要的事情是把我們的技術能夠更多地推而廣之,讓更多的行業能夠知道這樣的技術,應用上這樣的技術。中國這麼大,這麼多的地區,這麼多的機構,其實都有潛在的需求。我們接下來就是要走出上海,走向全國。
第一財經:上市在計劃當中嗎?
陳運文:是的,我們不僅在準備科創板的相關事宜,現在也為科創板在助力,我們今天的文字資料處理技術也在未上市企業註冊制的材料審核上提供服務。比如招股説明書、審計報告等等,我們為證券企業提供相應的自動化審核機器人系統,所以我們非常自豪的説,科創板的科技創新也能夠融入我們達觀數據技術力量。
第一財經:很多人説2020年是充滿挑戰的一年,也是充滿機遇的一年。2020年整個的外部環境,給達觀帶來了怎樣的改變?
陳運文:我們看到市場對智能化系統的需求從原來的可有可無變得非常的迫切,以前我們覺得人工智能很多應用是錦上添花,但是在疫情肆虐的時候,就變成了雪中送炭。當人沒有辦法正常上崗的時候,機器人第一時間可以開始正常工作,所以疫情也能夠鞭策我們更好地把技術開發好,把產品打磨好,在更多的場景下發揮作用。
文字是一切的載體。在人類過去100萬年的進化過程中,文明迭代速度極其緩慢,但文字的出現,使其陡然加速。從5400年前的兩河流域的蘇美爾人文字,到現代法律文本的起源《漢謨拉比法典》,從象形文字到甲骨文,從雕版印刷到活字印刷,從計算機到大數據,人類對文字處理的升級迭代,如劃破寂寂長夜的流星,在茫茫宇宙中照亮整片夜空。
而今,數據深度學習的革命方興未艾,人工智能作為新一輪科技革命和產業變革的重要驅動力量,正在深刻改變世界。上海浦東,作為人工智能的高地,正多點突破,加速搶跑。達觀,也在全力跑出加速度,衝出上海,走向全國,摘取人工智能皇冠上的明珠,探索人類文明之光。
瞭解更多故事