在上篇文章《如何看待AI和保險的“水土不服”》中,好人生科技首席健康經濟學家湯子歐博士向雷鋒網講述了“AI風控和傳統風控的矛盾”、“保險公司對AI的訴求”等業內的深坑與難點。
他向雷鋒網表示,AI保險風控熱度看似很高,但是里程碑根本沒有到來,應用都還停留在淺層。
究其原因,並非是保險行業對AI沒有深層次的需求,而是一批學術型的創業者,唯技術論,堅持“資料為王”,不願意接受行業過去積累的知識,產品效果不好之後就開始抱怨,找各種資料不足、算力欠缺、預算太低的藉口。
在本篇文章中,湯子歐博士將繼續探討“AI遲遲未能在保險業真正落地”的原因。
以下是專訪的完整內容,雷鋒網做了不改變願意的編輯。
雷鋒網:搭建一個很貴的機器學習團隊,做出又大又複雜的機器學習模型,但在有些情況下,往往只能解決一些小問題,是否存在大炮打蒼蠅、殺雞用宰牛刀的問題?這個問題您認為該怎麼解決?
湯子歐:從方法論角度,保險風險點比銀行要多,而健康險又是保險行業風險點最多的,因為這種邏輯是和人打交道,一旦掌握好,就有可能成為全球最大的單一金融分類,規模上超過銀行、超過網際網路,這在美國已經是事實。
所以這些風險點註定不可能用一個模型解決,否則必然會存在方法的誤區,無法兼顧有效性,單一風險覆蓋率也會下降。
利用大資料建模,必然是勤快人不能懶。我們好人生的策略其實也是這樣,針對一個風險點,至少存在一個模型,也肯定越多越好。
因為單一建模,可能會遇到多元共線性、風險交叉的情況。面對這些問題,用一個模型處理,究竟是作為噪音、還是因變數很難確定。
這個世界上許多事物都存在廣泛相互的內在聯絡,也就是統計學上的多元共線性。
雷鋒網:複雜的機器學習模型,在非強關聯資料的分析上,有著一定的優勢。但因為保險是個難以預測的領域,一旦資料過於多元,會出現過擬合的現象,噪聲資料過多直接影響結果。這個問題通常有哪些解決方法?
湯子歐:過擬合本身就是一個偽命題,是象牙塔裡面的人,把書本的概念賣到了社會,並引起一系列的誤解。
過擬合是一個暫時性現象,原因來自於過多采用了自變數β而造成的結果,過擬合和不過擬合的區別就是預測結果和真實事件的吻合程度,所謂的擬合優度。
那些過擬合的模型,表面上使用過多自變數β顯得非常精妙,但預測的結果和事實偏離甚遠,這也是當年發生金融危機之後,華爾街被詬病的主要原因。
因為變數的增多,一定會導致模型過於脆弱,其中任何一個變量出現異常,比如不再適用,模型預測結果就會偏離事實,更多的變量出現異常,就會造成嚴重的過擬合。
對於自變數β的控制,在統計學和數學上早已有了定論,每個β入組之後,都要和模型裡面其他因子進行協調,控制多元共線性在一定範圍之內,如果是用於金融預測,最要控制在5%以下。
出現過擬合現象的原因,就是那些做學問的人,最初沒有把事做好。
具體的解決辦法首先就是控制好多元共線性,多元共線性的現象有點像量子力學中那一對共振的量子,會發現兩個自變數β背後的表現可能會同進同出、同高同低。
這時候要麼在兩個自變數β中選擇其中之一,把另外一個丟掉。要麼選擇把自變數β進一步細分,找出其中共線性的部分,歸類到一個自變數β當中,剩下的影響因子用細化因子代表。還要考慮自變數在大尺度時間等不同觀察期間的韌性或脆弱程度。
這些都應該在統計建模實驗室就已經完成,當初沒解決,後來效果不好就開始埋怨噪聲資料過多。
雷鋒網:那行業內抱怨的噪音資料過多,又是怎樣的原因?
湯子歐:從精算的角度,世界上任何一件東西都可以被看做為資料,進入模型成為β,也可以被看做噪音,關鍵在於解決問題的角度。
噪聲在統計學模型的影響因子不能太高,那些效果不好的模型,最後發現噪音的delta^2和因變數的delta^2關聯效能超過50%,在統計學上,完全是不合格的產品。
背後其實是資料清洗環節出現問題,我們叫做垃圾資料進、垃圾結果出。
比如醫療人工智慧方向,早年好人生科技做了許多國際二次診療的事,從中我們發現國內疾病診斷的差錯率大概在50%左右。
類似著名的沃森,直接將國內誤診率很多的資料,直接拿來做一個診斷演算法。最後訓練出,比貼在電線杆的老軍醫還不準的人工智慧出來。
而且,噪音資料過多的問題,統計學上早就已經有個解決辦法。那就是選擇有監督學習。
如果沒有現成的優質知識圖譜,可以直接做抽樣,之後把資料拿給專家評審,就可以直接得到差錯率比例、錯誤種類的方向,相當於已經有了金標準。
把出錯的方式方法、判斷邏輯輸回演算法,這個時候再進行重新整理,之後再抽樣。三遍之後就會產生明顯的最佳化,比如把50%的差錯率降到20%,當然後面的效率會逐漸降低,前三次效率最高,最後只要比例滿足要求就可以了。
這種抽樣理論早就有明證,道理也很簡單。但是那些學術型的人工智慧創業者,僅僅看重新演算法,新的神經網路的方法最佳化,對產業過去的知識積累,置若罔聞,甚至還不瞭解資料情況,就開始在行業內埋怨噪聲資料過多。
其實主要原因是他們過去該乾的事沒幹,也就是資料清洗,沒有把人類的錯誤資料撇開,所以這個問題我覺得應該藉助劉慈欣老師的一句話“弱小和無知不是生存的障礙 傲慢才是”。
雷鋒網:您覺得當前計算機視覺、語音&NLP、機器學習,這些分類的技術線,哪個對實際業務改善最顯著?
湯子歐:相信許多人都有這個疑問,但這個問題恰恰是讓大家都掉進了一個陷阱,這個陷阱不是我們現在挖的,是別人早已經挖好的。
目前做人工智慧的人,習慣性把AI分為計算機視覺、語音識別的應用,並看做人工智慧應用的所有分類。
但是我們認為人工智慧的概念應該分為三層:基礎層、中間層、應用層。
基礎層是人工智慧產業的基礎,主要是對於人類感知和行為能力的替代的硬體及軟體,如感測器、AI晶片、資料資源、雲計算平臺等,這一套從工業時代以來,一直有著技術的傳承。
應用層是整合了基礎層和中間層以後,解決人類實際問題的最終產品化,是一種整合,過去20年很多企業都在做這件事,例如機器人等。
兩者中間是中間層,也是最難的,代表者知識圖譜。在底層上加入不同的知識圖譜就產生不同的應用層。
加上駕駛圖譜,就叫智慧駕駛應用;加上物種識別圖譜,這就是智慧安保;加上銀行風控測算圖譜,就是銀行風控專家。
去年一個調研發現,目前國內人工智慧企業95%以上,都集中在基礎層和應用層,中間層的企業特別少。也就是整個行業到現在還都在做,過去已經有繼承、容易的事。
雖然早就可以透過深度學習獲得知識圖譜,但中間層發展不起來的原因一方面是資料質量不行,一方面是學者跟產業界結合不緊密,導致學不致用。
舉個例子,有一個人工智慧專案,花了很多錢,三年研發出一個單病種的決策樹,並傳稱為重大突破。作為對比,好人生現在已經積累10800種診斷決策樹,按照學者的思路,我們可能需要3萬年,而且保險行業沒有保單一病種的產品,只有單一病種的產品,完全是貨不對板,有也賣不好。這就是兩者的認知出現了嚴重的差距,
雷鋒網:這種中間層的缺失,最終會導致什麼問題?
湯子歐:就是現在這個人工智慧行業的知識圖譜嚴重依賴於境外,我們在調查中發現很多智慧音箱、智慧安防的應用層廠商核心演算法的識別知識庫,經常是需要繞到國外,最後再繞回來輸出結果。
所以說知識的邏輯圖譜是在國外,這對於整個行業都非常危險,像智慧燈泡,依靠國外知識庫的產品市佔率要是高了,人家突然斷一下電,大概整個中華大地瞬間全黑了,就像晶片一樣。
雖然我們跟著西方進入到工業文明時代,但不意味著未來資訊文明時代,還要一味跟隨。所有的技能我們已經掌握,為什麼不積極生成中國自己的知識圖譜。
原因可能還是認知上存在差距,現在的觀念還停留在有型的東西最值錢。
前幾年,保險行業為了賣保單還要送手機。這種高質量的服務,無形的產品需要嫁接到有形的商品,才能賣掉,含義就是服務沒有價值。
如果一直持續這種現象,趨勢必然是大家都去做硬體、做手機、做基礎層和應用層。
好在國內現在已經認識到這個問題,像隨著手機快速迭代更新,大家已經逐漸認識到硬體是不值錢的。但是對於硬體的一種渴望,這種報復性消費可能還因為慣性會持續一段時間。
雷鋒網:AI未來會在保險行業產生怎樣的作用,有哪些點需要注意?
湯子歐:保險也好,社保也好,都是社會的安全穩定器,隨著人工智慧的深度應用,保險行業對於風險的選擇和風險的控制會更加精準。
未來的應用如果停留在過程風控,提升人的健康也就罷了,但像對核保核賠兩端的深度發掘,就會造成對於風險體也就是被保險人的過度選擇,侵害老百姓的一些保障利益,因為更精準了,但是這不是違法的。
另一方面人工智慧並非是萬能的,我也同意可以重複和放大人的能力,提高效率,但人工智慧思考的維度是需要人來設定,那種質變的邏輯,把原來不相干的事情進行廣泛聯想的能力肯定是不具備的
例如在保險行業的新產品開發,我們一名保險同事在坐過山車的時候,出於職業角度查詢過山車的風險機率,發現所有事故里面,只有1~2%是因為掉下來而發生的意外,剩餘99%的死亡是因為心腦血管疾病、心臟驟停等顧客自身健康原因。他就想到拿這個資料在過山車下面,可以賣掉很多心腦血管的重疾險。
但是像過山車的人工智慧應用,考慮的角度大概是怎麼保證安全,就不會發生像保險這樣的聯想。
我建議人工智慧應用在像醫療和保險,這樣需要深厚知識的行業,儘量不要用無監督的機器學習,即使是深度學習。
因為過去那些應用效果不好的情況,就是大量使用了無監督的深度學習,短時間確實是效率是提高了,但是後來的試錯成本會非常高,造成用力過猛。
雷鋒網:現在我們看到許多AI保險風控公司,一方面靠融資存活,無法盈利,另一方面產品的核心競爭力還不強,未來應該採取怎樣的策略?
湯子歐:手上存了很多彈藥的公司,理性的經營者會用這些彈藥,很快進入到他所感興趣的產業領域深耕,要麼參股,要麼收購,要麼自建,總之跟產業深度結合,不要侷限於自己的能力。
一個教授會神經網路演算法,資本就給幾億美金的時代已經過去,不可能再有,所以必須抓住自己手上有的東西,這個忠告當面我也會這麼說。
那些上輪融資餘量不多,客戶也不付費,產品做成半吊子,錢糧又都沒了,而且還沒有未來方向,可能就來不及了。
因為即使看到新的需求,也需要花大資金去砸,需要研發週期,我覺得會倒一批,但行業又不會折損太慘,因為還是會有一些接盤。
具體的解決辦法,我以自己的親身經歷舉例。
早年我從社保系統出來,開始進入商業保險領域,那時候自己還沒有能力去籌建崑崙健康險。
我去了保險公司生命人壽,當時自己就認為,做健康險一定是要和醫院打交道,因為付費的場景就高度集中在醫院。而且商保作為第二支付人,還需要和社保要打交道,要了解賠了多少。
結果我用了半年時間才明白,那些已經在商保行業摸爬滾打多年的老兵,事實已經各立山頭,根本不願意跨領域溝通。
但是溝通是可以帶來價值的,和社保溝通才知道,社保風控早就已經做了;和醫院溝通才知道,許多資料醫院本身就有,但如果不溝通,就會閉門造車。
我後來總結,不溝通的原因就是之前賣保單摟錢太容易了,2002年的時候,只給那些代理人生活費,就能圈上萬人幫你賣,所以根本不願意往深考慮問題。
現在人工智慧行業也存在“夜郎自大”的問題,由學者炒起來的熱度,讓大家過去獲得的融資太容易,這個容易是雙刃劍,所以過去會很浮躁,現在就需要沉下心來思考,或許能夠獲得轉機。
雷鋒網:AI在保險智慧營銷上的作用可能比較有限,是否因為AI主要做理性的事,而營銷本身就是感性的行為,那麼未來AI在保險智慧營銷中還有怎樣的前景?
湯子歐:營銷最在意的就是獲客,所謂的業績提升。
但獲客問題,在這個時代背景下有一個基本限制條件“大的流量入口已經被壟斷”。
現在所有AI營銷保險公司,所做的事或者方向都是和這些流量入口合作,做二道販子,幫他們流量入口做轉化,所以他們的原生粘性已經不在保險行業。
我們都知道當一個公司的銷售力量強大之後,就會和公司的訴求逐漸不一致了,僅剩的一致點就是以特定的價格賣最多的量。
除了這個之外,公司角度會因為資本估值等一系列因素,訴求會趨向於續高質量的收入。所以粘性已經不在保險公司或者產品本身,而是感性的因素影響更多。
綜合來看,引流獲客的AI創業公司不太成功的第一個因素就是,高度依賴於大的流量入口,再有透過正常的做法來獲得成功已經很難了,所以就會有一些龐氏騙局的案例。
但也不是完全沒有機會、線下的生活體驗依然存在,雖然網際網路已成為巨大的流量入口,但人還沒有完全活在網際網路之上,另外國家體制,決定政府在保險行業是有主導作用的。
所以AI保險營銷公司未來的發展方向,首先應該更好的結合線上、其次更關注線下,另外要做出真正滿足本源需求的產品,獨立思考,而不是盲目跟風。
跟風就是保住飯碗的做法,而不是真正的創新。無論在投資界,一窩蜂跟投某個領域,還是保險行業,一窩蜂推出百萬醫療產品,沒有一個不是為了保住自己的飯碗,是主觀的懶惰認知。
像過山車旁邊的重疾險營銷,這樣經過思考的想法,最後的效果還是值得一試的。
但是思考也應該跟上時代,不是想到過山車可以賣重疾險,就直接派人在過山車下面發傳單,新東方那樣的創業時代已經過去了。
現在這個時代,像過山車這種,娛樂設施的網上流量入口還沒有被阿里或騰訊完全注意和壟斷,甚至還沒有上網,所以更深思考,機會還是蠻多的。
此外,打破流量壟斷這件事,國家已經注意到,網際網路資料和流量的壟斷已經嚴重影響良好的生態和持續創新的產業氛圍,看到監管正在一步步推進。
雷鋒網:好人生面對遇到不太懂AI的客戶,一般怎麼教育對方,或者怎麼提供諮詢服務?
湯子歐:萬事開頭難,產品有了好的應用案例,後面的接受度就會高很多。
這個時代已經不像過去,人群對於產品需求和消費習慣基本保持10年不變,所以過去的使用者可以很明確知道自己想要什麼。
現在的to B行業的一大弊端,就是客戶也不知道自己想要什麼,到底是要風控、還是多賣產品、還是需要對產品進行創新。更深入來說,比如風控,是覺得核保有問題、還是過程控制有問題、還是回顧性調查出現問題。
另外確定問題之後,還要明白需要怎樣的解決方案,是想要一次性、還是先解決最痛的痛點。
這些往往都是他自己的需求,但如果這個需求不清晰,我們會首先選擇進行培訓,形象講各個風險點的解決方案究竟是什麼,需要怎麼做?
雷鋒網:如果客戶方使用供應商的產品體驗不太理想,客戶方通常情況下會怎麼做?
湯子歐:這個問題恰恰體現to B銷售越來越難,原來都是to C才試用,現在to B也需要試用。
得益於現在資訊化手段的進步,模組化的產品拆解部署都非常快,介面也都非常一致,兩三天就能部署完,一旦試用過程體驗不好,更換和二次開發都沒有問題。
從好人生的使用案例來看,很少有使用者能夠提出二次開發需求,要麼是滿足需求了,要麼是試用之後,明白自己的真實需求了,可能根本就不需要核保,因為核保是打算放水的,直接批次放上百萬人進來,之後的在兩年抗辯期,進行回顧性調查。
另外也會存在,試用之後就走了,表示要自己開發,但寫出需求之後,往往發現底層的知識圖譜並不存在,又回來購買了,做生意就是這樣,存在來回反覆的過程。
當然最壞的情況就是訂單取消了,這種情況一般都是保險公司內部的原因,原有預算被取消等等。
雷鋒網:您在AI保險領域從業這麼多年,是否有讓你恍然大悟的一件事,甚至顛覆了你過往的認知,讓你發現“哦,這件事的本質原來是這樣的。”,它是什麼?
湯子歐:還真有。自己這麼多年,從統計到風控,在社保就做風控,後來做健康險的風控。
剛剛進入商業保險的時候,我骨子裡認為風控很重要,認為保費的風控、風險選擇都非常重要,是一個必需品。當然現在這些確實是必需品,但是2000年那個時候是充滿龐氏騙局的時代。所以在那個時代下,想法就錯了。
這一課花一年時間才想明白。2002年,大家聽到風控都會點頭,但實際上卻完全不當回事。因為野蠻生長的大環境,收到的保費永遠比過去多得多,所以對於節省過去保費的需求並不感冒。
當時他們聽到風控要先花錢,然後再省錢,而且最終只能省百分之幾。保險銷售直接表示,我這帶來的都是兩倍、三倍的變化,你那才能省幾個百分點,資產端也非常好。所以,風控一下子就比沒了。
這是我從體制內到體制外,被上的最大一課,因為最開始就想錯了。
雷鋒網:您對每年不斷湧入AI保險行業的新創業者和優秀技術人才有什麼想說的?
湯子歐:第一,一定要給自己找好一個點,這個點越小越好,越具象越好;
第二,應該確定找到的這個點,一定是當前的剛需,千萬不是偽需求;
第三、致力於解決這個具體的剛需,一定要願意幹髒活累活,直到這個想法成功。
背後原因就是新人很難去解決大問題,首先應該是解決小問題,因為資源和社會信任都不夠。
如果找到了這個點,幹髒活累活可以比別人更迅速、深入的瞭解這個行業。這比永遠的泛泛而談、浮在表面要好太多了。
雷鋒網:對於新人,隨著變革的加速行業已經完全不一樣,他們應該怎樣的去調整自己,適應市場。
湯子歐:世界的變化永遠站在當下,然後去解決一兩年就可以實現的問題,對於新創業者或者優秀技術人才是非常重要的。
因為我已經不在實驗室,進入社會就應該以商業的方式來實現價值。這個價值要在短期內能凸顯出來,否則活不到變現的那一天,因為這個時代和2000年已經完全不一樣了。
所以他們應該迅速去了解自己專業領域的進展和作用,結合市場的剛需,找準一個細的點,解決一個具體的社會問題,迅速在行業內創造價值,並對這個價值進行變現,活下去。