楠木軒

金耀輝/季衞東:AI數據給人“貼標籤”,利還是弊?|148期對話

由 納喇曉枝 發佈於 科技

【導讀】如果有人故意攻擊算法的漏洞,導致算法癱瘓,法律應當如何設定規則?AI數據給人“貼標籤”,將是未來法治中存在的最大陷阱?本週三(7月8日)晚,在第148期文匯講堂《AI的權利與義務,人類説了算?》上,16位現場聽眾和近300名zoom會議室在線聽友聆聽了季衞東教授邏輯縝密的演講,及其與金耀輝教授分別站台“人類”與“AI”的激情辯論。

本場講座由上海市法學會東方法學講堂和文匯講堂共同舉辦,以在線直播和在場互動的新形式呈現。此篇分享對話。

約束操控者行為,人工智能立法為技術開發等設立法律底線

金耀輝:首先,從機器或人工智能技術工程師的角度來説,我絕對不敢挑戰人類!但是目前,人類對人工智能存在許多誤區。歷史上,“人工智能”一詞首次出現在1956年的達特茅斯會議上,九年後,獲得圖靈獎和諾貝爾經濟學獎的人工智能先驅,同時也是中國科學院的外籍院士Herbert Simon預言,20年後人工智能就可以取代人類做任何事。可是直到1985年,人們還都不瞭解人工智能。並且從技術角度看,目前的人工智能其實遠未達到科幻電影中描述的“天網”等先進程度。那麼,我們現在為何要未雨綢繆地討論對人工智能的限制問題呢?約束太多不僅束縛了人工智能的發展,也給工程師增加了負擔。

事實上,與其説約束機器人,不如説約束機器人背後的操作者。季老師剛才提到的所有人工智能做的壞事,其實不是機器做的,而是控制機器的人做的。法律賦予人類權力的同時,也同樣約束人類活動。所以,對人工智能的立法正是為了約束操控機器人的人,為技術開發、數據應用等行為設立法律底線。

季衞東:金老師提出的兩個觀點非常重要。第一,人工智能有其發展過程。眼下“人工智能熱”是因為機器深度學習、計算機能力大幅提高、量子計算機與電商數據的出現,導致人工智能變得越來越現實。但人工智能想要取代人類還是很遙遠的構想,因為在人類看來容易的事,人工智能要做卻不簡單。最重要的是,人類擁有感情,根據直覺判斷事物,但人工智能將所有東西都變成了計算程序,這一過程非常漫長且複雜。第二,我們應當給人工智能留點發展空間。我非常贊同這一看法,這就是為何我提出,不能只強調硬法之治,而應結合軟法和硬法,為人工智能提供原則性的指引方向,但不要過於匆忙地設立具體的法律規則來約束其發展。包括金教授提到的數據問題,如果過分強調個人信息和隱私保護,就會束縛人工智能的發展。所以,從這兩個角度看,不能一味強調人工智能的治理,要注意技術規格、代碼框與法律法規之間的適當平衡。否則人工智能就沒有發展的餘地了。

金老師還提到機器人的主體資格問題,也很重要。他説最後決定機器行為的不是人工智能,而是設計算法的人,因此責任在人不在機。這也就涉及到人工智能專家與法律專家的關係了。包括如何規範電腦工程師的行為,他們對技術問題的理解又是怎麼樣的。此時,法學研究者、法律從業者與電腦工程師、人工智能專家之間的對話就顯得尤為重要。

上海交大電信學院長聘教授金耀輝(輝)對話上海交大文科資深教授季衞東(左)

自動駕駛事故暴露人工智能三大問題,追責成難題

金耀輝:新技術的出現必然會帶來挑戰,汽車剛發明時也面臨同樣的問題,人類擁有許多可以借鑑的經驗。以自動駕駛技術例,自動駕駛通過攝像頭來判斷交通標識。國外曾做過一個有趣的實驗,在交通信號上稍微增加一些較小的擾動,比如噪音的照片。人對這些照片不會產生任何誤解,但人工智能的算法在這方面存在弱點,會產生錯誤判斷。假設有人故意攻擊算法的漏洞,導致算法癱瘓,這種情況下,法律應當如何設定規則?

季衞東:我認為汽車發明與自動駕駛這兩者面臨的問題並不相同。一般汽車在行駛中的責任主體非常明確,誰開車誰負責。但自動駕駛情況下該由誰負責?如果説這是製造廠商的問題,但其實故障起因於軟件,應該追究算法設計者或軟件供應商的責任。但若有人惡意攻擊了自動駕駛程序、惡意修改了算法,又該如何判斷責任呢?再者,出現事故應該找誰賠償?按照《產品質量法》,汽車質量問題可以追究汽車製造商的產品責任,但自動駕駛的情況就比較麻煩了,因為它涉及多種責任。製造商可以對汽車質量負責,但對自動駕駛行為不負責。

對於金老師提出的如果有人惡意修改程序或者對象物的微妙變化導致人工智能識別錯誤,這説明人工智能系統存在固有弱點。人能夠依靠直覺進行判斷,因為人自出生起就會逐漸形成一個常識體系,而人工智能無法做到,因此無法在模糊情況下進行適當的判斷。一般而言,人工智能存在三大問題:一是無法形成一個龐大的、永無止境的常識庫,只能儘可能地逼近這一狀態。二是精確度越來越高時,人工智能的算法不可解釋,我們不知道它是如何運算出來的。三是人工智能無法理解語言的含義,只能對程序中存在的算法進行運算,不能讓符號落地。換句話説,即便人工智能系統説“愛你”,你也不知道它是否真心,因為他並不懂語言的真正涵義。

自動駕駛事故涉及多種責任,追責是難題

人工智能無法理解人類語言,需要給予具體指示才能接近人的判斷

金耀輝:這一波的人工智能學習算法為何如此厲害?因為深度學習這一算法的發明。當然,深度學習也存在季老師提到的算法黑箱的問題。我們工程師更多的是討論解決什麼問題。我們最近也在做一些評估,人類如何進行績效評估?法官、檢察官、教師等職業通過工作記錄進行績效評估,例如此次講座也是一次社會貢獻的評估。對機器而言,它通過log日誌記錄工作內容。在機器自動化的過程中,我們首先要做的是完整地保留日誌,然後在機器上市前,要把整個算法提交上去。

在人工智能發展的第二波時期,“符號學派”即專家系統曾經風靡一時,其代表人物Doug Lanet在1980年代開發的Cyc,試圖用邏輯規則來代替我們對這個世界的理解編碼。然而,1998年,Doug甚至發出一聲哀嘆“人工智能甚至連人類最基本的常識都不具備”。今天,所有人工智能行業從業者依然會有同樣的感受,人工智能無法理解自然語言。例如,我説“中國足球隊誰也贏不了”和“中國乒乓球隊誰也贏不了。”相信所有人都能理解這兩句話是截然不同的含義,但Siri和百度語音能理解嗎?它們只能把這句語音翻譯成中文或英文,但它們不可能理解背後的含義,因為它們不懂常識。

另一個問題就是概率的不確定性。我們生活的世界永遠是不確定性的世界,那麼,我們該如何把握確定性量化呢?首先我承認,我們的統計是經過大量數據的,必然存在不確定性的問題,我們的研究應該表明算法的不確定性、不確定程度有多少,不確定度在何處,這是一個被量化的值。從輸出到最後的決策,無論是自動化的,還是人為干預的,都會被記錄下來。然後,我們會對這些日誌進行審計並還原決策做出過程。所以,我們的研究應該關注不確定性的量化問題。

這在人類世界也是如此。例如,不同的法官對同樣的案情會做出不同的判決結果,因為每個法官都有不同的“自由心證”。但若結果之間出現了較大的差距,在計算機領域稱之為“異常”,這時就要考慮法官本身是否存在問題。因此,針對於人工智能的立法,是否也應考慮人工智能算法本身的特點?

人工智能只能翻譯,但不能理解人類語言背後的含義

季衞東:金老師談到的兩個問題對法律人來説很有意思,也很令人費解。第一,人工智能無法建立一個常識體系。那麼,如何才能讓它做出判斷呢?首先要確定一定的概率,然後進行計算。但此時這個數據就會存在問題。因為法律適用需要一個確定的、明確的判斷,不能説正確率有多少,但調解一定程度上可以。第二,從最簡單的自動駕駛例子可能更能理解人工智能的特點。自動駕駛可以嚴格按照道路的限速規定自動行駛。如果我們運用人工智能進行交通執法,似乎也很簡單,只要輸入交通規則就可以了,交警也是根據交規判斷汽車是否超速。然而,即便交通規則的適用也具有一定的靈活性,需要執法者進行裁量。如駕駛速度超出一、兩公里,或者汽車在綠燈閃爍時加速衝過馬路,交警並不會做出懲罰。這就增加了智能軟件設計的複雜程序。

美國曾做過一項實驗,將學生分成三組,第一組嚴格按法律規則編程,第二組參照法律條文編程序,第三組給出關於概率、變動幅度等具體指示進行編程。最終,第一組的結果非常機械,幾乎所有人都將面臨罰單。第二組的結果非常多元,而第三組則給出了具體的指示,例如超速超過30%就要面臨罰單。可見,若人工智能專家能夠給予具體的指示,可能會使人工智能軟件更加接近人的判斷。

AI數據給人“貼標籤”,或是未來法治中存在的最大陷阱

金耀輝:季老師提到了一個非常好的問題,實際上,自動駕駛與環境有關。我們肯定希望自動駕駛軟件能夠像人類一樣有温度,根據外界的環境變化而調整。但環境依賴的是數據,所以回過頭來,我們還是要談談數據本身的問題。

人的聽覺、嗅覺、直覺等感受能力很強也很多,可以通過這些能力做出決策。而機器一般根據數據做出判斷。因此數據很重要,並且越多越好,但作為人工智能的數據並不可能完整地收集起來,所以一定是在非完全的數據輸入情況下做出的決策,此時就要有一個取捨。如果單從算法角度考慮,我們需要判斷這些數據的關鍵因素是否缺失。例如,交通信號燈的重要信息如果缺失,那自動駕駛的判斷結果必然沒用。又如判斷某人是否懷孕的前提信息要確認這是位女性。這些是不能丟失的信息。

但反過來又要思考,這些信息會不會導致隱私的泄露?剛才提到,某些視頻網站會根據用户的喜好推薦視頻,這方面涉及的數據共享與保護的問題是目前上海正在研究的。政府希望通過數字經濟,共享數據,以刺激更多的中小企業進行創新。但這一過程中可能會侵犯用户隱私或商業秘密。未來,法律界與技術界要共同研究這一問題的解決方案,實現數據共享與保護的雙重目標。

另一個問題是,網絡推薦背後的算法實際上是在給人物打標籤。例如,我訂機票時,航空公司會推薦比較準時、可以取消的航班,因為我身上已有這樣的標籤。貼標籤的過程可以部分避免用户的完整數據被交換,部分解決了隱私保護問題。但是利用其他廠商的生成標籤可能會導致推薦算法的不確定性更加無法量化。所以學術界也在探索差分隱私或聯邦學習的新型算法。

本場講座以在線直播和在場互動的形式同步呈現

季衞東:金老師關於“貼標籤”的説法很精彩。刑法學中就有一個標籤理論,意思是,一旦社會給你貼上某個標籤,旁人就會不斷地用這種眼光審視你。有點類似中國古代的成語“疑人偷斧”,導致你處於一個不利的狀態。反過來,若你意識到社會給你貼了這個標籤,你就會朝着這個方向走,最後就真是變成了標籤上的一樣,即預言的自我實現。

大家可能都有這樣的體會,每次打開電腦都會彈出很多廣告,這就是廣告軟件給你貼的標籤,它並未把你當作一個獨立的個人,而是某個類型。它把不同的人分成不同的類型,根據類型把握你的需求,並決定如何對待你。這完全違背了以每個人平等而自由的人格為基礎的現代法治邏輯。

貼標籤的另一個問題是,你可能永遠貼着標籤。例如,監獄的口號是“改造自己、重新做人”,“重新做人”就意味着不能永遠貼着這個標籤,個人享有刪除權、忘卻權,否則如何迴歸社會、重新做人?但在數字化社會,這些標籤存在於數據庫,被貼標籤的人根本不知道,只覺得自己總是碰壁、受到歧視。人工智能對大數據的處理使得每一個人都被貼上標籤,它們把個體進行歸類處理,成為集體框架裏的一個組成部分,然而此時我們依然認為自己是獨立的個體。這是智能網絡化社會的治理中我們面臨的最大挑戰,也是未來法治中可能存在的最大陷阱。當然,這也是大數據和人工智能時代向現代法律體系提出一個根本問題。

金耀輝:對於季老師剛才的反駁,我想回應兩點。第一,貼標籤的目的是為了防止個人的所有信息被泄露,這是根本目的。第二,好的算法應該具有時效性,比如懷孕只有十個月,十個月後就不應該再給孕婦貼標籤了。所以,算法本身也需要改進。

季衞東:我們知道阿里巴巴的芝麻信用是五年數據、五年有效,但現在失信聯合懲戒機制探討認為肯定超過五年,因為數據在其他地方都在流轉,這個問題怎麼解決,下一次我們再私聊。

(整編:袁琭璐)

相關鏈接:

季衞東:代碼與法律雙行,AI 社會呼喚制度創新 |148期主講

作者:季衞東、金耀輝

現場拍攝:王少君、袁琭璐

編輯:袁琭璐

責任編輯:李念

*文匯獨家稿件,轉載請註明出處。