家住舊金山的馬克怎麼都沒想到,本來急着給自己兒子看病,給醫生髮了一張照片,結果卻讓自己險些身敗名裂。
事情發生在去年年初,由於當時仍處在疫情高峯期,一些非緊急醫療機構都關閉了服務,也包括馬克家選擇的兒童診所。馬克發現自己兒子的私處出現腫脹,急忙尋求專業人士的幫助,和醫生打視頻電話。
在視頻之前,護士讓馬克發一張照片給醫生看下。馬克照做了。
然而讓他沒想到的是,這張照片可給他惹了大禍了。
愛子心切的父親,算法眼中的“戀童癖”在照片發出的兩天後,馬克突然接到了谷歌的一紙通知。
由於涉嫌儲存和傳播有害內容,嚴重違反用户協議和公司政策,並且涉嫌違法,他的谷歌賬號被完全關閉。
由於馬克是谷歌全家桶的忠實用户,谷歌這一決定的後果相當慘痛:
他不僅失去了自己的 Gmail 郵件、通訊錄、日曆,還因為是 Google Fi 虛擬運營商的用户,連手機號都被一起凍結了。
到了這裏,噩夢還遠未結束。
谷歌不僅封了他的賬號,還直接把這件事報到專門打擊兒童色情/性虐待內容的監督機構那去了,該機構後來又聯繫了舊金山警察部門。終於在去年年底,舊金山警方從谷歌公司那裏調取了關於馬克的所有資料和記錄,正式對馬克展開了調查。
長達一年的時間裏,馬克面臨“戀童癖”的嚴重指控,工作生活都難以開展,甚至幾乎“身敗名裂”……
《紐約時報》描述此事的文章提到,將馬克置於尷尬境地的,正是谷歌少為人知的兒童性虐待內容打擊系統。
根據美國政府的定義,兒童性虐待內容(Child Sexual Abuse Material,以下簡稱 CSAM),包括照片、視頻等,只要其中涉及未成年人露骨色情行為的畫面,都屬於此類內容。更具體來説,涉及包括誘騙、勒索、展示/鼓動/宣揚性化 (sexualization) 未成年人、拐賣兒童性質的內容,都屬於谷歌明令禁止的 CSAM 範疇。
為了防止平台、產品和技術被用於傳播 CSAM,谷歌投入了大量資源,對 CSAM 進行掃描、阻止、移除和舉報——然而這次讓馬克遭殃的並不是谷歌的掃描技術,而是谷歌的人工查驗流程出了疏漏。
在各大公司,CSAM 檢索和事後舉報的流程,都包括了算法掃描和人工查驗的雙保險制度,谷歌也不免俗。然而在馬克的遭遇當中,在算法發現了照片,並自動觸發系統鎖死馬克的賬户,並交由人工查驗之後,核查員似乎並沒有考慮當時的場景,沒有發現這張照片是發給醫療專業人士的。
事後,馬克立即進行了申訴。然而谷歌不僅拒絕複核之前做出的決定,甚至都不讓他下載保存自己的數據。被關閉的賬號,數據在兩個月後就被自動刪除了,馬克失去了過去多年積累的很多重要信息。
事情就這樣拖了整整一年,直到去年年底警方正式啓動了調查。
在這一年裏,馬克幾近“社死”,很難跟同事和朋友完整、誠實地解釋,自己的電話號碼、郵箱,為什麼突然就憑空消失了。
直到今年前不久,當地警方才完成了調查並予以結案。
結果毫無意外:馬克無罪。
對於把自己的忠實用户推進深淵,谷歌用法律作為擋箭牌的解釋,很合情合理,卻也綿軟無力。一位公司發言人表示,美國的兒童保護相關法律要求像谷歌這樣的公司必須對發現的 CSAM 事件進行上報。
根據谷歌的透明度報告,僅在2021年度,公司就屏蔽了近120萬個涉及 CSAM 的超鏈接,向美國相關監督機構“全國失蹤與受虐兒童服務中心” (NCMEC) 提交了87萬份報告,涉及約670萬條內容,關閉了約27萬個賬號。
遺憾的是,馬克不幸成為了27萬分之一。
身處這27萬人中間,就像那些進了監獄卻高喊着無辜的人一樣,那種有冤情説不出,説出也不被人相信的滋味,簡直無法想象。
好心辦壞事在介紹打擊 CSAM 工作的官方頁面上,谷歌宣稱,公司組建並訓練了專門的隊伍,使用最尖端的技術來識別 CSAM。
目前在美國大公司的範圍裏,檢索 CSAM 有兩種技術途徑:哈希值匹配,和計算機視覺識別。
哈希值匹配比較簡單,就是調取市面上第三方機構維護的數據庫裏的條目,和自己平台上的圖片進行哈希值匹配,從而檢測已知的 CSAM 相關內容。這方面早年穀歌曾經用過微軟的 PhotoDNA。這項技術已經存在了10年多的時間了,不止谷歌,包括 Meta、Reddit、Twitter 等公司,以及 CSAM 領域的權威公共監督機構 NCMEC,都在使用它。
以及,谷歌系的 YouTube 也在使用自研的 CSAI Match 技術來,實現流媒體視頻的哈希匹配。
當然,每天都有新的違法圖片和視頻誕生,所以除了哈希匹配之外,谷歌還自研並部署了基於計算機視覺技術的機器學習分類器,從而檢索“未曾見過”的相關內容。
谷歌將這一技術整合到了 Content Safety API 當中,也開放給第三方使用。目前,包括 Meta、Reddit、Adobe、雅虎等公司,也是谷歌自研 CSAM 檢索技術的用户和合作夥伴。
至於本次案件,谷歌似乎是從馬克的 Google Photos 檢索到了相關內容。
Google Photos 是谷歌推出的照片備份和雲端相冊服務,在自有品牌以及其它一些主流 Android 手機廠商的機型上都有預裝。值得注意的是,用户在 Google Photos 裏登錄谷歌賬號後,應用會提示建議用户打開自動上傳備份——馬克可能就是在這裏吃了虧。
如果打開了自動上傳功能,除了在某些第三方應用(比如 Twitter、Instagram) 下載的照片之外,包括相機照片集,以及手機上生成的其它照片,都會被 Google Photos 會自動上傳到雲端。
而根據官方網站和公司發言人透露的情況,谷歌不止明令限制用户通過 Google Photos 上傳和傳播相關內容,它的 CSAM 打擊系統,也會對 Google Photos 裏的照片進行掃描和匹配。
問題在於,根據谷歌發言人的表述,CSAM 打擊系統的對象僅限於用户“主動行為” (affirmative action) 上傳的圖片。
從務實的角度來看,馬克開啓了 Google Photos 自動上傳,結果因為急着給娃看病,拍了這張照片,自動上傳了,忘了刪,回頭被谷歌找上麻煩——這樣也要算作主動行為,未免有點牽強。
掃描 CSAM,能夠保護兒童安全,有效地打擊戀童癖和各種變態,聽上去怎麼都是一件好事對不對?
然而實際上,近年來美國大型互聯網和科技公司在做這件事的時候各種問題故障和醜聞不斷——結果就是,算法自動化打擊 CSAM 這件事,在技術道德和隱私權方面已經引發了巨大爭議。
如果把谷歌這次烏龍事件形容為“人禍”的話,那麼去年同一時間蘋果出的事故,可以稱得上“天災”了。
去年8月初,蘋果突然宣佈,將要在 iOS 平台上推出一個專門掃描 CSAM 的客户端側工具。
蘋果突出的關鍵詞在“端側”上:和谷歌一直以來掃描雲端服務器存儲的用户內容的做法不同,蘋果表示只會在用户設備上做這件事,系統會下載 NCMEC 的數據庫,然後完全在本地進行哈希值匹配。
然而,蘋果所謂的“端側”、“注重隱私”等,只是表面説辭。有專家發現,實際上用户發送到 iCloud 保存的照片也會成為檢測對象。還有研究者發現蘋果所採用的匹配算法 NeuralHash 存在設計理念缺陷。而且這一技術根本不是即將推出,而是好久以前就偷偷植入到公開版 iOS 裏了,蘋果還專門混淆了 API 命名,以便“隱姓埋名”。
結果,蘋果宣佈了這件事之後沒出一個月,就有人對 NeuralHash 算法實現了哈希碰撞和“原像攻擊”。
簡單來説,哈希碰撞就是找到兩張哈希值相同的隨機照片;而原像攻擊,則是“刻意生成的碰撞”,也即先給定一張照片,然後生成另一張和其哈希值相同,但內容不同的照片。
甚至,有人直接在廣受歡迎的 ImageNet 標註圖像數據庫裏,都能夠找到幾對天然的 NeuralHash “雙胞胎”(兩張不同的原視圖片,哈希值相同)……
這些攻擊測試的結果,從原理和邏輯上直接推翻了蘋果的 CSAM 檢索技術,使其一文不值。
早期測試的結果顯示,NeuralHash 的哈希碰撞發生率和蘋果宣稱的誤報率水平差不多,屬於可以接受的範圍。然而考慮到蘋果在全球擁有超過15億設備用户,基數過於巨大,一旦 NeuralHash 出現誤報,甚至哈希碰撞導致的事故,都會波及大量用户。
總的來看,目前谷歌、蘋果這兩大移動平台級超大型公司,在掃描和打擊兒童色情這件事上,都確實努力做了一些事情,也值得鼓勵。
然而這件事的另一面,卻令人大為遺憾:
因為一張隨手拍出的照片,工作和生活陷入僵局,甚至險些身敗名裂,這恐怕是馬克,以及不少和他經歷相似的人,所完全沒有預料到的。
這也是整件事的尷尬之處:在過界的美國科技平台和它們糟糕的算法面前,好心真的可能會辦壞事。
*注:封面圖背景來自Lars Plougmann CC-BY-SA,版權屬於原作者,如不同意使用清儘快聯繫我們。