楠木軒

買獎牌嗎,世界級的那種

由 度方針 發佈於 科技

世界級比賽Kaggle的獎牌多少錢一塊?國內某電商平台明碼標價,銀牌4000元,銅牌2800元。

賣家貼心提示,“報名並選擇比賽後,馬上拉進隊伍,開始比賽”“確保獎牌”。詳情頁裏,附上商家團隊背景介紹——全員均有大數據碩博背景。

這個被稱斤論兩吆喝叫賣的獎牌,屬於數據科學領域一個叫Kaggle的競賽平台。

2010年,安東尼·戈德布盧姆和本·哈姆納共同創建了Kaggle,2017年它被谷歌收購,業內甚至評價它“推動整個行業的發展”。

在數據科學領域,一個問題通常沒有標準答案,很多模型都可以作為解決方案,研究者通過對比才能找出最優解。與其讓單一團隊冒着思維固化的風險去尋找有多少種可能的答案,不如把問題“眾包”出去,用競賽的模式鼓勵更多參與者來提供方案。參賽者最好能熟練掌握統計學、數學和計算機等學科,明白什麼是“機器學習”。

例如Kaggle練習賽裏的經典題目“泰坦尼克號之災”,答題者需要根據乘客的個人信息生成合適的模型,預測其他人的存活狀況。去年的 Kaggle比賽題目裏,有一個由馬來西亞寵物福利平台提供,題目是預測被遺棄的寵物多長時間可以被領養。

對那些研究數據分析、機器學習領域的人來説,Kaggle就是一場“華山論劍”。

各種公司或平台將需要解決的問題掛在Kaggle平台上,通過懸賞找出最佳方案。Kaggle官方每年都會舉辦一次全世界範圍內的競賽,獎金高達100萬美元。參與者組隊前來,自由加入競賽,進行中的項目會“顯示剩餘時間、參與的隊伍數量以及獎金金額”,選手排位隨着參與者的不斷加入和淘汰隨時更新,直到比賽的最後一刻,才會一錘定音,決出勝負。

這些來自全球各地的數據科學高手,摩拳擦掌,組隊攀巖,耍一套漂亮的招式,盼着就此揚名立萬。即便當不上天下第一,拿不到被平台官方認可的“最佳方案”頭銜,只要能闖進“五絕”“十絕”,往後走在數據科學的江湖上,“獎牌”往出一亮,也足夠叫人刮目相看,誇一句“哦,原來是某獎得主”。

美國數據電子交易公司CEO曾多次參加Kaggle比賽。據他介紹,難度中等的項目通常需要投入兩週,每天工作超過10小時,“更別提那些有着強迫症、一遍遍修改方案的人”。

“獲獎的都是有真本事的人。”用國內一位業內人士的話説,“得過一次10%,我會給電話面試。得過2次或者以上10%,我會給on site面試。得過一次前10,我們會談笑風生。”到了2018年,標準水漲船高,得過一次前10成了相關企業看簡歷的入門標準。

和拿學位、申請留學、評職稱用的論文一樣,Kaggle平台上這塊能夠與出國留學、求職加薪掛鈎的獎牌,讓廣大造假作弊人士發現了商機,產業鏈逐漸形成。

一張中文“喜報”截圖,最近被掛在Kaggle平台網站上,慶祝學員獲得52塊獎牌,然而,這其實是一位用户收集到的證據。他找到了一個匿名信源,可以證明“某些中國輔導機構正在出售Kaggle獎牌”。

在這條產業鏈裏,賣方有客服,有輔導老師,有可以帶着菜鳥學員直接比賽、穩贏上分的團隊,就像是許多遊戲裏的“氪金團隊”,前來消費的“金主爸爸”只需要把錢一交,“躺着划水”,等待僱來的高手把敵人砍瓜切菜般打得退下山去,就可以憑着團隊成員身份,坐領獎牌一枚。

“作弊團伙”,這是曝光此事的Kaggle用户對這條產業鏈的評價,相關帖子已經收穫了超過200個跟帖。

去年那個馬來西亞寵物福利平台提供的競賽項目裏,最終獲得冠軍的人在Kaggle上擁有宗師頭銜,居於比賽總積分榜前3,在硅谷一家公司擔任數據科學家。隨後,他被那場比賽的第六名舉報作弊,如今丟了飯碗,被Kaggle永久禁賽。

舉報者在一篇文章裏詳細分析了作弊者在模型中暗藏的技術手段,貼出了證據。最終他感慨:“每個在競賽中贏錢的人,都應該被要求開源他們的解決方案,我不是第一個這麼説的人,我也不知道為什麼到現在還沒這麼做。”

這不是Kaggle第一次被質疑。隨着參賽人數逐年增加,賽事影響力越來越大,單槍匹馬也好,組隊成團也好,世界各地都有專為獎牌而來的作弊者。屬於“技術宅”的淨土悄然失守。

人性從不無辜,趨利避害。指望參賽者的自覺和作弊者良心發現還競賽一個公平的環境顯然不現實,許多用户呼籲,這需要平台從官方層面,提供有效的解決方案,比如説,建立一個專門的比賽秩序管理團隊。

這或許能夠成為下一個競賽題目。

張渺 來源:中國青年報