楠木轩

买奖牌吗,世界级的那种

由 度方针 发布于 科技

世界级比赛Kaggle的奖牌多少钱一块?国内某电商平台明码标价,银牌4000元,铜牌2800元。

卖家贴心提示,“报名并选择比赛后,马上拉进队伍,开始比赛”“确保奖牌”。详情页里,附上商家团队背景介绍——全员均有大数据硕博背景。

这个被称斤论两吆喝叫卖的奖牌,属于数据科学领域一个叫Kaggle的竞赛平台。

2010年,安东尼·戈德布卢姆和本·哈姆纳共同创建了Kaggle,2017年它被谷歌收购,业内甚至评价它“推动整个行业的发展”。

在数据科学领域,一个问题通常没有标准答案,很多模型都可以作为解决方案,研究者通过对比才能找出最优解。与其让单一团队冒着思维固化的风险去寻找有多少种可能的答案,不如把问题“众包”出去,用竞赛的模式鼓励更多参与者来提供方案。参赛者最好能熟练掌握统计学、数学和计算机等学科,明白什么是“机器学习”。

例如Kaggle练习赛里的经典题目“泰坦尼克号之灾”,答题者需要根据乘客的个人信息生成合适的模型,预测其他人的存活状况。去年的 Kaggle比赛题目里,有一个由马来西亚宠物福利平台提供,题目是预测被遗弃的宠物多长时间可以被领养。

对那些研究数据分析、机器学习领域的人来说,Kaggle就是一场“华山论剑”。

各种公司或平台将需要解决的问题挂在Kaggle平台上,通过悬赏找出最佳方案。Kaggle官方每年都会举办一次全世界范围内的竞赛,奖金高达100万美元。参与者组队前来,自由加入竞赛,进行中的项目会“显示剩余时间、参与的队伍数量以及奖金金额”,选手排位随着参与者的不断加入和淘汰随时更新,直到比赛的最后一刻,才会一锤定音,决出胜负。

这些来自全球各地的数据科学高手,摩拳擦掌,组队攀岩,耍一套漂亮的招式,盼着就此扬名立万。即便当不上天下第一,拿不到被平台官方认可的“最佳方案”头衔,只要能闯进“五绝”“十绝”,往后走在数据科学的江湖上,“奖牌”往出一亮,也足够叫人刮目相看,夸一句“哦,原来是某奖得主”。

美国数据电子交易公司CEO曾多次参加Kaggle比赛。据他介绍,难度中等的项目通常需要投入两周,每天工作超过10小时,“更别提那些有着强迫症、一遍遍修改方案的人”。

“获奖的都是有真本事的人。”用国内一位业内人士的话说,“得过一次10%,我会给电话面试。得过2次或者以上10%,我会给on site面试。得过一次前10,我们会谈笑风生。”到了2018年,标准水涨船高,得过一次前10成了相关企业看简历的入门标准。

和拿学位、申请留学、评职称用的论文一样,Kaggle平台上这块能够与出国留学、求职加薪挂钩的奖牌,让广大造假作弊人士发现了商机,产业链逐渐形成。

一张中文“喜报”截图,最近被挂在Kaggle平台网站上,庆祝学员获得52块奖牌,然而,这其实是一位用户收集到的证据。他找到了一个匿名信源,可以证明“某些中国辅导机构正在出售Kaggle奖牌”。

在这条产业链里,卖方有客服,有辅导老师,有可以带着菜鸟学员直接比赛、稳赢上分的团队,就像是许多游戏里的“氪金团队”,前来消费的“金主爸爸”只需要把钱一交,“躺着划水”,等待雇来的高手把敌人砍瓜切菜般打得退下山去,就可以凭着团队成员身份,坐领奖牌一枚。

“作弊团伙”,这是曝光此事的Kaggle用户对这条产业链的评价,相关帖子已经收获了超过200个跟帖。

去年那个马来西亚宠物福利平台提供的竞赛项目里,最终获得冠军的人在Kaggle上拥有宗师头衔,居于比赛总积分榜前3,在硅谷一家公司担任数据科学家。随后,他被那场比赛的第六名举报作弊,如今丢了饭碗,被Kaggle永久禁赛。

举报者在一篇文章里详细分析了作弊者在模型中暗藏的技术手段,贴出了证据。最终他感慨:“每个在竞赛中赢钱的人,都应该被要求开源他们的解决方案,我不是第一个这么说的人,我也不知道为什么到现在还没这么做。”

这不是Kaggle第一次被质疑。随着参赛人数逐年增加,赛事影响力越来越大,单枪匹马也好,组队成团也好,世界各地都有专为奖牌而来的作弊者。属于“技术宅”的净土悄然失守。

人性从不无辜,趋利避害。指望参赛者的自觉和作弊者良心发现还竞赛一个公平的环境显然不现实,许多用户呼吁,这需要平台从官方层面,提供有效的解决方案,比如说,建立一个专门的比赛秩序管理团队。

这或许能够成为下一个竞赛题目。

张渺 来源:中国青年报