人工智能毫無疑問已經成為了近年來全球科技行業角逐最激烈的領域。
人工智能相關的框架、算法等層出不窮,而這些都離不開模型訓練。
比如,要開發一個新的人臉識別算法,就需要一個龐大而多樣化人臉圖像數據集。
通俗點來講,機器學習算法是個笨學生,沒法一點就通,於是唯一有效的策略就是模型訓練——玩命刷題。
刷題就必須要有題庫,而這個題庫就是我們所説的數據集了。
通過這樣的不斷訓練,算法輸出的結果才會既公平又準確。
在大數據的時代,尤其是隨着物聯網和移動設備的發展,我們擁有的數據越來越多,種類也包括圖片、文本、視頻等非結構化數據。
或許你曾聽説過人臉數據集、語音數據集、駕駛體驗視頻數據集、新華字典數據集、女裝大佬數據集等等五花八門的數據集。
這些項目涵蓋了我們生活的方方面面,涉及了各個領域,派上了巨大的用場。
但是,你應該沒有聽説過專門的禿頭數據集吧?
就在前不久,一位來自印度的學生Ashish Jangra,在Kaggle(數據科學競賽平台)發佈了一個名為「Bald Classification Dataset」的禿頭分類數據集。
這個數據集裏面包含了20 多萬張、總共1.3G的禿頭人像照片,一經上線就火遍開發圈。
這些禿頭照片依次存放在測試、訓練、驗證等3個數據集文件夾上。
每個文件夾也包括Bald和NotBald兩種圖像,嚴謹中透露着一絲心酸。
這些禿頭人像數據集的來源,主要是歐美公眾人物,包含政商界、娛樂圈、體育界人士。
笑歸笑,至於這個數據集的用途,也還是很有前景的。
我們可以利用它來訓練禿頭識別模型:Ai識別圖片中的人物是否禿頭。
再進一步,就能通過訓練禿頭數據集,快速算出合影、視頻、或區域街景中,目標區域中的“含禿率”。
由此,便可以快速得出一個區域裏某類人羣的作息規律、審美習慣、職業背景、身體素質等等信息。
比如:
到底是互聯網產業園“含禿率”高,還是文創廣告孵化園的“含禿率”高?
到底是醫學院、建築學院,還是計算機學院“含禿率”高?
到底是俄羅斯“含禿率”高,還是英國“含禿率”高?
大家再也不用吵得不可開交,算法直接告訴你結果。
對於甲方爸爸、公司、學校來講,也可以通過“含禿率”來進行KPI考核,以此作為對年度貢獻團隊/實驗室的評定參考。
在醫療領域,還可以通過它在皮膚科、內分泌科、脱髮專科門診,協助醫生進行病理性脱髮的病程判定。
如果你説不覺得自己禿了,只是髮際線上移了一點點而已。
那麼Ai可能會告訴你,不好意思別掙扎了,你就是禿了。
在商用領域,這款工具能有效地幫助植髮機構更快找到目標消費羣體。有了它之後,植髮醫院的廣告投放人羣可以更加精準了。
最後,這款工具還能夠運用到玄學婚戀領域,進行面相與禿頭間相關性的研究。
比如根據你的長相判斷你未來禿頭的概率:今天不禿,不代表明天不禿啊。
世紀佳緣、陌陌、探探這些軟件似乎也可以引入這項VIP功能了。
網友評論:
“我禿不禿還需要算法檢測才知道嗎?”
“碼農們除了給repo貢獻代碼,亦可貢獻大量素材,一舉兩得。”