新智元報道
來源:Science
編輯:白峰
【新智元導(dǎo)讀】近日,一名MIT的自由科學(xué)家Hutson在Science發(fā)文,抨擊「人工智能的一些進(jìn)展并不真實」,MIT研究人員對當(dāng)前的一些AI論文進(jìn)行了系統(tǒng)評估后發(fā)現(xiàn),新模型和之前的經(jīng)典模型結(jié)果相差并不大,論文作者宣稱的效果提升大部分是舊模型的微小改動,并采用了不同的評價標(biāo)準(zhǔn)。
人工智能似乎變得越來越聰明。每一部 iPhone 都比上一部更好地了解你的面孔、聲音和習(xí)慣,各種性能的提升真的是來自算法的創(chuàng)新嗎?
Matthew Hutson
多數(shù)算法改進(jìn)缺乏創(chuàng)新性
麻省理工學(xué)院(MIT)計算機科學(xué)專業(yè)的研究生戴維斯 布拉洛克(Davis Blalock)表示,有些算法改進(jìn)來自微調(diào),而不是發(fā)明者聲稱的核心創(chuàng)新,而且有些改進(jìn)可能根本不存在。
Blalock 和他的同事比較了幾十種改進(jìn)神經(jīng)網(wǎng)絡(luò)的方法?!肝覀兪崂砹?0篇論文,但是我們?nèi)匀徊恢雷钕冗M(jìn)的技術(shù)到底是什么。」
研究人員評估了81種剪枝算法,這些剪枝算法主要是裁剪一些不必要的連接以提高神經(jīng)網(wǎng)絡(luò)效率。所有人都都變著法說自己的算法是最好的, 但他們很少進(jìn)行公允的有說服力的比較ーー當(dāng)研究人員把這些算法放在同一標(biāo)準(zhǔn)下評估時,10年的時間,并沒有什么顯著的改善。
以剪枝算法為例,質(zhì)疑這些論文主要原因有以下幾點:
缺乏一個完備的比較。2010年之前的算法沒有加入評估,最近的更新也沒有,對比較多的是VGG、ResNet這些經(jīng)典架構(gòu),而最新的EfficientNet則很少。
你用了ImageNet,好我用CIFAR;什么你也用CIFAR,RseNet架構(gòu)?那我用CIFAR和VGG。。
數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)架構(gòu)都不統(tǒng)一,得出的結(jié)論實在很難讓人信服。
評價指標(biāo)不一致,結(jié)果描述不完整。僅從效率和準(zhǔn)確率無法評估出模型的對比效果。只有一篇論文使用了標(biāo)準(zhǔn)差來評估整體的趨勢。
還有一點就是大家用的數(shù)據(jù)預(yù)處理方法、超參數(shù)的調(diào)整策略,使用的框架,剪枝和微調(diào)介入的時期等都沒有統(tǒng)一,這些都會導(dǎo)致結(jié)果的不同。比如同樣的算法,有些PyTorch的實現(xiàn)就比TensorFlow的好,當(dāng)然反過來也有可能。
水論文到底在玩什么把戲?
今年三月份在MLSys上公布的結(jié)果讓 Blalock 的博士導(dǎo)師,麻省理工學(xué)院的計算機科學(xué)家 John Guttag 感到驚訝,「這種不平衡的比較本身就可以解釋為什么停滯不前了」。這是老一套了,對吧?
從當(dāng)前主流的機器學(xué)習(xí)架構(gòu)來看,機器學(xué)習(xí)算法的收益主要來自其結(jié)構(gòu)、損失函數(shù)或優(yōu)化策略的根本性變化。
卡內(nèi)基梅隆大學(xué)的計算機科學(xué)家 Zico Kolter 研究圖像識別模型,該模型被訓(xùn)練后可以對黑客的「對抗性攻擊」免疫。
一種早期的對抗性訓(xùn)練方法投影梯度下降法(PGD) ,現(xiàn)在一些更復(fù)雜的方法看似超越了PGD,但是在二月份的 arXiv 論文中,Kolter 和他的同事們發(fā)現(xiàn),只需要一個簡單的技巧來增強PGD,所有這些方法的效果都差不多。
論文灌水成風(fēng),但剪枝算法建議別發(fā)了
網(wǎng)友對如今AI論文灌水之風(fēng)也是頗有微詞,比如NIPS2018入選千篇。
知乎網(wǎng)友@Xiang Wang提出,論文要么跟實際貼合提升業(yè)務(wù),要么就是理論創(chuàng)新,但是很多論文兩者都沒有做到,純用捏造,實在是尷尬。
即使新方法并不比舊方法好到哪里去,每隔一段時間也會有一個新的算法實現(xiàn)應(yīng)用上的突破, 「這幾乎就像一個風(fēng)險投資組合,其中一些東西并沒有真正發(fā)揮作用,但一些業(yè)務(wù)卻表現(xiàn)出色」。
一些工業(yè)界看起來很好的效果可能是因為該領(lǐng)域的爆炸性增長,論文數(shù)量超過了有經(jīng)驗的審稿人。評審人員時間緊任務(wù)重,只與基準(zhǔn)進(jìn)行比較,很容易得出偏見性的結(jié)論。
今年早些時候,Blalock 的合著者,麻省理工學(xué)院的研究員 Jose Gonzalez Ortiz,發(fā)布了一款名為 ShrinkBench 的軟件,該軟件是基于PyTorch并且是開源的,它使得比較剪枝算法變得更加容易,以后再發(fā)這類的論文可要注意了!
參考鏈接:
https://www.zhihu.com/question/59002888)
https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real)
https://proceedings.mlsys.org/static/paper_files/mlsys/2020/73-Paper.pdf
當(dāng)前文章:人工智能領(lǐng)域很多引人注目的進(jìn)展并不真實
網(wǎng)站URL:http://m.rwnh.cn/article4/cjheie.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、域名注冊、品牌網(wǎng)站建設(shè)、網(wǎng)站內(nèi)鏈、微信小程序、虛擬主機
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)