雷鋒網 AI 科技評論按:2019 年馬上就要結束了,這一年里我們又一同見證了雪片般密集(越來越密集)的論文,見證了全世界研究人員在各種問題上的新探索。
雷鋒網 AI 科技評論參考 TopBots、Heartbeat、New World AI 等機構的 2019 論文榜單,總結出 2019 年發表的具有研究風向代表性的、有學術影響力、內容也精彩的 AI 論文。其中一些論文把現有的技術思路改進得更加完善,有一些加深了我們對機器學習/深度學習整件事的理解,也有的嘗試了全新的假說、打開了新的探索方向。當然,這一年有許多論文都具有顯著的學術價值,下面總結出的只是冰山一角。如果你覺得還有哪些論文是同樣值得被回顧的,歡迎在評論區留言和我們討論。
除此之外,我們還準備了一篇「2019 年十大新奇論文」,總結了這一年中尤其新穎有趣、甚至出格招致批評的論文。
推薦理由:StyleGAN 無疑是 2019 年最熱門的 GAN 網絡模型。在 StyleGAN 之前,GAN 的相關研究已經遇到了條件式生成困難、單純增加模型大小的收益有限、無法生成逼真的高分辨率圖像等等多種困境,StyleGAN 就沖破了這個瓶頸,在生成控制的可控制性、不同屬性的互相搭配、高分辨率高清晰度(且具備一致性)方面都帶來了大幅進步。為此,StyleGAN 獲得了 CVPR 2019 最佳論文榮譽提名獎。
StyleGAN 在網絡上引發了大量討論,它驚人的人臉生成效果不僅折服了吃瓜群眾,也吸引了很多人撰寫自己的實現并開放 demo 供所有人嘗試,包括生成人臉(、生成貓()、生成二次元妹子(、生成房間照片(thisairbnbdoesnotexist.com)的模型。
作者:中科院計算所智能信息處理重點實驗室,中國科學院大學,微信 AI 模式識別中心,伍斯特理工學院,華為諾亞方舟實驗室
推薦理由:神經機器翻譯模型的訓練方式是給定上下文,預測某一些被掩模的詞,但推理過程(真正的翻譯過程)是需要從零生成整個句子。這種偏差問題其實在序列到序列轉換任務中長期普遍存在。這篇論文就研究了這種偏差,并探討如何彌補這種偏差。
作者們提出的解決方案是,生成條件在「基于參考文本中的詞」和「解碼器自己的輸出中預選擇詞」兩種之間切換,論文的實驗做得非常完善,結果令人信服。根據 ACL 2019 論文獎評選委員會的意見,這種方法適用于當前的純學習訓練范式,也能為規劃采樣帶來改進;而且,這不僅可能影響本來針對的機器翻譯任務的未來研究和應用,也能用來普遍地改進其它的序列到序列轉換模型。這篇論文也被選為ACL 2019 最佳論文。
推薦理由:2019 年 1 月,DeepMind 開發的星際 2 AI「AlphaStar」首次亮相就擊敗了人類職業選手。雖然當時的比賽規則明顯對 AI 方有利,但我們已經感受到了 AI 并不是靠操作速度、而主要是靠優秀的策略取得勝利的。后來,在公平規則的、基于星際 2 天梯的大規模人機 1v1 比賽中,AlphaStar 繼續發揮出了優秀的表現,取得了「Grandmaster」段位,大概為所有活躍玩家的前 0.15%。這也成為了AlphaStar 論文發表在《Nature》雜志 2019 年 10 月刊所需要的最后一個實驗。
AI 在游戲中勝過人類當然不是第一次了,不過 DeepMind 開發AlphaStar 并不僅僅(和其它游戲 AI 一樣)使用了大量的計算能力,他們使用的群體強化學習(群體進化、保留多種不同策略)等設計也改善了通常強化學習做法的問題,提高了智能體在復雜環境中的表現。不完全信息、高維連續行動空間的長序列建模問題的解決方案日趨成熟。
推薦理由:這篇論文要解決的任務「從單個攝像頭估計運動物體的深度」乍看上去是無法完成的。這篇論文用了很巧妙的方法,一方面,作者們把 YouTube 上用戶們自己上傳的「時間靜止」視頻作為數據集,它們提供了海量的、天然的、帶有人物的三維空間回放,經過傳統方法還原之后就可以作為標注數據,免去了采集之苦。這實際上提醒我們,除了用傳統眾包方法專門收集數據集之外,網絡上還有許多公開數據經過處理以后也可以成為很有價值的訓練數據集。
另一方面,在用深度模型學習空間常識、學習預測深度的同時,作者們還增加了額外的結構讓網絡能夠提取臨近的幀之間的變化信息,提高了網絡處理運動物體的能力。最終效果是,只需要單個攝像頭視角的輸入,模型就可以輸出穩定、高準確率的三維深度預測,對于運動的物體也有很好效果。這篇論文也獲得了 CVPR 2019 最佳論文榮譽提名獎。
推薦理由:作為縮小網絡體積、降低運算資源需求的技術路線,網絡稀疏化和知識蒸餾一起得到了越來越多的關注。目前最常用的稀疏化方法是先訓練一個大網絡然后剪枝,稀疏的網絡也可以得到和稠密網絡差不多的性能。
既然稀疏的網絡可以有和稠密網絡差不多的性能,這篇論文里作者們就提出一個大膽的假設,看作是想要的稀疏網絡本來就在稠密網絡里,我們只需要把它找出來就可以 —— 更具體地,如果從隨機初始化的網絡隨機做 n 次迭代可以得到訓練好的稠密網絡,從隨機初始化的網絡里做類似數目的迭代也可以找到表現差不多的稀疏網絡。只不過,找到那個稀疏網絡非常依賴好的初始值,而想在隨機出好的初始值簡直就像抽彩票。這就是論文核心的「彩票假說」。
作者們設計了算法確認「是否抽到了好的號碼」,也用一系列實驗驗證了假說、展示了好的初始值的重要性。甚至,從好的初始值出發得到的稀疏網絡可以得到比稠密網絡更好的表現。這篇論文獲得了 ICLR 2019 的最佳論文獎。
推薦理由:這篇來自韓家煒團隊的論文研究了深度學習中的變差管理。在神經網絡的訓練中,Adam、RMSProp 等為了提升效果而加入了自適應動量的優化器都需要一個預熱階段,不然在訓練剛剛啟動的時候就很容易陷入不好的、可能有問題的局部最優,而這篇論文中提出的 RAdam 能為優化器提供好的初始值。借助一個動態整流器,RAdam 可以根據變差大小來調整 Adam 優化器中的自適應動量,并且可以提供一個高效的自動預熱過程;這些都可以針對當前的數據集運行,從而為深度神經網絡的訓練提供一個扎實的開頭。
同一時期還有另一篇研究改進優化過程的論文《LookAhead optimizer: k steps forward, 1 step back》(abs/1907.08610),它的核心思路是維持兩套權重,并在兩者之間進行內插,可以說是,它允許更快的那一組權重「向前看」(也就是探索),同時更慢的那一組權重可以留在后面,帶來更好的長期穩定性。這種做法帶來的效果就是降低了訓練過程中的變差,就「減少了超參數調節的工作量」,同時「在許多不同的深度學習任務中都有更快的收斂速度、最小的計算開銷」(根據論文作者自己的介紹)。
這兩篇論文不僅都對神經網絡的優化過程提出了有效改進,而且兩者還可以共同使用。這些成果都既增進了我們對神經網絡損失空間的理解,還是非常有效的工具。
推薦理由:隨著目標識別的規模越來越大、粒度越來越細,類別不平衡、遮擋、分類模糊性、物體尺度差異性等等問題越來越明顯。我們很容易想到,人類視覺識別能力中的一個重要環節是「基于常識的推理」,比如辨認出了 A 物被 B 物遮擋之后,對這兩個物體的識別都能更準確。這篇論文就把這種思想融入到了 RCNN 模型中,作者們為模型設計了顯式的常識知識,并且用基于類別的知識圖把圖像中物體的語義知識表示出來。
一方面,在感知模型中加入常識、加入基礎的推理能力是構建「視覺智能」的趨勢;另一方面,其它研究者雖然在更早的研究里就提出過「從圖像的目標識別生成關系圖」,但是關系圖生成了以后有什么作用呢,這篇論文就展示了,可以用圖進一步改善目標識別任務本身的表現。
除此之外,作者們還做了許多改進,讓模型更適應大規模物體識別、增強階段之間的聯系、優化識別效果。最終,模型的 mAP 在多個數據集上都有大幅提高。作者們的方法比較輕量,可以用在各種目標識別主干網絡上,也可以集成各種不同的知識來源。
推薦理由:隨著多智能體強化學習研究越來越多,為智能體設計/讓智能體學會行動協調和信息交換成了一個重要課題。這篇論文中作者們的著力點就是在多智能體環境下,讓智能體從其他智能體身上學會固有的社交動機。他們的方法是,如果一個智能體能影響其他智能體、讓它們在協同和溝通方面都有更好的表現,那就獎勵它。更具體地,作者們在論文中展示了,如果一個智能體讓其他智能體的行為發生了較大的改變,那獎勵它就更有可能鼓勵不同的智能體之間有更多的共同信息交換。這樣的機制會讓智能體形成歸納偏倚,更有意愿學會協同運動,即便這些智能體都是各自獨立地訓練的。并且影響力的獎勵是使用一種分布式的方式來計算的,能夠有效解決突發通信的問題。這篇論文獲得了 ICML 2019 最佳論文榮譽提名。
同期還有另一篇來自 Facebook AI 研究院的論文 Learning Existing Social Conventions via Observationally Augmented Self-Play (abs/1806.10071)從另一個角度設計了協調機制:在加入一個團體之前,新的智能體要通過觀察和重放機制學習這個團地當前的行為模式(人類角度的「風俗習慣」),讓自己能夠融入,避免加入團體之后它的策略無法得到獎勵(即便在無合作的競爭性環境下可以得到獎勵)。不過大概還是前一篇學會固有社交動機更高明一點?相比之下它可是明明白白地促進了智能體都變得更協調、更主動溝通啊(笑)。
推薦理由:現代的神經網絡研究都有一個固定的模式,固定網絡架構,通過優化尋找好的連接權重(訓練)。這種慣例也引發了一些討論,「如果我們把網絡結構看作先驗,把連接權重看作學到的知識」,那么我們能在多大程度上把知識以結構(先驗)的形式集成在模型中呢?以及這樣做是好還是壞呢?
這篇論文就是一次直接的探索,網絡的訓練過程不是為了尋找權重,而是在相對固定且隨機的權重下尋找更好的網絡結構。對于集成了好的先驗的網絡結構,即便網絡中所有的權重都統一且隨機的也能有好的表現;在此基礎上如果能允許分別優化不同的權重,網絡的表現就可以更上一層樓。這種方式找到的先驗知識也會以網絡結構的形式直接體現出來,有更好的可解釋性。
如果說「固定網絡結構,尋找權重」和「固定權重、尋找網絡結構」分別就像「氣宗」與「劍宗」,那么現在雙方終于都登場了,我們可以期待未來有更多的好戲上演。
推薦理由:基于 BERT 的改進模型很多,XLNet 是其中非常成功的一個。XLNet 的改進重點在于,1,用基于輸入順序置換的新的掩模方式替代 BERT 的掩模+雙向預測(這種機制設計使得 BERT 更像是文本降噪模型,而在生成任務中表現不佳),2,使用了 token 內容和 token 位置分離的雙流自注意力機制,3,采用了和改進 2 匹配的新的掩模方式。這些設計讓 XLNet 兼具了序列生成能力(類似傳統語言模型)和上下文信息參考能力。
再加上選用更大的訓練數據集、用更適應長序列的Transformer-XL 作為主干網絡、訓練方式對掩模的利用率更高、允許部分預測訓練等改進,可以說 XLNet 相對于 BERT 的技術改進是從頭到尾的,在作者們測試的所有任務中都取得了比 BERT 更好的表現也是情理之中(雖然有一些任務中提升并不大)。
XLNet 這樣的模型出現代表著 NLP 預訓練模型越發成熟,適應的下游任務越來越多、表現越來越好;也代表著一個統一的模型架構就有可能解決各種不同的 NLP 任務。
在 6 人德州撲克游戲中勝過人類的撲克 AI(這也是 Science 雜志總結的 2019 年 10 大科學突破第 10 名)
「非視線內的物體形狀重建」,也就是「如何看到墻角后面的東西」是這篇論文的研究課題。雖然這個任務略顯冷門,但這篇論文表明計算機視覺技術有潛力讓更多看似不可能的事情變得可能。獲得了 CVPR 2019 最佳論文
面向任務的多輪對話系統通常會為不同的任務設計預定義的模版,但不同模版之間的數據共享、數據遷移是一大難點。這篇論文就提出了有效的知識追蹤、共享、遷移方法
基于單視角視頻,根據運動物體的移動解算三維空間結構的做法在傳統計算機視覺中就有很多研究,這篇論文里把它和深度學習結合以后帶來了更好的效果,作者們增加的在線學習能力也讓這個方法對不同的數據集、不同的場景有更好的適應性。
研究 CNN 模型的縮放和可拓展性,用更小的模型得到更高的準確率,而且為不同規模的計算資源提供了一系列優化過的模型。ICML 2019 Spotlight 論文
通過隱式的課程學習中,在一個具備互動和競爭機制的環境中,不同的智能體之間可以持續地找到新任務,它們也就可以持續地學會新的策略
專門研究 BERT 的預訓練過程并提出一種新的改進思路,用新的預訓練目標做更充分的訓練。也就是說,設計一個大模型容易,但還要想辦法確定是否已經訓練夠了。
這篇論文嘗試從單張圖像學習 GAN,多種不同尺度的 GAN 組成的金字塔結構分別學習圖像中不同大小的小塊,整個模型的學習效果得以同時兼顧圖像中的全局結構和細節紋理。ICCV 2019 最佳論文
清華大學團隊設計的天機芯片用融合架構同時支持來自計算機科學的、基于數值的非線性變換的人工神經網絡,以及來自神經科學的、基于信號響應的脈沖神經網絡。論文發表在 Nature 雜志。
以上就是雷鋒網 AI 科技評論總結的十大精彩學術論文(以及同樣值得看看的另外十篇備選)。如果你有什么不同的見解,歡迎留言和我們討論。













咨詢郵箱:
咨詢熱線:
