點擊👉

娛樂城

有效地瘦身神經網絡

您不需要用大鎚敲碎螺母。

喬納森·弗蘭克(Jonathan Frankle)正在研究人工智能,而不是開心果,但同樣的哲學也適用於他的“彩票假設”。它假定,隱藏在大規模神經網絡中的精益子網可以更有效地完成相同的任務。訣竅是找到那些被稱為中獎彩票的“幸運”子網。

在一篇新論文中,Frankle及其同事發現了潛伏在BERT中的此類子網,BERT是一種用於自然語言處理(NLP)的先進神經網絡方法。作為人工智能的一個分支,NLP旨在通過預測文本生成或在線聊天機器人等應用程序來解密和分析人類語言。在計算方面,BERT體積龐大,通常需要大多數用戶無法獲得的超級計算能力。訪問BERT的中獎彩票可以公平地進行比賽,從而可能使更多用戶在智能手機上開發有效的NLP工具-無需大錘。

弗蘭克勒說:“我們正在達到必須使這些模型更精簡,更高效的地步。”他補充說,這一進步有一天可能會“減少NLP的准入門檻”。

麻省理工學院計算機科學與人工智能實驗室的邁克爾·卡賓小組的博士生Frankle是該研究的共同作者,該研究將於下個月在神經信息處理系統會議上發表。德克薩斯大學奧斯汀分校的陳天龍是該論文的主要作者,其中包括得克薩斯州A&M的合作者Wang Zhangyang Wang,以及所有MIT-IBM Watson AI Lab的常石宇,劉思佳和張揚

您今天可能已經與BERT網絡進行了互動。這是Google搜索引擎的基礎技術之一,自Google於2018年發布BERT以來,它一直引起研究人員的興奮。BERT是一種創建神經網絡的方法-使用分層節點或“神經元”的算法94大發網-娛樂城推薦”,以通過訓練大量示例來學習執行任務。對BERT進行的訓練是反复嘗試填寫一段寫作後遺留下來的單詞,而BERT的能力在於此初始訓練數據集的龐大規模。然後,用戶可以-將BERT的神經網絡調整為特定任務,例如構建客戶服務聊天機器人,但是爭吵的BERT需要大量處理hoya娛樂城 功率。

弗蘭克爾說:“如今,標準的BERT模型(花園品種)具有3.4億個參數,”他補充說,這個數字可以達到10億。對如此龐大的網絡進行微調可能需要一台超級計算機。 “這簡直太貴了。這遠遠超出了您或我的計算能力。”

陳同意。他說,儘管BERT迅速流行,但此類模型“仍受龐大的網絡規模的影響”。幸運的是,“彩票假設似乎是一種解決方案。”

為了削減計算成本,Chen和他的同事試圖找出隱藏在BERT中的較小模型。他們通過迭代修剪整個BERT網絡中的參數進行了實驗,然後將新子網的性能與 2019娛樂城推薦原始的BERT模型。他們對一系列NLP任務進行了此比較,從回答問題到填充句子中的空白詞。

研究人員發現,根據任務的不同,成功的子網比最初的BERT模型薄40%至90%。此外,他們能夠在運行任何特定任務的微調之前識別出那些中獎彩票,這一發現可以進一步降低NLP的計算成本。在某些情況下,為一項任務選擇的子網可以重新用於另一項任務,儘管Frankle指出這種可移植性並不普遍。儘管如此,弗蘭克勒還是對該小組的結果感到滿意。

他說:“我什至為這項工作感到震驚。” “這不是我想當然的事情。我期望比我們得到的結果更混亂。”

Facebook AI Research的科學家阿里·莫爾科斯(Ari Morcos)稱,在BERT模式中發現中獎彩票的發現“令人信服”。 “這些模型正變得越來越普遍,” Morcos說。 “所以重要的是要了解彩票是否虛假。台灣娛樂城他補充說,這一發現可以使類似BERT的模型使用更少的計算能力運行,“鑑於這些非常大的模型當前運行成本非常高,這可能會產生很大的影響。”

弗蘭克(Frankle)同意。他希望這項工作可以使BERT更易於訪問,因為它逆轉了NLP模型不斷增長的趨勢。他說:“我不知道使用這些超級計算機風格的計算可以得到多大的收益。” “我們將不得不減少進入壁壘。”確定一個精簡的,贏得彩票的子網就是這樣做的-允許缺乏Google或Facebook計算能力的開發人員仍然可以執行最先進的NLP。弗蘭克爾說:“希望這樣做可以降低成本,使每個人都可以使用它,……對於只有一台筆記本電腦的小傢伙來說,”。 “對我來說真是令人興奮。”

參考:Chen T,Frankle J,Chang S,et al。樂透娛樂城體驗金預先訓練的BERT網絡的門票假說。 arXiv。 2020年。doi:12223v2 

本文已從以下材料重新發布。注意:材料的長度和內容可能已被編輯。有關更多信息,請聯繫引用的來源。