色婷五一,精品亚洲欧美一区二区三区日产 ,精选国产AV剧情,无码丰满少妇2在线观看

18600329666

咨詢技術(shù)專家

掃一掃
與技術(shù)專家在線溝通

Menu
無需大規(guī)模預(yù)訓(xùn)練,清華提出高效NLP學(xué)習(xí)框架TLM:從零開始比肩預(yù)訓(xùn)練語言模型性能

近期來自清華的研究者研發(fā)出了一款nlp學(xué)習(xí)框架,不同于現(xiàn)行流行的nlp框架,需要大量的訓(xùn)練+任務(wù)微調(diào)的范式,這一框架無需大規(guī)模的深度學(xué)習(xí)訓(xùn)練,相比于目前流行的其他與訓(xùn)練框架,這一框架的效率更高,甚至在多個類型nlp任務(wù)的使用中,其準(zhǔn)確率超過了一般的預(yù)訓(xùn)練框架,這一研究結(jié)果對大規(guī)模預(yù)訓(xùn)練模型和方式提出了質(zhì)疑:大規(guī)模訓(xùn)練對下有任務(wù)的貢獻率到底有多大,我們真的需要大量的訓(xùn)練來達到最好的效果嗎?研究者將這種方式稱之為TLM

自然語言處理技術(shù)

 TLM 和 PLM。整體來說,PLM 以極高的成本學(xué)習(xí)盡可能多的任務(wù)無關(guān)的知識,而 TLM 以非常低的成本針對每個任務(wù)學(xué)習(xí)相關(guān)知識。對比 TLM 和 PLM 有如下幾個方面特點。

1.推動 NLP 研究公平化和民主化(Democratization)

預(yù)訓(xùn)練本身嚴(yán)重依賴大量的計算資源,這一限制使得大多數(shù) NLP 研究者專項對微調(diào)算法的研究。然而微調(diào)性能上限很大程度上受預(yù)訓(xùn)練模型性能的約束。而 TLM 使得大多數(shù)研究人員可以以較低的代價和較高的效率,基于最先進的解決方案對模型架構(gòu)、損失函數(shù)、算法等方面進一步自由探索。
2. 高效性(Efficiency)
TLM 在平均每個任務(wù)的 FLOPs 消耗方面顯著優(yōu)于 PLM。當(dāng)我們有少數(shù)目標(biāo)任務(wù)需要解決的時候(例如研究人員希望對少量幾個數(shù)據(jù)集進行研究),TLM 會是非常高效的;然而當(dāng)需要一次性解決大量任務(wù)時(例如工業(yè)界構(gòu)建一個 NLP 平臺為多方提供相似的服務(wù)),PLM 仍然具有優(yōu)勢。
3. 靈活性(Flexibility)
TLM 是任務(wù)驅(qū)動的,所以可以給研究人員更大的自由度,從而自定義策略進行標(biāo)記、序列長度、數(shù)據(jù)表示、超參數(shù)的調(diào)整等等,從而達到提高性能和效率的目的。
4. 通用性(Generality)
PLM 學(xué)習(xí)與任務(wù)無關(guān)的一般性表示,可用于小樣本和零樣本學(xué)習(xí),而 TLM 通過學(xué)習(xí)任務(wù)相關(guān)的表示一定程度犧牲通用型換取效率。從這個意義上,TLM 需要在通用型方面進一步提升。此外也可以 PLM 和 TLM 結(jié)合從而在通用性和效率之間實現(xiàn)更好的權(quán)衡。
為了深入了解 TLM 的工作機制,研究人員對模型每個注意力頭所輸出的注意力分?jǐn)?shù)進行了可視化??梢杂^察到,TLM 的注意力模式中包含了更多的「對角線」模式(圖 3 紅框),也即大多 token 都將注意力分?jǐn)?shù)集中賦予了其鄰近 token,這種模式已在前人的工作 [1] 中被證明對模型的最終預(yù)測有著重要貢獻。而預(yù)訓(xùn)練模型(BERT, RoBERTa)中則包含了大量「垂直」模式的注意力頭(圖 3 灰色區(qū)域),也即大多 token 都將注意力分?jǐn)?shù)集中賦予了 [CLS],[SEP] 或者句號這種毫無語義或者句法信息的詞匯上。這一現(xiàn)象表明 TLM 中參數(shù)利用率要顯著高于預(yù)訓(xùn)練語言模型,TLM 或許針對下游任務(wù)學(xué)習(xí)到了更加富有語義信息的表示。
總結(jié)
TLM 的提出讓 NLP 研究跳脫出預(yù)訓(xùn)練微調(diào)范式成為了可能,這使得 NLP 研究者們可以更為自由地探索新興的模型結(jié)構(gòu)與訓(xùn)練框架,而不拘泥于大規(guī)模預(yù)訓(xùn)練模型。在未來,更多有趣的研究可以在 TLM 的基礎(chǔ)上展開,例如:如何經(jīng)濟地達到更大規(guī)模預(yù)訓(xùn)練模型的表現(xiàn)效果;如何提升 TLM 的通用性與可遷移性;可否利用 TLM 進行小樣本或零樣本學(xué)習(xí)等等。