,,

文本分類任務(wù)是NLP領(lǐng)域最常見、最基礎(chǔ)的任務(wù)之一，顧名思義，就是對給定的一個句子或一段文本進行分類。文本分類在互聯(lián)網(wǎng)、金融、醫(yī)療、法律、工業(yè)等領(lǐng)域都有廣泛的應(yīng)用，例如文章主題分類、商品信息分類、對話意圖分類、論文專利分類、郵件自動標簽、評論正負傾向識別、投訴事件分類、廣告檢測以及敏感違法內(nèi)容檢測等，這些應(yīng)用場景全部都可以抽象為文本分類任務(wù)。但如何進行技術(shù)方案選型、如何進行模型調(diào)優(yōu)、如何解決少樣本等問題，使很多開發(fā)者望而卻步，遲遲難以上線。

近日，PaddleNLP針對以上工業(yè)落地中種種常見問題，開源了一整套文本分類場景方案，接下來我們將詳細解讀其技術(shù)特色：

方案全覆蓋：涵蓋文本分類高頻場景，開源微調(diào)、提示學習、基于語義索引多種分類技術(shù)方案，滿足不同文本分類落地需求；

(資料圖片僅供參考)

模型高效調(diào)優(yōu)：強強結(jié)合數(shù)據(jù)增強能力與可信增強技術(shù)，解決臟數(shù)據(jù)、標注數(shù)據(jù)欠缺以及數(shù)據(jù)不平衡等問題，大幅提升模型效果；

產(chǎn)業(yè)級全流程：打通數(shù)據(jù)標注-模型訓練-模型調(diào)優(yōu)-模型壓縮-預(yù)測部署全流程，助力開發(fā)者簡單高效地完成文本分類任務(wù)。

STAR收藏，跟蹤最新功能

項目地址：

https://github.com/PaddlePaddle/PaddleNLP

圖：PaddleNLP文本分類詳細文檔介紹

特色一：方案全覆蓋

圖：三類文本分類場景

如上圖，根據(jù)任務(wù)類別定義，可以將文本分類劃分為二分類/多分類、多標簽、層次分類三類場景。PaddleNLP基于多分類、多標簽、層次分類等高頻分類場景，提供了預(yù)訓練模型微調(diào)、提示學習、語義索引三種端到端全流程分類方案：

方案一：預(yù)訓練模型微調(diào)

預(yù)訓練模型微調(diào)是目前NLP領(lǐng)域最通用的文本分類方案。預(yù)訓練模型與具體的文本分類任務(wù)的關(guān)系可以直觀地理解為，預(yù)訓練模型已經(jīng)懂得了通用的句法、語義等知識，采用具體下游任務(wù)數(shù)據(jù)微調(diào)訓練可以使得模型”更懂”這個任務(wù)，在預(yù)訓練過程中學到的知識基礎(chǔ)可以使文本分類效果事半功倍。

圖：模型精度-時延圖

在預(yù)訓練模型選擇上，ERNIE 系列模型在精度和性能上的綜合表現(xiàn)已全面領(lǐng)先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large等中文模型。PaddleNLP開源了如下多種尺寸的ERNIE系列預(yù)訓練模型，滿足多樣化的精度、性能需求：

ERNIE 1.0-Large-zh-CW（24L1024H）

ERNIE 3.0-Xbase-zh（20L1024H）

ERNIE 2.0-Base-zh (12L768H)

ERNIE 3.0-Base (12L768H)

ERNIE 3.0-Medium (6L768H)

ERNIE 3.0-Mini (6L384H)

ERNIE 3.0-Micro (4L384H)

ERNIE 3.0-Nano (4L312H)

… …

除中文模型外，PaddleNLP 也提供ERNIE 2.0英文版、以及基于96種語言（涵蓋法語、日語、韓語、德語、西班牙語等幾乎所有常見語言）預(yù)訓練的多語言模型ERNIE-M，滿足不同語言的文本分類任務(wù)需求。

方案二：提示學習

提示學習（Prompt Learning）適用于標注成本高、標注樣本較少的文本分類場景。在小樣本場景中，相比于預(yù)訓練模型微調(diào)學習，提示學習能取得更好的效果。提示學習的主要思想是將文本分類任務(wù)轉(zhuǎn)換為構(gòu)造提示（Prompt）中掩碼的分類預(yù)測任務(wù)，使用待預(yù)測字的預(yù)訓練向量來初始化分類器參數(shù)，充分利用預(yù)訓練語言模型學習到的特征和標簽文本，從而降低樣本量需求。PaddleNLP集成了R-Drop 和 RGL 等前沿策略，幫助提升模型效果。

圖：預(yù)訓練模型微調(diào) vs 提示學習

如下圖，在多分類、多標簽、層次分類任務(wù)的小樣本場景下，提示學習比預(yù)訓練模型微調(diào)方案，效果上有顯著優(yōu)勢。

方案三：語義索引

基于語義索引的文本分類方案適用于標簽類別不固定、或大規(guī)模標簽類別的場景。在新增標簽類別的情況下，無需重新訓練模型。語義索引的目標是從海量候選召回集中快速、準確地召回一批與輸入文本語義相關(guān)的文本。基于語義索引的文本分類方法具體來說是將標簽集作為召回目標集，召回與輸入文本語義相似的標簽作為文本的標簽類別，尤其適用于層次分類場景。

對預(yù)訓練時代NLP任務(wù)入門感興趣的小伙伴，可以掃碼報名進群，獲取PaddleNLP官方近期組織的直播鏈接，進群還可獲得10GB NLP學習大禮包等超多福利~此外，課程中還將介紹數(shù)據(jù)增強、稀疏數(shù)據(jù)與臟數(shù)據(jù)挖掘等數(shù)據(jù)、模型調(diào)優(yōu)策略，親測好用，這部分是課程精華，非常推薦各位NLPer去學習交流。

接下來，我們來看如何進行數(shù)據(jù)、模型調(diào)優(yōu)。

特色二：模型高效調(diào)優(yōu)

有這么一句話在業(yè)界廣泛流傳，"數(shù)據(jù)決定了機器學習的上限，而模型和算法只是逼近這個上限"，可見數(shù)據(jù)質(zhì)量的重要性。PaddleNLP文本分類方案依托TrustAI可信增強能力和數(shù)據(jù)增強API開源了模型分析模塊，針對標注數(shù)據(jù)質(zhì)量不高、訓練數(shù)據(jù)覆蓋不足、樣本數(shù)量少等文本分類常見數(shù)據(jù)痛點，提供稀疏數(shù)據(jù)篩選、臟數(shù)據(jù)清洗、數(shù)據(jù)增強三種數(shù)據(jù)優(yōu)化策略，解決訓練數(shù)據(jù)缺陷問題，用低成本方式獲得大幅度的效果提升。

集可信分析和增強于一體的可信AI工具集-TrustAI，能夠有效識別和優(yōu)化NLP領(lǐng)域數(shù)據(jù)標注的常見問題，如『訓練數(shù)據(jù)中存在臟數(shù)據(jù)阻礙模型效果提升』，『數(shù)據(jù)標注成本太高但又不清楚該標注什么數(shù)據(jù)』，『數(shù)據(jù)分布有偏導致模型魯棒性差』等，TrustAI能幫助NLP開發(fā)者解決訓練數(shù)據(jù)缺陷問題，用最小的標注成本獲得最大幅度的效果提升。

可戳項目地址了解詳情：

https://github.com/PaddlePaddle/TrustAI

策略一：稀疏數(shù)據(jù)篩選

基于TrustAI中可信增強方法挖掘待預(yù)測數(shù)據(jù)中缺乏訓練集數(shù)據(jù)支持的數(shù)據(jù)（稀疏數(shù)據(jù)），然后使用特征相似度方法選擇能夠提供證據(jù)支持的訓練數(shù)據(jù)進行數(shù)據(jù)增強，或選擇能夠提供證據(jù)支持的未標注數(shù)據(jù)進行數(shù)據(jù)標注，這兩種稀疏數(shù)據(jù)篩選策略均能有效提升模型表現(xiàn)。

策略二：臟數(shù)據(jù)清洗

基于TrustAI的可信增強能力，采用表示點方法(Representer Point)計算訓練數(shù)據(jù)對模型的影響分數(shù)，分數(shù)高的訓練數(shù)據(jù)表明對模型影響大，這些數(shù)據(jù)有較大概率為臟數(shù)據(jù)（被錯誤標注的樣本）。臟數(shù)據(jù)清洗策略通過高效識別訓練集中臟數(shù)據(jù)，有效降低人力檢查成本。

我們在多分類、多標簽、層次分類場景中評測臟數(shù)據(jù)清洗策略，實驗表明臟數(shù)據(jù)清洗策略對文本分類任務(wù)有顯著提升效果。

策略三：數(shù)據(jù)增強

PaddleNLP內(nèi)置數(shù)據(jù)增強API，支持詞替換、詞刪除、詞插入、詞置換、基于上下文生成詞（MLM預(yù)測）、TF-IDF等多種數(shù)據(jù)增強策略，只需一行命令即可實現(xiàn)數(shù)據(jù)集增強擴充。我們在某分類數(shù)據(jù)集（500條）中測評多種數(shù)據(jù)增強策略，實驗表明在數(shù)據(jù)量較少的情況下，數(shù)據(jù)增強策略能夠增加數(shù)據(jù)集多樣性，提升模型效果。

圖：數(shù)據(jù)增強策略效果

特色三：產(chǎn)業(yè)級全流程

文本分類應(yīng)用提供了簡單易用的數(shù)據(jù)標注-模型訓練-模型調(diào)優(yōu)-模型壓縮-預(yù)測部署全流程方案，方案流程如下圖所示。

開發(fā)者僅需輸入指定格式的數(shù)據(jù)，一行命令即可開啟文本分類訓練。對于訓練結(jié)果不理想情況，分析模塊提供了多種模型調(diào)優(yōu)方案，解決文本分類數(shù)據(jù)難題。

對于模型部署上線要進一步壓縮模型體積的需求，文本分類應(yīng)用接入PaddleNLP 模型壓縮 API 。采用了DynaBERT 中寬度自適應(yīng)裁剪策略，對預(yù)訓練模型多頭注意力機制中的頭（Head ）進行重要性排序，保證更重要的頭（Head ）不容易被裁掉，然后用原模型作為蒸餾過程中的教師模型，寬度更小的模型作為學生模型，蒸餾得到的學生模型就是我們裁剪得到的模型。實驗表明模型裁剪能夠有效縮小模型體積、減少內(nèi)存占用、提升推理速度。此外，模型裁剪去掉了部分冗余參數(shù)的擾動，增加了模型的泛化能力，在部分任務(wù)中預(yù)測精度得到提高。通過模型裁剪，我們得到了更快、更準的模型！

表：模型裁剪效果

完成模型訓練和裁剪后，開發(fā)者可以根據(jù)需求選擇是否進行低精度（FP16/INT8）加速，快速高效實現(xiàn)模型離線或服務(wù)化部署。

責任編輯：侯亞麗

分享到：版權(quán)聲明：凡注明來源“流媒體網(wǎng)”的文章，版權(quán)均屬流媒體網(wǎng)所有，轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載，觀點供業(yè)內(nèi)參考，不代表本站觀點。文中圖片均來源于網(wǎng)絡(luò)收集整理，僅供學習交流，版權(quán)歸原作者所有。如涉及侵權(quán)，請及時聯(lián)系我們刪除!

關(guān)鍵詞：稀疏數(shù)據(jù) 數(shù)據(jù)清洗

責任編輯：QL0009