国产成人女人毛片视频在线-国产成人女人视频在线观看-国产成人女人在线观看-国产成人欧美-国产成人欧美日韩在线电影-国产成人欧美视频在线

資訊> 正文

人工智能入行攻略:數(shù)據(jù)缺陷挖掘與可解釋分析

時間: 2022-10-27 19:49:57 來源: 流媒體網(wǎng)

文本分類任務(wù)是NLP領(lǐng)域最常見、最基礎(chǔ)的任務(wù)之一,顧名思義,就是對給定的一個句子或一段文本進行分類。文本分類在互聯(lián)網(wǎng)、金融、醫(yī)療、法律、工業(yè)等領(lǐng)域都有廣泛的應(yīng)用,例如文章主題分類、商品信息分類、對話意圖分類、論文專利分類、郵件自動標簽、評論正負傾向識別、投訴事件分類、廣告檢測以及敏感違法內(nèi)容檢測等,這些應(yīng)用場景全部都可以抽象為文本分類任務(wù)。但如何進行技術(shù)方案選型、如何進行模型調(diào)優(yōu)、如何解決少樣本等問題,使很多開發(fā)者望而卻步,遲遲難以上線。

近日,PaddleNLP針對以上工業(yè)落地中種種常見問題,開源了一整套文本分類場景方案,接下來我們將詳細解讀其技術(shù)特色:

方案全覆蓋:涵蓋文本分類高頻場景,開源微調(diào)、提示學習、基于語義索引多種分類技術(shù)方案,滿足不同文本分類落地需求;


(資料圖片僅供參考)

模型高效調(diào)優(yōu):強強結(jié)合數(shù)據(jù)增強能力與可信增強技術(shù),解決臟數(shù)據(jù)、標注數(shù)據(jù)欠缺以及數(shù)據(jù)不平衡等問題,大幅提升模型效果;

產(chǎn)業(yè)級全流程:打通數(shù)據(jù)標注-模型訓練-模型調(diào)優(yōu)-模型壓縮-預(yù)測部署全流程,助力開發(fā)者簡單高效地完成文本分類任務(wù)。

STAR收藏,跟蹤最新功能

項目地址:

https://github.com/PaddlePaddle/PaddleNLP

圖:PaddleNLP文本分類詳細文檔介紹

特色一:方案全覆蓋

圖:三類文本分類場景

如上圖,根據(jù)任務(wù)類別定義,可以將文本分類劃分為二分類/多分類、多標簽、層次分類三類場景。PaddleNLP基于多分類、多標簽、層次分類等高頻分類場景,提供了預(yù)訓練模型微調(diào)、提示學習、語義索引三種端到端全流程分類方案:

方案一:預(yù)訓練模型微調(diào)

預(yù)訓練模型微調(diào)是目前NLP領(lǐng)域最通用的文本分類方案。預(yù)訓練模型與具體的文本分類任務(wù)的關(guān)系可以直觀地理解為,預(yù)訓練模型已經(jīng)懂得了通用的句法、語義等知識,采用具體下游任務(wù)數(shù)據(jù)微調(diào)訓練可以使得模型”更懂”這個任務(wù),在預(yù)訓練過程中學到的知識基礎(chǔ)可以使文本分類效果事半功倍。

圖:模型精度-時延圖

在預(yù)訓練模型選擇上,ERNIE 系列模型在精度和性能上的綜合表現(xiàn)已全面領(lǐng)先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large等中文模型。PaddleNLP開源了如下多種尺寸的ERNIE系列預(yù)訓練模型,滿足多樣化的精度、性能需求:

ERNIE 1.0-Large-zh-CW(24L1024H)

ERNIE 3.0-Xbase-zh(20L1024H)

ERNIE 2.0-Base-zh (12L768H)

ERNIE 3.0-Base (12L768H)

ERNIE 3.0-Medium (6L768H)

ERNIE 3.0-Mini (6L384H)

ERNIE 3.0-Micro (4L384H)

ERNIE 3.0-Nano (4L312H)

… …

除中文模型外,PaddleNLP 也提供ERNIE 2.0英文版、以及基于96種語言(涵蓋法語、日語、韓語、德語、西班牙語等幾乎所有常見語言)預(yù)訓練的多語言模型ERNIE-M,滿足不同語言的文本分類任務(wù)需求。

方案二:提示學習

提示學習(Prompt Learning)適用于標注成本高、標注樣本較少的文本分類場景。在小樣本場景中,相比于預(yù)訓練模型微調(diào)學習,提示學習能取得更好的效果。提示學習的主要思想是將文本分類任務(wù)轉(zhuǎn)換為構(gòu)造提示(Prompt)中掩碼的分類預(yù)測任務(wù),使用待預(yù)測字的預(yù)訓練向量來初始化分類器參數(shù),充分利用預(yù)訓練語言模型學習到的特征和標簽文本,從而降低樣本量需求。PaddleNLP集成了R-Drop 和 RGL 等前沿策略,幫助提升模型效果。

圖:預(yù)訓練模型微調(diào) vs 提示學習

如下圖,在多分類、多標簽、層次分類任務(wù)的小樣本場景下,提示學習比預(yù)訓練模型微調(diào)方案,效果上有顯著優(yōu)勢

方案三:語義索引

基于語義索引的文本分類方案適用于標簽類別不固定、或大規(guī)模標簽類別的場景。在新增標簽類別的情況下,無需重新訓練模型。語義索引的目標是從海量候選召回集中快速、準確地召回一批與輸入文本語義相關(guān)的文本。基于語義索引的文本分類方法具體來說是將標簽集作為召回目標集,召回與輸入文本語義相似的標簽作為文本的標簽類別,尤其適用于層次分類場景。

對預(yù)訓練時代NLP任務(wù)入門感興趣的小伙伴,可以掃碼報名進群,獲取PaddleNLP官方近期組織的直播鏈接,進群還可獲得10GB NLP學習大禮包等超多福利~此外,課程中還將介紹數(shù)據(jù)增強、稀疏數(shù)據(jù)與臟數(shù)據(jù)挖掘等數(shù)據(jù)、模型調(diào)優(yōu)策略,親測好用,這部分是課程精華,非常推薦各位NLPer去學習交流。

接下來,我們來看如何進行數(shù)據(jù)、模型調(diào)優(yōu)。

特色二:模型高效調(diào)優(yōu)

有這么一句話在業(yè)界廣泛流傳,"數(shù)據(jù)決定了機器學習的上限,而模型和算法只是逼近這個上限",可見數(shù)據(jù)質(zhì)量的重要性。PaddleNLP文本分類方案依托TrustAI可信增強能力和數(shù)據(jù)增強API開源了模型分析模塊,針對標注數(shù)據(jù)質(zhì)量不高、訓練數(shù)據(jù)覆蓋不足、樣本數(shù)量少等文本分類常見數(shù)據(jù)痛點,提供稀疏數(shù)據(jù)篩選、臟數(shù)據(jù)清洗、數(shù)據(jù)增強三種數(shù)據(jù)優(yōu)化策略,解決訓練數(shù)據(jù)缺陷問題,用低成本方式獲得大幅度的效果提升。

集可信分析和增強于一體的可信AI工具集-TrustAI,能夠有效識別和優(yōu)化NLP領(lǐng)域數(shù)據(jù)標注的常見問題,如『訓練數(shù)據(jù)中存在臟數(shù)據(jù)阻礙模型效果提升』,『數(shù)據(jù)標注成本太高但又不清楚該標注什么數(shù)據(jù)』,『數(shù)據(jù)分布有偏導致模型魯棒性差』等,TrustAI能幫助NLP開發(fā)者解決訓練數(shù)據(jù)缺陷問題,用最小的標注成本獲得最大幅度的效果提升。

可戳項目地址了解詳情:

https://github.com/PaddlePaddle/TrustAI

策略一:稀疏數(shù)據(jù)篩選

基于TrustAI中可信增強方法挖掘待預(yù)測數(shù)據(jù)中缺乏訓練集數(shù)據(jù)支持的數(shù)據(jù)(稀疏數(shù)據(jù)),然后使用特征相似度方法選擇能夠提供證據(jù)支持的訓練數(shù)據(jù)進行數(shù)據(jù)增強,或選擇能夠提供證據(jù)支持的未標注數(shù)據(jù)進行數(shù)據(jù)標注,這兩種稀疏數(shù)據(jù)篩選策略均能有效提升模型表現(xiàn)。

策略二:臟數(shù)據(jù)清洗

基于TrustAI的可信增強能力,采用表示點方法(Representer Point)計算訓練數(shù)據(jù)對模型的影響分數(shù),分數(shù)高的訓練數(shù)據(jù)表明對模型影響大,這些數(shù)據(jù)有較大概率為臟數(shù)據(jù)(被錯誤標注的樣本)。臟數(shù)據(jù)清洗策略通過高效識別訓練集中臟數(shù)據(jù),有效降低人力檢查成本。

我們在多分類、多標簽、層次分類場景中評測臟數(shù)據(jù)清洗策略,實驗表明臟數(shù)據(jù)清洗策略對文本分類任務(wù)有顯著提升效果。

策略三:數(shù)據(jù)增強

PaddleNLP內(nèi)置數(shù)據(jù)增強API,支持詞替換、詞刪除、詞插入、詞置換、基于上下文生成詞(MLM預(yù)測)、TF-IDF等多種數(shù)據(jù)增強策略,只需一行命令即可實現(xiàn)數(shù)據(jù)集增強擴充。我們在某分類數(shù)據(jù)集(500條)中測評多種數(shù)據(jù)增強 策略,實驗表明在數(shù)據(jù)量較少的情況下,數(shù)據(jù)增強策略能夠增加數(shù)據(jù)集多樣性,提升模型效果。

圖:數(shù)據(jù)增強策略效果

特色三:產(chǎn)業(yè)級全流程

文本分類應(yīng)用提供了簡單易用的數(shù)據(jù)標注-模型訓練-模型調(diào)優(yōu)-模型壓縮-預(yù)測部署全流程方案,方案流程如下圖所示。

開發(fā)者僅需輸入指定格式的數(shù)據(jù),一行命令即可開啟文本分類訓練。對于訓練結(jié)果不理想情況,分析模塊提供了多種模型調(diào)優(yōu)方案,解決文本分類數(shù)據(jù)難題。

對于模型部署上線要進一步壓縮模型體積的需求,文本分類應(yīng)用接入PaddleNLP 模型壓縮 API 。采用了DynaBERT 中寬度自適應(yīng)裁剪策略,對預(yù)訓練模型多頭注意力機制中的頭(Head )進行重要性排序,保證更重要的頭(Head )不容易被裁掉,然后用原模型作為蒸餾過程中的教師模型,寬度更小的模型作為學生模型,蒸餾得到的學生模型就是我們裁剪得到的模型。實驗表明模型裁剪能夠有效縮小模型體積、減少內(nèi)存占用、提升推理速度。此外,模型裁剪去掉了部分冗余參數(shù)的擾動,增加了模型的泛化能力,在部分任務(wù)中預(yù)測精度得到提高。通過模型裁剪,我們得到了更快、更準的模型

表:模型裁剪效果

完成模型訓練和裁剪后,開發(fā)者可以根據(jù)需求選擇是否進行低精度(FP16/INT8)加速,快速高效實現(xiàn)模型離線或服務(wù)化部署。

責任編輯:侯亞麗

分享到:版權(quán)聲明:凡注明來源“流媒體網(wǎng)”的文章,版權(quán)均屬流媒體網(wǎng)所有,轉(zhuǎn)載需注明出處。非本站出處的文章為轉(zhuǎn)載,觀點供業(yè)內(nèi)參考,不代表本站觀點。文中圖片均來源于網(wǎng)絡(luò)收集整理,僅供學習交流,版權(quán)歸原作者所有。如涉及侵權(quán),請及時聯(lián)系我們刪除!

關(guān)鍵詞: 稀疏數(shù)據(jù) 數(shù)據(jù)清洗

責任編輯:QL0009

為你推薦

關(guān)于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權(quán)所有 © 2020 跑酷財經(jīng)網(wǎng)

所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀網(wǎng)站聲明。本站不作任何非法律允許范圍內(nèi)服務(wù)!

聯(lián)系我們:315 541 [email protected]

主站蜘蛛池模板: 精品人妻无码一区二区三 | 亚洲乱码精品久久久久.. | 99久久精品国产国产毛片 | 国产亚洲精品久久久ai换脸 | 精品国产福利在线观看 | 亚洲影视一区二区在线播放 | 亚洲免费福利精品日韩视频 | 人妻少妇无码视频免费看 | 亚洲精品老司机在线观看 | 91天堂| 国产片91| 日韩毛片免费一二三 | 欧美极品尤物在线播放一级 | 3级av免费在 | 欧美老熟妇videos极品另类 | 中文字幕久久久久久精品 | 精品视频在线免费播放 | 99久久人妻无码精品系列 | 日本午夜专区一 | 欧美在线不卡一区在 | 99在线观看视频免费精品9 | 欧美日韩国产一区二区精品合集 | 国产素人搭讪在线观看 | 91无码人妻精品一区二区蜜桃 | 亚洲国产精品浪潮久久久av | 欧美成人乱弄视频 | 国产精品色综合久久 | 亚洲熟妇无码av在线观看 | 无码一级视频在线 | 亚洲av久久无码精品九九 | 国产v片 | a在线v欧美 | 色欲av一区二区三区四区 | 国产在线aa视频免费观看 | 日韩精品一区二区三区四区蜜桃 | 九九久久精品国产 | 99热国产亚洲精品 | 岛国美女| 免费午夜爽爽爽www视频十八禁 | 国产真人无码免费视频 | 国产精品vā在线观看无码 国产精品va在线观看无码不卡 |