更新時(shí)間:2022年10月14日18時(shí)25分 來源:傳智教育 瀏覽次數(shù):
預(yù)訓(xùn)練模型(Pretrained model):
一般情況下預(yù)訓(xùn)練模型都是大型模型,具備復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),眾多的參數(shù)量,以及在足夠大的數(shù)據(jù)集下進(jìn)行訓(xùn)練而產(chǎn)生的模型. 在NLP領(lǐng)域,預(yù)訓(xùn)練模型往往是語(yǔ)言模型,因?yàn)檎Z(yǔ)言模型的訓(xùn)練是無監(jiān)督的,可以獲得大規(guī)模語(yǔ)料,同時(shí)語(yǔ)言模型又是許多典型NLP任務(wù)的基礎(chǔ),如機(jī)器翻譯,文本生成,閱讀理解等,常見的預(yù)訓(xùn)練模型有BERT, GPT, roBERTa, transformer-XL等.
微調(diào)(Fine-tuning):
根據(jù)給定的預(yù)訓(xùn)練模型,改變它的部分參數(shù)或者為其新增部分輸出結(jié)構(gòu)后,通過在小部分?jǐn)?shù)據(jù)集上訓(xùn)練,來使整個(gè)模型更好的適應(yīng)特定任務(wù).
微調(diào)腳本(Fine-tuning script):
實(shí)現(xiàn)微調(diào)過程的代碼文件。這些腳本文件中,應(yīng)包括對(duì)預(yù)訓(xùn)練模型的調(diào)用,對(duì)微調(diào)參數(shù)的選定以及對(duì)微調(diào)結(jié)構(gòu)的更改等,同時(shí),因?yàn)槲⒄{(diào)是一個(gè)訓(xùn)練過程,它同樣需要一些超參數(shù)的設(shè)定,以及損失函數(shù)和優(yōu)化器的選取等, 因此微調(diào)腳本往往也包含了整個(gè)遷移學(xué)習(xí)的過程.
關(guān)于微調(diào)腳本的說明:
一般情況下,微調(diào)腳本應(yīng)該由不同的任務(wù)類型開發(fā)者自己編寫,但是由于目前研究的NLP任務(wù)類型(分類,提取,生成)以及對(duì)應(yīng)的微調(diào)輸出結(jié)構(gòu)都是有限的,有些微調(diào)方式已經(jīng)在很多數(shù)據(jù)集上被驗(yàn)證是有效的,因此微調(diào)腳本也可以使用已經(jīng)完成的規(guī)范腳本.
兩種遷移方式:
直接使用預(yù)訓(xùn)練模型,進(jìn)行相同任務(wù)的處理,不需要調(diào)整參數(shù)或模型結(jié)構(gòu),這些模型開箱即用。但是這種情況一般只適用于普適任務(wù), 如:fasttest工具包中預(yù)訓(xùn)練的詞向量模型。另外,很多預(yù)訓(xùn)練模型開發(fā)者為了達(dá)到開箱即用的效果,將模型結(jié)構(gòu)分各個(gè)部分保存為不同的預(yù)訓(xùn)練模型,提供對(duì)應(yīng)的加載方法來完成特定目標(biāo).
更加主流的遷移學(xué)習(xí)方式是發(fā)揮預(yù)訓(xùn)練模型特征抽象的能力,然后再通過微調(diào)的方式,通過訓(xùn)練更新小部分參數(shù)以此來適應(yīng)不同的任務(wù)。這種遷移方式需要提供小部分的標(biāo)注數(shù)據(jù)來進(jìn)行監(jiān)督學(xué)習(xí).
關(guān)于遷移方式的說明:
直接使用預(yù)訓(xùn)練模型的方式, 已經(jīng)在fasttext的詞向量遷移中學(xué)習(xí). 接下來的遷移學(xué)習(xí)實(shí)踐將主要講解通過微調(diào)的方式進(jìn)行遷移學(xué)習(xí).
傳智教育出席ApacheCon Asia 2022開源大會(huì),分享大數(shù)據(jù)&Python生態(tài)在傳智教育的實(shí)踐和思考
2022-10-11科學(xué)計(jì)算庫(kù)NumPy案例:酒鬼漫步
2022-10-10什么是數(shù)據(jù)結(jié)構(gòu)?數(shù)據(jù)結(jié)構(gòu)的基本概念和術(shù)語(yǔ)
2022-10-07數(shù)據(jù)分析工具Pandas:算術(shù)運(yùn)算與數(shù)據(jù)對(duì)齊
2022-10-07抓住機(jī)會(huì)有多重要?未來大數(shù)據(jù)行業(yè)的機(jī)遇在...
2022-10-06Python中怎么定義類?【Pyhont面試題】
2022-10-06北京校區(qū)