首頁(yè)Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

Python培訓(xùn)：怎樣理解遷移學(xué)習(xí)？

更新時(shí)間:2022年10月14日18時(shí)25分來(lái)源:傳智教育瀏覽次數(shù):

預(yù)訓(xùn)練模型(Pretrained model):

一般情況下預(yù)訓(xùn)練模型都是大型模型，具備復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，眾多的參數(shù)量，以及在足夠大的數(shù)據(jù)集下進(jìn)行訓(xùn)練而產(chǎn)生的模型. 在NLP領(lǐng)域，預(yù)訓(xùn)練模型往往是語(yǔ)言模型，因?yàn)檎Z(yǔ)言模型的訓(xùn)練是無(wú)監(jiān)督的，可以獲得大規(guī)模語(yǔ)料，同時(shí)語(yǔ)言模型又是許多典型NLP任務(wù)的基礎(chǔ)，如機(jī)器翻譯，文本生成，閱讀理解等，常見的預(yù)訓(xùn)練模型有BERT, GPT, roBERTa, transformer-XL等.

微調(diào)(Fine-tuning):

根據(jù)給定的預(yù)訓(xùn)練模型，改變它的部分參數(shù)或者為其新增部分輸出結(jié)構(gòu)后，通過在小部分?jǐn)?shù)據(jù)集上訓(xùn)練，來(lái)使整個(gè)模型更好的適應(yīng)特定任務(wù).

微調(diào)腳本(Fine-tuning script):

實(shí)現(xiàn)微調(diào)過程的代碼文件。這些腳本文件中，應(yīng)包括對(duì)預(yù)訓(xùn)練模型的調(diào)用，對(duì)微調(diào)參數(shù)的選定以及對(duì)微調(diào)結(jié)構(gòu)的更改等，同時(shí)，因?yàn)槲⒄{(diào)是一個(gè)訓(xùn)練過程，它同樣需要一些超參數(shù)的設(shè)定，以及損失函數(shù)和優(yōu)化器的選取等, 因此微調(diào)腳本往往也包含了整個(gè)遷移學(xué)習(xí)的過程.

關(guān)于微調(diào)腳本的說明:

一般情況下，微調(diào)腳本應(yīng)該由不同的任務(wù)類型開發(fā)者自己編寫，但是由于目前研究的NLP任務(wù)類型(分類，提取，生成)以及對(duì)應(yīng)的微調(diào)輸出結(jié)構(gòu)都是有限的，有些微調(diào)方式已經(jīng)在很多數(shù)據(jù)集上被驗(yàn)證是有效的，因此微調(diào)腳本也可以使用已經(jīng)完成的規(guī)范腳本.

兩種遷移方式:

直接使用預(yù)訓(xùn)練模型，進(jìn)行相同任務(wù)的處理，不需要調(diào)整參數(shù)或模型結(jié)構(gòu)，這些模型開箱即用。但是這種情況一般只適用于普適任務(wù), 如：fasttest工具包中預(yù)訓(xùn)練的詞向量模型。另外，很多預(yù)訓(xùn)練模型開發(fā)者為了達(dá)到開箱即用的效果，將模型結(jié)構(gòu)分各個(gè)部分保存為不同的預(yù)訓(xùn)練模型，提供對(duì)應(yīng)的加載方法來(lái)完成特定目標(biāo).

更加主流的遷移學(xué)習(xí)方式是發(fā)揮預(yù)訓(xùn)練模型特征抽象的能力，然后再通過微調(diào)的方式，通過訓(xùn)練更新小部分參數(shù)以此來(lái)適應(yīng)不同的任務(wù)。這種遷移方式需要提供小部分的標(biāo)注數(shù)據(jù)來(lái)進(jìn)行監(jiān)督學(xué)習(xí).

關(guān)于遷移方式的說明:

直接使用預(yù)訓(xùn)練模型的方式, 已經(jīng)在fasttext的詞向量遷移中學(xué)習(xí). 接下來(lái)的遷移學(xué)習(xí)實(shí)踐將主要講解通過微調(diào)的方式進(jìn)行遷移學(xué)習(xí).

上一篇：簡(jiǎn)述Python中pass語(yǔ)句的作用 下一篇：查詢集有哪些特點(diǎn)？django怎樣重用緩存？