教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

BERT的MLM任務(wù)中為什么采用了80%, 10%, 10%的策略?

更新時間:2020年09月21日14時52分 來源:黑馬程序員 瀏覽次數(shù):

1、首先, 如果所有參與訓(xùn)練的token被100%的[MASK], 那么在fine-tunning的時候所有單詞都是已知的, 不存在[MASK], 那么模型就只能根據(jù)其他token的信息和語序結(jié)構(gòu)來預(yù)測當(dāng)前詞, 而無法利用到這個詞本身的信息, 因為它們從未出現(xiàn)在訓(xùn)練過程中, 等于模型從未接觸到它們的信息, 等于整個語義空間損失了部分信息. 采用80%的概率下應(yīng)用[MASK], 既可以讓模型去學(xué)著預(yù)測這些單詞, 又以20%的概率保留了語義信息展示給模型。

2、保留下來的信息如果全部使用原始token, 那么模型在預(yù)訓(xùn)練的時候可能會偷懶, 直接照抄當(dāng)前token信息. 采用10%概率下random token來隨機(jī)替換當(dāng)前token, 會讓模型不能去死記硬背當(dāng)前的token, 而去盡力學(xué)習(xí)單詞周邊的語義表達(dá)和遠(yuǎn)距離的信息依賴, 嘗試建模完整的語言信息.

3、最后再以10%的概率保留原始的token, 意義就是保留語言本來的面貌, 讓信息不至于完全被遮掩, 使得模型可以"看清"真實的語言面貌。


下面是傳智播客公開的幾套人工智能視頻教程,如果感興趣可以下載學(xué)習(xí)。






0 分享到:
和我們在線交談!