首頁(yè)人工智能常見(jiàn)問(wèn)題正文

BERT的MLM任務(wù)中為什么采用了80%, 10%, 10%的策略?

更新時(shí)間:2020年09月21日14時(shí)52分來(lái)源:黑馬程序員瀏覽次數(shù):

1、首先, 如果所有參與訓(xùn)練的token被100%的[MASK], 那么在fine-tunning的時(shí)候所有單詞都是已知的, 不存在[MASK], 那么模型就只能根據(jù)其他token的信息和語(yǔ)序結(jié)構(gòu)來(lái)預(yù)測(cè)當(dāng)前詞, 而無(wú)法利用到這個(gè)詞本身的信息, 因?yàn)樗鼈儚奈闯霈F(xiàn)在訓(xùn)練過(guò)程中, 等于模型從未接觸到它們的信息, 等于整個(gè)語(yǔ)義空間損失了部分信息. 采用80%的概率下應(yīng)用[MASK], 既可以讓模型去學(xué)著預(yù)測(cè)這些單詞, 又以20%的概率保留了語(yǔ)義信息展示給模型。

2、保留下來(lái)的信息如果全部使用原始token, 那么模型在預(yù)訓(xùn)練的時(shí)候可能會(huì)偷懶, 直接照抄當(dāng)前token信息. 采用10%概率下random token來(lái)隨機(jī)替換當(dāng)前token, 會(huì)讓模型不能去死記硬背當(dāng)前的token, 而去盡力學(xué)習(xí)單詞周邊的語(yǔ)義表達(dá)和遠(yuǎn)距離的信息依賴(lài), 嘗試建模完整的語(yǔ)言信息.

3、最后再以10%的概率保留原始的token, 意義就是保留語(yǔ)言本來(lái)的面貌, 讓信息不至于完全被遮掩, 使得模型可以"看清"真實(shí)的語(yǔ)言面貌。

下面是傳智播客公開(kāi)的幾套人工智能視頻教程，如果感興趣可以下載學(xué)習(xí)。

計(jì)算機(jī)視覺(jué)入門(mén)及案例實(shí)戰(zhàn) 35412人學(xué)習(xí)課程評(píng)分：5.0

人工智能
3天帶你玩轉(zhuǎn)Python深度學(xué)習(xí) 34544人學(xué)習(xí)課程評(píng)分：5.0

人工智能
人工智能必學(xué)基礎(chǔ)課-7天入門(mén)機(jī)器學(xué)習(xí) 32321人學(xué)習(xí)課程評(píng)分：5.0

人工智能
超系統(tǒng)掌握人工智能機(jī)器學(xué)習(xí)算法 23135人學(xué)習(xí)課程評(píng)分：5.0

人工智能
360°解讀機(jī)器學(xué)習(xí)經(jīng)典算法 28809人學(xué)習(xí)課程評(píng)分：5.0

人工智能
最簡(jiǎn)單快速入門(mén)Python機(jī)器學(xué)習(xí) 44305人學(xué)習(xí)課程評(píng)分：5.0

人工智能

上一篇：若學(xué)員已經(jīng)報(bào)了人工智能課程，同時(shí)也喜歡爬蟲(chóng)、Python Web開(kāi)發(fā)如何辦？ 下一篇：BERT, GPT和 ELMo有什么不同點(diǎn)？

最新資訊

相關(guān)閱讀

0 分享到：

javaee

python

web

design

cloud

test

c

netmarket

pm

Linux

movies

robot

uids

Python

jdbc

北京校區(qū)

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

申請(qǐng)?jiān)嚶?tīng)名額

熱門(mén)課程推薦

更多>>

首頁(yè)|校區(qū)分布|師資力量|關(guān)于我們|報(bào)名流程

常見(jiàn)問(wèn)題|技術(shù)資訊

江蘇傳智播客教育科技股份有限公司版權(quán)所有
Copyright 2006-2023, All Rights Reserved

在線(xiàn)咨詢(xún) 我要報(bào)名

和我們?cè)诰€(xiàn)交談！