想要對(duì)人工智能模型進(jìn)行評(píng)估，不了解評(píng)估指標(biāo)怎么辦?

更新時(shí)間:2019年10月08日18時(shí)03分來(lái)源:傳智播客瀏覽次數(shù):

隨著人工智能技術(shù)應(yīng)用領(lǐng)域越來(lái)越廣。大量使用了人工智能技術(shù)的產(chǎn)品出現(xiàn)在了我們的現(xiàn)實(shí)生活中，比如常見(jiàn)的人臉識(shí)別，語(yǔ)音識(shí)別等等。那么怎樣去衡量這些產(chǎn)品的好壞呢，譬如怎么驗(yàn)證識(shí)別率高低呢。相信這是開(kāi)發(fā)這個(gè)產(chǎn)品的研發(fā)人員以及測(cè)試人員必須要關(guān)注的一個(gè)問(wèn)題。但要衡量這個(gè)標(biāo)準(zhǔn)呢，通過(guò)傳統(tǒng)的功能測(cè)試方法是測(cè)不出來(lái)的，必須要通過(guò)人工智能訓(xùn)練出的模型進(jìn)行評(píng)估。而評(píng)估自然就會(huì)涉及到一些指標(biāo)。本文就講述人工智能領(lǐng)域常見(jiàn)的二分類(lèi)問(wèn)題的模型評(píng)估指標(biāo)?！就扑]了解傳智播客軟件測(cè)試培訓(xùn)課程】

所謂二分類(lèi)就是一個(gè)判斷是與否的標(biāo)準(zhǔn)，比如我們判斷一封郵件是否是垃圾郵件，那么衡量的標(biāo)準(zhǔn)就是兩個(gè)：

1.是垃圾郵件

2.不是垃圾郵件

本文通過(guò)兩步進(jìn)行二分類(lèi)問(wèn)題模型衡量指標(biāo)的闡述：

人工智能評(píng)估

一、二分類(lèi)模型評(píng)估指標(biāo)的理論介紹

目標(biāo)

掌握二分類(lèi)模型評(píng)估指標(biāo)的分類(lèi)以及定義

步驟

1.引出混淆矩陣

• 衡量指標(biāo)要根據(jù)混淆矩陣的各個(gè)分類(lèi)來(lái)進(jìn)行計(jì)算

• 人工標(biāo)記的正被機(jī)器預(yù)測(cè)為正叫TP、人工標(biāo)記的負(fù)被機(jī)器預(yù)測(cè)為正叫：FP、人工標(biāo)記的負(fù)被機(jī)器預(yù)測(cè)為正叫：FN、人工標(biāo)記的負(fù)被機(jī)器預(yù)測(cè)為負(fù)叫：TN

• 預(yù)測(cè)正確：正預(yù)測(cè)為正、負(fù)預(yù)測(cè)為負(fù)

預(yù)測(cè)不正確：正預(yù)測(cè)為負(fù)、負(fù)預(yù)測(cè)為正

• T-Ture F-False P-Positive N-Negative

混淆矩陣圖

	人工標(biāo)記的正樣本	人工標(biāo)記的負(fù)樣本
被AI預(yù)測(cè)結(jié)果為正	TP	FP
被AI預(yù)測(cè)結(jié)果為負(fù)	FN	TN

2.具體指標(biāo)定義

• 準(zhǔn)確率(Accuracy): 所有被AI預(yù)測(cè)正確的樣本(包括正、負(fù))占所有樣本的比例

公式如下：

Accurary=( TP + TN)/(TP+TN+FP+FN)

• 精確率(Precision): 又叫查準(zhǔn)率，正確預(yù)測(cè)為正的占所有預(yù)測(cè)為正的比例

公式如下：

Precision= TP/(TP+FP)

• 召回率(Recall)：又叫查全率，正確預(yù)測(cè)為正的占全部實(shí)際為正的比例

公式如下：

Recall=TP/(TP+FN)

二、二分類(lèi)模型評(píng)估指標(biāo)實(shí)例

目標(biāo)

掌握二分類(lèi)模型評(píng)估指標(biāo)實(shí)際計(jì)算以及現(xiàn)實(shí)意義

步驟

1.實(shí)例介紹

報(bào)名參加傳智播客黑馬程序員軟件測(cè)試培訓(xùn)班有男生、女生。我們進(jìn)行分類(lèi)，將女生看成是正類(lèi)，男生為負(fù)類(lèi)，使用AI模型預(yù)測(cè)后進(jìn)行指標(biāo)分析

2.混淆矩陣實(shí)例

	實(shí)際報(bào)名的女生人數(shù)	實(shí)際報(bào)名的男生人數(shù)
AI模型預(yù)測(cè)女生人數(shù)	58（58個(gè)女生被機(jī)器正確識(shí)別為女生）	1（一個(gè)男生被誤識(shí)別為女生）
AI模型預(yù)測(cè)男生人數(shù)	2（兩個(gè)女生被誤識(shí)別為男生）	49（49個(gè)男生被機(jī)器正確識(shí)別為男生）

3.指標(biāo)計(jì)算

• Accuracy= (58+49)/(58+2+1+49)=97.2%

• Precision=58/(58+1)=98.3%

• Recall=58/(58+2)=96.7%

4.指標(biāo)含義的業(yè)務(wù)分析

準(zhǔn)確率：傳智播客公司需要統(tǒng)計(jì)所有人里面被機(jī)器正確識(shí)別為男生+正確識(shí)別為女生的比例

精確率：傳智播客公司需要統(tǒng)計(jì)所有被機(jī)器預(yù)測(cè)為女生里面真正是女生的比例

召回率：傳智播客公司需要統(tǒng)計(jì)所有女生里正確被機(jī)器預(yù)測(cè)為女生的比例

總結(jié)

本文通過(guò)理論加實(shí)踐的方式，為從事人工智能行業(yè)技術(shù)人員解答了AI領(lǐng)域常見(jiàn)的二分類(lèi)問(wèn)題的模型評(píng)估指標(biāo)。需要注意的實(shí)際項(xiàng)目中需要根據(jù)業(yè)務(wù)需求來(lái)選擇一個(gè)具體的衡量指標(biāo)，重點(diǎn)不是記住公式，而是要理解公立背后所代表的的含義。

上一篇：內(nèi)存溢出 out of memory如何解決？[傳智播客] 下一篇：性能測(cè)試工具loadrunner介紹[軟件測(cè)試培訓(xùn)]