首頁Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

Python培訓(xùn)之?dāng)?shù)據(jù)預(yù)處理：通過duplicated()方法處理重復(fù)值

更新時(shí)間:2022年07月11日13時(shí)57分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

　　duplicated()方法的語法格式如下：

　　上述方法中參數(shù)的含義如下：

　　(1)subset：用于識(shí)別重復(fù)的列標(biāo)簽或列標(biāo)簽序列，默認(rèn)識(shí)別所有的列標(biāo)簽。

　　(2)keep：刪除重復(fù)項(xiàng)并保留第一次出現(xiàn)的項(xiàng)，取值可以為first、last或False，它們代表的含義如下：

　　(1)first：從前向后查找，除了第一次出現(xiàn)外，其余相同的被標(biāo)記為重復(fù)。默認(rèn)為此選項(xiàng)。

　　(2)last：從后向前查找，除了最后一次出現(xiàn)外，其余相同的被標(biāo)記為重復(fù)。

　　(3)False：所有的相同的都被標(biāo)記為重復(fù)。

　　duplicated()方法用于標(biāo)記Pandas對(duì)象的數(shù)據(jù)是否重復(fù)，重復(fù)則標(biāo)記為True，不重復(fù)則標(biāo)記為False，所以該方法返回一個(gè)由布爾值組成的Series對(duì)象，它的行索引保持不變，數(shù)據(jù)則變?yōu)闃?biāo)記的布爾值。

　　注意：對(duì)于duplicated()方法，這里有如下兩點(diǎn)要進(jìn)行強(qiáng)調(diào)：

　　第一，只有數(shù)據(jù)表中兩個(gè)條目間所有列的內(nèi)容都相等時(shí)，duplicated()方法才會(huì)判斷為重復(fù)值。除此之外，duplicated()方法也可以單獨(dú)對(duì)某一列進(jìn)行重復(fù)值判斷。

　　第二，duplicated()方法支持從前向后(first)和從后向前(last)兩種重復(fù)值查找模式，默認(rèn)是從前向后查找判斷重復(fù)值的。換句話說，就是將后出現(xiàn)的相同條目判斷為重復(fù)值。

上一篇：Python培訓(xùn)：什么是分組分析法？ 下一篇：NoSQL數(shù)據(jù)庫有多少種類型？【大數(shù)據(jù)培訓(xùn)】