大數(shù)據(jù)培訓(xùn)_數(shù)據(jù)挖掘中離群點檢測方法
在數(shù)據(jù)挖掘中, 什么是離群點,那么我們?nèi)绾未_定離群點,又使用什么方法要驗證離群點?
?
假定使用一個給定的統(tǒng)計過程來產(chǎn)生數(shù)據(jù)對象集。離群點是一個數(shù)據(jù)對象,它顯著不同于其他數(shù)據(jù)對象,好像她是被不同的機(jī)制產(chǎn)生的一樣。離群點不同于噪聲數(shù)據(jù)。噪聲是被觀測變量的隨機(jī)誤差或方差。一般而言,噪聲在數(shù)據(jù)分析中不是很令人感興趣的,但是離群點是有趣的。
離群點不同于噪聲數(shù)據(jù)。噪聲是被觀測變量的隨機(jī)誤差或方差。一般而言,噪聲在數(shù)據(jù)分析(包括離群點分析)中不是令人感興趣的。如在信用卡欺詐檢測,顧客的購買行為可以用一個隨機(jī)變量建模。一位顧客可能會產(chǎn)生某些看上去像“隨機(jī)誤差”或“方差”的噪聲交易,如買一份較豐盛的午餐,或比通常多要了一杯咖啡。這種交易不應(yīng)該視為離群點,否則信用卡公司將因驗證太多的交易而付出沉重代價。因此,與許多其他數(shù)據(jù)分析和數(shù)據(jù)挖掘任務(wù)一樣,應(yīng)該在離群點檢測前就刪除噪聲。
離群點檢測是有趣的,因為懷疑產(chǎn)生它們的機(jī)制不同于產(chǎn)生其他數(shù)據(jù)的機(jī)制。因此,在離群點檢測時,重要的是搞清楚為什么檢測到的離群點被某種其他機(jī)制產(chǎn)生。通常,在其余數(shù)據(jù)上做各種假設(shè),并且證明檢測到的離群點顯著違反了這些假設(shè)。
2.大數(shù)據(jù)培訓(xùn)中關(guān)于聚類的方法
離群點概念與簇概念高度相關(guān)。基于聚類的方法通過考察對象與簇之間的關(guān)系檢測離群點。直觀的,離群點是一個對象,它屬于小的偏遠(yuǎn)簇,或不屬于任何簇。
這導(dǎo)致三種基于聚類的離群點檢測的一般方法。我們主要使用如下的方法進(jìn)行離群點的檢測:考慮一個對象。
該對象屬于某個簇嗎?如果不,那么它就是離群點。
該對象與最近的簇之間距離遠(yuǎn)嗎?如果遠(yuǎn),則他是離群點。
該對象是小簇或稀疏簇的一部分嗎?如果是,則該簇中的所有對象都是離群點。
3.大數(shù)據(jù)培訓(xùn)中關(guān)于分類的方法
如果訓(xùn)練數(shù)據(jù)具有類標(biāo)號,則離群點檢測可以看做分類問題。基于分類的離群點檢測方法的一般思想是,訓(xùn)練一個可以區(qū)分正常數(shù)據(jù)和離群點的分類模型。
考慮一個訓(xùn)練數(shù)據(jù)集,它包含一些標(biāo)記為正常,而其他標(biāo)記為離群點的樣本,于是,可以在該訓(xùn)練集上構(gòu)建一個分類器。可以使用任意分類算法。然而,這種方法對于離群點檢測效果不好, 因為訓(xùn)練集是高度有偏的,也就是說,正常樣本的數(shù)量是遠(yuǎn)遠(yuǎn)大于離群點樣本的數(shù)量的。這種不平衡可能使得我們很難去構(gòu)造一個準(zhǔn)確的分類器。
為了解決這一難題,基于分類的離群點檢測,通常使用一類模型,也就是說,構(gòu)架你一個金描述正常類的分類器,其余所有不屬于正常類的樣本都被視為離群點。