決策樹(shù) decision tree
又稱(chēng):判定樹(shù)
定義:一個(gè)流程圖形式的樹(shù)結(jié)構(gòu),其中每個(gè)中間結(jié)點(diǎn)代表某個(gè)屬性或某組屬性上的測(cè)試,每個(gè)分支則對(duì)應(yīng)了該測(cè)試的不同結(jié)果,每個(gè)葉結(jié)點(diǎn)代表某個(gè)類(lèi)別或預(yù)測(cè)結(jié)果。從訓(xùn)練數(shù)據(jù)中產(chǎn)生決策樹(shù)的算法,通常被稱(chēng)為決策樹(shù)學(xué)習(xí)算法或決策樹(shù)算法。
學(xué)科:計(jì)算機(jī)科學(xué)技術(shù)_人工智能_機(jī)器學(xué)習(xí)
相關(guān)名詞:數(shù)據(jù)挖掘 決策樹(shù)分析 決策樹(shù)系統(tǒng)
圖片來(lái)源:視覺(jué)中國(guó)
【延伸閱讀】
決策樹(shù)是利用樹(shù)形圖進(jìn)行決策的預(yù)測(cè)模型,表現(xiàn)出的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系,是歸納學(xué)習(xí)和數(shù)據(jù)挖掘的重要方法。決策樹(shù)分為分類(lèi)樹(shù)和回歸樹(shù)兩種:分類(lèi)樹(shù)對(duì)離散變量做決策樹(shù),回歸樹(shù)對(duì)連續(xù)變量做決策樹(shù)。
一般情況下,一棵決策樹(shù)包含一個(gè)根節(jié)點(diǎn)、若干個(gè)內(nèi)部節(jié)點(diǎn)和若干個(gè)葉結(jié)點(diǎn)。根節(jié)點(diǎn)包含樣本全集,從根節(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)的路徑對(duì)應(yīng)了一個(gè)判定測(cè)試序列。內(nèi)部節(jié)點(diǎn)表示一個(gè)特征和屬性,每個(gè)內(nèi)部節(jié)點(diǎn)都是一個(gè)判斷條件,并且包含數(shù)據(jù)集中,滿足從根節(jié)點(diǎn)到該節(jié)點(diǎn)所有條件的數(shù)據(jù)的集合。根據(jù)內(nèi)部節(jié)點(diǎn)的屬性測(cè)試結(jié)果,內(nèi)部節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)集合分別歸到兩個(gè)或多個(gè)子節(jié)點(diǎn)中。葉節(jié)點(diǎn)表示一個(gè)類(lèi),對(duì)應(yīng)于決策結(jié)果。葉節(jié)點(diǎn)為最終的類(lèi)別,如果該數(shù)據(jù)被包含在該葉節(jié)點(diǎn),則屬于該類(lèi)別。
建立決策樹(shù)的目標(biāo)是通過(guò)訓(xùn)練樣本集,建立目標(biāo)變量關(guān)于各輸入變量的分類(lèi)預(yù)測(cè)模型,全面實(shí)現(xiàn)輸入變量和目標(biāo)變量不同取值下的數(shù)據(jù)分組,進(jìn)而用于對(duì)新數(shù)據(jù)對(duì)象的分類(lèi)和預(yù)測(cè)。當(dāng)利用所建的決策樹(shù)對(duì)一個(gè)新數(shù)據(jù)對(duì)象進(jìn)行分析時(shí),決策樹(shù)能夠依據(jù)該數(shù)據(jù)輸入變量的取值,推斷出相應(yīng)目標(biāo)變量的分類(lèi)或取值。決策樹(shù)算法主要圍繞兩大核心問(wèn)題展開(kāi):第一,決策樹(shù)的生長(zhǎng)問(wèn)題,即利用訓(xùn)練樣本集,完成決策樹(shù)的建立過(guò)程。第二,決策樹(shù)的剪枝問(wèn)題,即利用檢驗(yàn)樣本集,對(duì)形成的決策樹(shù)進(jìn)行優(yōu)化處理。
決策樹(shù)的算法很多,如ID3、C4.5、CART等。這些算法均采用自頂向下的貪婪算法,每個(gè)節(jié)點(diǎn)選擇分類(lèi)效果最好的屬性將節(jié)點(diǎn)分裂為2個(gè)或多個(gè)子結(jié)點(diǎn),繼續(xù)這一過(guò)程直到這棵樹(shù)能準(zhǔn)確地分類(lèi)訓(xùn)練集,或所有屬性都已被使用過(guò)。
決策樹(shù)的優(yōu)勢(shì)有:結(jié)構(gòu)簡(jiǎn)單,便于理解;效率高,較為適合訓(xùn)練集數(shù)據(jù)量較大的情況;通常不需要接受訓(xùn)練集數(shù)據(jù)外的知識(shí);具有較高的分類(lèi)精確度;等等。因此,決策樹(shù)算法廣泛應(yīng)用于各個(gè)領(lǐng)域,如文本分類(lèi)、語(yǔ)音識(shí)別、模式識(shí)別和專(zhuān)家系統(tǒng)等。
責(zé)任編輯:張鵬輝