數(shù)據(jù)挖掘 data mining
定義:從巨量數(shù)據(jù)中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
學科:計算機科學技術_人工智能_機器學習
相關名詞:數(shù)據(jù)集 算法 隨機噪聲
圖片來源:視覺中國
【延伸閱讀】
近年來,隨著網絡技術的普及,數(shù)據(jù)庫技術也飛速發(fā)展。圖形、圖像、音頻、視頻、網頁等各種復雜數(shù)據(jù)都可以在數(shù)據(jù)庫中進行管理,逐漸累積的數(shù)據(jù)量也在不斷增加。
數(shù)據(jù)庫在向人們提供大量的信息的同時,也表現(xiàn)出了大量的信息特征。在這個信息大爆炸的年代,過量的信息也會對人類產生一定的消極作用,最顯著的影響是有效的信息可能被淹沒在海量數(shù)據(jù)中很難被提煉出來。太多的無用信息勢必會增大信息的狀態(tài)轉移距離,這是一種能夠反映出丟失的有用知識的多少的指標。這種情況下就會出現(xiàn)所謂的“信息豐富,知識匱乏”的困境。
因此,對大量的數(shù)據(jù)進行深入分析,從中找出隱藏的信息,以便更好地利用這些數(shù)據(jù),成為人們的迫切需要。但是,僅僅依靠數(shù)據(jù)庫系統(tǒng)的增刪改查等功能還不能從數(shù)據(jù)中找出隱含的關系和規(guī)律,也不能從已有的數(shù)據(jù)中判斷出今后的發(fā)展方向,更不可能從數(shù)據(jù)中發(fā)掘出隱藏的知識。數(shù)據(jù)挖掘技術就是在這種情況下應運而生。
廣義上說,任何從數(shù)據(jù)中挖掘信息的過程都可以稱為數(shù)據(jù)挖掘。從這一角度,數(shù)據(jù)挖掘可以看作是一種商業(yè)智能。但在技術方面,數(shù)據(jù)挖掘大致需要經過以下步驟:
首先,要對源數(shù)據(jù)進行清洗和轉換,使之成為適合于挖掘的數(shù)據(jù)集。其次,要在這種具有固定形式的數(shù)據(jù)集上完成知識的提煉。最后,采用合適的知識模式進一步完成分析決策。
從狹義的觀點看,數(shù)據(jù)挖掘往往針對特定的數(shù)據(jù)和問題,選擇一種或者多種挖掘算法,找到數(shù)據(jù)背后隱藏的規(guī)律,并使用這些規(guī)律來進行預測、支持決策。
作為一項新興的處理數(shù)據(jù)技術,數(shù)據(jù)挖掘技術有許多的新特征。首先,數(shù)據(jù)挖掘的對象是海量數(shù)據(jù),這也是數(shù)據(jù)挖掘技術產生的原因。其次,數(shù)據(jù)可能是包含隨機噪聲的、高維的,同時具有復雜的數(shù)據(jù)結構。最后,數(shù)據(jù)挖掘綜合運用了統(tǒng)計學、計算機、數(shù)學等學科的知識,多學科的交叉使其具有廣闊的應用領域。
(延伸閱讀作者:大連理工大學計算機學院教授 楊鑫)
責任編輯:張鵬輝