白話講解商業智能 BI、數據倉庫 DW和數據挖掘 DM

商業智能 BI、數據倉庫 DW、數據挖掘 DM

商業智能BI(Business Intelligence) 。相比於數據倉庫、數據挖掘,它是一個更大的概念。商業智能可以說是基於數據倉庫,經過了數據挖掘後,得到了商業價值的過程。所以說數據倉庫是個金礦,數據挖掘是鍊金術,而商業報告則是黃金。

白話講解商業智能 BI、數據倉庫 DW和數據挖掘 DM

數據倉庫DW(Data Warehouse) 。它可以說是 BI 這個房子的地基,搭建好 DW 這個地基之後,才能進行分析使用,最後產生價值。數據倉庫可以說是數據庫的升級概念. 和數據庫並無明顯差別都是通過數據庫技術來存儲數據的。數據倉庫將原有的多個數據來源中的數據進行彙總、整理而得。數據進入數據倉庫前,必須消除數據中的不一致性,方便後續進行數據分析和挖掘。

白話講解商業智能 BI、數據倉庫 DW和數據挖掘 DM

數據挖掘DM(Data Mining) 。在商業智能 BI 中經常會使用到數據挖掘技術。數據挖掘的核心包括分類、聚類、預測、關聯分析等任務,通過這些鍊金術,我們可以從數據倉庫中得到寶藏,比如商業報告。

白話講解商業智能 BI、數據倉庫 DW和數據挖掘 DM

元數據 and 數據元

元數據(MetaData):

描述其它數據的數據,也稱為“中介數據”。 數據元(Data Element): 就是最小數據單元。

在生活中,只要有一類事物,就可以定義一套元數據。舉個例子,比如一本圖書的信息包括了書名、作者、出版社、ISBN、出版時間、頁數和定價等多個屬性的信息,我們就可以把這些屬性定義成一套圖書的元數據。

在圖書這個元數據中,書名、作者、出版社就是數據元。你可以理解是最小的數據單元。元數據最大的好處是使信息的描述和分類實現了結構化,讓機器處理起來很方便。

__元數據的作用:

元數據可以很方便地應用於數據倉庫。比如數據倉庫中有數據和數據之間的各種複雜關係,為了描述這些關係,元數據可以對數據倉庫的數據進行定義,刻畫數據的抽取和轉換規則,存儲與數據倉庫主題有關的各種信息。而且整個數據倉庫的運行都是基於元數據的,比如抽取調度數據、獲取歷史數據等。

數據挖掘的流程

數據挖掘(Knowledge Discovery in Database)數據庫中知識發現,簡稱KDD。在數據挖掘中有幾個非常重要的任務分別是分類,聚類,預測和關係分析。

1.分類:

就是通過訓練集得到一個分類模型,然後用這個模型可以對其他數據進行分類。

訓練集和測試集的概念:

一般來說數據可以劃分為訓練集和測試集。訓練集是用來給機器做訓練的,通常是人們整理好訓練數據,以及這些數據對應的分類標識。通過訓練,機器就產生了自我分類的模型,然後機器就可以拿著這個分類模型,對測試集中的數據進行分類預測。同樣如果測試集中,人們已經給出了測試結果,我們就可以用測試結果來做驗證,從而瞭解分類器在測試環境下的表現。

2.聚類:

人以群分,物以類聚。聚類就是將數據自動聚類成幾個類別,聚到一起的相似度大,不在一起的差異性大。我們往往利用聚類來做數據劃分。

3.預測:

就是通過當前和歷史數據來預測未來趨勢,它可以更好地幫助我們識別機遇和風險。

4.關係分析:

就是發現數據中的關聯規則,它被廣泛應用在購物籃分析,或事務數據分析中。比如某寶中的物品綁定推送。

數據庫中知識發現(KDD)過程:

輸入數據 --> 數據預處理(特徵選擇,維規約,規範化,選擇數據子集) --> 數據挖掘 --> 後處理(模式過濾,可視化,模式表示) --> 信息

數據預處理時進行的步驟:

1.數據清洗

主要是為了去除重複數據,去噪聲(即干擾數據)以及填充缺失值。

2.數據集成

是將多個數據源中的數據存放在一個統一的數據存儲中。

3.數據變換

就是將數據轉換成適合數據挖掘的形式。比如,通過歸一化將屬性數據按照比例縮放,這樣就可以將數值落入一個特定的區間內,比如 0~1 之間。

白話講解:

比如你認識了兩個漂亮的女孩。

白話講解商業智能 BI、數據倉庫 DW和數據挖掘 DM

商業智能 會告訴你要追哪個?成功概率有多大?

數據倉庫 會說,我這裡存儲了這兩個女孩的相關信息,你要嗎?

其中每個女孩的數據都有單獨的文件夾,裡面有她們各自的姓名、生日、喜好和聯繫方式等,這些具體的信息就是 數據元 ,加起來叫作 元數據

數據挖掘 會幫助你確定追哪個女孩,並且整理好數據倉庫,這裡就可以使用到各種算法,幫你做決策了。

你可能會用到 分類算法 。御姐、蘿莉、女王,她到底屬於哪個分類?

如果認識的女孩太多了,多到你已經數不過來了,比如說 5 萬人!你就可以使用 聚類算法 了,它幫你把這些女孩分成多個群組,比如 5 個組。然後再對每個群組的特性進行了解,進行決策。這樣就把 5 萬人的決策,轉化成了 5 個組的決策。成功實現降維,大大提升了效率。 如果你想知道這個女孩的閨蜜是誰,那麼

關聯分析算法 可以告訴你。如果你的數據來源比較多,比如有很多朋友給你介紹女朋友,很多人都推薦了同一個,你就需要去重,這叫 數據清洗 ;為了方便記憶,你把不同朋友推薦的女孩信息合成一個,這叫 數據集成 ;有些數據渠道統計的體重的單位是公斤,有些是斤,你就需要將它們轉換成同一個單位,這叫 數據變換

最後你可以進行數據可視化了,它會直觀地把你想要的結果呈現出來。


分享到:


相關文章: