基于數(shù)據(jù)挖掘的校園一卡通決策支持系統(tǒng)設計與開發(fā)
文章出處:http://m.overnightmodel.com 作者: 人氣: 發(fā)表時間:2011年09月13日
摘要:針對當前高校一卡通數(shù)字化校園,提出以數(shù)據(jù)倉庫技術為核心、以聯(lián)機分析處理技術和數(shù)據(jù)挖掘技術為手段, 整合一卡通應用系統(tǒng)的核心業(yè)務數(shù)據(jù), 分析并挖掘數(shù)據(jù)隱藏關系,提取有用信息,供管理員輔助決策,并供其他應用系統(tǒng)共享,產(chǎn)生聯(lián)動。
引言
隨著校園信息化的不斷推進和深入,越來越多的校園領域?qū)嵤?shù)字化管理。雖然當前很多學校已啟用校園一卡通系統(tǒng), 但只是作為簡單業(yè)務平臺應用,沒有實現(xiàn)資源整合與分析, 不能給管理層帶來決策知識。為解決以上問題,并結合本校實踐經(jīng)驗,提出整合校園一卡通資源,并使用數(shù)據(jù)挖掘技術構建一卡通決策支持系統(tǒng)。
1 研究內(nèi)容
當前校園一卡通應用主要在以下兩個大方面:消費應用方面,例如熱水消費、智能電控繳費、上機管理消費、校園網(wǎng)繳費、飯?zhí)孟M、超市消費、銀行轉(zhuǎn)帳等;教學教輔應用方面,例如借還書管理、多媒體課室管理、課室電子課表管理、迎新離校管理、就業(yè)跟蹤管理等。各應用系統(tǒng)的數(shù)據(jù)在業(yè)務上是獨立的,各應用系統(tǒng)的數(shù)據(jù)就不能以一種統(tǒng)一集中的宏觀決策信息呈現(xiàn)。再則,一卡通系統(tǒng)的不斷應用將會積累越來越大量的數(shù)據(jù),傳統(tǒng)操作型數(shù)據(jù)庫已不能處理這些海量歷史數(shù)據(jù),使用數(shù)據(jù)倉庫技術進行存儲,并使用聯(lián)機分析處理技術進行分析,顯得十分必要。聯(lián)機處理分析可以從多種角度、多種粒度、多個維度上分析微觀或宏觀信息,更好地輔助高層管理人員決策。同時,在聯(lián)機分析處理基礎上,通過數(shù)據(jù)挖掘技術,挖掘和發(fā)現(xiàn)數(shù)據(jù)隱藏關系和趨勢,從而提前制定決策。
數(shù)據(jù)挖掘系統(tǒng)不僅僅作為一個知識呈現(xiàn)的工具,而更應發(fā)揮其智能輔助決策的作用。數(shù)據(jù)挖掘系統(tǒng)還應把發(fā)現(xiàn)的知識, 提供給其他有需要的應用系統(tǒng)共享,實現(xiàn)跨系統(tǒng)之間聯(lián)動,使決策更加智能化。
2 系統(tǒng)架構
本決策支持系統(tǒng)包含數(shù)據(jù)源、數(shù)據(jù)存儲與管理、OLAP 服務、前端工具與應用、決策支持應用5 個部分。數(shù)據(jù)源是整個決策支持系統(tǒng)的數(shù)據(jù)基礎;數(shù)據(jù)的存儲與管理是整個決策支持系統(tǒng)最復雜部分。在現(xiàn)有數(shù)據(jù)源的基礎上,對數(shù)據(jù)進行抽?。‥xtract)、轉(zhuǎn)換和清洗(Transform)、裝載(Load),并有效集成操作( 即ETL 處理),按照主題進行重新組織,構建數(shù)據(jù)倉庫;聯(lián)機分析處理(OLAP)按照多維數(shù)據(jù)模型進行再次重組,以支持用戶多角度、多層次的分析;前端工具主要包括各種數(shù)據(jù)分析工具、報表工具、查詢工具、數(shù)據(jù)挖掘工具與應用;決策支持應用綜合挖掘系統(tǒng)發(fā)現(xiàn)的知識,綜合知識庫經(jīng)驗,輔助管理人員進行決策,并且向其他應用系統(tǒng)提供發(fā)掘的知識,實現(xiàn)聯(lián)動。系統(tǒng)采用SQL Server 2005 為數(shù)據(jù)倉庫和數(shù)據(jù)挖掘解決方案,總體結構如圖1 所示。
圖1 決策支持總體架構
3 系統(tǒng)設計
3.1 數(shù)據(jù)倉庫設計[1]
數(shù)據(jù)倉庫模型采用三層數(shù)據(jù)建模方式:概念模型設計、邏輯模型設計和物理模型設計。概念模型設計主要在原有數(shù)據(jù)庫的基礎上建立較為穩(wěn)固的概念模型,確定主題域及內(nèi)容,以及界定系統(tǒng)的邊界,數(shù)據(jù)圍繞主題進行組織。邏輯模型設計階段要進行的主要工作是分析主題域、確定當前要裝載的主題,設計維度表和事實表,并確定維度的粒度層次和數(shù)據(jù)分割策略等。維度表和事實表組織采用雪花模型組織。物理模型設計主要確定數(shù)據(jù)存儲結構、存儲位置、容量、更新頻率和索引策略等。
數(shù)據(jù)倉庫的結構設計好后,ETL 過程首先從異構數(shù)據(jù)源抽取數(shù)據(jù),然后按照數(shù)據(jù)倉庫的維度表和事實表設計要求進行轉(zhuǎn)換處理, 對所有臟數(shù)據(jù)進行清洗。數(shù)據(jù)轉(zhuǎn)換與清洗按圖2 所示的W.H.Inmon 博士[2]提出的6 個步驟進行。
圖2 ETL 過程的6 個步驟
數(shù)據(jù)經(jīng)過ETL 處理后裝入數(shù)據(jù)倉庫, 從建造面向某個部門(或某個應用)特定的數(shù)據(jù)集市開始,逐步擴充數(shù)據(jù)倉庫所包含的主題和范圍,最后形成一個能反映全貌的企業(yè)級數(shù)據(jù)倉庫。數(shù)據(jù)倉庫構建后,進行聯(lián)機分析處理,通過靈活的多維瀏覽,結合上卷、下鉆等操作,宏觀或微觀上提取有用的信息,作為高層管理人員決策支持和依據(jù)。同時,通過一系列的報表分析,更加直觀地顯示數(shù)據(jù)統(tǒng)計信息。
3.2 數(shù)據(jù)挖掘設計[3~4]
在數(shù)據(jù)倉庫建成后,使用數(shù)據(jù)挖掘技術構建相應挖掘模型。每種挖掘類型完成某種特定功能。關聯(lián)規(guī)則挖掘模型通過分析學生屬性、消費金額、消費時間、消費地點等之間的關聯(lián), 來分析個體學生消費行為;時序挖掘模型可以月為周期挖掘超市日消費數(shù)據(jù)的序列,并作出預測;聚類挖掘模型可以用于總體飯?zhí)孟M或用電消費值的分類,以了解學生總體的消費區(qū)間;決策樹挖掘模型通過分析學生專業(yè)、年級、住址、家庭情況等屬性對飯?zhí)孟M或用電消費的影響,以發(fā)現(xiàn)決定影響消費的重要屬性,形成決策樹。
數(shù)據(jù)挖掘模型的數(shù)據(jù)源主要從數(shù)據(jù)倉庫中抽取,但并不是數(shù)據(jù)倉庫中的數(shù)據(jù)百分百滿足模型的要求。很多時候, 還要對數(shù)據(jù)倉庫中的數(shù)據(jù)進行二次處理,以適應模型要求,裝入挖掘模型。SQL Server 2005 提供有前端展示工具,用于解釋模型數(shù)據(jù)。
3.3 系統(tǒng)聯(lián)動設計
SQL Server 2005 提供有Data Mining Access ObjectsAPI 接口[5]來訪問數(shù)據(jù)倉庫與數(shù)據(jù)挖掘模型。通過DMAO 接口, 可以方便地操作數(shù)據(jù)倉庫和數(shù)據(jù)挖掘模型, 從而實現(xiàn)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘模型的監(jiān)控。配合知識庫經(jīng)驗,把發(fā)掘的知識作為預警信息分發(fā)到相應的應用系統(tǒng), 其他應用系統(tǒng)收到預警信息后,作出相應的聯(lián)動處理[6]。
例如,關聯(lián)規(guī)則挖掘模型根據(jù)知識庫經(jīng)驗,把滿足知識庫閾值的飯?zhí)孟M和學生宿舍用電消費關聯(lián)規(guī)則,以預警的形式向?qū)W生助學貸款系統(tǒng)和學生勤工助學系統(tǒng)發(fā)送消息。例如,某學生申請了助學貸款,但通過挖掘其歷史消費數(shù)據(jù),發(fā)現(xiàn)該學生經(jīng)常產(chǎn)生較大消費金額,與其貧困的家庭生活狀況不太適應,可能有欺騙嫌疑,則數(shù)據(jù)挖掘模型向助學貸款管理系統(tǒng)產(chǎn)生一條預警信息,讓助學貸款系統(tǒng)作相應處理??傮w結構如圖所示。
圖3 數(shù)據(jù)挖掘與應用系統(tǒng)間聯(lián)動
數(shù)據(jù)倉庫的建設是一個系統(tǒng)工程,是一個不斷建立、發(fā)展、完善的過程。因此,決策支持系統(tǒng)的建設也是一個不斷發(fā)展的過程。
4 結語
本文提出并設計了應用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的校園一卡通決策支持方案,對本校一卡通數(shù)據(jù)作了深入分析,得出了有用的決策信息,在一定程度上輔助管理人員進行決策。數(shù)據(jù)挖掘系統(tǒng)與其他應用系統(tǒng)之間的聯(lián)動是一個有益的嘗試,并且是一個有相當挑戰(zhàn)性的課題。本系統(tǒng)仍需不斷發(fā)展和改進完善。
【稿件聲明】:如需轉(zhuǎn)載,必須注明來源和作者,保留文中圖片和內(nèi)容的完整性,違者將依法追究。