高(gao)校信息應用(yong)系(xi)統,在(zai)日常教(jiao)學和(he)管理(li)中積累了大量(liang)歷史數(shu)據(ju)(ju)(ju),但(dan)這些海量(liang)數(shu)據(ju)(ju)(ju)卻沒有得到有效(xiao)的(de)(de)(de)(de)分析和(he)利用(yong),各部門(men)人員在(zai)日常數(shu)據(ju)(ju)(ju)錄(lu)入和(he)維護(hu)中只是通(tong)過(guo)統計和(he)排序對數(shu)據(ju)(ju)(ju)進行簡單的(de)(de)(de)(de)功(gong)能(neng)操(cao)作獲得一些表(biao)面、淺顯、價(jia)值(zhi)不高(gao)的(de)(de)(de)(de)結果(guo)。構建一個大數(shu)據(ju)(ju)(ju)分析平臺(tai),從學校其他應用(yong)平臺(tai)中抽(chou)取海量(liang)數(shu)據(ju)(ju)(ju)進行管理(li)、整合、分析和(he)利用(yong),從中發現潛在(zai)問題和(he)有價(jia)值(zhi)的(de)(de)(de)(de)規律,并通(tong)過(guo)可視化(hua)的(de)(de)(de)(de)方式進行展(zhan)示,能(neng)夠為學校管理(li)層提供科學決策(ce)的(de)(de)(de)(de)支持,并滿足教(jiao)師、學生的(de)(de)(de)(de)個性化(hua)需求,從而提高(gao)高(gao)校信息化(hua)服務(wu)的(de)(de)(de)(de)質量(liang)。
1.構建目標
(1)實現數(shu)(shu)據的共享和交換。將學校(xiao)各應(ying)用(yong)(yong)(yong)系統的數(shu)(shu)據進(jin)行集成和整合,使(shi)(shi)來(lai)源各異、種類不一的各類數(shu)(shu)據可以(yi)相互使(shi)(shi)用(yong)(yong)(yong),豐(feng)富數(shu)(shu)據的來(lai)源,打破系統間的信息孤島,實現數(shu)(shu)據的共享和應(ying)用(yong)(yong)(yong)。
(2)大數(shu)(shu)(shu)據(ju)(ju)的采集(ji)和存儲。研制(zhi)數(shu)(shu)(shu)據(ju)(ju)適配(pei)接口,對(dui)接校內各應用(yong)系統獲取各類異構數(shu)(shu)(shu)據(ju)(ju),并(bing)采用(yong)大數(shu)(shu)(shu)據(ju)(ju)主流的框架(jia)和系統對(dui)數(shu)(shu)(shu)據(ju)(ju)進行統一存儲,為數(shu)(shu)(shu)據(ju)(ju)的挖掘和分(fen)析打(da)好基礎。
(3)大數(shu)(shu)(shu)據(ju)(ju)(ju)分析(xi)與(yu)決策。采用數(shu)(shu)(shu)據(ju)(ju)(ju)挖掘(jue)、數(shu)(shu)(shu)理統計等相關技術,構建大數(shu)(shu)(shu)據(ju)(ju)(ju)分析(xi)框架,提取數(shu)(shu)(shu)據(ju)(ju)(ju)中(zhong)隱含的、未知的、極具潛在(zai)應用價(jia)值的信息和(he)規律(lv),為學(xue)校的教(jiao)務管理、科研管理、學(xue)生(sheng)管理、后勤管理等各項工作(zuo)提供決策和(he)指導。
2.構建原則
(1)安全(quan)性(xing)(xing)。高校信息化工作(zuo)中(zhong)有許多(duo)保密性(xing)(xing)內容,大(da)數(shu)據分析(xi)平(ping)臺應采取(qu)安全(quan)性(xing)(xing)高的(de)訪問認證機制,同時在平(ping)臺建設(she)中(zhong)要充分重視系統自身的(de)安全(quan)性(xing)(xing)以及其他(ta)應用系統的(de)安全(quan)性(xing)(xing)。
(2)可(ke)擴展(zhan)性(xing)。對高校教育(yu)大數據(ju)的分析和應用是一項長期持久的工作,隨著管(guan)理工作的重(zhong)點、教育(yu)信息化工作的變化推(tui)進,對于信息平臺的規(gui)模和要(yao)求也會不(bu)斷變化。因此(ci),要(yao)求平臺的設計和實施要(yao)具有良(liang)好的擴展(zhan)性(xing),以滿(man)足不(bu)斷發展(zhan)變化的要(yao)求。
(3)靈活(huo)性。在平(ping)臺(tai)的(de)(de)設計和實施中要考(kao)慮到與其(qi)他(ta)應用系統的(de)(de)整合,開發(fa)出(chu)多個類(lei)型的(de)(de)接口,能夠靈活(huo)接入其(qi)他(ta)系統、拓(tuo)展(zhan)服務(wu)類(lei)型。
3.總體(ti)框架
平臺應(ying)適應(ying)于大數(shu)據處理(li)要求(qiu),能支持PB級(ji)數(shu)據管理(li)。系統架構應(ying)高安(an)全性、易擴展性,能夠(gou)(gou)(gou)支持各類(lei)主流開(kai)發語言,并提供(gong)豐富的接口。同時能夠(gou)(gou)(gou)支持結(jie)構化和非結(jie)構化數(shu)據的存儲和應(ying)用。Hadoop作為開(kai)源(yuan)的大數(shu)據處理(li)平臺和工(gong)具(ju),其提供(gong)的HDFS分(fen)布式(shi)文件系統和MapReduce模型(xing)能夠(gou)(gou)(gou)很好地(di)滿足以上的要求(qiu)。
基于(yu)Hadoop技術的高校大(da)數據分(fen)析(xi)平臺(tai)自(zi)下(xia)而上分(fen)為三個部分(fen),分(fen)別為:數據層、大(da)數據采(cai)集與存儲、數據分(fen)析(xi)及展示。
(1)數據層,針對不同系統進行分析,制定系統數據采(cai)集范圍與(yu)目標,收集本(ben)校在日(ri)常管理和教學中的產生(sheng)的各類數據,將各種結(jie)構(gou)化和非結(jie)構(gou)化數據進行整合,為大數據的分析提供支撐。
(2)大(da)數據采集與(yu)存(cun)儲旨(zhi)在(zai)為各類異(yi)構數據研制(zhi)適配接口,與(yu)校內其他各系統對接,并為數據提(ti)供(gong)適配、轉換、存(cun)儲等基本管(guan)理功能(neng)。
(3)數(shu)據(ju)(ju)(ju)分析(xi)和(he)展(zhan)(zhan)示是核心業務層,通過(guo)數(shu)據(ju)(ju)(ju)報(bao)(bao)表(biao)(biao)(biao)工具(ju),根據(ju)(ju)(ju)需求制(zhi)定(ding)多樣的(de)(de)(de),針(zhen)對性的(de)(de)(de)數(shu)據(ju)(ju)(ju)報(bao)(bao)表(biao)(biao)(biao)。通過(guo)基于的(de)(de)(de)Hadoop的(de)(de)(de)MapReduce編程模(mo)型實(shi)現(xian)的(de)(de)(de)數(shu)據(ju)(ju)(ju)分析(xi)系(xi)統,針(zhen)對存(cun)儲的(de)(de)(de)數(shu)據(ju)(ju)(ju)進行數(shu)據(ju)(ju)(ju)處理、算法運行、結果轉(zhuan)換(huan)操(cao)作,將(jiang)結果保存(cun)為報(bao)(bao)表(biao)(biao)(biao)文(wen)件,每日形(xing)成的(de)(de)(de)報(bao)(bao)表(biao)(biao)(biao)文(wen)件集。報(bao)(bao)表(biao)(biao)(biao)展(zhan)(zhan)現(xian)系(xi)統將(jiang)生(sheng)成的(de)(de)(de)報(bao)(bao)表(biao)(biao)(biao)文(wen)件以可(ke)視(shi)化方式(shi)進行展(zhan)(zhan)現(xian)。