精品国产一级毛片大全,毛片一级在线,毛片免费观看的视频在线,午夜毛片福利

我要投稿 投訴建議

數(shù)據(jù)挖掘論文

時(shí)間:2023-07-29 10:13:17 畢業(yè)論文范文 我要投稿

(實(shí)用)數(shù)據(jù)挖掘論文

  無論是身處學(xué)校還是步入社會(huì),大家最不陌生的就是論文了吧,論文是描述學(xué)術(shù)研究成果進(jìn)行學(xué)術(shù)交流的一種工具。為了讓您在寫論文時(shí)更加簡(jiǎn)單方便,下面是小編為大家整理的數(shù)據(jù)挖掘論文,歡迎大家分享。

(實(shí)用)數(shù)據(jù)挖掘論文

數(shù)據(jù)挖掘論文1

  1理論研究

  1.1客戶關(guān)系管理

  客戶關(guān)系管理的目標(biāo)是依靠高效優(yōu)質(zhì)的服務(wù)吸引客戶,同時(shí)通過對(duì)業(yè)務(wù)流程的全面優(yōu)化和管理,控制企業(yè)運(yùn)行成本?蛻絷P(guān)系管理是一種管理理念,將企業(yè)客戶視作企業(yè)發(fā)展最重要的企業(yè)資源,采用企業(yè)服務(wù)優(yōu)化等手段來管理客戶關(guān)系?蛻絷P(guān)系管理并不是單純的信息技術(shù)或者管理技術(shù),而是一種企業(yè)生物戰(zhàn)略,通過對(duì)企業(yè)客戶的分段充足,強(qiáng)化客戶滿意的行為,優(yōu)化企業(yè)可盈利性,將客戶處理工作上升到企業(yè)級(jí)別,不同部門負(fù)責(zé)與客戶進(jìn)行交互,但是整個(gè)企業(yè)都需要向客戶負(fù)責(zé),在信息技術(shù)的支持下實(shí)現(xiàn)企業(yè)和客戶連接環(huán)節(jié)的自動(dòng)化管理。

  1.2客戶細(xì)分

  客戶細(xì)分由美國(guó)學(xué)者溫德爾史密斯在20世紀(jì)50年代提出,認(rèn)為客戶細(xì)分是根據(jù)客戶屬性將客戶分成集合,F(xiàn)代營(yíng)銷學(xué)中的客戶細(xì)分是按照客戶特征和共性將客戶群分為不同等級(jí)或者子群體,尋找相同要素,對(duì)不同類別客戶心理與需求急性研究和評(píng)估,從而指導(dǎo)進(jìn)行企業(yè)服務(wù)資源的分配,是企業(yè)獲得客戶價(jià)值的一種理論與方法。因此我們注意到,客戶細(xì)分其實(shí)是一個(gè)分類問題,但是卻有著顯著的特點(diǎn)。

  1.2.1客戶細(xì)分是動(dòng)態(tài)的企業(yè)不斷發(fā)展變化,用戶數(shù)據(jù)不斷積累,市場(chǎng)因素的變化,都會(huì)造成客戶細(xì)分的變化。所以客戶細(xì)分工作需要根據(jù)客戶情況的變化進(jìn)行動(dòng)態(tài)調(diào)整,

  減少錯(cuò)誤分類,提高多次細(xì)分中至少有一次是正確分類的可能性。

  1.2.2受眾多因素影響

  隨著時(shí)間的推移,客戶行為和心理會(huì)發(fā)生變化,所以不同時(shí)間的數(shù)據(jù)會(huì)反映出不同的規(guī)律,客戶細(xì)分方法需要在變化過程中準(zhǔn)確掌握客戶行為的規(guī)律性。

  1.2.3客戶細(xì)分有不同的分類標(biāo)準(zhǔn)

  一般分類問題強(qiáng)調(diào)準(zhǔn)確性,客戶關(guān)系管理則強(qiáng)調(diào)有用性,講求在特定限制條件下實(shí)現(xiàn)特定目標(biāo)。

  1.3數(shù)據(jù)挖掘

  數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫數(shù)據(jù)中提取有價(jià)值的、隱含的、事前未知的潛在有用信息。數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,挖掘?qū)ο蟛辉偈菃我粩?shù)據(jù)庫,已經(jīng)逐漸發(fā)展到文件系統(tǒng)、數(shù)據(jù)集合以及數(shù)據(jù)倉庫的挖掘分析。

  2客戶細(xì)分的數(shù)據(jù)挖掘

  2.1邏輯模型

  客戶數(shù)據(jù)中有著若干離散客戶屬性和連續(xù)客戶屬性,每個(gè)客戶屬性為一個(gè)維度,客戶作為空間點(diǎn),全部客戶都能夠形成多為空間,作為客戶的屬性空間,假設(shè)A={A1,A2,…Am}是一組客戶屬性,屬性可以是連續(xù)的,也可以離散型,這些屬性就形成了客戶m維屬性空間。同時(shí)設(shè)g是一個(gè)描述客戶屬性的一個(gè)指標(biāo),f(g)是符合該指標(biāo)的客戶集合,即為概率外延,則任一確定時(shí)刻都是n個(gè)互不相交集合。在客戶價(jià)值概念維度上,可分為“有價(jià)值客戶”“潛在價(jià)值客戶”“無價(jià)值客戶”三種類型,定義RB如下:(1)顯然RB是一個(gè)等價(jià)關(guān)系,經(jīng)RB可分類屬性空間為若干等價(jià)類,每個(gè)等價(jià)類都是一個(gè)概念類,建立客戶細(xì)分,就是客戶屬性空間和概念空間映射關(guān)系的建立過程。

  2.2客戶細(xì)分?jǐn)?shù)據(jù)挖掘?qū)嵤?/p>

  通過數(shù)據(jù)庫已知概念類客戶數(shù)據(jù)進(jìn)行樣本學(xué)習(xí)和數(shù)據(jù)挖掘,進(jìn)行客戶屬性空間與概念空間映射的自動(dòng)歸納。首先確定一組概念類已知客戶集合。首先確定一個(gè)映射:p:C→L,使,如果,則。,求p(c)確定所屬概念類。數(shù)據(jù)部分有客戶數(shù)據(jù)存儲(chǔ)和概念維數(shù)據(jù)構(gòu)成,客戶數(shù)據(jù)存儲(chǔ)有企業(yè)全部?jī)?nèi)在屬性、外在屬性以及行為屬性等數(shù)據(jù),方法則主要有關(guān)聯(lián)規(guī)則分析、深井網(wǎng)絡(luò)分類、決策樹、實(shí)例學(xué)習(xí)等數(shù)據(jù)挖掘方法,通過對(duì)客戶數(shù)據(jù)存儲(chǔ)數(shù)據(jù)學(xué)習(xí)算法來建立客戶數(shù)據(jù)和概念維之間的映射關(guān)系。

  2.3客戶細(xì)分?jǐn)?shù)據(jù)分析

  建立客戶動(dòng)態(tài)行為描述模型,滿足客戶行為非確定性和非一致性要求,客戶中心的管理體制下,客戶細(xì)分影響企業(yè)戰(zhàn)術(shù)和戰(zhàn)略級(jí)別決策的生成,所以數(shù)據(jù)挖掘要能夠彌補(bǔ)傳統(tǒng)數(shù)據(jù)分析方法在可靠性方面的缺陷。

  2.3.1客戶外在屬性

  外在屬性有客戶地理分布、客戶組織歸屬情況和客戶產(chǎn)品擁有情況等?蛻舻慕M織歸屬是客戶社會(huì)組織類型,客戶產(chǎn)品擁有情況是客戶是否擁有或者擁有哪些與其他企業(yè)或者其他企業(yè)相關(guān)產(chǎn)品。

  2.3.2內(nèi)在屬性

  內(nèi)在屬性有人口因素和心理因素等,人口因素是消費(fèi)者市場(chǎng)細(xì)分的重要變量。相比其他變量,人口因素更加容易測(cè)量。心理因素則主要有客戶愛好、性格、信用情況以及價(jià)值取向等因素。

  2.3.3消費(fèi)行為

  消費(fèi)行為屬性則重點(diǎn)關(guān)注客戶購買前對(duì)產(chǎn)品的`了解情況,是客戶細(xì)分中最客觀和重要的因素。

  2.4數(shù)據(jù)挖掘算法

  2.4.1聚類算法

  按照客戶價(jià)值標(biāo)記聚類結(jié)果,通過分類功能,建立客戶特征模型,準(zhǔn)確描述高價(jià)值客戶的一些特有特征,使得企業(yè)在之后的市場(chǎng)活動(dòng)中能夠迅速發(fā)現(xiàn)并抓住類似的高價(jià)值客戶,全面提高客戶的整體價(jià)值水平。通常都采用中心算法進(jìn)行客戶的聚類分析,分析涉及的字段主要有客戶的基本信息以及與客戶相關(guān)業(yè)務(wù)信息,企業(yè)采用中心算法,按照企業(yè)自身的行業(yè)性質(zhì)以及商務(wù)環(huán)境,選擇不同的聚類分析策略,有主屬性聚類分析和全屬性聚類分析兩類。主屬性聚類分析是企業(yè)根據(jù)在企業(yè)標(biāo)度變量中選擇主要弧形作為聚類分析變量。通常區(qū)間標(biāo)度變量選用的度量單位會(huì)對(duì)聚類分析結(jié)果產(chǎn)生很大影響,選擇的度量單位越小,就會(huì)獲得越大的可能值域,對(duì)聚類結(jié)果的影響也就越大。

  2.4.2客戶分析預(yù)測(cè)

  行業(yè)競(jìng)爭(zhēng)愈加激烈,新客戶的獲得成本越來越高,在保持原有工作價(jià)值的同時(shí),客戶的流失也受到了企業(yè)的重視。為了控制客戶流失,就需要對(duì)流失客戶的數(shù)據(jù)進(jìn)行認(rèn)真分析,找尋流失客戶的根本原因,防止客戶的持續(xù)流失。數(shù)據(jù)挖掘聚類功能同樣能夠利用在客戶流失數(shù)據(jù)分析工作中,建立基于流失客戶數(shù)據(jù)樣本庫的分類函數(shù)以及分類模式,通過模型分析客戶流失因素,能夠獲得一個(gè)最有可能流失的客戶群體,同時(shí)編制一個(gè)有針對(duì)性的挽留方案。之后對(duì)數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個(gè)可供選擇的模型中找出最佳模型。初始階段,模型的擬合程度可能不理想,但是隨著模型的不斷更換和優(yōu)化,最終就有可能找出合適的模型進(jìn)行數(shù)據(jù)描述并挖掘出流失數(shù)據(jù)規(guī)律。通常模擬模型都通過數(shù)據(jù)分析專業(yè)和業(yè)務(wù)專家協(xié)作完成,采用決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等流失分析模型,實(shí)現(xiàn)客戶行為的預(yù)測(cè)分析。

  3結(jié)語

  從工業(yè)營(yíng)銷中的客戶細(xì)分觀點(diǎn)出發(fā),在數(shù)據(jù)挖掘、客戶關(guān)系管理等理論基礎(chǔ)上,采用統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)和數(shù)據(jù)挖掘技術(shù),對(duì)客戶細(xì)分的數(shù)據(jù)挖掘方法進(jìn)行了研究,建立了基于決策樹的客戶細(xì)分模型,是一種效率很高的管理工具。

  作者:區(qū)嘉良 呂淑儀 單位:中國(guó)石化廣東石油分公司

數(shù)據(jù)挖掘論文2

  摘 要:支持向量機(jī)(Support Vector Machine, SVM)是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的一個(gè)很有效的工具。結(jié)合支持向量機(jī)在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的應(yīng)用, 介紹了支持向量機(jī)的基本原理, 發(fā)展方向及其研究熱點(diǎn)。

  關(guān)鍵詞:支持向量機(jī); 數(shù)據(jù)挖掘; 機(jī)器學(xué)習(xí)オ

  1 SVM的提出和基本思想

  支持向量機(jī)是Vapnik等人提出的,在解決小樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的優(yōu)勢(shì),已應(yīng)用于手寫體識(shí)別、三維目標(biāo)識(shí)別、人臉識(shí)別、文本圖像分類等實(shí)際問題中,性能優(yōu)于已有的學(xué)習(xí)方法,表現(xiàn)出良好的學(xué)習(xí)能力。它是從線性可分情況下的線性分類面發(fā)展而來的,接著利用核函數(shù)很好的解決了非線性可分情況。

  2 支持向量機(jī)的幾個(gè)發(fā)展

  (1)模糊支持向量機(jī),引入樣本對(duì)類別的隸屬度函數(shù),這樣每個(gè)樣本對(duì)于類別的影響是不同的,這種理論的應(yīng)用提高了SVM的抗噪聲的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。

  (2)最小二乘支持向量機(jī)。這種方法是在1999年提出,經(jīng)過這幾年的發(fā)展,已經(jīng)應(yīng)用要很多相關(guān)的領(lǐng)域。研究的問題已經(jīng)推廣到:對(duì)于大規(guī)模數(shù)據(jù)集的處理;處理數(shù)據(jù)的魯棒性;參數(shù)調(diào)節(jié)和選擇問題;訓(xùn)練和仿真。

 。3)加權(quán)支持向量機(jī)(有偏樣本的加權(quán),有偏風(fēng)險(xiǎn)加權(quán))。

 。4)主動(dòng)學(xué)習(xí)的支持向量機(jī)。主動(dòng)學(xué)習(xí)在學(xué)習(xí)過程中可以根據(jù)學(xué)習(xí)進(jìn)程,選擇最有利于分類器性能的樣本來進(jìn)一步訓(xùn)練分類器,特能有效地減少評(píng)價(jià)樣本的數(shù)量。

  (5)粗糙集與支持向量機(jī)的結(jié)合。首先利用粗糙集理論對(duì)數(shù)據(jù)的屬性進(jìn)行約簡(jiǎn),能在某種程度上減少支持向量機(jī)求解計(jì)算量。

 。6)基于決策樹的支持向量機(jī)。對(duì)于多類問題,采用二岔樹將藥分類的樣本集構(gòu)造出一系列的兩類問題,每個(gè)兩類構(gòu)造一個(gè)SVM。

 。7)分級(jí)聚類的支持向量機(jī);诜旨(jí)聚類和決策樹思想構(gòu)建多類svm,使用分級(jí)聚類的方法,可以先把n-1個(gè)距離較近的'類別結(jié)合起來,暫時(shí)看作一類,把剩下的一類作為單獨(dú)的一類,用svm分類,分類后的下一步不再考慮這單獨(dú)的一類,而只研究所合并的n-1類,再依次下去。

 。8)算法上的提高。Vapnik在1995年提出了一種稱為“chunking”的塊算法,即如果刪除矩陣中對(duì)應(yīng)Lagrange乘數(shù)為0的行和列,將不會(huì)影響最終結(jié)果。Osuna提出了一種分解算法,應(yīng)用于人臉識(shí)別領(lǐng)域。Joachims在1998年將Osuna提出的分解策略推廣到解決大型SVM學(xué)習(xí)的算法。Platt于1998年提出了序貫最小優(yōu)化每次的工作集中只有2個(gè)樣本。

 。9)核函數(shù)的構(gòu)造和參數(shù)的選擇理論研究;诟鱾(gè)不同的應(yīng)用領(lǐng)域,可以構(gòu)造不同的核函數(shù),能夠或多或少的引入領(lǐng)域知識(shí),F(xiàn)在核函數(shù)廣泛應(yīng)用的類型有:多項(xiàng)式逼近、貝葉斯分類器、徑向機(jī)函數(shù)、多層感知器。參數(shù)的選擇現(xiàn)在利用交叉驗(yàn)證的方法來確認(rèn)。

  (10)支持向量機(jī)從兩類問題向多類問題的推廣。Weston在1998年提出的多類算法為代表。在經(jīng)典svm理論的基礎(chǔ)上,直接在目標(biāo)函數(shù)上進(jìn)行改進(jìn),重新構(gòu)造多值分類模型,建立k分類支持向量機(jī)。通過sv方法對(duì)新模型的目標(biāo)函數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)多值分類。

  一對(duì)多(one-against-rest)——Vapnik提出的,k類——k個(gè)分類器,第m個(gè)分類器將第m類與其余的類分開,也就是說將第m類重新標(biāo)號(hào)為1,其他類標(biāo)號(hào)為-1。完成這個(gè)過程需要計(jì)算k個(gè)二次規(guī)劃,根據(jù)標(biāo)號(hào)將每個(gè)樣本分開,最后輸出的是兩類分類器輸出為最大的那一類。不足:容易產(chǎn)生屬于多類別的點(diǎn)(多個(gè)1)和沒有被分類的點(diǎn)(標(biāo)號(hào)均為-1)——不對(duì),訓(xùn)練樣本數(shù)據(jù)大,訓(xùn)練困難,推廣誤差無界。

  層(數(shù)分類方法),是對(duì)一對(duì)一方法的改進(jìn),將k個(gè)分類合并為兩個(gè)大類,每個(gè)大類里面再分成兩個(gè)子類,如此下去,直到最基本的k個(gè)分類,這樣形成不同的層次,每個(gè)層次都用svm來進(jìn)行分類——1對(duì)r-1法,構(gòu)建k-1個(gè)分類器,不存在拒絕分類區(qū)。

  3 主要研究熱點(diǎn)

  從上面的發(fā)展中,我們可以總結(jié)出,目前支持向量機(jī)有著幾方面的研究熱點(diǎn):核函數(shù)的構(gòu)造和參數(shù)的選擇;支持向量機(jī)從兩類問題向多類問題的推廣;更多的應(yīng)用領(lǐng)域的推廣;與目前其它機(jī)器學(xué)習(xí)方法的融合;與數(shù)據(jù)預(yù)處理(樣本的重要度、屬性的重要度、特征選擇等)方法的結(jié)合。

  參考文獻(xiàn)

 。1]@張學(xué)工.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,20xx.

 。2]@NelloCristianini,JohnShawe-Taylor.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社,20xx.

數(shù)據(jù)挖掘論文3

  摘 要:數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應(yīng)用前景,從而在眾多技術(shù)中脫穎而出。本文從對(duì)數(shù)據(jù)挖掘技術(shù)的初步了解,簡(jiǎn)述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績(jī)分析,以及配合成績(jī)分析,完善教學(xué)。

  關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);在線考試;成績(jī)分析 ;完善教學(xué)

  隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,計(jì)算機(jī)輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)等學(xué)科的內(nèi)容,是一門綜合性的技術(shù)。這種技術(shù)的主要特點(diǎn)是對(duì)數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運(yùn)用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實(shí)用性和高效性得到進(jìn)一步的增強(qiáng),幫助教師更加快速、完整的統(tǒng)計(jì)考試信息,完善教學(xué)。

  1.初步了解數(shù)據(jù)挖掘技術(shù)

  數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對(duì)使用者有用的知識(shí),即從大量的、隨機(jī)的、有噪聲的、模糊的、不完全的實(shí)際應(yīng)用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對(duì)人們潛在有用的信息與知識(shí)的整個(gè)過程。

  目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。

  2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)

  2.1數(shù)據(jù)分類

  數(shù)據(jù)挖掘技術(shù)通過對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠?yàn)槊恳粋(gè)類別都做出一個(gè)準(zhǔn)確的描述,挖掘出分類的規(guī)則或建立一個(gè)分類模型。

  2.2數(shù)據(jù)關(guān)聯(lián)分析

  數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是一項(xiàng)非常重要,并可以發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對(duì)學(xué)校教學(xué)工作管理者有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習(xí)慣。

  2.3預(yù)測(cè)

  預(yù)測(cè)是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對(duì)未來的情況做出一個(gè)可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動(dòng)在大型的數(shù)據(jù)庫中做出一個(gè)較為準(zhǔn)確的分析。就像是在市場(chǎng)投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個(gè)未來商品的促銷走勢(shì)。從而在投資中得到最大的回報(bào)。

  3.數(shù)據(jù)挖掘的方法

  數(shù)據(jù)挖掘技術(shù)融合了多個(gè)學(xué)科、多個(gè)領(lǐng)域的知識(shí)與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)的角度來講,光統(tǒng)計(jì)分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時(shí)間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對(duì)那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計(jì)模型對(duì)這些數(shù)據(jù)來進(jìn)行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會(huì)和市場(chǎng)規(guī)律。另外還有知識(shí)發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。

  4.數(shù)據(jù)挖掘在考試成績(jī)分析中的幾點(diǎn)應(yīng)用

  4.1運(yùn)用關(guān)聯(lián)規(guī)則分析教師的年齡對(duì)學(xué)生考試成績(jī)的影響

  數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學(xué)分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項(xiàng)集之間之間有意義的關(guān)聯(lián)聯(lián)系,幫助知道教師的教學(xué)過程。例如在如今的一些高職院校中,就往往會(huì)把學(xué)生的英語四六級(jí)過級(jí)率,計(jì)算機(jī)等級(jí)等,以這些為依據(jù)來評(píng)價(jià)教師的教學(xué)效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運(yùn)用于考試的成績(jī)分析當(dāng)中,就能夠挖掘出一些對(duì)學(xué)生過級(jí)率產(chǎn)生影響的因素,對(duì)教師的教學(xué)過程進(jìn)行重要的指導(dǎo),讓教師的教學(xué)效率更高,作用更強(qiáng)。

  還可以通過關(guān)聯(lián)規(guī)則算法,先設(shè)定一個(gè)最小可信度和支持度,得到初步的關(guān)聯(lián)規(guī)則,根據(jù)相關(guān)規(guī)則,分析出教師的組成結(jié)構(gòu)和過級(jí)率的影響,從來進(jìn)行教師隊(duì)伍的結(jié)構(gòu)調(diào)整,讓教師隊(duì)伍更加合理。

  4.2采用分類算法探討對(duì)考試成績(jī)有影響的.因素

  數(shù)據(jù)挖掘技術(shù)中的分類算法就是對(duì)一組對(duì)象或一個(gè)事件進(jìn)行歸類,然后通過這些數(shù)據(jù),可以進(jìn)行分類模型的建立和未來的預(yù)測(cè)。分類算法可以進(jìn)行考試中得到的數(shù)據(jù)進(jìn)行分類,然后通過學(xué)生的一些基本情況進(jìn)行探討一些對(duì)考試成績(jī)有影響的因素。分類算法可以用一下步驟實(shí)施:

  4.2.1數(shù)據(jù)采集

  這種方法首先要進(jìn)行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學(xué)生基本信息(姓名、性別、學(xué)號(hào)、籍貫、所屬院系、專業(yè)、班級(jí)等)、學(xué)生調(diào)查信息(比如學(xué)習(xí)前的知識(shí)掌握情況、學(xué)習(xí)興趣、課堂學(xué)習(xí)效果、課后復(fù)習(xí)時(shí)間量等)、成績(jī)(學(xué)生平常學(xué)習(xí)成績(jī),平?荚嚦煽(jī),各種大型考試成績(jī)等)、學(xué)生多次考試中出現(xiàn)的易錯(cuò)點(diǎn)(本次考試中出現(xiàn)的易錯(cuò)點(diǎn),以往考試中出現(xiàn)的易錯(cuò)點(diǎn))

  4.2.2數(shù)據(jù)預(yù)處理

 。1)數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫技術(shù)生產(chǎn)相應(yīng)的學(xué)生考試成績(jī)分析基本數(shù)據(jù)庫。(2)數(shù)據(jù)清理。在學(xué)生成績(jī)分析數(shù)據(jù)庫中,肯定會(huì)出現(xiàn)一些情況缺失,對(duì)于這些空缺處,就需要使用數(shù)據(jù)清理技術(shù)來進(jìn)行這些數(shù)據(jù)庫中數(shù)據(jù)的填補(bǔ)遺漏。例如,可以采用忽略元組的方法來刪除那些沒有參加考試的學(xué)生考試數(shù)據(jù)已經(jīng)在學(xué)生填寫的調(diào)查數(shù)據(jù)中村中的空缺項(xiàng)。(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進(jìn)行進(jìn)行數(shù)據(jù)的離散化操作。在這個(gè)過程中可以根據(jù)實(shí)際需要進(jìn)行分類,比如把考試成績(jī)從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫,在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學(xué)生的基本學(xué)習(xí)情況的影響因素情況中,學(xué)生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學(xué)生基本成績(jī)分析數(shù)據(jù)表。

  4.2.3利用數(shù)據(jù)挖掘技術(shù),得出結(jié)論

  通過數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用,得出這些學(xué)生數(shù)據(jù)的相關(guān)分析,比如說學(xué)生考試中的易錯(cuò)點(diǎn)在什么地方,學(xué)生考試成績(jī)的自身原因,學(xué)生考試成績(jī)的環(huán)境原因,教師隊(duì)伍的搭配情況等等,從中得出如何調(diào)整學(xué)校教學(xué)資源,教師的教學(xué)方案調(diào)整等等,從而完善學(xué)校對(duì)學(xué)生的教學(xué)。

  5.結(jié)語

  數(shù)據(jù)挖掘技術(shù)在社會(huì)各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識(shí)發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術(shù)中還存在著一些問題,例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問題、模式識(shí)別和解釋等等。對(duì)于這些問題,學(xué)校教學(xué)管理工作者要清醒的認(rèn)識(shí),在在線考試系統(tǒng)中對(duì)數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長(zhǎng)處,避免其在在線考試系統(tǒng)中的的缺陷。

  參考文獻(xiàn):

  [1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的作用[J].荊門職業(yè)技術(shù)學(xué)院學(xué)報(bào),20xx,12(22):12.

  [2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(shù)(第2版)[M]范明,譯.北京:機(jī)械工業(yè)出版社,20xx.

  [3]王潔.《在線考試系統(tǒng)的設(shè)計(jì)與開發(fā)》[J].山西師范大學(xué)學(xué)報(bào),20xx(2).

  [4] 王長(zhǎng)娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計(jì)算機(jī)與信息技術(shù),20xx(11)

數(shù)據(jù)挖掘論文4

  1數(shù)據(jù)挖掘技術(shù)和過程

  1.1數(shù)據(jù)挖掘技術(shù)概述

  發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對(duì)的知識(shí),是具有特定前提與條件,面向既定領(lǐng)域的,同時(shí)還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點(diǎn)為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價(jià)值的商業(yè)數(shù)據(jù)。簡(jiǎn)單來說,其實(shí)數(shù)據(jù)挖掘是一種對(duì)數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘?yàn)椋焊鶕?jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識(shí)包括:

  1.1.1廣義知識(shí)體現(xiàn)相同事物共同性質(zhì)的知識(shí),是指類別特點(diǎn)的概括描述知識(shí)。按照數(shù)據(jù)的微觀特點(diǎn)對(duì)其表征的、具有普遍性的、極高概念層次的知識(shí)積極發(fā)現(xiàn),是對(duì)數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識(shí)的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。

  1.1.2關(guān)聯(lián)知識(shí)體現(xiàn)一個(gè)事件與其他事件之間形成的關(guān)聯(lián)知識(shí)。假如兩項(xiàng)或者更多項(xiàng)之間形成關(guān)聯(lián),則其中一項(xiàng)的屬性數(shù)值就能夠借助其他屬性數(shù)值實(shí)行預(yù)測(cè)。

  1.1.3分類知識(shí)體現(xiàn)相同事物共同特點(diǎn)的屬性知識(shí)與不同事物之間差異特點(diǎn)知識(shí)。

  1.2數(shù)據(jù)挖掘過程

  1.2.1明確業(yè)務(wù)對(duì)象對(duì)業(yè)務(wù)問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測(cè)的,但是研究的問題是可預(yù)見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會(huì)體現(xiàn)出盲目性,通常也不會(huì)獲得成功;谟脩籼卣鞯碾娮由虅(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級(jí)職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會(huì)解決大量現(xiàn)實(shí)問題,為企業(yè)確定目標(biāo)市場(chǎng)、完善決策、獲得最大競(jìng)爭(zhēng)優(yōu)勢(shì),其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競(jìng)爭(zhēng)力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。

  1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對(duì)全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對(duì)數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計(jì)算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對(duì)象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。

  1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個(gè)分析模型。這一分析模型是相對(duì)于挖掘算法構(gòu)建的。構(gòu)建一個(gè)與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點(diǎn)?梢岳猛队皵(shù)據(jù)庫的相關(guān)操作對(duì)數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。

  1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對(duì)選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對(duì)某些挖掘參數(shù)能夠積極控制。

  1.2.5評(píng)價(jià)挖掘結(jié)果這個(gè)過程劃分為兩個(gè)步驟:表達(dá)結(jié)果和評(píng)價(jià)結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對(duì)挖掘結(jié)果積極理解。第二評(píng)價(jià)結(jié)果:用戶與機(jī)器對(duì)數(shù)據(jù)挖掘獲得的模式有效評(píng)價(jià),對(duì)冗余或者無關(guān)的'模式及時(shí)刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對(duì)挖掘過程科學(xué)執(zhí)行,直到獲得用戶滿意為止。

  2用戶細(xì)分理論

  用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價(jià)值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤(rùn),還包含未來利潤(rùn),也就是在未來用戶為企業(yè)可能帶來的利潤(rùn)總和。基于用戶價(jià)值的細(xì)分理論選擇客戶當(dāng)前價(jià)值與客戶潛在價(jià)值兩個(gè)因素評(píng)價(jià)用戶。用戶當(dāng)前價(jià)值是指截止到目前用戶對(duì)企業(yè)貢獻(xiàn)的總體價(jià)值;用戶潛在價(jià)值是指未來用戶可能為企業(yè)創(chuàng)造的價(jià)值總和。每個(gè)因素還能夠劃分為兩個(gè)高低檔次,進(jìn)一步產(chǎn)生一個(gè)二維的矩陣,把用戶劃分為4組,價(jià)值用戶、次價(jià)值用戶、潛在價(jià)值用戶、低價(jià)值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當(dāng)形成對(duì)應(yīng)的方法,投入不同的資源。很明顯對(duì)于企業(yè)來說價(jià)值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價(jià)值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤(rùn);其他則是低價(jià)值用戶,對(duì)企業(yè)來說價(jià)值最小,成為鉛質(zhì)用戶,另外一類則是潛在價(jià)值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價(jià)值有限,甚至很小。需要我們注意的是潛在價(jià)值用戶利用再造用戶關(guān)系,將來極有可能變成價(jià)值用戶。從長(zhǎng)期分析,潛在價(jià)值用戶可以是企業(yè)的隱形財(cái)富,是企業(yè)獲得利潤(rùn)的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對(duì)這4類用戶特點(diǎn)有效挖掘。

  3電子商務(wù)數(shù)據(jù)挖掘分析

  3.1設(shè)計(jì)問卷

  研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價(jià)值用戶特征、次價(jià)值用戶特征、潛在價(jià)值用戶特征,對(duì)電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對(duì)象的個(gè)人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點(diǎn)、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對(duì)用戶對(duì)電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計(jì)。

  3.2調(diào)查方式

  本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請(qǐng)其填寫問卷。

  3.3數(shù)據(jù)挖掘和結(jié)果

 。1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。

 。2)用戶數(shù)據(jù)分析

  1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎?”得到對(duì)電子商務(wù)用戶認(rèn)知情況的統(tǒng)計(jì),十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒有聽過電子商務(wù)。對(duì)調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報(bào)刊雜志上知道電子商務(wù)的并且對(duì)其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。

  2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對(duì)應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù),你覺得其用途怎樣,假如沒有使用過,你覺得其對(duì)自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺得電子商務(wù)有用的用戶為40.7%,不清楚是否對(duì)自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。

  3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費(fèi)者對(duì)某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素,未來你會(huì)繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時(shí),將來一年之內(nèi)會(huì)應(yīng)用電子商務(wù)的用戶為78.2%,一定不會(huì)應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好;谟脩籼卣鞯碾娮由虅(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實(shí)行營(yíng)銷和推廣,對(duì)潛在用戶積極定位,提高用戶體驗(yàn),積極挖掘用戶價(jià)值。分析為企業(yè)準(zhǔn)確營(yíng)銷和推廣企業(yè)提供了一個(gè)有效的借鑒。

  4結(jié)語

  互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價(jià)值,對(duì)這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來,數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應(yīng)用,并且需要轉(zhuǎn)化數(shù)據(jù)成為有價(jià)值的信息知識(shí)。通過基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究,促使電子商務(wù)獲得巨大發(fā)展機(jī)會(huì),發(fā)現(xiàn)潛在用戶,促使電子商務(wù)企業(yè)精準(zhǔn)營(yíng)銷。

數(shù)據(jù)挖掘論文5

  [摘要]處于大數(shù)據(jù)時(shí)代這一環(huán)境內(nèi),數(shù)據(jù)生成在方方面面,教育這一行業(yè)也囊括其內(nèi),大量原本無法緊抓、量化的教學(xué)訊息均變換成了數(shù)據(jù)施以儲(chǔ)藏與處理。新時(shí)期起始,是否可以發(fā)掘與運(yùn)用潛藏在教學(xué)相關(guān)數(shù)據(jù)中還沒有挖掘出來的價(jià)值,促使開放型教育或是成人型教育這類行業(yè)得以革新,關(guān)聯(lián)到教學(xué)相關(guān)工作中對(duì)于大數(shù)據(jù)與其潛藏的各類價(jià)值與作用的認(rèn)知、心態(tài)和數(shù)據(jù)發(fā)掘?qū)哟巍?/p>

  [關(guān)鍵詞]開放教育;大數(shù)據(jù)思維;數(shù)據(jù)挖掘

  大數(shù)據(jù)思維即借助大數(shù)據(jù)相關(guān)的思想、理念以思索并清除問題的一類方式。大數(shù)據(jù)相應(yīng)的思想與理念即借助大數(shù)據(jù)以凸顯出事物發(fā)展進(jìn)程中的各類步驟、因素等,處于這一前提之下,借助構(gòu)建各式模型、方法施以把控,進(jìn)而達(dá)成精確清除各式問題這一目標(biāo)。同時(shí),數(shù)據(jù)能夠凸顯出問題,數(shù)據(jù)還能夠引導(dǎo)問題得以清除。借用大數(shù)據(jù)相關(guān)的理念,開放型教育相關(guān)的工作者可以全方位緊依并發(fā)掘教學(xué)本身的潛藏實(shí)際,調(diào)研教學(xué)相應(yīng)的革新及進(jìn)步。

  一、開放型教育行業(yè)內(nèi)部教學(xué)相關(guān)數(shù)據(jù)的運(yùn)用問題

  雖然開放型教育這一行業(yè)早就生成了“大數(shù)據(jù)庫存”,不過,學(xué)校內(nèi)部缺少對(duì)于數(shù)據(jù)本身的匯集監(jiān)管及科學(xué)運(yùn)用,對(duì)于數(shù)據(jù)相應(yīng)的運(yùn)用極為狹隘,許多數(shù)據(jù)僅儲(chǔ)藏在數(shù)據(jù)庫內(nèi),極難自其內(nèi)找出具備規(guī)律與價(jià)值的一類訊息,這類狀況大體上囊括了如下幾大模塊:

  (一)業(yè)務(wù)機(jī)構(gòu)較難予以數(shù)據(jù)相應(yīng)的正確需要

  學(xué)校內(nèi)部的業(yè)務(wù)機(jī)構(gòu)對(duì)于數(shù)據(jù)本身的搜集、歸整、調(diào)研大多由于業(yè)務(wù)驅(qū)使,業(yè)務(wù)進(jìn)程完成過后,數(shù)據(jù)就會(huì)被潛藏,數(shù)據(jù)調(diào)研處在被動(dòng)這一狀況內(nèi)。另外,許多業(yè)務(wù)機(jī)構(gòu)并未知曉大數(shù)據(jù)相應(yīng)的運(yùn)用價(jià)值與區(qū)域,還沒有生成大數(shù)據(jù)這一觀念以引領(lǐng)各項(xiàng)工作的實(shí)施,處于具體的工作內(nèi),極難予以大數(shù)據(jù)相應(yīng)的正確需要:要想改良某一業(yè)務(wù),所需哪類數(shù)據(jù),這類數(shù)據(jù)要從哪類渠道內(nèi)獲得,搜集的數(shù)據(jù)應(yīng)依據(jù)怎樣的規(guī)范施以歸整、發(fā)掘與調(diào)研,數(shù)據(jù)本身的可視化操作要開展至哪種程度等,均不具備明晰的規(guī)范。

  (二)對(duì)數(shù)據(jù)開展運(yùn)用被渠道與技術(shù)所約束

  學(xué)校內(nèi)部各個(gè)層級(jí)與各個(gè)種類的學(xué)習(xí)體系、訊息監(jiān)管體系的數(shù)據(jù)總量極多,然而,對(duì)于數(shù)據(jù)本身的儲(chǔ)存與運(yùn)用卻較低。就數(shù)據(jù)相應(yīng)的儲(chǔ)藏與歸整而言,存在數(shù)據(jù)種類多元化、數(shù)據(jù)讀取受限、儲(chǔ)藏負(fù)擔(dān)、體系特性受限、數(shù)據(jù)調(diào)研成效較低、數(shù)據(jù)不夠安全等問題。例如,開放型教育相關(guān)的教務(wù)監(jiān)管體系,大量的學(xué)習(xí)成績(jī)有關(guān)數(shù)據(jù)已經(jīng)大于原本體系本身的儲(chǔ)藏與調(diào)研一類能力,使得對(duì)數(shù)據(jù)相應(yīng)的歸整留存在簡(jiǎn)易的查閱、歸整、打印等步驟內(nèi),沒有對(duì)數(shù)據(jù)施以深層次調(diào)研,也沒有收獲對(duì)教學(xué)一類工作具備益處的訊息。

  (三)現(xiàn)行的數(shù)據(jù)調(diào)研極為分散與分裂

  處于大數(shù)據(jù)這一時(shí)代內(nèi),要著眼于生成部門本身各大模塊數(shù)據(jù)、數(shù)據(jù)庫存、多媒體數(shù)據(jù)、各大渠道數(shù)據(jù)、各大訊息媒介數(shù)據(jù)間的關(guān)聯(lián)性,力爭(zhēng)最大程度地運(yùn)用數(shù)據(jù)。然而,現(xiàn)存的教育相關(guān)數(shù)據(jù)依舊存在機(jī)構(gòu)化、部門化一類問題,數(shù)據(jù)體現(xiàn)出分裂、分散等狀況,數(shù)據(jù)調(diào)研也極少注重?cái)?shù)據(jù)間的關(guān)聯(lián)性。例如。教務(wù)處會(huì)定期歸整每個(gè)學(xué)期相應(yīng)的在籍生總量、各大專業(yè)學(xué)生總量、設(shè)立科目明細(xì)、學(xué)期選課學(xué)生總量、學(xué)生上課率、按時(shí)畢業(yè)率、學(xué)位獲得率、退學(xué)率、終結(jié)性考試合格率一類數(shù)據(jù),然而,卻較少發(fā)掘這類數(shù)據(jù)間的關(guān)聯(lián)性與干涉關(guān)系,也沒有發(fā)掘各個(gè)機(jī)構(gòu)數(shù)據(jù)間的關(guān)聯(lián)性。

  (四)不具備專業(yè)的數(shù)據(jù)調(diào)研崗位與人才

  大數(shù)據(jù)這一時(shí)代予以了大量新興的觀念與技術(shù),具備與原本全然不一的數(shù)據(jù)儲(chǔ)藏與歸整方法,然而,現(xiàn)存的體系監(jiān)管者、數(shù)據(jù)庫監(jiān)管者依舊會(huì)運(yùn)用原本的數(shù)據(jù)庫監(jiān)管體系,短時(shí)間內(nèi)極難配備面對(duì)今后的數(shù)據(jù)調(diào)研技藝。其原因:其一,學(xué)校本身對(duì)于數(shù)據(jù)調(diào)研有關(guān)人才與崗位相應(yīng)的需要態(tài)度還沒有明晰;其二,新興技術(shù)的運(yùn)用條件極為繁雜,與大量數(shù)據(jù)相關(guān)的技術(shù)在成熟程度與可查看性方面比原數(shù)據(jù)庫和數(shù)據(jù)監(jiān)管配備更差,能夠運(yùn)用到輔助體系的監(jiān)管者也極少。

  二、大數(shù)據(jù)相關(guān)思維對(duì)于開放型教育各式數(shù)據(jù)發(fā)掘的啟迪

  (一)從高至低生成與教學(xué)監(jiān)管相應(yīng)的數(shù)據(jù)思維

  現(xiàn)階段,廣播電視大學(xué)等正朝著開放型大學(xué)進(jìn)行轉(zhuǎn)變,成人學(xué)校的辦學(xué)類型、辦學(xué)面積、專業(yè)構(gòu)造與總量、師生資源及其所處的環(huán)境均會(huì)發(fā)生變化。對(duì)于開放型教育相關(guān)的數(shù)據(jù)施以發(fā)掘及調(diào)研,能夠輔助成人一類學(xué)校獲取辦學(xué)定位信息,提升教學(xué)、監(jiān)管本身的合理性,還給學(xué)校改良并增強(qiáng)宏觀方面的監(jiān)管予以了有價(jià)值的監(jiān)測(cè)方法與評(píng)測(cè)技術(shù)。大數(shù)據(jù)相關(guān)思維獲得推行與運(yùn)用,規(guī)定學(xué)校內(nèi)部的監(jiān)管方法、構(gòu)造、技術(shù)都要與大數(shù)據(jù)這一時(shí)代相符。所以,應(yīng)在地區(qū)或是學(xué)校內(nèi)部生成總體的大數(shù)據(jù)相關(guān)戰(zhàn)略,并把此當(dāng)作學(xué)校本身的關(guān)鍵目標(biāo),借助大數(shù)據(jù)相關(guān)的思維把訊息化教學(xué)、訊息化監(jiān)管、遠(yuǎn)端教育扶持服務(wù)及學(xué)校平日的各類工作加以歸整,借助調(diào)節(jié)化的方法,全部機(jī)構(gòu)一同訓(xùn)練并提升搜集、儲(chǔ)藏、監(jiān)管、調(diào)研與共享大量數(shù)據(jù)需要的技術(shù)及思維,逐漸促使數(shù)據(jù)監(jiān)管本身的常態(tài)化、時(shí)時(shí)化、開放化與網(wǎng)絡(luò)化得以實(shí)現(xiàn)。

  (二)以智慧型校園助推教學(xué)監(jiān)管智能化

  現(xiàn)如今,物聯(lián)網(wǎng)與云計(jì)算得以生成,校園內(nèi)部的訊息化構(gòu)建要盡早從數(shù)字型校園朝智慧型校園轉(zhuǎn)變。構(gòu)建智慧型校園,需將傳感器融匯至校園內(nèi)部的各類體系內(nèi),把校園監(jiān)管的各式軟件體系渠道融匯至校園云,促使網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云得以關(guān)聯(lián)與聯(lián)通,據(jù)此能夠促使校園內(nèi)部時(shí)時(shí)數(shù)據(jù)的收獲、儲(chǔ)藏與調(diào)研得以實(shí)現(xiàn),進(jìn)而給學(xué)校本身的進(jìn)步與教學(xué)運(yùn)用予以科學(xué)的決策憑據(jù),智慧型校園即教育訊息化構(gòu)建的一大實(shí)體,對(duì)于踐行大數(shù)據(jù)本身的價(jià)值來說不可或缺。另外,智慧型校園還囊括了大數(shù)據(jù)相關(guān)的規(guī)范系統(tǒng)、校園內(nèi)部的數(shù)字化生態(tài)條件與相關(guān)的訊息化組織監(jiān)管系統(tǒng)等模塊的構(gòu)建。從基本設(shè)備構(gòu)建著手,逐漸實(shí)施基于云計(jì)算的大數(shù)據(jù)運(yùn)用,促使教師自身的教學(xué)動(dòng)作、學(xué)生遠(yuǎn)端的學(xué)習(xí)動(dòng)作、學(xué)生本身的特性特點(diǎn)等得以調(diào)研與評(píng)測(cè),給促使學(xué)生身心進(jìn)步予以適宜的引領(lǐng)與輔助,予以學(xué)校運(yùn)作所需的時(shí)時(shí)動(dòng)態(tài)數(shù)據(jù),助推教學(xué)監(jiān)管得以合理化與智能化。

  (三)全方位發(fā)掘并調(diào)研現(xiàn)存的各類數(shù)據(jù)

  處于大數(shù)據(jù)這一時(shí)代,數(shù)據(jù)種類多元,不單具備構(gòu)造化數(shù)據(jù),還摻雜了許多半構(gòu)造化與非構(gòu)造化數(shù)據(jù)。把握、調(diào)研半構(gòu)造化與非構(gòu)造化數(shù)據(jù)本身的能力對(duì)于許多學(xué)校而言是一項(xiàng)極大的挑戰(zhàn)。學(xué)校要把構(gòu)造化數(shù)據(jù)發(fā)掘當(dāng)作大數(shù)據(jù)相關(guān)思維運(yùn)用的著眼點(diǎn),關(guān)注搜集并儲(chǔ)藏用戶訊息與動(dòng)作數(shù)據(jù),為今后各式運(yùn)用做好全方位的準(zhǔn)備。同時(shí),借用現(xiàn)存的數(shù)據(jù)調(diào)研方法,憑借數(shù)據(jù)引領(lǐng)開放型教育本身的進(jìn)步。處于初始運(yùn)用時(shí)期,應(yīng)自教學(xué)數(shù)據(jù)、監(jiān)管數(shù)據(jù)以對(duì)教育數(shù)據(jù)施以發(fā)掘。1.網(wǎng)絡(luò)教學(xué)這一渠道相關(guān)的數(shù)據(jù)發(fā)掘。學(xué)習(xí)者自身特點(diǎn)辨別:辨別學(xué)習(xí)者本身的.特點(diǎn),尤其是學(xué)習(xí)者群體相應(yīng)的特點(diǎn),并憑借某類核心特點(diǎn)對(duì)學(xué)習(xí)者群體施以區(qū)分,促使前階段的教學(xué)相關(guān)設(shè)計(jì)得以全方位踐行,并給個(gè)體化學(xué)習(xí)的開展予以憑據(jù)。例如,“學(xué)生總量歸整及趨向評(píng)測(cè)”“學(xué)生自身的特點(diǎn)歸類及調(diào)研”等。學(xué)習(xí)者在線開展學(xué)習(xí)動(dòng)作調(diào)研:在網(wǎng)絡(luò)教學(xué)這一渠道內(nèi)師生開展學(xué)習(xí)期間的各類數(shù)據(jù),對(duì)教師與學(xué)生自身的動(dòng)作方法,如登入、查閱資源、發(fā)帖、訓(xùn)練一類動(dòng)作與動(dòng)作生成的時(shí)間,加上各式資源、教學(xué)模塊的運(yùn)用狀況施以歸整、可視化與發(fā)掘。例如,“學(xué)生登入動(dòng)作調(diào)研”“學(xué)生資源查閱方法調(diào)研”“師生互動(dòng)渠道調(diào)研”“學(xué)生動(dòng)作干涉要素調(diào)研”等等。師生互動(dòng)調(diào)研:對(duì)網(wǎng)絡(luò)教學(xué)相關(guān)渠道互動(dòng)論壇內(nèi)的數(shù)據(jù)施以調(diào)研,輔助教師評(píng)判學(xué)生對(duì)于教學(xué)目的的把握狀況,方便對(duì)學(xué)生隨時(shí)施以回饋與引導(dǎo)。2.教育監(jiān)管訊息這一體系相關(guān)的數(shù)據(jù)發(fā)掘。教師相關(guān)的監(jiān)管:從人事訊息有關(guān)的數(shù)據(jù)庫、后勤訊息體系、教師監(jiān)管與評(píng)測(cè)相關(guān)體系內(nèi)發(fā)掘現(xiàn)存數(shù)據(jù),對(duì)學(xué)校處于人才引用、教師成績(jī)?cè)u(píng)測(cè)、教師進(jìn)步、職業(yè)計(jì)劃、后勤監(jiān)管、教育決策扶持體系一類模塊予以迅速、正確的決策輔助。學(xué)生方面的監(jiān)管:鑒于學(xué)籍相關(guān)的數(shù)據(jù)庫、招生相關(guān)的數(shù)據(jù)庫實(shí)施數(shù)據(jù)發(fā)掘,改良學(xué)生方面的監(jiān)管工作,給學(xué)校內(nèi)部的就業(yè)引導(dǎo)、畢業(yè)生跟蹤、科目設(shè)立、招生決策等予以優(yōu)良的輔助。例如,發(fā)掘?qū)W生自身的修業(yè)成果數(shù)據(jù)、對(duì)畢業(yè)生自身的特點(diǎn)施以調(diào)研、畢業(yè)成果干涉要素與畢業(yè)時(shí)間干涉要素調(diào)研、畢業(yè)成果評(píng)測(cè)規(guī)定與畢業(yè)時(shí)間評(píng)測(cè)規(guī)定等。

  (四)全方位開展數(shù)據(jù)式人才準(zhǔn)備

  處于大數(shù)據(jù)這一時(shí)代內(nèi),學(xué)校內(nèi)部的監(jiān)管決策、教學(xué)相關(guān)的決策與對(duì)成人學(xué)習(xí)者相應(yīng)的學(xué)習(xí)扶持決策均要依靠大量數(shù)據(jù)的調(diào)研成果,數(shù)據(jù)調(diào)研及發(fā)掘會(huì)逐步變成學(xué)校自身的常規(guī)工作,不單應(yīng)關(guān)注增強(qiáng)各大機(jī)構(gòu)相關(guān)工作者自身的數(shù)據(jù)調(diào)研能力,成人學(xué)校還應(yīng)訓(xùn)練并準(zhǔn)備如下人才:一是大數(shù)據(jù)監(jiān)管方面的人才。處于大數(shù)據(jù)相關(guān)教育運(yùn)用的初始時(shí)期,學(xué)校對(duì)于大數(shù)據(jù)監(jiān)管方面人才需要的急迫性大于對(duì)于技術(shù)型人才的需要。訊息技術(shù)的全方位進(jìn)步,原本的教學(xué)與監(jiān)管相關(guān)經(jīng)歷有可能變成現(xiàn)階段的約束。為了應(yīng)對(duì)新時(shí)期的各式挑戰(zhàn),成人學(xué)校不單應(yīng)設(shè)定專業(yè)的數(shù)據(jù)監(jiān)管崗位,監(jiān)管者還務(wù)必要自行變換思維方法,知曉借助數(shù)據(jù)開展思索與監(jiān)管;務(wù)必知曉借助大數(shù)據(jù)相關(guān)的方式,以尋求適宜的解決方法。二是大數(shù)據(jù)技術(shù)方面的人才。想要對(duì)教育相關(guān)的數(shù)據(jù)施以全方位發(fā)掘,成人學(xué)校就要知曉大數(shù)據(jù),還要有擅長(zhǎng)調(diào)研大數(shù)據(jù)、深層次發(fā)掘大數(shù)據(jù)的各式專家。這類人才應(yīng)總體把握數(shù)據(jù)調(diào)研、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)械學(xué)習(xí)與自然語言操作一類模塊的知識(shí)。具體人才包括:數(shù)據(jù)方面的科學(xué)家,即具備數(shù)據(jù)調(diào)研能力,擅長(zhǎng)各式算法,可以精準(zhǔn)地處理數(shù)據(jù);數(shù)據(jù)方面的架構(gòu)者,即擅長(zhǎng)各類開放型教育相關(guān)的業(yè)務(wù),把握業(yè)務(wù)需要與業(yè)務(wù)總體構(gòu)造,可以將數(shù)據(jù)與業(yè)務(wù)施以銜接;數(shù)據(jù)方面的工程者,即可以構(gòu)建數(shù)據(jù)儲(chǔ)藏、監(jiān)管與處理的一類渠道,并扶持?jǐn)?shù)據(jù)方面的科學(xué)家予以數(shù)學(xué)相關(guān)模型或是算法的運(yùn)轉(zhuǎn)。

  三、結(jié)語

  大數(shù)據(jù)時(shí)代對(duì)開放型教育與成人型教育相應(yīng)的理念革新與教學(xué)革新予以了大量的機(jī)遇。大數(shù)據(jù)不單是一類實(shí)用工具,還是一類思維方式。開放型教育務(wù)必要自原本的小數(shù)據(jù)相關(guān)思維更快地變換成大數(shù)據(jù)相應(yīng)的思維,進(jìn)而與這一迅速的革新相符。借助對(duì)數(shù)據(jù)本身的收獲、調(diào)研與智能化訊息發(fā)掘,給學(xué)校內(nèi)部的監(jiān)管、教學(xué)、服務(wù)予以具備價(jià)值的一類數(shù)據(jù)訊息,輔助學(xué)校生成合理的決策,給教學(xué)相關(guān)活動(dòng)的改良施以客觀的憑據(jù)。

  參考文獻(xiàn):

  [1]呂蘇越.基于大數(shù)據(jù)思維的銀行監(jiān)管數(shù)據(jù)應(yīng)用初探———以3種數(shù)據(jù)挖掘技術(shù)為例[J].金融科技時(shí)代,20xx(5):32-36.

  [2]孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)預(yù)測(cè)的研究與實(shí)現(xiàn)———以本科公共課程統(tǒng)考英語為例[J].開放教育研究,20xx(3):74-80.

  [3]呂海燕,周立軍,張杰.大數(shù)據(jù)背景下教育數(shù)據(jù)挖掘在學(xué)生在線學(xué)習(xí)行為分析中的應(yīng)用研究[J].計(jì)算技術(shù)與自動(dòng)化,20xx,36(1):136-140.

 。4]舒曉靈,陳晶晶.重新認(rèn)識(shí)“數(shù)據(jù)驅(qū)動(dòng)”及因果關(guān)系———知識(shí)發(fā)現(xiàn)圖譜中的數(shù)據(jù)挖掘研究[J].中國(guó)社會(huì)科學(xué)評(píng)價(jià),20xx(3):28-38.

數(shù)據(jù)挖掘論文6

  摘要:數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中找到人們未知、可能有用的、隱藏的規(guī)則,可以通過關(guān)聯(lián)分析、聚類分析、時(shí)序分析等各種算法發(fā)現(xiàn)一些無法通過觀察圖表得出的深層次原因。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校學(xué)籍預(yù)警機(jī)制的研究中,在大量以往的教學(xué)管理數(shù)據(jù)庫中挖掘出未知、可能有用的、隱藏的規(guī)則,促進(jìn)教育的改革和發(fā)展。

  關(guān)鍵詞:數(shù)據(jù)挖掘;DataMining;學(xué)籍預(yù)警機(jī)制

  本文針對(duì)學(xué)分制背景下高校學(xué)籍預(yù)警機(jī)制存在的問題和現(xiàn)狀,用計(jì)算機(jī)數(shù)據(jù)挖掘(DataMining)技術(shù)對(duì)學(xué)籍預(yù)警機(jī)制進(jìn)行分析,通過數(shù)據(jù)挖掘有關(guān)方法對(duì)搜集到的學(xué)生學(xué)籍?dāng)?shù)據(jù)進(jìn)行分析和處理,以求能夠挖掘出大量的隱含在學(xué)籍信息系統(tǒng)中的有價(jià)值的資源,用以預(yù)測(cè)可能發(fā)生的預(yù)警事件,為教學(xué)管理者進(jìn)行危機(jī)管理提供幫助。隨著高校招生規(guī)模不斷擴(kuò)大,如何保證高校的教學(xué)質(zhì)量最終完成人才培養(yǎng)方案,成為一個(gè)重要的問題,具有重要研究?jī)r(jià)值。

  一、高校學(xué)籍預(yù)警機(jī)制的現(xiàn)狀及問題

  20xx年8月教育部對(duì)“學(xué)籍預(yù)警”這一詞語做出了解釋:是一種高等教育管理方式。普通高校學(xué)籍的預(yù)警方式一般采用學(xué)校和院系雙向管理,學(xué)校負(fù)責(zé)統(tǒng)一制定學(xué)籍預(yù)警標(biāo)準(zhǔn),通過學(xué)習(xí)進(jìn)度推進(jìn)的不同階段劃分學(xué)分預(yù)警標(biāo)準(zhǔn),在達(dá)到一定學(xué)分線開始預(yù)警,分為考勤預(yù)警、選課預(yù)警、成績(jī)預(yù)警、學(xué)籍異動(dòng)預(yù)警、畢業(yè)預(yù)警。根據(jù)高校教學(xué)管理系統(tǒng),對(duì)缺課達(dá)到一定數(shù)目的學(xué)生進(jìn)行提醒教育,期末統(tǒng)計(jì)學(xué)生完成的學(xué)分來評(píng)估學(xué)生學(xué)習(xí)情況,并預(yù)測(cè)學(xué)生是否能夠完成培養(yǎng)方案,通過教師提供的學(xué)生考勤記錄、作業(yè)情況以及課堂表現(xiàn)等,針對(duì)學(xué)生的具體情況對(duì)其預(yù)警。教學(xué)考核工作與學(xué)生思想政治工作在學(xué)生管理方面相對(duì)獨(dú)立,主要是事先警示教育、事后跟蹤管理。目前的學(xué)籍預(yù)警主要是單方向的,原有的學(xué)籍管理制度大都是傳統(tǒng)的事后處理型,具有延遲性。只有出現(xiàn)嚴(yán)重的學(xué)籍異常后,才會(huì)觸發(fā)預(yù)警機(jī)制,采取相應(yīng)的對(duì)策解決問題,家長(zhǎng)對(duì)學(xué)生的在校學(xué)習(xí)情況了解不清,了解不及時(shí),比如之前學(xué)期表現(xiàn)良好的學(xué)生本學(xué)期出現(xiàn)網(wǎng)癮狀態(tài)而不能及時(shí)發(fā)現(xiàn),往往會(huì)錯(cuò)過對(duì)該生的最佳教育期。傳統(tǒng)的學(xué)籍預(yù)警機(jī)制無法做到提前預(yù)知,對(duì)學(xué)生的學(xué)習(xí)和生活狀況無法實(shí)時(shí)監(jiān)管,問題的根源也無法追蹤。

  二、數(shù)據(jù)挖掘技術(shù)

  數(shù)據(jù)挖掘(DataMining)是指從海量數(shù)據(jù)中找到人們未知的、可能有用的、隱藏的規(guī)則,可以通過關(guān)聯(lián)分析、聚類分析、時(shí)序分析等各種算法發(fā)現(xiàn)一些無法通過觀察圖表得出的`深層次原因。因此,將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校學(xué)籍預(yù)警機(jī)制的研究中,在大量以往的教學(xué)管理數(shù)據(jù)庫中挖掘出未知的、可能有用的、隱藏的規(guī)則,促進(jìn)教育的改革和發(fā)展。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)和傳統(tǒng)的人力管理相結(jié)合,以學(xué)生為本,建立健全全方位學(xué)籍預(yù)警構(gòu)架,做到“防微杜漸”,為學(xué)校順利完成教育目標(biāo)起到促進(jìn)作用。

  三、數(shù)據(jù)挖掘在學(xué)籍預(yù)警機(jī)制里的應(yīng)用

  隨著計(jì)算機(jī)技術(shù)的進(jìn)步,各大高校逐步建立了日益完善的學(xué)籍信息管理系統(tǒng),累積了大量學(xué)籍信息數(shù)據(jù)庫。目前,這些數(shù)據(jù)主要用來向各級(jí)管理部門上報(bào)和學(xué)校自行查看存檔,但對(duì)于這些數(shù)據(jù)后面隱藏的價(jià)值并沒有進(jìn)行深度挖掘和利用,十分可惜。所以,應(yīng)以高校學(xué)生信息管理系統(tǒng)為對(duì)象,研究深度數(shù)據(jù)挖掘的方法,“透過現(xiàn)象看本質(zhì)”,綜合分析出有價(jià)值的學(xué)籍預(yù)警信息,為管理提供參考。例如,學(xué)校發(fā)現(xiàn)高等數(shù)學(xué)等主干課的不及格率有逐年上升的趨勢(shì),一般認(rèn)為是學(xué)習(xí)不認(rèn)真所致,但做了很多工作效果并不明顯,這時(shí)通過數(shù)據(jù)挖掘分析挖掘最近10年所有有過不及格課程的學(xué)生的成績(jī),發(fā)現(xiàn)有較高比例的學(xué)生來自西部地區(qū),而且還發(fā)現(xiàn)有較高比例的學(xué)生家庭收入非常高或者非常低(生源地和經(jīng)濟(jì)情況問題)。針對(duì)此可以在學(xué)生管理上提前采取有針對(duì)性的管理措施。制定好目標(biāo)標(biāo)準(zhǔn),挖掘?qū)W生的學(xué)習(xí)習(xí)慣及學(xué)習(xí)特長(zhǎng),輔助教師指導(dǎo)學(xué)生,指導(dǎo)學(xué)生改正自己的不當(dāng)行為,提高學(xué)習(xí)能力。從教學(xué)管理系統(tǒng)中所記載的學(xué)生基本資料、學(xué)習(xí)成績(jī)、學(xué)習(xí)經(jīng)歷、學(xué)習(xí)喜好以及知識(shí)體系結(jié)構(gòu)等內(nèi)容,發(fā)現(xiàn)學(xué)生學(xué)習(xí)習(xí)慣,輔助學(xué)生改正自身學(xué)習(xí)行為。提高學(xué)生各方面綜合素質(zhì)。利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析輔助師生行為預(yù)警干預(yù)。各高校學(xué)籍管理系統(tǒng)中記載著各院系各專業(yè)學(xué)生與教師的學(xué)習(xí)工作,社會(huì)活動(dòng),獎(jiǎng)勵(lì)處罰情況,可從中分析出師生各種活動(dòng)之間的內(nèi)在聯(lián)系,假定有規(guī)則“A∪B∈C”,那么當(dāng)在實(shí)際活動(dòng)中,某學(xué)生已有A和B行為,馬上可以分析出產(chǎn)生下個(gè)行為的概率,可即時(shí)預(yù)警,提前制止C行為的發(fā)生。利用數(shù)據(jù)挖掘?yàn)檎n程設(shè)置提供合理依據(jù)。高校學(xué)生的課程安排設(shè)置是循序漸進(jìn)的,每門課程之間都有一定的關(guān)聯(lián)和前后順序,在學(xué)習(xí)一門專業(yè)課程之前必須先修一門基礎(chǔ)課程,基礎(chǔ)知識(shí)沒學(xué)好勢(shì)必影響專業(yè)課程的學(xué)習(xí)。而且,同一年級(jí)不同專業(yè)學(xué)生之間,由于教師或教師專業(yè)背景知識(shí)不同,各個(gè)學(xué)生總體成績(jī)相差有時(shí)會(huì)很大。數(shù)據(jù)庫中記載著以往各專業(yè)學(xué)生各學(xué)科考試成績(jī),使用數(shù)據(jù)挖掘的關(guān)聯(lián)分析與時(shí)序分析技術(shù),能分析出原因,在此基礎(chǔ)上對(duì)課程進(jìn)行合理設(shè)置。

  綜上所述,將基于計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校的教學(xué)管理,以提高教學(xué)管理的預(yù)知性,增加教法選擇的參考性,加強(qiáng)教學(xué)過程的指導(dǎo)性,提高教學(xué)質(zhì)量。

  參考文獻(xiàn):

  [1]陳東民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:北京電子工業(yè)出版社,20xx

  [2]楊悅.數(shù)據(jù)挖掘在高校招生工作中的應(yīng)用前景[J].教育科學(xué),20xx

  [3]胡侃.基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘[J].軟件學(xué)報(bào),1998

數(shù)據(jù)挖掘論文7

  一、數(shù)據(jù)挖掘相關(guān)概念

  數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來的一門新興學(xué)科,它涉及到數(shù)據(jù)庫和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。

  二、使用Weka進(jìn)行關(guān)聯(lián)挖掘

  Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來進(jìn)行。

 。ㄒ唬⿺(shù)據(jù)預(yù)處理

  數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類屬性值。

 。ǘ⿺(shù)據(jù)載入

  點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的'方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。

 。ㄈ╆P(guān)聯(lián)挖掘與結(jié)果分析

  WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。

  三、挖掘結(jié)果與應(yīng)用

  以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。

  1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來支撐立項(xiàng),所以這類教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)校科研工作的進(jìn)展。

  2、副教授類的教師科研立項(xiàng)得分很高,而講師類教師和助教類教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬惖慕處熡幸欢ǖ慕虒W(xué)經(jīng)驗(yàn),并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類和助教類的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究,因此這兩類教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對(duì)子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。

  3、講師類教師的論文等級(jí)不高。從論文得分能夠推斷出講師類教師所發(fā)表論文的級(jí)別不高。為了鼓勵(lì)這類教師的論文發(fā)表,在今后的科研量化工作中對(duì)省級(jí)、國(guó)家級(jí)的論文級(jí)別進(jìn)行細(xì)化,并且降低一般論文的得分權(quán)重,加大高級(jí)論文的得分權(quán)重。并且鼓勵(lì)講師類教師參加假期培訓(xùn),提高自身的科研和教學(xué)水平。

數(shù)據(jù)挖掘論文8

  0引言

  隨著我國(guó)信息化建設(shè)進(jìn)程的不斷推進(jìn),許多高校都已經(jīng)建立起各類基于業(yè)務(wù)的數(shù)據(jù)庫用于日常管理,作為應(yīng)用廣泛的新興學(xué)科,數(shù)據(jù)挖掘技術(shù)在高校教育信息化中的應(yīng)用前景較好,為高校的管理、建設(shè)、服務(wù)過程的絕學(xué)提供了全新而科學(xué)的分析途徑。在新形勢(shì)下,高校學(xué)生思政管理工作面臨著巨大挑戰(zhàn),所以適時(shí)不斷調(diào)整思想工作的途徑,加強(qiáng)先進(jìn)經(jīng)驗(yàn)的交流,可以有效的提高高校思政工作的效果,對(duì)此,本文借助數(shù)據(jù)挖掘技術(shù)進(jìn)行嘗試,通過聚類結(jié)果分析,所挖掘到的信息對(duì)學(xué)生工作具有一定的參考價(jià)值。

  1數(shù)據(jù)挖掘技術(shù)在思想政治教育中的實(shí)際應(yīng)用

 。保彼枷胝谓逃芾黼S著高等教育的不斷發(fā)展與普及,給高校思想政治教育帶來一定挑戰(zhàn),在通常情況下,學(xué)校相關(guān)部門會(huì)對(duì)教育管理工作進(jìn)行數(shù)據(jù)收集,但是目前對(duì)這些數(shù)據(jù)的處理還處于底層的查找與簡(jiǎn)單分析階段,不能夠挖掘出其中的價(jià)值。為了更加具體的了解思政教育工作者的工作情況,學(xué)校每學(xué)期會(huì)組織學(xué)生對(duì)輔導(dǎo)員的工作進(jìn)行評(píng)議,填寫輔導(dǎo)員“工作考核量化表”如何從中提取有價(jià)值的信息,對(duì)高校思想政治教育有非常重要的意義[1]。1.2解決方案數(shù)據(jù)挖掘?qū)儆谝粋(gè)方案得到肯定的過程,是數(shù)據(jù)分析研究的深層系手段,將數(shù)據(jù)挖掘技術(shù)運(yùn)用到輔導(dǎo)員工作考核中具有特別意義。例如:通過數(shù)據(jù)挖掘技術(shù)手段分析“輔導(dǎo)員工作考核量化表”中的數(shù)據(jù),可以了解“某所高校思政管理整體水平”,在管理中“哪些方面做得好,哪些方面做得不到位”等相關(guān)問題。通過這些結(jié)論進(jìn)一步完善高校思政教育管理。本文提出運(yùn)用聚類分析的數(shù)據(jù)挖掘技術(shù)對(duì)輔導(dǎo)員的工作成效數(shù)據(jù)進(jìn)行分析,將大批的數(shù)據(jù)轉(zhuǎn)換為聚類結(jié)果,從而更好的對(duì)數(shù)據(jù)加以利用。數(shù)據(jù)挖掘過程.步驟1:明確數(shù)據(jù)挖掘的對(duì)象和主要目的,通過數(shù)據(jù)挖掘雖然不能預(yù)測(cè)最終結(jié)果,但是可以對(duì)所研究的問題進(jìn)行預(yù)測(cè),所以挖掘目標(biāo)的確定是數(shù)據(jù)挖掘的關(guān)鍵步驟[2]。步驟2:數(shù)據(jù)采集,該過程的任務(wù)比較繁重,并且需要時(shí)間比較多。在品勢(shì)的教育管理中,要認(rèn)真的收集數(shù)據(jù)信息,一部分?jǐn)?shù)據(jù)是直接可以拿到的,一部分?jǐn)?shù)據(jù)則需要通過調(diào)研才能獲得。步驟3:數(shù)據(jù)預(yù)處理,將收集到的數(shù)據(jù)轉(zhuǎn)變成可分析的數(shù)據(jù)模型,該模型是根據(jù)算法來準(zhǔn)備的,不同的算法對(duì)數(shù)據(jù)模型的要求是不一樣的。步驟4:數(shù)據(jù)類聚挖掘,通過類聚挖掘能夠?qū)?shù)據(jù)模型劃分為相似的多個(gè)組,該過程主要為數(shù)據(jù)模型的輸入過程以及聚類算法的選擇進(jìn)行實(shí)現(xiàn)。步驟5:聚類結(jié)果分析,該過程主要分析研究聚類數(shù)據(jù)挖掘之后得到的多個(gè)組屬性。步驟6:知識(shí)應(yīng)用,將研究所得的信息集成到輔導(dǎo)員的管理教育環(huán)節(jié)中,思政工作者通過該結(jié)論促進(jìn)教學(xué)管理,形成良好的管理方針[3]。

  2數(shù)據(jù)挖掘技術(shù)在思政教育工作中具體方案實(shí)施

  2.1確定數(shù)據(jù)挖掘?qū)ο笫占⒄砟炒髮W(xué)2017年“輔導(dǎo)員工作考核量化表”,整理其中關(guān)于輔導(dǎo)員教育管理的120張考核量化表,嘗試解答高校思政教育中存在的問題,經(jīng)過對(duì)有價(jià)值數(shù)據(jù)的挖掘,得出結(jié)論為教學(xué)管理帶來有效的指導(dǎo)價(jià)值。2.2數(shù)據(jù)采集從學(xué)校學(xué)生工作處,搜集2017年度“輔導(dǎo)員工作考核量化表”。2.3數(shù)據(jù)預(yù)處理“輔導(dǎo)員工作考核量化表”要求輔導(dǎo)員在“堅(jiān)持標(biāo)準(zhǔn),獎(jiǎng)懲分明,客觀公正的對(duì)待每一位學(xué)生!薄罢J(rèn)真做好勤工助學(xué)活動(dòng)!薄罢_分析學(xué)生的思想動(dòng)態(tài)”等幾個(gè)指標(biāo)項(xiàng)目中,根據(jù)輔導(dǎo)員的實(shí)際工作表現(xiàn),劃分為“優(yōu)秀、良好、合格、較差、差”五等類型等級(jí)。最終獲得比較完整的考核記錄工作考核量化表117張。2.4數(shù)據(jù)轉(zhuǎn)換在工作考核量化表中考核等級(jí)的項(xiàng)目共15項(xiàng),如何將數(shù)據(jù)合成到一個(gè)聚類分析的模式中非常關(guān)鍵,按照“管理態(tài)度”“管理能力”“管理方法”“管理效果”四方面屬性來對(duì)工作考核量化表中的數(shù)據(jù)進(jìn)行重新組合:其中“管理態(tài)度”=(堅(jiān)持標(biāo)準(zhǔn)+與同學(xué)之間感情融洽+言談得體+辦事客觀)/4“管理能力”=(準(zhǔn)確掌握貧困生情況+準(zhǔn)確掌握特殊群體+嚴(yán)格教育與查出違紀(jì)學(xué)生+勝任工作+組織學(xué)生做好評(píng)優(yōu)工作)/5“管理方法”=(每周3次以上探入班級(jí)宿舍+積極參加檢查學(xué)生早操+學(xué)生獎(jiǎng)學(xué)金發(fā)放到位+有準(zhǔn)備的與學(xué)生談話+檢查宿舍衛(wèi)生)/5“管理效果”=(積極參加團(tuán)活班會(huì)+課下了解學(xué)生思想狀況+評(píng)論與建議)/3通過以上處理,可以將工作考核量化表關(guān)系到的十五個(gè)考評(píng)等級(jí)統(tǒng)一演化到四個(gè)屬性中。然后針對(duì)117份數(shù)據(jù)樣本信息的4個(gè)屬性采取聚類挖掘的方法進(jìn)行研究。通過樣本預(yù)處理得到數(shù)據(jù)樣本.2.5數(shù)據(jù)聚類挖掘數(shù)據(jù)的聚類挖掘采用劃分方法中的經(jīng)典算法K均值以及K中心點(diǎn)算法,其中K代表類別個(gè)數(shù)(K=3),主要挖掘思路為:將n個(gè)對(duì)象劃分為K個(gè)簇,使同一簇中的對(duì)象具有較高的相似度,K均值算法主要是使用簇中對(duì)象的平均值作為參考值。K均值算法的復(fù)雜度可以通過進(jìn)一步計(jì)算得出O(nkt),n代表簇的數(shù)量,t代表反復(fù)迭代的次數(shù),在一般情況下,k與t都會(huì)遠(yuǎn)小于n。針對(duì)所要分析的數(shù)據(jù)樣本,四類屬性都是通過數(shù)據(jù)轉(zhuǎn)換而得到的,所要的數(shù)據(jù)都是算術(shù)平均值,所以產(chǎn)生孤立點(diǎn)的可能性非常小,最終選用K均值的算法來運(yùn)用于本研究的數(shù)據(jù)聚類中。一般情況下,K均值算法當(dāng)局部取得最優(yōu)解時(shí)會(huì)終止,所以一定要對(duì)數(shù)據(jù)樣本進(jìn)行改進(jìn),考察數(shù)據(jù)樣本信息的綜合比例分布情況,采取進(jìn)一步措施對(duì)K均值算法進(jìn)行改進(jìn)得到三個(gè)等級(jí)樣本,3數(shù)據(jù)挖掘算法流程3.1算法實(shí)現(xiàn)的流程算法實(shí)現(xiàn)流程。在K均值算法中,函數(shù)LoadPatterns的作用主要是將數(shù)據(jù)信息裝載到程序中,目的是為了從數(shù)據(jù)庫文件中讀取相關(guān)信息,并且將文件中的數(shù)據(jù)轉(zhuǎn)換成樣本數(shù)組。函數(shù)RunK-Means()的作用是算法的主程序,將所有對(duì)象同簇中心距離進(jìn)行對(duì)比,然后將對(duì)象劃分到最近的簇中。函數(shù)Show-Centers()代表算法所描述的.聚類中心。函數(shù)ShowClusters()表示樣本的標(biāo)識(shí)符號(hào)[4]。3.2主控程序RunKMeans()的調(diào)用從而找到最短距離的簇,然后運(yùn)用DistributeSam-ples()將所有對(duì)象劃分到最近的簇當(dāng)中,算出所有簇中對(duì)象的平均值,作為新的質(zhì)心,如果所有新的質(zhì)心不發(fā)生改變,則聚類結(jié)束。

  3聚類結(jié)果分析

  本文運(yùn)用K均值算法對(duì)120個(gè)數(shù)據(jù)通過數(shù)據(jù)轉(zhuǎn)換得到的樣本數(shù)據(jù)進(jìn)行分析,對(duì)管理態(tài)度、管理能力、管理方法、管理效果4個(gè)屬性進(jìn)行數(shù)據(jù)挖掘聚類,設(shè)置初始k值為3,最終挖掘到的結(jié)果.根據(jù)以上結(jié)果,每個(gè)簇所包括的數(shù)據(jù)樣本最后的比例分布范圍如下:簇1(較好)共計(jì)36個(gè)樣本,刪除定義樣本,剩余35個(gè)數(shù)據(jù)樣本,占35/117=30%。簇2(中等)共計(jì)74個(gè)樣本,刪除一個(gè)標(biāo)準(zhǔn)樣本,剩余73個(gè)數(shù)據(jù)樣本,占73/117=62%。簇3(較差)共計(jì)10個(gè)樣本,刪除一個(gè)標(biāo)準(zhǔn)樣本,剩余9個(gè)數(shù)據(jù)樣本,占9/117=8%“管理態(tài)度”=0.77*30%+0.61*62%+0.31*8%=0.634“管理能力”=0.77*30%+0.57*62%+0.31*8%=0.6092“管理方法”=0.74*30%+0.54*62%+0.28*8%=0.5792“管理效果”=0.79*30%+0.56*62%+0.30*8%=0.6082從總體得分由高到低排序?yàn)椋汗芾響B(tài)度、管理能力、管理效果、管理方法?傮w上證明該校的思政管理水平屬于中等偏上的。

  4總結(jié)

  數(shù)據(jù)挖掘,主要是通過對(duì)原始數(shù)據(jù)的分析、提煉,找到最優(yōu)價(jià)值的信息的過程,屬于一類深層次的數(shù)據(jù)分析方法。將數(shù)據(jù)挖據(jù)技術(shù)運(yùn)用在高校思想政治教育中,有利于對(duì)思政教育工作者的多項(xiàng)工作指標(biāo)進(jìn)行分析,對(duì)其綜合能力進(jìn)行評(píng)定,為高校進(jìn)一步完善思想政治教育管理決策,準(zhǔn)確定位人才培養(yǎng)目標(biāo),加強(qiáng)教育團(tuán)隊(duì)建設(shè)提供有效的數(shù)據(jù)依據(jù)。

  參考文獻(xiàn)

 。郏保輨(qiáng)珺,丁養(yǎng)斌.基于數(shù)據(jù)挖掘技術(shù)的高校思政教育管理研究[J].電子測(cè)試,2015(1):101-103.

 。郏玻莘跺肺鳎n松洋.思想政治教育在高校內(nèi)涵式發(fā)展中的重新定位[J].中共珠海市委黨校珠海市行政學(xué)院學(xué)報(bào),2015(4):50-54.

  [3]吳小龍,張麗麗.大數(shù)據(jù)視角下高校思想政治理論教育創(chuàng)新[J].江西理工大學(xué)學(xué)報(bào),2017(8):20-23.

 。郏矗堇钇綐s.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(5):159.

 。郏担菔嬲澹疁\談數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].中國(guó)西部科技,2010(2):148-150.

  作者:關(guān)翠玲 單位:陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院

數(shù)據(jù)挖掘論文9

  網(wǎng)絡(luò)的發(fā)展帶動(dòng)了電子商務(wù)市場(chǎng)的繁華,大量的商品、信息在現(xiàn)有的網(wǎng)絡(luò)平臺(tái)上患上以交易,大大簡(jiǎn)化了傳統(tǒng)的交易方式,節(jié)儉了時(shí)間,提高了效力,但電子市場(chǎng)繁華違后暗藏的問題,同樣成為人們關(guān)注的焦點(diǎn),凸起表現(xiàn)在海量信息的有效應(yīng)用上,如何更為有效的管理應(yīng)用潛伏信息,使他們的最大功效患上以施展,成為人們現(xiàn)在鉆研的重點(diǎn),數(shù)據(jù)發(fā)掘技術(shù)的發(fā)生,在必定程度上解決了這個(gè)問題,但它也存在著問題,需要不斷改善。

  數(shù)據(jù)發(fā)掘(Data Mining)就是從大量的、不完整的、有噪聲的、隱約的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事前不知道的、但又是潛伏有用的信息以及知識(shí)的進(jìn)程;蛘哒哒f是從數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識(shí)(KDD),并進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)融會(huì)(Data Fusion)和決策支撐的進(jìn)程。數(shù)據(jù)發(fā)掘是1門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的鉆研者,特別是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者以及工程技術(shù)人員。

  數(shù)據(jù)發(fā)掘技術(shù)在電子商務(wù)的利用

  一 找到潛伏客戶

  在對(duì)于 Web 的客戶走訪信息的發(fā)掘中, 應(yīng)用分類技術(shù)可以在Internet 上找到未來的潛伏客戶。使用者可以先對(duì)于已經(jīng)經(jīng)存在的走訪者依據(jù)其行動(dòng)進(jìn)行分類,并依此分析老客戶的1些公共屬性, 抉擇他們分類的癥結(jié)屬性及互相間瓜葛。對(duì)于于1個(gè)新的走訪者, 通過在Web 上的分類發(fā)現(xiàn), 辨認(rèn)出這個(gè)客戶與已經(jīng)經(jīng)分類的老客戶的1些公共的描寫, 從而對(duì)于這個(gè)新客戶進(jìn)行正確的分類。然后從它的分類判斷這個(gè)新客戶是有益可圖的客戶群仍是無利可圖的客戶群,抉擇是不是要把這個(gè)新客戶作為潛伏的客戶來對(duì)于待?蛻舻念愋涂隙ê, 可以對(duì)于客戶動(dòng)態(tài)地展現(xiàn) Web 頁面, 頁面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品以及服務(wù)之間的關(guān)聯(lián)。若為潛伏客戶, 就能夠向這個(gè)客戶展現(xiàn)1些特殊的、個(gè)性化的頁面內(nèi)容。

  二 實(shí)現(xiàn)客戶駐留

  在電子商務(wù)中, 傳統(tǒng)客戶與銷售商之間的空間距離已經(jīng)經(jīng)不存在, 在 Internet 上, 每一1個(gè)銷售商對(duì)于于客戶來講都是1樣的, 那末使客戶在自己的銷售站點(diǎn)上駐留更長(zhǎng)的時(shí)間, 對(duì)于銷售商來講則是1個(gè)挑戰(zhàn)。為了使客戶在自己的網(wǎng)站上駐留更長(zhǎng)的時(shí)間, 就應(yīng)當(dāng)全面掌握客戶的閱讀行動(dòng), 知道客戶的興致及需求所在, 并依據(jù)需求動(dòng)態(tài)地向客戶做頁面舉薦, 調(diào)劑 Web 頁面, 提供獨(dú)有的1些商品信息以及廣告, 以使客戶滿意, 從而延長(zhǎng)客戶在自己的網(wǎng)站上的駐留的時(shí)間。

  三 改良站點(diǎn)的設(shè)計(jì)

  數(shù)據(jù)發(fā)掘技術(shù)可提高站點(diǎn)的效力, Web 設(shè)計(jì)者再也不完整依托專家的定性指點(diǎn)來設(shè)計(jì)網(wǎng)站, 而是依據(jù)走訪者的信息特征來修改以及設(shè)計(jì)網(wǎng)站結(jié)構(gòu)以及外觀。站點(diǎn)上頁面內(nèi)容的支配以及連接就如超級(jí)市場(chǎng)中物品的貨架左右1樣, 把擁有必定支撐度以及信任度的相干聯(lián)的物品擺放在1起有助于銷售。網(wǎng)站盡量做到讓客戶等閑地走訪到想走訪的頁面, 給客戶留下好的印象, 增添下次走訪的機(jī)率。

  四 進(jìn)行市場(chǎng)預(yù)測(cè)

  通過 Web 數(shù)據(jù)發(fā)掘, 企業(yè)可以分析顧客的將來行動(dòng), 容易評(píng)測(cè)市場(chǎng)投資回報(bào)率, 患上到可靠的市場(chǎng)反饋信息。不但大大降低公司的運(yùn)營(yíng)本錢, 而且便于經(jīng)營(yíng)決策的制訂。

  數(shù)據(jù)發(fā)掘在利用中面臨的問題

  一數(shù)據(jù)發(fā)掘分析變量的選擇

  數(shù)據(jù)發(fā)掘的基本問題就在于數(shù)據(jù)的數(shù)量以及維數(shù),數(shù)據(jù)結(jié)構(gòu)顯的無比繁雜,數(shù)據(jù)分析變量即是在數(shù)據(jù)發(fā)掘中技術(shù)利用中發(fā)生的,選擇適合的分析變量,將提高數(shù)據(jù)發(fā)掘的效力,尤其合用于電子商務(wù)中大量商品和用戶信息的處理。

  針對(duì)于這1問題,咱們完整可以用分類的法子,分析出不同信息的屬性和呈現(xiàn)頻率進(jìn)而抽象出變量,運(yùn)用到所選模型中,進(jìn)行分析。

  二數(shù)據(jù)抽取的法子的選擇

  數(shù)據(jù)抽取的目的是對(duì)于數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描寫,如乞降值、平均值、方差值、等統(tǒng)計(jì)值、或者者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是1種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的進(jìn)程。可采取多維數(shù)據(jù)分析法子以及面向?qū)傩缘臍w納法子。

  在電子商務(wù)流動(dòng)中,采取維數(shù)據(jù)分析法子進(jìn)行數(shù)據(jù)抽取,他針對(duì)于的是電子商務(wù)流動(dòng)中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中時(shí)常要用到諸如乞降、共計(jì)、平均、最大、最小等匯集操作,這種操作的計(jì)算量尤其大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來,以便用于決策支撐系統(tǒng)使用

  三數(shù)據(jù)趨勢(shì)的預(yù)測(cè)

  數(shù)據(jù)是海量的,那末數(shù)據(jù)中就會(huì)隱含必定的.變化趨勢(shì),在電子商務(wù)中對(duì)于數(shù)據(jù)趨勢(shì)的預(yù)測(cè)尤為首要,尤其是對(duì)于客戶信息和商品信息公道的預(yù)測(cè),有益于企業(yè)有效的決策,取得更多地利潤(rùn)。但如何對(duì)于這1趨勢(shì)做出公道的預(yù)測(cè),現(xiàn)在尚無統(tǒng)1標(biāo)準(zhǔn)可尋,而且在進(jìn)行數(shù)據(jù)發(fā)掘進(jìn)程中大量數(shù)據(jù)構(gòu)成文本后格式的非標(biāo)準(zhǔn)化,也給數(shù)據(jù)的有效發(fā)掘帶來了難題。

  針對(duì)于這1問題的發(fā)生,咱們?cè)陔娮由虅?wù)中可以利用聚類分析的法子,把擁有類似閱讀模式的用戶集中起來,對(duì)于其進(jìn)行詳細(xì)的分析,從而提供更合適、更令用戶滿意的服務(wù)。聚類分析法子的優(yōu)勢(shì)在于便于用戶在查看日志時(shí)對(duì)于商品及客戶信息有全面及清晰的把握,便于開發(fā)以及執(zhí)行未來的市場(chǎng)戰(zhàn)略,包含自動(dòng)給1個(gè)特定的顧客聚類發(fā)送銷售郵件,為1個(gè)顧客聚類動(dòng)態(tài)地扭轉(zhuǎn)1個(gè)特殊的站點(diǎn)等,這不管對(duì)于客戶以及銷售商來講都是成心義。

  四數(shù)據(jù)模型的可靠性

  數(shù)據(jù)模型包含概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型。數(shù)據(jù)發(fā)掘的模型目前也有多種,包含采集模型、處理模型及其他模型,但不管哪一種模型都不是很成熟存在缺點(diǎn),對(duì)于數(shù)據(jù)模型不同采取不同的方式利用。可能發(fā)生不同的結(jié)果,乃至差異很大,因而這就觸及到數(shù)據(jù)可靠性的問題。數(shù)據(jù)的可靠性對(duì)于于電子商務(wù)來講尤為首要作用。

  針對(duì)于這1問題,咱們要保障數(shù)據(jù)在發(fā)掘進(jìn)程中的可靠性,保證它的準(zhǔn)確性與實(shí)時(shí)性,進(jìn)而使其在最后的結(jié)果中的準(zhǔn)確度到達(dá)最高,同時(shí)在利用模型進(jìn)程中要盡可能全面的分析問題,防止片面,而且分析結(jié)果要由多人進(jìn)行評(píng)價(jià),從而最大限度的保證數(shù)據(jù)的可靠性。

  五數(shù)據(jù)發(fā)掘觸及到數(shù)據(jù)的私有性以及安全性

  大量的數(shù)據(jù)存在著私有性與安全性的問題,尤其是電子商務(wù)中的各種信息,這就給數(shù)據(jù)發(fā)掘造成為了必定的阻礙,如何解決這1問題成了技術(shù)在利用中的癥結(jié)。

  為此相干人員在進(jìn)行數(shù)據(jù)發(fā)掘進(jìn)程中必定要遵照職業(yè)道德,保障信息的秘要性。

  六數(shù)據(jù)發(fā)掘結(jié)果的不肯定性

  數(shù)據(jù)發(fā)掘結(jié)果擁有不肯定性的特征,由于發(fā)掘的目的不同所以最后發(fā)掘的結(jié)果自然也會(huì)千差萬別,以因而這就需要咱們與所要發(fā)掘的目的相結(jié)合,做出公道判斷,患上出企業(yè)所需要的信息,便于企業(yè)的決策選擇。進(jìn)而到達(dá)提高企業(yè)經(jīng)濟(jì)效益,取得更多利潤(rùn)的目的。

  數(shù)據(jù)發(fā)掘可以發(fā)現(xiàn)1些潛伏的用戶,對(duì)于于電子商務(wù)來講是1個(gè)不可或者缺的技術(shù)支撐,數(shù)據(jù)發(fā)掘的勝利請(qǐng)求使用者對(duì)于指望解決問題的領(lǐng)域有深入的了解,數(shù)據(jù)發(fā)掘技術(shù)在必定程度上解決了電子商務(wù)信息不能有效應(yīng)用的問題,但它在運(yùn)用進(jìn)程中呈現(xiàn)的問題也亟待人們?nèi)ソ鉀Q。相信數(shù)據(jù)發(fā)掘技術(shù)的改良將推動(dòng)電子商務(wù)的深刻發(fā)展。

  參考文獻(xiàn):

  [一]胡迎松,寧海霞。 1種新型的Web發(fā)掘數(shù)據(jù)采集模型[J]。計(jì)算機(jī)工程與科學(xué),二00七

  [二] 章寒雁,楊瑞珍。數(shù)據(jù)發(fā)掘技術(shù)在電子商務(wù)中的鉆研與利用[J]。計(jì)算機(jī)與網(wǎng)絡(luò),二00七

  [三]董德民。 面向電子商務(wù)的Web使用發(fā)掘及其利用鉆研[J]。中國(guó)管理信息化,二00六

  [四] 尹中強(qiáng)。電子商務(wù)中的 Web 數(shù)據(jù)發(fā)掘技術(shù)利用[J]。計(jì)算機(jī)與信息技術(shù),二00七

數(shù)據(jù)挖掘論文10

  [摘要] 本文立足于web數(shù)據(jù)挖掘技術(shù),從個(gè)性化網(wǎng)站的設(shè)計(jì)、crm中的應(yīng)用和推薦系統(tǒng)中的應(yīng)用三個(gè)角度,分析了電子商務(wù)中的web數(shù)據(jù)挖掘應(yīng)用。

  [關(guān)鍵詞] 電子商務(wù) web 數(shù)據(jù)挖掘

  電子商務(wù)改變了人們傳統(tǒng)的商務(wù)模式,同時(shí),也改變了商家與顧客之間的關(guān)系?蛻暨x擇余地的擴(kuò)大使得他們更加關(guān)注商品的價(jià)值,而不象以前首先考慮品牌和地理因素。因此對(duì)銷售商而言盡可能的了解客戶的愛好、價(jià)值取向,才能在競(jìng)爭(zhēng)中立于不敗之地。數(shù)據(jù)挖掘技術(shù)可以有效地幫助銷售商理解客戶行為,提高站點(diǎn)的效率。在電子商務(wù)網(wǎng)站的設(shè)計(jì)、客戶關(guān)系管理(crm)、網(wǎng)絡(luò)營(yíng)銷等方面得到廣泛的應(yīng)用。

  一、數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計(jì)中的應(yīng)用

  數(shù)據(jù)挖掘可以得出諸如:什么客戶喜歡這個(gè)站點(diǎn)、客戶通過什么訪問路徑達(dá)成交易,以及客戶訪問站點(diǎn)的頻率等信息,從而優(yōu)化網(wǎng)站的結(jié)構(gòu)提高網(wǎng)站的訪問量,吸引更多的客戶。對(duì)于改進(jìn)網(wǎng)站設(shè)計(jì)、定制個(gè)性化頁面、判斷站點(diǎn)效率有著重要幫助。

  利用web數(shù)據(jù)挖掘技術(shù),個(gè)性化電子商務(wù)系統(tǒng)的實(shí)現(xiàn)過程包括信息采集、信息分析和個(gè)性化服務(wù)三個(gè)主要步驟:

  1.信息采集。收集客戶個(gè)人信息是提供個(gè)性化服務(wù)的基礎(chǔ)。收集個(gè)人信息主要有兩種方式。第一種方式是通過客戶注冊(cè)來獲得,這種方式可以得到客戶的性別、出生日期、最高學(xué)歷、家庭收入、婚姻狀況、職業(yè)等;第二種是通過客戶在網(wǎng)站上的行為來判斷個(gè)人的興趣愛好等特點(diǎn),從而獲得客戶個(gè)人信息。如果客戶經(jīng)常瀏覽某類產(chǎn)品或相關(guān)廣告,我們就可以知道客戶對(duì)這類產(chǎn)品感興趣。Www.133229.CoM

  2.信息分析。一個(gè)成功和完善的個(gè)性化電子商務(wù)網(wǎng)站應(yīng)該能夠在對(duì)客戶透明的`情況下,對(duì)客戶的資料、行為進(jìn)行分析,并盡量不影響客戶的頁面處理時(shí)間,對(duì)于耗時(shí)較多的分析、分類處理應(yīng)放在系統(tǒng)相對(duì)空閑和客戶退出網(wǎng)站等時(shí)間處理,減少客戶等待時(shí)間。信息分析過程如下:(1)將網(wǎng)站客戶群進(jìn)行分類,然后按照客戶群興趣特點(diǎn)進(jìn)行內(nèi)容設(shè)計(jì),并且將內(nèi)容相應(yīng)歸類;(2)定義客戶類別所對(duì)應(yīng)的內(nèi)容,即某類客戶最需要看到什么內(nèi)容;(3)分析客戶的行為和登錄資料,判別客戶所屬的類別;(4)客戶瀏覽網(wǎng)站不同頁面時(shí),以及提交購買定單時(shí),修改相應(yīng)行為資料。

  3.個(gè)性化服務(wù)。根據(jù)客戶類別顯示相應(yīng)的內(nèi)容給客戶,達(dá)到個(gè)性化服務(wù)的目的。為了使分類更具有可信性和穩(wěn)定性,對(duì)注冊(cè)時(shí)間較長(zhǎng),瀏覽及購買行為相對(duì)穩(wěn)定的客戶優(yōu)先抽樣。

  二、數(shù)據(jù)挖掘在crm中的應(yīng)用

  1.客戶的獲取。在大多數(shù)的商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場(chǎng)部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶,如開展大規(guī)模廣告活動(dòng);也可以根據(jù)所了解的目標(biāo)客戶群,將他們分類,然后進(jìn)行直銷活動(dòng)。但是當(dāng)數(shù)據(jù)量增大時(shí),即使有豐富經(jīng)驗(yàn)的市場(chǎng)人員想要選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會(huì)變得很困難,隨客戶數(shù)量不斷增長(zhǎng)和每位客戶的細(xì)節(jié)因素增多,要得出這樣的行為模式的復(fù)雜度也同樣增大。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。首先從一份潛在的客戶名單開始,列出可能對(duì)企業(yè)的產(chǎn)品或服務(wù)感興趣的消費(fèi)者的信息,通過調(diào)查和處理對(duì)這些信息進(jìn)行數(shù)據(jù)擴(kuò)展,并和一些外部信息匹配,使之更適合數(shù)據(jù)挖掘分析。然后進(jìn)行市場(chǎng)試驗(yàn)活動(dòng),根據(jù)所需要預(yù)測(cè)的客戶行為在一定范圍內(nèi)對(duì)客戶進(jìn)行試驗(yàn),記錄下客戶的反饋,稱之為“反應(yīng)行為模式”。剔除無反應(yīng)行為和反應(yīng)行為類別中重復(fù)的數(shù)據(jù)后,在確定細(xì)節(jié)粒度的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建出n元反應(yīng)行為預(yù)測(cè)模型。根據(jù)這個(gè)模型,可以將潛在的客戶排序,以便找出那些對(duì)企業(yè)的產(chǎn)品或服務(wù)最感興趣的客戶。

  2.客戶的保持。隨著行業(yè)中的競(jìng)爭(zhēng)愈來愈激烈和獲得一個(gè)新客戶的開支愈來愈大,保持原有客戶的工作也愈來愈有價(jià)值。在crm的實(shí)施中,企業(yè)通過預(yù)測(cè),找出可能會(huì)流失的客戶,并分析出主要有哪些因素導(dǎo)致他們想要離開,在此基礎(chǔ)上,有針對(duì)性地挽留那些有離開傾向的客戶。

  利用數(shù)據(jù)挖掘技術(shù),可以通過挖掘大量的客戶信息來構(gòu)建預(yù)測(cè)模型,較準(zhǔn)確地找出易流失客戶群,并制定相應(yīng)的方案,最大程度地保持住老客戶。數(shù)據(jù)挖掘技術(shù)中的決策樹技術(shù)能夠較好地應(yīng)用在這一方面。

  3.客戶的細(xì)分。細(xì)分是指將一個(gè)大的消費(fèi)群體劃分為一個(gè)個(gè)細(xì)分群體的動(dòng)作,同屬一個(gè)細(xì)分群的消費(fèi)者彼此相似,而隸屬于不同細(xì)分群的消費(fèi)者被視為不同的。通過crm的實(shí)施,將產(chǎn)生細(xì)分的客戶群,企業(yè)根據(jù)客戶提出的要求和實(shí)際所做的不斷地改善產(chǎn)品和服務(wù),從而使企業(yè)不斷提高使該客戶群滿意的能力。

  數(shù)據(jù)挖掘技術(shù)中的聚類分析技術(shù)能夠被運(yùn)用來從客戶信息數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征,達(dá)到細(xì)分客戶群的目的。根據(jù)客戶數(shù)據(jù)特點(diǎn),一般可采用聚類技術(shù)中的k平均算法來進(jìn)行劃分。其原理為將含原始客戶信息的數(shù)據(jù)庫劃分成k個(gè)聚簇,然后采用一定的算法使得同一簇中的對(duì)象是“相似的”,而不同簇中的是“相異的”。

  三、推薦系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)

  1.貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)技術(shù)利用訓(xùn)練集創(chuàng)建相應(yīng)的模型,模型用決策樹表示,節(jié)點(diǎn)和邊表示客戶信息。模型的建立可以離線進(jìn)行,一般需要數(shù)小時(shí)或數(shù)天,得到的模型非常小,對(duì)模型的使用非常快,這種方法適合客戶的興趣愛好變化比較慢的場(chǎng)合,推薦精度和最近鄰技術(shù)差不多。

  2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則既可用來分析商品間的參考模式,也可以向客戶推薦商品,提高交叉銷售能力。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以離線進(jìn)行,隨著商品數(shù)目的增加,規(guī)則的數(shù)量呈指數(shù)增加,但通過決策者對(duì)支持度和置信度的選擇,感興趣模式以及算法的選取,也可以高效實(shí)現(xiàn)。推薦精度比最近鄰技術(shù)略差。

  3.聚類分析。該技術(shù)將具有相似愛好、購物興趣的客戶分配到相同的族中,聚類產(chǎn)生之后,根據(jù)該族中其他客戶對(duì)某商品的評(píng)價(jià)就可以得到系統(tǒng)對(duì)該商品的評(píng)價(jià),聚類過程可以離線進(jìn)行,聚類產(chǎn)生之后,性能比較好,但如果某客戶處于一個(gè)聚類的邊緣,則對(duì)該客戶的推薦精度比較低,推薦精度比最近鄰技術(shù)略差。

  4.推薦系統(tǒng)要兼顧準(zhǔn)確性和實(shí)時(shí)性。一個(gè)好的系統(tǒng)可能是多種方法和技術(shù)的結(jié)合,取長(zhǎng)補(bǔ)短。譬如,可以把聚類分析作為最臨近算法的預(yù)處理,即通過聚類分析來減小候選集,最臨近算法就可以在一個(gè)較小的數(shù)據(jù)集合中進(jìn)行,從而提高了實(shí)時(shí)性。

  參考文獻(xiàn):

  [1]周彥暉:電子商務(wù)與web數(shù)據(jù)挖掘.計(jì)算機(jī)應(yīng)用.20xx(5)

  [2]董逸生:web挖掘研究綜述.計(jì)算機(jī)科學(xué),20xx(11)

數(shù)據(jù)挖掘論文11

  摘要:隨著計(jì)算機(jī)信息網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)挖掘在軟件工程中的地位越來越突出。軟件工程數(shù)據(jù)挖掘是在冗余的數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),從而得到更好地利用。社會(huì)的發(fā)展,科技的進(jìn)步使得社會(huì)進(jìn)入了網(wǎng)絡(luò)信息熱時(shí)代,隨之計(jì)算機(jī)軟件也不斷增加,人們獲取的信息大部分是人手動(dòng)操作軟件獲得的,這樣的信息量具有一定的局限性。因此,為了滿足當(dāng)今社會(huì)的需要,必須借助于軟件工程數(shù)據(jù)挖掘的手段。

  關(guān)鍵詞:軟件工程;數(shù)據(jù)挖掘;研究現(xiàn)狀

  中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(20xx)26-0020-02

  利用數(shù)據(jù)挖掘技術(shù)對(duì)大量冗余的數(shù)據(jù)進(jìn)行篩選從而得到少量精確的信息。冗余的數(shù)據(jù)是指既包含有用信息有包含無用信息,利用數(shù)據(jù)挖掘技術(shù)剔除掉多余的無用信息留下有用信息,這樣既可以提高手機(jī)數(shù)據(jù)的質(zhì)量又可以提高工作效率。所以,數(shù)據(jù)挖掘技術(shù)在當(dāng)前的軟件工程中起著越來越重要的作用。數(shù)據(jù)挖掘技術(shù)提取、篩選、分析和整理數(shù)據(jù)比人工操作軟件獲得的數(shù)據(jù)更精確更高效。同時(shí),使用這種技術(shù)為軟件開發(fā)者提供了有利的條件,它可以給軟件開發(fā)者提供一些對(duì)其開發(fā)軟件有用的信息。軟件開發(fā)者想要更有效率的開發(fā)出更高質(zhì)量的軟件,就必須獲得更多的更有用的數(shù)據(jù),而想要收集和整理出有用數(shù)據(jù)就需要借助數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn),進(jìn)而提高工作效率。

  1 數(shù)據(jù)挖掘的基本概述

  軟件工程數(shù)據(jù)主要是指開發(fā)軟件過程中所涉及的各類數(shù)據(jù),如需求分析、可行性分析、設(shè)計(jì)等文檔,開發(fā)商通信、軟件注釋、代碼、版本、測(cè)試用例和結(jié)果、使用說明、用戶反饋等信息數(shù)據(jù),一般情況下其是軟件開發(fā)者獲取軟件數(shù)據(jù)的唯一來源;而數(shù)據(jù)挖掘是指在海量數(shù)據(jù)中集中發(fā)現(xiàn)有用知識(shí)或信息的過程。

  軟件工程數(shù)據(jù)挖掘的工作原理 主要包括數(shù)據(jù)預(yù)處理階段、挖掘階段以及評(píng)估階段三個(gè)方面。在挖掘階段主要是運(yùn)用分類、統(tǒng)計(jì)、關(guān)聯(lián)、聚類、異常檢測(cè)等一系列算法的過程。在評(píng)估階段數(shù)據(jù)挖掘的意義主要在于其結(jié)果應(yīng)易被用戶理解,其結(jié)果評(píng)估主要有兩個(gè)環(huán)節(jié)分別是模式過濾和模式表示。

  數(shù)據(jù)挖掘在計(jì)算機(jī)軟件工程中的研究相當(dāng)多,它是分析數(shù)據(jù)的一種新穎方式。目前,隨著社會(huì)工作的復(fù)雜度,需要更加完善的軟件,因此對(duì)于軟件代碼的數(shù)量也在急劇增加進(jìn)而導(dǎo)致了數(shù)據(jù)量的快速增長(zhǎng)。而傳統(tǒng)的數(shù)據(jù)計(jì)算方式已經(jīng)不能滿足目前對(duì)于大量數(shù)據(jù)進(jìn)行分析的要求,所以,研究者希望能夠發(fā)掘出一種新的數(shù)據(jù)分析方式更高效的整理出有用的數(shù)據(jù)信息。軟件開發(fā)中會(huì)積累大量的數(shù)據(jù),比如說文本數(shù)據(jù),測(cè)試數(shù)據(jù),用戶信息數(shù)據(jù)以及用戶體驗(yàn)反饋數(shù)據(jù)等等,軟件開發(fā)者為了開發(fā)出更好的軟件就必須分析和整理這些數(shù)據(jù)。但是,目前軟件工程開發(fā)的軟件越來越大,其數(shù)據(jù)越累越復(fù)雜對(duì)于數(shù)據(jù)的處理已經(jīng)超出了人工處理的能力的范疇,所以說繼續(xù)使用傳統(tǒng)數(shù)據(jù)處理的方式來收集,整理和分析數(shù)據(jù)已經(jīng)不可能實(shí)現(xiàn)。因此,推動(dòng)了人們對(duì)于新的數(shù)據(jù)處理方式的研究,所以才提出了軟件工程數(shù)據(jù)挖掘技術(shù)。

  2 軟件工程數(shù)據(jù)挖掘的應(yīng)用

  隨著計(jì)算機(jī)軟件工程的發(fā)展,可以發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)具有很多的不足,存在一定的缺陷。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的定位系統(tǒng)不完善,定位不精確,并沒有體現(xiàn)出數(shù)據(jù)挖掘技術(shù)的高性能,它不足以滿足當(dāng)代對(duì)于數(shù)據(jù)處理的要求,因此需要對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行改進(jìn)和完善,這是我們目前的首要任務(wù)之一。為了迎合現(xiàn)代化網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,需要發(fā)掘出新的數(shù)據(jù)處理模式,就是在這樣的背景條件下,誕生了軟件工程數(shù)據(jù)挖掘技術(shù)。相比于存在很多缺陷與不足的傳統(tǒng)軟件工程而言,軟件工程數(shù)據(jù)挖掘技術(shù)更加簡(jiǎn)單、方便、高效以及精確。軟件工程數(shù)據(jù)挖掘技術(shù)并不需要特定的技術(shù)平臺(tái),體現(xiàn)了其普適性。當(dāng)前,我國(guó)已經(jīng)開始深入的研究軟件工程數(shù)據(jù)挖掘技術(shù),但是,仍然需要更深的開發(fā)其性能以便更好地滿足社會(huì)的需求。

  3 軟件工程數(shù)據(jù)挖掘面臨的挑戰(zhàn)

  軟件工程數(shù)據(jù)相比于普通數(shù)據(jù)更加復(fù)雜,所以對(duì)于軟件工程數(shù)據(jù)進(jìn)行處理具有很大的挑戰(zhàn)性。處理軟件工程的大量數(shù)據(jù)具有:軟件工程數(shù)據(jù)復(fù)雜性,軟件工程的數(shù)據(jù)處理非傳統(tǒng)以及需要嚴(yán)格精確的軟件工程數(shù)據(jù)的分析結(jié)果等三方面的困難。

  3.1 對(duì)數(shù)據(jù)復(fù)雜性的分析

  軟件工程數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。軟件工程中所產(chǎn)生的缺陷報(bào)告以及各種版本信息構(gòu)成了結(jié)構(gòu)化數(shù)據(jù)信息;而軟件工程處理過程中所產(chǎn)生的代碼信息和文本文檔信息構(gòu)成了非結(jié)構(gòu)化數(shù)據(jù)信息。由于這兩類數(shù)據(jù)包含的具體內(nèi)容不同,所以需要分別處理這兩種數(shù)據(jù),需要使用不同的算法對(duì)他們進(jìn)行處理。雖然說需要不同方式處理這兩種數(shù)據(jù)但是并不表示這兩種數(shù)據(jù)之間沒有任何聯(lián)系,事實(shí)上,它們之間存在著重要的對(duì)應(yīng)關(guān)系。例如:代碼中存在著缺陷報(bào)告,版本信息中存在著對(duì)應(yīng)的文檔信息,由于它們之間存在著這樣的對(duì)應(yīng)關(guān)系,所以使得人們不能很好地對(duì)其進(jìn)行整體分析,這就促使了人們開發(fā)出一種新的算法,新的數(shù)據(jù)分析技術(shù)能夠同時(shí)將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息這兩種對(duì)應(yīng)數(shù)據(jù)一起挖掘出來。

  3.2 對(duì)數(shù)據(jù)處理非傳統(tǒng)的分析

  分析和評(píng)估軟件工程數(shù)據(jù)挖掘出來的信息,這是數(shù)據(jù)挖掘過程的最后一步?蛻羰擒浖こ虜(shù)據(jù)挖掘數(shù)據(jù)處理的最后宿體,軟件開發(fā)者需要對(duì)最終挖掘出來的數(shù)據(jù)進(jìn)行轉(zhuǎn)變,格式轉(zhuǎn)變是為了滿足廣大客戶對(duì)于數(shù)據(jù)不同的要求。但是,由于需要對(duì)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)變,相當(dāng)于增加了一定的工作量,那么軟件工程數(shù)據(jù)挖掘的效率則會(huì)被大大降低。對(duì)于客戶而言,他們需要的信息各種各樣并不單一,比如說客戶可能會(huì)同時(shí)需要具體的例子和編程代碼等;或者說需要具體例子和缺陷報(bào)告等;或者三者皆需要。由此可見,我們?nèi)匀恍枰倪M(jìn)和完善軟件工程數(shù)據(jù)挖掘技術(shù)來提高其效率。怎樣才能做到讓客戶得到滿意的數(shù)據(jù)挖掘結(jié)果呢?那么就需要高效的`數(shù)據(jù)挖掘技術(shù)將各類信息進(jìn)行歸納總結(jié),改變其格式。這樣的技術(shù),不僅僅可以滿足客戶需求而且還可以使軟件開發(fā)者從中得到更大的利益。

  3.3 對(duì)數(shù)據(jù)挖掘結(jié)果好壞的評(píng)價(jià)標(biāo)準(zhǔn)

  對(duì)于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)而言,它也有一套自己的對(duì)于數(shù)據(jù)結(jié)果處理好壞的分析標(biāo)準(zhǔn),而這個(gè)標(biāo)準(zhǔn)對(duì)于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)處理的分析較準(zhǔn)確。但是,在當(dāng)前的軟件工程所要處理的數(shù)據(jù)量很大,傳統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)已經(jīng)不能滿足現(xiàn)在的數(shù)據(jù)分析要求;使用不同的數(shù)據(jù)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)判不同的數(shù)據(jù)挖掘結(jié)果。然而不同的評(píng)價(jià)標(biāo)準(zhǔn)之間的聯(lián)系并不緊密,因此就需要開發(fā)者針對(duì)不同的數(shù)據(jù)類型做出不同的評(píng)價(jià)分析標(biāo)準(zhǔn)以便滿足客戶需求。想要對(duì)數(shù)據(jù)分析結(jié)果是否準(zhǔn)確,數(shù)據(jù)挖掘的信息是否合理等等這些不同的問題進(jìn)行更加深刻的了解,就要求開發(fā)者有獨(dú)特的見解,對(duì)于數(shù)據(jù)結(jié)果是否精確有一定的判斷能力。總之,獲取準(zhǔn)確的信息就是軟件工程數(shù)據(jù)挖掘的目的。所以,最后獲得的數(shù)據(jù)是否滿足要求就是評(píng)判軟件工程數(shù)據(jù)挖掘結(jié)果是否完美的標(biāo)準(zhǔn)。endprint

  4 對(duì)軟件工程數(shù)據(jù)挖掘應(yīng)用進(jìn)行分析

  4.1 對(duì)軟件數(shù)據(jù)挖掘技術(shù)進(jìn)行分析

  在軟件開發(fā)的過程中,數(shù)據(jù)挖掘技術(shù)包括兩個(gè)方面:(1)程序編寫;(2)程序成果。在這個(gè)過程中,程序結(jié)構(gòu)和程序功能技術(shù)的主要作用就是檢索出有效的信息。提升信息的有效性需要聯(lián)系到客戶的實(shí)際需要,同時(shí)也需要對(duì)程序編寫過程進(jìn)行智能化培訓(xùn)。將調(diào)用、重載和多重繼承等關(guān)系家合起來進(jìn)行有效的記錄各種相關(guān)信息,重視靜態(tài)規(guī)則的同時(shí)利用遞歸測(cè)試的方式來分配工作,從而更有效的掌握關(guān)聯(lián)度之間的可信性。

  4.2 做好軟件維護(hù)中的軟件工程數(shù)據(jù)挖掘工作

  在軟件維護(hù)的過程中,軟件修復(fù)和軟件改善工作依賴于數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)在軟件缺陷以及軟件結(jié)構(gòu)等也起到了重要的作用。軟件修復(fù)即維護(hù)者通過依據(jù)缺陷分派進(jìn)行有效的評(píng)估并改善缺陷程序進(jìn)而確定修復(fù)級(jí)別或者維護(hù)者可以選擇缺陷修復(fù)方式,無論哪種方式最終目的都是進(jìn)行軟件修復(fù)來保證數(shù)據(jù)挖掘的高效性。缺陷分派即將缺陷轉(zhuǎn)化為文本類型,采取有效措施來進(jìn)行修復(fù)。但是,這樣的方式它的實(shí)際準(zhǔn)確率并不高,因而需要利用強(qiáng)化檢測(cè)來完善缺陷報(bào)告技術(shù)。

  4.3 注重高性能數(shù)據(jù)挖掘技術(shù)開發(fā)工作

  數(shù)據(jù)挖掘技術(shù)體現(xiàn)在軟件開發(fā)工作中的創(chuàng)新性不可或缺,在實(shí)際的工作過程中,目前的軟件工程數(shù)據(jù)挖掘更加重視兩個(gè)工作:(1)規(guī)則分析方式;(2)項(xiàng)目檢索工作。總而言之,想要高效快速地尋找病毒,并對(duì)其進(jìn)行全方位分析和評(píng)估得到準(zhǔn)確的病毒數(shù)據(jù)需要高性能數(shù)據(jù)挖掘技術(shù)。只有提升數(shù)據(jù)分析的可行性,提升軟件開發(fā)安全性能,才能更好地實(shí)現(xiàn)軟件工程的良好發(fā)展。

  5 總結(jié)

  綜上所述,數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛,比如說分析代碼、軟件故障檢測(cè)以及軟件項(xiàng)目管理等三個(gè)方面應(yīng)用較多。值得關(guān)注的是,當(dāng)前對(duì)于數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟。因此,研究者需要對(duì)軟件工程數(shù)據(jù)挖掘技術(shù)進(jìn)行深入的研究,從而能夠促進(jìn)軟件更好地開發(fā)和管理。相信在不久的將來,我們一定可以在數(shù)據(jù)挖掘方面取得非常好的優(yōu)化效果。

  參考文獻(xiàn):

  [1] 江義晟.軟件工程數(shù)據(jù)挖掘研究進(jìn)展[J].電子技術(shù)與軟件工程,20xx(22).

  [2] 胡金萍.探析軟件工程數(shù)據(jù)挖掘研究進(jìn)展[J].電腦知識(shí)與技術(shù),20xx(34).

  [3] 馬保平.關(guān)于對(duì)軟件工程中的數(shù)據(jù)挖掘技術(shù)的探討[J].電子技術(shù)與軟件工程,20xx(19).

  [4] 徐琳,王寧.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用分析[J].數(shù)字通信世界,20xx(8).

數(shù)據(jù)挖掘論文12

  從現(xiàn)狀看,數(shù)據(jù)挖掘范疇內(nèi)的技術(shù),慣常用于金融、大規(guī)模特性的商業(yè)之中。然而,企業(yè)預(yù)設(shè)的職員培訓(xùn),較少采納這一技術(shù)。對(duì)于搜集得來的培訓(xùn)信息,仍停留于建構(gòu)某一數(shù)據(jù)庫、單一情形下的數(shù)據(jù)查驗(yàn)。數(shù)據(jù)信息特有的決策價(jià)值,沒能充分被發(fā)覺。本文依循數(shù)據(jù)挖掘的本源原理,創(chuàng)設(shè)了新穎情形下的數(shù)據(jù)庫。采納挖掘手段,予以深入調(diào)研。數(shù)據(jù)挖掘得來的適宜結(jié)論,能為后續(xù)時(shí)段的培訓(xùn)規(guī)劃,提供最佳指引。

  1新穎技術(shù)的特性

  搜集得來的初始數(shù)據(jù)通常數(shù)目偏多,數(shù)據(jù)表征出來的不完整傾向應(yīng)當(dāng)被注重。原初的數(shù)據(jù)夾帶著噪聲,且?guī)в心:匦约半S機(jī)特性。數(shù)據(jù)挖掘依托著的手段,是從搜集得來的最初數(shù)據(jù)以內(nèi)提煉出潛藏著的、不被知曉的、帶有高層級(jí)價(jià)值這樣的信息、關(guān)聯(lián)著的知識(shí)等。慣用的挖掘方式包含關(guān)聯(lián)規(guī)則、建構(gòu)好的決策樹、神經(jīng)網(wǎng)絡(luò)及特有的貝葉斯、建構(gòu)的粗糙集、對(duì)應(yīng)著的模糊集、挖掘流程內(nèi)的聚類分析。細(xì)分出來的挖掘步驟整合了初始時(shí)段的數(shù)據(jù)預(yù)備、數(shù)值的選取、預(yù)處理特有的流程、側(cè)重的挖掘流程、模型更替及轉(zhuǎn)變、后續(xù)時(shí)段的挖掘評(píng)價(jià)。

  數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘是從大量的、不完整的、有噪聲的、模糊的和隨即的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、潛在的和有價(jià)值的信息和知識(shí)的過程。數(shù)據(jù)挖掘的技術(shù)最常用的數(shù)據(jù)挖掘技術(shù)主要有決策樹、關(guān)聯(lián)規(guī)則、貝葉斯、神經(jīng)網(wǎng)絡(luò)、聚類分析、模糊集和粗糙集等。數(shù)據(jù)挖掘的步驟數(shù)據(jù)的挖掘過程主要包括5個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、轉(zhuǎn)換模型及模式評(píng)價(jià)。

  2構(gòu)建數(shù)據(jù)庫

  數(shù)據(jù)挖掘特性的新穎技術(shù)不能脫離建構(gòu)起來的數(shù)據(jù)庫。它能從數(shù)目偏多的信息之內(nèi)提煉得來可用的數(shù)值。職員培訓(xùn)特有的領(lǐng)域以內(nèi),數(shù)據(jù)庫可以歸整在冊(cè)范疇的一切職員,對(duì)于獲取到的關(guān)聯(lián)結(jié)果予以辨識(shí)解析。數(shù)據(jù)庫存留著的信息之內(nèi)涵蓋基礎(chǔ)數(shù)據(jù)、培訓(xùn)得來的真正結(jié)果。

  2. 1擬定物理框架

  職員培訓(xùn)特有的數(shù)據(jù)庫,應(yīng)設(shè)定適宜情形下的物理模型。擬定好的物理模型是數(shù)據(jù)特有的'存留方式、多層級(jí)的數(shù)據(jù)組織。例如:某企業(yè)篩選出來的數(shù)據(jù)庫,帶有關(guān)系型這樣的特性。搭配的管理系統(tǒng)設(shè)定成SQL架構(gòu)下的server。

  2. 2擬定概念模型

  職員培訓(xùn)關(guān)涉的概念模型能夠明晰預(yù)設(shè)的系統(tǒng)界限,擬定根本主題。數(shù)據(jù)庫涵蓋著的根本信息是職員固有的自身信息、這一時(shí)段的培訓(xùn)成績(jī)。歸整好的這些信息凸顯了單一性,但又潛藏著某些關(guān)聯(lián)。采納數(shù)據(jù)倉庫,提煉并歸整這樣的數(shù)值,以便提煉得來決策依憑的可用信息。依循細(xì)分出來的職員特性、建構(gòu)的主題,把總體范疇內(nèi)的培訓(xùn)結(jié)果,分成多個(gè)層級(jí),并歸入數(shù)據(jù)庫。

  3選出來的運(yùn)用實(shí)例

  3. 1采納的關(guān)聯(lián)規(guī)則

  依循的評(píng)判指標(biāo),是體系架構(gòu)中的置信度、對(duì)應(yīng)著的支持度。必備的概率信息包含物品集特有的出現(xiàn)頻次。最小數(shù)值的支持度表征著篩選出來的這一項(xiàng)目,在統(tǒng)計(jì)之中凸顯了最低層級(jí)的重要價(jià)值。最小數(shù)值的置信度表征著設(shè)定好的這類規(guī)則,凸顯了不可靠的傾向。采納關(guān)聯(lián)規(guī)則,建構(gòu)精準(zhǔn)模型,以便解析某一時(shí)段的培訓(xùn)狀態(tài)。

  3. 2采納的模型

  抽取出來的數(shù)值涵蓋固有的職員信息、測(cè)試得來的成績(jī)等。采納預(yù)設(shè)的規(guī)則,操作這些數(shù)值。這樣做能夠明晰數(shù)值潛藏著的彼此關(guān)聯(lián),抽取得來的字段含有單位稱呼、職員個(gè)體姓名、微機(jī)處理特有的等級(jí)。

  3. 3具體的挖掘步驟

  預(yù)處理特有的時(shí)段中,為了辨識(shí)設(shè)定好的關(guān)聯(lián)規(guī)則,對(duì)于初始數(shù)據(jù)予以概念化。采納A這樣的符號(hào)來表征職員固有的年齡。這種情形之下,A (1)特有的信J息,表T年齡沒能達(dá)到25歲;A (2)表征著年齡涵蓋在25歲至35歲;A (3)表征著年齡超出了35歲。采納H這一符號(hào),表明測(cè)試特有的通過狀態(tài)。H (1)涵蓋著沒能通過的職員,H (2)涵蓋著通過的職員。經(jīng)山離散化特有的處理以后,得來最終結(jié)果。

  3. 4后續(xù)的挖掘步驟

  在測(cè)試之中,職員特有的通過人數(shù),總和5910;沒能通過的人數(shù),總和1810。沒能通過的概率,占到了22%。采納預(yù)定的關(guān)聯(lián)規(guī)則來挖掘這樣的數(shù)據(jù)。體系范疇內(nèi)的每類行為都設(shè)定了這一規(guī)則。這就表明輸入數(shù)值及對(duì)應(yīng)著的輸出之間帶有偏強(qiáng)的關(guān)聯(lián)。

  3. 5解析得來的結(jié)論

  數(shù)據(jù)特有的重要性,也即興趣度,能夠辨識(shí)頻繁項(xiàng)、設(shè)定好的規(guī)則等。依循降序排列可以獲取明晰的規(guī)則列表。例如某次解析得來這種結(jié)論:年齡超出50這樣的職員、工齡超出25這樣的職員或者高級(jí)別范疇內(nèi)的職員通過培訓(xùn)概率還是偏大的。與此同時(shí),學(xué)歷層級(jí)偏低的職員,通過等級(jí)與特有的學(xué)歷,凸顯了相關(guān)的傾向,這樣的對(duì)應(yīng)符合慣常的認(rèn)知。

  由此可見,學(xué)歷層級(jí)偏低這樣的職員在接納新認(rèn)知時(shí)能力是偏弱的。針對(duì)企業(yè)以內(nèi)的這類職員,在接續(xù)的培訓(xùn)之中應(yīng)多加注重。設(shè)定出來的培訓(xùn)形式,應(yīng)符合帶有差異特性的職員群體;劃分的培訓(xùn)時(shí)段應(yīng)傾向于認(rèn)知偏弱的職工。例如:可以添加課時(shí),調(diào)整預(yù)設(shè)的培訓(xùn)時(shí)段,保障體系以內(nèi)的這些職員,能參與擬定好的培訓(xùn)規(guī)劃。此外,對(duì)于接納能力偏強(qiáng)這樣的職工,可適當(dāng)縮減原有的課時(shí),縮減設(shè)定好的多樣科目。這樣做可縮減耗費(fèi)掉的培訓(xùn)經(jīng)費(fèi),并創(chuàng)設(shè)最優(yōu)情形下的整體效益。離散化情形下的數(shù)值處理驗(yàn)證了歸結(jié)出來的這一結(jié)論。

  4結(jié)語

  數(shù)據(jù)庫建構(gòu)依循的根本原理不能脫離數(shù)據(jù)挖據(jù)。企業(yè)培訓(xùn)之中,借助挖掘得來的多重信息,能夠解析各時(shí)段的培訓(xùn)成果。連續(xù)值固有的屬性,在設(shè)定好的挖掘流程內(nèi)得以離散化,這就為接續(xù)的深入挖掘提供了基礎(chǔ)。調(diào)整擬定好的培訓(xùn)規(guī)劃,確保預(yù)設(shè)的新規(guī)劃,符合職員培訓(xùn)特有的真實(shí)狀態(tài)。

數(shù)據(jù)挖掘論文13

  1、大數(shù)據(jù)概述

  大數(shù)據(jù)用來描述和定義信息爆炸時(shí)代所產(chǎn)生的海量數(shù)據(jù),它是計(jì)算機(jī)和互聯(lián)網(wǎng)互相結(jié)合的產(chǎn)物,計(jì)算機(jī)實(shí)現(xiàn)了信息的數(shù)字化,互聯(lián)網(wǎng)實(shí)現(xiàn)了信息的網(wǎng)絡(luò)共享化。隨之興起的則是從海量數(shù)據(jù)中挖掘預(yù)測(cè)出對(duì)人類行為有效的方法和結(jié)果,即數(shù)據(jù)挖掘技術(shù)[1]。數(shù)據(jù)挖掘(Datamining)指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程,是一門跨多個(gè)領(lǐng)域的交叉學(xué)科,通常與人工智能、模式識(shí)別及計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。其特點(diǎn)為:海量數(shù)據(jù)尋知識(shí)、集成變換度量值、分析模式評(píng)效果、圖形界面來展示[2]。

  2、大數(shù)據(jù)時(shí)代下的高校機(jī)房現(xiàn)狀

  順應(yīng)時(shí)代潮流的發(fā)展,各高校都開設(shè)有計(jì)算機(jī)專業(yè),非計(jì)算機(jī)專業(yè)也在大一或大二時(shí)期開設(shè)公共計(jì)算機(jī)課程,計(jì)算機(jī)成為教育領(lǐng)域內(nèi)不可或缺的教學(xué)設(shè)備,隨著高校的進(jìn)一步擴(kuò)招,教育事業(yè)的不斷更新發(fā)展,學(xué)校的機(jī)房建設(shè)也隨之增多,其任務(wù)由原來的面向計(jì)算機(jī)專業(yè)發(fā)展到面向全校的所有專業(yè)開設(shè)公共計(jì)算機(jī)教學(xué)、承擔(dān)各種計(jì)算機(jī)考試等多項(xiàng)任務(wù)。因此機(jī)房管理系統(tǒng)在日常教學(xué)和考試任務(wù)中積累了海量數(shù)據(jù),一般這些數(shù)據(jù)都保存在主服務(wù)器上僅供查詢使用[3]。利用數(shù)據(jù)挖掘技術(shù),對(duì)學(xué)校機(jī)房信息管理系統(tǒng)所積累的大量學(xué)生上機(jī)數(shù)據(jù)進(jìn)行深入分析與挖掘,將挖掘得到的預(yù)測(cè)結(jié)果輔助學(xué)生成績(jī)管理決策,能合理利用機(jī)房資源,提高學(xué)生成績(jī)管理質(zhì)量。本文利用關(guān)聯(lián)規(guī)則,從現(xiàn)有的機(jī)房信息管理系統(tǒng)中收集到的海量學(xué)生上機(jī)記錄數(shù)據(jù)中挖掘出隱藏在數(shù)據(jù)中的學(xué)生上機(jī)規(guī)律和上機(jī)效率,進(jìn)而預(yù)測(cè)學(xué)生的期末考試成績(jī),提前告知,學(xué)生可以在隨后的學(xué)習(xí)中通過人為干預(yù)學(xué)習(xí)過程:比如挖掘預(yù)測(cè)出某生成績(jī)將會(huì)較差,則可以在其后的學(xué)習(xí)中調(diào)整學(xué)習(xí)方式和學(xué)習(xí)態(tài)度,以修正期末考試結(jié)果,提高學(xué)習(xí)效率和考試通過率,為以后的就業(yè)做好鋪墊,因此不管是對(duì)于當(dāng)前利益還是長(zhǎng)遠(yuǎn)利益,都有深遠(yuǎn)的意義。

  3、數(shù)據(jù)挖掘階段

  1)定義問題:明確數(shù)據(jù)挖掘的'預(yù)期目標(biāo)。本次挖掘目標(biāo)旨在從海量機(jī)房學(xué)生登錄信息中找出能預(yù)測(cè)成績(jī)的相關(guān)規(guī)則。

  2)數(shù)據(jù)準(zhǔn)備:提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集,并進(jìn)行預(yù)處理[4]。本次挖掘數(shù)據(jù)對(duì)象為吉首大學(xué)設(shè)備中心六樓公共計(jì)算機(jī)機(jī)房的學(xué)生上機(jī)信息表,并檢查數(shù)據(jù)的有效性、一致性、完整性,并去除噪聲,進(jìn)行預(yù)處理。

  3)數(shù)據(jù)挖掘:根據(jù)上個(gè)步驟所提取數(shù)據(jù)的特點(diǎn)和類型選擇相應(yīng)合適的算法,并在預(yù)處理過的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。根據(jù)問題定義,本次選擇關(guān)聯(lián)規(guī)則算法Apriori算法,進(jìn)行關(guān)聯(lián)規(guī)則發(fā)現(xiàn)并預(yù)測(cè)。

  4)分析挖掘結(jié)果:解釋評(píng)價(jià)數(shù)據(jù)挖掘的結(jié)果,并將其轉(zhuǎn)換成能被用戶所理解的規(guī)則。

  5)運(yùn)用規(guī)則:通過分析挖掘結(jié)果,可以適當(dāng)進(jìn)行人工干預(yù),修正學(xué)習(xí)行為,使得最終結(jié)果達(dá)到理想學(xué)習(xí)效率。

  4、數(shù)據(jù)挖掘在機(jī)房管理系統(tǒng)中的應(yīng)用

  4.1關(guān)聯(lián)規(guī)則算法

  Apriori算法采用逐層搜索的迭代方法,不需要復(fù)雜的理論推導(dǎo),易于實(shí)現(xiàn),是利用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的一種算法。基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來[5]。

  4.2關(guān)聯(lián)結(jié)果分析

  以吉首大學(xué)實(shí)驗(yàn)室與設(shè)備管理中心為例,吉首大學(xué)實(shí)驗(yàn)室與設(shè)備管理中心下設(shè)置的公共計(jì)算機(jī)實(shí)驗(yàn)教學(xué)中心,負(fù)責(zé)學(xué)校公共計(jì)算機(jī)實(shí)驗(yàn)室建設(shè)與管理,組織實(shí)施公共計(jì)算機(jī)實(shí)驗(yàn)教學(xué)與開放,完成基于計(jì)算機(jī)平臺(tái)進(jìn)行的計(jì)算機(jī)等級(jí)考試、普通話測(cè)試、各類社會(huì)化考試等測(cè)試工作。其中承擔(dān)公共計(jì)算機(jī)教學(xué)的機(jī)房共有7間,每個(gè)機(jī)房平均配置95臺(tái)學(xué)生用計(jì)算機(jī)和一臺(tái)教師教學(xué)用計(jì)算機(jī),每臺(tái)電腦上都安裝有奧易機(jī)房管理軟件,學(xué)生每次上機(jī)都必須通過奧易軟件登錄界面輸入自己的學(xué)號(hào)和密碼才能進(jìn)入系統(tǒng)使用計(jì)算機(jī),從而收集到學(xué)生的上機(jī)登錄時(shí)間、離開時(shí)間,教師端可以利用奧易軟件對(duì)任意學(xué)生電腦端進(jìn)行調(diào)換、抓屏、控制屏幕、考試、答疑等操作,所有數(shù)據(jù)存儲(chǔ)在機(jī)房管理端的后臺(tái)數(shù)據(jù)庫中,通過調(diào)用后臺(tái)數(shù)據(jù)庫中的學(xué)生上機(jī)情況數(shù)據(jù),進(jìn)行挖掘分析。由于數(shù)據(jù)量龐大,所以采用從起始順序抽樣的方法,抽取出20xx年11月5日的部分學(xué)生上機(jī)的相關(guān)數(shù)據(jù),去除不完整、不一致、有缺失的數(shù)據(jù),進(jìn)行預(yù)處理,為達(dá)到預(yù)測(cè)挖掘目標(biāo)提供正確的數(shù)據(jù)源。表1中的數(shù)據(jù)前六列是從奧易軟件后臺(tái)數(shù)據(jù)庫中提取到的原始數(shù)據(jù),我們?cè)O(shè)置第二、三、五列數(shù)據(jù)與學(xué)習(xí)情況有關(guān)聯(lián)。將這些數(shù)據(jù)存在于整合表中,剔除學(xué)號(hào)異常的記錄,即只要是學(xué)號(hào)異常,強(qiáng)制設(shè)定其上機(jī)情況為較差(異常學(xué)號(hào)學(xué)生,應(yīng)為重修生,是學(xué)習(xí)重點(diǎn)關(guān)注對(duì)象),為了方便系統(tǒng)分析,將關(guān)聯(lián)整合后的數(shù)據(jù)轉(zhuǎn)化為布爾類型。登錄時(shí)間:S1:10:00;S2:遲到五分鐘;S3:遲到十分鐘;S4:遲到十分鐘以上。學(xué)號(hào):N1:正常學(xué)號(hào);N2:異常學(xué)號(hào)。下課時(shí)間:E1:正常下課時(shí)間;E2:提前五分鐘下課;E3:提前五至十分鐘下課;E4:提前十分鐘以上下課。利用關(guān)聯(lián)算法產(chǎn)生頻繁項(xiàng)集情況分析Q:Q1:優(yōu)秀;Q2:良好;Q3:一般;Q4:較差。利用Apriori算法挖掘關(guān)聯(lián)規(guī)則,可以得到學(xué)生上機(jī)情況規(guī)律:S1,E1→Q1;(S2,E2)/(S1,E2)→Q2/Q3;S4,E4→Q4評(píng)價(jià)結(jié)果:按照正常上課時(shí)間上機(jī)并且堅(jiān)持不早退的同學(xué)學(xué)習(xí)情況為優(yōu)秀;上課準(zhǔn)時(shí)但是提前五分鐘之內(nèi)下課的同學(xué)學(xué)習(xí)情況為良好;上課遲到五分鐘以內(nèi)且下課也提前五分鐘的同學(xué)學(xué)習(xí)情況為一般;上課遲到十分鐘以上并且下課早退十分鐘以上的同學(xué)學(xué)習(xí)評(píng)估為較差。如果利用關(guān)聯(lián)算法得出某個(gè)學(xué)生的學(xué)習(xí)情況有三次為較差,就啟動(dòng)成績(jī)預(yù)警,提示并干預(yù)該生以后的上機(jī)學(xué)習(xí),督促其學(xué)習(xí)態(tài)度,提高學(xué)習(xí)效率,以避免期末考試掛科現(xiàn)象。

  5、結(jié)束語

  借數(shù)據(jù)挖掘促進(jìn)治理主體多元化[6],借關(guān)聯(lián)分析實(shí)現(xiàn)決策科學(xué)化[7].,本文利用關(guān)聯(lián)規(guī)則思路和算法,將吉首大學(xué)設(shè)備中心機(jī)房中存在的大量學(xué)生上機(jī)情況數(shù)據(jù)進(jìn)行分析挖掘,嘗試從學(xué)生上機(jī)相關(guān)數(shù)據(jù)中預(yù)測(cè)其學(xué)習(xí)情況,并根據(jù)預(yù)測(cè)結(jié)果有效提示學(xué)生的期末考試成績(jī)走向,引導(dǎo)該生在隨后的學(xué)習(xí)應(yīng)該更加有效,以達(dá)到避免出現(xiàn)最壞結(jié)果,從而提高期末考試通過率。

  參考文獻(xiàn):

  [1]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),20xx(4):57-80.

  [2]王夢(mèng)雪.數(shù)據(jù)挖掘綜述[J].軟件導(dǎo)刊,20xx(10):135-137.

  [3]袁露,王映龍,楊珺.關(guān)于高校計(jì)算機(jī)機(jī)房管理與維護(hù)的探討[J].電腦知識(shí)與技術(shù),20xx(18):4334-4335.

  [4]李明江,唐穎,周力軍.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].中國(guó)新通信,20xx(22):66-67+74.

  [5]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計(jì)算機(jī)研究與發(fā)展,20xx(1):45-54.

  [6]黃夢(mèng)橋,李杰.因素挖掘法在投資學(xué)課程中的教學(xué)實(shí)踐[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,20xx(4):80-83.

  [7]尹鵬飛,歐云.基于決策樹算法的銀行客戶分類模型[J].吉首大學(xué)學(xué)報(bào):自然科學(xué)版,20xx(5):29-32.

數(shù)據(jù)挖掘論文14

  題目:檔案信息管理系統(tǒng)中的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)探討

  摘要:伴隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步和發(fā)展, 數(shù)據(jù)挖掘技術(shù)成為數(shù)據(jù)處理工作中的重點(diǎn)技術(shù), 能借助相關(guān)算法搜索相關(guān)信息, 在節(jié)省人力資本的同時(shí), 提高數(shù)據(jù)檢索的實(shí)際效率, 基于此, 被廣泛應(yīng)用在數(shù)據(jù)密集型行業(yè)中。筆者簡(jiǎn)要分析了計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 并集中闡釋了檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉庫的建立和技術(shù)實(shí)現(xiàn)過程, 以供參考。

  關(guān)鍵詞:檔案信息管理系統(tǒng); 計(jì)算機(jī); 數(shù)據(jù)挖掘技術(shù); 1 數(shù)據(jù)挖掘技術(shù)概述

  數(shù)據(jù)挖掘技術(shù)就是指在大量隨機(jī)數(shù)據(jù)中提取隱含信息, 并且將其整合后應(yīng)用在知識(shí)處理體系的技術(shù)過程。若是從技術(shù)層面判定數(shù)據(jù)挖掘技術(shù), 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術(shù)中, 整合商業(yè)數(shù)據(jù)提取和轉(zhuǎn)化機(jī)制, 并且建構(gòu)更加系統(tǒng)化的分析模型和處理機(jī)制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術(shù)能建構(gòu)完整的數(shù)據(jù)倉庫, 滿足集成性、時(shí)變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術(shù)框架結(jié)構(gòu)的完整性。

  目前, 數(shù)據(jù)挖掘技術(shù)常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應(yīng)用都十分廣泛。企業(yè)在實(shí)際工作過程中, 往往會(huì)利用數(shù)據(jù)源和數(shù)據(jù)預(yù)處理工具進(jìn)行數(shù)據(jù)定型和更新管理, 并且應(yīng)用聚類分析模塊、決策樹分析模塊以及關(guān)聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理。

  2 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉庫的建立

  2.1 客戶需求單元

  為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢(shì), 要結(jié)合客戶的實(shí)際需求建立完整的處理框架體系。在數(shù)據(jù)庫體系建立中, 要適應(yīng)迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過程能按照整體規(guī)劃有序進(jìn)行, 且能按照目標(biāo)和分析框架參數(shù)完成操作。首先, 要確立基礎(chǔ)性的數(shù)據(jù)倉庫對(duì)象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對(duì)日常工作中的用戶數(shù)據(jù)進(jìn)行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉庫分析的完整性。

  (1) 確定數(shù)據(jù)倉庫的基礎(chǔ)性用戶, 其中, 主要包括檔案工作人員和使用人員, 結(jié)合不同人員的工作需求建立相應(yīng)的數(shù)據(jù)倉庫。

  (2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進(jìn)行分類描述。

  (3) 確定檔案的基礎(chǔ)性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數(shù)等基礎(chǔ)性信息作為分類依據(jù)。

  2.2 數(shù)據(jù)庫設(shè)計(jì)單元

  在設(shè)計(jì)過程中, 要針對(duì)不同維度建立相應(yīng)的參數(shù)體系和組成結(jié)構(gòu), 并且有效整合組成事實(shí)表的主鍵項(xiàng)目, 建立框架結(jié)構(gòu)。

  第一, 建立事實(shí)表。事實(shí)表是數(shù)據(jù)模型的核心單元, 主要是記錄相關(guān)業(yè)務(wù)和統(tǒng)計(jì)數(shù)據(jù)的表, 能整合數(shù)據(jù)倉庫中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲(chǔ)存過程切實(shí)有效。 (1) 檔案管理中文書檔案目錄卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數(shù)目。 (2) 檔案管理中文書檔案卷數(shù)事實(shí)表:事實(shí)表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。

  第二, 建立維度表, 在實(shí)際數(shù)據(jù)倉庫建立和運(yùn)維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長(zhǎng)過程和完善過程, 有效實(shí)現(xiàn)數(shù)據(jù)庫模型設(shè)計(jì)以及相關(guān)維護(hù)操作。首先, 要對(duì)模式的基礎(chǔ)性維度進(jìn)行分析并且制作相應(yīng)的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構(gòu)數(shù)據(jù)庫星型模型體系。最后, 要集中判定數(shù)據(jù)庫工具, 保證數(shù)據(jù)庫平臺(tái)在客戶管理工作方面具備一定的優(yōu)勢(shì), 集中制訂商務(wù)智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉庫建模的效果, 真正提高數(shù)據(jù)抽取以及轉(zhuǎn)換工作的實(shí)際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過程中, 要分離文書檔案中的數(shù)據(jù), 相關(guān)操作如下:

  from dag gd temp//刪除臨時(shí)表中的數(shù)據(jù)

  Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數(shù)據(jù)導(dǎo)出到數(shù)據(jù)窗口

  Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時(shí)表

  相關(guān)技術(shù)人員要對(duì)數(shù)據(jù)進(jìn)行有效處理, 以保證相關(guān)數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預(yù)處理管理要求合理化進(jìn)行, 從根本上維護(hù)數(shù)據(jù)處理效果。

  2.3 多維數(shù)據(jù)模型建立單元

  在檔案多維數(shù)據(jù)模型建立的過程中, 相關(guān)技術(shù)人員要判定聯(lián)機(jī)分析處理項(xiàng)目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實(shí)際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢(shì)。

  第一, 檔案事實(shí)表中的數(shù)據(jù)穩(wěn)定, 事實(shí)表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類別和歸檔時(shí)間, 從而提高數(shù)據(jù)獨(dú)立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉庫信息的基本質(zhì)量, 也能追加時(shí)間判定標(biāo)準(zhǔn), 能在實(shí)際操作中減少掃描整個(gè)表浪費(fèi)的時(shí)間, 從根本上提高實(shí)際效率。另一方面, 能刪除數(shù)據(jù), 實(shí)現(xiàn)數(shù)據(jù)更新, 檢索相關(guān)關(guān)鍵詞即可。并且也能同時(shí)修改數(shù)據(jù), 維護(hù)檔案撤出和檔案追加的動(dòng)態(tài)化處理效果。

  第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關(guān)鍵, 由于其不會(huì)隨著時(shí)間的推移出現(xiàn)變化, 因此, 要對(duì)其進(jìn)行合理的處理和協(xié)調(diào)。維表本身的存儲(chǔ)空間較小, 盡管結(jié)構(gòu)發(fā)生變化的概率不大, 但仍會(huì)對(duì)代表的對(duì)象產(chǎn)生影響, 這就會(huì)使得數(shù)據(jù)出現(xiàn)動(dòng)態(tài)的變化。對(duì)于這種改變, 需要借助新維生成的方式進(jìn)行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時(shí), 也能對(duì)事實(shí)表外鍵進(jìn)行分析[2]。

  3 檔案信息管理系統(tǒng)計(jì)算機(jī)數(shù)據(jù)倉庫的實(shí)現(xiàn)

  3.1 描述需求

  隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)不斷進(jìn)步, 要提高檔案數(shù)字化水平以及完善信息化整合機(jī)制, 加快數(shù)據(jù)庫管控體系的更新, 確保設(shè)備存儲(chǔ)以及網(wǎng)絡(luò)環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預(yù)測(cè)項(xiàng)目中, 只有從根本上落實(shí)數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項(xiàng)目升級(jí)奠定堅(jiān)實(shí)基礎(chǔ)。另外, 在數(shù)據(jù)表和文書等基礎(chǔ)性數(shù)據(jù)結(jié)構(gòu)模型建立的基礎(chǔ)上, 要按照規(guī)律制定具有個(gè)性化的主動(dòng)性服務(wù)機(jī)制。

  3.2 關(guān)聯(lián)計(jì)算

  在實(shí)際檔案分析工作開展過程中, 關(guān)聯(lián)算法描述十分關(guān)鍵, 能對(duì)某些行為特征進(jìn)行統(tǒng)籌整合, 從而制定分析決策。在進(jìn)行關(guān)聯(lián)規(guī)則強(qiáng)度分析時(shí), 要結(jié)合支持度和置信度等系統(tǒng)化數(shù)據(jù)進(jìn)行綜合衡量。例如, 檔案數(shù)據(jù)庫中有A和B兩個(gè)基礎(chǔ)項(xiàng)集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時(shí)間出現(xiàn)的基礎(chǔ)性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關(guān)聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說明兩者的關(guān)聯(lián)度較高。另外, 在分析置信度時(shí), 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關(guān)系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關(guān)系的'關(guān)鍵, 若是置信度的數(shù)值達(dá)到100%, 則直接證明A和B能同一時(shí)間出現(xiàn)。

  3.3 神經(jīng)網(wǎng)絡(luò)算法

  除了要對(duì)檔案的實(shí)際內(nèi)容進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)庫建構(gòu), 也要對(duì)其利用情況進(jìn)行判定, 目前較為常見的利用率分析算法就是神經(jīng)網(wǎng)絡(luò)算法, 其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對(duì)象。值得注意的是, 在分類技術(shù)結(jié)構(gòu)中, 要結(jié)合訓(xùn)練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)算法類似于人腦系統(tǒng)的運(yùn)行結(jié)構(gòu), 能建立完整的信息處理單元, 并且能夠整合非線性交換結(jié)構(gòu), 確保能憑借歷史數(shù)據(jù)對(duì)計(jì)算模型和分類體系展開深度分析[3]。

  3.4 實(shí)現(xiàn)多元化應(yīng)用

  在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù), 能對(duì)檔案分類管理予以分析, 保證信息需求分類總結(jié)工作的完整程度。尤其是檔案使用者在對(duì)檔案具體特征進(jìn)行差異化分析的過程中, 能結(jié)合不同的元素對(duì)具體問題展開深度調(diào)研。一方面, 計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)借助決策樹算法處理規(guī)則化的檔案分析機(jī)制。在差異化訓(xùn)練體系中, 要對(duì)數(shù)據(jù)集合中的數(shù)據(jù)進(jìn)行系統(tǒng)化分析以及處理, 確保構(gòu)建要求能適應(yīng)數(shù)據(jù)挖掘的基本結(jié)構(gòu)[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術(shù)能整合檔案使用人員長(zhǎng)期瀏覽與關(guān)注的信息, 并且能集中收集和匯總間隔時(shí)間、信息查詢停留時(shí)間等, 從而建構(gòu)完整的數(shù)據(jù)分析機(jī)制, 有效向其推送或者是提供便捷化查詢服務(wù), 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 主要是對(duì)數(shù)據(jù)信息進(jìn)行分析, 結(jié)合基本結(jié)果建立概念模型, 保證模型以及測(cè)試樣本之間的比較參數(shù)符合標(biāo)準(zhǔn), 從而真正建立更加系統(tǒng)化的分類框架體系。

  4 結(jié)語

  總而言之, 在檔案管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù), 能在準(zhǔn)確判定用戶需求的同時(shí), 維護(hù)數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進(jìn)一步優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。并且, 數(shù)據(jù)庫的建立, 也能節(jié)省經(jīng)費(fèi)和設(shè)備維護(hù)成本, 真正實(shí)現(xiàn)數(shù)字化全面發(fā)展的目標(biāo), 促進(jìn)檔案信息管理工作的長(zhǎng)效進(jìn)步。

  參考文獻(xiàn)

  [1]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用, 20xx (9) :285.

  [2]王曉燕.數(shù)據(jù)挖掘技術(shù)在檔案信息管理中的應(yīng)用[J].蘭臺(tái)世界, 20xx (23) :25-26.

  [3]韓吉義.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)的構(gòu)筑[J].山西檔案, 20xx (6) :61-63.

  [4]哈立原.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館檔案信息管理平臺(tái)構(gòu)建[J].山西檔案, 20xx (5) :105-107.

  數(shù)據(jù)挖掘論文四: 題目:機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用

  摘要:隨著科學(xué)技術(shù)的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應(yīng)用。其中機(jī)器學(xué)習(xí)算法就是一則典型案例——作為一種新型的算法, 其廣泛應(yīng)用于各行各業(yè)之中。本篇論文旨在探討機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的具體應(yīng)用, 我們利用龐大的移動(dòng)終端數(shù)據(jù)網(wǎng)絡(luò), 加強(qiáng)了基于GSM網(wǎng)絡(luò)的戶外終端定位, 從而提出了3個(gè)階段的定位算法, 有效提高了定位的精準(zhǔn)度和速度。

  關(guān)鍵詞:學(xué)習(xí)算法; GSM網(wǎng)絡(luò); 定位; 數(shù)據(jù);

  移動(dòng)終端定位技術(shù)由來已久, 其主要是利用各種科學(xué)技術(shù)手段定位移動(dòng)物體的精準(zhǔn)位置以及高度。目前, 移動(dòng)終端定位技術(shù)主要應(yīng)用于軍事定位、緊急救援、網(wǎng)絡(luò)優(yōu)化、地圖導(dǎo)航等多個(gè)現(xiàn)代化的領(lǐng)域, 由于移動(dòng)終端定位技術(shù)可以提供精準(zhǔn)的位置服務(wù)信息, 所以其在市場(chǎng)上還是有較大的需求的, 這也為移動(dòng)終端定位技術(shù)的優(yōu)化和發(fā)展, 提供了推動(dòng)力。隨著通信網(wǎng)絡(luò)普及, 移動(dòng)終端定位技術(shù)的發(fā)展也得到了一些幫助, 使得其定位的精準(zhǔn)度和速度都得到了全面的優(yōu)化和提升。同時(shí), 傳統(tǒng)的定位方法結(jié)合先進(jìn)的算法來進(jìn)行精準(zhǔn)定位, 目前依舊還是有較大的進(jìn)步空間。在工作中我選取機(jī)器學(xué)習(xí)算法結(jié)合數(shù)據(jù)挖掘技術(shù)對(duì)傳統(tǒng)定位技術(shù)加以改進(jìn), 取得了不錯(cuò)的效果, 但也遇到了許多問題, 例如:使用機(jī)器學(xué)習(xí)算法來進(jìn)行精準(zhǔn)定位暫時(shí)無法滿足更大的區(qū)域要求, 還有想要利用較低的設(shè)備成本, 實(shí)現(xiàn)得到更多的精準(zhǔn)定位的要求比較困難。所以本文對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行了深入的研究, 希望能夠幫助其更快速的定位、更精準(zhǔn)的定位, 滿足市場(chǎng)的需要。

  1 數(shù)據(jù)挖掘概述

  數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫知識(shí)篩選中非常重要的一步。數(shù)據(jù)挖掘其實(shí)指的就是在大量的數(shù)據(jù)中通過算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會(huì)和計(jì)算機(jī)科學(xué)緊密聯(lián)系在一起, 通過統(tǒng)計(jì)集合、在線剖析、檢索篩選、機(jī)器學(xué)習(xí)、參數(shù)識(shí)別等多種方法來實(shí)現(xiàn)最初的目標(biāo)。統(tǒng)計(jì)算法和機(jī)器學(xué)習(xí)算法是數(shù)據(jù)挖掘算法里面應(yīng)用得比較廣泛的兩類。統(tǒng)計(jì)算法依賴于概率分析, 然后進(jìn)行相關(guān)性判斷, 由此來執(zhí)行運(yùn)算。

  而機(jī)器學(xué)習(xí)算法主要依靠人工智能科技, 通過大量的樣本收集、學(xué)習(xí)和訓(xùn)練, 可以自動(dòng)匹配運(yùn)算所需的相關(guān)參數(shù)及模式。它綜合了數(shù)學(xué)、物理學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)等多種學(xué)習(xí)理論, 雖然能夠應(yīng)用的領(lǐng)域和目標(biāo)各不相同, 但是這些算法都可以被獨(dú)立使用運(yùn)算, 當(dāng)然也可以相互幫助, 綜合應(yīng)用, 可以說是一種可以“因時(shí)而變”、“因事而變”的算法。在機(jī)器學(xué)習(xí)算法的領(lǐng)域, 人工神經(jīng)網(wǎng)絡(luò)是比較重要和常見的一種。因?yàn)樗膬?yōu)秀的數(shù)據(jù)處理和演練、學(xué)習(xí)的能力較強(qiáng)。

  而且對(duì)于問題數(shù)據(jù)還可以進(jìn)行精準(zhǔn)的識(shí)別與處理分析, 所以應(yīng)用的頻次更多。人工神經(jīng)網(wǎng)絡(luò)依賴于多種多樣的建模模型來進(jìn)行工作, 由此來滿足不同的數(shù)據(jù)需求。綜合來看, 人工神經(jīng)網(wǎng)絡(luò)的建模, 它的精準(zhǔn)度比較高, 綜合表述能力優(yōu)秀, 而且在應(yīng)用的過程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓(xùn)練數(shù)據(jù)的時(shí)候耗時(shí)較多, 知識(shí)的理解能力還沒有達(dá)到智能化的標(biāo)準(zhǔn), 但是, 相對(duì)于其他方式而言, 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)依舊是比較突出的。

  2 以機(jī)器學(xué)習(xí)算法為基礎(chǔ)的GSM網(wǎng)絡(luò)定位

  2.1 定位問題的建模

  建模的過程主要是以支持向量機(jī)定位方式作為基礎(chǔ), 把定位的位置柵格化, 面積較小的柵格位置就是獨(dú)立的一種類別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測(cè)量數(shù)據(jù), 然后利用計(jì)算機(jī)對(duì)測(cè)量報(bào)告進(jìn)行分析處理, 測(cè)量柵格的距離度量和精準(zhǔn)度, 然后對(duì)移動(dòng)終端柵格進(jìn)行預(yù)估判斷, 最終利用機(jī)器學(xué)習(xí)進(jìn)行分析求解。

  2.2 采集數(shù)據(jù)和預(yù)處理

  本次研究, 我們采用的模型對(duì)象是我國(guó)某一個(gè)周邊長(zhǎng)達(dá)10千米的二線城市。在該城市區(qū)域內(nèi), 我們測(cè)量了四個(gè)不同時(shí)間段內(nèi)的數(shù)據(jù), 為了保證機(jī)器學(xué)習(xí)算法定位的精準(zhǔn)性和有效性, 我們把其中的三批數(shù)據(jù)作為訓(xùn)練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓(xùn)練數(shù)據(jù)的相關(guān)信息進(jìn)行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時(shí)間內(nèi)進(jìn)行測(cè)量, 按照測(cè)量出的數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進(jìn)行換算, 最終, 得到真實(shí)的數(shù)據(jù)量, 提升定位的速度以及有效程度。

  2.3 以基站的經(jīng)緯度為基礎(chǔ)的初步定位

  用機(jī)器學(xué)習(xí)算法來進(jìn)行移動(dòng)終端定位, 其復(fù)雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類也相應(yīng)增加, 而且更加復(fù)雜, 所以, 利用機(jī)器學(xué)習(xí)算法來進(jìn)行移動(dòng)終端定位的過程, 會(huì)隨著定位區(qū)域面積的增大, 而耗費(fèi)更多的時(shí)間。利用基站的經(jīng)緯度作為基礎(chǔ)來進(jìn)行早期的定位, 則需要以下幾個(gè)步驟:要將邊長(zhǎng)為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關(guān)信息, 就要選擇對(duì)邊長(zhǎng)是一千米的小柵格進(jìn)行計(jì)算, 而如果是想要獲得邊長(zhǎng)一千米的大柵格, 就要對(duì)邊長(zhǎng)是一千米的柵格精心計(jì)算。

  2.4 以向量機(jī)為基礎(chǔ)的二次定位

  在完成初步定位工作后, 要確定一個(gè)邊長(zhǎng)為兩千米的正方形, 由于第一級(jí)支持向量機(jī)定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點(diǎn)的經(jīng)緯度數(shù)據(jù)信息, 相對(duì)于一級(jí)向量機(jī)的定位而言, 二級(jí)向量機(jī)在定位計(jì)算的時(shí)候難度是較低的, 更加簡(jiǎn)便。后期的預(yù)算主要依賴決策函數(shù)計(jì)算和樣本向量機(jī)計(jì)算。隨著柵格的變小, 定位的精準(zhǔn)度將越來越高, 而由于增加分類的問題數(shù)量是上升的, 所以, 定位的復(fù)雜度也是相對(duì)增加的。

  2.5 以K-近鄰法為基礎(chǔ)的三次定位

  第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴經(jīng)緯度來確定邊長(zhǎng)面積, 這些都是進(jìn)行區(qū)域定位的基礎(chǔ)性工作, 緊接著就是定位模型的訓(xùn)練。以K-近鄰法為基礎(chǔ)的三次定位需要的是綜合訓(xùn)練信息數(shù)據(jù), 對(duì)于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進(jìn)行篩選和合并, 這樣就能夠減少計(jì)算的重復(fù)性。當(dāng)然了, 選擇的區(qū)域面積越大, 其定位的速度和精準(zhǔn)性也就越低。

  3 結(jié)語

  近年來, 隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展和進(jìn)步, 數(shù)據(jù)挖掘技術(shù)愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過程中, 應(yīng)用機(jī)器學(xué)習(xí)算法具有舉足輕重的作用。作為一門多領(lǐng)域互相交叉的知識(shí)學(xué)科, 它能夠幫助我們提升定位的精準(zhǔn)度以及定位速度, 可以被廣泛的應(yīng)用于各行各業(yè)。所以, 對(duì)于機(jī)器學(xué)習(xí)算法, 相關(guān)人員要加以重視, 不斷的進(jìn)行改良以及改善, 切實(shí)的發(fā)揮其有利的方面, 將其廣泛應(yīng)用于智能定位的各個(gè)領(lǐng)域, 幫助我們解決關(guān)于戶外移動(dòng)終端的定位的問題。

  參考文獻(xiàn)

  [1]陳小燕, CHENXiaoyan.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].現(xiàn)代電子技術(shù), 20xx, v.38;No.451 (20) :11-14.

  [2]李運(yùn).機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[D].北京郵電大學(xué), 20xx.

  [3]莫雪峰.機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘中的應(yīng)用[J].科教文匯, 20xx (07) :175-178.

  數(shù)據(jù)挖掘論文五: 題目:軟件工程數(shù)據(jù)挖掘研究進(jìn)展

  摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價(jià)值信息數(shù)據(jù)的過程。計(jì)算機(jī)技術(shù)的不斷進(jìn)步, 通過人工的方式進(jìn)行軟件的開發(fā)與維護(hù)難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術(shù)的任務(wù)和存在的問題, 并重點(diǎn)論述軟件開發(fā)過程中出現(xiàn)的問題和相關(guān)的解決措施。

  關(guān)鍵詞:軟件工程; 數(shù)據(jù)挖掘; 解決措施;

  在軟件開發(fā)過程中, 為了能夠獲得更加準(zhǔn)確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時(shí)代, 人工獲取數(shù)據(jù)信息的難度極大。當(dāng)前, 軟件工程中運(yùn)用最多的就是數(shù)據(jù)挖掘技術(shù)。軟件挖掘技術(shù)是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個(gè)方面:

  (1) 在軟件工程中, 對(duì)有效數(shù)據(jù)的挖掘和處理;

  (2) 挖掘數(shù)據(jù)算法的選擇問題;

  (3) 軟件的開發(fā)者該如何選擇數(shù)據(jù)。

  1 在軟件工程中數(shù)據(jù)挖掘的主要任務(wù)

  在數(shù)據(jù)挖掘技術(shù)中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過程與傳統(tǒng)數(shù)據(jù)的挖掘無異。通常包括三個(gè)階段:第一階段, 數(shù)據(jù)的預(yù)處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對(duì)結(jié)果的評(píng)估。第一階段的主要任務(wù)有對(duì)數(shù)據(jù)的分類、對(duì)異常數(shù)據(jù)的檢測(cè)以及整理和提取復(fù)雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個(gè)方面:

  1.1 軟件工程的數(shù)據(jù)更加復(fù)雜

  軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報(bào)告, 另外一種是軟件的版本信息。當(dāng)然還包括一些軟件代碼和注釋在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復(fù)雜性的重要原因。

  1.2 數(shù)據(jù)分析結(jié)果的表現(xiàn)更加特殊

  傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果可以通過很多種結(jié)果展示出來, 最常見的有報(bào)表和文字的方式。但是對(duì)于軟件工程的數(shù)據(jù)挖掘來講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準(zhǔn)的案例, 軟件漏洞的實(shí)際定位以及設(shè)計(jì)構(gòu)造方面的信息, 同時(shí)也包括數(shù)據(jù)挖掘的統(tǒng)計(jì)結(jié)果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進(jìn)的結(jié)果提交方式和途徑。

  1.3 對(duì)數(shù)據(jù)挖掘結(jié)果難以達(dá)成一致的評(píng)價(jià)

  我國(guó)傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn), 而且評(píng)價(jià)體系相對(duì)成熟。但是軟件工程的數(shù)據(jù)挖掘過程中, 研發(fā)人員需要更多復(fù)雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對(duì)多樣化, 數(shù)據(jù)之間難以進(jìn)行對(duì)比, 所以也就難以達(dá)成一致的評(píng)價(jià)標(biāo)準(zhǔn)和結(jié)果。不難看出, 軟件工程數(shù)據(jù)挖掘的關(guān)鍵在于對(duì)挖掘數(shù)據(jù)的預(yù)處理和對(duì)數(shù)據(jù)結(jié)果的表示方法。

  2 軟件工程研發(fā)階段出現(xiàn)的問題和解決措施

  軟件在研發(fā)階段主要的任務(wù)是對(duì)軟件運(yùn)行程序的編寫。以下是軟件在編碼和結(jié)果的提交過程中出現(xiàn)的問題和相應(yīng)的解決措施。

  2.1 對(duì)軟件代碼的編寫過程

  該過程需要軟件的研發(fā)人員能夠?qū)ψ约盒枰帉懙拇a結(jié)構(gòu)與功能有充分的了解和認(rèn)識(shí)。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個(gè)方面:

  (1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;

  (2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關(guān)系等。

  (3) 軟件的開發(fā)人員搜尋可以重用的動(dòng)態(tài)規(guī)則。

  包括軟件的接口調(diào)用順序等。在尋找以上信息的過程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實(shí)現(xiàn), 但是以上方式在搜集信息過程中往往會(huì)遇到較多的問題, 比如:幫助文檔的準(zhǔn)確性較低, 同時(shí)不夠完整, 可利用的重用信息不多等。

  2.2 對(duì)軟件代碼的重用

  在對(duì)軟件代碼重用過程中, 最關(guān)鍵的問題是軟件的研發(fā)人員必須掌握需要的類或方法, 并能夠通過與之有聯(lián)系的代碼實(shí)現(xiàn)代碼的重用。但是這種方式哦足跡信息將會(huì)耗費(fèi)工作人員大量的精力。而通過關(guān)鍵詞在代碼庫中搜集可重用的軟件代碼, 同時(shí)按照代碼的相關(guān)度對(duì)搜集到的代碼進(jìn)行排序, 該過程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現(xiàn)出來的搜索結(jié)果是以上下文結(jié)構(gòu)的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實(shí)現(xiàn)的具體流程如下:

  (1) 軟件的開發(fā)人員創(chuàng)建同時(shí)具備例程和上下文架構(gòu)的代碼庫;

  (2) 軟件的研發(fā)人員能夠向代碼庫提供類的相關(guān)信息, 然后對(duì)反饋的結(jié)果進(jìn)行評(píng)估, 創(chuàng)建新型的代碼庫。

  (3) 未來的研發(fā)人員在搜集過程中能夠按照評(píng)估結(jié)果的高低排序, 便于查詢, 極大地縮減工作人員的任務(wù)量, 提升其工作效率。

  2.3 對(duì)動(dòng)態(tài)規(guī)則的重用

  軟件工程領(lǐng)域內(nèi)對(duì)動(dòng)態(tài)規(guī)則重用的研究已經(jīng)相對(duì)成熟, 通過在編譯器內(nèi)安裝特定插件的方式檢驗(yàn)代碼是否為動(dòng)態(tài)規(guī)則最適用的, 并能夠?qū)⒉贿m合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:

  (1) 軟件的研發(fā)人員能夠規(guī)定動(dòng)態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調(diào)用其他的函數(shù)。

  (2) 實(shí)現(xiàn)對(duì)相關(guān)數(shù)據(jù)的保存, 可以通過隊(duì)列等簡(jiǎn)單的數(shù)據(jù)結(jié)構(gòu)完成。在利用編譯拓展中檢測(cè)其中的順序。

  (3) 能夠?qū)㈠e(cuò)誤的信息反饋給軟件的研發(fā)人員。

  3 結(jié)束語

  在軟件工程的數(shù)據(jù)挖掘過程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術(shù)在軟件工程中的運(yùn)用能夠降低研發(fā)人員的工作量, 同時(shí)軟件工程與數(shù)據(jù)挖掘的結(jié)合是計(jì)算機(jī)技術(shù)必然的發(fā)展方向。從數(shù)據(jù)挖掘的過程來講, 在其整個(gè)實(shí)施過程和周期中都包括軟件工程。而對(duì)數(shù)據(jù)挖掘的技術(shù)手段來講, 它在軟件工程中的運(yùn)用更加普遍。在對(duì)數(shù)據(jù)挖掘技術(shù)的研究過程中可以發(fā)現(xiàn), 該技術(shù)雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進(jìn)一步的研究和發(fā)現(xiàn)。

  參考文獻(xiàn)

  [1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測(cè)試技術(shù)[J].電子技術(shù)與軟件工程, 20xx (18) :64.

  [2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術(shù)的運(yùn)用探索[J].數(shù)字通信世界, 20xx (09) :187.

  [3]周雨辰.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用研究[J].電腦迷, 20xx (08) :27-28.

  [4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術(shù)的應(yīng)用方式[J].中國(guó)新通信, 20xx, 19 (13) :119.

數(shù)據(jù)挖掘論文15

  摘要:隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)也應(yīng)運(yùn)而生。為了高效有序的醫(yī)療信息管理,需要加強(qiáng)數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息管理中的實(shí)際應(yīng)用,從而提升醫(yī)院的管理水平,為醫(yī)院的管理工作及資源的合理配置提供多樣化發(fā)展的可能性。筆者將針對(duì)數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息管理中的應(yīng)用這一課題進(jìn)行相應(yīng)的探究,從而提出合理的改進(jìn)建議。

  關(guān)鍵詞:挖掘技術(shù);醫(yī)療信息管理;應(yīng)用方式

  數(shù)據(jù)挖掘作為一種數(shù)據(jù)信息再利用的有效技術(shù),能夠有效地為醫(yī)院的管理決策提供重要信息。它以數(shù)據(jù)庫、人工智能以及數(shù)理統(tǒng)計(jì)為主要技術(shù)支柱進(jìn)行技術(shù)管理與決策。而在醫(yī)療信息管理過程之中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠較好地針對(duì)醫(yī)療衛(wèi)生信息進(jìn)行整理與歸類來建立管理模型,形成有效的總結(jié)數(shù)據(jù)的同時(shí)能夠?yàn)獒t(yī)療工作的高效進(jìn)行提供有價(jià)值的信息。所以筆者將以數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息管理中的應(yīng)用為著手點(diǎn),從而針對(duì)其應(yīng)用現(xiàn)狀進(jìn)行探究,以此提出加強(qiáng)數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息管理中應(yīng)用的具體措施,希望能夠在理論層面上推動(dòng)醫(yī)療信息管理工作的飛躍。

  1在醫(yī)療信息管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的基本內(nèi)涵

  數(shù)據(jù)挖掘是結(jié)合信息收集技術(shù)、人工智能處理技術(shù)以及分析檢測(cè)技術(shù)等所形成的功能強(qiáng)大的技術(shù)。它能夠?qū)崿F(xiàn)對(duì)于數(shù)據(jù)的收集、問題的定義與處理,并且能夠較好地對(duì)于結(jié)果進(jìn)行解釋與評(píng)估。在醫(yī)療信息管理工作進(jìn)行的過程之中,應(yīng)用數(shù)據(jù)挖掘技術(shù)可以較好地加強(qiáng)醫(yī)療信息數(shù)據(jù)模型的建立,同時(shí)以多種形式出現(xiàn),例如文字信息、基本信號(hào)信息、圖像收集等,也能夠用來進(jìn)行醫(yī)療信息的科普與宣傳。并且,數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息中所體現(xiàn)出的應(yīng)用方式有所不同,在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程之中,既可以針對(duì)同一類的實(shí)物反應(yīng)出共同性質(zhì)的基本特征,同時(shí)也能夠根據(jù)具有一定關(guān)聯(lián)性的事物信息來探究差異。這些功能不僅僅能夠在醫(yī)療信息的管理層面上給予醫(yī)療人員較大的信息管理指導(dǎo),同時(shí)在實(shí)際的醫(yī)療診斷過程之中,也可以向醫(yī)生提供患者的患病信息,并且輔助治療的進(jìn)行[1]。所以,在醫(yī)療信息管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)不僅僅能夠推動(dòng)醫(yī)療信息管理水平的提升,也是醫(yī)院實(shí)現(xiàn)現(xiàn)代化、信息化建設(shè)的重要體現(xiàn),需要從根本上明確醫(yī)療信息管理應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性與基本內(nèi)涵,從而針對(duì)醫(yī)院的管理現(xiàn)狀實(shí)現(xiàn)其管理方式與技術(shù)應(yīng)用的轉(zhuǎn)變與優(yōu)化。

  2在醫(yī)療信息管理過程之中加強(qiáng)數(shù)據(jù)挖掘技術(shù)應(yīng)用的重要措施

  2.1實(shí)現(xiàn)建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)的優(yōu)化

  在應(yīng)用數(shù)據(jù)挖掘技術(shù)的過程之中,必須基于數(shù)據(jù)庫信息的基礎(chǔ)之上,其數(shù)據(jù)挖掘技術(shù)才能夠進(jìn)行相應(yīng)的規(guī)律探究與信息分析,所以需要在源頭處加強(qiáng)數(shù)據(jù)收集環(huán)節(jié)以及建模環(huán)節(jié)的優(yōu)化。以醫(yī)院中醫(yī)部門為例,在對(duì)于中醫(yī)處方經(jīng)驗(yàn)的挖掘方法使用過程之中,需要針對(duì)不同的藥物進(jìn)行關(guān)聯(lián)性建模,比如數(shù)據(jù)庫中有基礎(chǔ)性藥物,針對(duì)藥物進(jìn)行頻數(shù)和次數(shù)的統(tǒng)計(jì),然后以此類推,將所有藥物都按照出現(xiàn)的頻數(shù)進(jìn)行降數(shù)排列,從而探究參考價(jià)值。建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)是醫(yī)療信息管理過程的根本,所以需要做好對(duì)于建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)的優(yōu)化,才能夠?yàn)閿?shù)據(jù)挖掘技術(shù)的應(yīng)用奠定相應(yīng)的基礎(chǔ)[2]。

  2.2細(xì)化數(shù)據(jù)挖掘技術(shù)應(yīng)用類別

  想要在醫(yī)療信息管理過程之中,加強(qiáng)對(duì)于數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用,就需要從數(shù)據(jù)挖掘技術(shù)應(yīng)用類別處進(jìn)行著手,從而提升技術(shù)應(yīng)用的針對(duì)性與有效性。常見的技術(shù)應(yīng)用類別有:醫(yī)院資源配置方面、病患區(qū)域管理方面、醫(yī)療衛(wèi)生質(zhì)量管理方面、醫(yī)療急診管理方面、醫(yī)院經(jīng)濟(jì)管理方面以及醫(yī)療衛(wèi)生常見病宣傳方面等,數(shù)據(jù)挖掘技術(shù)都可以在這些類別之中實(shí)現(xiàn)應(yīng)用,但是在應(yīng)用的過程之中也有所不同。以病房區(qū)域管理為例,在應(yīng)用數(shù)據(jù)挖掘技術(shù)之前,首先需要明確不同的科室狀況以及病房區(qū)域分配狀況等,加強(qiáng)病患區(qū)域的指標(biāo)分析,因?yàn)椴》抗芾聿粌H僅影響到科室的工作效率與工作效果,同時(shí)也是醫(yī)療物資分配與人員編制的'主要參考標(biāo)準(zhǔn)。其次利用數(shù)據(jù)挖掘技術(shù)能夠較好地實(shí)現(xiàn)不同科室工作效率、質(zhì)量管理質(zhì)量以及經(jīng)濟(jì)收益等多種指標(biāo)的評(píng)估,建立其科室的運(yùn)營(yíng)模型,從而實(shí)現(xiàn)科室的又好又快發(fā)展。比如使用數(shù)據(jù)挖掘技術(shù)建立其病區(qū)管理的標(biāo)準(zhǔn)模型以及統(tǒng)計(jì)指標(biāo),從而計(jì)算出科室動(dòng)態(tài)的工作模型以及病床動(dòng)態(tài)的周轉(zhuǎn)次數(shù)等[3]。另外在醫(yī)療質(zhì)量管理過程之中,數(shù)據(jù)挖掘技術(shù)提供的不僅僅是資料數(shù)據(jù)的參考以及疾病的診斷,也能夠針對(duì)臨床的治療效果進(jìn)行分析與評(píng)價(jià),并且能夠預(yù)測(cè)治療狀況:可以利用醫(yī)院的醫(yī)療數(shù)據(jù)庫,對(duì)于病人的基本患病信息進(jìn)行分類,從而比對(duì)死亡率、治愈率等多個(gè)數(shù)據(jù),實(shí)現(xiàn)治療方案的制訂。而在醫(yī)療質(zhì)量管理過程之中也有很多的影響因素,例如基礎(chǔ)醫(yī)療設(shè)備、病床周轉(zhuǎn)次數(shù)、病種治愈記錄等,所以也可以利用數(shù)據(jù)挖掘技術(shù)來進(jìn)一步加強(qiáng)其多種數(shù)據(jù)之間的關(guān)聯(lián)性,從而為提升醫(yī)院的社會(huì)效益與經(jīng)濟(jì)效益提出合理的參考性建議。

  2.3明確數(shù)據(jù)挖掘技術(shù)的應(yīng)用方向

  醫(yī)院加強(qiáng)數(shù)據(jù)挖掘技術(shù)應(yīng)用方向的探索上,可以從客戶拓展這個(gè)角度出發(fā)實(shí)現(xiàn)對(duì)于醫(yī)療信息管理。例如通過數(shù)據(jù)挖掘技術(shù)多方進(jìn)行患者信息比對(duì),同時(shí)制訂完善的醫(yī)療服務(wù)影響策略方式,加強(qiáng)對(duì)于客戶行為的分析;在數(shù)據(jù)挖掘的基礎(chǔ)之上,增強(qiáng)其技術(shù)應(yīng)用的實(shí)用性,在分析的基礎(chǔ)之上比對(duì)自身的競(jìng)爭(zhēng)優(yōu)勢(shì),實(shí)現(xiàn)醫(yī)院資源的合理規(guī)劃與合理配置,例如藥品、資金以及疾病診斷等,從而實(shí)現(xiàn)經(jīng)營(yíng)狀況的優(yōu)化。目前醫(yī)院也逐步向現(xiàn)代化、信息化方向發(fā)展,無論是信息管理還是醫(yī)療技術(shù)方面,醫(yī)院都已經(jīng)成為了一個(gè)信息化的綜合行業(yè)體系,所以在加強(qiáng)數(shù)據(jù)挖掘應(yīng)用的過程之中,還需要加強(qiáng)數(shù)據(jù)信息的管理,實(shí)現(xiàn)數(shù)據(jù)挖掘結(jié)果的維護(hù),從而提升醫(yī)院的決策能力,實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)的高效應(yīng)用。

  3結(jié)語

  醫(yī)院在目前的醫(yī)療信息管理過程之中,還有很大的發(fā)展空間,需要綜合利用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)其信息管理水平的提升。通過明確數(shù)據(jù)挖掘技術(shù)的應(yīng)用方向、應(yīng)用類別以及建模數(shù)據(jù)環(huán)節(jié)的優(yōu)化等,促進(jìn)醫(yī)院管理水平的提升,實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)應(yīng)用效果的提升.

  參考文獻(xiàn):

  [1]鄭勝前.數(shù)據(jù)挖掘技術(shù)在社區(qū)醫(yī)療服務(wù)系統(tǒng)中的應(yīng)用與研究[J].數(shù)字技術(shù)與應(yīng)用,20xx(09):81-82.

  [2]廖亮.數(shù)據(jù)挖掘技術(shù)在醫(yī)療信息管理中的應(yīng)用[J].中國(guó)科技信息,20xx(11):54,56.

  [3]牟勇.數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息化系統(tǒng)中應(yīng)用[J].電子測(cè)試,20xx(11):23-24,22.

【數(shù)據(jù)挖掘論文】相關(guān)文章:

數(shù)據(jù)挖掘論文07-15

數(shù)據(jù)挖掘論文07-16

數(shù)據(jù)挖掘論文(精品)07-29

數(shù)據(jù)挖掘論文常用15篇07-29

旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18

數(shù)據(jù)挖掘論文錦集(15篇)07-28

旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18

計(jì)算機(jī)數(shù)據(jù)庫論文07-28

關(guān)于大數(shù)據(jù)時(shí)代下的隱私保護(hù)探究論文04-14

基于大數(shù)據(jù)的江蘇省農(nóng)村電商建設(shè)不足與完善論文03-09