數(shù)據(jù)挖掘論文錦集(15篇)
在學習和工作的日常里,大家都跟論文打過交道吧,論文可以推廣經(jīng)驗,交流認識。那么問題來了,到底應(yīng)如何寫一篇優(yōu)秀的論文呢?下面是小編精心整理的數(shù)據(jù)挖掘論文,歡迎閱讀,希望大家能夠喜歡。
數(shù)據(jù)挖掘論文1
摘要:橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機械化的影響, 產(chǎn)量波動很大。本文對農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術(shù)的必要性進行了初步探究, 指出通過提取土壤圖像的特征, 用支持向量機的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤。
關(guān)鍵詞:橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機.
基金:廣東農(nóng)工商職業(yè)技術(shù)學院校級課題“基于數(shù)據(jù)挖掘技術(shù)的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱為四大工業(yè)原料。我國是全球最大的天然橡膠消費國和進口國, 國內(nèi)天然橡膠長期處于缺口狀態(tài), 需求的2/3依賴進口來滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動密集型產(chǎn)業(yè), 相對其他農(nóng)作物來說, 具有周期長、收益長等特點。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實際上是中國橡膠業(yè)發(fā)展的一個縮影, 一直是學術(shù)界研究的熱點。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤的數(shù)字化研究, 目前國內(nèi)還比較少。
1 引入數(shù)據(jù)挖掘技術(shù)的必要性
天然橡膠以其獨具的高彈性、高強度、高伸長率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強等特點, 始終處于不可替代的地位。我國天然橡膠需求量大, 近幾年一直處于供不應(yīng)求的狀態(tài)。造成這種局面的原因主要有以下兩點:一、國內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對種植地要求高, 如對土地的含碳、含氮、濕度等要求都很嚴格;容易受到寒害、蟲害、臺風的襲擊。橡膠的供應(yīng)不足阻礙了我國經(jīng)濟 (特別是輪胎行業(yè)) 的發(fā)展;诖吮尘跋, 本文通過數(shù)據(jù)挖掘技術(shù)對橡膠樹生長地的土壤進行評價研究, 為尋找出最適合橡膠樹生長的土壤和尋找橡膠樹種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊伍中。
2 數(shù)字化流程圖
2.1 樣本采集
研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時間要在晴天上午, 如果遇雨天, 則等2個晴天后再進行取樣。每個林齡段中隨機設(shè)置n個樣地:每個樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個層次拍攝土壤樣品, 每個層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。
2.2 特征提取
通過拍攝得到的土壤圖像, 由于圖像的維度過大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應(yīng)圖像本質(zhì)的一些關(guān)鍵指標, 以達到自動進行圖像識別的目的。
圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運用圖片的顏色特征和紋理特征建立圖片自動識別模型。
2.2.1 顏色特征
圖片的顏色特征用顏色矩表示。基于顏色矩提取圖像特征的數(shù)學基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來表示。顏色的矩包含各個顏色通道的一階矩、二階矩和三階矩, 對于一幅RGB顏色空間的'圖像, 具有R、G和B三個顏色通道, 共有9個分量。
2.2.2 紋理特征
圖片的紋理特征主要灰度共生矩陣里面中提取。因為紋理是由灰度分布在空間位置上反復交替變化而形成的, 因而在圖像空間中相隔某距離的兩個像素間一定存在一定的灰度關(guān)系, 稱為是圖像中灰度的空間相關(guān)特性。
其中L表示圖像的灰度級, i, j分別表示像素的灰度。d表示兩個像素間的空間位置關(guān)系。不同的d決定了兩個像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關(guān)系為d的兩個像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。
在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模。灰度共生矩陣的特征參數(shù)有二階距、對比度、相關(guān)、熵。
3 模型構(gòu)建
特征提取完之后, 用支持向量機算法對圖像進行圖片識別。根據(jù)識別出的結(jié)果就可以有針對性的對土壤做些有利于橡膠樹生長的干預(yù)工作, 如:如果識別出土壤缺少氮元素, 可以給土壤適當?shù)氖┬┑?如果識別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學指導意義。
4 結(jié)論
本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術(shù)的必要性, 對橡膠種植數(shù)字化研究做了初步闡述?梢越o橡膠業(yè)提供一定的參考意義。
參考文獻
[1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實踐.中國熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.
[2]李煒.廣東農(nóng)墾“走出去”做強做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.
[3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.
[4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應(yīng)用中的研究.浙江大學碩士學位論文, 20xx.
數(shù)據(jù)挖掘論文2
[摘要] 本文立足于web數(shù)據(jù)挖掘技術(shù),從個性化網(wǎng)站的設(shè)計、crm中的應(yīng)用和推薦系統(tǒng)中的應(yīng)用三個角度,分析了電子商務(wù)中的web數(shù)據(jù)挖掘應(yīng)用。
[關(guān)鍵詞] 電子商務(wù) web 數(shù)據(jù)挖掘
電子商務(wù)改變了人們傳統(tǒng)的商務(wù)模式,同時,也改變了商家與顧客之間的關(guān)系。客戶選擇余地的擴大使得他們更加關(guān)注商品的價值,而不象以前首先考慮品牌和地理因素。因此對銷售商而言盡可能的了解客戶的愛好、價值取向,才能在競爭中立于不敗之地。數(shù)據(jù)挖掘技術(shù)可以有效地幫助銷售商理解客戶行為,提高站點的效率。在電子商務(wù)網(wǎng)站的設(shè)計、客戶關(guān)系管理(crm)、網(wǎng)絡(luò)營銷等方面得到廣泛的應(yīng)用。
一、數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計中的應(yīng)用
數(shù)據(jù)挖掘可以得出諸如:什么客戶喜歡這個站點、客戶通過什么訪問路徑達成交易,以及客戶訪問站點的頻率等信息,從而優(yōu)化網(wǎng)站的結(jié)構(gòu)提高網(wǎng)站的訪問量,吸引更多的客戶。對于改進網(wǎng)站設(shè)計、定制個性化頁面、判斷站點效率有著重要幫助。
利用web數(shù)據(jù)挖掘技術(shù),個性化電子商務(wù)系統(tǒng)的實現(xiàn)過程包括信息采集、信息分析和個性化服務(wù)三個主要步驟:
1.信息采集。收集客戶個人信息是提供個性化服務(wù)的基礎(chǔ)。收集個人信息主要有兩種方式。第一種方式是通過客戶注冊來獲得,這種方式可以得到客戶的性別、出生日期、最高學歷、家庭收入、婚姻狀況、職業(yè)等;第二種是通過客戶在網(wǎng)站上的行為來判斷個人的興趣愛好等特點,從而獲得客戶個人信息。如果客戶經(jīng)常瀏覽某類產(chǎn)品或相關(guān)廣告,我們就可以知道客戶對這類產(chǎn)品感興趣。Www.133229.CoM
2.信息分析。一個成功和完善的個性化電子商務(wù)網(wǎng)站應(yīng)該能夠在對客戶透明的情況下,對客戶的資料、行為進行分析,并盡量不影響客戶的頁面處理時間,對于耗時較多的分析、分類處理應(yīng)放在系統(tǒng)相對空閑和客戶退出網(wǎng)站等時間處理,減少客戶等待時間。信息分析過程如下:(1)將網(wǎng)站客戶群進行分類,然后按照客戶群興趣特點進行內(nèi)容設(shè)計,并且將內(nèi)容相應(yīng)歸類;(2)定義客戶類別所對應(yīng)的內(nèi)容,即某類客戶最需要看到什么內(nèi)容;(3)分析客戶的行為和登錄資料,判別客戶所屬的類別;(4)客戶瀏覽網(wǎng)站不同頁面時,以及提交購買定單時,修改相應(yīng)行為資料。
3.個性化服務(wù)。根據(jù)客戶類別顯示相應(yīng)的內(nèi)容給客戶,達到個性化服務(wù)的目的。為了使分類更具有可信性和穩(wěn)定性,對注冊時間較長,瀏覽及購買行為相對穩(wěn)定的客戶優(yōu)先抽樣。
二、數(shù)據(jù)挖掘在crm中的應(yīng)用
1.客戶的獲取。在大多數(shù)的商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標包括新客戶的獲取能力。企業(yè)的市場部門人員可以采用傳統(tǒng)的方法來發(fā)展新客戶,如開展大規(guī)模廣告活動;也可以根據(jù)所了解的目標客戶群,將他們分類,然后進行直銷活動。但是當數(shù)據(jù)量增大時,即使有豐富經(jīng)驗的市場人員想要選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會變得很困難,隨客戶數(shù)量不斷增長和每位客戶的`細節(jié)因素增多,要得出這樣的行為模式的復雜度也同樣增大。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。首先從一份潛在的客戶名單開始,列出可能對企業(yè)的產(chǎn)品或服務(wù)感興趣的消費者的信息,通過調(diào)查和處理對這些信息進行數(shù)據(jù)擴展,并和一些外部信息匹配,使之更適合數(shù)據(jù)挖掘分析。然后進行市場試驗活動,根據(jù)所需要預(yù)測的客戶行為在一定范圍內(nèi)對客戶進行試驗,記錄下客戶的反饋,稱之為“反應(yīng)行為模式”。剔除無反應(yīng)行為和反應(yīng)行為類別中重復的數(shù)據(jù)后,在確定細節(jié)粒度的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建出n元反應(yīng)行為預(yù)測模型。根據(jù)這個模型,可以將潛在的客戶排序,以便找出那些對企業(yè)的產(chǎn)品或服務(wù)最感興趣的客戶。
2.客戶的保持。隨著行業(yè)中的競爭愈來愈激烈和獲得一個新客戶的開支愈來愈大,保持原有客戶的工作也愈來愈有價值。在crm的實施中,企業(yè)通過預(yù)測,找出可能會流失的客戶,并分析出主要有哪些因素導致他們想要離開,在此基礎(chǔ)上,有針對性地挽留那些有離開傾向的客戶。
利用數(shù)據(jù)挖掘技術(shù),可以通過挖掘大量的客戶信息來構(gòu)建預(yù)測模型,較準確地找出易流失客戶群,并制定相應(yīng)的方案,最大程度地保持住老客戶。數(shù)據(jù)挖掘技術(shù)中的決策樹技術(shù)能夠較好地應(yīng)用在這一方面。
3.客戶的細分。細分是指將一個大的消費群體劃分為一個個細分群體的動作,同屬一個細分群的消費者彼此相似,而隸屬于不同細分群的消費者被視為不同的。通過crm的實施,將產(chǎn)生細分的客戶群,企業(yè)根據(jù)客戶提出的要求和實際所做的不斷地改善產(chǎn)品和服務(wù),從而使企業(yè)不斷提高使該客戶群滿意的能力。
數(shù)據(jù)挖掘技術(shù)中的聚類分析技術(shù)能夠被運用來從客戶信息數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征,達到細分客戶群的目的。根據(jù)客戶數(shù)據(jù)特點,一般可采用聚類技術(shù)中的k平均算法來進行劃分。其原理為將含原始客戶信息的數(shù)據(jù)庫劃分成k個聚簇,然后采用一定的算法使得同一簇中的對象是“相似的”,而不同簇中的是“相異的”。
三、推薦系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)
1.貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)技術(shù)利用訓練集創(chuàng)建相應(yīng)的模型,模型用決策樹表示,節(jié)點和邊表示客戶信息。模型的建立可以離線進行,一般需要數(shù)小時或數(shù)天,得到的模型非常小,對模型的使用非常快,這種方法適合客戶的興趣愛好變化比較慢的場合,推薦精度和最近鄰技術(shù)差不多。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則既可用來分析商品間的參考模式,也可以向客戶推薦商品,提高交叉銷售能力。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以離線進行,隨著商品數(shù)目的增加,規(guī)則的數(shù)量呈指數(shù)增加,但通過決策者對支持度和置信度的選擇,感興趣模式以及算法的選取,也可以高效實現(xiàn)。推薦精度比最近鄰技術(shù)略差。
3.聚類分析。該技術(shù)將具有相似愛好、購物興趣的客戶分配到相同的族中,聚類產(chǎn)生之后,根據(jù)該族中其他客戶對某商品的評價就可以得到系統(tǒng)對該商品的評價,聚類過程可以離線進行,聚類產(chǎn)生之后,性能比較好,但如果某客戶處于一個聚類的邊緣,則對該客戶的推薦精度比較低,推薦精度比最近鄰技術(shù)略差。
4.推薦系統(tǒng)要兼顧準確性和實時性。一個好的系統(tǒng)可能是多種方法和技術(shù)的結(jié)合,取長補短。譬如,可以把聚類分析作為最臨近算法的預(yù)處理,即通過聚類分析來減小候選集,最臨近算法就可以在一個較小的數(shù)據(jù)集合中進行,從而提高了實時性。
參考文獻:
[1]周彥暉:電子商務(wù)與web數(shù)據(jù)挖掘.計算機應(yīng)用.20xx(5)
[2]董逸生:web挖掘研究綜述.計算機科學,20xx(11)
數(shù)據(jù)挖掘論文3
網(wǎng)絡(luò)經(jīng)濟的關(guān)鍵在于能夠為商品的供應(yīng)商及其合作者之間提供一個交流的平臺,但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁,并且這些Web都是沒有結(jié)構(gòu)的、動態(tài)的、復雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來解決這一問題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁中隱藏著的對用戶有力的數(shù)據(jù)信息,在對數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實現(xiàn)用戶對于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。
一、數(shù)據(jù)挖掘概述
。ㄒ唬⿺(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機的、復雜的、有噪聲的實際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識,能夠?qū)τ脩羝矶\潛在作用的效果的過程。將數(shù)據(jù)挖掘用通俗的話來描述就是在數(shù)據(jù)庫中發(fā)現(xiàn)潛在有用的知識發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機、不規(guī)則、噪聲;信息是客戶所感興趣的對象;選取的知識必須是在可接受、可理解、可運用的范圍內(nèi)的,并不是全部符合要求的都可以,對于問題要有一定的針對性。也就是說對于所發(fā)現(xiàn)的知識的篩選是有一定的約束和限制條件的,同時也要符合用戶的理解和學習能力,最好還能夠用通俗的語言來表達最終的結(jié)果。
。ǘ¦eb數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來說,Web數(shù)據(jù)挖掘的數(shù)據(jù)庫特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶感興趣并有所應(yīng)用潛能的知識。Web數(shù)據(jù)挖掘主要針對的就是頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)等內(nèi)在信息,通過數(shù)據(jù)挖掘技術(shù)來獲得有價值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫都是在一定的數(shù)學模型范圍之內(nèi)的,通過模型來描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫相對來講就要復雜許多,沒有通用的模型來描述數(shù)據(jù),每個網(wǎng)頁都有其獨特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來表達,也可以稱其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導致整一個數(shù)據(jù)庫成為一個巨大的異構(gòu)數(shù)據(jù)庫。
二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類型
。ㄒ唬┚W(wǎng)絡(luò)內(nèi)容挖掘
網(wǎng)絡(luò)內(nèi)容挖掘的對象是網(wǎng)頁的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁在急性搜索的時候需要考察的訪問對象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱之為WWW信息資源,存儲于數(shù)據(jù)庫管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。
。ǘ┚W(wǎng)絡(luò)結(jié)構(gòu)挖掘
網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時候借鑒了網(wǎng)頁鏈接和被鏈接數(shù)量以及對象。在網(wǎng)頁歸類的時候往往會采用這種模式,還能夠得到不同網(wǎng)頁間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。
。ㄈ┚W(wǎng)絡(luò)用法挖掘
網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對的是用戶在上網(wǎng)過程中的人機交互的第二手數(shù)據(jù),主要有用戶的網(wǎng)頁游覽記錄、代理服務(wù)器日志記錄、網(wǎng)頁維護信息、用戶簡介、注冊信息、聊天記錄、交易信息等等。
三、網(wǎng)絡(luò)經(jīng)濟環(huán)境下數(shù)據(jù)挖掘在工商管理中的運用步驟
。ㄒ唬┳R別網(wǎng)站訪問者的特征信息
企業(yè)對電子商務(wù)網(wǎng)站的數(shù)據(jù)進行挖掘的第一步,就是要明確訪問者的特點,找出訪問者使用的條款特征。訪問者特征主要有入口統(tǒng)計、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計并不是一成不變的,比如家庭地址、收入、購買力等因素都會不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個性類型,比如對商品的選擇去世、價格優(yōu)惠心理、技術(shù)興趣等。隨著訪問者數(shù)量的增加,相關(guān)數(shù)據(jù)也會不斷累積。條款的交互信息主要包括購買歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計信息是指每次會話的相關(guān)要素。公司信息主要包括訪問者對接的服務(wù)器所包含的一系列要素信息。
(二)制定目標
開展網(wǎng)上交易的最大優(yōu)勢在于企業(yè)對于訪問者的反應(yīng)有著更好的前瞻性。當廠商的目標是明確且具象的時候,就能夠通過數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通常可以設(shè)定以下的目標:網(wǎng)頁訪問者的增加量;類此網(wǎng)頁訪問的瀏覽時間增加;每次結(jié)賬的平均利潤;退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。
。ㄈ﹩栴}描述
開展電子商務(wù)的企業(yè)最關(guān)鍵要面對的一個問題就是如何進行商品的傳播,要實現(xiàn)網(wǎng)頁的個性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類訪問者的共有特征、估計貨物丟失的數(shù)據(jù)并預(yù)測未來行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
。ㄋ模╆P(guān)聯(lián)分析
對顧客大量的交易數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購買組合商品的趨勢。關(guān)聯(lián)分析指的是在一次瀏覽或者會話中所涉及到的商品,也叫做市場分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個網(wǎng)頁中,就能夠提高顧客同時購買這些商品的概率。如果在關(guān)聯(lián)的.一組商品中有某一項商品正在進行促銷,就能夠帶動其他組合產(chǎn)品的銷量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁的首頁。
(五)聚類
聚類指的是將具有相同特征的商品歸為一類,將特征平均,以形成一個“特征矢量”。聚類技術(shù)能夠確定一組數(shù)據(jù)有多少類,并用其中一個聚類來表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問者類型的時候使用聚類技術(shù)。
。Q策樹
決策樹描繪的是都想決定在做出的一系列過程中的問題或數(shù)據(jù)點。比如做出購買電視機這一決定就要經(jīng)歷對于電視機的需求、電視機的品牌、尺寸等等問題,最終確定好買哪一臺電視機為止。決策樹能夠較一個決策過程進行系統(tǒng)的排序,以便選出最優(yōu)的路徑來盡可能減少決策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問者解決特定問題。
。ㄆ撸┕烙嫼皖A(yù)測
估計是對未知量的判斷,預(yù)測是根據(jù)當前的趨勢做出將來的判斷。估計和預(yù)測使用的算法類似。估計能夠?qū)蛻艨瞻椎捻椖孔龅筋A(yù)判。如果網(wǎng)站想知道某個訪問者的收入,就可以通過與收入密切相關(guān)的量估計得到,最后通過與其有相同特征的訪問者的收入來衡量這個訪問者的收入和信用值。預(yù)測是對未來事項的判斷。尤其是在某些個性化網(wǎng)頁中顯得尤為重要。企業(yè)通過數(shù)據(jù)的匯總增進對客戶的了解。即使是對以往事件的分析中也可以得到有效的信息。預(yù)測能夠?qū)υL問者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對性的組合商品來滿足客戶的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,最大特點就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導致整一個數(shù)據(jù)庫成為一個巨大的異構(gòu)數(shù)據(jù)庫。能夠幫助用戶在特性是大量、隨機、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對象。
數(shù)據(jù)挖掘論文4
摘要:隨著我國社會經(jīng)濟的不斷發(fā)展,人力資源管理也受到越來越多人們的重視,然而在如今激烈的市場競爭下很多企業(yè)依然不重視人力資源管理,從而使得自身的整體工作效率不高。為此,筆者認為為了提高礦建人力資源管理的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來開展工作,從而讓整個企業(yè)在激烈的市場競爭中穩(wěn)定、長久發(fā)展下去。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);企業(yè)人力資源管理;應(yīng)用
1、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的現(xiàn)狀
隨著我國人力資源管理體系的不斷發(fā)展,隱藏在管理工作中的問題也被逐漸顯露出來,雖然很多企業(yè)的高層管理者對人力資源管理這塊已經(jīng)高度重視,但是企業(yè)往往是希望通過運用相關(guān)的系統(tǒng)來對人才進行管理,基于我國社會整體經(jīng)濟實力的不斷發(fā)展以及互聯(lián)網(wǎng)信息時代的到來,數(shù)據(jù)挖掘技術(shù)也受到越來越多的企業(yè)多關(guān)注,并紛紛采用該技術(shù)對自身人力資源進行管理,同時也將人力資源管理系統(tǒng)作為整個信息化建設(shè)過程中的核心部位,就數(shù)據(jù)調(diào)查顯示,數(shù)據(jù)挖掘技術(shù)已經(jīng)被國外很多軟件開放式引入自身的人力資源管理工作中,并使自身內(nèi)部逐步形成了一套完整的人力資源管理系統(tǒng)體系。除此之外,數(shù)據(jù)挖掘技術(shù)也被廣泛應(yīng)用在企業(yè)的基本人力資源檔案管理工作中,隨著信息技術(shù)時代的到來,以往傳統(tǒng)的計算機管理模式對人力資源管理效率往往并不高,為此,數(shù)據(jù)挖掘技術(shù)對企業(yè)人力資管理工作是百利而無一害的。
2、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中的應(yīng)用
2、1人才的招聘
任何企業(yè)在發(fā)展過程中都是離不開新鮮血液注入的,隨著目前我國市場經(jīng)濟競爭趨勢的不斷增長,企業(yè)要想穩(wěn)固發(fā)展必須要引入人力資源管理,只有這樣才能提高企業(yè)經(jīng)濟效益以及社會收益。為此,企業(yè)應(yīng)對人才進行招聘,這也是獲取人力資源的重要手段,通過采用數(shù)據(jù)挖掘技術(shù)來吸引社會中的各類人才,并采取有效的人才管理流程來對人才進行篩選,最終選擇質(zhì)量最佳的人才資源。與此同時,企業(yè)對人才招聘質(zhì)量的優(yōu)與良對自身內(nèi)部的員工、人類資源也會造成一定的影響,換句話來講,人才的招聘往往是企業(yè)人力資源管理工作開展的前期階段,然而在實際人才招聘過程中很多企業(yè)總是找不到合適的人選,同時也有大量的優(yōu)質(zhì)人才也很難找的適合自身的工作,這也就加大了企業(yè)人才招聘的難度,也進一步加大了招聘的`成本,為此,企業(yè)采取數(shù)據(jù)挖掘技術(shù)可以有效降低人才招聘的成本支出,從而使自身獲得更大的經(jīng)濟收益與社會利益。
2、2對人才的管理
隨著社會對人才需求量的不斷增加,企業(yè)對員工的數(shù)據(jù)記錄和管理方式也逐步優(yōu)化,然而在很多企業(yè)人力資源管理過程中仍然存在著諸多問題,而這些問題的存在對企業(yè)未來發(fā)展也產(chǎn)生阻礙作用。為了企業(yè)在未來發(fā)展道路上穩(wěn)固、長久發(fā)展,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來對人才進行管理,以往傳統(tǒng)的管理模式往往是對員工的基本信息以及日?己诉M行管理,這種管理方式已經(jīng)不適應(yīng)現(xiàn)在時代發(fā)展的趨勢,為此,礦建企業(yè)必要順應(yīng)當下時代的發(fā)展趨勢來采取有效的措施來對人力資源進行管理,現(xiàn)代化的管理模式主要強調(diào)的是對相關(guān)數(shù)據(jù)的分析和整理能力,通過對數(shù)據(jù)的分析來形成具有實際指導作用的總結(jié),從而為企業(yè)人力資源管理工作提供有價值的參考依據(jù)。例如,在實際人力資源管理過程中可以利用數(shù)據(jù)挖掘技術(shù)來對企業(yè)內(nèi)部員工的薪資水平進行分析,并對企業(yè)的成本控制提出有效的建議,也可以利用數(shù)據(jù)挖掘技術(shù)對企業(yè)中年紀較大的員工進行分析,并對其進行科學的評判,從而對其提出更有利的參考價值和依據(jù)。
2、3實現(xiàn)對企業(yè)人才的合理分配
隨著我國社會經(jīng)濟的不斷發(fā)展,人才的發(fā)展形勢也變得越來越“多元化”“個體化”。為此,筆者認為為了進一步提高礦建企業(yè)人力資源管理工作的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來對人才進行合理分配,并結(jié)合內(nèi)部員工的實際特點以及具體類型進行客觀性的評判,這對企業(yè)的人才資源管理以及未來發(fā)展無疑是百利無一害的。通過采取數(shù)據(jù)挖掘技術(shù)不僅可以實現(xiàn)對員工的共性以及特點進行分析,使每一位員工的信息資源、崗位職責得到有效劃分,同時也進一步實現(xiàn)對企業(yè)人才的合理分配。通過對數(shù)據(jù)信息的管理技術(shù)構(gòu)建實現(xiàn)對人員分組,從而使數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中得到有效利用,使其發(fā)揮最大的作用與價值,同時也進一步提高企業(yè)人力資源管理工作的效率和和質(zhì)量,最終推動企業(yè)穩(wěn)固、長久的發(fā)展。
3、結(jié)語
綜上所述,隨著社會經(jīng)濟的飛速發(fā)展,建設(shè)領(lǐng)域也得到逐步提高,然而在人力資源管理工作中依然存在著諸多問題,這些問題的存在也嚴重阻礙我國社會經(jīng)濟的穩(wěn)固發(fā)展。所以,只有充分采用數(shù)據(jù)挖掘技術(shù)來開展人力資源管理工作,才能提高企業(yè)的人力資源管理水平。
參考文獻:
。1]曾巍、數(shù)據(jù)挖掘在人力資源市場中的應(yīng)用與研究[D].吉林大學,20xx
。2]賴華強,王三銀,仲崇高、人力資源管理領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用展望———以基于灰色關(guān)聯(lián)模型的離職管理實證分析為例[J].江蘇商論.20xx(08):42—47
。3]馬秦,張江、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的研究[J].中國新通信,20xx.20(15):232
。4]孫明標、基于大數(shù)據(jù)挖掘技術(shù)下的企業(yè)人力資源管理研究[J].現(xiàn)代營銷(下旬刊).20xx(01):166
數(shù)據(jù)挖掘論文5
計算機技術(shù)的不斷發(fā)展,信息技術(shù)不斷加強,在社會新的發(fā)展趨勢下,以往的傳統(tǒng)管理模式落后于現(xiàn)代化發(fā)展的管理水平。為了創(chuàng)新檔案管理的模式,提高檔案管理的質(zhì)量,在現(xiàn)代檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù)。
1、信息挖掘技術(shù)
1.1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)是一種基于統(tǒng)計學、人工智能等等技術(shù)基礎(chǔ)上,能夠自動分析原有數(shù)據(jù),從而做出歸納整理,并對其潛在的模式進行挖掘的決策支持過程,簡單來說就是從一系列復雜的數(shù)據(jù)中提取人們需要的潛在性信息。
1.2數(shù)據(jù)挖掘技術(shù)的方法
二十世紀末,計算機挖掘技術(shù)產(chǎn)生。其一般用到的方法有:
。1)孤立點分析。孤立點分析法主要用于對于特殊信息的挖掘。
。2)聚類分析。聚類分析方法是在指定的對象中,對其價值聯(lián)系進行搜索。
。3)分類分析。分類分析就是找出具有一定特點的數(shù)據(jù),對需要解讀的數(shù)據(jù)進行識別。
。4)關(guān)聯(lián)性分析。關(guān)聯(lián)性分析方法是對指定數(shù)據(jù)中出現(xiàn)頻繁的數(shù)據(jù)進行挖掘。
。5)序列分析。與關(guān)聯(lián)性分析法一樣,由數(shù)據(jù)之間內(nèi)在的聯(lián)系得出潛在的關(guān)聯(lián)。
1.3計算機挖掘技術(shù)的形式分析
計算機挖掘技術(shù)在使用過程中,收集到的數(shù)據(jù)不同,數(shù)據(jù)收集的方法也就不同。在對數(shù)據(jù)挖掘技術(shù)進行形式分析的時候,主要用到:分類形式、粗糙集形式、相關(guān)規(guī)則形式。
2、計算機數(shù)據(jù)挖掘技術(shù)在檔案信息管理
系統(tǒng)中的應(yīng)用計算機挖掘技術(shù),能夠?qū)㈦[藏的信息挖掘出來并進行總結(jié)和利用,運用到檔案管理中來,在充分發(fā)揮挖掘技術(shù)作用的同時,極大的提高了檔案數(shù)據(jù)的利用價值。數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中,一般用到的方法為:
2.1收集法
該方法在對數(shù)據(jù)庫中的數(shù)據(jù)進行分析的基礎(chǔ)上,建立對已知數(shù)據(jù)詳細描述的概念模型。然后將每個測試的樣本與此模型進行比較,若有一個模型在測試中被認可,就可以以此模型對管理的對象分類。例如,檔案管理員就某事向客戶進行問卷調(diào)查并將答案輸入到數(shù)據(jù)庫中。在該數(shù)據(jù)庫中,對客戶的回答進行具體屬性描述,當有新的回答內(nèi)容輸入的時候,系統(tǒng)會自動對該客戶需求分類,在減輕管理員工作壓力的同時,提高了檔案管理的效率。
2.2保留法
該方法是防止老客戶檔案丟失并將客戶留住的過程。對于任何一個企業(yè)來說,發(fā)展一個新的客戶的成本要遠遠高于留住一個來客戶的成本。在客戶保留的`過程中,對客戶檔案流失原因的分析至關(guān)重要,因此,采用挖掘技術(shù)對其進行分析是必要的。
2.3分類法
通過計算機挖掘技術(shù)對檔案進行分類,按照不同的性質(zhì)進行系統(tǒng)的劃分,將所有相似或相通的檔案進行整理,在人們需要的時候,能夠快速的被提取出來,提高了檢索的效率和分類的專業(yè)性。
3、檔案管理引入計算機挖掘技術(shù)的必要性
計算機挖掘技術(shù)的應(yīng)用,對檔案管理方式的不斷完善有著極其重要的意義,其重要性主要體現(xiàn)在:
3.1對檔案的保護更全面
一部分具有歷史意義的檔案,隨著保存的時間不斷增加,其年代感加強,意義和價值增大。相應(yīng)的,利用的頻率會隨著利用的價值增加,也更容易被損壞從而導致檔案信息壽命折損,此外,管理不當造成泄密,使檔案失去了原本的利用價值,這種存在于檔案管理和利用之間的矛盾,使得檔案管理面臨著巨大的難題。挖掘技術(shù)的運用,緩解了這種矛盾,在檔案管理工作中具有重要的意義。
3.2提升檔案管理的質(zhì)量
在檔案信息管理系統(tǒng)中引入計算機挖掘技術(shù),使得檔案信息管理打破了傳統(tǒng)的模式,通過挖掘技術(shù),對管理的模式有了極大的創(chuàng)新,工作人員以往繁重的工作壓力得到釋放,時間和精力更加豐富,在對檔案管理的細節(jié)方面也就更加注意,同時也加快了對檔案的數(shù)據(jù)信息進行處理的速度,提升檔案管理的整體質(zhì)量。
4、結(jié)語
綜上所述,計算機數(shù)據(jù)挖掘技術(shù)涉及的內(nèi)容很廣,對挖掘技術(shù)的運用,使得各行各業(yè)的發(fā)展水平得到了很大的提高,推動社會經(jīng)濟的發(fā)展,帶動社會發(fā)展模式的創(chuàng)新。在檔案管理中使用計算機挖掘技術(shù),使得檔案信息保存的方法及安全性有了很大的提高。同時,也需要檔案信息管理人員在進行檔案信息管理的時候,能合理利用計算機信息挖掘技術(shù),在提高工作效率的同時,促進管理模式的不斷創(chuàng)新,以適應(yīng)時代發(fā)展的要求。
數(shù)據(jù)挖掘論文6
摘 要:數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運用,是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應(yīng)用前景,從而在眾多技術(shù)中脫穎而出。本文從對數(shù)據(jù)挖掘技術(shù)的初步了解,簡述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績分析,以及配合成績分析,完善教學。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);在線考試;成績分析 ;完善教學
隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展,計算機輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計學等學科的內(nèi)容,是一門綜合性的技術(shù)。這種技術(shù)的主要特點是對數(shù)據(jù)庫中大量的數(shù)據(jù)進行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實用性和高效性得到進一步的增強,幫助教師更加快速、完整的統(tǒng)計考試信息,完善教學。
1.初步了解數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對使用者有用的知識,即從大量的、隨機的、有噪聲的、模糊的、不完全的實際應(yīng)用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對人們潛在有用的信息與知識的整個過程。
目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。
2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)
2.1數(shù)據(jù)分類
數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的數(shù)據(jù)進行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠為每一個類別都做出一個準確的描述,挖掘出分類的規(guī)則或建立一個分類模型。
2.2數(shù)據(jù)關(guān)聯(lián)分析
數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是一項非常重要,并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對學校教學工作管理者有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習慣。
2.3預(yù)測
預(yù)測是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對未來的情況做出一個可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動在大型的數(shù)據(jù)庫中做出一個較為準確的分析。就像是在市場投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢。從而在投資中得到最大的`回報。
3.數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術(shù)融合了多個學科、多個領(lǐng)域的知識與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)的角度來講,光統(tǒng)計分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對那些異常形式的數(shù)據(jù)進行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計模型對這些數(shù)據(jù)來進行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
4.數(shù)據(jù)挖掘在考試成績分析中的幾點應(yīng)用
4.1運用關(guān)聯(lián)規(guī)則分析教師的年齡對學生考試成績的影響
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項集之間之間有意義的關(guān)聯(lián)聯(lián)系,幫助知道教師的教學過程。例如在如今的一些高職院校中,就往往會把學生的英語四六級過級率,計算機等級等,以這些為依據(jù)來評價教師的教學效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運用于考試的成績分析當中,就能夠挖掘出一些對學生過級率產(chǎn)生影響的因素,對教師的教學過程進行重要的指導,讓教師的教學效率更高,作用更強。
還可以通過關(guān)聯(lián)規(guī)則算法,先設(shè)定一個最小可信度和支持度,得到初步的關(guān)聯(lián)規(guī)則,根據(jù)相關(guān)規(guī)則,分析出教師的組成結(jié)構(gòu)和過級率的影響,從來進行教師隊伍的結(jié)構(gòu)調(diào)整,讓教師隊伍更加合理。
4.2采用分類算法探討對考試成績有影響的因素
數(shù)據(jù)挖掘技術(shù)中的分類算法就是對一組對象或一個事件進行歸類,然后通過這些數(shù)據(jù),可以進行分類模型的建立和未來的預(yù)測。分類算法可以進行考試中得到的數(shù)據(jù)進行分類,然后通過學生的一些基本情況進行探討一些對考試成績有影響的因素。分類算法可以用一下步驟實施:
4.2.1數(shù)據(jù)采集
這種方法首先要進行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學生基本信息(姓名、性別、學號、籍貫、所屬院系、專業(yè)、班級等)、學生調(diào)查信息(比如學習前的知識掌握情況、學習興趣、課堂學習效果、課后復習時間量等)、成績(學生平常學習成績,平常考試成績,各種大型考試成績等)、學生多次考試中出現(xiàn)的易錯點(本次考試中出現(xiàn)的易錯點,以往考試中出現(xiàn)的易錯點)
4.2.2數(shù)據(jù)預(yù)處理
。1)數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫技術(shù)生產(chǎn)相應(yīng)的學生考試成績分析基本數(shù)據(jù)庫。(2)數(shù)據(jù)清理。在學生成績分析數(shù)據(jù)庫中,肯定會出現(xiàn)一些情況缺失,對于這些空缺處,就需要使用數(shù)據(jù)清理技術(shù)來進行這些數(shù)據(jù)庫中數(shù)據(jù)的填補遺漏。例如,可以采用忽略元組的方法來刪除那些沒有參加考試的學生考試數(shù)據(jù)已經(jīng)在學生填寫的調(diào)查數(shù)據(jù)中村中的空缺項。(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進行進行數(shù)據(jù)的離散化操作。在這個過程中可以根據(jù)實際需要進行分類,比如把考試成績從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫,在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學生的基本學習情況的影響因素情況中,學生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學生基本成績分析數(shù)據(jù)表。
4.2.3利用數(shù)據(jù)挖掘技術(shù),得出結(jié)論
通過數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用,得出這些學生數(shù)據(jù)的相關(guān)分析,比如說學生考試中的易錯點在什么地方,學生考試成績的自身原因,學生考試成績的環(huán)境原因,教師隊伍的搭配情況等等,從中得出如何調(diào)整學校教學資源,教師的教學方案調(diào)整等等,從而完善學校對學生的教學。
5.結(jié)語
數(shù)據(jù)挖掘技術(shù)在社會各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術(shù)中還存在著一些問題,例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問題、模式識別和解釋等等。對于這些問題,學校教學管理工作者要清醒的認識,在在線考試系統(tǒng)中對數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長處,避免其在在線考試系統(tǒng)中的的缺陷。
參考文獻:
[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學生成績分析中的作用[J].荊門職業(yè)技術(shù)學院學報,20xx,12(22):12.
[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(shù)(第2版)[M]范明,譯.北京:機械工業(yè)出版社,20xx.
[3]王潔.《在線考試系統(tǒng)的設(shè)計與開發(fā)》[J].山西師范大學學報,20xx(2).
[4] 王長娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計算機與信息技術(shù),20xx(11)
數(shù)據(jù)挖掘論文7
1.軟件工程數(shù)據(jù)的挖掘測試技術(shù)
1.1代碼編寫
通過對軟件數(shù)據(jù)進行分類整理,在進行缺陷軟件的排除工作以后,根據(jù)軟件開發(fā)過程中的各種信息進行全新的代碼編寫;诖a編寫人員的編寫經(jīng)驗,在一般情況,對結(jié)構(gòu)功能與任務(wù)類似的模塊進行重新編寫,這些重新編寫的模塊應(yīng)遵循特定的編寫規(guī)則,這樣才能保證代碼編寫的合理有效性。
1.2錯誤重現(xiàn)
代碼編寫完成以后開發(fā)者會將這些代碼進行版本的確認,然后將正確有效的代碼實際應(yīng)用到適當版本的軟件中去。而對于存在缺陷的代碼,開發(fā)者需要針對代碼產(chǎn)生缺陷的原因進行分析,通過不但調(diào)整代碼內(nèi)的輸入數(shù)據(jù),直到代碼內(nèi)的數(shù)據(jù)與程序報告中的描述接近為止。存在缺陷的代碼往往會以缺陷報告的形式對開發(fā)者予以說明,由于缺陷報告的模糊性,常常會誤導開發(fā)者,進而造成程序設(shè)計混亂。
1.3理解行為
軟件開發(fā)者在設(shè)計軟件的過程中需要明確自己設(shè)計軟件中每一個代碼的內(nèi)容,同時還需要理解其他開發(fā)者編寫的代碼,這樣才能有效地完善軟件開發(fā)者的編寫技術(shù)。同時,軟件開發(fā)者在進行代碼編寫的過程中,需要對程序行為進行準確的理解,以此保證軟件內(nèi)文檔和注釋的準確性。
1.4設(shè)計推究
開發(fā)者在準備對軟件進行完善設(shè)計的過程中,首先需要徹底了解軟件的總體設(shè)計,對軟件內(nèi)部復雜的系統(tǒng)機構(gòu)進行詳細研究與分析,充分把握軟件細節(jié),這有這樣才能真正實現(xiàn)軟件設(shè)計的合理性與準確性。
2.軟件工程數(shù)據(jù)挖掘測試的有效措施
2.1進行軟件工程理念和方法上的創(chuàng)新
應(yīng)通過實施需求分析,將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程,在軟件開發(fā)理念上,加強對數(shù)據(jù)挖掘的重視,對軟件工程的架構(gòu)進行演化性設(shè)計與創(chuàng)新,利用新技術(shù),在軟件開發(fā)的過程中添加敏捷變成與間件技術(shù),由此,提高軟件編寫水平。
2.2利用人工智能
隨著我國科學技術(shù)的不斷發(fā)展與創(chuàng)新,機器學習已經(jīng)逐漸被我國各個領(lǐng)域所廣泛應(yīng)用,在進行軟件工程數(shù)據(jù)挖掘技術(shù)創(chuàng)新的.過程中,可以將機器學習及數(shù)據(jù)挖掘技術(shù)實際應(yīng)用于軟件工程中,以此為我國軟件研發(fā)提供更多的便捷。人工智能作為我國先進生產(chǎn)力的重要表現(xiàn),在實際應(yīng)用于軟件工程數(shù)據(jù)的挖掘工作時,應(yīng)該利用機器較強的學習能力與運算能力,將數(shù)據(jù)統(tǒng)計及數(shù)據(jù)運算通過一些較為成熟的方法進行解決。在軟件工程數(shù)據(jù)挖掘的工作中,合理化的將人工智能實際應(yīng)用于數(shù)據(jù)挖掘,以此為數(shù)據(jù)挖掘提供更多的開發(fā)測試技術(shù)。
2.3針對數(shù)據(jù)挖掘結(jié)果進行評價
通過分析我國傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測試工作,在很多情況下,傳統(tǒng)的數(shù)據(jù)挖掘測試技術(shù)無法做到對發(fā)掘數(shù)據(jù)的全面評價與實際應(yīng)用研究,這一問題致使相應(yīng)的軟件數(shù)據(jù)在被發(fā)掘出來以后無法得到有效地利用,進而導致我國軟件開發(fā)工作受到嚴重的抑制影響。針對這一問題,數(shù)據(jù)開發(fā)者應(yīng)該利用挖掘缺陷檢驗報告,針對缺陷檢驗的結(jié)果,制定相應(yīng)的挖掘結(jié)構(gòu)報告。同時,需要結(jié)合軟件用戶的體驗評價,對挖掘出的數(shù)據(jù)進行系統(tǒng)化的整理與分析,建立一整套嚴謹、客觀的服務(wù)體系,運用CodeCity軟件,讓用戶在的體驗過后可以對軟件進行評價。考慮到軟件的服務(wù)對象是人,因此,在軟件開發(fā)的過程中要將心理學與管理學應(yīng)用于數(shù)據(jù)挖掘,建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評價系統(tǒng)。
3.結(jié)束語
綜上所述,由于軟件工程數(shù)據(jù)挖掘測試技術(shù)廣闊的應(yīng)用前景,我國相關(guān)部門已經(jīng)加大了對軟件技術(shù)的投資與開發(fā)力度,當下,國內(nèi)已經(jīng)實現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識別等多種領(lǐng)域上的發(fā)展。
數(shù)據(jù)挖掘論文8
摘要:隨著計算機信息網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)挖掘在軟件工程中的地位越來越突出。軟件工程數(shù)據(jù)挖掘是在冗余的數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),從而得到更好地利用。社會的發(fā)展,科技的進步使得社會進入了網(wǎng)絡(luò)信息熱時代,隨之計算機軟件也不斷增加,人們獲取的信息大部分是人手動操作軟件獲得的,這樣的信息量具有一定的局限性。因此,為了滿足當今社會的需要,必須借助于軟件工程數(shù)據(jù)挖掘的手段。
關(guān)鍵詞:軟件工程;數(shù)據(jù)挖掘;研究現(xiàn)狀
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(20xx)26-0020-02
利用數(shù)據(jù)挖掘技術(shù)對大量冗余的數(shù)據(jù)進行篩選從而得到少量精確的信息。冗余的數(shù)據(jù)是指既包含有用信息有包含無用信息,利用數(shù)據(jù)挖掘技術(shù)剔除掉多余的無用信息留下有用信息,這樣既可以提高手機數(shù)據(jù)的質(zhì)量又可以提高工作效率。所以,數(shù)據(jù)挖掘技術(shù)在當前的軟件工程中起著越來越重要的作用。數(shù)據(jù)挖掘技術(shù)提取、篩選、分析和整理數(shù)據(jù)比人工操作軟件獲得的數(shù)據(jù)更精確更高效。同時,使用這種技術(shù)為軟件開發(fā)者提供了有利的條件,它可以給軟件開發(fā)者提供一些對其開發(fā)軟件有用的信息。軟件開發(fā)者想要更有效率的開發(fā)出更高質(zhì)量的軟件,就必須獲得更多的更有用的數(shù)據(jù),而想要收集和整理出有用數(shù)據(jù)就需要借助數(shù)據(jù)挖掘技術(shù)來實現(xiàn),進而提高工作效率。
1 數(shù)據(jù)挖掘的基本概述
軟件工程數(shù)據(jù)主要是指開發(fā)軟件過程中所涉及的各類數(shù)據(jù),如需求分析、可行性分析、設(shè)計等文檔,開發(fā)商通信、軟件注釋、代碼、版本、測試用例和結(jié)果、使用說明、用戶反饋等信息數(shù)據(jù),一般情況下其是軟件開發(fā)者獲取軟件數(shù)據(jù)的唯一來源;而數(shù)據(jù)挖掘是指在海量數(shù)據(jù)中集中發(fā)現(xiàn)有用知識或信息的過程。
軟件工程數(shù)據(jù)挖掘的工作原理 主要包括數(shù)據(jù)預(yù)處理階段、挖掘階段以及評估階段三個方面。在挖掘階段主要是運用分類、統(tǒng)計、關(guān)聯(lián)、聚類、異常檢測等一系列算法的過程。在評估階段數(shù)據(jù)挖掘的意義主要在于其結(jié)果應(yīng)易被用戶理解,其結(jié)果評估主要有兩個環(huán)節(jié)分別是模式過濾和模式表示。
數(shù)據(jù)挖掘在計算機軟件工程中的研究相當多,它是分析數(shù)據(jù)的一種新穎方式。目前,隨著社會工作的復雜度,需要更加完善的軟件,因此對于軟件代碼的數(shù)量也在急劇增加進而導致了數(shù)據(jù)量的快速增長。而傳統(tǒng)的數(shù)據(jù)計算方式已經(jīng)不能滿足目前對于大量數(shù)據(jù)進行分析的要求,所以,研究者希望能夠發(fā)掘出一種新的數(shù)據(jù)分析方式更高效的整理出有用的數(shù)據(jù)信息。軟件開發(fā)中會積累大量的數(shù)據(jù),比如說文本數(shù)據(jù),測試數(shù)據(jù),用戶信息數(shù)據(jù)以及用戶體驗反饋數(shù)據(jù)等等,軟件開發(fā)者為了開發(fā)出更好的軟件就必須分析和整理這些數(shù)據(jù)。但是,目前軟件工程開發(fā)的軟件越來越大,其數(shù)據(jù)越累越復雜對于數(shù)據(jù)的處理已經(jīng)超出了人工處理的能力的范疇,所以說繼續(xù)使用傳統(tǒng)數(shù)據(jù)處理的方式來收集,整理和分析數(shù)據(jù)已經(jīng)不可能實現(xiàn)。因此,推動了人們對于新的數(shù)據(jù)處理方式的研究,所以才提出了軟件工程數(shù)據(jù)挖掘技術(shù)。
2 軟件工程數(shù)據(jù)挖掘的應(yīng)用
隨著計算機軟件工程的發(fā)展,可以發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)具有很多的不足,存在一定的缺陷。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的定位系統(tǒng)不完善,定位不精確,并沒有體現(xiàn)出數(shù)據(jù)挖掘技術(shù)的高性能,它不足以滿足當代對于數(shù)據(jù)處理的要求,因此需要對傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進行改進和完善,這是我們目前的首要任務(wù)之一。為了迎合現(xiàn)代化網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,需要發(fā)掘出新的數(shù)據(jù)處理模式,就是在這樣的背景條件下,誕生了軟件工程數(shù)據(jù)挖掘技術(shù)。相比于存在很多缺陷與不足的傳統(tǒng)軟件工程而言,軟件工程數(shù)據(jù)挖掘技術(shù)更加簡單、方便、高效以及精確。軟件工程數(shù)據(jù)挖掘技術(shù)并不需要特定的技術(shù)平臺,體現(xiàn)了其普適性。當前,我國已經(jīng)開始深入的研究軟件工程數(shù)據(jù)挖掘技術(shù),但是,仍然需要更深的開發(fā)其性能以便更好地滿足社會的需求。
3 軟件工程數(shù)據(jù)挖掘面臨的挑戰(zhàn)
軟件工程數(shù)據(jù)相比于普通數(shù)據(jù)更加復雜,所以對于軟件工程數(shù)據(jù)進行處理具有很大的挑戰(zhàn)性。處理軟件工程的大量數(shù)據(jù)具有:軟件工程數(shù)據(jù)復雜性,軟件工程的數(shù)據(jù)處理非傳統(tǒng)以及需要嚴格精確的軟件工程數(shù)據(jù)的分析結(jié)果等三方面的困難。
3.1 對數(shù)據(jù)復雜性的分析
軟件工程數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。軟件工程中所產(chǎn)生的缺陷報告以及各種版本信息構(gòu)成了結(jié)構(gòu)化數(shù)據(jù)信息;而軟件工程處理過程中所產(chǎn)生的代碼信息和文本文檔信息構(gòu)成了非結(jié)構(gòu)化數(shù)據(jù)信息。由于這兩類數(shù)據(jù)包含的具體內(nèi)容不同,所以需要分別處理這兩種數(shù)據(jù),需要使用不同的算法對他們進行處理。雖然說需要不同方式處理這兩種數(shù)據(jù)但是并不表示這兩種數(shù)據(jù)之間沒有任何聯(lián)系,事實上,它們之間存在著重要的對應(yīng)關(guān)系。例如:代碼中存在著缺陷報告,版本信息中存在著對應(yīng)的文檔信息,由于它們之間存在著這樣的對應(yīng)關(guān)系,所以使得人們不能很好地對其進行整體分析,這就促使了人們開發(fā)出一種新的算法,新的數(shù)據(jù)分析技術(shù)能夠同時將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息這兩種對應(yīng)數(shù)據(jù)一起挖掘出來。
3.2 對數(shù)據(jù)處理非傳統(tǒng)的分析
分析和評估軟件工程數(shù)據(jù)挖掘出來的信息,這是數(shù)據(jù)挖掘過程的最后一步。客戶是軟件工程數(shù)據(jù)挖掘數(shù)據(jù)處理的最后宿體,軟件開發(fā)者需要對最終挖掘出來的數(shù)據(jù)進行轉(zhuǎn)變,格式轉(zhuǎn)變是為了滿足廣大客戶對于數(shù)據(jù)不同的要求。但是,由于需要對數(shù)據(jù)進行格式轉(zhuǎn)變,相當于增加了一定的工作量,那么軟件工程數(shù)據(jù)挖掘的效率則會被大大降低。對于客戶而言,他們需要的信息各種各樣并不單一,比如說客戶可能會同時需要具體的例子和編程代碼等;或者說需要具體例子和缺陷報告等;或者三者皆需要。由此可見,我們?nèi)匀恍枰倪M和完善軟件工程數(shù)據(jù)挖掘技術(shù)來提高其效率。怎樣才能做到讓客戶得到滿意的數(shù)據(jù)挖掘結(jié)果呢?那么就需要高效的數(shù)據(jù)挖掘技術(shù)將各類信息進行歸納總結(jié),改變其格式。這樣的技術(shù),不僅僅可以滿足客戶需求而且還可以使軟件開發(fā)者從中得到更大的利益。
3.3 對數(shù)據(jù)挖掘結(jié)果好壞的評價標準
對于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)而言,它也有一套自己的對于數(shù)據(jù)結(jié)果處理好壞的分析標準,而這個標準對于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)處理的分析較準確。但是,在當前的軟件工程所要處理的數(shù)據(jù)量很大,傳統(tǒng)的評價標準已經(jīng)不能滿足現(xiàn)在的數(shù)據(jù)分析要求;使用不同的數(shù)據(jù)結(jié)果評價標準來評判不同的數(shù)據(jù)挖掘結(jié)果。然而不同的評價標準之間的聯(lián)系并不緊密,因此就需要開發(fā)者針對不同的數(shù)據(jù)類型做出不同的評價分析標準以便滿足客戶需求。想要對數(shù)據(jù)分析結(jié)果是否準確,數(shù)據(jù)挖掘的信息是否合理等等這些不同的問題進行更加深刻的.了解,就要求開發(fā)者有獨特的見解,對于數(shù)據(jù)結(jié)果是否精確有一定的判斷能力。總之,獲取準確的信息就是軟件工程數(shù)據(jù)挖掘的目的。所以,最后獲得的數(shù)據(jù)是否滿足要求就是評判軟件工程數(shù)據(jù)挖掘結(jié)果是否完美的標準。endprint
4 對軟件工程數(shù)據(jù)挖掘應(yīng)用進行分析
4.1 對軟件數(shù)據(jù)挖掘技術(shù)進行分析
在軟件開發(fā)的過程中,數(shù)據(jù)挖掘技術(shù)包括兩個方面:(1)程序編寫;(2)程序成果。在這個過程中,程序結(jié)構(gòu)和程序功能技術(shù)的主要作用就是檢索出有效的信息。提升信息的有效性需要聯(lián)系到客戶的實際需要,同時也需要對程序編寫過程進行智能化培訓。將調(diào)用、重載和多重繼承等關(guān)系家合起來進行有效的記錄各種相關(guān)信息,重視靜態(tài)規(guī)則的同時利用遞歸測試的方式來分配工作,從而更有效的掌握關(guān)聯(lián)度之間的可信性。
4.2 做好軟件維護中的軟件工程數(shù)據(jù)挖掘工作
在軟件維護的過程中,軟件修復和軟件改善工作依賴于數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)在軟件缺陷以及軟件結(jié)構(gòu)等也起到了重要的作用。軟件修復即維護者通過依據(jù)缺陷分派進行有效的評估并改善缺陷程序進而確定修復級別或者維護者可以選擇缺陷修復方式,無論哪種方式最終目的都是進行軟件修復來保證數(shù)據(jù)挖掘的高效性。缺陷分派即將缺陷轉(zhuǎn)化為文本類型,采取有效措施來進行修復。但是,這樣的方式它的實際準確率并不高,因而需要利用強化檢測來完善缺陷報告技術(shù)。
4.3 注重高性能數(shù)據(jù)挖掘技術(shù)開發(fā)工作
數(shù)據(jù)挖掘技術(shù)體現(xiàn)在軟件開發(fā)工作中的創(chuàng)新性不可或缺,在實際的工作過程中,目前的軟件工程數(shù)據(jù)挖掘更加重視兩個工作:(1)規(guī)則分析方式;(2)項目檢索工作?偠灾,想要高效快速地尋找病毒,并對其進行全方位分析和評估得到準確的病毒數(shù)據(jù)需要高性能數(shù)據(jù)挖掘技術(shù)。只有提升數(shù)據(jù)分析的可行性,提升軟件開發(fā)安全性能,才能更好地實現(xiàn)軟件工程的良好發(fā)展。
5 總結(jié)
綜上所述,數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛,比如說分析代碼、軟件故障檢測以及軟件項目管理等三個方面應(yīng)用較多。值得關(guān)注的是,當前對于數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟。因此,研究者需要對軟件工程數(shù)據(jù)挖掘技術(shù)進行深入的研究,從而能夠促進軟件更好地開發(fā)和管理。相信在不久的將來,我們一定可以在數(shù)據(jù)挖掘方面取得非常好的優(yōu)化效果。
參考文獻:
[1] 江義晟.軟件工程數(shù)據(jù)挖掘研究進展[J].電子技術(shù)與軟件工程,20xx(22).
[2] 胡金萍.探析軟件工程數(shù)據(jù)挖掘研究進展[J].電腦知識與技術(shù),20xx(34).
[3] 馬保平.關(guān)于對軟件工程中的數(shù)據(jù)挖掘技術(shù)的探討[J].電子技術(shù)與軟件工程,20xx(19).
[4] 徐琳,王寧.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用分析[J].數(shù)字通信世界,20xx(8).
數(shù)據(jù)挖掘論文9
摘要:中醫(yī)臨床理論多是由著名醫(yī)家的經(jīng)驗升華形成的,反映了臨床上不同學術(shù)派系以及不同學科的優(yōu)勢特征,但這其中不免摻雜了個人主觀經(jīng)驗,因此本文就中醫(yī)臨床理論研究中醫(yī)病案為基礎(chǔ),對應(yīng)用病案數(shù)據(jù)挖掘結(jié)果來總結(jié)和重建中醫(yī)臨床理論的方式進行了探討,認為該方法可為完善中醫(yī)臨床理論提供客觀的數(shù)據(jù)支持,使中醫(yī)臨床理論的來源更具有科學性。
關(guān)鍵詞:病案;數(shù)據(jù)挖掘;中醫(yī)臨床理論;轉(zhuǎn)化醫(yī)學;臨床
科研一體化中醫(yī)臨床理論決定著中醫(yī)臨床學科的發(fā)展水平,是中醫(yī)臨床發(fā)展的動力。從古至今,中醫(yī)名醫(yī)名家輩出,他們的臨床經(jīng)驗和學術(shù)思想不斷提煉升華,逐步形成了傳統(tǒng)的中醫(yī)臨床理論。新中國成立以來,中醫(yī)不斷汲取最新的科技成果,進行了大量臨床實踐,而中醫(yī)臨床理論發(fā)展緩慢,己經(jīng)成為制約當代中醫(yī)學術(shù)發(fā)展的瓶頸,對如何開拓中醫(yī)臨床理論的研究,可謂見仁見智,但各種新的臨床理論常常裹挾著“各家學說”。在當今大數(shù)據(jù)和信息技術(shù)發(fā)達的背景下,運用數(shù)據(jù)挖掘技術(shù)對中醫(yī)病案進行大數(shù)據(jù)分析,客觀揭示當前中醫(yī)臨床理論的本來面目,盡可能減少個人見解的偏倚,對于推動中醫(yī)臨床理論發(fā)展具有重要的現(xiàn)實意義,本文就基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建進行探討如下。
1傳統(tǒng)中醫(yī)臨床理論的構(gòu)建框架
1.1中醫(yī)古典文獻是傳統(tǒng)中醫(yī)臨床理論的基礎(chǔ)
眾所周知,中醫(yī)之所以能夠屹立千年不倒,很大一部分原因是因為其有獨特的理論體系,而在這其中,中醫(yī)古典文獻做出的貢獻應(yīng)該是第一位的。因為這些古典文獻的記載和流傳,為后世的醫(yī)家提供了參考和借鑒,使得我們從前人的思維上不斷創(chuàng)新,與臨床進行有機結(jié)合,不斷研究出新的適合于當前時代的臨床理論。例如,中醫(yī)學無論在理論研究還是在臨床治療方面的豐富,許多根本性的理論都是源自于《內(nèi)經(jīng)》。該書創(chuàng)立了藏象、經(jīng)絡(luò)、診法等各方面的理論[1],勾畫了中醫(yī)理論的雛形,構(gòu)建了中醫(yī)理論體系的基本框架。到后期東漢時期張仲景的《傷寒論》則是創(chuàng)造了以六經(jīng)辨證和臟腑辨證為主的局面,其所倡導的“觀其脈證,知犯何逆,隨證治之”使得辨證論治登上新的高度。到了金元時期,就是百家爭鳴的時代,這期間以金元四大家為主的學派開始萌生,留下了許多可供后世醫(yī)家參考的古典文獻并創(chuàng)建了不同的臨床理論,而明清時期以葉天士和吳鞠通為首確立的衛(wèi)氣營血和三焦辨證,使溫病學的辨證理論逐步趨于完善,至今仍是指導臨床治療溫熱病的理論依據(jù)?傊,傳統(tǒng)中醫(yī)臨床理論的構(gòu)建和完善,離不開前人的摸索與貢獻,也得益于著名醫(yī)學家創(chuàng)建的傳統(tǒng)中醫(yī)理論,使得我們現(xiàn)在的中醫(yī)體系不斷的飽滿和充實。
1.2當代著名中醫(yī)的臨床經(jīng)驗不斷提升為中醫(yī)臨床理論
傳統(tǒng)中醫(yī)的臨床理論,在很大程度上展示著著名醫(yī)家的臨床經(jīng)驗。在中醫(yī)理論與實踐發(fā)展的相互促進過程中,當代醫(yī)家通過讀書、臨證、心悟?qū)嵺`經(jīng)驗不斷總結(jié)并升華為理論,又在實踐中不斷完善既有的理論,成為中醫(yī)理論發(fā)展的重要途徑和模式,而當代中醫(yī)理論的發(fā)展則需要將傳統(tǒng)理論與現(xiàn)代實踐相互融合起來。例如上世紀60年代時,面對中醫(yī)基礎(chǔ)理論中新的思想相對匱乏的這一局面,鄧鐵濤結(jié)合其治療的臨床經(jīng)驗,首次提出了“五臟相關(guān)學說”。盡管當時的理論準備并不完善,但是這一理論的提出,在很大程度上完善并且取代了“五行學說”中某些模糊性和不確定性,并且隨著時代的發(fā)展,逐漸驗證了鄧老的這一經(jīng)驗的正確性,也成為指導中醫(yī)臨床理論的一大重要體系[2]。又如,腦出血這一現(xiàn)代疾病在古代名為中風,多數(shù)是“從風而治”,認為肝臟與中風的關(guān)系最為密切。隨著時代的推進,自20世紀80年代以來,許多學者根據(jù)微觀辨證和中醫(yī)理論“離經(jīng)之血便是瘀”,提出急性出血中風屬中醫(yī)血證,瘀血阻滯是急性期腦出血的最基本病機,是治療的關(guān)鍵所在[3]。故現(xiàn)代中醫(yī)臨床治療上多以活血化瘀法治療腦出血、腦梗塞這一系列疾病。若是仔細研讀傳統(tǒng)中醫(yī)臨床理論后,我們不難得出其構(gòu)成和完善離不開當代著名醫(yī)家的臨床經(jīng)驗,它是在歷經(jīng)歲月的洗禮下不斷塑造成型的。
1.3傳統(tǒng)中醫(yī)臨床理論不斷將現(xiàn)代醫(yī)學相關(guān)內(nèi)容中醫(yī)化
傳統(tǒng)中醫(yī)臨床理論不斷吸收現(xiàn)代醫(yī)學的理論,將其相關(guān)內(nèi)容不斷中醫(yī)化,將病人的各種證型通過五臟辨證、陰陽五行辨證以及八綱辨證劃分得越來越細化,以提供病人在中醫(yī)臨床上治療的理論依據(jù)。中醫(yī)吸取了現(xiàn)代醫(yī)學理論后正在不斷壯大其內(nèi)容,現(xiàn)代醫(yī)學相關(guān)內(nèi)容中醫(yī)化在許多難治疾病的辨證治療中都起到了良好的指導作用[4]。如艾滋病是古代傳統(tǒng)中醫(yī)辨證論治的空白,通過對艾滋病中醫(yī)病因病機、證候規(guī)律、治法方藥的系統(tǒng)研究,提出了“艾毒傷元”“脾為樞機”“氣虛為本”的病因病機學說,確立了艾滋病“培元解毒”“益氣健脾”的治療原則,為中醫(yī)藥防治艾滋病奠定了理論基礎(chǔ),為進一步提高艾滋病的中醫(yī)藥臨床診療效果提供理論依據(jù)[5]。
2當前中醫(yī)臨床理論發(fā)展存在的不足
2.1中醫(yī)主流理論不突出且與時俱進力度不夠
不可否認的是,當代的中醫(yī)臨床理論發(fā)展也是存在諸多不足的,中醫(yī)理論的完善和發(fā)展是中華五千年來集體智慧的結(jié)晶,個別醫(yī)家提出的臨床理論可能各有千秋,其所立的角度和思維也不盡相同。例如,同是治療輸卵管阻塞這一疾病時,朱南孫教授認為多是由于濕蘊沖任所致,其用自擬的清熱利濕方來進行治療;而李廣文教授則認為這一疾病多是由于瘀血阻絡(luò)為主,治療上以活血祛瘀為法,擬通任種子湯進行治療[6]。又如對于“和解法”這一治療方法的理解,當代名醫(yī)蒲輔周老先生認為“寒熱并用,補瀉合劑,表里雙解,苦辛分消,調(diào)和氣血,皆謂和解”。而方和謙教授則認為“在治法上扶正祛邪,表里兼顧,此法就為和解法”。不同的醫(yī)家在面對不同的疾病,甚至是不同的理法方藥時,所持的看法常常是“各家學說”,這就導致了當前中醫(yī)臨床理論發(fā)展比較混亂,不能全面地體現(xiàn)中國五千年來發(fā)展過程中的中醫(yī)主流理論。目前中醫(yī)基礎(chǔ)理論還存在一個缺陷就是它的與時俱進力度還不夠,很多古代經(jīng)典方藥的主治病癥,在當今時代已經(jīng)不再多見了。比如蛔蟲導致的蛔厥這一致病因素在現(xiàn)代已經(jīng)不再常見,對應(yīng)的烏梅丸的主要適應(yīng)病癥也不再是蛔厥;在針對沒有明顯臨床表現(xiàn)的疾病如乙肝時,按傳統(tǒng)中醫(yī)往往體現(xiàn)出“無證可治”的狀態(tài);傳統(tǒng)的診斷與現(xiàn)代檢查相結(jié)合的力度也不夠,中醫(yī)臨床基礎(chǔ)理論在某些程度上忽略了其與生化、B超、X光、CT等現(xiàn)代檢查結(jié)果的結(jié)合,并沒有用中醫(yī)理論對其做一合理的陳述;且現(xiàn)在臨床上很多中藥的藥理作用、性味歸經(jīng)的研究作用還不夠深入、細致,其作用不能在微觀上得以解釋。這些都導致了臨床上很多情況沒有從中醫(yī)理論來認識中醫(yī),不是“以中解中”,而是“以西解中”,形成了臨床拋棄中醫(yī)理論的狀態(tài)[7]。由于中醫(yī)學是一門實踐性很強的學科,它是在哲學辨證的思想指導下,與臨床經(jīng)驗不斷結(jié)合,這與西醫(yī)知識體系相比較,難免存在一定的滯后性,這都會使得中醫(yī)臨床理論發(fā)展相對的落后。
2.2部分中醫(yī)理論帶有權(quán)威專家的“個人學說”偏見
傳統(tǒng)中醫(yī)強調(diào)個人經(jīng)驗和學說,以中醫(yī)內(nèi)科學為例,第八版中的腦系疾病在第九版中已經(jīng)刪除,其涉及到的各種腦系疾病大多數(shù)歸屬于心系疾病與肝系疾病。根據(jù)其版本的不同,我們可以明顯看出其凸顯的中心內(nèi)容及其思想不同,其多是體現(xiàn)編著者的理論思想,在一定程度上并沒有客觀地揭示疾病的本質(zhì),治療理論也不夠完善,一部分內(nèi)容與最新研究得出的論文理論不符,這使得當代中醫(yī)臨床理論在某些程度上,帶有權(quán)威專家的“個人學說”色彩。由于現(xiàn)代西方先進的科技文化流入,使得中醫(yī)在一定程度上備受質(zhì)疑,而正是因為人們對于中醫(yī)理論的一些偏見,才使得中醫(yī)長期讓人詬病。
3新的時代背景下中醫(yī)臨床理論發(fā)展方向
3.1臨床理論應(yīng)具有真實性與系統(tǒng)性
中醫(yī)臨床理論的發(fā)展方形應(yīng)當是建立在客觀并且真實的臨床實踐基礎(chǔ)上,從一次次臨床實踐中得出。由于歷史時代的原因以及假設(shè)推理、模式建設(shè)的廣泛使用,當代中醫(yī)臨床理論中理論與假說并存的現(xiàn)象較為普遍,如中醫(yī)的五運六氣學說對現(xiàn)代疫病預(yù)測和人體各經(jīng)絡(luò)臟腑在時間上對于人體治病效果的`不同等,就需要我們在扎實的文獻與臨床實踐基礎(chǔ)上,對醫(yī)案進行認真總結(jié),利用科學的方法深入挖掘,開展中醫(yī)理論的去偽存真研究,以促進中醫(yī)理論的科學與健康發(fā)展。另外,傳統(tǒng)的中醫(yī)臨床治療上所用的理法方藥,多是根據(jù)個人經(jīng)驗所進行的。隨著科技的不斷發(fā)展與時代的不斷進步,當代的中醫(yī)臨床理論應(yīng)該在成功的中醫(yī)醫(yī)案上進行系統(tǒng)的總結(jié),不斷挖掘和研究其微觀的結(jié)構(gòu),并隨著年月的更迭不斷更新,不斷完善,使其具有科學性和理論依據(jù)。同時,對近年來興起的傳染性非典型肺炎、艾滋病、禽流感等古人所沒有經(jīng)歷過的疾病的診治,中醫(yī)就其病因病機的認識以及探究相應(yīng)的診療方法,無疑也是一種理論上的創(chuàng)新[8]。通過對其進行深一層次的研究和發(fā)現(xiàn),歸納出合適的治則治法,找到針對這一疾病的理法方藥,使其更具有系統(tǒng)性,使得臨床上中醫(yī)治病可以循序漸進,注重整體,也是當代臨床理論的一大發(fā)展方向。
3.2臨床理論具有信息化的特點并可持續(xù)拓展
隨著時代的進步,當代的中醫(yī)臨床理論可以通過網(wǎng)絡(luò)等方式進行共享,在大數(shù)據(jù)的這一時代背景下,隨著病案的不斷報道與積累,可以將各類成功的中醫(yī)醫(yī)案進行統(tǒng)計和挖掘,其結(jié)果也會不斷進行更新和發(fā)展。不同的醫(yī)家對于某一疾病的認識角度可能不同,其表現(xiàn)在病位、病性、病勢和證候的判斷標準也不一樣,因此方藥規(guī)律也不一樣。而通過統(tǒng)計某一中醫(yī)或西醫(yī)疾病的較大樣本病例,并對其進行數(shù)據(jù)挖掘,可以得出整個中醫(yī)群體對于這一疾病診治的證候分布、治則治法、處方用藥等的規(guī)律,甚至可以根據(jù)統(tǒng)計的結(jié)果探索出新的方藥,分析他們的共同點和所在差異。將中醫(yī)臨床理論具有信息化的這一特點不斷地拓展下去,通過計算機等客觀科學的手段進行分析,與主觀的名老中醫(yī)傳承模式相比,更具客觀性,更容易被臨床醫(yī)生接受,對各種疾病的中醫(yī)臨床用藥也更具有指導價值。
4基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建
4.1病案研究是中醫(yī)理論發(fā)展的重要基礎(chǔ)
在當今大數(shù)據(jù)的時代背景下,中醫(yī)固有的傳統(tǒng)整體論科學特征有了越來越多的可供改變的空間。這種變化既為其按照自身特有的規(guī)律發(fā)展特點帶來了機遇,也給未來中醫(yī)理論的發(fā)展提出了挑戰(zhàn)。同時,學習醫(yī)案研究也是中醫(yī)學相關(guān)大學生們應(yīng)該學習的一項內(nèi)容。閱讀醫(yī)案是必要的訓練,也是中醫(yī)入門的方法之一。醫(yī)案的故事性引人入勝,在自然而然中接受中醫(yī)思維方法和傳統(tǒng)文化知識,同時醫(yī)案中所呈現(xiàn)的名醫(yī)風范,醫(yī)德對學生起到潛移默化的影響,并培養(yǎng)對專業(yè)的熱愛[9]。病案客觀、真實地直接記錄疾病診斷和治療過程,醫(yī)案研究作為中醫(yī)理論發(fā)展過程中至關(guān)重要的一環(huán),是中醫(yī)理論發(fā)展的重要基礎(chǔ),以研究病案為基礎(chǔ),對于中醫(yī)理論的形成和臨床上中醫(yī)積累經(jīng)驗,都起到了一定的輔助提升作用。
4.2數(shù)據(jù)挖掘方法是中醫(yī)理論發(fā)展的現(xiàn)代技術(shù)手段
利用多種數(shù)據(jù)挖掘技術(shù)對中醫(yī)病案中的有關(guān)信息行進行歸納、整理,是近年來傳承中醫(yī)臨床經(jīng)驗的重要方法之一[10]。通過對同一種疾病的病案進行數(shù)據(jù)挖掘以分析醫(yī)者的思路和探索其用藥的方法,對中醫(yī)臨床病案進行規(guī)范化的整理,能夠深入總結(jié)其臨床經(jīng)驗,挖掘隱藏在大量病案背后的診治規(guī)律,甚至探索出新的方藥配伍,為中醫(yī)理論的發(fā)展提供一定的科學依據(jù)的同時,使得中醫(yī)理論的發(fā)展越來越現(xiàn)代化,不僅僅只是停留在以前的靠讀書和個人經(jīng)驗的結(jié)合,也為廣大的中醫(yī)在日后的臨床治療上提供了新的思路和方向。
4.3臨床實踐推動理論發(fā)展,賦予轉(zhuǎn)化醫(yī)學新的內(nèi)涵
目前,我們通過并按數(shù)據(jù)挖掘來總結(jié)一些中醫(yī)對于治療同一種疾病所采取的診斷和用藥,可以獲得新的思路,并且為完善我們現(xiàn)有的中醫(yī)理論基礎(chǔ)可以提供可靠的理論支持。采用數(shù)據(jù)挖掘技術(shù)對中醫(yī)學術(shù)思想和臨證經(jīng)驗進行研究,可以全面解析其中的規(guī)律,分析中醫(yī)個體化診療信息特征,提煉出臨證經(jīng)驗中蘊藏的新理論、新力法,可以實現(xiàn)經(jīng)驗的有效總結(jié)與傳承[11]。與此同時,要求我們用發(fā)展的眼光將現(xiàn)代的科技手段整合加入到傳統(tǒng)的中醫(yī)學理論中去,推陳出新,通過臨床實踐與基礎(chǔ)理論的不斷結(jié)合,不斷完善,推動祖國醫(yī)學現(xiàn)代化,譜寫有關(guān)于中醫(yī)學在轉(zhuǎn)化醫(yī)學上新的篇章。
參考文獻
[1]劉向哲.中醫(yī)理論創(chuàng)新與發(fā)展的基礎(chǔ)和機遇[J].中醫(yī)學報,2010,25(5):884-885.
[2]邱仕君,吳玉生.在基礎(chǔ)理論與臨床醫(yī)學之間———對鄧鐵濤教授五臟相關(guān)學說的理論思考[J].湖北民族學院學報(醫(yī)學版),2005,22(2):36-39.
[3]顧寧,周仲英.通下法治療急性腦出血研究進展[J].中國中醫(yī)急診,2000,9(5):227.
[4]靳士英.鄧鐵濤教授學術(shù)成就管[J].現(xiàn)代醫(yī)院,2004(9):1-6.
[5]許前磊,徐立然,郭會軍,等.艾滋病發(fā)病與防治中醫(yī)理論的初步構(gòu)建[J].中醫(yī)雜志,2015,56(11):909-911.
[6]張少聰,周偉生.名老中醫(yī)驗方治療輸卵管阻塞性不孕癥概況[J].中華中醫(yī)藥學刊,2010(3):489-491.
[7]孟靜巖,應(yīng)森林.試論中醫(yī)基礎(chǔ)理論指導臨床研究的思考與途徑[J].上海中醫(yī)藥大學學報,2009(3):3-5.
[8]邢玉瑞.新形勢下中醫(yī)理論發(fā)展的思考[J].中醫(yī)雜志,2016,57(18):1540-1542.
[9]盧峰,聶達榮,彭美玉,等.中醫(yī)內(nèi)科學應(yīng)用名老中醫(yī)病案教學法的探索[J].中國中醫(yī)藥現(xiàn)代遠程教育,2014(18):80-82.
[10]郭軍.基于數(shù)據(jù)挖掘分析前名老中醫(yī)病案整理的思路與方法[J].中醫(yī)藥信息,2011,28(2):49-50.
[11]吳嘉瑞,唐仕歡,郭位先,等.基于數(shù)據(jù)挖掘的名老中醫(yī)經(jīng)驗傳承研究述評[J].中國中藥雜志,2014,39(4):614-617.
數(shù)據(jù)挖掘論文10
[1]劉瑩.基于數(shù)據(jù)挖掘的商品銷售預(yù)測分析[J].科技通報.20xx(07)
[2]姜曉娟,郭一娜.基于改進聚類的電信客戶流失預(yù)測分析[J].太原理工大學學報.20xx(04)
[3]李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學報.20xx(04)
[4]朱志勇,徐長梅,劉志兵,胡晨剛.基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J].計算機工程與科學.20xx(03)
[5]翟健宏,李偉,葛瑞海,楊茹.基于聚類與貝葉斯分類器的網(wǎng)絡(luò)節(jié)點分組算法及評價模型[J].電信科學.20xx(02)
[6]王曼,施念,花琳琳,楊永利.成組刪除法和多重填補法對隨機缺失的二分類變量資料處理效果的比較[J].鄭州大學學報(醫(yī)學版).20xx(05)
[7]黃杰晟,曹永鋒.挖掘類改進決策樹[J].現(xiàn)代計算機(專業(yè)版).20xx(01)
[8]李凈,張范,張智江.數(shù)據(jù)挖掘技術(shù)與電信客戶分析[J].信息通信技術(shù).20xx(05)
[9]武曉巖,李康.基因表達數(shù)據(jù)判別分析的隨機森林方法[J].中國衛(wèi)生統(tǒng)計.20xx(06)
[10]張璐.論信息與企業(yè)競爭力[J].現(xiàn)代情報.20xx(01)
[11]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺分析與研究[D].湖南農(nóng)業(yè)大學20xx
[12]徐進華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學20xx
[13]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的.客戶獲取系統(tǒng)研究[D].西安電子科技大學20xx
[14]馮軍.數(shù)據(jù)挖掘在自動外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學20xx
[15]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學20xx
[16]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運營管理[D].華東師范大學20xx
[17]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國證券市場中應(yīng)用[D].重慶大學20xx
[18]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學20xx
[19]賈治國.數(shù)據(jù)挖掘在高考填報志愿上的應(yīng)用[D].內(nèi)蒙古大學20xx
[20]馬飛.基于數(shù)據(jù)挖掘的航運市場預(yù)測系統(tǒng)設(shè)計及研究[D].大連海事大學20xx
[21]周霞.基于云計算的太陽風大數(shù)據(jù)挖掘分類算法的研究[D].成都理工大學20xx
[22]阮偉玲.面向生鮮農(nóng)產(chǎn)品溯源的基層數(shù)據(jù)庫建設(shè)[D].成都理工大學20xx
[23]明慧.復合材料加工工藝數(shù)據(jù)庫構(gòu)建及數(shù)據(jù)集成[D].大連理工大學20xx
[24]陳鵬程.齒輪數(shù)控加工工藝數(shù)據(jù)庫開發(fā)與數(shù)據(jù)挖掘研究[D].合肥工業(yè)大學20xx
[25]岳雪.基于海量數(shù)據(jù)挖掘關(guān)聯(lián)測度工具的設(shè)計[D].西安財經(jīng)學院20xx
[26]丁翔飛.基于組合變量與重疊區(qū)域的SVM-RFE方法研究[D].大連理工大學20xx
[27]劉士佳.基于MapReduce框架的頻繁項集挖掘算法研究[D].哈爾濱理工大學20xx
[28]張曉東.全序模塊模式下范式分解問題研究[D].哈爾濱理工大學20xx
[29]尚丹丹.基于虛擬機的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D].哈爾濱理工大學20xx
[30]王化楠.一種新的混合遺傳的基因聚類方法[D].大連理工大學20xx
[31]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺分析與研究[D].湖南農(nóng)業(yè)大學20xx
[32]徐進華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學20xx
[33]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學20xx
[34]馮軍.數(shù)據(jù)挖掘在自動外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學20xx
[35]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學20xx
[36]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運營管理[D].華東師范大學20xx
[37]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國證券市場中應(yīng)用[D].重慶大學20xx
[38]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學20xx
[39]賈治國.數(shù)據(jù)挖掘在高考填報志愿上的應(yīng)用[D].內(nèi)蒙古大學20xx
[ 40]馬飛.基于數(shù)據(jù)挖掘的航運市場預(yù)測系統(tǒng)設(shè)計及研究[D].大連海事大學20xx
數(shù)據(jù)挖掘論文11
數(shù)據(jù)挖掘技術(shù)在金融業(yè)、醫(yī)療保健業(yè)、市場業(yè)、零售業(yè)和制造業(yè)等很多領(lǐng)域都得到了很好的應(yīng)用。針對交通安全領(lǐng)域中交通事故數(shù)據(jù)利用率低的現(xiàn)狀,可以通過數(shù)據(jù)挖掘?qū)ο嚓P(guān)交通事故數(shù)據(jù)進行統(tǒng)計分析,從而發(fā)現(xiàn)其中的關(guān)聯(lián),這對提升交通安全水平具有非常重要的意義。
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘(DataMining)即對大量數(shù)據(jù)進行有效的分類統(tǒng)計,從而整理出有規(guī)律的、有價值的、潛在的未知信息。一般來講,這些數(shù)據(jù)存在極大的隨機性和不完全性,其包括各行各業(yè)各個方面的數(shù)據(jù)。數(shù)據(jù)挖掘是一個結(jié)合了數(shù)據(jù)庫、人工智能、機器學習的學科,涉及統(tǒng)計數(shù)據(jù)和技術(shù)理論等領(lǐng)域。
2數(shù)據(jù)挖掘關(guān)聯(lián)分析研究
關(guān)聯(lián)分析作為數(shù)據(jù)挖掘中的重要組成部分,其主要作用就是通過數(shù)據(jù)之間的相互關(guān)聯(lián)從而發(fā)現(xiàn)數(shù)據(jù)集中某種未知的聯(lián)系。關(guān)聯(lián)分析最初是在20世紀90年代初被提出來的,一直備受關(guān)注。已被廣泛應(yīng)用于各行各業(yè),包括醫(yī)療體檢、電子商務(wù)、商業(yè)金融等各個領(lǐng)域。關(guān)聯(lián)規(guī)則的挖掘一般可分成兩個步驟[1]:
(1)找出頻繁項集,不小于最小支持度的項集;
。2)生成強關(guān)聯(lián)規(guī)則,不小于最小置信度的關(guān)聯(lián)規(guī)則。相對于生成強關(guān)聯(lián)規(guī)則,找出頻繁項集這一步比較麻煩。由R.Agrawal等人在1994年提出的Apriori算法是生成頻繁項集的經(jīng)典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-項集探索(k+1)-項集。Apriori算法在整體上可分為兩個部分。
(1)發(fā)現(xiàn)頻集。這個部分是最重要的,開銷相繼產(chǎn)生了各種各樣的頻集算法,專門用于發(fā)現(xiàn)頻集,以降低其復雜度、提高發(fā)現(xiàn)頻集的效率。
(2)利用所獲得的頻繁項集各種算法主要致力產(chǎn)生強關(guān)聯(lián)規(guī)則。當然頻集構(gòu)成的聯(lián)規(guī)則未必是強關(guān)聯(lián)規(guī)則,還要檢驗構(gòu)成的關(guān)聯(lián)規(guī)則的支持度和支持度是否超過它們的閾值。Apriori算法找出頻繁項集分為兩步:連接和剪枝。
。1)連接。集合Lk-1為頻繁k-1項集的集合,它通過與自身連接就可以生成候選k項集的集合,記作Ck。
。2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性質(zhì)(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進行壓縮;然后,通過掃描所有的事務(wù),確定壓縮后Ck中的每個候選的支持度;最后與設(shè)定的最小支持度進行比較,如果支持度不小于最小支持度,則認為該候選項是頻繁的。目前,在互聯(lián)網(wǎng)技術(shù)及科學技術(shù)的快速發(fā)展下,人工智能、機器識別等技術(shù)興起,關(guān)聯(lián)分析也被越來越多應(yīng)用其中,并在不斷發(fā)展中提出了大量的改進算法。
3數(shù)據(jù)挖掘關(guān)聯(lián)分析在道路交通事故原因分析當中的應(yīng)用
近年來,我國越來越多的學者將數(shù)據(jù)挖掘關(guān)聯(lián)分析應(yīng)用于道路交通事故的研究中,主要是分析道路、車輛、行人以及環(huán)境等因素與交通事故之間的某種聯(lián)系。Pande和Abdel-Aty[3]通過關(guān)聯(lián)分析研究了美國佛羅里達州20xx年非交叉口發(fā)生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內(nèi)在聯(lián)系,通過研究得出如下結(jié)論,道路照明條件不足是引發(fā)道路交通事故的主要因素,除此之外,還發(fā)現(xiàn)天氣惡劣的環(huán)境下道路彎道的直線段也極易發(fā)生交通事故。Graves[4]利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則對歐洲道路交通事故進行了分析,主要研究了交通事故與道路設(shè)施狀況之間的關(guān)聯(lián),通過研究發(fā)現(xiàn)了易導致交通事故發(fā)生的各個道路設(shè)施狀況因素,此研究為歐洲路面建設(shè)及投資提供了強大的決策支持。我國學者董立巖在研究道路交通事故數(shù)據(jù)的文獻中,將粗糙集與關(guān)聯(lián)分析進行了融合,提出了基于偏好信息的決策規(guī)則簡約算法并將其應(yīng)用其中,通過分析發(fā)現(xiàn)了道路交通事故的未知規(guī)律。王艷玲通過關(guān)聯(lián)分析中的因子關(guān)聯(lián)樹模型重點分析了影響道路交通事故最重要的因子,發(fā)現(xiàn)在道路交通事故常見的誘因人、車、路及環(huán)境中對事故影響最大的因子是環(huán)境。許卉瑩等利用關(guān)聯(lián)分析、聚類分析以及決策樹分析三種數(shù)據(jù)挖掘技術(shù)對道路交通事故數(shù)據(jù)進行分析,最終得出了科學的道路交通事故預(yù)防和交通安全管理決策依據(jù)。尚威等在研究中,對大量的道路交通數(shù)據(jù)進行了有效整合,并在此基礎(chǔ)上按照交通事故相關(guān)因素的不同特點整理出與事故發(fā)生有關(guān)的字段數(shù)據(jù),形成新的事故數(shù)據(jù)記錄表,然后再根據(jù)多維關(guān)聯(lián)規(guī)則對記錄的相關(guān)數(shù)據(jù)進行分析,從而發(fā)現(xiàn)了事故誘導因素記錄字段值和事故結(jié)果字段值組成的道路交通事故頻繁字段的組合。張聽等在充分掌握聚類數(shù)據(jù)挖掘理論與方法的基礎(chǔ)上,提出了多目標聚類分析框架和一個啟發(fā)式的聚類算法k-WANMI,并將其用在道路交通事故的聚類研究中對不同權(quán)重的屬性進行了多目標分析。同樣,許宏科也利用該方法對公路隧道交通流數(shù)據(jù)進行了聚類分析,其在研究中不僅明確了隧道交通流的'峰值規(guī)律,而且還根據(jù)這種規(guī)律制訂了隧道監(jiān)控設(shè)備的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻。徐磊和方源敏在研究中,提出了由簡化信息熵構(gòu)造的改進C4.5決策樹算法,并將其應(yīng)用在交通事故數(shù)據(jù)的研究中,對交通數(shù)據(jù)進行了正確分類,發(fā)現(xiàn)了一些隱藏的規(guī)則和知識,為交通管理提供了依據(jù)。劉軍、艾力斯木吐拉、馬曉松運用多維關(guān)聯(lián)規(guī)則分析交通事故記錄,從而找到導致交通事故發(fā)生次數(shù)多的主要原因,并且指導相關(guān)部門作出相應(yīng)的決策。楊希剛運用關(guān)聯(lián)規(guī)則為現(xiàn)實中的交通事故的預(yù)防提供依據(jù)。吉林大學的吳昊等人,基于關(guān)聯(lián)規(guī)則的理論基礎(chǔ),定義了公路交通事故屬性模型,并結(jié)合改進后的Apriori算法,分析了交通事故歷史數(shù)據(jù)信息,為有關(guān)單位和用戶尋找道路黑點(即事故多發(fā)點)提供了技術(shù)支援和決策幫助。
4結(jié)語
通過數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法雖然能夠?qū)Φ缆方煌ㄊ鹿实南嚓P(guān)因素進行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關(guān)聯(lián)分析在道路交通事故的研究中往往只能片面發(fā)現(xiàn)某一種或幾種因素影響交通事故的規(guī)律,很難將所有影響因素結(jié)合起來進行全面系統(tǒng)的分析。然而道路交通事故的發(fā)生通常都是由相應(yīng)因素導致,而后事故當事人意識到危險源的存在并采取措施,直到事故發(fā)生的連續(xù)過程,整體來看體現(xiàn)了時序性。也就是說,道路交通事故是受到一系列按照時間先后順序排列的影響因素組合共同作用而發(fā)生的,從整體的角度出發(fā)研究事故發(fā)生機理更加科學。
參考文獻
[1]楊秀萍.大數(shù)據(jù)下關(guān)聯(lián)規(guī)則算法的改進及應(yīng)用[J].計算機與現(xiàn)代化,20xx(12):23-26.
[2]王云,蘇勇.關(guān)聯(lián)規(guī)則挖掘在道路交通事故分析中的應(yīng)用[J].科學技術(shù)與工程,20xx(7):1824-1827.
[3]徐磊,方源敏.基于決策樹C4.5改進算法的交通數(shù)據(jù)挖掘[J].微處理機,20xx,31(6):57-59.
[4]楊希剛.數(shù)據(jù)挖掘在交通事故中的應(yīng)用[[J].軟件導刊,20xx,7(26):18-20.
數(shù)據(jù)挖掘論文12
摘要:本文簡述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館各部門管理中,幫助圖書館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學化和人性化的服務(wù),促進圖書館事業(yè)的創(chuàng)新與發(fā)展。
關(guān)鍵詞:高校圖書館;數(shù)據(jù)挖掘;創(chuàng)新;發(fā)展。
隨著網(wǎng)絡(luò)技術(shù)、計算機技術(shù)的快速發(fā)展,高校圖書館事業(yè)也順應(yīng)時變,不斷向高科技、高水平領(lǐng)域進展,尤其是當今處于數(shù)字信息發(fā)展的時代。如果利用圖書館現(xiàn)有以及收集的數(shù)據(jù)資源,通過數(shù)據(jù)挖掘技術(shù)來分析、篩選對圖書館有用的數(shù)據(jù)信息,依據(jù)提煉的數(shù)據(jù)資源來指導、推進圖書館事業(yè)的創(chuàng)新與發(fā)展,是當今信息時代圖書館亟待研究、探討的一個問題。本文將簡述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館各部門管理之中,幫助圖書館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學化和人性化的服務(wù),促進圖書館的事業(yè)創(chuàng)新與發(fā)展。
一、數(shù)據(jù)挖掘技術(shù)綜述。
數(shù)據(jù)挖掘定義。數(shù)據(jù)挖掘(Data Mining,DM)是一種新的信息處理技術(shù),其主要特點是對單位、企業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換分析和其他模型化處理,以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。換句話說,數(shù)據(jù)挖掘技術(shù)就是從收集的大量、繁雜的數(shù)據(jù)中挖掘出其隱含的、未知的、對決策有潛在價值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程。
數(shù)據(jù)挖掘的意義。在當今的競爭時代社會中,隨著計算機的飛速發(fā)展,計算機強大的數(shù)據(jù)處理能力、內(nèi)存儲存容量和網(wǎng)絡(luò)寬帶等價格的持續(xù)快速下降,因此大型的數(shù)據(jù)分析、提取技術(shù)不再是一個障礙。面對圖書館每天接收的龐大數(shù)據(jù)源,管理者必須學會從所擁有的大量數(shù)據(jù)信息源中提取并利用隱含在這些數(shù)據(jù)中的有用價值以及有用新信息,從而獲取對圖書館事業(yè)研究領(lǐng)域的本質(zhì)認知和未來認知,幫助圖書館管理者從傳統(tǒng)的經(jīng)驗管理、主觀管理提升為理性管理和科學管理。
數(shù)據(jù)挖掘的應(yīng)用分類。目前較常用的一般有分類與回歸、關(guān)聯(lián)規(guī)則、聚類分析、時序模式等。
二、數(shù)據(jù)挖掘技術(shù)對圖書館事業(yè)創(chuàng)新與發(fā)展的影響。
面對大量數(shù)據(jù),如何去存儲和收集數(shù)據(jù),如何利用數(shù)據(jù)挖掘技術(shù)將圖書館海量信息數(shù)據(jù)中提取供管理者決策的有價值的數(shù)據(jù),提取并利用隱藏在這些數(shù)據(jù)中的有用知識的能力變得越來越重要。運用數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中獲得有用的知識,這在圖書館管理方面顯得尤為重要,本文將簡述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館各部門工作,為今后各部門的'創(chuàng)新與發(fā)展提供策略分析。
流通部門。流通部門作為圖書館的一線服務(wù)崗位,對圖書館功能的發(fā)揮起著舉足輕重的作用。作為窗口形象崗位,直接體現(xiàn)了圖書館的整體工作狀態(tài)。
要實現(xiàn)從以往的經(jīng)驗管理、主觀管理提升為科學管理和理性管理,數(shù)據(jù)挖掘技術(shù)將利用現(xiàn)代技術(shù)展現(xiàn)其獨天得厚的優(yōu)勢。圖書館每天都會產(chǎn)生大量的圖書流通數(shù)據(jù),這些數(shù)據(jù)包含進、出館讀者人數(shù),借、還書數(shù)量,檢索查詢次數(shù)以及網(wǎng)上咨詢等大量繁雜的數(shù)據(jù)。在流通部門最為常用的數(shù)據(jù)就是借書、還書量,通過借書、還書數(shù)據(jù)的統(tǒng)計,可獲取讀者信息行為、借閱書興趣導向,充分利用數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)規(guī)則、分類、聚類、時間序列分析等,對圖書館蘊含的大量豐富的用戶行為進行建模,從而挖掘出有用的或有興趣的信息和知識。如可利用這些有價值的信息,借鑒“啤酒與尿布”的經(jīng)典商業(yè)案例,嘗試在流通部開辟一塊試驗田地――搭檔書架,即通過借、還書數(shù)據(jù)挖掘,將讀者感興趣、組合搭檔頻率高的書籍挑選出來,開辟一塊搭檔書架,方便讀者在借用專業(yè)書籍的同時順便也借閱自己感興趣的圖書,既學習了自己的專業(yè)知識,同時也順便閱讀了自己感興趣的書籍,充分實現(xiàn)了圖書館“第二課堂”的育人價值。
采編部門。傳統(tǒng)的采編部門在采集書籍時大多數(shù)情況是依據(jù)采集經(jīng)驗或是依據(jù)各院系、讀者反饋的需求書籍進行征訂。大部分購買的圖書還是比較適合讀者所用的,但也會存在一些盲目性,有時會造成采集的偏差,這是采編部門一直比較困惑的問題。如何既將購書經(jīng)費合理利用好,同時又能滿足讀者借閱所需,是采編部門長期探索、研究的問題。如果將數(shù)據(jù)挖掘技術(shù)運用到采編部門,通過一線的文獻借閱數(shù)據(jù),分析、挖掘、提煉讀者借、還書的信息量,且一直追蹤這些信息數(shù)源的變化,即可獲得可被部門利用的有價值數(shù)據(jù),并匯總出讀者借、還書的規(guī)律。依據(jù)這些一線信息數(shù)源的價值,加之網(wǎng)上薦購及讀者書面薦購等信息,匯總出哪些是讀者專業(yè)常用書籍,哪些是讀者感興趣的書籍,哪些又是常年被冷落的書籍,從中提煉出書籍采集的方向;合理化的采集方案繼續(xù)延用,不合理的采集要進行科學化的數(shù)據(jù)分析,及時理清思路,盡可能做到書籍采集的合理化、科學化。
技術(shù)部門。在信息飛速發(fā)展的時代,作為圖書館負責信息網(wǎng)絡(luò)技術(shù)的部門,其肩上的重量顯得格外沉重。技術(shù)部門不但肩負著網(wǎng)絡(luò)技術(shù)的責任,當今也要肩負起圖書館所有數(shù)據(jù)的收集、存儲、挖掘及分析技術(shù)。數(shù)據(jù)挖掘及分析技術(shù)在技術(shù)部十分重要,技術(shù)部應(yīng)將圖書館各部門所產(chǎn)生的相關(guān)數(shù)據(jù)進行長期性、系統(tǒng)性的收集和科學分析,并將研究數(shù)據(jù)的挖掘及分析作為當前和今后技術(shù)部研究及發(fā)展的方向,承擔起“數(shù)據(jù)監(jiān)護員”的角色,通過實踐為圖書館提供數(shù)據(jù)監(jiān)護操作技能及策略。注意將可獲得的數(shù)據(jù)及時進行收集,并通過收集數(shù)據(jù)使用案例,分析并總結(jié)用戶需求及使用規(guī)律,為數(shù)據(jù)監(jiān)護提供基礎(chǔ)資料。
學科部門。學科部門作為一個新興的部門,目前已在全國各高校圖書館廣泛推廣運用。學科館員的主要任務(wù)是派專人與對口院系或?qū)W科專業(yè)搭建合作、交流平臺,并利用圖書館信息檢索的技術(shù)優(yōu)勢,為研究者開展長期追蹤、收集、傳遞文獻信息的科技服務(wù)。當前大部分學科館員關(guān)注的是如何為院系教學提供良好的信息傳遞幫助,而忽略了在當前信息飛速發(fā)展的時代,科研與教學走向數(shù)字化的趨勢。學者所做的所有工作,包括教案、論文、實驗、畢業(yè)設(shè)計等等工作,基本上都是以電子信息的方式進行編輯、存儲的。雖然極大地方便了學者們的工作,但同時也面臨這些電子數(shù)據(jù)的丟失風險,一旦電子數(shù)據(jù)丟失,其損失的學術(shù)價值是不可估量的。為盡量避免這些事件的發(fā)生,學科部門可依托技術(shù)部門的支撐,利用數(shù)據(jù)挖掘技術(shù),開展學者數(shù)據(jù)監(jiān)護服務(wù),保存這些非紙質(zhì)信息。這樣學科部門不僅為學者提供了科研信息的前沿追蹤,同時也提供了科學數(shù)據(jù)保存平臺;既為學者科研開辟道路,也為學者預(yù)防丟失科研數(shù)據(jù)提供保障,可謂雙保險。數(shù)據(jù)挖掘技術(shù)還可以幫助學科部通過數(shù)據(jù)挖掘、分析出讀者關(guān)注以及咨詢較多的問題,從中歸納出重點并分門別類,作為圖書館工作的重要依據(jù)。
三、結(jié)語。
數(shù)據(jù)挖掘技術(shù)在當今大數(shù)據(jù)時代,已成為一個相對成熟的學科,融入到社會的各行各業(yè)。利用數(shù)據(jù)挖掘技術(shù)對圖書館數(shù)據(jù)庫進行數(shù)據(jù)挖掘已經(jīng)成為圖書館需要開展的一項重要工作。圖書館事業(yè)已全部進入電子信息化,由此產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)和信息資源是圖書館行業(yè)的一筆寶貴財富,它較真實地反映了讀者對圖書館事業(yè)運作以及提供的服務(wù)是否到位。因此,通過數(shù)據(jù)挖掘分析,能夠幫助圖書館管理者分析并發(fā)現(xiàn)現(xiàn)有管理的不足之處,通過已知的現(xiàn)象預(yù)測未來的發(fā)展趨勢。數(shù)據(jù)挖掘技術(shù)已成為今后圖書館事業(yè)保持競爭力的必備法寶。
參考文獻:
【1】顧倩.數(shù)據(jù)挖掘應(yīng)用于高校圖書館個性化服務(wù)的探討[J].圖書館雜志,20xx,8:63-65.。
【2】王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究情報科學,20xx,30(3):391-394.。
【3】楊海燕.大數(shù)據(jù)時代的圖書館服務(wù)淺析[J].圖書與情報。
【4】程蓮娟.美國高校圖書館數(shù)據(jù)監(jiān)護的實踐及其啟示[J].圖書館雜志,20xx,1(31):76-78.。
數(shù)據(jù)挖掘論文13
1數(shù)據(jù)挖掘技術(shù)和過程
1.1數(shù)據(jù)挖掘技術(shù)概述
發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識應(yīng)當能夠被接受、理解和運用。也就是發(fā)現(xiàn)全部相對的知識,是具有特定前提與條件,面向既定領(lǐng)域的,同時還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價值的商業(yè)數(shù)據(jù)。簡單來說,其實數(shù)據(jù)挖掘是一種對數(shù)據(jù)進行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘為:根據(jù)企業(yè)設(shè)定的工作目標,探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識包括:
1.1.1廣義知識體現(xiàn)相同事物共同性質(zhì)的知識,是指類別特點的概括描述知識。按照數(shù)據(jù)的微觀特點對其表征的、具有普遍性的、極高概念層次的知識積極發(fā)現(xiàn),是對數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關(guān)聯(lián)知識體現(xiàn)一個事件與其他事件之間形成的關(guān)聯(lián)知識。假如兩項或者更多項之間形成關(guān)聯(lián),則其中一項的屬性數(shù)值就能夠借助其他屬性數(shù)值實行預(yù)測。
1.1.3分類知識體現(xiàn)相同事物共同特點的屬性知識與不同事物之間差異特點知識。
1.2數(shù)據(jù)挖掘過程
1.2.1明確業(yè)務(wù)對象對業(yè)務(wù)問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測的,但是研究的問題是可預(yù)見的',僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會體現(xiàn)出盲目性,通常也不會獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級職業(yè)技術(shù)學校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點,基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會解決大量現(xiàn)實問題,為企業(yè)確定目標市場、完善決策、獲得最大競爭優(yōu)勢,其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競爭力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準備第一選擇數(shù)據(jù):是按照用戶的挖掘目標,對全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計算機丟失的數(shù)據(jù),清除重復記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。
1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個分析模型。這一分析模型是相對于挖掘算法構(gòu)建的。構(gòu)建一個與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點?梢岳猛队皵(shù)據(jù)庫的相關(guān)操作對數(shù)據(jù)維度有效降低,進一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟轉(zhuǎn)化的數(shù)據(jù)。除了對選擇科學挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對某些挖掘參數(shù)能夠積極控制。
1.2.5評價挖掘結(jié)果這個過程劃分為兩個步驟:表達結(jié)果和評價結(jié)果。第一表達結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對挖掘結(jié)果積極理解。第二評價結(jié)果:用戶與機器對數(shù)據(jù)挖掘獲得的模式有效評價,對冗余或者無關(guān)的模式及時刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對挖掘過程科學執(zhí)行,直到獲得用戶滿意為止。
2用戶細分理論
用戶細分是指按照不同用戶的屬性劃分用戶集合。目前學術(shù)界和企業(yè)界一般接受的是基于用戶價值的細分理論,其不僅包含了用戶為企業(yè)貢獻歷史利潤,還包含未來利潤,也就是在未來用戶為企業(yè)可能帶來的利潤總和;谟脩魞r值的細分理論選擇客戶當前價值與客戶潛在價值兩個因素評價用戶。用戶當前價值是指截止到目前用戶對企業(yè)貢獻的總體價值;用戶潛在價值是指未來用戶可能為企業(yè)創(chuàng)造的價值總和。每個因素還能夠劃分為兩個高低檔次,進一步產(chǎn)生一個二維的矩陣,把用戶劃分為4組,價值用戶、次價值用戶、潛在價值用戶、低價值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當形成對應(yīng)的方法,投入不同的資源。很明顯對于企業(yè)來說價值用戶最重要,被認為是企業(yè)的玉質(zhì)用戶;其次是次價值用戶,被認為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤;其他則是低價值用戶,對企業(yè)來說價值最小,成為鉛質(zhì)用戶,另外一類則是潛在價值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價值有限,甚至很小。需要我們注意的是潛在價值用戶利用再造用戶關(guān)系,將來極有可能變成價值用戶。從長期分析,潛在價值用戶可以是企業(yè)的隱形財富,是企業(yè)獲得利潤的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對這4類用戶特點有效挖掘。
3電子商務(wù)數(shù)據(jù)挖掘分析
3.1設(shè)計問卷
研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價值用戶特征、次價值用戶特征、潛在價值用戶特征,對電子商務(wù)用戶的認知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對象的個人信息,包含了性別、年齡、學歷、感情情況、職業(yè)、工作、生活地點、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對用戶對電子商務(wù)的了解、需求、使用情況的指標設(shè)計。
3.2調(diào)查方式
本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機抽象的方式進行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請其填寫問卷。
3.3數(shù)據(jù)挖掘和結(jié)果
。1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。
(2)用戶數(shù)據(jù)分析
1)電子商務(wù)用戶認知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎?”得到對電子商務(wù)用戶認知情況的統(tǒng)計,十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒有聽過電子商務(wù)。對調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報刊雜志上知道電子商務(wù)的并且對其進行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。
2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù),你覺得其用途怎樣,假如沒有使用過,你覺得其對自己有用嗎?”得到了認為需要和十分需要的數(shù)據(jù),覺得電子商務(wù)有用的用戶為40.7%,不清楚是否對自己有用的用戶為56.7%,認為不需要的僅有2.4%。
3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費者對某一產(chǎn)品服務(wù)進行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素,未來你會繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時,將來一年之內(nèi)會應(yīng)用電子商務(wù)的用戶為78.2%,一定不會應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好;谟脩籼卣鞯碾娮由虅(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實行營銷和推廣,對潛在用戶積極定位,提高用戶體驗,積極挖掘用戶價值。分析為企業(yè)準確營銷和推廣企業(yè)提供了一個有效的借鑒。
4結(jié)語
互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價值,對這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來,數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應(yīng)用,并且需要轉(zhuǎn)化數(shù)據(jù)成為有價值的信息知識。通過基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究,促使電子商務(wù)獲得巨大發(fā)展機會,發(fā)現(xiàn)潛在用戶,促使電子商務(wù)企業(yè)精準營銷。
數(shù)據(jù)挖掘論文14
[摘 要]目前,隨著現(xiàn)代科技的發(fā)展,互聯(lián)網(wǎng)已成為當代主流,互聯(lián)網(wǎng)技術(shù)的應(yīng)用已經(jīng)是任何一個國家所不能脫離的,經(jīng)濟全球化已成為一個必然的趨勢,在這樣的一個大數(shù)據(jù)時代,人民對信息的獲取需求呈直線上升的狀態(tài)。21世紀作為一個信息時代,網(wǎng)絡(luò)信息的安全防范也顯得尤為重要,而Web數(shù)據(jù)的數(shù)據(jù)技術(shù),對于網(wǎng)絡(luò)信息安全防范來說,是一個新的技術(shù)運用。本文從Web數(shù)據(jù)挖掘技術(shù)的基本概述入手,分析我國企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問題,最后提出將網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)進行整合運用。
[關(guān)鍵詞]Web數(shù)據(jù)挖掘技術(shù);網(wǎng)絡(luò)信息;安全防范
doi:10.3969/j.issn.1673 - 0194.20xx.22.091
[中圖分類號]TP393 [文獻標識碼]A [文章編號]1673-0194(20xx)22-0-02
引 言
世界是發(fā)展的,事物是不斷變化的,21世紀是一個大數(shù)據(jù)時代,互聯(lián)網(wǎng)技術(shù)顯得越來越重要。在科技發(fā)展的同時,互聯(lián)網(wǎng)也在家家戶戶普及,然而網(wǎng)絡(luò)安全問題卻隨之而來,人們在運用科技時也在擔心網(wǎng)絡(luò)技術(shù)的安全性。鑒于此,本文探討利用Web數(shù)據(jù)挖掘技術(shù)來控制網(wǎng)絡(luò)安全,以提高網(wǎng)絡(luò)信息安全度。
1 Web數(shù)據(jù)挖掘技術(shù)概述
Web使用記錄挖掘方式是挖掘網(wǎng)絡(luò)上的瀏覽記錄,然后進行分析,同時還可以獲取其他企業(yè)的信息。通過使用Web數(shù)據(jù)挖掘技術(shù),企業(yè)可以進行復雜的操作,然后從網(wǎng)頁瀏覽記錄分析出自身企業(yè)的受關(guān)注度,并了解同行競爭企業(yè)的詳細信息,尋找自身的不足。
1.1 Web數(shù)據(jù)挖掘技術(shù)的含義
Web數(shù)據(jù)挖掘技術(shù),指的是通過自身的技術(shù),在獲取網(wǎng)上資源的同時,尋找到企業(yè)感興趣的信息資料。圖1為Web數(shù)據(jù)發(fā)掘技術(shù)工作流程。
Web數(shù)據(jù)發(fā)掘技術(shù)可以涉及多個領(lǐng)域,通過多種數(shù)據(jù)挖掘方式,為企業(yè)找到有用的信息資源。整體來說,Web挖掘技術(shù)有兩種類型,一是建立在人工智能模型的基礎(chǔ)上來實現(xiàn),類似于決策樹、分類等;二是建立在統(tǒng)計模型基礎(chǔ)上來實現(xiàn),類似于神經(jīng)網(wǎng)絡(luò)、自然計算法等。
1.2 Web數(shù)據(jù)挖掘技術(shù)的兩種方式
Web數(shù)據(jù)挖掘技術(shù)整體上來說有兩種方式,分別為內(nèi)容挖掘和使用記錄挖掘。Web內(nèi)容挖掘指的是企業(yè)可以通過Web挖掘技術(shù),自己從網(wǎng)上尋找對企業(yè)有用的信息資源,同時對后臺設(shè)置進行監(jiān)控,減少某些重要交易內(nèi)容的丟失、泄露。企業(yè)還可以通過Web挖掘技術(shù),查詢某些用戶的操作記錄,對企業(yè)的網(wǎng)絡(luò)信息安全進行檢查審核,從而降低企業(yè)信息被不法分子竊取的風險。由于其他企業(yè)也有同樣的Web數(shù)據(jù)挖掘技術(shù),因此,企業(yè)也不能深入地去探索同行企業(yè)的內(nèi)部信息,但其通過該技術(shù),可以分析其他企業(yè)的基本信息資源,然后整合出對自身有用的資源,從而制定企業(yè)市場戰(zhàn)略。
2 我國企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問題
目前,科技的發(fā)展,使全球的政治、經(jīng)濟一體化趨勢越來越明顯,互聯(lián)網(wǎng)的進步也使國家企業(yè)面臨著更多的挑戰(zhàn)。我國企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問題也逐步顯現(xiàn),而網(wǎng)絡(luò)信息安全技術(shù)人才緊缺是較為明顯的一個問題。
2.1 人才緊缺問題
21世紀是一個互聯(lián)網(wǎng)的世紀,我國目前正在積極地吸收、引進人才,同時也在不斷地走出去,各行各業(yè)面臨的壓力也在逐漸變大,要想在快速發(fā)展的世界潮流中占據(jù)一席之地,我國必須積極發(fā)展自己的科技產(chǎn)業(yè)。目前,我國的計算機信息技術(shù)水平,在總體上還落后于其他很多國家,而在該方面的人才緊缺問題,是目前一個很明顯的現(xiàn)象。我國在該領(lǐng)域常常要引進國外技術(shù),受制于人,這也就間接地將自己的弊端暴露于人前,因此,我國要積極培養(yǎng)具有計算機網(wǎng)絡(luò)技術(shù)的高端人員,從而促進該領(lǐng)域不斷實現(xiàn)創(chuàng)新。
2.2 自身安全技術(shù)漏洞問題
除了人才緊缺,我國的'網(wǎng)絡(luò)產(chǎn)品自身還存在許多的安全技術(shù)漏洞。從近幾年的市場經(jīng)濟發(fā)展現(xiàn)狀來看,我國很多的電子產(chǎn)品被國外壟斷,如蘋果、微軟等高端電子產(chǎn)品,在我國占有很大的市場份額。我國要想重新將自己的電子產(chǎn)品推向市場,就目前的形勢來看,還需要很大的努力,國民崇尚國外產(chǎn)品,不是為了標榜自己的地位,更多的是國外產(chǎn)品的性能確實比我國的要好。因此,通過我國網(wǎng)絡(luò)產(chǎn)品自身存在的安全技術(shù)漏洞可以看出,我國在網(wǎng)絡(luò)安全技術(shù)方面存在許多的不足。
3 網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合
近幾年,網(wǎng)絡(luò)信息安全問題一直是國民較為關(guān)注的一個話題,我國也在該方面加大了防范力度。國家在發(fā)展創(chuàng)新互聯(lián)網(wǎng)技術(shù)的同時,也不能忽略其安全問題。網(wǎng)絡(luò)信息安全,關(guān)乎我國企業(yè)的發(fā)展,是企業(yè)重要資料不外漏的重要保護屏障,本文將網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)進行整合(見圖2),旨在提高網(wǎng)絡(luò)信息環(huán)境的安全度,提高我國網(wǎng)絡(luò)信息安全防范能力。
本文初探Web數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)信息安全防范的整合,將分別從4個方面來提高我國的網(wǎng)絡(luò)信息安全性能。
首先,將存在于網(wǎng)絡(luò)數(shù)據(jù)間的關(guān)聯(lián)尋找出來,然后整合交給企業(yè)進行分析,企業(yè)通過這些關(guān)聯(lián)數(shù)據(jù),分析提煉出對自己企業(yè)有用的信息,繼而制定企業(yè)戰(zhàn)略,防范風險。
其次,使用Web數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)信息進行分類分析。企業(yè)應(yīng)將所有的信息進行綜合,然后按照一定的指標分出類別,并對這些不同類別的信息進行整理,方便后續(xù)的檢索。該項功能主要依靠人工智能來完成,以保證資料能夠得到完整的利用。
再次,使用Web數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)信息進行聚類分析。企業(yè)應(yīng)將這些具有共同點的信息進行分類,將這些數(shù)據(jù)分成各個小組,但每一個小組都要有一個共同的類似點,以便于從整體對局部進行分析。
最后,利用Web數(shù)據(jù)挖掘技術(shù),根據(jù)收集到的資源信息的不同點進行分類,分類后根據(jù)這些不同點的特征,分析出對自身企業(yè)有用的信息。從整體上說,Web數(shù)據(jù)挖掘技術(shù)通過運用其強大的分析能力,可對網(wǎng)絡(luò)信息進行篩選、整合,企業(yè)可再根據(jù)這些整合出來的資源信息,為自身制定戰(zhàn)略,為企業(yè)發(fā)展提供一個良好的網(wǎng)絡(luò)信息環(huán)境。
4 結(jié) 語
網(wǎng)絡(luò)技術(shù)在給用戶帶來便利的同時,也給用戶的信息安全造成了極大的威脅,科技進步,技術(shù)也在不斷進步,為了使信息得到最大的保護,網(wǎng)絡(luò)信息的安全技術(shù)要隨著科技的進步不斷發(fā)展,為互聯(lián)網(wǎng)的運用提供一個完善安全的網(wǎng)絡(luò)系統(tǒng)。本文通過Web數(shù)據(jù)挖掘技術(shù),將網(wǎng)絡(luò)信息安全防范與該技術(shù)進行有效整合,提高了我國企業(yè)的網(wǎng)絡(luò)信息安全度,以為我國企業(yè)的發(fā)展提供一個良好的環(huán)境。
主要參考文獻
[1]劉波.淺談數(shù)據(jù)挖掘技術(shù)在臨床醫(yī)學領(lǐng)域中的應(yīng)用[J].電子世界,20xx(12).
[2]趙炬紅,陳坤彥.基于數(shù)據(jù)挖掘技術(shù)的茶葉營銷策略分析[J].福建茶葉,20xx(5).
[3]崔道江,陳琳,李勇.智能檢索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)優(yōu)化研究[J].計算機測量與控制,20xx(6).
[4]王珣.基于Spark平臺的大數(shù)據(jù)挖掘技術(shù)研究[J].微型電腦應(yīng)用,20xx(6)
數(shù)據(jù)挖掘論文15
摘要:文章首先對數(shù)據(jù)挖掘技術(shù)及其具體功能進行簡要分析,在此基礎(chǔ)上對科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進行論述。期望通過本文的研究能夠?qū)蒲泄芾硭降倪M一步提升有所幫助。
關(guān)鍵詞:科研管理;數(shù)據(jù)挖掘;技術(shù)應(yīng)用
1數(shù)據(jù)挖掘技術(shù)及其具體功能分析
所謂的數(shù)據(jù)挖掘具體是指通過相關(guān)的算法在大量的數(shù)據(jù)當中對隱藏的、有利用價值的信息進行搜索的過程。數(shù)據(jù)挖掘是一門綜合性較強的科學技術(shù),其中涉及諸多領(lǐng)域的知識,如人工智能、機器學習、數(shù)據(jù)庫、數(shù)理統(tǒng)計等等。數(shù)據(jù)挖掘技術(shù)具有如下幾個方面的功能:1.1關(guān)聯(lián)規(guī)則分析。這是數(shù)據(jù)挖掘技術(shù)較為重要的功能之一,可從給定的數(shù)據(jù)集當中,找到出現(xiàn)比較頻繁的項集,該項集具體是指行形如X->Y,在數(shù)據(jù)庫當中,X和Y所代表的均為屬性取值。在關(guān)聯(lián)規(guī)則下,只要數(shù)據(jù)滿足X條件,就一定滿足Y條件,數(shù)據(jù)挖掘技術(shù)的這個功能在商業(yè)金融等領(lǐng)域中的應(yīng)用較為廣泛。1.2回歸模式分析回歸模式主要是通過對連續(xù)數(shù)值的預(yù)測,來達到挖掘數(shù)據(jù)的目的。例如,已知企業(yè)某個人的教育背景、工作年限等條件,可對其年薪的范圍進行判定,整個分析過程是利用回歸模型予以實現(xiàn)的。在該功能中,已知的條件越多,可進行挖掘的信息就越多。1.3聚類分析聚類具體是指將相似程度較高的數(shù)據(jù)歸為同一個類別,通過聚類分析能夠從數(shù)據(jù)集中找出類似的數(shù)據(jù),并組成不同的組。在聚類分析的過程中,需要使用聚類算法,借助該算法對數(shù)據(jù)進行檢測后,可以判斷其隱藏的屬性,并將數(shù)據(jù)庫分為若干個相似的組。
2科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
科研是科學研究的簡稱,具體是指為認識客觀事物在內(nèi)在本質(zhì)及其運動規(guī)律,而借助某些技術(shù)手段和設(shè)備,開展調(diào)查研究、實驗等活動,并為發(fā)明和創(chuàng)造新產(chǎn)品提供理論依據(jù)。科研管理是對科研項目全過程的`管理,如課題管理、經(jīng)費管理、成果管理等等。由于科學研究中涉及的內(nèi)容較多,從而給科研管理工作增添了一定的難度。為進一步提升科研管理水平,可在不同的管理環(huán)節(jié)中,對數(shù)據(jù)挖掘技術(shù)進行應(yīng)用。下面就此展開詳細論述。
2.1在立項及可行性評估中的應(yīng)用
科研管理工作的開展需要以相關(guān)的科研課題作為依托,當課題選定之后,需要對其可行性及合理性進行全面系統(tǒng)地評估,由此使得科研課題的立項及評估成為科研管理的主要工作內(nèi)容,F(xiàn)階段,國內(nèi)的科研課題立項采用的是申請審批制,具體的流程是:由科研機構(gòu)的相關(guān)人員負責提出申請,然后再由科技主管部門從申請中進行篩選,經(jīng)過業(yè)內(nèi)專家的評審論證之后,擇優(yōu)選取科研項目的承接單位。在進行科研課題立項的過程中,涉及諸多方面的內(nèi)容,具體包括申請單位、課題的研究領(lǐng)域、經(jīng)費安排、主管單位以及評審專家等。通過調(diào)查發(fā)現(xiàn),由于國家宏觀調(diào)控政策的缺失,導致科研立項中存在低水平、重復性研究的情況,從而造成大量的研究經(jīng)費浪費,所取得的研究成果也不顯著?蒲泄芾聿块T雖然建立了相對完善的數(shù)據(jù)庫系統(tǒng),并且系統(tǒng)也涵蓋與項目申請、審評等方面有關(guān)的基本操作流程,如上傳項目申報文件、將文件發(fā)給相關(guān)的評審專家、對評審結(jié)果進行自動統(tǒng)計等。從本質(zhì)的角度上講,數(shù)據(jù)庫管理系統(tǒng)所完成的這些工作流程,就是將傳統(tǒng)管理工作轉(zhuǎn)變?yōu)樾畔⒒。故此,?yīng)當對已有的數(shù)據(jù)進行深入挖掘,從而找出其中更具利用價值的信息,據(jù)此對科研立項進行指導,這樣不但能夠使有限的科技資源得到最大限度地利用,而且還能使科研經(jīng)費的使用效益獲得全面提升。在科研立項階段,可對數(shù)據(jù)挖掘技術(shù)進行合理運用,借此來對課題申請中涉及的各種因素進行挖掘,找出其中潛在的規(guī)則,為指標體系的構(gòu)建和遴選方法的選擇提供可靠依據(jù),最大限度地降低不合理因素對課題立項帶來的影響,對確需資助的科研項目進行準確選擇,并給予相應(yīng)的資助。在科研立項環(huán)節(jié)中,對數(shù)據(jù)挖掘技術(shù)進行應(yīng)用時,可以借助改進后的Apriori算法進行數(shù)據(jù)挖掘,從中找出關(guān)聯(lián)規(guī)則,在對該規(guī)則進行分析的基礎(chǔ)上,對立項的合理性進行評價。
2.2在項目管理中的應(yīng)用
項目管理是科研管理的關(guān)鍵環(huán)節(jié),為提高項目管理的效率和水平,可對數(shù)據(jù)挖掘技術(shù)進行合理運用。在信息時代到來的今天,計算機技術(shù)、網(wǎng)絡(luò)技術(shù)的普及程度越來越高,國內(nèi)很多科研機構(gòu)都紛紛構(gòu)建起了相關(guān)的管理信息系統(tǒng),其中涵蓋了諸多的信息,如課題、科研人員、研究條件等等,而在這些信息當中,隱藏著諸多具有特定意義的規(guī)則,為找出這些規(guī)則,需要借助數(shù)據(jù)挖掘技術(shù),對信息進行深入分析,進而獲取對科研項目有幫助的信息。由于大部分科研管理部門建立的科研管理信息系統(tǒng)時間較早,從而使得系統(tǒng)本身的功能比較單一,如信息刪減、修改、查詢、統(tǒng)計等等,雖然這些功能可以滿足對科研課題進展、經(jīng)費使用等方面的管理,但其面向的均為數(shù)據(jù)庫管理人員,處理的也都是常規(guī)事務(wù)。而從科研課題的管理者與決策者的角度上看,管理信息系統(tǒng)這些功能顯然是有所不足的,因為他們需要對歷史進行分析和提煉,從中獲取相應(yīng)的數(shù)據(jù),為決策和管理工作的開展提供支撐。對此,可應(yīng)用數(shù)據(jù)挖掘技術(shù)的OLAP,即數(shù)據(jù)庫聯(lián)機分析處理,由此能夠幫助管理者從不同的方面對數(shù)據(jù)進行觀察,進而深入了解數(shù)據(jù)并獲取所需的信息。利用OLAP可以發(fā)現(xiàn)多種于科研課題有關(guān)信息之間的內(nèi)在聯(lián)系,這樣管理者便能及時發(fā)現(xiàn)其中存在的相關(guān)問題,并針對問題采取有效的方法和措施加以應(yīng)對。運用數(shù)據(jù)挖掘技術(shù)能夠?qū)蒲许椖康南嚓P(guān)數(shù)據(jù)進行分析,找出其中存在的矛盾,從而使管理工作的開展更具針對性。
3結(jié)論
綜上所述,科研管理是一項較為復雜且系統(tǒng)的工作,其中涵蓋的信息相對較多。為此,可將數(shù)據(jù)挖掘技術(shù)在科研管理中進行合理應(yīng)用,對相關(guān)信息進行深入分析,從中挖掘出有利用價值的信息,為科研管理工作的開展提供可靠的依據(jù),由此除了能夠確?蒲许椖宽樌M行之外,還能提高科研管理水平。
參考文獻:
。1]劉占波,王立偉,王曉麗.大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高校科研管理系統(tǒng)的設(shè)計[J].電子測試,20xx(1):21-22.
。2]史子靜.高校科研管理系統(tǒng)中計算機數(shù)據(jù)挖掘技術(shù)的運用研究[J].科技資訊,20xx(6):65-66.
。3]丁磊.數(shù)據(jù)挖掘技術(shù)在高校教師科研管理中的應(yīng)用研究[D].大連海事大學,20xx.
【數(shù)據(jù)挖掘論文】相關(guān)文章:
數(shù)據(jù)挖掘論文07-16
數(shù)據(jù)挖掘論文07-15
計算機數(shù)據(jù)庫論文07-28
關(guān)于大數(shù)據(jù)時代下的隱私保護探究論文04-14
基于大數(shù)據(jù)的江蘇省農(nóng)村電商建設(shè)不足與完善論文03-09
數(shù)據(jù)分析報告02-02
關(guān)于挖掘合同04-08