數(shù)據(jù)挖掘論文
在現(xiàn)實的學(xué)習(xí)、工作中,許多人都寫過論文吧,通過論文寫作可以培養(yǎng)我們獨立思考和創(chuàng)新的能力。你知道論文怎樣寫才規(guī)范嗎?以下是小編收集整理的數(shù)據(jù)挖掘論文,僅供參考,大家一起來看看吧。
數(shù)據(jù)挖掘論文1
1數(shù)據(jù)挖掘技術(shù)和過程
1.1數(shù)據(jù)挖掘技術(shù)概述
發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對的知識,是具有特定前提與條件,面向既定領(lǐng)域的,同時還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價值的商業(yè)數(shù)據(jù)。簡單來說,其實數(shù)據(jù)挖掘是一種對數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘為:根據(jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識包括:
1.1.1廣義知識體現(xiàn)相同事物共同性質(zhì)的知識,是指類別特點的概括描述知識。按照數(shù)據(jù)的微觀特點對其表征的、具有普遍性的、極高概念層次的知識積極發(fā)現(xiàn),是對數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關(guān)聯(lián)知識體現(xiàn)一個事件與其他事件之間形成的關(guān)聯(lián)知識。假如兩項或者更多項之間形成關(guān)聯(lián),則其中一項的屬性數(shù)值就能夠借助其他屬性數(shù)值實行預(yù)測。
1.1.3分類知識體現(xiàn)相同事物共同特點的屬性知識與不同事物之間差異特點知識。
1.2數(shù)據(jù)挖掘過程
1.2.1明確業(yè)務(wù)對象對業(yè)務(wù)問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無法預(yù)測的,但是研究的問題是可預(yù)見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會體現(xiàn)出盲目性,通常也不會獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點,基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會解決大量現(xiàn)實問題,為企業(yè)確定目標(biāo)市場、完善決策、獲得最大競爭優(yōu)勢,其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競爭力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。
1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個分析模型。這一分析模型是相對于挖掘算法構(gòu)建的。構(gòu)建一個與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點?梢岳猛队皵(shù)據(jù)庫的相關(guān)操作對數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對某些挖掘參數(shù)能夠積極控制。
1.2.5評價挖掘結(jié)果這個過程劃分為兩個步驟:表達(dá)結(jié)果和評價結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對挖掘結(jié)果積極理解。第二評價結(jié)果:用戶與機(jī)器對數(shù)據(jù)挖掘獲得的模式有效評價,對冗余或者無關(guān)的模式及時刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對挖掘過程科學(xué)執(zhí)行,直到獲得用戶滿意為止。
2用戶細(xì)分理論
用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤,還包含未來利潤,也就是在未來用戶為企業(yè)可能帶來的利潤總和。基于用戶價值的細(xì)分理論選擇客戶當(dāng)前價值與客戶潛在價值兩個因素評價用戶。用戶當(dāng)前價值是指截止到目前用戶對企業(yè)貢獻(xiàn)的總體價值;用戶潛在價值是指未來用戶可能為企業(yè)創(chuàng)造的價值總和。每個因素還能夠劃分為兩個高低檔次,進(jìn)一步產(chǎn)生一個二維的矩陣,把用戶劃分為4組,價值用戶、次價值用戶、潛在價值用戶、低價值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應(yīng)當(dāng)形成對應(yīng)的方法,投入不同的資源。很明顯對于企業(yè)來說價值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤;其他則是低價值用戶,對企業(yè)來說價值最小,成為鉛質(zhì)用戶,另外一類則是潛在價值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價值有限,甚至很小。需要我們注意的是潛在價值用戶利用再造用戶關(guān)系,將來極有可能變成價值用戶。從長期分析,潛在價值用戶可以是企業(yè)的隱形財富,是企業(yè)獲得利潤的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對這4類用戶特點有效挖掘。
3電子商務(wù)數(shù)據(jù)挖掘分析
3.1設(shè)計問卷
研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價值用戶特征、次價值用戶特征、潛在價值用戶特征,對電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對象的個人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對用戶對電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計。
3.2調(diào)查方式
本次調(diào)查的問卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請其填寫問卷。
3.3數(shù)據(jù)挖掘和結(jié)果
。1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。
。2)用戶數(shù)據(jù)分析
1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問卷的問題“您知道電子商務(wù)嗎?”得到對電子商務(wù)用戶認(rèn)知情況的統(tǒng)計,十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒有聽過電子商務(wù)。對調(diào)查問卷問題“您聽過電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報刊雜志上知道電子商務(wù)的并且對其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。
2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務(wù),你覺得其用途怎樣,假如沒有使用過,你覺得其對自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺得電子商務(wù)有用的用戶為40.7%,不清楚是否對自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。
3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費者對某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購買的一種心理欲望。按照問題“假如可以滿足你所關(guān)心的因素,未來你會繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時,將來一年之內(nèi)會應(yīng)用電子商務(wù)的用戶為78.2%,一定不會應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好。基于用戶特征的電子商務(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過這一結(jié)果能夠更好地實行營銷和推廣,對潛在用戶積極定位,提高用戶體驗,積極挖掘用戶價值。分析為企業(yè)準(zhǔn)確營銷和推廣企業(yè)提供了一個有效的借鑒。
4結(jié)語
互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價值,對這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來,數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應(yīng)用,并且需要轉(zhuǎn)化數(shù)據(jù)成為有價值的信息知識。通過基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究,促使電子商務(wù)獲得巨大發(fā)展機(jī)會,發(fā)現(xiàn)潛在用戶,促使電子商務(wù)企業(yè)精準(zhǔn)營銷。
數(shù)據(jù)挖掘論文2
摘 要:高度開放的中國金融市場,特別是中國銀行業(yè)市場受到日趨激烈的國外銀行沖擊和挑戰(zhàn),大多數(shù)銀行企業(yè)都在構(gòu)建以客戶為中心的客戶關(guān)系管理體系,這一經(jīng)營體系理念的構(gòu)建,不僅僅能提高企業(yè)的知名度和顧客的滿意度,而且能提高企業(yè)的經(jīng)濟(jì)效益。但是,隨著網(wǎng)絡(luò)技
關(guān)鍵詞:客戶關(guān)系管理畢業(yè)論文
高度開放的中國金融市場,特別是中國銀行業(yè)市場受到日趨激烈的國外銀行沖擊和挑戰(zhàn),大多數(shù)銀行企業(yè)都在構(gòu)建以客戶為中心的客戶關(guān)系管理體系,這一經(jīng)營體系理念的構(gòu)建,不僅僅能提高企業(yè)的知名度和顧客的滿意度,而且能提高企業(yè)的經(jīng)濟(jì)效益。但是,隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的發(fā)展,客戶關(guān)系管理如何能結(jié)合數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉庫技術(shù),增強(qiáng)企業(yè)的核心競爭力已經(jīng)成為企業(yè)亟待解決的問題。因為,企業(yè)的數(shù)據(jù)挖掘技術(shù)的運(yùn)用能夠解決客戶的矛盾,為客戶設(shè)計獨立的、擁有個性化的數(shù)據(jù)產(chǎn)品和數(shù)據(jù)服務(wù),能夠真正意義上以客戶為核心,防范企業(yè)風(fēng)險,創(chuàng)造企業(yè)財富。
關(guān)鍵詞:客戶關(guān)系管理畢業(yè)論文
一、數(shù)據(jù)挖掘技術(shù)與客戶關(guān)系管理兩者的聯(lián)系
隨著時代的發(fā)展,銀行客戶關(guān)系管理的發(fā)展已經(jīng)越來越依賴數(shù)據(jù)挖掘技術(shù),而數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)倉庫技術(shù)的基礎(chǔ)上應(yīng)運(yùn)而生的,兩者有機(jī)的結(jié)合能夠收集和處理大量的客戶數(shù)據(jù),通過數(shù)據(jù)類型與數(shù)據(jù)特征,進(jìn)行整合,挖掘具有特殊意義的潛在客戶和消費群體,能夠觀察市場變化趨勢,這樣的技術(shù)在國外的銀行業(yè)的客戶關(guān)系管理廣泛使用。而作為國內(nèi)的銀行企業(yè),受到國外銀行業(yè)市場的大幅度沖擊,顯得有些捉襟見肘,面對大量的數(shù)據(jù)與快速發(fā)展的互聯(lián)網(wǎng)金融體系的沖擊,銀行業(yè)缺乏數(shù)據(jù)分析和存儲功能,往往造成數(shù)據(jù)的流逝,特別是在數(shù)據(jù)的智能預(yù)測與客戶關(guān)系管理還處于初步階段。我國的銀行業(yè)如何能更完善的建立客戶關(guān)系管理體系與數(shù)據(jù)挖掘技術(shù)相互融合,這樣才能使得企業(yè)獲得更強(qiáng)的企業(yè)核心競爭力。
二、數(shù)據(jù)挖掘技術(shù)在企業(yè)客戶關(guān)系管理實行中存在的問題
現(xiàn)今,我國的金融業(yè)發(fā)展存在著數(shù)據(jù)數(shù)量大,數(shù)據(jù)信息混亂等問題,無法結(jié)合客戶關(guān)系管理的需要,建立統(tǒng)一而行之有效的數(shù)據(jù)歸納,并以客戶為中心實行客戶關(guān)系管理。
1.客戶信息不健全
在如今的銀行企業(yè),雖然已經(jīng)實行實名制戶籍管理制度,但由于實行的年頭比較短,特別是以前的數(shù)據(jù)匱乏。重點體現(xiàn)在,銀行的客戶信息采集主要是姓名和身份證號碼,而對于客戶的職業(yè)、學(xué)歷等相關(guān)信息一概不知,極大的影響了客戶關(guān)系管理體系的構(gòu)建。另外,數(shù)據(jù)還不能統(tǒng)一和兼容,每個系統(tǒng)都是獨立的系統(tǒng),比如:信貸系統(tǒng)、儲蓄系統(tǒng)全部分離。這樣存在交叉、就不能掌握出到底擁有多少客戶,特別是那些需要服務(wù)的目標(biāo)客戶,無法享受到銀行給予的高質(zhì)量的優(yōu)質(zhì)服務(wù)。
2.數(shù)據(jù)集中帶來的差異化的憂慮
以客戶為中心的客戶關(guān)系管理體系,是建立在客戶差異化服務(wù)的基礎(chǔ)上的,而作為銀行大多數(shù)以數(shù)據(jù)集中,全部有總行分配,這樣不僅不利于企業(yè)的差異化服務(wù),給顧客提供優(yōu)質(zhì)得到個性化業(yè)務(wù),同時,分行也很難對挖掘潛在客戶和分析客戶成分提供一手的數(shù)據(jù),損失客戶的利益,做到數(shù)據(jù)集中,往往是不明智的選擇。
3.經(jīng)營管理存在弊端
從組織結(jié)構(gòu)上,我國的銀行體系設(shè)置機(jī)構(gòu)龐雜,管理人員與生產(chǎn)服務(wù)人員脫節(jié)現(xiàn)象極其普遍,管理人員不懂業(yè)務(wù),只是一味的抓市場,而沒有有效的營銷手段,更別說以市場為導(dǎo)向,以客戶為核心,建立客戶關(guān)系管理體系。大多數(shù)的人完全是靠關(guān)系而非真正意義上靠能力,另外,業(yè)務(wù)流程繁瑣,不利于客戶享受更多的星級待遇,這與數(shù)據(jù)發(fā)掘的運(yùn)用背道而馳,很難體現(xiàn)出客戶關(guān)系管理的價值。
三、數(shù)據(jù)挖掘技術(shù)在企業(yè)的應(yīng)用和實施
如何能更好的利用數(shù)據(jù)挖掘技術(shù)與客戶關(guān)系管理進(jìn)行合理的搭配和結(jié)合是現(xiàn)今我們面臨的最大問題。所有我們對客戶信息進(jìn)行分析,利用模糊聚類分析方法對客戶進(jìn)行分類,通過建立個性化的信息服務(wù)體系,真正意義的提高客戶的價值。
1.優(yōu)化客戶服務(wù)
以客戶為中心提高服務(wù)質(zhì)量是銀行發(fā)展的根源。要利用數(shù)據(jù)挖掘技術(shù)的優(yōu)勢,發(fā)現(xiàn)信貸趨勢,及時掌握客戶的需求,為客戶提高網(wǎng)上服務(wù),網(wǎng)上交易,網(wǎng)上查詢等功能,高度體現(xiàn)互聯(lián)網(wǎng)的作用,動態(tài)挖掘數(shù)據(jù),通過智能化的信貸服務(wù),拓寬銀行業(yè)務(wù)水平,保證客戶的滿意度。
2.利用數(shù)據(jù)挖掘技術(shù)建立多渠道客戶服務(wù)系統(tǒng)
利用數(shù)據(jù)挖掘技術(shù)整合銀行業(yè)務(wù)和營銷環(huán)節(jié)為客戶提供綜合性的服務(wù)。采用不同的渠道實現(xiàn)信息共享,針對目標(biāo)客戶推薦銀行新產(chǎn)品,拓寬新領(lǐng)域,告別傳統(tǒng)的柜臺服務(wù)體系,實行互聯(lián)網(wǎng)與柜臺體系相結(jié)合的多渠道服務(wù)媒介體系。優(yōu)化客戶關(guān)系管理理念,推進(jìn)營銷戰(zhàn)略的執(zhí)行。提高企業(yè)的美譽(yù)度。
四、數(shù)據(jù)挖掘技術(shù)是銀行企業(yè)客戶關(guān)系管理體系構(gòu)建的基礎(chǔ)
隨著信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)技術(shù)的快速推進(jìn),客戶關(guān)系管理體系要緊跟時代潮流,緊密圍繞客戶為中心,利用信息優(yōu)勢,自動獲取客戶需求,打造出更多的個性化、差異化客戶服務(wù)理念,使得為企業(yè)核心競爭能力得到真正意義的提高。
數(shù)據(jù)挖掘論文3
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,尤其移動互聯(lián)網(wǎng)的爆發(fā)性發(fā)展,越來越多的公司憑借其備受歡迎的系統(tǒng)和APP如雨后春筍般發(fā)展起來,如滴滴打車、共享單車等。海量數(shù)據(jù)自此不再是Google等大公司的專利,越來越多的中小型企業(yè)也可以擁有海量數(shù)據(jù)。如何從浩如煙海的數(shù)據(jù)中挖掘出令人感興趣和有用的知識,成為越來越多的公司急需解決的問題。因此,他們對數(shù)據(jù)挖掘分析師求賢若渴。在這一社會需求下,培養(yǎng)出優(yōu)秀的數(shù)據(jù)挖掘分析師,是各個高校目前急需完成的一項任務(wù)。
一、教學(xué)現(xiàn)狀反思
目前,各大高等院校本科階段爭相開設(shè)數(shù)據(jù)挖掘課程。然而,該課程是一門相對較新的交叉學(xué)科,涵蓋了概率統(tǒng)計、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等學(xué)科的知識內(nèi)容,難度較大。因此,大部分高校一般將此課程開設(shè)在研究生階段,在本科生中開設(shè)此課程的學(xué)校相對較少。另外,不同的學(xué)校將其歸入不同的專業(yè)中,如計算機(jī)專業(yè)、信息管理專業(yè)、統(tǒng)計學(xué)、醫(yī)學(xué)等。可以說,這一課程基本上處于探索的過程中。我院災(zāi)害信息系于20xx年在信息管理與信息系統(tǒng)本科學(xué)生中首次開設(shè)了該課程。通過開設(shè)此課程,學(xué)生能夠掌握數(shù)據(jù)挖掘的基本原理和各種挖掘算法等,掌握數(shù)據(jù)分析和處理、高級數(shù)據(jù)庫編程等技能,達(dá)到數(shù)據(jù)聚類、分類、關(guān)聯(lián)分析的目的。然而,通過前期教學(xué)過程,我們發(fā)現(xiàn)教學(xué)效果不理想,存在很多問題。
1.數(shù)據(jù)內(nèi)驅(qū)力差
以往數(shù)據(jù)挖掘課程重點講授數(shù)據(jù)挖掘算法,對數(shù)據(jù)源的獲取和處理極少獲取。目前各大教材都在使用一些公共數(shù)據(jù)資源,這些數(shù)據(jù)資源有些已經(jīng)非常陳舊了,比如20世紀(jì)80年代的加州房價數(shù)據(jù)。這些數(shù)據(jù)脫離現(xiàn)實,分析這些數(shù)據(jù),學(xué)生沒有任何興趣和學(xué)習(xí)動力,也就無法發(fā)現(xiàn)價值。
2.過于強(qiáng)調(diào)學(xué)習(xí)數(shù)據(jù)挖掘理論及算法的學(xué)習(xí)
大量具有難度的數(shù)據(jù)挖掘算法的學(xué)習(xí),使學(xué)生喪失了學(xué)習(xí)興趣,學(xué)完即忘,不知所用。
3.忽視對數(shù)據(jù)預(yù)處理過程的學(xué)習(xí)
以往所使用的公共數(shù)據(jù)源或軟件自帶數(shù)據(jù)源,數(shù)據(jù)量小,需要的預(yù)處理工作比較少;這部分內(nèi)容基本只安排一次理論課、一次實驗課。而實際通過爬蟲獲取的數(shù)據(jù)源數(shù)據(jù)量大;這部分工作量比較大,需要占到整個數(shù)據(jù)挖掘工作量的一半以上。因此,一次理論課和一次實驗課是無法讓學(xué)生掌握數(shù)據(jù)預(yù)處理技能的。
4.算法編程實現(xiàn)難度較大
要求學(xué)生學(xué)習(xí)一門新的編程語言,如R語言、Python語言,對本科非計算機(jī)專業(yè)的學(xué)生來說難度是非常大的,尤其是課時安排只有48課時。
5.數(shù)據(jù)挖掘分析及應(yīng)用技能較差
學(xué)生能夠理解課堂案例,但在實際應(yīng)用中,無法完成整個數(shù)據(jù)分析流程。
二、數(shù)據(jù)挖掘課程改革
該課程的教學(xué)對象是信息管理與信息系統(tǒng)專業(yè)本科大四學(xué)生。因此,培養(yǎng)實際應(yīng)用人才,使其完成整個實際數(shù)據(jù)挖掘分析流程是教師的教學(xué)目的。筆者對智聯(lián)招聘、中華英才網(wǎng)、51job等幾個大型招聘網(wǎng)站的幾百個數(shù)據(jù)挖掘分析師相關(guān)職位進(jìn)行分析,主要分析了相關(guān)職位的工作內(nèi)容、職位要求以及需求企業(yè)。數(shù)據(jù)分析師主要利用數(shù)據(jù)挖掘工具對運(yùn)營數(shù)據(jù)等多種數(shù)據(jù)源進(jìn)行預(yù)處理、建模、挖掘、分析及優(yōu)化。該職位是受業(yè)務(wù)驅(qū)動的,特點是將現(xiàn)有數(shù)據(jù)與業(yè)務(wù)相結(jié)合,最大程度地變現(xiàn)數(shù)據(jù)價值。該職位對計算機(jī)編程等相關(guān)技術(shù)不作要求,但是需要有深厚的數(shù)據(jù)挖掘理論基礎(chǔ),熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計分析)工具;诖耍處熆梢圆扇∫韵虏呗赃M(jìn)行教學(xué)改革。
1.加強(qiáng)對業(yè)務(wù)數(shù)據(jù)的理解
數(shù)據(jù)挖掘分析師是受業(yè)務(wù)驅(qū)動的,所以要理解實際業(yè)務(wù),明確本次數(shù)據(jù)挖掘要解決什么問題。教師可以構(gòu)建案例庫,包括教師案例庫、學(xué)生討論案例庫。教師案例庫由教師構(gòu)建,可用于課堂講授。學(xué)生案例庫由學(xué)生分組構(gòu)建,并安排討論課,由學(xué)生講述、討論并提交報告。
2.加強(qiáng)對數(shù)據(jù)的獲取
對學(xué)生感興趣的數(shù)據(jù)源進(jìn)行挖掘,這樣才能更好地幫助學(xué)生理解吸收知識。因此,可以教授學(xué)生爬蟲技術(shù),編寫爬蟲程序,使其自主獲取感興趣的數(shù)據(jù)。
3.加強(qiáng)對數(shù)據(jù)的預(yù)處理工作
在數(shù)據(jù)挖掘之前使用數(shù)據(jù)預(yù)處理技術(shù),能夠顯著提高數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間,應(yīng)將其作為整門課程的重點進(jìn)行學(xué)習(xí)。增加理論課程和實驗課時,使學(xué)生掌握數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸納等數(shù)據(jù)預(yù)處理技術(shù),并能夠應(yīng)對各種復(fù)雜數(shù)據(jù)源,最終利用爬蟲程序獲取的各種數(shù)據(jù)源進(jìn)行預(yù)處理工作。
4.強(qiáng)化數(shù)據(jù)挖掘分析
教師可以選擇SPSS Modeler這款所見即所得的數(shù)據(jù)挖掘軟件作為配套實驗平臺。該軟件具有必需的數(shù)據(jù)預(yù)處理工具及預(yù)設(shè)的挖掘算法,學(xué)生可以把注意力放在要挖掘的數(shù)據(jù)及相關(guān)需求上,設(shè)定挖掘的主題,然后通過鼠標(biāo)的點擊拖拉即可完成相關(guān)主題的數(shù)據(jù)挖掘過程。學(xué)生最終可對自己獲取并已處理過的數(shù)據(jù)進(jìn)行挖掘分析。
5.加強(qiáng)教師外出培訓(xùn)學(xué)習(xí)
數(shù)據(jù)挖掘技術(shù)以及大數(shù)據(jù)技術(shù)是近來比較新穎而且發(fā)展迅速的技術(shù)。教師長期身處三尺講臺之上,遠(yuǎn)離了新技術(shù),脫離了實際。因此,需派遣教師到知名高校學(xué)習(xí)數(shù)據(jù)挖掘教學(xué)技術(shù),到培訓(xùn)機(jī)構(gòu)進(jìn)行系統(tǒng)學(xué)習(xí),到企業(yè)進(jìn)行實戰(zhàn)學(xué)習(xí)。
基于以上分析,形成了新的數(shù)據(jù)挖掘理論課程內(nèi)容和實踐課程內(nèi)容,安排如表1和表2所示。共安排48學(xué)時,其中理論課24學(xué)時,實驗課24學(xué)時。理論課重點講授數(shù)據(jù)的獲取、數(shù)據(jù)的理解、數(shù)據(jù)的預(yù)處理以及常用挖掘算法。實驗課重點學(xué)習(xí)基于SPSS modeler的數(shù)據(jù)挖掘,對理論課的內(nèi)容進(jìn)行實踐。整個學(xué)習(xí)以工程項目為載體,該工程貫穿整個學(xué)習(xí)過程。學(xué)生通過爬蟲程序獲取自己感興趣的數(shù)據(jù)源,根據(jù)課程進(jìn)度,逐步完成后續(xù)數(shù)據(jù)的理解,再進(jìn)行預(yù)處理,建模分析,評估整個過程。在課程結(jié)束時,完成整個項目,并提交報告。
三、結(jié)論
在數(shù)字時代,越來越多的企業(yè)急需數(shù)據(jù)挖掘分析人才。教師應(yīng)以培養(yǎng)實際應(yīng)用人才為目的,充分培養(yǎng)學(xué)生對數(shù)據(jù)挖掘的學(xué)習(xí)興趣,以工程項目為載體,貫穿整個課程周期。在教學(xué)中,打牢數(shù)據(jù)獲取、理解預(yù)處理這一基石,加強(qiáng)建模挖掘分析,弱化對晦澀算法的編程學(xué)習(xí),使學(xué)生真正掌握數(shù)據(jù)挖掘技術(shù),滿足社會需求。
參考文獻(xiàn):
[1]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計算機(jī)時代,20xx(2):54-55.
[2]宋威,李晉宏.項目驅(qū)動的數(shù)據(jù)挖掘教學(xué)模式探討[J].中國電力教育,20xx(27):116-177.
[3]徐琴.應(yīng)用型本科數(shù)據(jù)挖掘技術(shù)課程教學(xué)探討與實踐[J].電腦知識與技術(shù),20xx,12(8):148-149.
[4]李姍姍,李忠.就業(yè)需求驅(qū)動下的本科院校數(shù)據(jù)挖掘課程內(nèi)容體系探討[J].計算機(jī)時代,20xx(2):60-61.
數(shù)據(jù)挖掘論文4
摘要:隨著我國社會經(jīng)濟(jì)的不斷發(fā)展,人力資源管理也受到越來越多人們的重視,然而在如今激烈的市場競爭下很多企業(yè)依然不重視人力資源管理,從而使得自身的整體工作效率不高。為此,筆者認(rèn)為為了提高礦建人力資源管理的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來開展工作,從而讓整個企業(yè)在激烈的市場競爭中穩(wěn)定、長久發(fā)展下去。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);企業(yè)人力資源管理;應(yīng)用
1、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的現(xiàn)狀
隨著我國人力資源管理體系的不斷發(fā)展,隱藏在管理工作中的問題也被逐漸顯露出來,雖然很多企業(yè)的高層管理者對人力資源管理這塊已經(jīng)高度重視,但是企業(yè)往往是希望通過運(yùn)用相關(guān)的系統(tǒng)來對人才進(jìn)行管理,基于我國社會整體經(jīng)濟(jì)實力的不斷發(fā)展以及互聯(lián)網(wǎng)信息時代的到來,數(shù)據(jù)挖掘技術(shù)也受到越來越多的企業(yè)多關(guān)注,并紛紛采用該技術(shù)對自身人力資源進(jìn)行管理,同時也將人力資源管理系統(tǒng)作為整個信息化建設(shè)過程中的核心部位,就數(shù)據(jù)調(diào)查顯示,數(shù)據(jù)挖掘技術(shù)已經(jīng)被國外很多軟件開放式引入自身的人力資源管理工作中,并使自身內(nèi)部逐步形成了一套完整的人力資源管理系統(tǒng)體系。除此之外,數(shù)據(jù)挖掘技術(shù)也被廣泛應(yīng)用在企業(yè)的基本人力資源檔案管理工作中,隨著信息技術(shù)時代的到來,以往傳統(tǒng)的計算機(jī)管理模式對人力資源管理效率往往并不高,為此,數(shù)據(jù)挖掘技術(shù)對企業(yè)人力資管理工作是百利而無一害的。
2、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中的應(yīng)用
2、1人才的招聘
任何企業(yè)在發(fā)展過程中都是離不開新鮮血液注入的,隨著目前我國市場經(jīng)濟(jì)競爭趨勢的不斷增長,企業(yè)要想穩(wěn)固發(fā)展必須要引入人力資源管理,只有這樣才能提高企業(yè)經(jīng)濟(jì)效益以及社會收益。為此,企業(yè)應(yīng)對人才進(jìn)行招聘,這也是獲取人力資源的重要手段,通過采用數(shù)據(jù)挖掘技術(shù)來吸引社會中的各類人才,并采取有效的人才管理流程來對人才進(jìn)行篩選,最終選擇質(zhì)量最佳的人才資源。與此同時,企業(yè)對人才招聘質(zhì)量的優(yōu)與良對自身內(nèi)部的員工、人類資源也會造成一定的影響,換句話來講,人才的招聘往往是企業(yè)人力資源管理工作開展的前期階段,然而在實際人才招聘過程中很多企業(yè)總是找不到合適的人選,同時也有大量的優(yōu)質(zhì)人才也很難找的適合自身的工作,這也就加大了企業(yè)人才招聘的難度,也進(jìn)一步加大了招聘的成本,為此,企業(yè)采取數(shù)據(jù)挖掘技術(shù)可以有效降低人才招聘的成本支出,從而使自身獲得更大的經(jīng)濟(jì)收益與社會利益。
2、2對人才的管理
隨著社會對人才需求量的不斷增加,企業(yè)對員工的數(shù)據(jù)記錄和管理方式也逐步優(yōu)化,然而在很多企業(yè)人力資源管理過程中仍然存在著諸多問題,而這些問題的存在對企業(yè)未來發(fā)展也產(chǎn)生阻礙作用。為了企業(yè)在未來發(fā)展道路上穩(wěn)固、長久發(fā)展,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來對人才進(jìn)行管理,以往傳統(tǒng)的管理模式往往是對員工的基本信息以及日?己诉M(jìn)行管理,這種管理方式已經(jīng)不適應(yīng)現(xiàn)在時代發(fā)展的趨勢,為此,礦建企業(yè)必要順應(yīng)當(dāng)下時代的發(fā)展趨勢來采取有效的措施來對人力資源進(jìn)行管理,現(xiàn)代化的管理模式主要強(qiáng)調(diào)的是對相關(guān)數(shù)據(jù)的分析和整理能力,通過對數(shù)據(jù)的分析來形成具有實際指導(dǎo)作用的總結(jié),從而為企業(yè)人力資源管理工作提供有價值的參考依據(jù)。例如,在實際人力資源管理過程中可以利用數(shù)據(jù)挖掘技術(shù)來對企業(yè)內(nèi)部員工的薪資水平進(jìn)行分析,并對企業(yè)的成本控制提出有效的建議,也可以利用數(shù)據(jù)挖掘技術(shù)對企業(yè)中年紀(jì)較大的員工進(jìn)行分析,并對其進(jìn)行科學(xué)的評判,從而對其提出更有利的參考價值和依據(jù)。
2、3實現(xiàn)對企業(yè)人才的合理分配
隨著我國社會經(jīng)濟(jì)的不斷發(fā)展,人才的發(fā)展形勢也變得越來越“多元化”“個體化”。為此,筆者認(rèn)為為了進(jìn)一步提高礦建企業(yè)人力資源管理工作的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來對人才進(jìn)行合理分配,并結(jié)合內(nèi)部員工的實際特點以及具體類型進(jìn)行客觀性的評判,這對企業(yè)的人才資源管理以及未來發(fā)展無疑是百利無一害的。通過采取數(shù)據(jù)挖掘技術(shù)不僅可以實現(xiàn)對員工的共性以及特點進(jìn)行分析,使每一位員工的信息資源、崗位職責(zé)得到有效劃分,同時也進(jìn)一步實現(xiàn)對企業(yè)人才的合理分配。通過對數(shù)據(jù)信息的管理技術(shù)構(gòu)建實現(xiàn)對人員分組,從而使數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中得到有效利用,使其發(fā)揮最大的作用與價值,同時也進(jìn)一步提高企業(yè)人力資源管理工作的效率和和質(zhì)量,最終推動企業(yè)穩(wěn)固、長久的發(fā)展。
3、結(jié)語
綜上所述,隨著社會經(jīng)濟(jì)的飛速發(fā)展,建設(shè)領(lǐng)域也得到逐步提高,然而在人力資源管理工作中依然存在著諸多問題,這些問題的存在也嚴(yán)重阻礙我國社會經(jīng)濟(jì)的穩(wěn)固發(fā)展。所以,只有充分采用數(shù)據(jù)挖掘技術(shù)來開展人力資源管理工作,才能提高企業(yè)的人力資源管理水平。
參考文獻(xiàn):
。1]曾巍、數(shù)據(jù)挖掘在人力資源市場中的應(yīng)用與研究[D].吉林大學(xué),20xx
[2]賴華強(qiáng),王三銀,仲崇高、人力資源管理領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用展望———以基于灰色關(guān)聯(lián)模型的離職管理實證分析為例[J].江蘇商論.20xx(08):42—47
[3]馬秦,張江、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的研究[J].中國新通信,20xx.20(15):232
。4]孫明標(biāo)、基于大數(shù)據(jù)挖掘技術(shù)下的企業(yè)人力資源管理研究[J].現(xiàn)代營銷(下旬刊).20xx(01):166
數(shù)據(jù)挖掘論文5
摘要:在電子商務(wù)中運(yùn)用數(shù)據(jù)挖掘技術(shù),對服務(wù)器上的日志數(shù)據(jù)、用戶信息和訪問鏈接信息進(jìn)行數(shù)據(jù)挖掘,有效了解客戶的購買欲望,從而調(diào)整電子商務(wù)平臺,最終實現(xiàn)利益更大化。本文旨在了解電子商務(wù)中的數(shù)據(jù)源有哪些,發(fā)掘數(shù)據(jù)挖掘在電子商務(wù)中的具體作用,從而為數(shù)據(jù)挖掘的具體設(shè)計奠定基礎(chǔ)。
關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)數(shù)據(jù)源
一、電子商務(wù)中數(shù)據(jù)挖掘的數(shù)據(jù)源
1.服務(wù)器日志數(shù)據(jù)客戶在訪問網(wǎng)站時,就會在服務(wù)器上產(chǎn)生相應(yīng)的服務(wù)器數(shù)據(jù),這些文件主要是日志文件。而日志文件又可分為Ser-vicelogs、Errorlogs、Cookielogs。其中Servicelogs文件格式是最常用的標(biāo)準(zhǔn)公用日志文件格式,也是標(biāo)準(zhǔn)組合日志文件格式。標(biāo)準(zhǔn)公用日志文件的格式存儲關(guān)于客戶連接的物理信息。標(biāo)準(zhǔn)組合日志文件格式主要包含關(guān)于日志文件元信息的指令,如版本號,會話監(jiān)控開始和結(jié)束的日期等。在日志文件中,Cookielogs日志文件是很重要的日志文件,是服務(wù)器為了自動追蹤網(wǎng)站訪問者,為單個客戶瀏覽器生成日志[1]。
2.客戶登記信息
客戶登記信息是指客戶通過Web頁輸入的、并提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的常用特征。
在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進(jìn)一步的了解客戶。
3.web頁面的超級鏈接
輔之以監(jiān)視所有到達(dá)服務(wù)器的數(shù)據(jù),提取其中的HTTP請求信息。此部分?jǐn)?shù)據(jù)主要來自瀏覽者的點擊流,用于考察用戶的行為表現(xiàn)。網(wǎng)絡(luò)底層信息監(jiān)聽過濾指監(jiān)聽整個網(wǎng)絡(luò)的所有信息流量,并根據(jù)信息源主機(jī)、目標(biāo)主機(jī)、服務(wù)協(xié)議端口等信息過濾掉垃圾數(shù)據(jù),然后進(jìn)行進(jìn)一步的處理,如關(guān)鍵字的搜索等,最終將用戶感興趣的數(shù)據(jù)發(fā)送到給定的數(shù)據(jù)接受程序存儲到數(shù)據(jù)庫中進(jìn)行分析統(tǒng)計。
二、Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用通過對數(shù)據(jù)源的原始積累、仔細(xì)分析,再利用數(shù)據(jù)發(fā)掘技術(shù),最終達(dá)到為企業(yè)為用戶服務(wù)的目的,而這些服務(wù)主要有以下幾種。
1.改進(jìn)站點設(shè)計,提高客戶訪問的興趣對客戶來說,傳統(tǒng)客戶與銷售商之間的空間距離在電子商務(wù)中已經(jīng)不存在了,在Internet上,每一個銷售商對于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點上駐留更長的時間,對銷售商來說將是一個挑戰(zhàn)。為了使客戶在自己的網(wǎng)站上駐留更長的時間,就應(yīng)該對客戶的訪問信息進(jìn)行挖掘,通過挖掘就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求所在,并根據(jù)需求動態(tài)地調(diào)整頁面,向客戶展示一個特殊的頁面,提供特有的一些商品信息和廣告,以使客戶能繼續(xù)保持對訪問站點的興趣。
2.發(fā)現(xiàn)潛在客戶
在對web的客戶訪問信息的挖掘中,利用分類技術(shù)可以在Internet上找到未來的潛在客戶。獲得這些潛在的客戶通常的市場策略是:先對已經(jīng)存在的訪問者進(jìn)行分類。對于一個新的訪問者,通過在Web上的分類發(fā)現(xiàn),識別出這個客戶與已經(jīng)分類的老客戶的一些公共的描述,從而對這個新客戶進(jìn)行正確的歸類。然后從它所屬類判斷這個新客戶是否為潛在的購買者,決定是否要把這個新客戶作為潛在的客戶來對待。
客戶的類型確定后,就可以對客戶動態(tài)地展示W(wǎng)eb頁面,頁面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品和服務(wù)之間的關(guān)聯(lián)。
對于一個新的客戶,如果花了一段時間瀏覽市場站點,就可以把此客戶作為潛在的客戶并向這個客戶展示一些特殊的頁面內(nèi)容。
3.個性化服務(wù)
根據(jù)網(wǎng)站用戶的訪問情況,為用戶提供個性化信息服務(wù),這是許多互聯(lián)網(wǎng)應(yīng)用,尤其是互聯(lián)網(wǎng)信息服務(wù)或電子商務(wù)(網(wǎng)站)所追求的目標(biāo)。根據(jù)用戶的訪問行為和檔案向使用者進(jìn)行動態(tài)的推薦,對許多應(yīng)用都有很大的吸引力。Web日志挖掘是一個能夠出色地完成這個目標(biāo)的方式。通過Web數(shù)據(jù)挖掘,可以理解訪問者的動態(tài)行為,據(jù)此優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務(wù)來提高客戶的滿意度,從而保住老客戶;通過對具有相似瀏覽行為的客戶進(jìn)行分組,提取組中客戶的共同特征,從而實現(xiàn)客戶的聚類,這可以幫助電子商務(wù)企業(yè)更好地了解客戶的興趣、消費習(xí)慣和消費傾向,預(yù)測他們的需求,有針對性地向他們推薦特定的商品并實現(xiàn)交叉銷售,可以提高交易成功率和交易量,提高營銷效果。
例如全球最大中文購物網(wǎng)站淘寶網(wǎng)。當(dāng)你購買一件商品后,淘寶網(wǎng)會自動提示你“購買過此商品的人也購買過……”類似的信息,這就是個性化服務(wù)的代表。
4.交易評價
現(xiàn)在幾乎每一個電子商務(wù)網(wǎng)站都增加了交易評價功能,交易評價功能主要就是為了降低交易中的信息不對稱問題。
電子商務(wù)交易平臺設(shè)計了在線信譽(yù)評價系統(tǒng),對買賣雙方的交易歷史及其評價進(jìn)行記錄。在聲譽(yù)效應(yīng)的影響下,賣家也更加重視買家的交易滿意度,并且也形成了為獲取好評減少差評而提高服務(wù)質(zhì)量的良好風(fēng)氣。交易中的不滿意(或者成為糾紛)是產(chǎn)生非好評(包括中評和差評)的直接原因。那么,交易中一般會產(chǎn)生哪些交易糾紛,這些交易糾紛的存在會如何影響交易評價結(jié)果,這些問題的解決對賣家的經(jīng)營具有重要的指導(dǎo)價值。
總結(jié)
數(shù)據(jù)挖掘是當(dāng)今世界研究的熱門領(lǐng)域,其研究具有廣闊的應(yīng)用前景和巨大的現(xiàn)實意義。借助數(shù)據(jù)挖掘可以改進(jìn)企業(yè)的電子商務(wù)平臺,增加企業(yè)的經(jīng)營業(yè)績,拓寬企業(yè)的經(jīng)營思路,最終提高企業(yè)的競爭力。
參考文獻(xiàn):
[1].趙東東.電子商務(wù)中的web數(shù)據(jù)挖掘系統(tǒng)設(shè)計[J].微計算機(jī)信息20xx,23(10-3):168[2].劉曄.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].中國市場20xx,39(9):178
數(shù)據(jù)挖掘論文6
網(wǎng)絡(luò)的發(fā)展帶動了電子商務(wù)市場的繁華,大量的商品、信息在現(xiàn)有的網(wǎng)絡(luò)平臺上患上以交易,大大簡化了傳統(tǒng)的交易方式,節(jié)儉了時間,提高了效力,但電子市場繁華違后暗藏的問題,同樣成為人們關(guān)注的焦點,凸起表現(xiàn)在海量信息的有效應(yīng)用上,如何更為有效的管理應(yīng)用潛伏信息,使他們的最大功效患上以施展,成為人們現(xiàn)在鉆研的重點,數(shù)據(jù)發(fā)掘技術(shù)的發(fā)生,在必定程度上解決了這個問題,但它也存在著問題,需要不斷改善。
數(shù)據(jù)發(fā)掘(Data Mining)就是從大量的、不完整的、有噪聲的、隱約的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事前不知道的、但又是潛伏有用的信息以及知識的進(jìn)程;蛘哒哒f是從數(shù)據(jù)庫中發(fā)現(xiàn)有用的知識(KDD),并進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)融會(Data Fusion)和決策支撐的進(jìn)程。數(shù)據(jù)發(fā)掘是1門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的鉆研者,特別是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者以及工程技術(shù)人員。
數(shù)據(jù)發(fā)掘技術(shù)在電子商務(wù)的利用
一 找到潛伏客戶
在對于 Web 的客戶走訪信息的發(fā)掘中, 應(yīng)用分類技術(shù)可以在Internet 上找到未來的潛伏客戶。使用者可以先對于已經(jīng)經(jīng)存在的走訪者依據(jù)其行動進(jìn)行分類,并依此分析老客戶的1些公共屬性, 抉擇他們分類的癥結(jié)屬性及互相間瓜葛。對于于1個新的走訪者, 通過在Web 上的分類發(fā)現(xiàn), 辨認(rèn)出這個客戶與已經(jīng)經(jīng)分類的老客戶的1些公共的描寫, 從而對于這個新客戶進(jìn)行正確的分類。然后從它的分類判斷這個新客戶是有益可圖的客戶群仍是無利可圖的客戶群,抉擇是不是要把這個新客戶作為潛伏的客戶來對于待?蛻舻念愋涂隙ê, 可以對于客戶動態(tài)地展現(xiàn) Web 頁面, 頁面的內(nèi)容取決于客戶與銷售商提供的產(chǎn)品以及服務(wù)之間的關(guān)聯(lián)。若為潛伏客戶, 就能夠向這個客戶展現(xiàn)1些特殊的、個性化的頁面內(nèi)容。
二 實現(xiàn)客戶駐留
在電子商務(wù)中, 傳統(tǒng)客戶與銷售商之間的空間距離已經(jīng)經(jīng)不存在, 在 Internet 上, 每一1個銷售商對于于客戶來講都是1樣的, 那末使客戶在自己的銷售站點上駐留更長的時間, 對于銷售商來講則是1個挑戰(zhàn)。為了使客戶在自己的網(wǎng)站上駐留更長的時間, 就應(yīng)當(dāng)全面掌握客戶的閱讀行動, 知道客戶的興致及需求所在, 并依據(jù)需求動態(tài)地向客戶做頁面舉薦, 調(diào)劑 Web 頁面, 提供獨有的1些商品信息以及廣告, 以使客戶滿意, 從而延長客戶在自己的網(wǎng)站上的駐留的時間。
三 改良站點的設(shè)計
數(shù)據(jù)發(fā)掘技術(shù)可提高站點的效力, Web 設(shè)計者再也不完整依托專家的定性指點來設(shè)計網(wǎng)站, 而是依據(jù)走訪者的信息特征來修改以及設(shè)計網(wǎng)站結(jié)構(gòu)以及外觀。站點上頁面內(nèi)容的支配以及連接就如超級市場中物品的貨架左右1樣, 把擁有必定支撐度以及信任度的相干聯(lián)的物品擺放在1起有助于銷售。網(wǎng)站盡量做到讓客戶等閑地走訪到想走訪的頁面, 給客戶留下好的印象, 增添下次走訪的機(jī)率。
四 進(jìn)行市場預(yù)測
通過 Web 數(shù)據(jù)發(fā)掘, 企業(yè)可以分析顧客的將來行動, 容易評測市場投資回報率, 患上到可靠的市場反饋信息。不但大大降低公司的運(yùn)營本錢, 而且便于經(jīng)營決策的制訂。
數(shù)據(jù)發(fā)掘在利用中面臨的問題
一數(shù)據(jù)發(fā)掘分析變量的選擇
數(shù)據(jù)發(fā)掘的基本問題就在于數(shù)據(jù)的數(shù)量以及維數(shù),數(shù)據(jù)結(jié)構(gòu)顯的無比繁雜,數(shù)據(jù)分析變量即是在數(shù)據(jù)發(fā)掘中技術(shù)利用中發(fā)生的,選擇適合的分析變量,將提高數(shù)據(jù)發(fā)掘的效力,尤其合用于電子商務(wù)中大量商品和用戶信息的處理。
針對于這1問題,咱們完整可以用分類的法子,分析出不同信息的屬性和呈現(xiàn)頻率進(jìn)而抽象出變量,運(yùn)用到所選模型中,進(jìn)行分析。
二數(shù)據(jù)抽取的法子的選擇
數(shù)據(jù)抽取的目的是對于數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描寫,如乞降值、平均值、方差值、等統(tǒng)計值、或者者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是1種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的進(jìn)程?刹扇《嗑S數(shù)據(jù)分析法子以及面向?qū)傩缘臍w納法子。
在電子商務(wù)流動中,采取維數(shù)據(jù)分析法子進(jìn)行數(shù)據(jù)抽取,他針對于的是電子商務(wù)流動中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中時常要用到諸如乞降、共計、平均、最大、最小等匯集操作,這種操作的計算量尤其大,可把匯集操作結(jié)果預(yù)先計算并存儲起來,以便用于決策支撐系統(tǒng)使用
三數(shù)據(jù)趨勢的.預(yù)測
數(shù)據(jù)是海量的,那末數(shù)據(jù)中就會隱含必定的變化趨勢,在電子商務(wù)中對于數(shù)據(jù)趨勢的預(yù)測尤為首要,尤其是對于客戶信息和商品信息公道的預(yù)測,有益于企業(yè)有效的決策,取得更多地利潤。但如何對于這1趨勢做出公道的預(yù)測,現(xiàn)在尚無統(tǒng)1標(biāo)準(zhǔn)可尋,而且在進(jìn)行數(shù)據(jù)發(fā)掘進(jìn)程中大量數(shù)據(jù)構(gòu)成文本后格式的非標(biāo)準(zhǔn)化,也給數(shù)據(jù)的有效發(fā)掘帶來了難題。
針對于這1問題的發(fā)生,咱們在電子商務(wù)中可以利用聚類分析的法子,把擁有類似閱讀模式的用戶集中起來,對于其進(jìn)行詳細(xì)的分析,從而提供更合適、更令用戶滿意的服務(wù)。聚類分析法子的優(yōu)勢在于便于用戶在查看日志時對于商品及客戶信息有全面及清晰的把握,便于開發(fā)以及執(zhí)行未來的市場戰(zhàn)略,包含自動給1個特定的顧客聚類發(fā)送銷售郵件,為1個顧客聚類動態(tài)地扭轉(zhuǎn)1個特殊的站點等,這不管對于客戶以及銷售商來講都是成心義。
四數(shù)據(jù)模型的可靠性
數(shù)據(jù)模型包含概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型。數(shù)據(jù)發(fā)掘的模型目前也有多種,包含采集模型、處理模型及其他模型,但不管哪一種模型都不是很成熟存在缺點,對于數(shù)據(jù)模型不同采取不同的方式利用?赡馨l(fā)生不同的結(jié)果,乃至差異很大,因而這就觸及到數(shù)據(jù)可靠性的問題。數(shù)據(jù)的可靠性對于于電子商務(wù)來講尤為首要作用。
針對于這1問題,咱們要保障數(shù)據(jù)在發(fā)掘進(jìn)程中的可靠性,保證它的準(zhǔn)確性與實時性,進(jìn)而使其在最后的結(jié)果中的準(zhǔn)確度到達(dá)最高,同時在利用模型進(jìn)程中要盡可能全面的分析問題,防止片面,而且分析結(jié)果要由多人進(jìn)行評價,從而最大限度的保證數(shù)據(jù)的可靠性。
五數(shù)據(jù)發(fā)掘觸及到數(shù)據(jù)的私有性以及安全性
大量的數(shù)據(jù)存在著私有性與安全性的問題,尤其是電子商務(wù)中的各種信息,這就給數(shù)據(jù)發(fā)掘造成為了必定的阻礙,如何解決這1問題成了技術(shù)在利用中的癥結(jié)。
為此相干人員在進(jìn)行數(shù)據(jù)發(fā)掘進(jìn)程中必定要遵照職業(yè)道德,保障信息的秘要性。
六數(shù)據(jù)發(fā)掘結(jié)果的不肯定性
數(shù)據(jù)發(fā)掘結(jié)果擁有不肯定性的特征,由于發(fā)掘的目的不同所以最后發(fā)掘的結(jié)果自然也會千差萬別,以因而這就需要咱們與所要發(fā)掘的目的相結(jié)合,做出公道判斷,患上出企業(yè)所需要的信息,便于企業(yè)的決策選擇。進(jìn)而到達(dá)提高企業(yè)經(jīng)濟(jì)效益,取得更多利潤的目的。
數(shù)據(jù)發(fā)掘可以發(fā)現(xiàn)1些潛伏的用戶,對于于電子商務(wù)來講是1個不可或者缺的技術(shù)支撐,數(shù)據(jù)發(fā)掘的勝利請求使用者對于指望解決問題的領(lǐng)域有深入的了解,數(shù)據(jù)發(fā)掘技術(shù)在必定程度上解決了電子商務(wù)信息不能有效應(yīng)用的問題,但它在運(yùn)用進(jìn)程中呈現(xiàn)的問題也亟待人們?nèi)ソ鉀Q。相信數(shù)據(jù)發(fā)掘技術(shù)的改良將推動電子商務(wù)的深刻發(fā)展。
參考文獻(xiàn):
[一]胡迎松,寧海霞。 1種新型的Web發(fā)掘數(shù)據(jù)采集模型[J]。計算機(jī)工程與科學(xué),二00七
[二] 章寒雁,楊瑞珍。數(shù)據(jù)發(fā)掘技術(shù)在電子商務(wù)中的鉆研與利用[J]。計算機(jī)與網(wǎng)絡(luò),二00七
[三]董德民。 面向電子商務(wù)的Web使用發(fā)掘及其利用鉆研[J]。中國管理信息化,二00六
[四] 尹中強(qiáng)。電子商務(wù)中的 Web 數(shù)據(jù)發(fā)掘技術(shù)利用[J]。計算機(jī)與信息技術(shù),二00七
數(shù)據(jù)挖掘論文7
摘要:隨著科學(xué)技術(shù)的不斷發(fā)展,計算機(jī)的使用也愈來愈廣泛,他已經(jīng)發(fā)展到各個行業(yè),現(xiàn)如今保險行業(yè)也就相應(yīng)的業(yè)務(wù)引進(jìn)了計算機(jī)業(yè)務(wù)系統(tǒng),而在20xx年8月,我國也出臺了《國務(wù)院關(guān)于加快發(fā)展現(xiàn)代保險服務(wù)業(yè)的若干意見》這一舉措的有效實施,從政策上為保險行業(yè)的快速發(fā)展提供相應(yīng)了保障。而如何在這些被積累下來的寶貴數(shù)據(jù)中,分析挖掘出新的商機(jī)及財富,就成為了我國當(dāng)前保險行業(yè)發(fā)展的重要突破口。本篇文章就從數(shù)據(jù)挖掘技術(shù)的應(yīng)用方面、概念、必要性,以及方法手段進(jìn)行了深入探討與分析其對財產(chǎn)保險應(yīng)用的意義。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);財產(chǎn)保險;應(yīng)用;分析
在最近幾年中,我國對于保險行業(yè)給予了高度的關(guān)注與重視并出臺了許多與之相對應(yīng)的相關(guān)政策,這些政策的發(fā)行對于我國的保險行業(yè)帶來的極大程度的發(fā)展空間。而我國的保險行業(yè)也開始了轉(zhuǎn)型,正在從粗放型經(jīng)營向集約化經(jīng)營管理進(jìn)行過度,最明顯的改變就是之前只注重新客戶的開發(fā)而忘記顧忌老客戶的需求與發(fā)展,但是現(xiàn)在是同時注重新老客戶的需求與發(fā)展,從根本上實現(xiàn)“兩手抓”的政策,所以這種新的形式背景下,計算機(jī)中保險行業(yè)所留的數(shù)據(jù)就成為極為重要的挖掘資源。
一、解析數(shù)據(jù)挖掘技術(shù)在財產(chǎn)保險分析中的應(yīng)用
(一)提升財險客戶服務(wù)能力
對于任何一個公司來說沒有客戶所有的產(chǎn)品經(jīng)營都是紙上談兵,這對于服務(wù)行業(yè)的財產(chǎn)保險公司更是如此,所以對此所以財產(chǎn)保險行業(yè)就面臨著轉(zhuǎn)型升級的事情財產(chǎn)行業(yè)的轉(zhuǎn)型就意味著面臨著面向客戶的服務(wù)質(zhì)量的提升。在現(xiàn)如今的經(jīng)濟(jì)情況下,保險消費者對于保險行業(yè)知識的了解日益增加,保險意識也是越發(fā)的加強(qiáng)?蛻魧τ诒kU行業(yè)也出現(xiàn)了個性化與差異化的需求。從這里就要求保險公司通過數(shù)據(jù)挖掘技術(shù)對客戶的需求進(jìn)行更深一層的分析與探索,通過探究與分析的結(jié)果明確而客戶的需要,并為有更高需求的客戶提供更適合他的保險產(chǎn)品,從而提高業(yè)務(wù)服務(wù)水平,吸引更多的優(yōu)質(zhì)客源,來增強(qiáng)市場的競爭力。例如,在對客戶進(jìn)行細(xì)分的時候,可以通過數(shù)據(jù)挖掘技術(shù)中的“二八定律”,對客戶進(jìn)行細(xì)分。通過細(xì)分得出結(jié)果,參照數(shù)據(jù)根據(jù)每個客戶群體的風(fēng)險偏好、特點以及需求為他們量身定制適合他們自身的新產(chǎn)品,并制定對應(yīng)適合的費照新差旅費管理辦法正確規(guī)范填寫市內(nèi)交通補(bǔ)助、伙食補(bǔ)助、城市間交通費、和住宿費金額。并填寫上合計金額,不得出現(xiàn)多報的行為,從而提高差旅費報銷工作的質(zhì)量。
(二)風(fēng)險管理和合規(guī)經(jīng)營
每個保險公司的生命底線就是合規(guī)經(jīng)營以及對風(fēng)險的管理,所以每個保險公司必須在運(yùn)營生產(chǎn)中嚴(yán)格的遵守國家的法律法規(guī),不許做出違反法律底線的事情,而風(fēng)險管理對于保險公司來說具有兩層含義,其實并不簡單,一方面是需要對于企業(yè)自身的風(fēng)險進(jìn)行管理;另一方面是對于客戶所帶來的風(fēng)險進(jìn)行管理。對于保險公司來說這兩方面的風(fēng)險是相互作用、相輔相成的,第一個方面的風(fēng)險管理出現(xiàn)問題后者的風(fēng)險管理就會成為空談,反之第二方面的風(fēng)險管理沒有得到很好的管理,極大可能會引起前者管理出現(xiàn)問題。而恰恰數(shù)據(jù)挖掘技術(shù)的應(yīng)用,就可以為財產(chǎn)保險企業(yè)規(guī)避風(fēng)險起到很大的幫助。保險公司可以以計算機(jī)為使用的工具,通過數(shù)據(jù)挖掘的技術(shù),可以對數(shù)據(jù)內(nèi)大量的信息進(jìn)行查找并比對分析,高效的識別出在計算機(jī)內(nèi)不符合正常業(yè)務(wù)邏輯的數(shù)據(jù),這樣管理者就可以及時就這些風(fēng)險數(shù)據(jù)和業(yè)務(wù)漏洞進(jìn)行監(jiān)測與管控,以減少違法亂紀(jì)的事情發(fā)生,逐步消除或減少隱藏的風(fēng)險。保障保險業(yè)健康有序的發(fā)展,為市場經(jīng)濟(jì)持續(xù)健康的進(jìn)一步發(fā)展保駕護(hù)航。
(三)開發(fā)新產(chǎn)品
新的保險產(chǎn)品的開發(fā)對于增強(qiáng)保險公司的公司收益、內(nèi)容、滿足消費者的需求以及競爭力等方面起著重要的作用,這也是經(jīng)營保險公司的首要內(nèi)容。新產(chǎn)品的開發(fā)是指保險公司針對當(dāng)前市場的需求、想要達(dá)到的效果與自身情況相結(jié)合的產(chǎn)物,而在原有的產(chǎn)品上加以重新的組合與設(shè)計的創(chuàng)造與改良,來滿足市場的需求,進(jìn)而提高公司自身的競爭力的過程與行為。后者自不必說,基于我國財產(chǎn)保險公司數(shù)據(jù)庫信息方面已經(jīng)積累了很多,而后通過對信息的數(shù)據(jù)進(jìn)行發(fā)掘,使實現(xiàn)新產(chǎn)品的開發(fā)成為可能。譬如,通過數(shù)據(jù)挖掘技術(shù),我們可以使用現(xiàn)有產(chǎn)品進(jìn)行進(jìn)一步的完善、修正或者拆分、組合的,使其變成一全新的保險產(chǎn)品,他會更接近客戶的需求,滿足客戶的真實所需,同時也能夠增加市場的銷量,增強(qiáng)市場競爭力。就以原有的普通財產(chǎn)保險為例子,在保險有效期內(nèi)未出現(xiàn)任何對客戶的產(chǎn)才造成損失的情況下,客戶所繳納的保險費用是不予以退還的,在財產(chǎn)保險的有效期過后,客戶所繳納的保險費是由保險公司所擁有的。這樣的保險產(chǎn)品是不被大多數(shù)客戶所看好與接受的,即使有客戶在第一次購買了此保險,但之后是不會在對本產(chǎn)品進(jìn)行第二次的投資的。而現(xiàn)在通過數(shù)據(jù)挖掘的技術(shù),保險公司可以根據(jù)對客戶信息的了解進(jìn)行分析,保險公司推出了一款新的家庭財產(chǎn)兩全保險保險,這是一種全新的保險類別。全新的家庭財產(chǎn)保險,他所需要交納的是保險儲備金,比如每份保險金額為50000元的家庭財產(chǎn)兩全保險,則保險儲金為5000元,投保人必須根據(jù)保險金額一次性交納保險儲備金,保險人可以將保險儲備金的利息作為保險費。在保險期滿后,無論是不是在保險期內(nèi)發(fā)生賠付的情況,保險公司都會將保險人的全部的保險儲金如數(shù)退還。自從出現(xiàn)了這種投保方式,客戶的接受度得到了大大的提高,全新的家庭財產(chǎn)保險,一方面使保險人保險中得到了應(yīng)得的利益,另一方面投保人的財產(chǎn)也得到了保險,從而在市場的銷售份額上面也得到了迅速提升。
二、保險業(yè)數(shù)據(jù)挖掘技術(shù)及應(yīng)用的必要性
(一)保險業(yè)數(shù)據(jù)挖掘技術(shù)的含義
什么是保險行業(yè)的數(shù)據(jù)挖掘技術(shù),就是從客戶管理的角度出發(fā),針對保險行業(yè)數(shù)據(jù)庫系統(tǒng)內(nèi)大量的保險單,對客戶的信用數(shù)據(jù)進(jìn)行屬性變量提取,進(jìn)而采用自動化或半自動化等多種挖掘技巧和方法來對客戶的數(shù)據(jù)進(jìn)行分析,找到潛在的有價值的信息.
(二)數(shù)據(jù)挖掘的過程及方法
數(shù)據(jù)挖掘是一個跨越多種學(xué)科的交叉技術(shù),主要的用途是利用各種數(shù)據(jù)為商業(yè)上存在的問題提供切實可行的方法與數(shù)據(jù)。數(shù)據(jù)挖掘的過程有以下幾個步驟:業(yè)務(wù)理解→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)理解→構(gòu)建模型→測試設(shè)計→做出評價→實施應(yīng)用。在數(shù)據(jù)挖掘方面有三個常用的方法:DM、SEMMA以及CRISP等分析方法。同時我們需要根據(jù)實際情況來運(yùn)用數(shù)據(jù)挖掘技術(shù),選擇最適當(dāng)?shù)姆椒,要想將?shù)據(jù)挖掘技術(shù)達(dá)到最佳的效果必須針對具體的流程做出相應(yīng)的調(diào)節(jié)。
(三)保險行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性
在保險行業(yè)的運(yùn)營中,常常會出現(xiàn)一下的幾個問題:例如,細(xì)分客戶的問題:對于不同的社會收入階層、不同年齡段、不同的行業(yè)的客戶,該怎么樣去確定其的保險金額呢?客戶的成長問題:如何把握時機(jī)對客戶進(jìn)行交叉銷售;險種關(guān)聯(lián)分析問題:在對購買某種保險的客戶進(jìn)行分析與探查,觀察其是否在同一時間購買另一種保險產(chǎn)品,客戶的獲取問題:如何在付出最小的成本獲得最有價值的客戶的挽留及索賠優(yōu)化的問題:如何對索賠受理的過程進(jìn)行優(yōu)化,挽留住有價值的投保人。保險公司在完成數(shù)據(jù)的匯總后,所獲取的業(yè)務(wù)及大量客戶信息,不過是對公司當(dāng)前所處的市場環(huán)境、企業(yè)經(jīng)營情況及客戶基本資料的記錄及反映。而進(jìn)行數(shù)據(jù)集中的信息系統(tǒng),也只能是對數(shù)據(jù)庫中的這部分?jǐn)?shù)據(jù)進(jìn)行簡單的操作處理,并不能從中發(fā)現(xiàn)并提取這些數(shù)據(jù)中蘊(yùn)含的具有深層次價值的信息。所以,如若想在決策層面給出解決答案,是不可能實現(xiàn)的。而如果采用數(shù)據(jù)挖掘技術(shù)來對數(shù)據(jù)庫中所存在的大量的數(shù)據(jù)進(jìn)行高水平而深層次的分析,就能夠為實現(xiàn)保險公司的決策及科學(xué)經(jīng)營提供切實可行的依據(jù),因此此技術(shù)的出現(xiàn)從而得到了許多保險公司的應(yīng)用與重視。
三、結(jié)論
我國經(jīng)濟(jì)的發(fā)展正在向新常態(tài)的方向進(jìn)行轉(zhuǎn)變,而我國財產(chǎn)保險市場的競爭也日益激烈。為了面對這些挑戰(zhàn),各個保險公司都復(fù)出了努力在積極的面向轉(zhuǎn)型,由傳統(tǒng)的粗放式經(jīng)營向集約化經(jīng)營的方式進(jìn)行過度,面向客戶的營銷模式也是在這之中產(chǎn)生出來的。在這種轉(zhuǎn)型過度的過程中,財產(chǎn)保險公司對于數(shù)據(jù)挖掘技術(shù)進(jìn)行充分的利用,使公司的風(fēng)險管理能力、產(chǎn)品創(chuàng)新能力經(jīng)營能力、盈利能力、客戶服務(wù)能力、和業(yè)務(wù)發(fā)展?jié)摿Χ嫉玫搅巳娴拇蠓忍嵘T趯ξ覈?jīng)濟(jì)建設(shè)的繁榮以及促進(jìn)財產(chǎn)保險公司自身的長遠(yuǎn)發(fā)展,都做出了不可磨滅的貢獻(xiàn),也是對國家的號召積極的響應(yīng),進(jìn)而對市場經(jīng)濟(jì)持續(xù)發(fā)展也做出了不少的貢獻(xiàn)。
參考文獻(xiàn):
[1]高文文.數(shù)據(jù)挖掘技術(shù)在財產(chǎn)保險分析中的應(yīng)用[D].河北科技大學(xué),20xx.
[2]楊杉,何躍.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在保險公司中的應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,20xx.
[3]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險公司客戶評估中的應(yīng)用研究[J].軟件,20xx.
[4]陳慶文.數(shù)據(jù)挖掘在財產(chǎn)保險公司應(yīng)用研究——以人保財險公司為例[D].對外經(jīng)濟(jì)貿(mào)易大學(xué),20xx.
數(shù)據(jù)挖掘論文8
摘要:數(shù)據(jù)挖掘是一種特殊的數(shù)據(jù)分析過程,其不僅在功能上具有多樣性,同時還具有著自動化、智能化處理以及抽象化分析判斷的特點,對于計算機(jī)犯罪案件中的信息取證有著非常大的幫助。本文結(jié)合數(shù)據(jù)挖掘技術(shù)的概念與功能,對其在計算機(jī)犯罪取證中的應(yīng)用進(jìn)行了分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);計算機(jī);犯罪取證
隨著信息技術(shù)與互聯(lián)網(wǎng)的不斷普及,計算機(jī)犯罪案件變得越來越多,同時由于計算機(jī)犯罪的隱蔽性、復(fù)雜性特點,案件偵破工作也具有著相當(dāng)?shù)碾y度,而數(shù)據(jù)挖掘技術(shù)不僅能夠?qū)τ嬎銠C(jī)犯罪案件中的原始數(shù)據(jù)進(jìn)行分析并提取出有效信息,同時還能夠?qū)崿F(xiàn)與其他案件的對比,而這些對于計算機(jī)犯罪案件的偵破都是十分有利的。
1數(shù)據(jù)挖掘技術(shù)的功能與應(yīng)用分析
1.1數(shù)據(jù)挖掘技術(shù)的概念
數(shù)據(jù)挖掘技術(shù)是針對當(dāng)前信息時代下海量的網(wǎng)絡(luò)數(shù)據(jù)信息而言的,簡單來說,就是從大量的、不完全的、有噪聲的、模糊的隨機(jī)數(shù)據(jù)中對潛在的有效知識進(jìn)行自動提取,從而為判斷決策提供有利的信息支持。同時,從數(shù)據(jù)挖掘所能夠的得到的知識來看,主要可以分為廣義型知識、分類型知識、關(guān)聯(lián)性知識、預(yù)測性知識以及離型知識幾種。
1.2數(shù)據(jù)挖掘技術(shù)的功能
根據(jù)數(shù)據(jù)挖掘技術(shù)所能夠提取的不同類型知識,數(shù)據(jù)挖掘技術(shù)也可以在此基礎(chǔ)上進(jìn)行功能分類,如關(guān)聯(lián)分析、聚類分析、孤立點分析、時間序列分析以及分類預(yù)測等都是數(shù)據(jù)挖掘技術(shù)的重要功能之一,而其中又以關(guān)聯(lián)分析與分類預(yù)測最為主要。大量的數(shù)據(jù)中存在著多個項集,各個項集之間的取值往往存在著一定的規(guī)律性,而關(guān)聯(lián)分析則正是利用這一點,對各項集之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘,找到數(shù)據(jù)間隱藏的關(guān)聯(lián)網(wǎng),主要算法有FP-Growth算法、Apriori算法等。在計算機(jī)犯罪取證中,可以先對犯罪案件中的特征與行為進(jìn)行深度的挖掘,從而明確其中所存在的聯(lián)系,同時,在獲得審計數(shù)據(jù)后,就可以對其中的審計信息進(jìn)行整理并中存入到數(shù)據(jù)庫中進(jìn)行再次分析,從而達(dá)到案件樹立的效果,這樣,就能夠清晰的判斷出案件中的行為是否具有犯罪特征[1]。而分類分析則是對現(xiàn)有數(shù)據(jù)進(jìn)行分類整理,以明確所獲得數(shù)據(jù)中的相關(guān)性的一種數(shù)據(jù)挖掘功能。在分類分析的過程中,已知數(shù)據(jù)會被分為不同的數(shù)據(jù)組,并按照具體的數(shù)據(jù)屬性進(jìn)行明確分類,之后再通過對分組中數(shù)據(jù)屬性的具體分析,最終就可以得到數(shù)據(jù)屬性模型。在計算機(jī)犯罪案件中,可以將按照這種數(shù)據(jù)分類、分析的方法得到案件的數(shù)據(jù)屬性模型,之后將這一數(shù)據(jù)屬性模型與其他案件的數(shù)據(jù)屬性模型進(jìn)行對比,這樣就能夠判斷嫌疑人是否在作案動機(jī)、發(fā)生規(guī)律以及具體特征等方面與其他案件模型相符,也就是說,一旦這一案件的數(shù)據(jù)模型屬性與其他案件的數(shù)據(jù)模型屬性大多相符,那么這些數(shù)據(jù)就可以被確定為犯罪證據(jù)。此外,在不同案件間的共性與差異的基礎(chǔ)上,分類分析還可以實現(xiàn)對于未知數(shù)據(jù)信息或類似數(shù)據(jù)信息的有效預(yù)測,這對于計算機(jī)犯罪案件的處理也是很有幫助的。此外,數(shù)據(jù)挖掘分類預(yù)測功能的實現(xiàn)主要依賴決策樹、支持向量機(jī)、VSM、Logisitic回歸、樸素貝葉斯等幾種,這些算法各有優(yōu)劣,在實際應(yīng)用中需要根據(jù)案件的實際情況進(jìn)行選擇,例如支持向量機(jī)具有很高的分類正確率,因此適合用于特征為線性不可分的案件,而決策樹更容易理解與解釋。
2數(shù)據(jù)挖掘技術(shù)在計算機(jī)犯罪取證中的具體應(yīng)用思路
對于數(shù)據(jù)挖掘技術(shù),目前的計算機(jī)犯罪取證工作并未形成一個明確而統(tǒng)一的應(yīng)用步驟,因此,我們可以根據(jù)數(shù)據(jù)挖掘技術(shù)的特征與具體功能,對數(shù)據(jù)挖掘技術(shù)在計算機(jī)犯罪取證中的應(yīng)用提供一個較為可行的具體思路[2]。首先,當(dāng)案件發(fā)生后,一般能夠獲取到海量的原始數(shù)據(jù),面對這些數(shù)據(jù),可以利用FP-Growth算法、Apriori算法等算法進(jìn)行關(guān)聯(lián)分析,找到案件相關(guān)的潛在有用信息,如犯罪嫌疑人的犯罪動機(jī)、案發(fā)時間、作案嫌疑人的基本信息等等。在獲取這些基本信息后,雖然能夠?qū)Π讣幕咎卣饔幸欢ǖ牧私猓缸锵右扇藚s難以通過這些簡單的信息進(jìn)行確定,因此還需利用決策樹、支持向量機(jī)等算法進(jìn)行分類預(yù)測分析,通過對原始信息的準(zhǔn)確分類,可以得到案件的犯罪行為模式(數(shù)據(jù)屬性模型),而通過與其他案件犯罪行為模式的對比,就能夠?qū)Ψ缸锵右扇说木唧w特征進(jìn)行進(jìn)一步的預(yù)測,如經(jīng)常活動的場所、行為習(xí)慣、分布區(qū)域等,從而縮小犯罪嫌疑人的鎖定范圍,為案件偵破工作帶來巨大幫助。此外,在計算機(jī)犯罪案件處理完畢后,所建立的嫌疑人犯罪行為模式以及通過關(guān)聯(lián)分析、分類預(yù)測分析得到的案件信息仍具有著很高的利用價值,因此不僅需要將這些信息存入到專門的數(shù)據(jù)庫中,同時還要根據(jù)案件的結(jié)果對數(shù)據(jù)進(jìn)行再次分析與修正,并做好犯罪行為模式的分類與標(biāo)記工作,為之后的案件偵破工作提供更加豐富、詳細(xì)的數(shù)據(jù)參考。
3結(jié)束語
總而言之,數(shù)據(jù)挖掘技術(shù)自計算機(jī)犯罪取證中的應(yīng)用是借助以各種算法為基礎(chǔ)的關(guān)聯(lián)、分類預(yù)測功能來實現(xiàn)的,而隨著技術(shù)的不斷提升以及數(shù)據(jù)庫中的犯罪行為模式會不斷得到完善,在未來數(shù)據(jù)挖掘技術(shù)所能夠起到的作用也必將越來越大。
參考文獻(xiàn)
[1]李艷花.數(shù)據(jù)挖掘在計算機(jī)動態(tài)取證技術(shù)中的應(yīng)用[J].信息與電腦(理論版),20xx(02):174-176.
作者:周永杰 單位:河南警察學(xué)院信息安全系
數(shù)據(jù)挖掘論文9
題目:大數(shù)據(jù)挖掘在智游應(yīng)用中的探究
摘要:大數(shù)據(jù)和智游都是當(dāng)下的熱點, 沒有大數(shù)據(jù)的智游無從談“智慧”, 數(shù)據(jù)挖掘是大數(shù)據(jù)應(yīng)用于智游的核心, 文章探究了在智游應(yīng)用中, 目前大數(shù)據(jù)挖掘存在的幾個問題。
關(guān)鍵詞:大數(shù)據(jù); 智游; 數(shù)據(jù)挖掘;
1引言
隨著人民生活水平的進(jìn)一步提高, 旅游消費的需求進(jìn)一步上升, 在云計算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及移動智能終端等信息通訊技術(shù)的飛速發(fā)展下, 智游應(yīng)運(yùn)而生。大數(shù)據(jù)作為當(dāng)下的熱點已經(jīng)成了智游發(fā)展的有力支撐, 沒有大數(shù)據(jù)提供的有利信息, 智游無法變得“智慧”。
2大數(shù)據(jù)與智游
旅游業(yè)是信息密、綜合性強(qiáng)、信息依存度高的產(chǎn)業(yè)[1], 這讓其與大數(shù)據(jù)自然產(chǎn)生了交匯。2010年, 江蘇省鎮(zhèn)江市首先提出“智游”的概念, 雖然至今國內(nèi)外對于智游還沒有一個統(tǒng)一的學(xué)術(shù)定義, 但在與大數(shù)據(jù)相關(guān)的描述中, 有學(xué)者從大數(shù)據(jù)挖掘在智游中的作用出發(fā), 把智游描述為:通過充分收集和管理所有類型和來源的旅游數(shù)據(jù), 并深入挖掘這些數(shù)據(jù)的潛在重要價值信息, 然后利用這些信息為相關(guān)部門或?qū)ο筇峁┓⻊?wù)[2]。這一定義充分肯定了在發(fā)展智游中, 大數(shù)據(jù)挖掘所起的至關(guān)重要的作用, 指出了在智游的過程中, 數(shù)據(jù)的收集、儲存、管理都是為數(shù)據(jù)挖掘服務(wù), 智游最終所需要的是利用挖掘所得的有用信息。
3大數(shù)據(jù)挖掘在智游中存在的問題
2011年, 我國提出用十年時間基本實現(xiàn)智游的目標(biāo)[3], 過去幾年, 國家旅游局的相關(guān)動作均為了實現(xiàn)這一目標(biāo)。但是, 在借助大數(shù)據(jù)推動智游的可持續(xù)性發(fā)展中, 大數(shù)據(jù)所產(chǎn)生的價值卻亟待提高, 原因之一就是在收集、儲存了大量數(shù)據(jù)后, 對它們深入挖掘不夠, 沒有發(fā)掘出數(shù)據(jù)更多的價值。
3.1 信息化建設(shè)
智游的發(fā)展離不開移動網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云平臺。隨著大數(shù)據(jù)的不斷發(fā)展, 國內(nèi)許多景區(qū)已經(jīng)實現(xiàn)Wi-Fi覆蓋, 部分景區(qū)也已實現(xiàn)人與人、人與物、人與景點之間的實時互動, 多省市已建有旅游產(chǎn)業(yè)監(jiān)測平臺或旅游大數(shù)據(jù)中心以及數(shù)據(jù)可視化平臺, 從中進(jìn)行數(shù)據(jù)統(tǒng)計、行為分析、監(jiān)控預(yù)警、服務(wù)質(zhì)量監(jiān)督等。通過這些平臺, 已基本能掌握跟游客和景點相關(guān)的數(shù)據(jù), 可以實現(xiàn)更好旅游監(jiān)控、產(chǎn)業(yè)宏觀監(jiān)控, 對該地的旅游管理和推廣都能發(fā)揮重要作用。
但從智慧化的發(fā)展來看, 我國的信息化建設(shè)還需加強(qiáng)。雖然通訊網(wǎng)絡(luò)已基本能保證, 但是大部分景區(qū)還無法實現(xiàn)對景區(qū)全面、透徹、及時的感知, 更為困難的是對平臺的建設(shè)。在數(shù)據(jù)共享平臺的建設(shè)上, 除了必備的硬件設(shè)施, 大數(shù)據(jù)實驗平臺還涉及大量部門, 如政府管理部門、氣象部門、交通、電子商務(wù)、旅行社、旅游網(wǎng)站等。如此多的部門相關(guān)聯(lián), 要想建立一個完整全面的大數(shù)據(jù)實驗平臺, 難度可想而知。
3.2 大數(shù)據(jù)挖掘方法
大數(shù)據(jù)時代缺的不是數(shù)據(jù), 而是方法。大數(shù)據(jù)在旅游行業(yè)的應(yīng)用前景非常廣闊, 但是面對大量的數(shù)據(jù), 不懂如何收集有用的數(shù)據(jù)、不懂如何對數(shù)據(jù)進(jìn)行挖掘和利用, 那么“大數(shù)據(jù)”猶如礦山之中的廢石。旅游行業(yè)所涉及的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù), 通過云計算技術(shù), 對數(shù)據(jù)的收集、存儲都較為容易, 但對數(shù)據(jù)的挖掘分析則還在不斷探索中。大數(shù)據(jù)的挖掘常用的方法有關(guān)聯(lián)分析, 相似度分析, 距離分析, 聚類分析等等, 這些方法從不同的角度對數(shù)據(jù)進(jìn)行挖掘。其中, 相關(guān)性分析方法通過關(guān)聯(lián)多個數(shù)據(jù)來源, 挖掘數(shù)據(jù)價值。但針對旅游數(shù)據(jù), 采用這些方法挖掘數(shù)據(jù)的價值信息, 難度也很大, 因為旅游數(shù)據(jù)中冗余數(shù)據(jù)很多, 數(shù)據(jù)存在形式很復(fù)雜。在旅游非結(jié)構(gòu)化數(shù)據(jù)中, 一張圖片、一個天氣變化、一次輿情評價等都將會對游客的旅行計劃帶來影響。對這些數(shù)據(jù)完全挖掘分析, 對游客“行前、行中、行后”大數(shù)據(jù)的實時性挖掘都是很大的挑戰(zhàn)。
3.3 數(shù)據(jù)安全
2017年, 數(shù)據(jù)安全事件屢見不鮮, 伴著大數(shù)據(jù)而來的數(shù)據(jù)安全問題日益凸顯出來。在大數(shù)據(jù)時代, 無處不在的數(shù)據(jù)收集技術(shù)使我們的個人信息在所關(guān)聯(lián)的數(shù)據(jù)中心留下痕跡, 如何保證這些信息被合法合理使用, 讓數(shù)據(jù)“可用不可見”[4], 這是亟待解決的問題。同時, 在大數(shù)據(jù)資源的開放性和共享性下, 個人隱私和公民權(quán)益受到嚴(yán)重威脅。這一矛盾的存在使數(shù)據(jù)共享程度與數(shù)據(jù)挖掘程度成反比。此外, 經(jīng)過大數(shù)據(jù)技術(shù)的分析、挖掘, 個人隱私更易被發(fā)現(xiàn)和暴露, 從而可能引發(fā)一系列社會問題。
大數(shù)據(jù)背景下的旅游數(shù)據(jù)當(dāng)然也避免不了數(shù)據(jù)的安全問題。如果游客“吃、住、行、游、娛、購”的數(shù)據(jù)被放入數(shù)據(jù)庫, 被完全共享、挖掘、分析, 那游客的人身財產(chǎn)安全將會受到嚴(yán)重影響, 最終降低旅游體驗。所以, 數(shù)據(jù)的安全管理是進(jìn)行大數(shù)據(jù)挖掘的前提。
3.4 大數(shù)據(jù)人才
大數(shù)據(jù)背景下的智游離不開人才的創(chuàng)新活動及技術(shù)支持, 然而與專業(yè)相銜接的大數(shù)據(jù)人才培養(yǎng)未能及時跟上行業(yè)需求, 加之創(chuàng)新型人才的外流, 以及數(shù)據(jù)統(tǒng)計未來3~5年大數(shù)據(jù)行業(yè)將面臨全球性的人才荒, 國內(nèi)智游的構(gòu)建還缺乏大量人才。
4解決思路
在信息化建設(shè)上, 加大政府投入, 加強(qiáng)基礎(chǔ)設(shè)施建設(shè), 整合結(jié)構(gòu)化數(shù)據(jù), 抓取非結(jié)構(gòu)化數(shù)據(jù), 打通各數(shù)據(jù)壁壘, 建設(shè)旅游大數(shù)據(jù)實驗平臺;在挖掘方法上, 對旅游大數(shù)據(jù)實時性數(shù)據(jù)的挖掘應(yīng)該被放在重要位置;在數(shù)據(jù)安全上, 從加強(qiáng)大數(shù)據(jù)安全立法、監(jiān)管執(zhí)法及強(qiáng)化技術(shù)手段建設(shè)等幾個方面著手, 提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)安全保護(hù)水平。加強(qiáng)人才的培養(yǎng)與引進(jìn), 加強(qiáng)產(chǎn)學(xué)研合作, 培養(yǎng)智游大數(shù)據(jù)人才。
參考文獻(xiàn)
[1]翁凱.大數(shù)據(jù)在智游中的應(yīng)用研究[J].信息技術(shù), 2015, 24:86-87.
[2]梁昌勇, 馬銀超, 路彩虹.大數(shù)據(jù)挖掘, 智游的核心[J].開發(fā)研究, 2015, 5 (180) :134-139.
[3]張建濤, 王洋, 劉力剛.大數(shù)據(jù)背景下智游應(yīng)用模型體系構(gòu)建[J].企業(yè)經(jīng)濟(jì), 2017, 5 (441) :116-123.
[4]王竹欣, 陳湉.保障大數(shù)據(jù), 從哪里入手?[N].人民郵電究, 2017-11-30.
數(shù)據(jù)挖掘論文10
摘 要:數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應(yīng)用前景,從而在眾多技術(shù)中脫穎而出。本文從對數(shù)據(jù)挖掘技術(shù)的初步了解,簡述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績分析,以及配合成績分析,完善教學(xué)。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);在線考試;成績分析 ;完善教學(xué)
隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,計算機(jī)輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計學(xué)等學(xué)科的內(nèi)容,是一門綜合性的技術(shù)。這種技術(shù)的主要特點是對數(shù)據(jù)庫中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運(yùn)用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實用性和高效性得到進(jìn)一步的增強(qiáng),幫助教師更加快速、完整的統(tǒng)計考試信息,完善教學(xué)。
1.初步了解數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對使用者有用的知識,即從大量的、隨機(jī)的、有噪聲的、模糊的、不完全的實際應(yīng)用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對人們潛在有用的信息與知識的整個過程。
目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。
2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)
2.1數(shù)據(jù)分類
數(shù)據(jù)挖掘技術(shù)通過對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠為每一個類別都做出一個準(zhǔn)確的描述,挖掘出分類的規(guī)則或建立一個分類模型。
2.2數(shù)據(jù)關(guān)聯(lián)分析
數(shù)據(jù)庫中的數(shù)據(jù)關(guān)聯(lián)是一項非常重要,并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對學(xué)校教學(xué)工作管理者有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習(xí)慣。
2.3預(yù)測
預(yù)測是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對未來的情況做出一個可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動在大型的數(shù)據(jù)庫中做出一個較為準(zhǔn)確的分析。就像是在市場投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢。從而在投資中得到最大的回報。
3.數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術(shù)融合了多個學(xué)科、多個領(lǐng)域的知識與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)的角度來講,光統(tǒng)計分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計模型對這些數(shù)據(jù)來進(jìn)行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
4.數(shù)據(jù)挖掘在考試成績分析中的幾點應(yīng)用
4.1運(yùn)用關(guān)聯(lián)規(guī)則分析教師的年齡對學(xué)生考試成績的影響
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學(xué)分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項集之間之間有意義的關(guān)聯(lián)聯(lián)系,幫助知道教師的教學(xué)過程。例如在如今的一些高職院校中,就往往會把學(xué)生的英語四六級過級率,計算機(jī)等級等,以這些為依據(jù)來評價教師的教學(xué)效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運(yùn)用于考試的成績分析當(dāng)中,就能夠挖掘出一些對學(xué)生過級率產(chǎn)生影響的因素,對教師的教學(xué)過程進(jìn)行重要的指導(dǎo),讓教師的教學(xué)效率更高,作用更強(qiáng)。
還可以通過關(guān)聯(lián)規(guī)則算法,先設(shè)定一個最小可信度和支持度,得到初步的關(guān)聯(lián)規(guī)則,根據(jù)相關(guān)規(guī)則,分析出教師的組成結(jié)構(gòu)和過級率的影響,從來進(jìn)行教師隊伍的結(jié)構(gòu)調(diào)整,讓教師隊伍更加合理。
4.2采用分類算法探討對考試成績有影響的因素
數(shù)據(jù)挖掘技術(shù)中的分類算法就是對一組對象或一個事件進(jìn)行歸類,然后通過這些數(shù)據(jù),可以進(jìn)行分類模型的建立和未來的預(yù)測。分類算法可以進(jìn)行考試中得到的數(shù)據(jù)進(jìn)行分類,然后通過學(xué)生的一些基本情況進(jìn)行探討一些對考試成績有影響的因素。分類算法可以用一下步驟實施:
4.2.1數(shù)據(jù)采集
這種方法首先要進(jìn)行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學(xué)生基本信息(姓名、性別、學(xué)號、籍貫、所屬院系、專業(yè)、班級等)、學(xué)生調(diào)查信息(比如學(xué)習(xí)前的知識掌握情況、學(xué)習(xí)興趣、課堂學(xué)習(xí)效果、課后復(fù)習(xí)時間量等)、成績(學(xué)生平常學(xué)習(xí)成績,平?荚嚦煽儯鞣N大型考試成績等)、學(xué)生多次考試中出現(xiàn)的易錯點(本次考試中出現(xiàn)的易錯點,以往考試中出現(xiàn)的易錯點)
4.2.2數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫技術(shù)生產(chǎn)相應(yīng)的學(xué)生考試成績分析基本數(shù)據(jù)庫。(2)數(shù)據(jù)清理。在學(xué)生成績分析數(shù)據(jù)庫中,肯定會出現(xiàn)一些情況缺失,對于這些空缺處,就需要使用數(shù)據(jù)清理技術(shù)來進(jìn)行這些數(shù)據(jù)庫中數(shù)據(jù)的填補(bǔ)遺漏。例如,可以采用忽略元組的方法來刪除那些沒有參加考試的學(xué)生考試數(shù)據(jù)已經(jīng)在學(xué)生填寫的調(diào)查數(shù)據(jù)中村中的空缺項。(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進(jìn)行進(jìn)行數(shù)據(jù)的離散化操作。在這個過程中可以根據(jù)實際需要進(jìn)行分類,比如把考試成績從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫,在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學(xué)生的基本學(xué)習(xí)情況的影響因素情況中,學(xué)生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學(xué)生基本成績分析數(shù)據(jù)表。
4.2.3利用數(shù)據(jù)挖掘技術(shù),得出結(jié)論
通過數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用,得出這些學(xué)生數(shù)據(jù)的相關(guān)分析,比如說學(xué)生考試中的易錯點在什么地方,學(xué)生考試成績的自身原因,學(xué)生考試成績的環(huán)境原因,教師隊伍的搭配情況等等,從中得出如何調(diào)整學(xué)校教學(xué)資源,教師的教學(xué)方案調(diào)整等等,從而完善學(xué)校對學(xué)生的教學(xué)。
5.結(jié)語
數(shù)據(jù)挖掘技術(shù)在社會各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術(shù)中還存在著一些問題,例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問題、模式識別和解釋等等。對于這些問題,學(xué)校教學(xué)管理工作者要清醒的認(rèn)識,在在線考試系統(tǒng)中對數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長處,避免其在在線考試系統(tǒng)中的的缺陷。
參考文獻(xiàn):
[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的作用[J].荊門職業(yè)技術(shù)學(xué)院學(xué)報,20xx,12(22):12.
[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(shù)(第2版)[M]范明,譯.北京:機(jī)械工業(yè)出版社,20xx.
[3]王潔.《在線考試系統(tǒng)的設(shè)計與開發(fā)》[J].山西師范大學(xué)學(xué)報,20xx(2).
[4] 王長娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計算機(jī)與信息技術(shù),20xx(11)
數(shù)據(jù)挖掘論文11
1理論研究
1.1客戶關(guān)系管理
客戶關(guān)系管理的目標(biāo)是依靠高效優(yōu)質(zhì)的服務(wù)吸引客戶,同時通過對業(yè)務(wù)流程的全面優(yōu)化和管理,控制企業(yè)運(yùn)行成本。客戶關(guān)系管理是一種管理理念,將企業(yè)客戶視作企業(yè)發(fā)展最重要的企業(yè)資源,采用企業(yè)服務(wù)優(yōu)化等手段來管理客戶關(guān)系?蛻絷P(guān)系管理并不是單純的信息技術(shù)或者管理技術(shù),而是一種企業(yè)生物戰(zhàn)略,通過對企業(yè)客戶的分段充足,強(qiáng)化客戶滿意的行為,優(yōu)化企業(yè)可盈利性,將客戶處理工作上升到企業(yè)級別,不同部門負(fù)責(zé)與客戶進(jìn)行交互,但是整個企業(yè)都需要向客戶負(fù)責(zé),在信息技術(shù)的支持下實現(xiàn)企業(yè)和客戶連接環(huán)節(jié)的自動化管理。
1.2客戶細(xì)分
客戶細(xì)分由美國學(xué)者溫德爾史密斯在20世紀(jì)50年代提出,認(rèn)為客戶細(xì)分是根據(jù)客戶屬性將客戶分成集合。現(xiàn)代營銷學(xué)中的客戶細(xì)分是按照客戶特征和共性將客戶群分為不同等級或者子群體,尋找相同要素,對不同類別客戶心理與需求急性研究和評估,從而指導(dǎo)進(jìn)行企業(yè)服務(wù)資源的分配,是企業(yè)獲得客戶價值的一種理論與方法。因此我們注意到,客戶細(xì)分其實是一個分類問題,但是卻有著顯著的特點。
1.2.1客戶細(xì)分是動態(tài)的企業(yè)不斷發(fā)展變化,用戶數(shù)據(jù)不斷積累,市場因素的變化,都會造成客戶細(xì)分的變化。所以客戶細(xì)分工作需要根據(jù)客戶情況的變化進(jìn)行動態(tài)調(diào)整,
減少錯誤分類,提高多次細(xì)分中至少有一次是正確分類的可能性。
1.2.2受眾多因素影響
隨著時間的推移,客戶行為和心理會發(fā)生變化,所以不同時間的數(shù)據(jù)會反映出不同的規(guī)律,客戶細(xì)分方法需要在變化過程中準(zhǔn)確掌握客戶行為的規(guī)律性。
1.2.3客戶細(xì)分有不同的分類標(biāo)準(zhǔn)
一般分類問題強(qiáng)調(diào)準(zhǔn)確性,客戶關(guān)系管理則強(qiáng)調(diào)有用性,講求在特定限制條件下實現(xiàn)特定目標(biāo)。
1.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫數(shù)據(jù)中提取有價值的、隱含的、事前未知的潛在有用信息。數(shù)據(jù)挖掘技術(shù)不斷發(fā)展,挖掘?qū)ο蟛辉偈菃我粩?shù)據(jù)庫,已經(jīng)逐漸發(fā)展到文件系統(tǒng)、數(shù)據(jù)集合以及數(shù)據(jù)倉庫的挖掘分析。
2客戶細(xì)分的數(shù)據(jù)挖掘
2.1邏輯模型
客戶數(shù)據(jù)中有著若干離散客戶屬性和連續(xù)客戶屬性,每個客戶屬性為一個維度,客戶作為空間點,全部客戶都能夠形成多為空間,作為客戶的屬性空間,假設(shè)A={A1,A2,…Am}是一組客戶屬性,屬性可以是連續(xù)的,也可以離散型,這些屬性就形成了客戶m維屬性空間。同時設(shè)g是一個描述客戶屬性的一個指標(biāo),f(g)是符合該指標(biāo)的客戶集合,即為概率外延,則任一確定時刻都是n個互不相交集合。在客戶價值概念維度上,可分為“有價值客戶”“潛在價值客戶”“無價值客戶”三種類型,定義RB如下:(1)顯然RB是一個等價關(guān)系,經(jīng)RB可分類屬性空間為若干等價類,每個等價類都是一個概念類,建立客戶細(xì)分,就是客戶屬性空間和概念空間映射關(guān)系的建立過程。
2.2客戶細(xì)分?jǐn)?shù)據(jù)挖掘?qū)嵤?/p>
通過數(shù)據(jù)庫已知概念類客戶數(shù)據(jù)進(jìn)行樣本學(xué)習(xí)和數(shù)據(jù)挖掘,進(jìn)行客戶屬性空間與概念空間映射的自動歸納。首先確定一組概念類已知客戶集合。首先確定一個映射:p:C→L,使,如果,則。,求p(c)確定所屬概念類。數(shù)據(jù)部分有客戶數(shù)據(jù)存儲和概念維數(shù)據(jù)構(gòu)成,客戶數(shù)據(jù)存儲有企業(yè)全部內(nèi)在屬性、外在屬性以及行為屬性等數(shù)據(jù),方法則主要有關(guān)聯(lián)規(guī)則分析、深井網(wǎng)絡(luò)分類、決策樹、實例學(xué)習(xí)等數(shù)據(jù)挖掘方法,通過對客戶數(shù)據(jù)存儲數(shù)據(jù)學(xué)習(xí)算法來建立客戶數(shù)據(jù)和概念維之間的映射關(guān)系。
2.3客戶細(xì)分?jǐn)?shù)據(jù)分析
建立客戶動態(tài)行為描述模型,滿足客戶行為非確定性和非一致性要求,客戶中心的管理體制下,客戶細(xì)分影響企業(yè)戰(zhàn)術(shù)和戰(zhàn)略級別決策的生成,所以數(shù)據(jù)挖掘要能夠彌補(bǔ)傳統(tǒng)數(shù)據(jù)分析方法在可靠性方面的缺陷。
2.3.1客戶外在屬性
外在屬性有客戶地理分布、客戶組織歸屬情況和客戶產(chǎn)品擁有情況等?蛻舻慕M織歸屬是客戶社會組織類型,客戶產(chǎn)品擁有情況是客戶是否擁有或者擁有哪些與其他企業(yè)或者其他企業(yè)相關(guān)產(chǎn)品。
2.3.2內(nèi)在屬性
內(nèi)在屬性有人口因素和心理因素等,人口因素是消費者市場細(xì)分的重要變量。相比其他變量,人口因素更加容易測量。心理因素則主要有客戶愛好、性格、信用情況以及價值取向等因素。
2.3.3消費行為
消費行為屬性則重點關(guān)注客戶購買前對產(chǎn)品的了解情況,是客戶細(xì)分中最客觀和重要的因素。
2.4數(shù)據(jù)挖掘算法
2.4.1聚類算法
按照客戶價值標(biāo)記聚類結(jié)果,通過分類功能,建立客戶特征模型,準(zhǔn)確描述高價值客戶的一些特有特征,使得企業(yè)在之后的市場活動中能夠迅速發(fā)現(xiàn)并抓住類似的高價值客戶,全面提高客戶的整體價值水平。通常都采用中心算法進(jìn)行客戶的聚類分析,分析涉及的字段主要有客戶的基本信息以及與客戶相關(guān)業(yè)務(wù)信息,企業(yè)采用中心算法,按照企業(yè)自身的行業(yè)性質(zhì)以及商務(wù)環(huán)境,選擇不同的聚類分析策略,有主屬性聚類分析和全屬性聚類分析兩類。主屬性聚類分析是企業(yè)根據(jù)在企業(yè)標(biāo)度變量中選擇主要弧形作為聚類分析變量。通常區(qū)間標(biāo)度變量選用的度量單位會對聚類分析結(jié)果產(chǎn)生很大影響,選擇的度量單位越小,就會獲得越大的可能值域,對聚類結(jié)果的影響也就越大。
2.4.2客戶分析預(yù)測
行業(yè)競爭愈加激烈,新客戶的獲得成本越來越高,在保持原有工作價值的同時,客戶的流失也受到了企業(yè)的重視。為了控制客戶流失,就需要對流失客戶的數(shù)據(jù)進(jìn)行認(rèn)真分析,找尋流失客戶的根本原因,防止客戶的持續(xù)流失。數(shù)據(jù)挖掘聚類功能同樣能夠利用在客戶流失數(shù)據(jù)分析工作中,建立基于流失客戶數(shù)據(jù)樣本庫的分類函數(shù)以及分類模式,通過模型分析客戶流失因素,能夠獲得一個最有可能流失的客戶群體,同時編制一個有針對性的挽留方案。之后對數(shù)據(jù)進(jìn)行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個可供選擇的模型中找出最佳模型。初始階段,模型的擬合程度可能不理想,但是隨著模型的不斷更換和優(yōu)化,最終就有可能找出合適的模型進(jìn)行數(shù)據(jù)描述并挖掘出流失數(shù)據(jù)規(guī)律。通常模擬模型都通過數(shù)據(jù)分析專業(yè)和業(yè)務(wù)專家協(xié)作完成,采用決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等流失分析模型,實現(xiàn)客戶行為的預(yù)測分析。
3結(jié)語
從工業(yè)營銷中的客戶細(xì)分觀點出發(fā),在數(shù)據(jù)挖掘、客戶關(guān)系管理等理論基礎(chǔ)上,采用統(tǒng)計學(xué)、運(yùn)籌學(xué)和數(shù)據(jù)挖掘技術(shù),對客戶細(xì)分的數(shù)據(jù)挖掘方法進(jìn)行了研究,建立了基于決策樹的客戶細(xì)分模型,是一種效率很高的管理工具。
作者:區(qū)嘉良 呂淑儀 單位:中國石化廣東石油分公司
數(shù)據(jù)挖掘論文12
數(shù)據(jù)挖掘技術(shù)在金融業(yè)、醫(yī)療保健業(yè)、市場業(yè)、零售業(yè)和制造業(yè)等很多領(lǐng)域都得到了很好的應(yīng)用。針對交通安全領(lǐng)域中交通事故數(shù)據(jù)利用率低的現(xiàn)狀,可以通過數(shù)據(jù)挖掘?qū)ο嚓P(guān)交通事故數(shù)據(jù)進(jìn)行統(tǒng)計分析,從而發(fā)現(xiàn)其中的關(guān)聯(lián),這對提升交通安全水平具有非常重要的意義。
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘(DataMining)即對大量數(shù)據(jù)進(jìn)行有效的分類統(tǒng)計,從而整理出有規(guī)律的、有價值的、潛在的未知信息。一般來講,這些數(shù)據(jù)存在極大的隨機(jī)性和不完全性,其包括各行各業(yè)各個方面的數(shù)據(jù)。數(shù)據(jù)挖掘是一個結(jié)合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)的學(xué)科,涉及統(tǒng)計數(shù)據(jù)和技術(shù)理論等領(lǐng)域。
2數(shù)據(jù)挖掘關(guān)聯(lián)分析研究
關(guān)聯(lián)分析作為數(shù)據(jù)挖掘中的重要組成部分,其主要作用就是通過數(shù)據(jù)之間的相互關(guān)聯(lián)從而發(fā)現(xiàn)數(shù)據(jù)集中某種未知的聯(lián)系。關(guān)聯(lián)分析最初是在20世紀(jì)90年代初被提出來的,一直備受關(guān)注。已被廣泛應(yīng)用于各行各業(yè),包括醫(yī)療體檢、電子商務(wù)、商業(yè)金融等各個領(lǐng)域。關(guān)聯(lián)規(guī)則的挖掘一般可分成兩個步驟[1]:
(1)找出頻繁項集,不小于最小支持度的項集;
。2)生成強(qiáng)關(guān)聯(lián)規(guī)則,不小于最小置信度的關(guān)聯(lián)規(guī)則。相對于生成強(qiáng)關(guān)聯(lián)規(guī)則,找出頻繁項集這一步比較麻煩。由R.Agrawal等人在1994年提出的Apriori算法是生成頻繁項集的經(jīng)典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-項集探索(k+1)-項集。Apriori算法在整體上可分為兩個部分。
。1)發(fā)現(xiàn)頻集。這個部分是最重要的,開銷相繼產(chǎn)生了各種各樣的頻集算法,專門用于發(fā)現(xiàn)頻集,以降低其復(fù)雜度、提高發(fā)現(xiàn)頻集的效率。
。2)利用所獲得的頻繁項集各種算法主要致力產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。當(dāng)然頻集構(gòu)成的聯(lián)規(guī)則未必是強(qiáng)關(guān)聯(lián)規(guī)則,還要檢驗構(gòu)成的關(guān)聯(lián)規(guī)則的支持度和支持度是否超過它們的閾值。Apriori算法找出頻繁項集分為兩步:連接和剪枝。
。1)連接。集合Lk-1為頻繁k-1項集的集合,它通過與自身連接就可以生成候選k項集的集合,記作Ck。
。2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性質(zhì)(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進(jìn)行壓縮;然后,通過掃描所有的事務(wù),確定壓縮后Ck中的每個候選的支持度;最后與設(shè)定的最小支持度進(jìn)行比較,如果支持度不小于最小支持度,則認(rèn)為該候選項是頻繁的。目前,在互聯(lián)網(wǎng)技術(shù)及科學(xué)技術(shù)的快速發(fā)展下,人工智能、機(jī)器識別等技術(shù)興起,關(guān)聯(lián)分析也被越來越多應(yīng)用其中,并在不斷發(fā)展中提出了大量的改進(jìn)算法。
3數(shù)據(jù)挖掘關(guān)聯(lián)分析在道路交通事故原因分析當(dāng)中的應(yīng)用
近年來,我國越來越多的學(xué)者將數(shù)據(jù)挖掘關(guān)聯(lián)分析應(yīng)用于道路交通事故的研究中,主要是分析道路、車輛、行人以及環(huán)境等因素與交通事故之間的某種聯(lián)系。Pande和Abdel-Aty[3]通過關(guān)聯(lián)分析研究了美國佛羅里達(dá)州20xx年非交叉口發(fā)生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內(nèi)在聯(lián)系,通過研究得出如下結(jié)論,道路照明條件不足是引發(fā)道路交通事故的主要因素,除此之外,還發(fā)現(xiàn)天氣惡劣的環(huán)境下道路彎道的直線段也極易發(fā)生交通事故。Graves[4]利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則對歐洲道路交通事故進(jìn)行了分析,主要研究了交通事故與道路設(shè)施狀況之間的關(guān)聯(lián),通過研究發(fā)現(xiàn)了易導(dǎo)致交通事故發(fā)生的各個道路設(shè)施狀況因素,此研究為歐洲路面建設(shè)及投資提供了強(qiáng)大的決策支持。我國學(xué)者董立巖在研究道路交通事故數(shù)據(jù)的文獻(xiàn)中,將粗糙集與關(guān)聯(lián)分析進(jìn)行了融合,提出了基于偏好信息的決策規(guī)則簡約算法并將其應(yīng)用其中,通過分析發(fā)現(xiàn)了道路交通事故的未知規(guī)律。王艷玲通過關(guān)聯(lián)分析中的因子關(guān)聯(lián)樹模型重點分析了影響道路交通事故最重要的因子,發(fā)現(xiàn)在道路交通事故常見的誘因人、車、路及環(huán)境中對事故影響最大的因子是環(huán)境。許卉瑩等利用關(guān)聯(lián)分析、聚類分析以及決策樹分析三種數(shù)據(jù)挖掘技術(shù)對道路交通事故數(shù)據(jù)進(jìn)行分析,最終得出了科學(xué)的道路交通事故預(yù)防和交通安全管理決策依據(jù)。尚威等在研究中,對大量的道路交通數(shù)據(jù)進(jìn)行了有效整合,并在此基礎(chǔ)上按照交通事故相關(guān)因素的不同特點整理出與事故發(fā)生有關(guān)的字段數(shù)據(jù),形成新的事故數(shù)據(jù)記錄表,然后再根據(jù)多維關(guān)聯(lián)規(guī)則對記錄的相關(guān)數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)了事故誘導(dǎo)因素記錄字段值和事故結(jié)果字段值組成的道路交通事故頻繁字段的組合。張聽等在充分掌握聚類數(shù)據(jù)挖掘理論與方法的基礎(chǔ)上,提出了多目標(biāo)聚類分析框架和一個啟發(fā)式的聚類算法k-WANMI,并將其用在道路交通事故的聚類研究中對不同權(quán)重的屬性進(jìn)行了多目標(biāo)分析。同樣,許宏科也利用該方法對公路隧道交通流數(shù)據(jù)進(jìn)行了聚類分析,其在研究中不僅明確了隧道交通流的峰值規(guī)律,而且還根據(jù)這種規(guī)律制訂了隧道監(jiān)控設(shè)備的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻(xiàn)。徐磊和方源敏在研究中,提出了由簡化信息熵構(gòu)造的改進(jìn)C4.5決策樹算法,并將其應(yīng)用在交通事故數(shù)據(jù)的研究中,對交通數(shù)據(jù)進(jìn)行了正確分類,發(fā)現(xiàn)了一些隱藏的規(guī)則和知識,為交通管理提供了依據(jù)。劉軍、艾力斯木吐拉、馬曉松運(yùn)用多維關(guān)聯(lián)規(guī)則分析交通事故記錄,從而找到導(dǎo)致交通事故發(fā)生次數(shù)多的主要原因,并且指導(dǎo)相關(guān)部門作出相應(yīng)的決策。楊希剛運(yùn)用關(guān)聯(lián)規(guī)則為現(xiàn)實中的交通事故的預(yù)防提供依據(jù)。吉林大學(xué)的吳昊等人,基于關(guān)聯(lián)規(guī)則的理論基礎(chǔ),定義了公路交通事故屬性模型,并結(jié)合改進(jìn)后的Apriori算法,分析了交通事故歷史數(shù)據(jù)信息,為有關(guān)單位和用戶尋找道路黑點(即事故多發(fā)點)提供了技術(shù)支援和決策幫助。
4結(jié)語
通過數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法雖然能夠?qū)Φ缆方煌ㄊ鹿实南嚓P(guān)因素進(jìn)行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關(guān)聯(lián)分析在道路交通事故的研究中往往只能片面發(fā)現(xiàn)某一種或幾種因素影響交通事故的規(guī)律,很難將所有影響因素結(jié)合起來進(jìn)行全面系統(tǒng)的分析。然而道路交通事故的發(fā)生通常都是由相應(yīng)因素導(dǎo)致,而后事故當(dāng)事人意識到危險源的存在并采取措施,直到事故發(fā)生的連續(xù)過程,整體來看體現(xiàn)了時序性。也就是說,道路交通事故是受到一系列按照時間先后順序排列的影響因素組合共同作用而發(fā)生的,從整體的角度出發(fā)研究事故發(fā)生機(jī)理更加科學(xué)。
參考文獻(xiàn)
[1]楊秀萍.大數(shù)據(jù)下關(guān)聯(lián)規(guī)則算法的改進(jìn)及應(yīng)用[J].計算機(jī)與現(xiàn)代化,20xx(12):23-26.
[2]王云,蘇勇.關(guān)聯(lián)規(guī)則挖掘在道路交通事故分析中的應(yīng)用[J].科學(xué)技術(shù)與工程,20xx(7):1824-1827.
[3]徐磊,方源敏.基于決策樹C4.5改進(jìn)算法的交通數(shù)據(jù)挖掘[J].微處理機(jī),20xx,31(6):57-59.
[4]楊希剛.數(shù)據(jù)挖掘在交通事故中的應(yīng)用[[J].軟件導(dǎo)刊,20xx,7(26):18-20.
數(shù)據(jù)挖掘論文13
【摘要】企業(yè)精準(zhǔn)營銷服務(wù)是在充分了解客戶的基礎(chǔ)上,針對客戶特點及需求,有針對性地進(jìn)行產(chǎn)品營銷的行為。大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)井噴式爆炸性增長,不斷驅(qū)動企業(yè)大數(shù)據(jù)精準(zhǔn)營銷的應(yīng)用,數(shù)據(jù)挖掘成了企業(yè)從海量數(shù)據(jù)中獲取信息知識的必要技術(shù)手段。本文主要探討數(shù)據(jù)挖掘常見方法、挖掘過程及在企業(yè)精準(zhǔn)營銷服務(wù)的應(yīng)用,以實際案例分析總結(jié)企業(yè)利用數(shù)據(jù)挖掘開展精準(zhǔn)營銷工作更為合理的方法、流程。
【關(guān)鍵詞】數(shù)據(jù)挖掘;方法論;精準(zhǔn)營銷服務(wù);策略
一、引言
大數(shù)據(jù)時代的來臨,數(shù)據(jù)呈現(xiàn)井噴式爆炸性增長。在海量數(shù)據(jù)中,隱藏著無數(shù)商業(yè)機(jī)會,但如何將大數(shù)據(jù)利用起來卻是一項艱巨的工作。在企業(yè)實施精準(zhǔn)營銷服務(wù)過程中,面臨著客戶在哪?客戶有什么特征?客戶需要什么產(chǎn)品?如何進(jìn)行有效營銷,提升客戶價值?我們在數(shù)據(jù)的海洋里淹死了,卻在知識的海洋里渴死了……而從龐大的數(shù)據(jù)中,借助合適的數(shù)據(jù)挖掘技術(shù)及工具,借助結(jié)合實際的數(shù)據(jù)挖掘方法,以客觀統(tǒng)計分析和挖掘算法挖掘出企業(yè)精準(zhǔn)營銷服務(wù)的潛在目標(biāo)用戶、用戶特征,同時匹配合適的營銷服務(wù)策略,可以顯著提升企業(yè)營銷服務(wù)精準(zhǔn)度與成功率。
二、數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘工作本質(zhì)上是一個解決實際業(yè)務(wù)問題的過程,需要有系統(tǒng)、科學(xué)的數(shù)據(jù)挖掘方法論來指導(dǎo)。業(yè)內(nèi)主流的數(shù)據(jù)挖掘方法論有:歐盟機(jī)構(gòu)聯(lián)合起草的CRISP-DM、SAS公司提出的SEMMA。CRISP-DM將數(shù)據(jù)挖掘分為6個階段,即商業(yè)理解(Busi-nessunderstanding)、數(shù)據(jù)理解(Dataunderstanding)、數(shù)據(jù)準(zhǔn)備(Datapreparation)、建模(Modeling)、評估(Evaluation)、部署(Deployment)。而SEMMA將數(shù)據(jù)挖掘分為5個階段,即數(shù)據(jù)取樣(Sample)、數(shù)據(jù)特征探索、分析和預(yù)處理(Explore)、問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇(Modify)、模型的研發(fā)、知識的發(fā)現(xiàn)(Model)、模型和知識的綜合解釋和評價(Assess)。從工作流程來看,CRISP-DM是從項目執(zhí)行角度談的方法論,更關(guān)注與商業(yè)目標(biāo)的結(jié)合,而SEMMA則是從具體數(shù)據(jù)探測和挖掘出發(fā)談的方法論,更關(guān)注數(shù)據(jù)探索的過程。但從具體工作內(nèi)容來看,CRISP-DM和SEMMA本質(zhì)上都是在數(shù)據(jù)挖掘應(yīng)用中提出問題、分析問題和解決問題的過程。因此,CRISP-DM和SEMMA互不矛盾,只是強(qiáng)調(diào)的重點不同而已。結(jié)合企業(yè)實施數(shù)據(jù)挖掘工作的實踐經(jīng)驗,經(jīng)常采用PDMA數(shù)據(jù)挖掘方法。PDMA將數(shù)據(jù)挖掘分為4個階段,即定義業(yè)務(wù)問題(Problemdefinition)、數(shù)據(jù)準(zhǔn)備(DataPreparation)、模型構(gòu)建(ModelCreation)、模型應(yīng)用(ModelApplication)。與CRISP-DM、SEMMA等相比,PDMA類似CRISP-DM,但又有較大差異。首先,PDMA將CRISP-DM的數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備做了提煉與分解。PDMA的數(shù)據(jù)準(zhǔn)備是在滿足業(yè)務(wù)目標(biāo)的前提下,確定挖掘建模的數(shù)據(jù)范圍,并構(gòu)建生成寬表數(shù)據(jù)及核查數(shù)據(jù)準(zhǔn)確性。PDMA的模型構(gòu)建是在數(shù)據(jù)準(zhǔn)備后,從數(shù)據(jù)集中采集業(yè)務(wù)問題相關(guān)的樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律和趨勢,針對數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進(jìn)行探索,選擇一種或幾種挖掘算法,進(jìn)行模型構(gòu)建及從技術(shù)和業(yè)務(wù)兩個角度進(jìn)行模型評估?梢,PDMA的數(shù)據(jù)準(zhǔn)備只負(fù)責(zé)建模挖掘?qū)挶頊?zhǔn)備,數(shù)據(jù)探索包括衍生變量的生成、選擇等部分?jǐn)?shù)據(jù)處理工作在模型構(gòu)建階段實現(xiàn),各階段間的工作分工也更為清晰。其次,PDMA的模型應(yīng)用不僅僅是模型部署,還包括模型評分、模型監(jiān)控與維護(hù),確保當(dāng)市場環(huán)境、用戶數(shù)據(jù)發(fā)生變化時,能及時判別在用的挖掘模型是否還有效、適用。對于不適用的挖掘模型及時調(diào)整優(yōu)化,實現(xiàn)模型閉環(huán)管理。同時,PDMA的模型應(yīng)用還強(qiáng)調(diào)模型輸出目標(biāo)用戶的細(xì)分,及與市場營銷策略的匹配建議,幫助業(yè)務(wù)部門更好理解模型輸出及指導(dǎo)后續(xù)工作的開展。PDMA數(shù)據(jù)挖掘方法論是CRISP-DM、SEMMA等方法論的提煉優(yōu)化。
三、數(shù)據(jù)挖掘精準(zhǔn)營銷應(yīng)用
隨著三大運(yùn)營商全業(yè)務(wù)經(jīng)營的迅猛發(fā)展,寬帶市場競爭激烈、市場日益飽和,越發(fā)呈現(xiàn)價格戰(zhàn)的競爭格局。借助大數(shù)據(jù)分析挖掘可精準(zhǔn)識別寬帶營銷服務(wù)潛在目標(biāo)客戶及特征,從而實現(xiàn)營銷服務(wù)有的放矢。
1、定義業(yè)務(wù)問題
。1)基于歷史數(shù)據(jù)挖掘過往寬帶營銷服務(wù)客戶寬帶使用特征、消費水平特征、上網(wǎng)偏好等,剖析營銷服務(wù)用戶的主要特征和原因,輸出潛在目標(biāo)用戶清單。(2)在輸出潛在目標(biāo)用戶清單的基礎(chǔ)上,對目標(biāo)客戶進(jìn)一步深入挖掘分群,剖析出不同人群客戶的寬帶使用、消費行為的典型特點,提出針對性營銷服務(wù)策略。(3)針對輸出的潛在目標(biāo)用戶清單和分群制定具體的銷售策略,進(jìn)行派單執(zhí)行,跟蹤效果,做好下次模型迭代優(yōu)化。
2、數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是在滿足業(yè)務(wù)目標(biāo)前提下,確定數(shù)據(jù)建模的數(shù)據(jù)范圍,描述和檢查這些數(shù)據(jù),并構(gòu)建建模寬表。針對寬帶用戶的行為特征,可以選取以下幾個數(shù)據(jù)維度:上網(wǎng)偏好維度、消費行為維度、產(chǎn)品及終端結(jié)構(gòu)維度。其中,偏好類別數(shù)據(jù)主要利用DPI數(shù)據(jù)對用戶訪問的目標(biāo)URL地址,進(jìn)行多維度的統(tǒng)計計算后,得出的興趣類別標(biāo)簽。輸入模型的變量要根據(jù)不同區(qū)域和每次預(yù)測的數(shù)據(jù)源動態(tài)調(diào)整。經(jīng)過數(shù)據(jù)清洗、整理、派生,最終確定模型輸入變量時,主要依據(jù)對于模型輸出結(jié)果的影響顯著性選擇。
3、模型構(gòu)建
模型構(gòu)建就是在數(shù)據(jù)準(zhǔn)備后,從數(shù)據(jù)集市中采集業(yè)務(wù)問題相關(guān)的樣本數(shù)據(jù)集,探索數(shù)據(jù)的規(guī)律和趨勢,針對數(shù)據(jù)建模的數(shù)據(jù)集數(shù)據(jù)進(jìn)行修正,選擇一種或幾種挖掘方法,進(jìn)行數(shù)據(jù)模型構(gòu)建,從技術(shù)和業(yè)務(wù)兩個層面進(jìn)行模型評估。通常情況下,主要以邏輯回歸和決策樹等作為建模主要方法,此類模型能輸出具體流失公式和規(guī)則。在進(jìn)行用戶分群時,主要以聚類模型為主要方法,尋找不同類型用戶特征,制定分群針對性維系策略。
4、模型應(yīng)用
在輸出潛在目標(biāo)用戶清單的基礎(chǔ)上,對目標(biāo)客戶進(jìn)行分群。根據(jù)數(shù)據(jù)挖掘模型結(jié)果,寬帶營銷服務(wù)用戶可以分為以下5類:低需求型用戶、供給過剩型用戶、供給不足型用戶、長期高需求型用戶、短期高需求型用戶;诜秩汉蟮哪繕(biāo)用戶,可以針對性進(jìn)行營銷服務(wù)策略匹配,如低需求型用戶可以采用寬帶資費優(yōu)惠(如對上網(wǎng)少用戶采取特定的低資費),供給不足型用戶可以采用加快低寬帶客戶向高帶寬的遷移政策。最后進(jìn)行派單執(zhí)行,跟蹤效果。
四、結(jié)束語
大數(shù)據(jù)時代,由于信息技術(shù)的應(yīng)用普及,產(chǎn)生了大量的數(shù)據(jù),每年都以指數(shù)級速度增長。數(shù)據(jù)量大導(dǎo)致數(shù)據(jù)應(yīng)用也會變得越來越困難,而借助合適的數(shù)據(jù)挖掘技術(shù)及工具,結(jié)合實際的數(shù)據(jù)挖掘方法,可以更加有效地提高數(shù)據(jù)的利用率,更深層次地挖掘出對企業(yè)精準(zhǔn)營銷有價值的信息,實現(xiàn)對海量信息的掌控,讓企業(yè)實現(xiàn)更為精準(zhǔn)的營銷服務(wù)。
數(shù)據(jù)挖掘論文14
摘要:主要通過對數(shù)據(jù)挖掘技術(shù)的探討,對職教多年累積的教學(xué)數(shù)據(jù)運(yùn)用分類、決策樹、關(guān)聯(lián)規(guī)則等技術(shù)進(jìn)行分析,從分析的結(jié)果中發(fā)現(xiàn)有價值的數(shù)據(jù)模式,科學(xué)合理地實現(xiàn)教學(xué)評估,讓教學(xué)管理者能夠從中發(fā)現(xiàn)教學(xué)活動中存在的主要問題以便及時改進(jìn),進(jìn)而輔助管理者決策做好教學(xué)管理。
關(guān)鍵詞:教學(xué)評估;數(shù)據(jù)挖掘;教學(xué)評估體系;層次分析法
1概述
近年來國家對中等職業(yè)教育的發(fā)展高度重視,在政策扶持與職教工作者的努力下,職業(yè)教育獲得了蓬勃的發(fā)展。如何提高教學(xué)質(zhì)量、培養(yǎng)合格的高技術(shù)人才成為職教工作者研究的課題。各種調(diào)查研究結(jié)果表明:加強(qiáng)師資隊伍的建設(shè),強(qiáng)化教師教學(xué)評估對教學(xué)質(zhì)量的提高尤為重要。
所謂教學(xué)評估,就是運(yùn)用系統(tǒng)科學(xué)的方法對教學(xué)活動或教育行為的價值、效果作出科學(xué)的判斷過程。教學(xué)評估方式要靈活多樣,要多途徑、多方位、多形式的發(fā)揮評估的導(dǎo)學(xué)作用,以鼓勵評估為主,充分發(fā)揮評估的激勵功能,促進(jìn)教學(xué)的健康發(fā)展。
在中等職業(yè)學(xué)校多年的教育教學(xué)工作中積累了大量的教務(wù)管理數(shù)據(jù)、教師檔案數(shù)據(jù)等,怎樣從龐雜大量的數(shù)據(jù)中挖掘出有效提高教學(xué)質(zhì)量的關(guān)鍵因素是個難題。數(shù)據(jù)挖掘技術(shù)卻可以從人工智能的角度很好地解決這一課題。通過數(shù)據(jù)挖掘技術(shù),得到隱藏在教學(xué)數(shù)據(jù)背后的有用信息,在一定程度上為教學(xué)部門提供決策支持信息促使更好地開展教學(xué)工作,提高教學(xué)質(zhì)量和教學(xué)管理水平,使之能在功能上更加清晰地認(rèn)識教師教與學(xué)生學(xué)的關(guān)系及促進(jìn)教育教學(xué)改革。
2數(shù)據(jù)挖掘技術(shù)
2.1數(shù)據(jù)挖掘的含義
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識”。即數(shù)據(jù)挖掘是對巨大的數(shù)據(jù)集進(jìn)行尋找和分析的計算機(jī)輔助處理過程,在這一過程中顯現(xiàn)先前未曾發(fā)現(xiàn)的模式,然后從這些數(shù)據(jù)中發(fā)掘某些內(nèi)涵信息,包括描述過去和預(yù)測未來趨勢的信息。人工智能領(lǐng)域習(xí)慣稱知識發(fā)現(xiàn),而數(shù)據(jù)庫領(lǐng)域習(xí)慣將其稱為數(shù)據(jù)挖掘。
2.2數(shù)據(jù)挖掘的基本過程
數(shù)據(jù)挖掘過程包括對問題的理解和提出、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等過程,以上的過程不是一次完成的,其中某些步驟或者全過程可能要反復(fù)進(jìn)行。對問題的理解和提出在開始數(shù)據(jù)挖掘之前,最基礎(chǔ)的工作就是理解數(shù)據(jù)和實際的業(yè)務(wù)問題,在這個基礎(chǔ)之上提出問題,對目標(biāo)作出明確的定義。
2.3數(shù)據(jù)挖掘常用的算法
2.3.1分類分析方法:是通過分析訓(xùn)練集中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,以便以后利用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進(jìn)行分類的方法。2.3.2決策樹算法:是一種常用于分類、預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的的分類,從而找到一些有價值的、潛在的信息。它的主要優(yōu)點是描述簡單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。2.3.3聚類算法:聚類分析處理的數(shù)據(jù)對象的類是未知的。聚類分析就是將對象集合分組為由類似的對象組成的多個簇的過程。在同一個簇內(nèi)的對象之間具有較高的相似度,而不同簇內(nèi)的對象差別較大。2.3.4關(guān)聯(lián)規(guī)則算法:側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的關(guān)系,即尋找給定數(shù)據(jù)集中的有趣聯(lián)系。提取描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的潛在關(guān)系的規(guī)則,找出滿足給定支持度和置信度閾值的多個域之間的依賴關(guān)系。
在以上各種算法的研究中,比較有影響的是關(guān)聯(lián)規(guī)則算法。
3教學(xué)評估體系
評價指標(biāo)體系是教學(xué)評估的基礎(chǔ)和依據(jù),對評估起著導(dǎo)向作用,因此制定一個科學(xué)全面的評價指標(biāo)體系就成為改革、完善評價的首要目標(biāo)。評價指標(biāo)應(yīng)以指導(dǎo)教學(xué)實踐為目的,通過評價使教師明確教學(xué)過程中應(yīng)該肯定的和需要改進(jìn)的地方;以及給出設(shè)計評價指標(biāo)的導(dǎo)向問題。
3.1教學(xué)評估體系的構(gòu)建方法
層次分析法(簡稱AHP法)是美國運(yùn)籌學(xué)家T·L·Saaty教授在20世紀(jì)70年代初期提出的一種簡便、靈活而又實用的多準(zhǔn)則決策的系統(tǒng)分析方法,其原理是把一個復(fù)雜問題分解、轉(zhuǎn)化為定量分析的方法。它需要建立關(guān)于系統(tǒng)屬性的各因素多級遞階結(jié)構(gòu),然后對每一層次上的因素逐一進(jìn)行比較,得到判斷矩陣,通過計算判斷矩陣的特征值和特征向量,得到其關(guān)于上一層因素的相對權(quán)重,并可自上而下地用上一層次因素的相對權(quán)重加權(quán)求和,求出各層次因素關(guān)于系統(tǒng)整體屬性(總目標(biāo)層)的綜合重要度。
3.2構(gòu)建教學(xué)評估指標(biāo)體系的作用
3.2.1構(gòu)建的教學(xué)評估指標(biāo),作為挖掘庫選擇教學(xué)信息屬性的依據(jù)。
3.2.2通過AHP方法,能篩選出用來評價教學(xué)質(zhì)量的相關(guān)重要屬性,從而入選為挖掘庫字段,這樣就減去了挖掘庫中對于挖掘目標(biāo)來說影響較小的屬性,進(jìn)而大大減少了挖掘的工作量,提高挖掘效率。3.2.3通過構(gòu)建教學(xué)評估指標(biāo),減少了挖掘?qū)ο蟮淖侄,從而避免因挖掘字段過多,導(dǎo)致建立的決策樹過大,出現(xiàn)過度擬合挖掘?qū)ο,進(jìn)而造成挖掘規(guī)則不具有很好的評價效果的現(xiàn)象。3.2.4提高教學(xué)質(zhì)量評估實施工作的效率。
4數(shù)據(jù)挖掘在教學(xué)評估中的應(yīng)用
4.1學(xué)習(xí)效果評價學(xué)習(xí)評價是教育工作者的重要職責(zé)之一。評價學(xué)生的學(xué)習(xí)情況,既對學(xué)生起到信息反饋和激發(fā)學(xué)習(xí)動機(jī)的作用,又是檢查課程計劃、教學(xué)程序以至教學(xué)目的的手段,也是考查學(xué)生個別差異、便于因材施教的途徑。評價要遵循“評價內(nèi)容要全面、評價方式要多元化、評價次數(shù)要多次化,注重自評與互評的有機(jī)結(jié)合”的原則。利用數(shù)據(jù)挖掘工具,對教師業(yè)務(wù)檔案數(shù)據(jù)庫、行為記錄數(shù)據(jù)庫、獎勵處罰數(shù)據(jù)庫等進(jìn)行分析處理,可以即時得到教師教學(xué)的評價結(jié)果,對教學(xué)過程出現(xiàn)的問題進(jìn)行及時指正。
另外,這種系統(tǒng)還能夠克服教師主觀評價的不公正、不客觀的弱點,減輕教師的工作量。
4.2課堂教學(xué)評價
課堂教學(xué)評價不僅對教學(xué)起著調(diào)節(jié)、控制、指導(dǎo)和推動作用,而且有很強(qiáng)的導(dǎo)向性,是學(xué)校教學(xué)管理的重要組成部分,是評價教學(xué)工作成績的主要手段。實現(xiàn)對任課教師及教學(xué)組織工作效果做出評價,但是更重要的目的是總結(jié)優(yōu)秀的教學(xué)經(jīng)驗,為教學(xué)質(zhì)量的穩(wěn)定提高制定科學(xué)的規(guī)范。學(xué)校每學(xué)期都要搞課堂教學(xué)評價調(diào)查,積累了大量的數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù),從教學(xué)評價數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,將關(guān)聯(lián)規(guī)則應(yīng)用于教師教學(xué)評估系統(tǒng)中,探討教學(xué)效果的好壞與老師的年齡、職稱、學(xué)歷之間的聯(lián)系;確定教師的教學(xué)內(nèi)容的范圍和深度是否合適,選擇的教學(xué)媒體是否適合所選的教學(xué)內(nèi)容和教學(xué)對象;講解的時間是否恰到好處;教學(xué)策略是否得當(dāng)?shù)。從而可以及時地將挖掘出的規(guī)則信息反饋給教師。管理部門據(jù)此能合理配置班級的上課教師,使學(xué)生能夠較好地保持良好的學(xué)習(xí)態(tài)度,從而為教學(xué)部門提供了決策支持信息,促使教學(xué)工作更好地開展。
結(jié)束語
數(shù)據(jù)挖掘作為一種工具,其技術(shù)日趨成熟,在許多領(lǐng)域取得了廣泛的應(yīng)用。在教育領(lǐng)域里,隨著數(shù)據(jù)的不斷累積,把數(shù)據(jù)挖掘技術(shù)應(yīng)用到教學(xué)評價系統(tǒng)中,讓領(lǐng)導(dǎo)者能夠從中發(fā)現(xiàn)教師教學(xué)活動中的主要問題,以便及時改進(jìn),進(jìn)而輔助領(lǐng)導(dǎo)決策做好學(xué)校管理,提高學(xué)校管理能力和水平,同時通過建立有效的教學(xué)激勵機(jī)制來達(dá)到提高教學(xué)質(zhì)量的目的。這一研究對發(fā)展中的職業(yè)教育教學(xué)管理提出了很好的建議,為教學(xué)管理工作的計算機(jī)輔助決策增添了新的內(nèi)容。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于中職教學(xué)評估,設(shè)計開發(fā)一套行之有效的課堂教學(xué)評價系統(tǒng),是下一步要做的工作,必將有力推動職業(yè)教育的快速發(fā)展。
數(shù)據(jù)挖掘論文15
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,學(xué)術(shù)研究環(huán)境較以前更加開放,對傳統(tǒng)的科技出版業(yè)提出了開放性、互動性和快速性的要求; 因此,以信息技術(shù)為基礎(chǔ)的現(xiàn)代數(shù)字化出版方式對傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應(yīng)這一趨勢,不少科技期刊都進(jìn)行了數(shù)字化建設(shè),構(gòu)建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結(jié)構(gòu)的稿件處理系統(tǒng)。
以中華醫(yī)學(xué)會雜志社為代表的部分科技期刊出版集團(tuán)均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務(wù)數(shù)據(jù); 但從工作系統(tǒng)來看,由于數(shù)據(jù)本身只屬于編輯部的業(yè)務(wù)數(shù)據(jù),因此一旦相關(guān)業(yè)務(wù)工作進(jìn)行完畢,將很少再對這些數(shù)據(jù)進(jìn)行分析使用。
隨著目前人工智能和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對原始用戶業(yè)務(wù)數(shù)據(jù)進(jìn)行有效分析和學(xué)習(xí),找出其中數(shù)據(jù)背后隱含的內(nèi)在規(guī)律。這些有價值的規(guī)律和寶貴的經(jīng)驗將對后續(xù)科技期刊經(jīng)營等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術(shù)發(fā)展來看,利用數(shù)據(jù)存取、數(shù)據(jù)管理、關(guān)聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術(shù)將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術(shù),人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數(shù)據(jù)中,提取隱藏在其中有價值的信息,從而對后續(xù)科技期刊出版工作起到重要的知識發(fā)現(xiàn)和決策支持的作用。
1 數(shù)據(jù)挖掘在科技期刊中應(yīng)用的現(xiàn)狀
傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術(shù)均無法發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)和規(guī)則,更無法根據(jù)現(xiàn)有數(shù)據(jù)對未來發(fā)展的趨勢進(jìn)行預(yù)測,F(xiàn)有數(shù)據(jù)挖掘的任務(wù)可以分為對數(shù)據(jù)模型進(jìn)行分類或預(yù)測、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系發(fā)現(xiàn)、異常或例外點檢測以及趨勢發(fā)現(xiàn)等,但目前國內(nèi)科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進(jìn)行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進(jìn)行分析后發(fā)現(xiàn),中國科協(xié)科技期刊出版單位多為單刊獨立經(jīng)營,單位的規(guī)模較小、實力較弱,多數(shù)出版單位不具備市場主體地位。這樣就導(dǎo)致國內(nèi)大部分科技期刊既沒有能力進(jìn)行數(shù)據(jù)挖掘,也沒有相應(yīng)的數(shù)據(jù)資源準(zhǔn)備。以數(shù)據(jù)挖掘技術(shù)應(yīng)用于期刊網(wǎng)站為例,為了進(jìn)行深入的數(shù)據(jù)分析,期刊經(jīng)營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內(nèi)在聯(lián)系。目前,數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的對象與目標(biāo);2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉庫; 5)數(shù)據(jù)挖掘分析; 6) 對象與目標(biāo)的數(shù)據(jù)應(yīng)用和反饋。
2 期刊數(shù)據(jù)的資源整合
編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個系統(tǒng)中將相關(guān)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和整理,然后加載到數(shù)據(jù)倉庫中。進(jìn)一步,根據(jù)業(yè)務(wù)應(yīng)用的范圍和緊密度,建立相關(guān)數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲處理層和數(shù)據(jù)展現(xiàn)層。
要獲得能夠適合企業(yè)內(nèi)部多部門均可使用、挖掘和分析的數(shù)據(jù),可以從業(yè)務(wù)的關(guān)聯(lián)性分析數(shù)據(jù)的準(zhǔn)確性、一致性、有效性和數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性。
3 期刊數(shù)據(jù)的信息挖掘
信息挖掘為了從不同種類和形式的業(yè)務(wù)進(jìn)行抽取、變換、集成數(shù)據(jù),最后將其存儲到數(shù)據(jù)倉庫,并要對數(shù)據(jù)的質(zhì)量進(jìn)行維護(hù)和管理。數(shù)據(jù)挖掘可以有效地識別讀者的閱讀行為,發(fā)現(xiàn)讀者的閱讀模式和趨勢,對網(wǎng)站改進(jìn)服務(wù)質(zhì)量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營能力有著重要的意義。作為一個分析推薦系統(tǒng),我們將所分析的統(tǒng)計結(jié)果存儲于服務(wù)器中,在用戶或決策者需要查詢時,只需輸入要找尋的用戶信息,系統(tǒng)將從數(shù)據(jù)庫中抽取其個人信息,并處理返回到上網(wǎng)時間分布、興趣點所在、適配業(yè)務(wù)及他對于哪些業(yè)務(wù)是有價值客戶,甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。
網(wǎng)站結(jié)構(gòu)挖掘是挖掘網(wǎng)站中潛在的鏈接結(jié)構(gòu)模式。通過分析一個網(wǎng)頁的鏈接、鏈接數(shù)量以及鏈接對象,建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。在此過程中,如果發(fā)現(xiàn)某一頁面被較多鏈接所指向,則說明該頁面信息是有價值的,值得期刊工作人員做更深層次的挖掘。網(wǎng)站結(jié)構(gòu)挖掘在具體應(yīng)用時采用的結(jié)構(gòu)和技術(shù)各不相同; 但主要過程均包括預(yù)處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向,就需要對數(shù)據(jù)庫中的數(shù)據(jù)按用戶進(jìn)行抽樣分析,得到興趣點的統(tǒng)計結(jié)果,而個人的興趣分析也可基于此思路進(jìn)行。下面以《中華醫(yī)學(xué)雜志》為例做一介紹。
預(yù)處理預(yù)處理是網(wǎng)站結(jié)構(gòu)挖掘最關(guān)鍵的一個環(huán)節(jié),其處理得到的數(shù)據(jù)質(zhì)量直接關(guān)系到使用數(shù)據(jù)挖掘和模式分析方法進(jìn)行分析的結(jié)果。預(yù)處理步驟包括數(shù)據(jù)清洗、用戶識別、會話識別、路徑補(bǔ)充和事件識別。以《中華醫(yī)學(xué)雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內(nèi)容為“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內(nèi)容,工作人員可以得到相關(guān)信息,如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁面等內(nèi)容。
由于服務(wù)器同時部署了多個編輯部網(wǎng)站,這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日志,去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會在日志結(jié)尾包含“Spider”的字樣。同時,還需要去除不是由GET 請求產(chǎn)生的日志以及請求資源不是頁面類型的日志。最后,工作人員還需要去除訪問錯誤的請求,可以根據(jù)日志中請求的狀態(tài)進(jìn)行判斷。一般認(rèn)為,請求狀態(tài)在( 200, 300) 范圍內(nèi)是訪問正確的日志,其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下,才識別為一個用戶。會話識別是利用面向時間的探索法,根據(jù)超時技術(shù)來識別一個用戶的多次會話。如果用戶在一段時間內(nèi)沒有任何操作,則認(rèn)為會話結(jié)束。用戶在規(guī)定時間后重新訪問,則被認(rèn)為不屬于此次會話,而是下次會話的開始。
利用WebLogExplore 分析日志、用戶和網(wǎng)頁信息在獲得了有效的日志數(shù)據(jù)后,工作人員可以利用一些有效數(shù)據(jù)挖掘算法進(jìn)行模式發(fā)現(xiàn)。目前,主要的數(shù)據(jù)挖掘方法有統(tǒng)計分析、關(guān)聯(lián)規(guī)則、分類、聚類以及序列模式等技術(shù)。本文主要討論利用Apriori 算法來發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關(guān)聯(lián)規(guī)則。本質(zhì)上數(shù)據(jù)挖掘不是用來驗證某個假定的模式的正確性,而是在數(shù)據(jù)庫中自己尋找模型,本質(zhì)是一個歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時出現(xiàn)的概率。如果事件A 與B 同時出現(xiàn)的概率較小,說明事件A 與B 的關(guān)系不大; 如果事件A 與B 同時出現(xiàn)非常頻繁,則說明事件A 與B 總是相關(guān)的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時,事件B 是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%,則事件A 必然會導(dǎo)致事件B 出現(xiàn)。置信度太低,說明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關(guān)系不大。
對所有的科技期刊日志數(shù)據(jù)進(jìn)行預(yù)處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲了所有用戶訪問網(wǎng)站頁面的詳細(xì)信息,工作人員可將其導(dǎo)入數(shù)據(jù)庫中。以查看到所選擇用戶訪問期刊頁面的詳細(xì)信息。
同樣,在WebLogExplore 軟件中選擇感興趣的頁面,可以查看所有用戶訪問該頁面的統(tǒng)計信息,如該頁面的訪問用戶數(shù)量等。工作人員可以對用戶訪問排名較高的頁面進(jìn)行進(jìn)一步的模式分析。
步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫中,建立日志總表。
步驟2: 在數(shù)據(jù)庫中建立一個新表命名為tj。
步驟3: 通過查詢程序得到日志總表中每一個用戶訪問的頁面,同時做distinct 處理。
步驟4: 將查詢得到的用戶訪問頁面記錄進(jìn)行判斷。如果用戶訪問過排名前20 位的某個頁面,則在數(shù)據(jù)庫中寫入true,否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫中。
步驟5: 統(tǒng)計每個訪問排名靠前頁面的支持度,設(shè)置一維項目集的最小閥值( 10%) 。
步驟6: 統(tǒng)計大于一維閥值的頁面,寫入數(shù)組,并對數(shù)組內(nèi)部頁面進(jìn)行兩兩組合,統(tǒng)計每個組合2 個頁面值均為true 時的二維項目集的支持度。
步驟7: 設(shè)置二維項目集支持度的閥值,依次統(tǒng)計三維項目集支持度和置信度( A≥B) ,即當(dāng)A 頁面為true 時,統(tǒng)計B 頁面為true 的數(shù)量,除以A 為true 的數(shù)量。設(shè)置相應(yīng)的置信度閥值,找到訪問排名靠前頁面之間較強(qiáng)的關(guān)聯(lián)規(guī)則。
4 數(shù)據(jù)挖掘技術(shù)應(yīng)用的意義
1) 對頻繁訪問的用戶,可以使用用戶識別技術(shù)分析此用戶的歷史訪問記錄,得到他經(jīng)常訪問的頁面。當(dāng)該用戶再次登錄系統(tǒng)時,可以對其進(jìn)行個性化提示或推薦。這樣,既方便用戶使用,也可將系統(tǒng)做得更加友好。很多OA 期刊網(wǎng)站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用戶來講其實十分重要,隱含了用戶對文章的篩選過程,所以對用戶經(jīng)常訪問的頁面需要進(jìn)行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關(guān)鍵詞等信息以列表的方式予以顯示。
2) 由數(shù)據(jù)挖掘技術(shù)而產(chǎn)生的頻繁項目集的分析,可以對網(wǎng)站的結(jié)構(gòu)進(jìn)行改進(jìn)。支持度很高的頁面,說明該頁面的用戶訪問量大。為了方便用戶以及吸引更多的讀者,可以將這些頁面放置在更容易被訪問的位置,科技期刊的網(wǎng)站內(nèi)容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章,也必須通過年卷期的方式來查看,非常不方便而且頁面友好性不高。通過數(shù)據(jù)挖掘的分析,編輯部可以把經(jīng)常被訪問或者高影響因子的文章放在首頁展示。
3) 對由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的頻繁項目集的分析,可以發(fā)現(xiàn)用戶的關(guān)注熱點。若某些頁面或項目被用戶頻繁訪問,則可以用這些數(shù)據(jù)對用戶進(jìn)行分析。一般來說科技期刊的讀者,每個人的專業(yè)和研究方向都是不同的,編輯部可以通過數(shù)據(jù)挖掘技術(shù)來判斷讀者的研究方向和感興趣的熱點,對每一個用戶進(jìn)行有針對性的內(nèi)容推送和消息發(fā)送。
4) 網(wǎng)站管理者可以根據(jù)在不同時間內(nèi)頻繁項目集的變化情況對科技期刊網(wǎng)站進(jìn)行有針對性的調(diào)整,比如加入更多關(guān)于該熱點的主題資源。目前大多數(shù)科技期刊網(wǎng)站首頁的內(nèi)容,均為編輯部工作人員后臺添加、置頂、高亮來吸引用戶的; 通過數(shù)據(jù)挖掘技術(shù),完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶訪問哪些頁面頻繁,系統(tǒng)便會自動將這些頁面的文章推向首頁,不需要編輯部的人工干預(yù),整個網(wǎng)站實現(xiàn)自動化運(yùn)行。
5 后記
本文重點討論了數(shù)據(jù)挖掘技術(shù)與科技期刊網(wǎng)站頁面之間的關(guān)系。其實我們還可以從很多方面進(jìn)行數(shù)據(jù)挖掘,比如可以對網(wǎng)站的用戶和內(nèi)容進(jìn)行數(shù)據(jù)挖掘,通過分析可以為后期的期刊經(jīng)營做好鋪墊。
有一點很重要,沒有一種數(shù)據(jù)挖掘的分析方法可以應(yīng)付所有的需求。對于某一種問題,數(shù)據(jù)本身的特性會影響你的選擇,需要用到許多不同的數(shù)據(jù)挖掘方法以及技術(shù)從數(shù)據(jù)中找到最佳的模型。
在目前深化文化體制改革,推動社會主義文化大發(fā)展、大繁榮的政治形勢下,利用數(shù)據(jù)挖掘技術(shù)從中進(jìn)行提取、分析和應(yīng)用,能有效地幫助企業(yè)了解客戶、改進(jìn)系統(tǒng)、制訂合理的市場策略、提高企業(yè)的銷售水平和利潤。通過利用數(shù)據(jù)挖掘技術(shù)準(zhǔn)確定位優(yōu)質(zhì)客戶,向客戶提供更精確、更有價值的個性化服務(wù)。這將成為未來科技期刊經(jīng)營十分重要的突破點和增長點。
【數(shù)據(jù)挖掘論文】相關(guān)文章:
Web結(jié)構(gòu)的數(shù)據(jù)挖掘HITS算法論文03-29
什么是數(shù)據(jù)分析和數(shù)據(jù)挖掘01-14
數(shù)據(jù)挖掘分析報告模板01-18
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)病毒防御中的運(yùn)用論文04-26
數(shù)據(jù)挖掘技術(shù)分析醫(yī)院信息管理論文12-25
大神面試京東數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)崗位成功拿到offer01-07