數(shù)據(jù)挖掘論文(精品)
在各領域中,大家肯定對論文都不陌生吧,論文的類型很多,包括學年論文、畢業(yè)論文、學位論文、科技論文、成果論文等。寫論文的注意事項有許多,你確定會寫嗎?以下是小編幫大家整理的數(shù)據(jù)挖掘論文,歡迎大家分享。
數(shù)據(jù)挖掘論文1
摘要:近年來,數(shù)據(jù)庫挖掘技術的普遍應用,使數(shù)據(jù)價值實現(xiàn)最大化,在我國金融、商業(yè)、市場營銷等領域得到廣泛應用。然而在我國高校管理中并沒有得到推廣,為使高校管理系統(tǒng)中的數(shù)據(jù)充分發(fā)揮應有價值,在該系統(tǒng)中使用數(shù)據(jù)庫挖掘技術意義深遠。本文首先介紹了數(shù)據(jù)挖掘技術的流程,然后在教師教學質量評估中應用數(shù)據(jù)庫挖掘技術,充分證明數(shù)據(jù)庫挖掘技術在高校管理中能發(fā)揮重大作用。
關鍵詞:管理 決策 數(shù)據(jù)挖掘技術
當前,大部分高校都擁有配套的管理系統(tǒng),該系統(tǒng)具備海量數(shù)據(jù)儲存和管理功能,徹底告別了手工記錄信息和數(shù)據(jù)的年代。不但節(jié)約了紙張,更有效提高了高校管理數(shù)據(jù)和信息的效率。然而我國高校沒有有效利用應用數(shù)據(jù)挖掘技術,因此研究數(shù)據(jù)庫挖掘技術在高校管理中的應用十分必要。
1數(shù)據(jù)挖掘技術的流程
數(shù)據(jù)挖掘技術能夠將海量數(shù)據(jù)展開分析和處理,再把整體數(shù)據(jù)庫中存在規(guī)律的數(shù)據(jù)整合起來,實施該技術主要包括以下五個環(huán)節(jié)。目標定義:該環(huán)節(jié)中要與有關領域的背景知識相結合,清晰、精確的定義出數(shù)據(jù)挖掘目標。數(shù)據(jù)準備:在該環(huán)節(jié)中要搜集、選取數(shù)據(jù)源中的數(shù)據(jù),處理已選數(shù)據(jù),將其轉換為適合數(shù)據(jù)挖掘的`形態(tài)。數(shù)據(jù)挖掘:該環(huán)節(jié)是數(shù)據(jù)挖掘技術的核心,即采用關聯(lián)規(guī)則法、分類分析法等各種數(shù)據(jù)挖掘方法把數(shù)據(jù)中隱藏的知識和規(guī)律發(fā)掘出來。結果表示:在該環(huán)節(jié)中可以以用戶需求為依據(jù),將挖掘出來的知識和規(guī)律轉變?yōu)橛脩裟芙邮芎屠斫獾男螒B(tài)。知識吸收:該環(huán)節(jié)中,主要是把挖掘結果與指定領域中的需求相結合,在該領域中應用發(fā)掘出來的結果,為決策者提供知識,是數(shù)據(jù)挖掘的終極目標。
2數(shù)據(jù)挖掘技術在教學質量評估中的應用
2。1運用關聯(lián)規(guī)則法挖掘數(shù)據(jù)庫中的信息
評估老師教學質量不但是評定教學效果的重要部分,也是評定教師職稱的重要根據(jù),因此是高校管理工作中不可或缺的部分。目前評估教學質量的主要措施是搜集、統(tǒng)計學生的成績和以及對老師的評價,然后加權算出老師的總得分,作為評估該老師教學質量指標。這種方法非但不科學,其權威性也較低,因此需要深挖數(shù)據(jù)的相關性,本文采用了數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)法挖掘數(shù)據(jù)中的規(guī)律和知識,為評估老師教學質量提供有力根據(jù)。運用關聯(lián)規(guī)則法挖掘數(shù)據(jù),其規(guī)則方法為“XY,置信度為c%,,支持度為s%”。關聯(lián)規(guī)則中置信度為c%:在整體事件D集合中,如果既能夠符合事件X中擁有c%的需求,也能夠符合Y的要求。那么就用置信度來表示關聯(lián)規(guī)則的強度,被記錄為confidence(XY),置信度最小值用minConf來表示,通常置信度最小數(shù)值由客戶提供。關聯(lián)規(guī)則中置信度為s%:在整體事件D集合中,如果既能夠符合事件Y中的s%的需求,又能夠符合X要求。用支持度來表示關聯(lián)規(guī)則的頻度,把支持度的最小數(shù)記錄用minsup(X)來表示,通常支持度最小數(shù)值由客戶提供。頻繁項集合:當X項集的支持度大于等于用戶設定好的最小支持度時,那么頻繁項集是X。通常關聯(lián)規(guī)則包含兩個環(huán)節(jié):①把全部頻繁項集從整體事件集中選出;②運用頻繁項集產生關聯(lián)規(guī)則。在這兩個環(huán)節(jié)中關聯(lián)規(guī)則效果和性能是否良好取決于第一個環(huán)節(jié)。
2。2關聯(lián)規(guī)則分析在評估教學質量中的運用
第一步是準備數(shù)據(jù)期,在某大學的教學管理系統(tǒng)中將五百條與教學評價有關的記錄從數(shù)據(jù)庫中隨機抽取,并挑選出老師編號、學歷、性別、教齡、評估分和職稱這六個屬性,并將相關數(shù)據(jù)從數(shù)據(jù)庫中提取。比如把講師、副教授和教授等職稱轉化成11、01、00等編碼,表1就是制定的評價教師教學記錄表。第二步采用關聯(lián)規(guī)則分析法把90分以上評價分數(shù)作為檢索目標和判斷標準,也就是將≥90分作為判斷是否是高教學質量闕值。通過檢索有143條記錄符合標準,即設定最小的支持度為10%,置信度則為15%,得出下表2的關聯(lián)規(guī)則。最后一步評價本次實驗的結果。由上表得知,學生喜歡男老師和女老師的程度大致相同;學歷愈高的老師,給予他們的教學評價也就愈高,即學歷和教學評價成正比,這也說明了學歷高的老師其基本功與學歷低的老師相比,前者基本功更為穩(wěn)固,也有較高的科學研究水平;有較長教齡和較高職稱的老師,其教學質量也越高;此外,在支持度中可以看出,高校教授和高學歷人才越多,說明其辦學能力也就越高。
3結語
高校管理系統(tǒng)作為教學信息化的重要舉措,只是起到搜集和儲存海量教學信息的作用,并沒有挖掘出海量數(shù)據(jù)之間的相關性,而在本文中把關聯(lián)規(guī)則法運用在教師教學質量評估中,在數(shù)據(jù)中挖掘有價值的知識和規(guī)律,使評估教師教學質量更具有科學性,因此在高校管理中全面應用數(shù)據(jù)挖掘技術,能為高校深化教學改革提供新的契機。
參考文獻
[1]江敏,徐艷。數(shù)據(jù)挖掘技術在高校教學管理中的應用[J]。電腦知識與技術,20xx,(24):541—545+560。
[2]楊雪霞。數(shù)據(jù)挖掘技術在高校圖書館管理系統(tǒng)中的應用研究[J]。軟件,20xx(04):16—18。
數(shù)據(jù)挖掘論文2
摘要:中醫(yī)臨床理論多是由著名醫(yī)家的經驗升華形成的,反映了臨床上不同學術派系以及不同學科的優(yōu)勢特征,但這其中不免摻雜了個人主觀經驗,因此本文就中醫(yī)臨床理論研究中醫(yī)病案為基礎,對應用病案數(shù)據(jù)挖掘結果來總結和重建中醫(yī)臨床理論的方式進行了探討,認為該方法可為完善中醫(yī)臨床理論提供客觀的數(shù)據(jù)支持,使中醫(yī)臨床理論的來源更具有科學性。
關鍵詞:病案;數(shù)據(jù)挖掘;中醫(yī)臨床理論;轉化醫(yī)學;臨床
科研一體化中醫(yī)臨床理論決定著中醫(yī)臨床學科的發(fā)展水平,是中醫(yī)臨床發(fā)展的動力。從古至今,中醫(yī)名醫(yī)名家輩出,他們的臨床經驗和學術思想不斷提煉升華,逐步形成了傳統(tǒng)的中醫(yī)臨床理論。新中國成立以來,中醫(yī)不斷汲取最新的科技成果,進行了大量臨床實踐,而中醫(yī)臨床理論發(fā)展緩慢,己經成為制約當代中醫(yī)學術發(fā)展的瓶頸,對如何開拓中醫(yī)臨床理論的研究,可謂見仁見智,但各種新的臨床理論常常裹挾著“各家學說”。在當今大數(shù)據(jù)和信息技術發(fā)達的背景下,運用數(shù)據(jù)挖掘技術對中醫(yī)病案進行大數(shù)據(jù)分析,客觀揭示當前中醫(yī)臨床理論的本來面目,盡可能減少個人見解的偏倚,對于推動中醫(yī)臨床理論發(fā)展具有重要的現(xiàn)實意義,本文就基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建進行探討如下。
1傳統(tǒng)中醫(yī)臨床理論的構建框架
1.1中醫(yī)古典文獻是傳統(tǒng)中醫(yī)臨床理論的基礎
眾所周知,中醫(yī)之所以能夠屹立千年不倒,很大一部分原因是因為其有獨特的理論體系,而在這其中,中醫(yī)古典文獻做出的貢獻應該是第一位的。因為這些古典文獻的記載和流傳,為后世的醫(yī)家提供了參考和借鑒,使得我們從前人的思維上不斷創(chuàng)新,與臨床進行有機結合,不斷研究出新的適合于當前時代的臨床理論。例如,中醫(yī)學無論在理論研究還是在臨床治療方面的豐富,許多根本性的理論都是源自于《內經》。該書創(chuàng)立了藏象、經絡、診法等各方面的理論[1],勾畫了中醫(yī)理論的雛形,構建了中醫(yī)理論體系的基本框架。到后期東漢時期張仲景的《傷寒論》則是創(chuàng)造了以六經辨證和臟腑辨證為主的局面,其所倡導的“觀其脈證,知犯何逆,隨證治之”使得辨證論治登上新的高度。到了金元時期,就是百家爭鳴的時代,這期間以金元四大家為主的學派開始萌生,留下了許多可供后世醫(yī)家參考的古典文獻并創(chuàng)建了不同的臨床理論,而明清時期以葉天士和吳鞠通為首確立的衛(wèi)氣營血和三焦辨證,使溫病學的辨證理論逐步趨于完善,至今仍是指導臨床治療溫熱病的理論依據(jù)?傊,傳統(tǒng)中醫(yī)臨床理論的構建和完善,離不開前人的摸索與貢獻,也得益于著名醫(yī)學家創(chuàng)建的傳統(tǒng)中醫(yī)理論,使得我們現(xiàn)在的中醫(yī)體系不斷的飽滿和充實。
1.2當代著名中醫(yī)的臨床經驗不斷提升為中醫(yī)臨床理論
傳統(tǒng)中醫(yī)的臨床理論,在很大程度上展示著著名醫(yī)家的臨床經驗。在中醫(yī)理論與實踐發(fā)展的相互促進過程中,當代醫(yī)家通過讀書、臨證、心悟將實踐經驗不斷總結并升華為理論,又在實踐中不斷完善既有的理論,成為中醫(yī)理論發(fā)展的重要途徑和模式,而當代中醫(yī)理論的發(fā)展則需要將傳統(tǒng)理論與現(xiàn)代實踐相互融合起來。例如上世紀60年代時,面對中醫(yī)基礎理論中新的思想相對匱乏的這一局面,鄧鐵濤結合其治療的臨床經驗,首次提出了“五臟相關學說”。盡管當時的理論準備并不完善,但是這一理論的提出,在很大程度上完善并且取代了“五行學說”中某些模糊性和不確定性,并且隨著時代的發(fā)展,逐漸驗證了鄧老的這一經驗的正確性,也成為指導中醫(yī)臨床理論的一大重要體系[2]。又如,腦出血這一現(xiàn)代疾病在古代名為中風,多數(shù)是“從風而治”,認為肝臟與中風的關系最為密切。隨著時代的推進,自20世紀80年代以來,許多學者根據(jù)微觀辨證和中醫(yī)理論“離經之血便是瘀”,提出急性出血中風屬中醫(yī)血證,瘀血阻滯是急性期腦出血的最基本病機,是治療的關鍵所在[3]。故現(xiàn)代中醫(yī)臨床治療上多以活血化瘀法治療腦出血、腦梗塞這一系列疾病。若是仔細研讀傳統(tǒng)中醫(yī)臨床理論后,我們不難得出其構成和完善離不開當代著名醫(yī)家的臨床經驗,它是在歷經歲月的洗禮下不斷塑造成型的。
1.3傳統(tǒng)中醫(yī)臨床理論不斷將現(xiàn)代醫(yī)學相關內容中醫(yī)化
傳統(tǒng)中醫(yī)臨床理論不斷吸收現(xiàn)代醫(yī)學的理論,將其相關內容不斷中醫(yī)化,將病人的各種證型通過五臟辨證、陰陽五行辨證以及八綱辨證劃分得越來越細化,以提供病人在中醫(yī)臨床上治療的理論依據(jù)。中醫(yī)吸取了現(xiàn)代醫(yī)學理論后正在不斷壯大其內容,現(xiàn)代醫(yī)學相關內容中醫(yī)化在許多難治疾病的辨證治療中都起到了良好的指導作用[4]。如艾滋病是古代傳統(tǒng)中醫(yī)辨證論治的空白,通過對艾滋病中醫(yī)病因病機、證候規(guī)律、治法方藥的系統(tǒng)研究,提出了“艾毒傷元”“脾為樞機”“氣虛為本”的病因病機學說,確立了艾滋病“培元解毒”“益氣健脾”的治療原則,為中醫(yī)藥防治艾滋病奠定了理論基礎,為進一步提高艾滋病的中醫(yī)藥臨床診療效果提供理論依據(jù)[5]。
2當前中醫(yī)臨床理論發(fā)展存在的不足
2.1中醫(yī)主流理論不突出且與時俱進力度不夠
不可否認的是,當代的中醫(yī)臨床理論發(fā)展也是存在諸多不足的,中醫(yī)理論的完善和發(fā)展是中華五千年來集體智慧的結晶,個別醫(yī)家提出的臨床理論可能各有千秋,其所立的角度和思維也不盡相同。例如,同是治療輸卵管阻塞這一疾病時,朱南孫教授認為多是由于濕蘊沖任所致,其用自擬的清熱利濕方來進行治療;而李廣文教授則認為這一疾病多是由于瘀血阻絡為主,治療上以活血祛瘀為法,擬通任種子湯進行治療[6]。又如對于“和解法”這一治療方法的理解,當代名醫(yī)蒲輔周老先生認為“寒熱并用,補瀉合劑,表里雙解,苦辛分消,調和氣血,皆謂和解”。而方和謙教授則認為“在治法上扶正祛邪,表里兼顧,此法就為和解法”。不同的醫(yī)家在面對不同的疾病,甚至是不同的理法方藥時,所持的看法常常是“各家學說”,這就導致了當前中醫(yī)臨床理論發(fā)展比較混亂,不能全面地體現(xiàn)中國五千年來發(fā)展過程中的中醫(yī)主流理論。目前中醫(yī)基礎理論還存在一個缺陷就是它的與時俱進力度還不夠,很多古代經典方藥的主治病癥,在當今時代已經不再多見了。比如蛔蟲導致的蛔厥這一致病因素在現(xiàn)代已經不再常見,對應的烏梅丸的主要適應病癥也不再是蛔厥;在針對沒有明顯臨床表現(xiàn)的疾病如乙肝時,按傳統(tǒng)中醫(yī)往往體現(xiàn)出“無證可治”的狀態(tài);傳統(tǒng)的診斷與現(xiàn)代檢查相結合的力度也不夠,中醫(yī)臨床基礎理論在某些程度上忽略了其與生化、B超、X光、CT等現(xiàn)代檢查結果的結合,并沒有用中醫(yī)理論對其做一合理的陳述;且現(xiàn)在臨床上很多中藥的藥理作用、性味歸經的研究作用還不夠深入、細致,其作用不能在微觀上得以解釋。這些都導致了臨床上很多情況沒有從中醫(yī)理論來認識中醫(yī),不是“以中解中”,而是“以西解中”,形成了臨床拋棄中醫(yī)理論的狀態(tài)[7]。由于中醫(yī)學是一門實踐性很強的學科,它是在哲學辨證的思想指導下,與臨床經驗不斷結合,這與西醫(yī)知識體系相比較,難免存在一定的滯后性,這都會使得中醫(yī)臨床理論發(fā)展相對的落后。
2.2部分中醫(yī)理論帶有權威專家的“個人學說”偏見
傳統(tǒng)中醫(yī)強調個人經驗和學說,以中醫(yī)內科學為例,第八版中的腦系疾病在第九版中已經刪除,其涉及到的各種腦系疾病大多數(shù)歸屬于心系疾病與肝系疾病。根據(jù)其版本的不同,我們可以明顯看出其凸顯的中心內容及其思想不同,其多是體現(xiàn)編著者的理論思想,在一定程度上并沒有客觀地揭示疾病的本質,治療理論也不夠完善,一部分內容與最新研究得出的論文理論不符,這使得當代中醫(yī)臨床理論在某些程度上,帶有權威專家的“個人學說”色彩。由于現(xiàn)代西方先進的科技文化流入,使得中醫(yī)在一定程度上備受質疑,而正是因為人們對于中醫(yī)理論的一些偏見,才使得中醫(yī)長期讓人詬病。
3新的時代背景下中醫(yī)臨床理論發(fā)展方向
3.1臨床理論應具有真實性與系統(tǒng)性
中醫(yī)臨床理論的發(fā)展方形應當是建立在客觀并且真實的臨床實踐基礎上,從一次次臨床實踐中得出。由于歷史時代的原因以及假設推理、模式建設的廣泛使用,當代中醫(yī)臨床理論中理論與假說并存的現(xiàn)象較為普遍,如中醫(yī)的五運六氣學說對現(xiàn)代疫病預測和人體各經絡臟腑在時間上對于人體治病效果的不同等,就需要我們在扎實的文獻與臨床實踐基礎上,對醫(yī)案進行認真總結,利用科學的方法深入挖掘,開展中醫(yī)理論的去偽存真研究,以促進中醫(yī)理論的科學與健康發(fā)展。另外,傳統(tǒng)的中醫(yī)臨床治療上所用的理法方藥,多是根據(jù)個人經驗所進行的。隨著科技的不斷發(fā)展與時代的不斷進步,當代的中醫(yī)臨床理論應該在成功的中醫(yī)醫(yī)案上進行系統(tǒng)的總結,不斷挖掘和研究其微觀的結構,并隨著年月的更迭不斷更新,不斷完善,使其具有科學性和理論依據(jù)。同時,對近年來興起的傳染性非典型肺炎、艾滋病、禽流感等古人所沒有經歷過的疾病的診治,中醫(yī)就其病因病機的認識以及探究相應的診療方法,無疑也是一種理論上的創(chuàng)新[8]。通過對其進行深一層次的研究和發(fā)現(xiàn),歸納出合適的治則治法,找到針對這一疾病的理法方藥,使其更具有系統(tǒng)性,使得臨床上中醫(yī)治病可以循序漸進,注重整體,也是當代臨床理論的一大發(fā)展方向。
3.2臨床理論具有信息化的特點并可持續(xù)拓展
隨著時代的`進步,當代的中醫(yī)臨床理論可以通過網絡等方式進行共享,在大數(shù)據(jù)的這一時代背景下,隨著病案的不斷報道與積累,可以將各類成功的中醫(yī)醫(yī)案進行統(tǒng)計和挖掘,其結果也會不斷進行更新和發(fā)展。不同的醫(yī)家對于某一疾病的認識角度可能不同,其表現(xiàn)在病位、病性、病勢和證候的判斷標準也不一樣,因此方藥規(guī)律也不一樣。而通過統(tǒng)計某一中醫(yī)或西醫(yī)疾病的較大樣本病例,并對其進行數(shù)據(jù)挖掘,可以得出整個中醫(yī)群體對于這一疾病診治的證候分布、治則治法、處方用藥等的規(guī)律,甚至可以根據(jù)統(tǒng)計的結果探索出新的方藥,分析他們的共同點和所在差異。將中醫(yī)臨床理論具有信息化的這一特點不斷地拓展下去,通過計算機等客觀科學的手段進行分析,與主觀的名老中醫(yī)傳承模式相比,更具客觀性,更容易被臨床醫(yī)生接受,對各種疾病的中醫(yī)臨床用藥也更具有指導價值。
4基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建
4.1病案研究是中醫(yī)理論發(fā)展的重要基礎
在當今大數(shù)據(jù)的時代背景下,中醫(yī)固有的傳統(tǒng)整體論科學特征有了越來越多的可供改變的空間。這種變化既為其按照自身特有的規(guī)律發(fā)展特點帶來了機遇,也給未來中醫(yī)理論的發(fā)展提出了挑戰(zhàn)。同時,學習醫(yī)案研究也是中醫(yī)學相關大學生們應該學習的一項內容。閱讀醫(yī)案是必要的訓練,也是中醫(yī)入門的方法之一。醫(yī)案的故事性引人入勝,在自然而然中接受中醫(yī)思維方法和傳統(tǒng)文化知識,同時醫(yī)案中所呈現(xiàn)的名醫(yī)風范,醫(yī)德對學生起到潛移默化的影響,并培養(yǎng)對專業(yè)的熱愛[9]。病案客觀、真實地直接記錄疾病診斷和治療過程,醫(yī)案研究作為中醫(yī)理論發(fā)展過程中至關重要的一環(huán),是中醫(yī)理論發(fā)展的重要基礎,以研究病案為基礎,對于中醫(yī)理論的形成和臨床上中醫(yī)積累經驗,都起到了一定的輔助提升作用。
4.2數(shù)據(jù)挖掘方法是中醫(yī)理論發(fā)展的現(xiàn)代技術手段
利用多種數(shù)據(jù)挖掘技術對中醫(yī)病案中的有關信息行進行歸納、整理,是近年來傳承中醫(yī)臨床經驗的重要方法之一[10]。通過對同一種疾病的病案進行數(shù)據(jù)挖掘以分析醫(yī)者的思路和探索其用藥的方法,對中醫(yī)臨床病案進行規(guī)范化的整理,能夠深入總結其臨床經驗,挖掘隱藏在大量病案背后的診治規(guī)律,甚至探索出新的方藥配伍,為中醫(yī)理論的發(fā)展提供一定的科學依據(jù)的同時,使得中醫(yī)理論的發(fā)展越來越現(xiàn)代化,不僅僅只是停留在以前的靠讀書和個人經驗的結合,也為廣大的中醫(yī)在日后的臨床治療上提供了新的思路和方向。
4.3臨床實踐推動理論發(fā)展,賦予轉化醫(yī)學新的內涵
目前,我們通過并按數(shù)據(jù)挖掘來總結一些中醫(yī)對于治療同一種疾病所采取的診斷和用藥,可以獲得新的思路,并且為完善我們現(xiàn)有的中醫(yī)理論基礎可以提供可靠的理論支持。采用數(shù)據(jù)挖掘技術對中醫(yī)學術思想和臨證經驗進行研究,可以全面解析其中的規(guī)律,分析中醫(yī)個體化診療信息特征,提煉出臨證經驗中蘊藏的新理論、新力法,可以實現(xiàn)經驗的有效總結與傳承[11]。與此同時,要求我們用發(fā)展的眼光將現(xiàn)代的科技手段整合加入到傳統(tǒng)的中醫(yī)學理論中去,推陳出新,通過臨床實踐與基礎理論的不斷結合,不斷完善,推動祖國醫(yī)學現(xiàn)代化,譜寫有關于中醫(yī)學在轉化醫(yī)學上新的篇章。
參考文獻
[1]劉向哲.中醫(yī)理論創(chuàng)新與發(fā)展的基礎和機遇[J].中醫(yī)學報,2010,25(5):884-885.
[2]邱仕君,吳玉生.在基礎理論與臨床醫(yī)學之間———對鄧鐵濤教授五臟相關學說的理論思考[J].湖北民族學院學報(醫(yī)學版),2005,22(2):36-39.
[3]顧寧,周仲英.通下法治療急性腦出血研究進展[J].中國中醫(yī)急診,2000,9(5):227.
[4]靳士英.鄧鐵濤教授學術成就管[J].現(xiàn)代醫(yī)院,2004(9):1-6.
[5]許前磊,徐立然,郭會軍,等.艾滋病發(fā)病與防治中醫(yī)理論的初步構建[J].中醫(yī)雜志,2015,56(11):909-911.
[6]張少聰,周偉生.名老中醫(yī)驗方治療輸卵管阻塞性不孕癥概況[J].中華中醫(yī)藥學刊,2010(3):489-491.
[7]孟靜巖,應森林.試論中醫(yī)基礎理論指導臨床研究的思考與途徑[J].上海中醫(yī)藥大學學報,2009(3):3-5.
[8]邢玉瑞.新形勢下中醫(yī)理論發(fā)展的思考[J].中醫(yī)雜志,2016,57(18):1540-1542.
[9]盧峰,聶達榮,彭美玉,等.中醫(yī)內科學應用名老中醫(yī)病案教學法的探索[J].中國中醫(yī)藥現(xiàn)代遠程教育,2014(18):80-82.
[10]郭軍.基于數(shù)據(jù)挖掘分析前名老中醫(yī)病案整理的思路與方法[J].中醫(yī)藥信息,2011,28(2):49-50.
[11]吳嘉瑞,唐仕歡,郭位先,等.基于數(shù)據(jù)挖掘的名老中醫(yī)經驗傳承研究述評[J].中國中藥雜志,2014,39(4):614-617.
數(shù)據(jù)挖掘論文3
引言 數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
一、數(shù)據(jù)挖掘技術 數(shù)據(jù)挖掘就是指
從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。包括存儲和處理數(shù)據(jù),選擇處理大量數(shù)據(jù)集的算法、解釋結果、使結果可視化。整個過程中支持人機交互的模式。數(shù)據(jù)挖掘從許多交叉學科中得到發(fā)展,并有很好的前景。這些學科包括數(shù)據(jù)庫技術、機器學習、人工智能、模式識別、統(tǒng)計學、模糊推理、專家系統(tǒng)、數(shù)據(jù)可視化、空間數(shù)據(jù)分析和高性能計算等。數(shù)據(jù)挖掘綜合以上領域的理論、算法和方法,已成功應用在超市、金融、銀行、生產企業(yè)和電信,并有很好的表現(xiàn)。
二、數(shù)據(jù)挖掘的過程
挖掘數(shù)據(jù)過程可以分為3個步驟:數(shù)據(jù)預處理、模式發(fā)現(xiàn)、模式分析。
(1)數(shù)據(jù)預處理。實際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對原始數(shù)據(jù)進行挖掘,要通過預處理提供準確、簡潔的數(shù)據(jù)。預處理主要完成以下工作:包括合并數(shù)據(jù),將多個文件或多個數(shù)據(jù)庫中的數(shù)據(jù)進行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關記錄,將文件、圖形、圖像及多媒體等文件轉換成可便于數(shù)據(jù)挖掘的格式等。
(2)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識。可用于Web的挖掘技術有路徑選擇、關聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。
(3)模式分析。模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術手段,對得到的模式進行數(shù)據(jù)分析,得出有意義的結論。常用的技術手段有:關聯(lián)規(guī)則、分類、聚類、序列模式等。
三、數(shù)據(jù)挖掘在電力系統(tǒng)負荷預測中的應用
電力負荷預測是能量管理系統(tǒng)及配電管理系統(tǒng)的重要組成部分,是電力系統(tǒng)規(guī)劃和運行調度的依據(jù),也是電力市場化商業(yè)運營所必需的基本內容。負荷預測工作的關鍵在于收集大量的歷史數(shù)據(jù),建立科學有效的預測模型,采用有效的算法,以歷史數(shù)據(jù)為基礎,進行大量試驗性研究,總結經驗,不斷修正模型和算法,以真正反映負荷變化規(guī)律。其過程為:
(1) 調查和選擇歷史負荷數(shù)據(jù)資料
多方面調查收集資料,包括電力企業(yè)內部資料和外部資料,從眾多的資料中挑選出有用的一小部分,即把資料濃縮到最小量。挑選資料時的標準要直接、可靠并且是最新的資料。如果資料的收集和選擇得不好,會直接影響負荷預測的質量。通過建立計算機數(shù)據(jù)管理系統(tǒng),利用計算機軟件系統(tǒng)來自動管理數(shù)據(jù)。
(2) 負載數(shù)據(jù)預處理
經過初步整理,還用于數(shù)據(jù)分析的預處理,平滑異常值的歷史數(shù)據(jù)和缺失數(shù)據(jù)的異常數(shù)據(jù)主要是水平的,垂直的方法附錄。正在分析數(shù)據(jù)之前和之后的兩個時間的負載數(shù)據(jù)作為基準,來設置要處理的數(shù)據(jù)時,要處理的數(shù)據(jù)的范圍中最大的變化的數(shù)據(jù)的處理的水平超過該范圍時,它被認為是壞的數(shù)據(jù),使用平均法平滑變化;垂直負載數(shù)據(jù)預處理中的數(shù)據(jù)處理的考慮其24小時的小循環(huán),即,相同的時間的日期不同的負載應具有相似的,同時負載值應保持在一定范圍內,校正外的范圍內的數(shù)據(jù)進行處理,在最近幾天的壞數(shù)據(jù),力矩載荷的意思。
(3) 歷史資料的整理
一般來說,由于預測的質量不會超過所用資料的質量,所以要對所收集的與負荷有關的統(tǒng)計資料進行審核和必要的加工整理,來保證資料的質量,從而為保證預測質量打下基礎,即要注意資料的完整無缺,數(shù)字準確無誤,反映的都是正常狀態(tài)下的水平,資料中沒有異常的.“分離項”,還要注意資料的補缺,并對不可靠的資料加以核實調整。通過建立數(shù)據(jù)完整性、一致性約束模型,來建立海量數(shù)據(jù)集為后面的數(shù)據(jù)挖掘做好充分的準備。
(4) 建立負荷預測模型
負荷預測模型是統(tǒng)計資料軌跡的概括,預測模型是多種多樣的,因此,對于具體資料要選擇恰當?shù)念A測模型,這是負荷預測過程中至關重要的一步。當由于模型選擇不當而造成預測誤差過大時,就需要改換模型,必要時,還可同時采用幾種數(shù)學模型進行運算,以便對比、選擇。
(5) 選擇算法
選擇聚類法又稱聚類分析法,它是對一組負荷影響因素數(shù)據(jù)進行聚類的方法,聚類后的數(shù)據(jù)即構成了一組分類。聚類的標準是以數(shù)據(jù)的表象(即數(shù)據(jù)屬性 值)為依據(jù)的,聚類的工具是將一組數(shù)據(jù)按表象而將相近的歸并成類,最終形成若干個類,在類內數(shù)據(jù)具有表象的相似性,而類間的數(shù)據(jù)具有表象的相異性。聚類的算法也有很多,有遺傳算法,劃分法,層次法,基于密度方法,基于網格方法等。 四、CURE算法在負荷預測中的應用 CURE算法是一種分層聚類算法。典型的數(shù)據(jù)點來表示一個具有固定數(shù)目的聚類。的CURE算法需要作為參數(shù)輸入的群集數(shù)?。由于CURE聚類的代表點的某些有代表性的,可以發(fā)現(xiàn)具有任何尺寸和形狀的聚類。同時,在一個集群代表點的選擇方式的中心“縮水”排除“噪音”。
歷史上第一個數(shù)據(jù)庫負荷預測,數(shù)據(jù)提取樣品。的數(shù)據(jù)樣本聚類,可以分為兩種方法:一個是所有樣本數(shù)據(jù)進行聚類,這個方法會使主內存容量是遠遠不夠的,系統(tǒng)無法掃描一次完成。我們使用所有的樣本數(shù)據(jù)被分成多個區(qū)域,每個區(qū)域的數(shù)據(jù)進行聚類,使每個分區(qū)可以品嘗到所有的數(shù)據(jù)加載到主內存。然后,針對每個分區(qū),使用分層算法的聚類。
電力系統(tǒng)的應用SCADA系統(tǒng)中的數(shù)據(jù)測量、記錄、轉換、傳輸、收集數(shù)據(jù),并可能導致故障和負載數(shù)據(jù)丟失或異常。異常數(shù)據(jù)的生成是隨機的,因此,在數(shù)據(jù)庫中的不確定性的分布,不同類型的異常數(shù)據(jù)出現(xiàn)單獨或在一個特定的時刻,或交叉混合發(fā)生在同一天連續(xù),或在相同的連續(xù)天期的橫分布,以及許多其他場合。異常數(shù)據(jù)的處理的關鍵影響的預測結果的準確性。使用兩種不同的技術,以刪除異常。第一種技術是要刪除的集群增長緩慢。當簇的數(shù)量低于某一閾值,將只包含一個或兩個集群成員的刪除,第二種方法是在集群的最后階段,非常小的集群中刪除。
最后對樣本中的全部數(shù)據(jù)進行聚類,為了保證可以在內存中處理,輸入只包括各個分區(qū)獨自聚類時發(fā)現(xiàn)的簇的代表性點。使用c個點代表每個簇,對磁盤上的整個數(shù)據(jù)庫進行聚類。數(shù)據(jù)庫中的數(shù)據(jù)項被分配到與最近的代表性點表示的簇中。代表性點的集合必須足夠小以適應主存的大小。
結束語
數(shù)據(jù)挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術的深人研究,數(shù)據(jù)挖掘技術必將更加成熟,并取得更加顯著的效果。
數(shù)據(jù)挖掘論文4
摘要:該文通過介紹電子商務及數(shù)據(jù)挖掘基本知識,分別從幾個方面分析了電子商務中WEB數(shù)據(jù)挖掘技術的應用。
關鍵詞:電子商務;數(shù)據(jù)挖掘;應用
1概述
電子商務是指企業(yè)或個人以網絡為載體,應用電子手段,利用現(xiàn)代信息技術進行商務數(shù)據(jù)交換和開展商務業(yè)務的活動。隨著互聯(lián)網的迅速發(fā)展,電子商務比傳統(tǒng)商務具有更明顯的優(yōu)勢,由于電子商務具有方便、靈活、快捷的特點,使它已逐漸成為人們生活中不可缺少的活動。目前電子商務平臺網站多,行業(yè)競爭強,為了獲得更多的客戶資源,電子商務網站必須加強客戶關系管理、改善經營理念、提升售后服務。數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出隱含的、潛在有用的、有效的,新穎的、能夠被理解的信息和知識的過程。由數(shù)據(jù)集合做出歸納推理,從中挖掘并進行商業(yè)預判,能夠幫助電子商務企業(yè)決策層依據(jù)預判,對市場策略調整,將企業(yè)風險降低,從而做出正確的決策,企業(yè)利潤將最大化。隨著電子商務的應用日益廣泛,電子商務活動中會產生大量有用的數(shù)據(jù),如何能夠數(shù)據(jù)挖掘出數(shù)據(jù)的參考價值?研究客戶的興趣和愛好,對客戶分門別類,將客戶心儀的商品分別推薦給相關客戶。因此,如何在電子商務平臺上進行數(shù)據(jù)挖掘成為研究的熱點問題。
2數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘(DataMining),也稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)。數(shù)據(jù)挖掘一般是指從海量數(shù)據(jù)中應用算法查找出隱藏的、未知的信息的過程。數(shù)據(jù)挖掘是一個在大數(shù)據(jù)資源中利用分析工具發(fā)現(xiàn)模型與數(shù)據(jù)之間關系的一個過程,數(shù)據(jù)挖掘對決策者尋找數(shù)據(jù)間潛在的某種關聯(lián),發(fā)現(xiàn)隱藏的因素起著關鍵作用。這些模式是有潛在價值的、并能夠被理解的。數(shù)據(jù)挖掘將人工智能、機器學習、數(shù)據(jù)庫、統(tǒng)計、可視化、信息檢索、并行計算等多個領域的理論與技術融合在一起的一門多學科交叉學問,這些學科也對數(shù)據(jù)挖掘提供了很大的技術支撐。
3Web數(shù)據(jù)挖掘特點
Web數(shù)據(jù)挖掘就是數(shù)據(jù)挖掘在Web中的應用。Web數(shù)據(jù)挖掘的目的是從萬維網的網頁的內容、超鏈接的結構及使用日志記錄中找到有價值的'數(shù)據(jù)或信息。依據(jù)挖掘過程中使用的數(shù)據(jù)類別,Web數(shù)據(jù)挖掘任務可分為:Web內容挖掘、Web結構挖掘、Web使用記錄挖掘。
1)Web內容挖掘指從網頁中提取文字、圖片或其他組成網頁內容的信息,挖掘對象通常包含文本、圖形、音視頻、多媒體以及其他各種類型數(shù)據(jù)。
2)Web結構挖掘是對Web頁面之間的結構進行挖掘,挖掘描述內容是如何組織的,從Web的超鏈接結構中尋找Web結構和頁面結構中的有價值模式。例如從這些鏈接中,我們可以找出哪些是重要的網頁,依據(jù)網頁的主題,進行自動的聚類和分類,為了不同的目的從網頁中根據(jù)模式獲取有用的信息,從而提高檢索的質量及效率。
3)Web使用記錄挖掘是根據(jù)對服務器上用戶訪問時的訪問記錄進行挖掘的方法。Web使用挖掘將日志數(shù)據(jù)映射為關系表并采用相應的數(shù)據(jù)挖掘技術來訪問日志數(shù)據(jù),對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導航行為。它用來提取關于客戶如何瀏覽和使用訪問網頁的鏈接信息。如訪問了哪些頁面?在每個頁面中所停留的時間?下一步點擊了什么?在什么樣的路線下退出瀏覽的?這些都是Web使用記錄挖掘所關心要解決的問題。
4電子商務中Web挖掘中技術的應用分析
1)電子商務中序列模式分析的應用
序列模式數(shù)據(jù)挖掘就是要挖掘基于時間或其他序列的模式。如在一套按時間順序排列的會話或事務中一個項目有存在跟在另一個項目后面。通過這個方法,WEB銷售商可以預測未來的訪問模式,以幫助針對特定用戶組進行廣告排放設置。發(fā)現(xiàn)序列模式容易使客戶的行為被電子商務的組織者預測,當用戶瀏覽站點時,盡可能地迎合每個用戶的瀏覽習慣并根據(jù)用戶感興趣的內容不斷調整網頁,盡可能地使每個用戶滿意。使用序列模式分析挖掘日志,可以發(fā)現(xiàn)客戶的訪問序列模式。在萬維網使用記錄挖掘應用中,序列模式挖掘可以用于捕捉用戶路徑之中常用的導航路徑。當用戶訪問電子商務網站時,網站管理員能夠搜索出這個訪問者的對該網站的訪問序列模式,將訪問者感興趣但尚未瀏覽的頁面推薦給他。序列模式分析還能分析出商品購買的前后順序,從而向客戶提出推薦。例如在搜索引擎是發(fā)出查詢請求、瀏覽網頁信息等,會彈出與這些信息相關的廣告。例如購買了打印機的用戶,一般不久就會購買如打印紙、硒鼓等打印耗材。優(yōu)秀的推薦系統(tǒng)將為客戶建立一個專屬商店,由每個客戶的特征來調整網站的內容。也能由挖掘出的一些序列模式分析網站及產品促銷的效果。
2)電子商務中關聯(lián)規(guī)則的應用
關聯(lián)規(guī)則是揭示數(shù)據(jù)之間隱含的相互關系,關聯(lián)分析的任務是發(fā)現(xiàn)事物間的關聯(lián)規(guī)則或相關程序。關聯(lián)規(guī)則挖掘的目標是在數(shù)據(jù)項目中找出每一個數(shù)據(jù)信息的內在關系。關聯(lián)規(guī)則挖掘就是要搜索出用戶在服務器上訪問的內容、頁面、文件之間的聯(lián)系,從而改進電子商務網站設計?梢愿迷诮M織站點,減少用戶過濾網站信息的負擔,哪些商品顧客會可能在一次購物時同時購買?關聯(lián)規(guī)則技術能夠通過購物籃中的不同商品之間的聯(lián)系,分析顧客的購物習慣。例如購買牛奶的顧客90%會同時還購買面包,這就是一條關聯(lián)規(guī)則,如果商店或電子商務網站將這兩種商品放在一起銷售,將會提高它們的銷量。關聯(lián)規(guī)則挖掘目標是利用工具分析出顧客購買商品間的聯(lián)系,也即典型購物籃數(shù)據(jù)分析應用。關聯(lián)規(guī)則是發(fā)現(xiàn)同類事件中不同項目的相關性,例如手機加充電寶,鼠標加鼠標墊等購買習慣就屬于關聯(lián)分析。關聯(lián)規(guī)則挖掘技術可以用相應算法找出關聯(lián)規(guī)則,例如在上述例子中,商家可以依據(jù)商品間的關聯(lián)改進商品的擺放,如果顧客購買了手機則將充電寶放入推薦的商品中,如果一些商品被同時購買的概率較大,說明這些商品存在關聯(lián)性,商家可以將這些有關聯(lián)的商品鏈接放在一起推薦給客戶,有利于商品的銷售,商家也根據(jù)關聯(lián)有效搭配進貨,提升商品管理水平。如買了燈具的顧客,多半還會購買開關插座,因此,一般會將燈具與開關插座等物品放在一個區(qū)域供顧客選購。依據(jù)分析找出顧客所需要的商品的關聯(lián)規(guī)則,由挖掘分析結果向顧客推薦所需商品,也即向顧客提出可能會感興趣的商品推薦,將會大大提高商品的銷售量。
3)電子商務中路徑分析技術的應用
路徑分析技術通過對Web服務器的日志文件中客戶訪問站點的訪問次數(shù)的分析,用來發(fā)現(xiàn)Web站點中最經常訪問的路徑來調整站點結構,從而幫助使用用戶以最快的速度找到其所需要的產品或是信息。例如在用戶訪問某網站時,如果有很多用戶不感興趣的頁面存在,就會影響用戶的網頁瀏覽速度,從而降低用戶的瀏覽興趣,同時也會使整個站點的維護成本提高。而利用路徑分析技術能夠全面地掌握網站各個頁面之間的關聯(lián)以及超鏈接之間的聯(lián)系,通過分析得出訪問頻率最高的頁面,從而改進網站結構及頁面的設計。
4)電子商務中分類分析的應用
分類技術在根據(jù)各種預定義規(guī)則進行用戶建模的Web分析應用中扮演著很重要的角色。例如,給出一組用戶事務,可以計算每個用戶在某個期間內購買記錄總和;谶@些數(shù)據(jù),可以建立一個分類模型,將用戶分成有購買傾向和沒有購買傾向兩類,考慮的特征如用戶統(tǒng)計屬性以及他們的導航活動。分類技術既可以用于預測哪些購買客戶對于哪類促銷手段感興趣,也可以預測和劃分顧客類別。在電子商務中通過分類分析,可以得知各類客戶的興趣愛好和商品購買意向,因而發(fā)現(xiàn)一些潛在的購買客戶,從而為每一類客戶提供個性化的網絡服務及開展針對性的商務活動。通過分類定位模型輔助決策人員定位他們的最佳客戶和潛在客戶,提高客戶滿意度及忠誠度,最大化客戶收益率,以降低成本,增加收入。
5)電子商務中聚類分析的應用
聚類技術可以將具有相同特征的數(shù)據(jù)項聚成一類。聚類分析是對數(shù)據(jù)庫中相關數(shù)據(jù)進行對比并找出各數(shù)據(jù)之間的關系,將不同性質特征的數(shù)據(jù)進行分類。聚類分析的目標是在相似的基礎上收集數(shù)據(jù)來分類。根據(jù)具有相同或相似的顧客購買行為和顧客特征,利用聚類分析技術將市場有效地細分,細分后應可每類市場都制定有針對性的市場營銷策略。聚類分別有頁面聚類和用戶聚類兩種。用戶聚類是為了建立擁有相同瀏覽模式的用戶分組,可以在電子中商務中進行市場劃分或給具有相似興趣的用戶提供個性化的Web內容,更多在用戶分組上基于用戶統(tǒng)計屬性(如年齡、性別、收入等)的分析可以發(fā)現(xiàn)有價值的商業(yè)智能。在電子商務中將市場進行細化的區(qū)分就是運用聚類分析技術。聚類分析可根據(jù)顧客的購買行為來劃分不同顧客特征的不同顧客群,通過聚類具有類似瀏覽行為的客戶,讓市場人員對顧客進行類別細分,能夠給顧客提供更人性化的貼心服務。比如通過聚類技術分析,發(fā)現(xiàn)一些顧客喜歡訪問有關汽車配件網頁內容,就可以動態(tài)改變站點內容,讓網絡自動地給這些顧客聚類發(fā)送有關汽車配件的新產品信息或郵件。分類和聚類往往是相互作用的。在電子商務中通過聚類行為或習性相似的顧客,給顧客提供更滿意的服務。技術人員在分析中先用聚類分析將要分析的數(shù)據(jù)進行聚類細分,然后用分類分析對數(shù)據(jù)集合進行分類標記,再將該標記重新進行分類,一直如此循環(huán)兩種分析方法得到相對滿意的結果。
5結語
隨著互聯(lián)網的飛速發(fā)展,大數(shù)據(jù)分析應用越來越廣。商業(yè)貿易中電子商務所占比例越來越大,使用web挖掘技術對商業(yè)海量數(shù)據(jù)進行挖掘處理,分析客戶購買喜好、跟蹤市場變化,調整銷售策略,對決策者做出有效決策及提高企業(yè)的市場競爭力有重要意義。
參考文獻:
[1]龐英智.Web數(shù)據(jù)挖掘技術在電子商務中的應用[J].情報科學,20xx,29(2):235-240.
[2]馬宗亞,張會彥.Web數(shù)據(jù)挖掘技術在電子商務中的應用研究[J].現(xiàn)代經濟信息,20xx(6):23-24.
[3]徐劍彬.Web數(shù)據(jù)挖掘技術在電子商務中的應用[J].時代金融,20xx(4):234-235.208
[4]周世東.Web數(shù)據(jù)挖掘在電子商務中的應用研究[D].北京交通大學,20xx.
[5]段紅英.Web數(shù)據(jù)挖掘技術在電子商務中的應用[J].隴東學院學報,20xx(3):32-34.
數(shù)據(jù)挖掘論文5
隨著互聯(lián)網技術的快速發(fā)展,學術研究環(huán)境較以前更加開放,對傳統(tǒng)的科技出版業(yè)提出了開放性、互動性和快速性的要求; 因此,以信息技術為基礎的現(xiàn)代數(shù)字化出版方式對傳統(tǒng)的科技出版業(yè)產生著深刻的影響。為了順應這一趨勢,不少科技期刊都進行了數(shù)字化建設,構建了符合自身情況、基于互聯(lián)網B /S 結構的稿件處理系統(tǒng)。
以中華醫(yī)學會雜志社為代表的部分科技期刊出版集團均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務數(shù)據(jù); 但從工作系統(tǒng)來看,由于數(shù)據(jù)本身只屬于編輯部的業(yè)務數(shù)據(jù),因此一旦相關業(yè)務工作進行完畢,將很少再對這些數(shù)據(jù)進行分析使用。
隨著目前人工智能和機器學習技術的發(fā)展,研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對原始用戶業(yè)務數(shù)據(jù)進行有效分析和學習,找出其中數(shù)據(jù)背后隱含的內在規(guī)律。這些有價值的規(guī)律和寶貴的經驗將對后續(xù)科技期刊經營等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術發(fā)展來看,利用數(shù)據(jù)存取、數(shù)據(jù)管理、關聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術,人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數(shù)據(jù)中,提取隱藏在其中有價值的信息,從而對后續(xù)科技期刊出版工作起到重要的知識發(fā)現(xiàn)和決策支持的作用。
1 數(shù)據(jù)挖掘在科技期刊中應用的現(xiàn)狀
傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術均無法發(fā)現(xiàn)數(shù)據(jù)內在的關聯(lián)和規(guī)則,更無法根據(jù)現(xiàn)有數(shù)據(jù)對未來發(fā)展的趨勢進行預測。現(xiàn)有數(shù)據(jù)挖掘的任務可以分為對數(shù)據(jù)模型進行分類或預測、數(shù)據(jù)總結、數(shù)據(jù)聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系發(fā)現(xiàn)、異常或例外點檢測以及趨勢發(fā)現(xiàn)等,但目前國內科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進行分析后發(fā)現(xiàn),中國科協(xié)科技期刊出版單位多為單刊獨立經營,單位的規(guī)模較小、實力較弱,多數(shù)出版單位不具備市場主體地位。這樣就導致國內大部分科技期刊既沒有能力進行數(shù)據(jù)挖掘,也沒有相應的數(shù)據(jù)資源準備。以數(shù)據(jù)挖掘技術應用于期刊網站為例,為了進行深入的數(shù)據(jù)分析,期刊經營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內在聯(lián)系。目前,數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的對象與目標;2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉庫; 5)數(shù)據(jù)挖掘分析; 6) 對象與目標的數(shù)據(jù)應用和反饋。
2 期刊數(shù)據(jù)的資源整合
編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個系統(tǒng)中將相關數(shù)據(jù)進行清洗、轉換和整理,然后加載到數(shù)據(jù)倉庫中。進一步,根據(jù)業(yè)務應用的范圍和緊密度,建立相關數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲處理層和數(shù)據(jù)展現(xiàn)層。
要獲得能夠適合企業(yè)內部多部門均可使用、挖掘和分析的數(shù)據(jù),可以從業(yè)務的關聯(lián)性分析數(shù)據(jù)的準確性、一致性、有效性和數(shù)據(jù)的內在關聯(lián)性。
3 期刊數(shù)據(jù)的信息挖掘
信息挖掘為了從不同種類和形式的業(yè)務進行抽取、變換、集成數(shù)據(jù),最后將其存儲到數(shù)據(jù)倉庫,并要對數(shù)據(jù)的質量進行維護和管理。數(shù)據(jù)挖掘可以有效地識別讀者的閱讀行為,發(fā)現(xiàn)讀者的閱讀模式和趨勢,對網站改進服務質量、取得更好的用戶黏稠度和滿意度、提高科技期刊經營能力有著重要的意義。作為一個分析推薦系統(tǒng),我們將所分析的統(tǒng)計結果存儲于服務器中,在用戶或決策者需要查詢時,只需輸入要找尋的用戶信息,系統(tǒng)將從數(shù)據(jù)庫中抽取其個人信息,并處理返回到上網時間分布、興趣點所在、適配業(yè)務及他對于哪些業(yè)務是有價值客戶,甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。
網站結構挖掘是挖掘網站中潛在的鏈接結構模式。通過分析一個網頁的鏈接、鏈接數(shù)量以及鏈接對象,建立網站自身的鏈接結構模式。在此過程中,如果發(fā)現(xiàn)某一頁面被較多鏈接所指向,則說明該頁面信息是有價值的,值得期刊工作人員做更深層次的挖掘。網站結構挖掘在具體應用時采用的結構和技術各不相同; 但主要過程均包括預處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向,就需要對數(shù)據(jù)庫中的數(shù)據(jù)按用戶進行抽樣分析,得到興趣點的統(tǒng)計結果,而個人的興趣分析也可基于此思路進行。下面以《中華醫(yī)學雜志》為例做一介紹。
預處理預處理是網站結構挖掘最關鍵的一個環(huán)節(jié),其處理得到的數(shù)據(jù)質量直接關系到使用數(shù)據(jù)挖掘和模式分析方法進行分析的結果。預處理步驟包括數(shù)據(jù)清洗、用戶識別、會話識別、路徑補充和事件識別。以《中華醫(yī)學雜志》網站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內容為“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內容,工作人員可以得到相關信息,如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁面等內容。
由于服務器同時部署了多個編輯部網站,這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日志,去除由爬蟲軟件產生的記錄。這些記錄一般都會在日志結尾包含“Spider”的字樣。同時,還需要去除不是由GET 請求產生的日志以及請求資源不是頁面類型的日志。最后,工作人員還需要去除訪問錯誤的請求,可以根據(jù)日志中請求的狀態(tài)進行判斷。一般認為,請求狀態(tài)在( 200, 300) 范圍內是訪問正確的日志,其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下,才識別為一個用戶。會話識別是利用面向時間的探索法,根據(jù)超時技術來識別一個用戶的多次會話。如果用戶在一段時間內沒有任何操作,則認為會話結束。用戶在規(guī)定時間后重新訪問,則被認為不屬于此次會話,而是下次會話的開始。
利用WebLogExplore 分析日志、用戶和網頁信息在獲得了有效的日志數(shù)據(jù)后,工作人員可以利用一些有效數(shù)據(jù)挖掘算法進行模式發(fā)現(xiàn)。目前,主要的數(shù)據(jù)挖掘方法有統(tǒng)計分析、關聯(lián)規(guī)則、分類、聚類以及序列模式等技術。本文主要討論利用Apriori 算法來發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關聯(lián)規(guī)則。本質上數(shù)據(jù)挖掘不是用來驗證某個假定的模式的正確性,而是在數(shù)據(jù)庫中自己尋找模型,本質是一個歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時出現(xiàn)的概率。如果事件A 與B 同時出現(xiàn)的概率較小,說明事件A 與B 的關系不大; 如果事件A 與B 同時出現(xiàn)非常頻繁,則說明事件A 與B 總是相關的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時,事件B 是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%,則事件A 必然會導致事件B 出現(xiàn)。置信度太低,說明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關系不大。
對所有的科技期刊日志數(shù)據(jù)進行預處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲了所有用戶訪問網站頁面的詳細信息,工作人員可將其導入數(shù)據(jù)庫中。以查看到所選擇用戶訪問期刊頁面的詳細信息。
同樣,在WebLogExplore 軟件中選擇感興趣的頁面,可以查看所有用戶訪問該頁面的統(tǒng)計信息,如該頁面的訪問用戶數(shù)量等。工作人員可以對用戶訪問排名較高的頁面進行進一步的模式分析。
步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導入數(shù)據(jù)庫中,建立日志總表。
步驟2: 在數(shù)據(jù)庫中建立一個新表命名為tj。
步驟3: 通過查詢程序得到日志總表中每一個用戶訪問的頁面,同時做distinct 處理。
步驟4: 將查詢得到的用戶訪問頁面記錄進行判斷。如果用戶訪問過排名前20 位的某個頁面,則在數(shù)據(jù)庫中寫入true,否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫中。
步驟5: 統(tǒng)計每個訪問排名靠前頁面的支持度,設置一維項目集的最小閥值( 10%) 。
步驟6: 統(tǒng)計大于一維閥值的頁面,寫入數(shù)組,并對數(shù)組內部頁面進行兩兩組合,統(tǒng)計每個組合2 個頁面值均為true 時的二維項目集的支持度。
步驟7: 設置二維項目集支持度的閥值,依次統(tǒng)計三維項目集支持度和置信度( A≥B) ,即當A 頁面為true 時,統(tǒng)計B 頁面為true 的數(shù)量,除以A 為true 的數(shù)量。設置相應的置信度閥值,找到訪問排名靠前頁面之間較強的關聯(lián)規(guī)則。
4 數(shù)據(jù)挖掘技術應用的意義
1) 對頻繁訪問的用戶,可以使用用戶識別技術分析此用戶的歷史訪問記錄,得到他經常訪問的頁面。當該用戶再次登錄系統(tǒng)時,可以對其進行個性化提示或推薦。這樣,既方便用戶使用,也可將系統(tǒng)做得更加友好。很多OA 期刊網站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用戶來講其實十分重要,隱含了用戶對文章的篩選過程,所以對用戶經常訪問的頁面需要進行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關鍵詞等信息以列表的方式予以顯示。
2) 由數(shù)據(jù)挖掘技術而產生的頻繁項目集的分析,可以對網站的結構進行改進。支持度很高的頁面,說明該頁面的用戶訪問量大。為了方便用戶以及吸引更多的讀者,可以將這些頁面放置在更容易被訪問的位置,科技期刊的'網站內容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章,也必須通過年卷期的方式來查看,非常不方便而且頁面友好性不高。通過數(shù)據(jù)挖掘的分析,編輯部可以把經常被訪問或者高影響因子的文章放在首頁展示。
3) 對由數(shù)據(jù)挖掘技術產生的頻繁項目集的分析,可以發(fā)現(xiàn)用戶的關注熱點。若某些頁面或項目被用戶頻繁訪問,則可以用這些數(shù)據(jù)對用戶進行分析。一般來說科技期刊的讀者,每個人的專業(yè)和研究方向都是不同的,編輯部可以通過數(shù)據(jù)挖掘技術來判斷讀者的研究方向和感興趣的熱點,對每一個用戶進行有針對性的內容推送和消息發(fā)送。
4) 網站管理者可以根據(jù)在不同時間內頻繁項目集的變化情況對科技期刊網站進行有針對性的調整,比如加入更多關于該熱點的主題資源。目前大多數(shù)科技期刊網站首頁的內容,均為編輯部工作人員后臺添加、置頂、高亮來吸引用戶的; 通過數(shù)據(jù)挖掘技術,完全可以擯棄這種展示方式。編輯部網站的用戶訪問哪些頁面頻繁,系統(tǒng)便會自動將這些頁面的文章推向首頁,不需要編輯部的人工干預,整個網站實現(xiàn)自動化運行。
5 后記
本文重點討論了數(shù)據(jù)挖掘技術與科技期刊網站頁面之間的關系。其實我們還可以從很多方面進行數(shù)據(jù)挖掘,比如可以對網站的用戶和內容進行數(shù)據(jù)挖掘,通過分析可以為后期的期刊經營做好鋪墊。
有一點很重要,沒有一種數(shù)據(jù)挖掘的分析方法可以應付所有的需求。對于某一種問題,數(shù)據(jù)本身的特性會影響你的選擇,需要用到許多不同的數(shù)據(jù)挖掘方法以及技術從數(shù)據(jù)中找到最佳的模型。
在目前深化文化體制改革,推動社會主義文化大發(fā)展、大繁榮的政治形勢下,利用數(shù)據(jù)挖掘技術從中進行提取、分析和應用,能有效地幫助企業(yè)了解客戶、改進系統(tǒng)、制訂合理的市場策略、提高企業(yè)的銷售水平和利潤。通過利用數(shù)據(jù)挖掘技術準確定位優(yōu)質客戶,向客戶提供更精確、更有價值的個性化服務。這將成為未來科技期刊經營十分重要的突破點和增長點。
數(shù)據(jù)挖掘論文6
摘要:隨著科學技術的不斷發(fā)展,數(shù)據(jù)挖掘技術也應運而生。為了高效有序的醫(yī)療信息管理,需要加強數(shù)據(jù)挖掘技術在醫(yī)療信息管理中的實際應用,從而提升醫(yī)院的管理水平,為醫(yī)院的管理工作及資源的合理配置提供多樣化發(fā)展的可能性。筆者將針對數(shù)據(jù)挖掘技術在醫(yī)療信息管理中的應用這一課題進行相應的探究,從而提出合理的改進建議。
關鍵詞:挖掘技術;醫(yī)療信息管理;應用方式
數(shù)據(jù)挖掘作為一種數(shù)據(jù)信息再利用的有效技術,能夠有效地為醫(yī)院的管理決策提供重要信息。它以數(shù)據(jù)庫、人工智能以及數(shù)理統(tǒng)計為主要技術支柱進行技術管理與決策。而在醫(yī)療信息管理過程之中應用數(shù)據(jù)挖掘技術能夠較好地針對醫(yī)療衛(wèi)生信息進行整理與歸類來建立管理模型,形成有效的總結數(shù)據(jù)的同時能夠為醫(yī)療工作的高效進行提供有價值的信息。所以筆者將以數(shù)據(jù)挖掘技術在醫(yī)療信息管理中的應用為著手點,從而針對其應用現(xiàn)狀進行探究,以此提出加強數(shù)據(jù)挖掘技術在醫(yī)療信息管理中應用的具體措施,希望能夠在理論層面上推動醫(yī)療信息管理工作的飛躍。
1在醫(yī)療信息管理中應用數(shù)據(jù)挖掘技術的基本內涵
數(shù)據(jù)挖掘是結合信息收集技術、人工智能處理技術以及分析檢測技術等所形成的功能強大的技術。它能夠實現(xiàn)對于數(shù)據(jù)的收集、問題的定義與處理,并且能夠較好地對于結果進行解釋與評估。在醫(yī)療信息管理工作進行的過程之中,應用數(shù)據(jù)挖掘技術可以較好地加強醫(yī)療信息數(shù)據(jù)模型的建立,同時以多種形式出現(xiàn),例如文字信息、基本信號信息、圖像收集等,也能夠用來進行醫(yī)療信息的科普與宣傳。并且,數(shù)據(jù)挖掘技術在醫(yī)療信息中所體現(xiàn)出的應用方式有所不同,在數(shù)據(jù)挖掘技術應用過程之中,既可以針對同一類的實物反應出共同性質的基本特征,同時也能夠根據(jù)具有一定關聯(lián)性的事物信息來探究差異。這些功能不僅僅能夠在醫(yī)療信息的管理層面上給予醫(yī)療人員較大的信息管理指導,同時在實際的醫(yī)療診斷過程之中,也可以向醫(yī)生提供患者的患病信息,并且輔助治療的進行[1]。所以,在醫(yī)療信息管理中應用數(shù)據(jù)挖掘技術不僅僅能夠推動醫(yī)療信息管理水平的提升,也是醫(yī)院實現(xiàn)現(xiàn)代化、信息化建設的重要體現(xiàn),需要從根本上明確醫(yī)療信息管理應用數(shù)據(jù)挖掘技術的必要性與基本內涵,從而針對醫(yī)院的管理現(xiàn)狀實現(xiàn)其管理方式與技術應用的轉變與優(yōu)化。
2在醫(yī)療信息管理過程之中加強數(shù)據(jù)挖掘技術應用的重要措施
2.1實現(xiàn)建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)的優(yōu)化
在應用數(shù)據(jù)挖掘技術的過程之中,必須基于數(shù)據(jù)庫信息的基礎之上,其數(shù)據(jù)挖掘技術才能夠進行相應的規(guī)律探究與信息分析,所以需要在源頭處加強數(shù)據(jù)收集環(huán)節(jié)以及建模環(huán)節(jié)的優(yōu)化。以醫(yī)院中醫(yī)部門為例,在對于中醫(yī)處方經驗的挖掘方法使用過程之中,需要針對不同的藥物進行關聯(lián)性建模,比如數(shù)據(jù)庫中有基礎性藥物,針對藥物進行頻數(shù)和次數(shù)的統(tǒng)計,然后以此類推,將所有藥物都按照出現(xiàn)的頻數(shù)進行降數(shù)排列,從而探究參考價值。建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)是醫(yī)療信息管理過程的根本,所以需要做好對于建模環(huán)節(jié)以及數(shù)據(jù)收集環(huán)節(jié)的優(yōu)化,才能夠為數(shù)據(jù)挖掘技術的應用奠定相應的基礎[2]。
2.2細化數(shù)據(jù)挖掘技術應用類別
想要在醫(yī)療信息管理過程之中,加強對于數(shù)據(jù)挖掘技術的有效應用,就需要從數(shù)據(jù)挖掘技術應用類別處進行著手,從而提升技術應用的針對性與有效性。常見的技術應用類別有:醫(yī)院資源配置方面、病患區(qū)域管理方面、醫(yī)療衛(wèi)生質量管理方面、醫(yī)療急診管理方面、醫(yī)院經濟管理方面以及醫(yī)療衛(wèi)生常見病宣傳方面等,數(shù)據(jù)挖掘技術都可以在這些類別之中實現(xiàn)應用,但是在應用的過程之中也有所不同。以病房區(qū)域管理為例,在應用數(shù)據(jù)挖掘技術之前,首先需要明確不同的科室狀況以及病房區(qū)域分配狀況等,加強病患區(qū)域的指標分析,因為病房管理不僅僅影響到科室的工作效率與工作效果,同時也是醫(yī)療物資分配與人員編制的主要參考標準。其次利用數(shù)據(jù)挖掘技術能夠較好地實現(xiàn)不同科室工作效率、質量管理質量以及經濟收益等多種指標的評估,建立其科室的運營模型,從而實現(xiàn)科室的又好又快發(fā)展。比如使用數(shù)據(jù)挖掘技術建立其病區(qū)管理的標準模型以及統(tǒng)計指標,從而計算出科室動態(tài)的工作模型以及病床動態(tài)的周轉次數(shù)等[3]。另外在醫(yī)療質量管理過程之中,數(shù)據(jù)挖掘技術提供的不僅僅是資料數(shù)據(jù)的參考以及疾病的.診斷,也能夠針對臨床的治療效果進行分析與評價,并且能夠預測治療狀況:可以利用醫(yī)院的醫(yī)療數(shù)據(jù)庫,對于病人的基本患病信息進行分類,從而比對死亡率、治愈率等多個數(shù)據(jù),實現(xiàn)治療方案的制訂。而在醫(yī)療質量管理過程之中也有很多的影響因素,例如基礎醫(yī)療設備、病床周轉次數(shù)、病種治愈記錄等,所以也可以利用數(shù)據(jù)挖掘技術來進一步加強其多種數(shù)據(jù)之間的關聯(lián)性,從而為提升醫(yī)院的社會效益與經濟效益提出合理的參考性建議。
2.3明確數(shù)據(jù)挖掘技術的應用方向
醫(yī)院加強數(shù)據(jù)挖掘技術應用方向的探索上,可以從客戶拓展這個角度出發(fā)實現(xiàn)對于醫(yī)療信息管理。例如通過數(shù)據(jù)挖掘技術多方進行患者信息比對,同時制訂完善的醫(yī)療服務影響策略方式,加強對于客戶行為的分析;在數(shù)據(jù)挖掘的基礎之上,增強其技術應用的實用性,在分析的基礎之上比對自身的競爭優(yōu)勢,實現(xiàn)醫(yī)院資源的合理規(guī)劃與合理配置,例如藥品、資金以及疾病診斷等,從而實現(xiàn)經營狀況的優(yōu)化。目前醫(yī)院也逐步向現(xiàn)代化、信息化方向發(fā)展,無論是信息管理還是醫(yī)療技術方面,醫(yī)院都已經成為了一個信息化的綜合行業(yè)體系,所以在加強數(shù)據(jù)挖掘應用的過程之中,還需要加強數(shù)據(jù)信息的管理,實現(xiàn)數(shù)據(jù)挖掘結果的維護,從而提升醫(yī)院的決策能力,實現(xiàn)數(shù)據(jù)挖掘技術的高效應用。
3結語
醫(yī)院在目前的醫(yī)療信息管理過程之中,還有很大的發(fā)展空間,需要綜合利用數(shù)據(jù)挖掘技術,實現(xiàn)其信息管理水平的提升。通過明確數(shù)據(jù)挖掘技術的應用方向、應用類別以及建模數(shù)據(jù)環(huán)節(jié)的優(yōu)化等,促進醫(yī)院管理水平的提升,實現(xiàn)數(shù)據(jù)挖掘技術應用效果的提升.
參考文獻:
[1]鄭勝前.數(shù)據(jù)挖掘技術在社區(qū)醫(yī)療服務系統(tǒng)中的應用與研究[J].數(shù)字技術與應用,20xx(09):81-82.
[2]廖亮.數(shù)據(jù)挖掘技術在醫(yī)療信息管理中的應用[J].中國科技信息,20xx(11):54,56.
[3]牟勇.數(shù)據(jù)挖掘技術在醫(yī)院信息化系統(tǒng)中應用[J].電子測試,20xx(11):23-24,22.
數(shù)據(jù)挖掘論文7
摘要:文章首先對數(shù)據(jù)挖掘技術及其具體功能進行簡要分析,在此基礎上對科研管理中數(shù)據(jù)挖掘技術的應用進行論述。期望通過本文的研究能夠對科研管理水平的進一步提升有所幫助。
關鍵詞:科研管理;數(shù)據(jù)挖掘;技術應用
1數(shù)據(jù)挖掘技術及其具體功能分析
所謂的數(shù)據(jù)挖掘具體是指通過相關的算法在大量的數(shù)據(jù)當中對隱藏的、有利用價值的信息進行搜索的過程。數(shù)據(jù)挖掘是一門綜合性較強的科學技術,其中涉及諸多領域的知識,如人工智能、機器學習、數(shù)據(jù)庫、數(shù)理統(tǒng)計等等。數(shù)據(jù)挖掘技術具有如下幾個方面的功能:1.1關聯(lián)規(guī)則分析。這是數(shù)據(jù)挖掘技術較為重要的功能之一,可從給定的數(shù)據(jù)集當中,找到出現(xiàn)比較頻繁的項集,該項集具體是指行形如X->Y,在數(shù)據(jù)庫當中,X和Y所代表的均為屬性取值。在關聯(lián)規(guī)則下,只要數(shù)據(jù)滿足X條件,就一定滿足Y條件,數(shù)據(jù)挖掘技術的這個功能在商業(yè)金融等領域中的應用較為廣泛。1.2回歸模式分析回歸模式主要是通過對連續(xù)數(shù)值的預測,來達到挖掘數(shù)據(jù)的目的。例如,已知企業(yè)某個人的教育背景、工作年限等條件,可對其年薪的范圍進行判定,整個分析過程是利用回歸模型予以實現(xiàn)的。在該功能中,已知的條件越多,可進行挖掘的信息就越多。1.3聚類分析聚類具體是指將相似程度較高的數(shù)據(jù)歸為同一個類別,通過聚類分析能夠從數(shù)據(jù)集中找出類似的數(shù)據(jù),并組成不同的組。在聚類分析的過程中,需要使用聚類算法,借助該算法對數(shù)據(jù)進行檢測后,可以判斷其隱藏的屬性,并將數(shù)據(jù)庫分為若干個相似的組。
2科研管理中數(shù)據(jù)挖掘技術的應用
科研是科學研究的簡稱,具體是指為認識客觀事物在內在本質及其運動規(guī)律,而借助某些技術手段和設備,開展調查研究、實驗等活動,并為發(fā)明和創(chuàng)造新產品提供理論依據(jù)?蒲泄芾硎菍蒲许椖咳^程的管理,如課題管理、經費管理、成果管理等等。由于科學研究中涉及的內容較多,從而給科研管理工作增添了一定的難度。為進一步提升科研管理水平,可在不同的管理環(huán)節(jié)中,對數(shù)據(jù)挖掘技術進行應用。下面就此展開詳細論述。
2.1在立項及可行性評估中的應用
科研管理工作的開展需要以相關的科研課題作為依托,當課題選定之后,需要對其可行性及合理性進行全面系統(tǒng)地評估,由此使得科研課題的立項及評估成為科研管理的主要工作內容。現(xiàn)階段,國內的科研課題立項采用的是申請審批制,具體的流程是:由科研機構的相關人員負責提出申請,然后再由科技主管部門從申請中進行篩選,經過業(yè)內專家的評審論證之后,擇優(yōu)選取科研項目的承接單位。在進行科研課題立項的過程中,涉及諸多方面的內容,具體包括申請單位、課題的研究領域、經費安排、主管單位以及評審專家等。通過調查發(fā)現(xiàn),由于國家宏觀調控政策的缺失,導致科研立項中存在低水平、重復性研究的情況,從而造成大量的研究經費浪費,所取得的研究成果也不顯著?蒲泄芾聿块T雖然建立了相對完善的數(shù)據(jù)庫系統(tǒng),并且系統(tǒng)也涵蓋與項目申請、審評等方面有關的基本操作流程,如上傳項目申報文件、將文件發(fā)給相關的評審專家、對評審結果進行自動統(tǒng)計等。從本質的角度上講,數(shù)據(jù)庫管理系統(tǒng)所完成的這些工作流程,就是將傳統(tǒng)管理工作轉變?yōu)樾畔⒒。故此,應當對已有的?shù)據(jù)進行深入挖掘,從而找出其中更具利用價值的信息,據(jù)此對科研立項進行指導,這樣不但能夠使有限的科技資源得到最大限度地利用,而且還能使科研經費的使用效益獲得全面提升。在科研立項階段,可對數(shù)據(jù)挖掘技術進行合理運用,借此來對課題申請中涉及的各種因素進行挖掘,找出其中潛在的規(guī)則,為指標體系的構建和遴選方法的選擇提供可靠依據(jù),最大限度地降低不合理因素對課題立項帶來的影響,對確需資助的科研項目進行準確選擇,并給予相應的資助。在科研立項環(huán)節(jié)中,對數(shù)據(jù)挖掘技術進行應用時,可以借助改進后的Apriori算法進行數(shù)據(jù)挖掘,從中找出關聯(lián)規(guī)則,在對該規(guī)則進行分析的基礎上,對立項的'合理性進行評價。
2.2在項目管理中的應用
項目管理是科研管理的關鍵環(huán)節(jié),為提高項目管理的效率和水平,可對數(shù)據(jù)挖掘技術進行合理運用。在信息時代到來的今天,計算機技術、網絡技術的普及程度越來越高,國內很多科研機構都紛紛構建起了相關的管理信息系統(tǒng),其中涵蓋了諸多的信息,如課題、科研人員、研究條件等等,而在這些信息當中,隱藏著諸多具有特定意義的規(guī)則,為找出這些規(guī)則,需要借助數(shù)據(jù)挖掘技術,對信息進行深入分析,進而獲取對科研項目有幫助的信息。由于大部分科研管理部門建立的科研管理信息系統(tǒng)時間較早,從而使得系統(tǒng)本身的功能比較單一,如信息刪減、修改、查詢、統(tǒng)計等等,雖然這些功能可以滿足對科研課題進展、經費使用等方面的管理,但其面向的均為數(shù)據(jù)庫管理人員,處理的也都是常規(guī)事務。而從科研課題的管理者與決策者的角度上看,管理信息系統(tǒng)這些功能顯然是有所不足的,因為他們需要對歷史進行分析和提煉,從中獲取相應的數(shù)據(jù),為決策和管理工作的開展提供支撐。對此,可應用數(shù)據(jù)挖掘技術的OLAP,即數(shù)據(jù)庫聯(lián)機分析處理,由此能夠幫助管理者從不同的方面對數(shù)據(jù)進行觀察,進而深入了解數(shù)據(jù)并獲取所需的信息。利用OLAP可以發(fā)現(xiàn)多種于科研課題有關信息之間的內在聯(lián)系,這樣管理者便能及時發(fā)現(xiàn)其中存在的相關問題,并針對問題采取有效的方法和措施加以應對。運用數(shù)據(jù)挖掘技術能夠對科研項目的相關數(shù)據(jù)進行分析,找出其中存在的矛盾,從而使管理工作的開展更具針對性。
3結論
綜上所述,科研管理是一項較為復雜且系統(tǒng)的工作,其中涵蓋的信息相對較多。為此,可將數(shù)據(jù)挖掘技術在科研管理中進行合理應用,對相關信息進行深入分析,從中挖掘出有利用價值的信息,為科研管理工作的開展提供可靠的依據(jù),由此除了能夠確?蒲许椖宽樌M行之外,還能提高科研管理水平。
參考文獻:
[1]劉占波,王立偉,王曉麗.大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術的高?蒲泄芾硐到y(tǒng)的設計[J].電子測試,20xx(1):21-22.
[2]史子靜.高?蒲泄芾硐到y(tǒng)中計算機數(shù)據(jù)挖掘技術的運用研究[J].科技資訊,20xx(6):65-66.
。3]丁磊.數(shù)據(jù)挖掘技術在高校教師科研管理中的應用研究[D].大連海事大學,20xx.
數(shù)據(jù)挖掘論文8
數(shù)據(jù)挖掘技術在金融業(yè)、醫(yī)療保健業(yè)、市場業(yè)、零售業(yè)和制造業(yè)等很多領域都得到了很好的應用。針對交通安全領域中交通事故數(shù)據(jù)利用率低的現(xiàn)狀,可以通過數(shù)據(jù)挖掘對相關交通事故數(shù)據(jù)進行統(tǒng)計分析,從而發(fā)現(xiàn)其中的關聯(lián),這對提升交通安全水平具有非常重要的意義。
1數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘(DataMining)即對大量數(shù)據(jù)進行有效的分類統(tǒng)計,從而整理出有規(guī)律的、有價值的、潛在的未知信息。一般來講,這些數(shù)據(jù)存在極大的隨機性和不完全性,其包括各行各業(yè)各個方面的數(shù)據(jù)。數(shù)據(jù)挖掘是一個結合了數(shù)據(jù)庫、人工智能、機器學習的學科,涉及統(tǒng)計數(shù)據(jù)和技術理論等領域。
2數(shù)據(jù)挖掘關聯(lián)分析研究
關聯(lián)分析作為數(shù)據(jù)挖掘中的重要組成部分,其主要作用就是通過數(shù)據(jù)之間的相互關聯(lián)從而發(fā)現(xiàn)數(shù)據(jù)集中某種未知的聯(lián)系。關聯(lián)分析最初是在20世紀90年代初被提出來的,一直備受關注。已被廣泛應用于各行各業(yè),包括醫(yī)療體檢、電子商務、商業(yè)金融等各個領域。關聯(lián)規(guī)則的挖掘一般可分成兩個步驟[1]:
。1)找出頻繁項集,不小于最小支持度的項集;
。2)生成強關聯(lián)規(guī)則,不小于最小置信度的關聯(lián)規(guī)則。相對于生成強關聯(lián)規(guī)則,找出頻繁項集這一步比較麻煩。由R.Agrawal等人在1994年提出的Apriori算法是生成頻繁項集的經典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-項集探索(k+1)-項集。Apriori算法在整體上可分為兩個部分。
(1)發(fā)現(xiàn)頻集。這個部分是最重要的,開銷相繼產生了各種各樣的頻集算法,專門用于發(fā)現(xiàn)頻集,以降低其復雜度、提高發(fā)現(xiàn)頻集的效率。
(2)利用所獲得的頻繁項集各種算法主要致力產生強關聯(lián)規(guī)則。當然頻集構成的聯(lián)規(guī)則未必是強關聯(lián)規(guī)則,還要檢驗構成的關聯(lián)規(guī)則的支持度和支持度是否超過它們的閾值。Apriori算法找出頻繁項集分為兩步:連接和剪枝。
。1)連接。集合Lk-1為頻繁k-1項集的集合,它通過與自身連接就可以生成候選k項集的集合,記作Ck。
。2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性質(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進行壓縮;然后,通過掃描所有的事務,確定壓縮后Ck中的每個候選的支持度;最后與設定的最小支持度進行比較,如果支持度不小于最小支持度,則認為該候選項是頻繁的。目前,在互聯(lián)網技術及科學技術的快速發(fā)展下,人工智能、機器識別等技術興起,關聯(lián)分析也被越來越多應用其中,并在不斷發(fā)展中提出了大量的改進算法。
3數(shù)據(jù)挖掘關聯(lián)分析在道路交通事故原因分析當中的應用
近年來,我國越來越多的學者將數(shù)據(jù)挖掘關聯(lián)分析應用于道路交通事故的研究中,主要是分析道路、車輛、行人以及環(huán)境等因素與交通事故之間的某種聯(lián)系。Pande和Abdel-Aty[3]通過關聯(lián)分析研究了美國佛羅里達州20xx年非交叉口發(fā)生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內在聯(lián)系,通過研究得出如下結論,道路照明條件不足是引發(fā)道路交通事故的主要因素,除此之外,還發(fā)現(xiàn)天氣惡劣的環(huán)境下道路彎道的直線段也極易發(fā)生交通事故。Graves[4]利用數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則對歐洲道路交通事故進行了分析,主要研究了交通事故與道路設施狀況之間的關聯(lián),通過研究發(fā)現(xiàn)了易導致交通事故發(fā)生的`各個道路設施狀況因素,此研究為歐洲路面建設及投資提供了強大的決策支持。我國學者董立巖在研究道路交通事故數(shù)據(jù)的文獻中,將粗糙集與關聯(lián)分析進行了融合,提出了基于偏好信息的決策規(guī)則簡約算法并將其應用其中,通過分析發(fā)現(xiàn)了道路交通事故的未知規(guī)律。王艷玲通過關聯(lián)分析中的因子關聯(lián)樹模型重點分析了影響道路交通事故最重要的因子,發(fā)現(xiàn)在道路交通事故常見的誘因人、車、路及環(huán)境中對事故影響最大的因子是環(huán)境。許卉瑩等利用關聯(lián)分析、聚類分析以及決策樹分析三種數(shù)據(jù)挖掘技術對道路交通事故數(shù)據(jù)進行分析,最終得出了科學的道路交通事故預防和交通安全管理決策依據(jù)。尚威等在研究中,對大量的道路交通數(shù)據(jù)進行了有效整合,并在此基礎上按照交通事故相關因素的不同特點整理出與事故發(fā)生有關的字段數(shù)據(jù),形成新的事故數(shù)據(jù)記錄表,然后再根據(jù)多維關聯(lián)規(guī)則對記錄的相關數(shù)據(jù)進行分析,從而發(fā)現(xiàn)了事故誘導因素記錄字段值和事故結果字段值組成的道路交通事故頻繁字段的組合。張聽等在充分掌握聚類數(shù)據(jù)挖掘理論與方法的基礎上,提出了多目標聚類分析框架和一個啟發(fā)式的聚類算法k-WANMI,并將其用在道路交通事故的聚類研究中對不同權重的屬性進行了多目標分析。同樣,許宏科也利用該方法對公路隧道交通流數(shù)據(jù)進行了聚類分析,其在研究中不僅明確了隧道交通流的峰值規(guī)律,而且還根據(jù)這種規(guī)律制訂了隧道監(jiān)控設備的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻。徐磊和方源敏在研究中,提出了由簡化信息熵構造的改進C4.5決策樹算法,并將其應用在交通事故數(shù)據(jù)的研究中,對交通數(shù)據(jù)進行了正確分類,發(fā)現(xiàn)了一些隱藏的規(guī)則和知識,為交通管理提供了依據(jù)。劉軍、艾力斯木吐拉、馬曉松運用多維關聯(lián)規(guī)則分析交通事故記錄,從而找到導致交通事故發(fā)生次數(shù)多的主要原因,并且指導相關部門作出相應的決策。楊希剛運用關聯(lián)規(guī)則為現(xiàn)實中的交通事故的預防提供依據(jù)。吉林大學的吳昊等人,基于關聯(lián)規(guī)則的理論基礎,定義了公路交通事故屬性模型,并結合改進后的Apriori算法,分析了交通事故歷史數(shù)據(jù)信息,為有關單位和用戶尋找道路黑點(即事故多發(fā)點)提供了技術支援和決策幫助。
4結語
通過數(shù)據(jù)挖掘中的關聯(lián)分析方法雖然能夠對道路交通事故的相關因素進行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關聯(lián)分析在道路交通事故的研究中往往只能片面發(fā)現(xiàn)某一種或幾種因素影響交通事故的規(guī)律,很難將所有影響因素結合起來進行全面系統(tǒng)的分析。然而道路交通事故的發(fā)生通常都是由相應因素導致,而后事故當事人意識到危險源的存在并采取措施,直到事故發(fā)生的連續(xù)過程,整體來看體現(xiàn)了時序性。也就是說,道路交通事故是受到一系列按照時間先后順序排列的影響因素組合共同作用而發(fā)生的,從整體的角度出發(fā)研究事故發(fā)生機理更加科學。
參考文獻
[1]楊秀萍.大數(shù)據(jù)下關聯(lián)規(guī)則算法的改進及應用[J].計算機與現(xiàn)代化,20xx(12):23-26.
[2]王云,蘇勇.關聯(lián)規(guī)則挖掘在道路交通事故分析中的應用[J].科學技術與工程,20xx(7):1824-1827.
[3]徐磊,方源敏.基于決策樹C4.5改進算法的交通數(shù)據(jù)挖掘[J].微處理機,20xx,31(6):57-59.
[4]楊希剛.數(shù)據(jù)挖掘在交通事故中的應用[[J].軟件導刊,20xx,7(26):18-20.
數(shù)據(jù)挖掘論文9
摘要:隨著信息技術的發(fā)展與進步,大數(shù)據(jù)時代已經悄然走進人們身邊,云計算技術的運用已經隨處可見,并改變和影響著人們的生活。在此基礎上,數(shù)據(jù)挖掘技術產生并發(fā)展,其在信息安全系統(tǒng)開發(fā)和建設方面產生重要影響和作用,以數(shù)據(jù)挖掘技術為依托構建相應的信息安全系統(tǒng)則更加能夠讓網絡信息建設可靠、安全。
關鍵詞:數(shù)據(jù)挖掘技術;信息安全系統(tǒng);開發(fā)研究
一、數(shù)據(jù)挖掘的主要任務
在數(shù)據(jù)挖掘的主要任務中,包含關聯(lián)分析、聚類分析、異常檢測等任務。關聯(lián)分析也叫頻繁模式分析,其指的是就同一任務或者統(tǒng)一事件的查找過程中,另一事件也同樣會發(fā)生相同規(guī)律,兩者之間具有緊密聯(lián)系。聚類分析主要是的是對各個數(shù)據(jù)內在的規(guī)律摸索,以及特點分析,通過對特點和規(guī)律進行對比,依照特點和規(guī)律進行數(shù)據(jù)源分類,使其成為若干個數(shù)據(jù)庫。異常檢測指的是對數(shù)據(jù)樣本的范本進行建設,利用這一范本,與數(shù)據(jù)源中所存在的數(shù)據(jù)開展對比分析工作,將數(shù)據(jù)中的異常樣本查找出來[1]。在監(jiān)督學習中,主要包含分類與預測兩種形式,利用已知樣本的類型與大小,對新到樣本開展有關預測活動。
二、基于數(shù)據(jù)挖掘的網絡信息安全策略
1.安全的網絡環(huán)境
。1)對控制技術進行隔離與訪問,包括物理隔離、可信網絡隔離、邏輯隔離與不可信網絡隔離,相關用戶如果需要進行網絡資源搜集或者訪問,需要得到相關授權。
。2)對防病毒技術進行運用,由于網絡安全已受到病毒的嚴重威脅,應當對病毒預警、防護以及應急機制進行建設,確保網絡的安全性;
(3)通過網絡入侵檢測技術的應用,能夠對非法入侵者的破壞行為及時發(fā)現(xiàn),并依照存在的隱患進行預警機制的建設。網絡安全環(huán)境的建設還包括對系統(tǒng)安全性開展定期分析,在第一時間對系統(tǒng)漏洞進行查找,并制定有關解決措施;
。4)通過有關分析審計工作的開展,可以對計算機網絡中的各種運行活動進行記錄,不僅可以對網絡訪問者予以確定,而且還能夠對系統(tǒng)的使用情況進行記錄;
。5)通過網絡備份與災難恢復工作,能夠利用最短的時間回復已破壞的系統(tǒng)。
2.保證數(shù)據(jù)挖掘信息安全的策略。安全的數(shù)據(jù)挖掘信息指的是數(shù)據(jù)挖掘信息的儲存、傳送以及運用工作的安全性。在數(shù)據(jù)挖掘信息的.存儲安全中,主要包括其物理完整性、邏輯完整性以及保密性。利用數(shù)據(jù)完整性技術、數(shù)據(jù)傳輸加密技術以及防抵賴性技術,使數(shù)據(jù)挖掘信息傳送的安全性得到充分保障。數(shù)據(jù)挖掘信息運用的安全性指的是針對網絡中的主體,應當開展有關驗證工作,預防非授權主體對網絡資源進行私自運用。
3.基于數(shù)據(jù)挖掘的網絡安全數(shù)據(jù)分析策略
(1)關聯(lián)性分析。在一次攻擊行為中,利用源地址、目的地址以及攻擊類型這三要素,通過三要素之間的隨意指定或組合,都能夠將具備一定意義的網絡攻擊態(tài)勢反映出來。
。2)事件預測機制。對某一事件的發(fā)展情況進行跟蹤,通過數(shù)據(jù)聚類算法的應用,對依照網絡事件所構建的模型進行分析,進而做出判定。一般來說,規(guī)模比較大的網絡事件中,擴散一般是其所呈現(xiàn)的重要特征。
(3)可控數(shù)量預測模型。利用對事件中受控主機狀態(tài)增長數(shù)量進行觀測,判斷該事件的感染能力。所謂的受控主機狀態(tài)增長指的是,先前未檢測出主機受到某類攻擊,利用有關檢測,對其狀態(tài)變化增長情況予以發(fā)現(xiàn)[2]。
。4)分析處理模型。通過分析處理模型,能夠科學分析運營商事件處理反饋情況,并對其針對被控主機的處理能力進行判定。利用對所有運營商所開展的綜合評估,能夠對其管轄范圍內的主機處理能力予以綜合判斷。
。5)網絡安全數(shù)據(jù)分析模型。針對網絡事件進行數(shù)據(jù)分析,通過分析構建相應模型,結合模型進行異常情況的跟進和跟蹤,從而為網絡安全環(huán)境的營造創(chuàng)造條件。其運行過程主要包括兩個階段:
、僭趯W習階段中,用戶主要是對事件進行確定,并在計算機系統(tǒng)中進行定義,對各個時間段所發(fā)生的安全事件數(shù)量進行統(tǒng)計。一般來說,統(tǒng)計以小時為單位,單位時間內的安全事件平均數(shù)為x,方差為σ。
②在實時檢測階段中,根據(jù)時間間隔各類安全事件的數(shù)量ix對安全事件數(shù)量是否出現(xiàn)異常情況進行判定,正常的安全事件數(shù)量輕度異常的安全事件數(shù)量中度異常的安全事件數(shù)量重度異常的安全事件數(shù)量在建設模型的過程中開展有關配置工作,依據(jù)不同的情形,對該參數(shù)進行調整,各類安全事件數(shù)量異常的最高值也就是安全事件數(shù)量指標值。
三、結語
云計算和大數(shù)據(jù)時代都對信息技術提出了更高的安全要求和標準,網絡安全系統(tǒng)的構建影響著人們的生活和生產,并對相關的數(shù)據(jù)起到重要保護作用。結合數(shù)據(jù)挖掘技術進行信息安全系統(tǒng)的開發(fā)和建設,則能夠更好地促進網絡安全性的提升,能夠有效抵制網絡不法分子的侵襲,讓網絡安全性真正為人們的生活工作提供幫助。
參考文獻
[1]趙悅品.網絡信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代電子技術,20xx,40(04):61-65.
[2]梁雪霆.數(shù)據(jù)挖掘技術的計算機網絡病毒防御技術研究[J].科技經濟市場,20xx(01):25.
數(shù)據(jù)挖掘論文10
摘 要:數(shù)據(jù)挖掘技術在各行業(yè)都有廣泛運用,是一種新興信息技術。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應用前景,從而在眾多技術中脫穎而出。本文從對數(shù)據(jù)挖掘技術的初步了解,簡述數(shù)據(jù)挖掘技術在在線考試系統(tǒng)中成績分析,以及配合成績分析,完善教學。
關鍵詞:數(shù)據(jù)挖掘技術;在線考試;成績分析 ;完善教學
隨著計算機網絡技術的快速發(fā)展,計算機輔助教育的不斷普及,在線考試是一種利用網絡技術的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術作為一種新興的信息技術,其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計學等學科的內容,是一門綜合性的技術。這種技術的主要特點是對數(shù)據(jù)庫中大量的數(shù)據(jù)進行抽取、轉換和分析,從中提取出能夠對教師有作用的關鍵性數(shù)據(jù)。將其運用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實用性和高效性得到進一步的增強,幫助教師更加快速、完整的統(tǒng)計考試信息,完善教學。
1.初步了解數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術是從大量數(shù)據(jù)中"挖掘"出對使用者有用的知識,即從大量的、隨機的、有噪聲的、模糊的、不完全的實際應用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對人們潛在有用的信息與知識的整個過程。
目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。
2.數(shù)據(jù)挖掘在在線考試中的主要任務
2.1數(shù)據(jù)分類
數(shù)據(jù)挖掘技術通過對數(shù)據(jù)庫中的數(shù)據(jù)進行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠為每一個類別都做出一個準確的描述,挖掘出分類的規(guī)則或建立一個分類模型。
2.2數(shù)據(jù)關聯(lián)分析
數(shù)據(jù)庫中的數(shù)據(jù)關聯(lián)是一項非常重要,并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對學校教學工作管理者有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習慣。
2.3預測
預測是根據(jù)已經得到的數(shù)據(jù),從而對未來的情況做出一個可能性的分析。數(shù)據(jù)挖掘技術能自動在大型的數(shù)據(jù)庫中做出一個較為準確的分析。就像是在市場投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢。從而在投資中得到最大的回報。
3.數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術融合了多個學科、多個領域的知識與技術,因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計分析類的數(shù)據(jù)挖掘技術的角度來講,光統(tǒng)計分析技術中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術利用這些方法對那些異常形式的數(shù)據(jù)進行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計模型對這些數(shù)據(jù)來進行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術,這種和統(tǒng)計分析類的數(shù)據(jù)挖掘技術完全不同,其中包括了支持向量機、人工神經元網絡、遺傳算法、決策樹、粗糙集、關聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
4.數(shù)據(jù)挖掘在考試成績分析中的幾點應用
4.1運用關聯(lián)規(guī)則分析教師的年齡對學生考試成績的影響
數(shù)據(jù)挖掘技術中的關聯(lián)分析在教學分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項集之間之間有意義的關聯(lián)聯(lián)系,幫助知道教師的教學過程。例如在如今的一些高職院校中,就往往會把學生的英語四六級過級率,計算機等級等,以這些為依據(jù)來評價教師的教學效果。將數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則運用于考試的成績分析當中,就能夠挖掘出一些對學生過級率產生影響的因素,對教師的教學過程進行重要的指導,讓教師的'教學效率更高,作用更強。
還可以通過關聯(lián)規(guī)則算法,先設定一個最小可信度和支持度,得到初步的關聯(lián)規(guī)則,根據(jù)相關規(guī)則,分析出教師的組成結構和過級率的影響,從來進行教師隊伍的結構調整,讓教師隊伍更加合理。
4.2采用分類算法探討對考試成績有影響的因素
數(shù)據(jù)挖掘技術中的分類算法就是對一組對象或一個事件進行歸類,然后通過這些數(shù)據(jù),可以進行分類模型的建立和未來的預測。分類算法可以進行考試中得到的數(shù)據(jù)進行分類,然后通過學生的一些基本情況進行探討一些對考試成績有影響的因素。分類算法可以用一下步驟實施:
4.2.1數(shù)據(jù)采集
這種方法首先要進行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學生基本信息(姓名、性別、學號、籍貫、所屬院系、專業(yè)、班級等)、學生調查信息(比如學習前的知識掌握情況、學習興趣、課堂學習效果、課后復習時間量等)、成績(學生平常學習成績,平?荚嚦煽儯鞣N大型考試成績等)、學生多次考試中出現(xiàn)的易錯點(本次考試中出現(xiàn)的易錯點,以往考試中出現(xiàn)的易錯點)
4.2.2數(shù)據(jù)預處理
(1)數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息,利用數(shù)據(jù)挖掘技術中的數(shù)據(jù)庫技術生產相應的學生考試成績分析基本數(shù)據(jù)庫。(2)數(shù)據(jù)清理。在學生成績分析數(shù)據(jù)庫中,肯定會出現(xiàn)一些情況缺失,對于這些空缺處,就需要使用數(shù)據(jù)清理技術來進行這些數(shù)據(jù)庫中數(shù)據(jù)的填補遺漏。例如,可以采用忽略元組的方法來刪除那些沒有參加考試的學生考試數(shù)據(jù)已經在學生填寫的調查數(shù)據(jù)中村中的空缺項。(3)數(shù)據(jù)轉換。數(shù)據(jù)轉換主要功能是進行進行數(shù)據(jù)的離散化操作。在這個過程中可以根據(jù)實際需要進行分類,比如把考試成績從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫,在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結果。比如在分析學生的基本學習情況的影響因素情況中,學生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學生基本成績分析數(shù)據(jù)表。
4.2.3利用數(shù)據(jù)挖掘技術,得出結論
通過數(shù)據(jù)挖掘技術在在線考試中的應用,得出這些學生數(shù)據(jù)的相關分析,比如說學生考試中的易錯點在什么地方,學生考試成績的自身原因,學生考試成績的環(huán)境原因,教師隊伍的搭配情況等等,從中得出如何調整學校教學資源,教師的教學方案調整等等,從而完善學校對學生的教學。
5.結語
數(shù)據(jù)挖掘技術在社會各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術中還存在著一些問題,例如數(shù)據(jù)的挖掘算法、預處理、可視化問題、模式識別和解釋等等。對于這些問題,學校教學管理工作者要清醒的認識,在在線考試系統(tǒng)中對數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長處,避免其在在線考試系統(tǒng)中的的缺陷。
參考文獻:
[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術在高校學生成績分析中的作用[J].荊門職業(yè)技術學院學報,20xx,12(22):12.
[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(第2版)[M]范明,譯.北京:機械工業(yè)出版社,20xx.
[3]王潔.《在線考試系統(tǒng)的設計與開發(fā)》[J].山西師范大學學報,20xx(2).
[4] 王長娥.數(shù)據(jù)挖掘技術在教育中的應用[J].計算機與信息技術,20xx(11)
數(shù)據(jù)挖掘論文11
摘 要:高度開放的中國金融市場,特別是中國銀行業(yè)市場受到日趨激烈的國外銀行沖擊和挑戰(zhàn),大多數(shù)銀行企業(yè)都在構建以客戶為中心的客戶關系管理體系,這一經營體系理念的構建,不僅僅能提高企業(yè)的知名度和顧客的滿意度,而且能提高企業(yè)的經濟效益。但是,隨著網絡技
關鍵詞:客戶關系管理畢業(yè)論文
高度開放的中國金融市場,特別是中國銀行業(yè)市場受到日趨激烈的國外銀行沖擊和挑戰(zhàn),大多數(shù)銀行企業(yè)都在構建以客戶為中心的客戶關系管理體系,這一經營體系理念的構建,不僅僅能提高企業(yè)的知名度和顧客的滿意度,而且能提高企業(yè)的經濟效益。但是,隨著網絡技術和信息技術的發(fā)展,客戶關系管理如何能結合數(shù)據(jù)挖掘技術和數(shù)據(jù)倉庫技術,增強企業(yè)的核心競爭力已經成為企業(yè)亟待解決的問題。因為,企業(yè)的數(shù)據(jù)挖掘技術的運用能夠解決客戶的矛盾,為客戶設計獨立的、擁有個性化的數(shù)據(jù)產品和數(shù)據(jù)服務,能夠真正意義上以客戶為核心,防范企業(yè)風險,創(chuàng)造企業(yè)財富。
關鍵詞:客戶關系管理畢業(yè)論文
一、數(shù)據(jù)挖掘技術與客戶關系管理兩者的聯(lián)系
隨著時代的發(fā)展,銀行客戶關系管理的發(fā)展已經越來越依賴數(shù)據(jù)挖掘技術,而數(shù)據(jù)挖掘技術是在數(shù)據(jù)倉庫技術的基礎上應運而生的,兩者有機的結合能夠收集和處理大量的客戶數(shù)據(jù),通過數(shù)據(jù)類型與數(shù)據(jù)特征,進行整合,挖掘具有特殊意義的潛在客戶和消費群體,能夠觀察市場變化趨勢,這樣的技術在國外的銀行業(yè)的客戶關系管理廣泛使用。而作為國內的銀行企業(yè),受到國外銀行業(yè)市場的大幅度沖擊,顯得有些捉襟見肘,面對大量的數(shù)據(jù)與快速發(fā)展的互聯(lián)網金融體系的沖擊,銀行業(yè)缺乏數(shù)據(jù)分析和存儲功能,往往造成數(shù)據(jù)的流逝,特別是在數(shù)據(jù)的智能預測與客戶關系管理還處于初步階段。我國的銀行業(yè)如何能更完善的建立客戶關系管理體系與數(shù)據(jù)挖掘技術相互融合,這樣才能使得企業(yè)獲得更強的企業(yè)核心競爭力。
二、數(shù)據(jù)挖掘技術在企業(yè)客戶關系管理實行中存在的問題
現(xiàn)今,我國的金融業(yè)發(fā)展存在著數(shù)據(jù)數(shù)量大,數(shù)據(jù)信息混亂等問題,無法結合客戶關系管理的需要,建立統(tǒng)一而行之有效的數(shù)據(jù)歸納,并以客戶為中心實行客戶關系管理。
1.客戶信息不健全
在如今的銀行企業(yè),雖然已經實行實名制戶籍管理制度,但由于實行的年頭比較短,特別是以前的數(shù)據(jù)匱乏。重點體現(xiàn)在,銀行的客戶信息采集主要是姓名和身份證號碼,而對于客戶的職業(yè)、學歷等相關信息一概不知,極大的影響了客戶關系管理體系的構建。另外,數(shù)據(jù)還不能統(tǒng)一和兼容,每個系統(tǒng)都是獨立的系統(tǒng),比如:信貸系統(tǒng)、儲蓄系統(tǒng)全部分離。這樣存在交叉、就不能掌握出到底擁有多少客戶,特別是那些需要服務的目標客戶,無法享受到銀行給予的高質量的優(yōu)質服務。
2.數(shù)據(jù)集中帶來的差異化的憂慮
以客戶為中心的客戶關系管理體系,是建立在客戶差異化服務的基礎上的,而作為銀行大多數(shù)以數(shù)據(jù)集中,全部有總行分配,這樣不僅不利于企業(yè)的差異化服務,給顧客提供優(yōu)質得到個性化業(yè)務,同時,分行也很難對挖掘潛在客戶和分析客戶成分提供一手的數(shù)據(jù),損失客戶的利益,做到數(shù)據(jù)集中,往往是不明智的選擇。
3.經營管理存在弊端
從組織結構上,我國的銀行體系設置機構龐雜,管理人員與生產服務人員脫節(jié)現(xiàn)象極其普遍,管理人員不懂業(yè)務,只是一味的抓市場,而沒有有效的營銷手段,更別說以市場為導向,以客戶為核心,建立客戶關系管理體系。大多數(shù)的人完全是靠關系而非真正意義上靠能力,另外,業(yè)務流程繁瑣,不利于客戶享受更多的星級待遇,這與數(shù)據(jù)發(fā)掘的運用背道而馳,很難體現(xiàn)出客戶關系管理的價值。
三、數(shù)據(jù)挖掘技術在企業(yè)的應用和實施
如何能更好的`利用數(shù)據(jù)挖掘技術與客戶關系管理進行合理的搭配和結合是現(xiàn)今我們面臨的最大問題。所有我們對客戶信息進行分析,利用模糊聚類分析方法對客戶進行分類,通過建立個性化的信息服務體系,真正意義的提高客戶的價值。
1.優(yōu)化客戶服務
以客戶為中心提高服務質量是銀行發(fā)展的根源。要利用數(shù)據(jù)挖掘技術的優(yōu)勢,發(fā)現(xiàn)信貸趨勢,及時掌握客戶的需求,為客戶提高網上服務,網上交易,網上查詢等功能,高度體現(xiàn)互聯(lián)網的作用,動態(tài)挖掘數(shù)據(jù),通過智能化的信貸服務,拓寬銀行業(yè)務水平,保證客戶的滿意度。
2.利用數(shù)據(jù)挖掘技術建立多渠道客戶服務系統(tǒng)
利用數(shù)據(jù)挖掘技術整合銀行業(yè)務和營銷環(huán)節(jié)為客戶提供綜合性的服務。采用不同的渠道實現(xiàn)信息共享,針對目標客戶推薦銀行新產品,拓寬新領域,告別傳統(tǒng)的柜臺服務體系,實行互聯(lián)網與柜臺體系相結合的多渠道服務媒介體系。優(yōu)化客戶關系管理理念,推進營銷戰(zhàn)略的執(zhí)行。提高企業(yè)的美譽度。
四、數(shù)據(jù)挖掘技術是銀行企業(yè)客戶關系管理體系構建的基礎
隨著信息技術的不斷發(fā)展,網絡技術的快速推進,客戶關系管理體系要緊跟時代潮流,緊密圍繞客戶為中心,利用信息優(yōu)勢,自動獲取客戶需求,打造出更多的個性化、差異化客戶服務理念,使得為企業(yè)核心競爭能力得到真正意義的提高。
數(shù)據(jù)挖掘論文12
1、數(shù)據(jù)挖掘技術的概念和實用價值
1.1 數(shù)據(jù)挖掘的概念
所謂數(shù)據(jù)挖掘,其實就是從大量繁雜的數(shù)據(jù)中找出對自己發(fā)展有益的數(shù)據(jù)、模型及規(guī)律。主要依據(jù)事先確定好的商業(yè)目標,深入分析和研究各種企業(yè)數(shù)據(jù),發(fā)掘里面隱藏的商業(yè)內容,還要在工作中不斷提高其科學性。數(shù)據(jù)挖掘的綜合型較強,需要使用諸多專業(yè)理論以及技術工具,主要有數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、模型識別、人工智能、神經網絡等。
1.1.1 分類
其實質就是對數(shù)據(jù)進行分門別類。先從數(shù)據(jù)中挑選出分類完的訓練集,然后將其作為依據(jù)來設置一個科學的分類模型,還要將雜亂的數(shù)據(jù)進行綜合整理。
1.1.2 估值
估值和分類有很多相同點,其差異在于:分散是對離散型變量進行輸出,但估值輸出的是連續(xù)值,且分類的類別是有數(shù)目規(guī)定的,但估值卻是隨意的。
1.1.3 預測
一般情況下,預測要借助分類或估值才能發(fā)揮效果,具體說來,就是用分類及估值期間使用的模型來預估未知的變量。檢測的目的與其大同小異,但而其結果必須經時間驗證,也就是說在很長一段時間后,才可以評估其準確性。
1.1.4 相關性分組或關聯(lián)規(guī)則
要記錄好時間類型及發(fā)生日期,這樣可以為后續(xù)的施工提供借鑒。
1.1.5 聚類
就是對各種數(shù)據(jù)進行整理并且分類,以聚集為類別。兩者的主要區(qū)別是聚類不需要事先定義好類別,不用借助訓練集。
1.1.6 描述和可視化
用歸約、概括、圖形表示等方式來表示數(shù)據(jù)。
1.2 數(shù)據(jù)挖掘在電力企業(yè)的使用價值
商業(yè)領域對于數(shù)據(jù)挖掘技術的需求較大,因此數(shù)據(jù)挖掘在多個商業(yè)領域得到了大范圍的應用。下文便依據(jù)電力企業(yè)的行業(yè)特征來論述一下數(shù)據(jù)挖掘技術在電力企業(yè)中的重要作用。
1.2.1 指導設備更新
在發(fā)生了下述兩種情況時就要對設備進行更新:首先,電力設施意外毀壞,這便要第一時間更換,一般電力設備監(jiān)控設施可以檢測出這類故障,這樣也能夠在第一時間進行維修。其次是更換老化的設備,這就需要以經驗為依據(jù),例如檢查設備的使用年限等,但這種方式并不具有多大的科學性,因為很多設備可能由于保養(yǎng)得當而延長使用年限,如果貿然更換會產生巨大的浪費;還有些設備的使用時間可能不長,但是其性能卻已經不滿足標準,若不及時更換也會產生巨大的浪費。一般情況下,我們可以借助故障保修、電力耗費及相關電力參數(shù)等各種數(shù)據(jù)來確定電力設備的故障及老化狀況,最終確定是否更換設備。
1.2.2 業(yè)績評估
我國的電力企業(yè)一直沒有一套標準的.體系來評價集團公司分公司的成績。若只評估其所創(chuàng)造的經濟利潤,則會因各地區(qū)的發(fā)展有所誤差,并且電力行業(yè)是與我們的生產生活息息相關的,安全性及其它性能的重要意義遠大于利潤。但數(shù)據(jù)挖掘技術卻能夠綜合分析諸多影響因素,通過分析由利潤、利潤增長率、同行對比、投訴舉報、生產成本等數(shù)據(jù)組成的主題倉庫來研究區(qū)域或者是自公司的運營情況,并用圖表等簡潔明了的方式體現(xiàn)出來,為決策提供依據(jù)。
1.2.3 指導電力企業(yè)的建設規(guī)劃
最近,我國的廣東頻繁發(fā)生電力供不應求的情況,其主要原因便是沒能很好的掌握市場進步的趨勢,在電廠的建設及電網建設方面都沒能滿足市場的需求,這時數(shù)據(jù)挖掘工作的重要性便得到了很好的體現(xiàn)。將新增用戶(報裝)、現(xiàn)有用戶、用戶位置、用戶用電量、國家的建設計劃等相關資料實行認真的研究分析便可以制定出電力企業(yè)的發(fā)展計劃,有此為指導,才能促進電力行業(yè)的飛速發(fā)展。
1.2.4 指導電力的生產和購買
我國推出電力企業(yè)改革方案后,廣東省電力集團便在積極的踐行,到01年底已大體完成廠網分離。改革的逐步深化,而言使得我們面臨了一些新的問題。例如在電力購買方面,傳統(tǒng)的電廠和電網屬一個單位,電廠會供給電網充足的電力?稍谌缃瘢娋W用電時一定要提前購買,但因為電力的鮮明特征即買多少用多少,使得購買時間和購買量無法準確的確定。而借助數(shù)據(jù)挖掘技術可以很好的解決這一問題。對有關的主體車庫進行深入挖掘便可確定需購買的電力總量,并對發(fā)電企業(yè)的生產計劃進行指導。
1.2.5 減少電力損耗,改善電力質量,減少設備損耗
電力產品具有自身的顯著特征,主要體現(xiàn)在它不能進行儲存,只有按需供給?墒,發(fā)電和用電是有著很大差異的,要想保證電力的質量,就必須不斷提高設施的安全性,并對其實施科學的調整,F(xiàn)今使用的主要方式是建設蓄能電廠,若電力有多余則要保存起來,等電力供應不足時則用這部分電力,將其進行安排調度并制定合理的疾患,便能實現(xiàn)電力儲存技術的靈活調節(jié),實現(xiàn)降低電力浪費,提高電力質量,避免設備的耗損。
2、使用數(shù)據(jù)挖掘的必要性和可行性
2.1 我國電力企業(yè)信息化現(xiàn)狀使采用數(shù)據(jù)挖掘技術成為可能
觀察以廣電企業(yè)的現(xiàn)狀可以知道,電網的信息化已經有了很大的進步,也就是不再僅僅借助計算機完成統(tǒng)計報表,管理信息也不是單機單項應用工作的時期,其正處在信息化的中級發(fā)展環(huán)節(jié),企業(yè)有自己的局域網,廣電集團也已經實現(xiàn)了光纖網的全省覆蓋,企業(yè)完成信息化之后,能夠使內部的管理工作更加高效,如MIS、OA、物資管理、財務管理以及客戶服務中心等。能夠獲得企業(yè)的許多基本數(shù)據(jù),并使應用平臺更加的科學,而企業(yè)在進行數(shù)據(jù)挖掘工作時,便可以將這眾多數(shù)據(jù)作為有效依據(jù)。
2.2 我國電力企業(yè)改革的趨勢使采用數(shù)據(jù)挖掘技術成為必然
我國黨政領導集團在積極的轉變行業(yè)壟斷的現(xiàn)狀,促進競爭方式的合理化。我國電力企業(yè)中已經使用了“廠網分家”模式,這使得發(fā)電競爭有了科學的模式,廣電集團也已經結束了這部分的工作。接下來便是向電網運轉方向轉變。為在將來的競爭中保持優(yōu)勢,電力企業(yè)一定要盡可能的降低生產經營的成本,這樣有利于更好的為客戶提供服務,并熟悉自己及競爭企業(yè)的實際情況。上述的所有事情,都要使用現(xiàn)代信息技術來解決,而數(shù)據(jù)挖掘技術又起著極其重要的作用。
3、展望
作為智能系統(tǒng)的心臟,信息通信系統(tǒng)在今后電網業(yè)的進步中有著非常積極的意義,F(xiàn)今,我國電網業(yè)早已設立了在國內、國際都很先進的集成系統(tǒng)。三地集中式數(shù)據(jù)也開始慢慢運轉起來,各企業(yè)的一級業(yè)務面也越來越廣,各種數(shù)據(jù)中心也都開始運轉起來,我國電網的數(shù)據(jù)和種類都開始步入正軌。其“量類時”特征,也在海量、實時的電網業(yè)務內有了更大的作用,所以必須對其進行深入研究。
現(xiàn)今,我們通常把電網業(yè)務數(shù)據(jù)歸為三種:首先,單位生產的資料,有發(fā)電量、電壓穩(wěn)定性等指標等;其次,單位工作中的數(shù)據(jù),包括交易價格、用戶的需求方面的數(shù)據(jù)等;最后是單位的管理資料,如ERP、一體化平臺、協(xié)同辦公等方面的數(shù)據(jù)。我們要熟練了解這諸多數(shù)據(jù)的特征,然后開展深入的探究,還能推出很多高附加值的服務,這也能促進電網安全性檢測的順利進行,還可以更好的掌控企業(yè)的經營、滿足用戶的需求,使企業(yè)的管理水平得到提高。
比如,在設立電力企業(yè)的“大營銷”模式時,要以滿足顧客需求為目標,建立各種服務平臺以第一時間滿足客戶各種需求,如:95588、114等。為了完善服務模式,提高服務質量,應該詳細的分析各種數(shù)據(jù),使得服務水平和營銷能力得到大幅度的提升和改善;分析型數(shù)據(jù)是進行服務和開展營銷的必要前提和重要基礎,應該得到足夠的重視,對原有的營銷組織模式進行查漏補缺,通過借鑒其他單位的成功經驗來彌補自己的不不足和缺陷,對各種服務資源進行合理的配置,盡可能讓大多數(shù)人滿意,為了更好的利用數(shù)據(jù)并提高營銷能力,要建立數(shù)據(jù)監(jiān)控分析模型;營銷數(shù)據(jù)之間是存在著隱藏關系的,顯而易見,這些隱藏信息不容易被發(fā)現(xiàn),為了增強分析數(shù)據(jù)的全面性、系統(tǒng)性、直觀性、便捷性,建立各種系統(tǒng)性算法模型庫不僅是極其有必要的,而且是相當重要的,當然這種系統(tǒng)性的算法模型庫是針對營銷制定的,這樣做可以增強把握市場動態(tài)的及時性,我們知道,任何類型的營銷必定離不開市場,市場是開展營銷主要遵循的依據(jù),脫離了市場,營銷就會抓不住頭腦,因而,算法模型庫的建立可以為企業(yè)單位創(chuàng)造更多的經濟效益和社會效益,增強企業(yè)的核心競爭力,擴大企業(yè)單位的市場份額,使企業(yè)更穩(wěn)的立足于競爭激烈的市場之上,甚至是處于領頭羊的地位,促進國民經濟建設,為人民提供更好的服務。
數(shù)據(jù)有著很好的增值價值,其他的服務也可以通過數(shù)據(jù)增值價值得到衍生。所以,加大對數(shù)據(jù)的利用與研究勢在必行。把數(shù)據(jù)當中重要的依據(jù)、基礎甚至是紐帶,沿著這個紐帶進行研究與利用。將數(shù)據(jù)研究和使用的成果合理的運用起來,例如,將其轉化為新型的支付方式和消費形態(tài),使客戶感受到非同一般的感覺,突破了以往的業(yè)務系統(tǒng)僅僅專注于自己內容的方式,電網的生產效率會得到提高,企業(yè)的管理水平也會因此得到大幅度的改善與提高。
數(shù)據(jù)挖掘論文13
摘要:隨著計算機信息網絡的快速發(fā)展,數(shù)據(jù)挖掘在軟件工程中的地位越來越突出。軟件工程數(shù)據(jù)挖掘是在冗余的數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),從而得到更好地利用。社會的發(fā)展,科技的進步使得社會進入了網絡信息熱時代,隨之計算機軟件也不斷增加,人們獲取的信息大部分是人手動操作軟件獲得的,這樣的信息量具有一定的局限性。因此,為了滿足當今社會的需要,必須借助于軟件工程數(shù)據(jù)挖掘的手段。
關鍵詞:軟件工程;數(shù)據(jù)挖掘;研究現(xiàn)狀
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(20xx)26-0020-02
利用數(shù)據(jù)挖掘技術對大量冗余的數(shù)據(jù)進行篩選從而得到少量精確的信息。冗余的數(shù)據(jù)是指既包含有用信息有包含無用信息,利用數(shù)據(jù)挖掘技術剔除掉多余的無用信息留下有用信息,這樣既可以提高手機數(shù)據(jù)的質量又可以提高工作效率。所以,數(shù)據(jù)挖掘技術在當前的軟件工程中起著越來越重要的作用。數(shù)據(jù)挖掘技術提取、篩選、分析和整理數(shù)據(jù)比人工操作軟件獲得的數(shù)據(jù)更精確更高效。同時,使用這種技術為軟件開發(fā)者提供了有利的條件,它可以給軟件開發(fā)者提供一些對其開發(fā)軟件有用的信息。軟件開發(fā)者想要更有效率的開發(fā)出更高質量的軟件,就必須獲得更多的更有用的數(shù)據(jù),而想要收集和整理出有用數(shù)據(jù)就需要借助數(shù)據(jù)挖掘技術來實現(xiàn),進而提高工作效率。
1 數(shù)據(jù)挖掘的基本概述
軟件工程數(shù)據(jù)主要是指開發(fā)軟件過程中所涉及的各類數(shù)據(jù),如需求分析、可行性分析、設計等文檔,開發(fā)商通信、軟件注釋、代碼、版本、測試用例和結果、使用說明、用戶反饋等信息數(shù)據(jù),一般情況下其是軟件開發(fā)者獲取軟件數(shù)據(jù)的唯一來源;而數(shù)據(jù)挖掘是指在海量數(shù)據(jù)中集中發(fā)現(xiàn)有用知識或信息的過程。
軟件工程數(shù)據(jù)挖掘的工作原理 主要包括數(shù)據(jù)預處理階段、挖掘階段以及評估階段三個方面。在挖掘階段主要是運用分類、統(tǒng)計、關聯(lián)、聚類、異常檢測等一系列算法的過程。在評估階段數(shù)據(jù)挖掘的意義主要在于其結果應易被用戶理解,其結果評估主要有兩個環(huán)節(jié)分別是模式過濾和模式表示。
數(shù)據(jù)挖掘在計算機軟件工程中的研究相當多,它是分析數(shù)據(jù)的一種新穎方式。目前,隨著社會工作的復雜度,需要更加完善的軟件,因此對于軟件代碼的數(shù)量也在急劇增加進而導致了數(shù)據(jù)量的快速增長。而傳統(tǒng)的數(shù)據(jù)計算方式已經不能滿足目前對于大量數(shù)據(jù)進行分析的要求,所以,研究者希望能夠發(fā)掘出一種新的數(shù)據(jù)分析方式更高效的整理出有用的數(shù)據(jù)信息。軟件開發(fā)中會積累大量的數(shù)據(jù),比如說文本數(shù)據(jù),測試數(shù)據(jù),用戶信息數(shù)據(jù)以及用戶體驗反饋數(shù)據(jù)等等,軟件開發(fā)者為了開發(fā)出更好的軟件就必須分析和整理這些數(shù)據(jù)。但是,目前軟件工程開發(fā)的軟件越來越大,其數(shù)據(jù)越累越復雜對于數(shù)據(jù)的處理已經超出了人工處理的能力的范疇,所以說繼續(xù)使用傳統(tǒng)數(shù)據(jù)處理的方式來收集,整理和分析數(shù)據(jù)已經不可能實現(xiàn)。因此,推動了人們對于新的數(shù)據(jù)處理方式的研究,所以才提出了軟件工程數(shù)據(jù)挖掘技術。
2 軟件工程數(shù)據(jù)挖掘的應用
隨著計算機軟件工程的發(fā)展,可以發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)挖掘技術具有很多的不足,存在一定的缺陷。傳統(tǒng)的數(shù)據(jù)挖掘技術的定位系統(tǒng)不完善,定位不精確,并沒有體現(xiàn)出數(shù)據(jù)挖掘技術的高性能,它不足以滿足當代對于數(shù)據(jù)處理的要求,因此需要對傳統(tǒng)的數(shù)據(jù)挖掘技術進行改進和完善,這是我們目前的首要任務之一。為了迎合現(xiàn)代化網絡信息技術的快速發(fā)展,需要發(fā)掘出新的數(shù)據(jù)處理模式,就是在這樣的背景條件下,誕生了軟件工程數(shù)據(jù)挖掘技術。相比于存在很多缺陷與不足的傳統(tǒng)軟件工程而言,軟件工程數(shù)據(jù)挖掘技術更加簡單、方便、高效以及精確。軟件工程數(shù)據(jù)挖掘技術并不需要特定的技術平臺,體現(xiàn)了其普適性。當前,我國已經開始深入的研究軟件工程數(shù)據(jù)挖掘技術,但是,仍然需要更深的開發(fā)其性能以便更好地滿足社會的需求。
3 軟件工程數(shù)據(jù)挖掘面臨的挑戰(zhàn)
軟件工程數(shù)據(jù)相比于普通數(shù)據(jù)更加復雜,所以對于軟件工程數(shù)據(jù)進行處理具有很大的挑戰(zhàn)性。處理軟件工程的大量數(shù)據(jù)具有:軟件工程數(shù)據(jù)復雜性,軟件工程的數(shù)據(jù)處理非傳統(tǒng)以及需要嚴格精確的軟件工程數(shù)據(jù)的分析結果等三方面的困難。
3.1 對數(shù)據(jù)復雜性的分析
軟件工程數(shù)據(jù)包括結構化數(shù)據(jù)和非結構化數(shù)據(jù)。軟件工程中所產生的缺陷報告以及各種版本信息構成了結構化數(shù)據(jù)信息;而軟件工程處理過程中所產生的代碼信息和文本文檔信息構成了非結構化數(shù)據(jù)信息。由于這兩類數(shù)據(jù)包含的具體內容不同,所以需要分別處理這兩種數(shù)據(jù),需要使用不同的算法對他們進行處理。雖然說需要不同方式處理這兩種數(shù)據(jù)但是并不表示這兩種數(shù)據(jù)之間沒有任何聯(lián)系,事實上,它們之間存在著重要的對應關系。例如:代碼中存在著缺陷報告,版本信息中存在著對應的文檔信息,由于它們之間存在著這樣的對應關系,所以使得人們不能很好地對其進行整體分析,這就促使了人們開發(fā)出一種新的算法,新的數(shù)據(jù)分析技術能夠同時將結構化信息和非結構化信息這兩種對應數(shù)據(jù)一起挖掘出來。
3.2 對數(shù)據(jù)處理非傳統(tǒng)的分析
分析和評估軟件工程數(shù)據(jù)挖掘出來的信息,這是數(shù)據(jù)挖掘過程的最后一步?蛻羰擒浖こ虜(shù)據(jù)挖掘數(shù)據(jù)處理的最后宿體,軟件開發(fā)者需要對最終挖掘出來的數(shù)據(jù)進行轉變,格式轉變是為了滿足廣大客戶對于數(shù)據(jù)不同的`要求。但是,由于需要對數(shù)據(jù)進行格式轉變,相當于增加了一定的工作量,那么軟件工程數(shù)據(jù)挖掘的效率則會被大大降低。對于客戶而言,他們需要的信息各種各樣并不單一,比如說客戶可能會同時需要具體的例子和編程代碼等;或者說需要具體例子和缺陷報告等;或者三者皆需要。由此可見,我們仍然需要改進和完善軟件工程數(shù)據(jù)挖掘技術來提高其效率。怎樣才能做到讓客戶得到滿意的數(shù)據(jù)挖掘結果呢?那么就需要高效的數(shù)據(jù)挖掘技術將各類信息進行歸納總結,改變其格式。這樣的技術,不僅僅可以滿足客戶需求而且還可以使軟件開發(fā)者從中得到更大的利益。
3.3 對數(shù)據(jù)挖掘結果好壞的評價標準
對于傳統(tǒng)的數(shù)據(jù)挖掘技術而言,它也有一套自己的對于數(shù)據(jù)結果處理好壞的分析標準,而這個標準對于傳統(tǒng)數(shù)據(jù)挖掘技術數(shù)據(jù)處理的分析較準確。但是,在當前的軟件工程所要處理的數(shù)據(jù)量很大,傳統(tǒng)的評價標準已經不能滿足現(xiàn)在的數(shù)據(jù)分析要求;使用不同的數(shù)據(jù)結果評價標準來評判不同的數(shù)據(jù)挖掘結果。然而不同的評價標準之間的聯(lián)系并不緊密,因此就需要開發(fā)者針對不同的數(shù)據(jù)類型做出不同的評價分析標準以便滿足客戶需求。想要對數(shù)據(jù)分析結果是否準確,數(shù)據(jù)挖掘的信息是否合理等等這些不同的問題進行更加深刻的了解,就要求開發(fā)者有獨特的見解,對于數(shù)據(jù)結果是否精確有一定的判斷能力?傊@取準確的信息就是軟件工程數(shù)據(jù)挖掘的目的。所以,最后獲得的數(shù)據(jù)是否滿足要求就是評判軟件工程數(shù)據(jù)挖掘結果是否完美的標準。endprint
4 對軟件工程數(shù)據(jù)挖掘應用進行分析
4.1 對軟件數(shù)據(jù)挖掘技術進行分析
在軟件開發(fā)的過程中,數(shù)據(jù)挖掘技術包括兩個方面:(1)程序編寫;(2)程序成果。在這個過程中,程序結構和程序功能技術的主要作用就是檢索出有效的信息。提升信息的有效性需要聯(lián)系到客戶的實際需要,同時也需要對程序編寫過程進行智能化培訓。將調用、重載和多重繼承等關系家合起來進行有效的記錄各種相關信息,重視靜態(tài)規(guī)則的同時利用遞歸測試的方式來分配工作,從而更有效的掌握關聯(lián)度之間的可信性。
4.2 做好軟件維護中的軟件工程數(shù)據(jù)挖掘工作
在軟件維護的過程中,軟件修復和軟件改善工作依賴于數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘技術在軟件缺陷以及軟件結構等也起到了重要的作用。軟件修復即維護者通過依據(jù)缺陷分派進行有效的評估并改善缺陷程序進而確定修復級別或者維護者可以選擇缺陷修復方式,無論哪種方式最終目的都是進行軟件修復來保證數(shù)據(jù)挖掘的高效性。缺陷分派即將缺陷轉化為文本類型,采取有效措施來進行修復。但是,這樣的方式它的實際準確率并不高,因而需要利用強化檢測來完善缺陷報告技術。
4.3 注重高性能數(shù)據(jù)挖掘技術開發(fā)工作
數(shù)據(jù)挖掘技術體現(xiàn)在軟件開發(fā)工作中的創(chuàng)新性不可或缺,在實際的工作過程中,目前的軟件工程數(shù)據(jù)挖掘更加重視兩個工作:(1)規(guī)則分析方式;(2)項目檢索工作。總而言之,想要高效快速地尋找病毒,并對其進行全方位分析和評估得到準確的病毒數(shù)據(jù)需要高性能數(shù)據(jù)挖掘技術。只有提升數(shù)據(jù)分析的可行性,提升軟件開發(fā)安全性能,才能更好地實現(xiàn)軟件工程的良好發(fā)展。
5 總結
綜上所述,數(shù)據(jù)挖掘技術的應用非常廣泛,比如說分析代碼、軟件故障檢測以及軟件項目管理等三個方面應用較多。值得關注的是,當前對于數(shù)據(jù)挖掘技術的研究還不夠成熟。因此,研究者需要對軟件工程數(shù)據(jù)挖掘技術進行深入的研究,從而能夠促進軟件更好地開發(fā)和管理。相信在不久的將來,我們一定可以在數(shù)據(jù)挖掘方面取得非常好的優(yōu)化效果。
參考文獻:
[1] 江義晟.軟件工程數(shù)據(jù)挖掘研究進展[J].電子技術與軟件工程,20xx(22).
[2] 胡金萍.探析軟件工程數(shù)據(jù)挖掘研究進展[J].電腦知識與技術,20xx(34).
[3] 馬保平.關于對軟件工程中的數(shù)據(jù)挖掘技術的探討[J].電子技術與軟件工程,20xx(19).
[4] 徐琳,王寧.數(shù)據(jù)挖掘技術在軟件工程中的應用分析[J].數(shù)字通信世界,20xx(8).
數(shù)據(jù)挖掘論文14
題目:數(shù)據(jù)挖掘技術在神經根型頸椎病方劑研究中的優(yōu)勢及應用進展
關鍵詞:數(shù)據(jù)挖掘技術; 神經根型頸椎病; 方劑; 綜述;
1 數(shù)據(jù)挖掘技術簡介
數(shù)據(jù)挖掘技術[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術, 它融匯了人工智能、模式別、模糊數(shù)學、數(shù)據(jù)庫、數(shù)理統(tǒng)計等多種技術方法, 專門用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識, 其目的是發(fā)現(xiàn)規(guī)律而不是驗證假設。數(shù)據(jù)挖掘技術主要適用于龐大的數(shù)據(jù)庫的研究, 其特點在于:基于數(shù)據(jù)分析方法角度的分類, 其本質屬于觀察性研究, 數(shù)據(jù)來源于日常診療工作資料, 應用的技術較傳統(tǒng)研究更先進, 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結果解釋, 其中結果解釋是數(shù)據(jù)挖掘技術研究的關鍵。其方法包括分類、聚類、關聯(lián)、序列、決策樹、貝斯網絡、因子、辨別等分析[3], 其結果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當今數(shù)據(jù)挖掘技術的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結果的有效性、確定性和表達性, 結果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢和獨特性被運用于多個領域中, 且結果運用后取得顯著成效, 因此越來越多的中醫(yī)方劑研究者將其運用于方劑中藥物的研究。
2 數(shù)據(jù)挖掘術在神經根型頸椎病治方研究中的優(yōu)勢
中醫(yī)對于神經根型頸椎病的治療準則為辨證論治, 從古至今神經根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結構。方劑配伍本質上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯綜的關聯(lián)與對應[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經之別, 對于神經根型頸椎病的治療, 治方中藥物的種類、炮制方法、用量、用法等都是千變萬化的, 而這些海量、模糊、看似隨機的藥物背后隱藏著對臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無法在可承受的時間范圍內可用常規(guī)軟件工具進行捕捉、管理和處理的, 是需要一個新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識, 揭示背后隱藏的關系和規(guī)則, 并且對未知的情況進行預測[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的多層關聯(lián)、序列組合、集群對應, 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘在技術線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對數(shù)據(jù)庫內的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥規(guī)律時, 選取了100張治方, 因該病病因病機復雜, 證候不一, 骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫, 采用SPPS Clementine12.0軟件對這些數(shù)據(jù)的用藥頻次、藥物關聯(lián)規(guī)則及藥物聚類進行分析, 最后總結出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術在方劑研究中的應用對數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經驗的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術在神經根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。
3 數(shù)據(jù)挖掘技術在神經根型頸椎治方中的應用進展
神經根型頸椎病在所有頸椎病中最常見, 約占50%~60%[8], 醫(yī)家對其治方的研究也是不計其數(shù)。近年來數(shù)據(jù)挖掘技術也被運用于其治方研究中, 筆者通過萬方、中國知網等總共檢索出以下幾篇文獻, 雖數(shù)量不多但其優(yōu)勢明顯。劉向前等[9]在挖掘古方治療神經根型頸椎病的用藥規(guī)律時, 通過檢索《中華醫(yī)典》并從中篩選以治療頸項肩臂痛為主的古方219首并建立數(shù)據(jù)庫, 對不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對 (組) 出現(xiàn)頻數(shù)進行統(tǒng)計, 總結出風寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點, 得出解表藥、祛風濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用, 該研究對于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻等[10]檢索CNKI (1980-20xx年) 相關文獻中治療神經根型頸椎病的方劑建立數(shù)據(jù)庫, 采用SPSS11.5統(tǒng)計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經頻率分析比較, 治療神經根型頸椎病的中藥共計99味, 使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風濕藥運用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補益藥、活血化瘀藥、祛風濕藥等中藥運用最多。這對于醫(yī)家治療該病選用藥物的性味、歸經等具有指導意義。陳元川等[11]檢索20xx年1月至20xx年3月發(fā)表的.以單純口服中藥治療神經根型頸椎病的有關文獻, 對其中的方劑和藥物進行統(tǒng)計、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補氣藥、發(fā)散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高, 證實與古方桂枝加葛根湯主藥相同, 且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合, 同時也證實石氏傷科強調治傷科病當“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關系在很多方面古今是一致的, 同時數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經根型頸椎病治療提供有力的保障。謝輝等[12]收集20xx至20xx年10月3日的166張治療神經根型頸椎病的治方建立數(shù)據(jù)庫, 采用關聯(lián)規(guī)則算法、復雜系統(tǒng)熵聚類等無監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺 (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對, 闡明了治療該病以解肌散寒藥、補氣活血藥、祛風勝濕藥和溫經通絡藥為主, 治法主要包括解肌舒筋、益氣活血和補益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實其與很多古代經典中治療神經根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導臨床并提高療效;另一方面也為中藥新藥的創(chuàng)制提供處方來源, 指導新藥研發(fā)[13]。
4 小結
數(shù)據(jù)挖掘技術作為一種新型的研究技術, 在神經根型頸椎病的治方研究中的運用相對于其他領域是偏少的, 并且基本上是研究文獻資料上出現(xiàn)的治方, 在對名老中醫(yī)個人治療經驗及用藥規(guī)律的總結是缺乏的, 因此研究范圍廣而缺乏針對性, 同時使用該技術的相關軟件種類往往是單一的。現(xiàn)在研究者在研究中醫(yī)方劑時往往采用傳統(tǒng)的研究方法, 這就導致在大數(shù)據(jù)的研究中耗時、耗力甚則無能為力, 同樣也難以精準地提取大數(shù)據(jù)背后的隱藏的潛在關系和規(guī)則及缺乏對未知情況的預測。產生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術在方劑研究中的優(yōu)勢所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟件種類及其應用范圍。故以后應向更多研究者普及該技術的軟件種類、其中的優(yōu)勢及操作技能, 讓該技術在臨床中使用更廣, 產生更大的效益。
參考文獻
[1]舒正渝.淺談數(shù)據(jù)挖掘技術及應用[J].中國西部科技, 20xx, 9 (5) :38-39.
[2]曹毅, 季聰華.臨床科研設計與分析[M].杭州:浙江科學技術出版社, 20xx:189.
[3]王靜, 崔蒙.數(shù)據(jù)挖掘技術在中醫(yī)方劑學研究中的應用[J].中國中醫(yī)藥信息雜志, 20xx, 15 (3) :103-104.
[4]陳丈偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學出版社, 20xx:5.
[5]楊玉珠.數(shù)據(jù)挖掘技術綜述與應用[J].河南科技, 20xx, 10 (19) :21.
[6]余侃侃.數(shù)據(jù)挖掘技術在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國醫(yī)藥指南, 20xx, 6 (24) :310-312.
[7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學學報, 20xx, 39 (6) :44-46.
[8]李曙明, 尹戰(zhàn)海, 王瑩.神經根型頸椎病的影像學特點和分型[J].中國矯形外科雜志, 20xx, 21 (1) :7-11.
[9]劉向前, 陳民, 黃廣平等.頸項肩臂痛內治古方常用藥物的統(tǒng)計分析[J].中華中醫(yī)藥學刊, 20xx, 30 (9) :42-44.
[10]齊兵獻, 樊成虎, 李兆和.神經根型頸椎病中醫(yī)用藥規(guī)律的文獻研究[J].河南中醫(yī), 20xx, 32 (4) :518-519.
[11]陳元川, 王翔, 龐堅, 等.單純口服中藥治療神經根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 20xx, 48 (6) :78-80.
[12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結合雜志, 20xx, 10 (6) :849-852.
[13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進展述評[J].中國實驗方劑學雜志, 20xx (5) :359-363.
數(shù)據(jù)挖掘論文15
1理論研究
1.1客戶關系管理
客戶關系管理的目標是依靠高效優(yōu)質的服務吸引客戶,同時通過對業(yè)務流程的全面優(yōu)化和管理,控制企業(yè)運行成本?蛻絷P系管理是一種管理理念,將企業(yè)客戶視作企業(yè)發(fā)展最重要的企業(yè)資源,采用企業(yè)服務優(yōu)化等手段來管理客戶關系?蛻絷P系管理并不是單純的信息技術或者管理技術,而是一種企業(yè)生物戰(zhàn)略,通過對企業(yè)客戶的分段充足,強化客戶滿意的行為,優(yōu)化企業(yè)可盈利性,將客戶處理工作上升到企業(yè)級別,不同部門負責與客戶進行交互,但是整個企業(yè)都需要向客戶負責,在信息技術的支持下實現(xiàn)企業(yè)和客戶連接環(huán)節(jié)的自動化管理。
1.2客戶細分
客戶細分由美國學者溫德爾史密斯在20世紀50年代提出,認為客戶細分是根據(jù)客戶屬性將客戶分成集合。現(xiàn)代營銷學中的客戶細分是按照客戶特征和共性將客戶群分為不同等級或者子群體,尋找相同要素,對不同類別客戶心理與需求急性研究和評估,從而指導進行企業(yè)服務資源的分配,是企業(yè)獲得客戶價值的一種理論與方法。因此我們注意到,客戶細分其實是一個分類問題,但是卻有著顯著的特點。
1.2.1客戶細分是動態(tài)的企業(yè)不斷發(fā)展變化,用戶數(shù)據(jù)不斷積累,市場因素的變化,都會造成客戶細分的變化。所以客戶細分工作需要根據(jù)客戶情況的變化進行動態(tài)調整,
減少錯誤分類,提高多次細分中至少有一次是正確分類的可能性。
1.2.2受眾多因素影響
隨著時間的推移,客戶行為和心理會發(fā)生變化,所以不同時間的數(shù)據(jù)會反映出不同的規(guī)律,客戶細分方法需要在變化過程中準確掌握客戶行為的規(guī)律性。
1.2.3客戶細分有不同的分類標準
一般分類問題強調準確性,客戶關系管理則強調有用性,講求在特定限制條件下實現(xiàn)特定目標。
1.3數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫數(shù)據(jù)中提取有價值的、隱含的、事前未知的潛在有用信息。數(shù)據(jù)挖掘技術不斷發(fā)展,挖掘對象不再是單一數(shù)據(jù)庫,已經逐漸發(fā)展到文件系統(tǒng)、數(shù)據(jù)集合以及數(shù)據(jù)倉庫的挖掘分析。
2客戶細分的數(shù)據(jù)挖掘
2.1邏輯模型
客戶數(shù)據(jù)中有著若干離散客戶屬性和連續(xù)客戶屬性,每個客戶屬性為一個維度,客戶作為空間點,全部客戶都能夠形成多為空間,作為客戶的屬性空間,假設A={A1,A2,…Am}是一組客戶屬性,屬性可以是連續(xù)的,也可以離散型,這些屬性就形成了客戶m維屬性空間。同時設g是一個描述客戶屬性的一個指標,f(g)是符合該指標的客戶集合,即為概率外延,則任一確定時刻都是n個互不相交集合。在客戶價值概念維度上,可分為“有價值客戶”“潛在價值客戶”“無價值客戶”三種類型,定義RB如下:(1)顯然RB是一個等價關系,經RB可分類屬性空間為若干等價類,每個等價類都是一個概念類,建立客戶細分,就是客戶屬性空間和概念空間映射關系的建立過程。
2.2客戶細分數(shù)據(jù)挖掘實施
通過數(shù)據(jù)庫已知概念類客戶數(shù)據(jù)進行樣本學習和數(shù)據(jù)挖掘,進行客戶屬性空間與概念空間映射的自動歸納。首先確定一組概念類已知客戶集合。首先確定一個映射:p:C→L,使,如果,則。,求p(c)確定所屬概念類。數(shù)據(jù)部分有客戶數(shù)據(jù)存儲和概念維數(shù)據(jù)構成,客戶數(shù)據(jù)存儲有企業(yè)全部內在屬性、外在屬性以及行為屬性等數(shù)據(jù),方法則主要有關聯(lián)規(guī)則分析、深井網絡分類、決策樹、實例學習等數(shù)據(jù)挖掘方法,通過對客戶數(shù)據(jù)存儲數(shù)據(jù)學習算法來建立客戶數(shù)據(jù)和概念維之間的映射關系。
2.3客戶細分數(shù)據(jù)分析
建立客戶動態(tài)行為描述模型,滿足客戶行為非確定性和非一致性要求,客戶中心的管理體制下,客戶細分影響企業(yè)戰(zhàn)術和戰(zhàn)略級別決策的生成,所以數(shù)據(jù)挖掘要能夠彌補傳統(tǒng)數(shù)據(jù)分析方法在可靠性方面的缺陷。
2.3.1客戶外在屬性
外在屬性有客戶地理分布、客戶組織歸屬情況和客戶產品擁有情況等?蛻舻慕M織歸屬是客戶社會組織類型,客戶產品擁有情況是客戶是否擁有或者擁有哪些與其他企業(yè)或者其他企業(yè)相關產品。
2.3.2內在屬性
內在屬性有人口因素和心理因素等,人口因素是消費者市場細分的重要變量。相比其他變量,人口因素更加容易測量。心理因素則主要有客戶愛好、性格、信用情況以及價值取向等因素。
2.3.3消費行為
消費行為屬性則重點關注客戶購買前對產品的了解情況,是客戶細分中最客觀和重要的因素。
2.4數(shù)據(jù)挖掘算法
2.4.1聚類算法
按照客戶價值標記聚類結果,通過分類功能,建立客戶特征模型,準確描述高價值客戶的一些特有特征,使得企業(yè)在之后的市場活動中能夠迅速發(fā)現(xiàn)并抓住類似的高價值客戶,全面提高客戶的整體價值水平。通常都采用中心算法進行客戶的聚類分析,分析涉及的字段主要有客戶的基本信息以及與客戶相關業(yè)務信息,企業(yè)采用中心算法,按照企業(yè)自身的行業(yè)性質以及商務環(huán)境,選擇不同的聚類分析策略,有主屬性聚類分析和全屬性聚類分析兩類。主屬性聚類分析是企業(yè)根據(jù)在企業(yè)標度變量中選擇主要弧形作為聚類分析變量。通常區(qū)間標度變量選用的度量單位會對聚類分析結果產生很大影響,選擇的度量單位越小,就會獲得越大的可能值域,對聚類結果的影響也就越大。
2.4.2客戶分析預測
行業(yè)競爭愈加激烈,新客戶的'獲得成本越來越高,在保持原有工作價值的同時,客戶的流失也受到了企業(yè)的重視。為了控制客戶流失,就需要對流失客戶的數(shù)據(jù)進行認真分析,找尋流失客戶的根本原因,防止客戶的持續(xù)流失。數(shù)據(jù)挖掘聚類功能同樣能夠利用在客戶流失數(shù)據(jù)分析工作中,建立基于流失客戶數(shù)據(jù)樣本庫的分類函數(shù)以及分類模式,通過模型分析客戶流失因素,能夠獲得一個最有可能流失的客戶群體,同時編制一個有針對性的挽留方案。之后對數(shù)據(jù)進行分析并利用各種數(shù)據(jù)挖掘技術和方法在多個可供選擇的模型中找出最佳模型。初始階段,模型的擬合程度可能不理想,但是隨著模型的不斷更換和優(yōu)化,最終就有可能找出合適的模型進行數(shù)據(jù)描述并挖掘出流失數(shù)據(jù)規(guī)律。通常模擬模型都通過數(shù)據(jù)分析專業(yè)和業(yè)務專家協(xié)作完成,采用決策樹、貝葉斯網絡、神經網絡等流失分析模型,實現(xiàn)客戶行為的預測分析。
3結語
從工業(yè)營銷中的客戶細分觀點出發(fā),在數(shù)據(jù)挖掘、客戶關系管理等理論基礎上,采用統(tǒng)計學、運籌學和數(shù)據(jù)挖掘技術,對客戶細分的數(shù)據(jù)挖掘方法進行了研究,建立了基于決策樹的客戶細分模型,是一種效率很高的管理工具。
作者:區(qū)嘉良 呂淑儀 單位:中國石化廣東石油分公司
【數(shù)據(jù)挖掘論文】相關文章:
數(shù)據(jù)挖掘論文07-16
數(shù)據(jù)挖掘論文07-15
計算機數(shù)據(jù)庫論文07-28
關于大數(shù)據(jù)時代下的隱私保護探究論文04-14
基于大數(shù)據(jù)的江蘇省農村電商建設不足與完善論文03-09
數(shù)據(jù)分析報告02-02