高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力分析論文
在高職教育逐漸普及的背景下,學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力研究對(duì)專業(yè)發(fā)展意義重大,數(shù)據(jù)挖掘中的分類算法為此項(xiàng)研究提供了現(xiàn)實(shí)可能。本文對(duì)數(shù)據(jù)挖掘的技術(shù)路線包括數(shù)據(jù)挖掘、分類算法、算法的選取和優(yōu)化進(jìn)行了闡述;針對(duì)所收集到的數(shù)據(jù)特點(diǎn),提出選擇分類算法中的決策樹算法更加適宜研究該專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力情況。應(yīng)用決策樹算法原理對(duì)數(shù)據(jù)進(jìn)行實(shí)例分析,依據(jù)C4.5算法構(gòu)造決策樹,分析實(shí)驗(yàn)結(jié)果,將與人交往能力、社會(huì)工作經(jīng)歷、專業(yè)知識(shí)等七個(gè)維度依次排序,推導(dǎo)出高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生非專業(yè)因素和綜合素質(zhì)對(duì)于提升就業(yè)競(jìng)爭(zhēng)力影響深刻的結(jié)論。
當(dāng)前,迅速擴(kuò)大的高等教育規(guī)模逐漸從精英教育轉(zhuǎn)向普及教育,在校畢業(yè)生數(shù)量逐年增加,在就業(yè)“沒(méi)有最難、只有更難”的大背景下,如何提升高職學(xué)生的就業(yè)競(jìng)爭(zhēng)力對(duì)每所院校都具有非,F(xiàn)實(shí)的意義。
一 高職學(xué)生就業(yè)競(jìng)爭(zhēng)力研究的意義和背景
高等職業(yè)教育作為我國(guó)高等教育的重要組成部分,具有高等教育和職業(yè)教育的雙重功能,以市場(chǎng)需求為導(dǎo)向設(shè)置培養(yǎng)計(jì)劃,以培養(yǎng)相關(guān)崗位技能為重點(diǎn),強(qiáng)調(diào)專業(yè)理論和實(shí)際操作相結(jié)合,兼顧地方特色和行業(yè)優(yōu)勢(shì)。高職學(xué)生就業(yè)競(jìng)爭(zhēng)力是指高職學(xué)生整合知識(shí)、技能和個(gè)人綜合素質(zhì)等因素,在人力資源市場(chǎng)上獲得適合才能發(fā)揮和實(shí)現(xiàn)自身價(jià)值的工作崗位的能力。一般來(lái)說(shuō),學(xué)生就業(yè)競(jìng)爭(zhēng)力越強(qiáng),與社會(huì)、行業(yè)、企業(yè)對(duì)人才需求的匹配程度越高。
1.高職學(xué)生就業(yè)競(jìng)爭(zhēng)力研究的意義
在我國(guó)高等教育逐漸實(shí)現(xiàn)普及和經(jīng)濟(jì)結(jié)構(gòu)調(diào)整的時(shí)期,學(xué)生就業(yè)問(wèn)題不僅涉及學(xué)生個(gè)人發(fā)展,也涉及社會(huì)對(duì)學(xué)校的評(píng)價(jià)認(rèn)可,更是一個(gè)民生關(guān)注的熱點(diǎn)問(wèn)題。對(duì)高職學(xué)生而言,就業(yè)競(jìng)爭(zhēng)力的構(gòu)成因素至少包括三個(gè)方面:一是高職學(xué)院的品牌因素,如社會(huì)知名度、影響力、專業(yè)特色等;二是學(xué)生主觀因素,如專業(yè)知識(shí)、職業(yè)能力、個(gè)性氣質(zhì)、道德素養(yǎng)、先天條件等;三是社會(huì)因素,如對(duì)相關(guān)專業(yè)的人才需求、人才標(biāo)準(zhǔn)、用人單位特殊考量等外在因素。因此,能否提升學(xué)生就業(yè)競(jìng)爭(zhēng)力并不完全取決于高職學(xué)院自身的培養(yǎng)水平和學(xué)生自身的素質(zhì)。但作為高職院校,不斷優(yōu)化人才培養(yǎng)方案,努力提升學(xué)生的職業(yè)能力和社會(huì)就業(yè)競(jìng)爭(zhēng)力,卻是學(xué)院生存發(fā)展和創(chuàng)建品牌、進(jìn)行內(nèi)涵建設(shè)的必由之路。
2.高職學(xué)生就業(yè)競(jìng)爭(zhēng)力研究的背景
因材施教是任何一種層次的教育都必須充分尊重的教學(xué)規(guī)律,如何以市場(chǎng)為導(dǎo)向,以就業(yè)為目標(biāo),實(shí)現(xiàn)以人為本的個(gè)性化教育是高職教育面臨的一個(gè)重要課題。本文擬利用學(xué)院現(xiàn)有的資源,采用現(xiàn)代信息技術(shù)的方法和研究成果研究學(xué)生情況、分析學(xué)生特點(diǎn),關(guān)注學(xué)生成長(zhǎng),通過(guò)對(duì)已有的學(xué)生信息的分析,探求其中隱藏的規(guī)律,并把研究結(jié)果運(yùn)用于學(xué)生身上,為學(xué)生的發(fā)展提供參考建議。這對(duì)于進(jìn)一步合理利用、優(yōu)化教學(xué)資源,促進(jìn)教與學(xué)的理解和溝通,最終讓教和學(xué)更好地結(jié)合,實(shí)現(xiàn)有效學(xué)習(xí),達(dá)到預(yù)期的專業(yè)培養(yǎng)目標(biāo),從而促進(jìn)學(xué)生就業(yè)競(jìng)爭(zhēng)力提升,具有極大的意義。
近年來(lái),隨著信息技術(shù)的發(fā)展,學(xué)院各部門根據(jù)學(xué)生的專業(yè)分類,有針對(duì)性地積累了一定的學(xué)生信息。就學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)而言,受學(xué)生規(guī)模等因素影響,所收集的各類數(shù)據(jù)相對(duì)有限,但依然可以通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)該專業(yè)學(xué)生的就業(yè)競(jìng)爭(zhēng)力進(jìn)行研究分析。分類是數(shù)據(jù)挖掘的一種常見(jiàn)的分析手段,旨在構(gòu)造一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到定類別中的某一個(gè),以此來(lái)達(dá)到分類并用分類模型對(duì)未知分類情況進(jìn)行預(yù)測(cè)的目的,這將為我們研究前述高職教育的現(xiàn)狀問(wèn)題提供有力的技術(shù)支持。
我院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)自2001年開(kāi)設(shè)以來(lái),累計(jì)培養(yǎng)了畢業(yè)生600多名,已經(jīng)成為計(jì)算機(jī)類常設(shè)專業(yè)之一,并受到社會(huì)考生一定的關(guān)注。因此,通過(guò)數(shù)據(jù)挖掘技術(shù)分析研究計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生的就業(yè)競(jìng)爭(zhēng)力對(duì)于該專業(yè)的發(fā)展具有十分現(xiàn)實(shí)的意義。
二 應(yīng)用于高職畢業(yè)生就業(yè)競(jìng)爭(zhēng)力分析的數(shù)據(jù)挖掘技術(shù)路線
數(shù)據(jù)可以理解為通過(guò)實(shí)驗(yàn)、統(tǒng)計(jì)等手段獲得用于不同社會(huì)實(shí)踐的眾多數(shù)值,通過(guò)全面、系統(tǒng)、準(zhǔn)確地測(cè)量、收集、分類存儲(chǔ)各類數(shù)據(jù),再經(jīng)過(guò)嚴(yán)格分析、檢驗(yàn)這些數(shù)據(jù)往往就能獲得能夠揭示某種事物內(nèi)在屬性的認(rèn)識(shí)。而這個(gè)從眾多數(shù)據(jù)中分析、把握隱藏在事物內(nèi)部某種規(guī)律性的過(guò)程就是數(shù)據(jù)挖掘。
1.數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining)又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的,具有潛在應(yīng)用價(jià)值和規(guī)律性認(rèn)識(shí)的信息,融合了數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論知識(shí),一般要經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、結(jié)果表示等一系列過(guò)程,最后將分析結(jié)果呈現(xiàn)在用戶面前。
在數(shù)據(jù)挖掘過(guò)程中,數(shù)據(jù)為信息處理者提取新的認(rèn)知和有用規(guī)則,揭示隱含在眾多數(shù)據(jù)中的內(nèi)在屬性,并能通過(guò)對(duì)已有的數(shù)據(jù)分析來(lái)對(duì)實(shí)際未發(fā)生行為的結(jié)果作了預(yù)測(cè)。根據(jù)所采用的挖掘技術(shù)分類,可以將數(shù)據(jù)挖掘技術(shù)分為決策樹算法、粗糙集分類算法、遺傳算法、最近鄰分類算法、神經(jīng)網(wǎng)絡(luò)分類算法等眾多分支,實(shí)際應(yīng)用也逐步普及,在實(shí)際運(yùn)用中每種算法各有所長(zhǎng),每種相對(duì)較優(yōu)的算法都有它具體的應(yīng)用環(huán)境。在分類規(guī)則挖掘中,常用的`方法是決策樹算法和神經(jīng)網(wǎng)絡(luò)算法。本文擬采用決策樹算法對(duì)采集的學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力數(shù)據(jù)進(jìn)行分析研究。
2.數(shù)據(jù)挖掘中的分類算法
在數(shù)據(jù)挖掘的各種方法中,分類是一種重要的分析手段。數(shù)據(jù)分類通過(guò)分析已知類別的數(shù)據(jù)對(duì)象訓(xùn)練數(shù)據(jù)集,建立描述并區(qū)分?jǐn)?shù)據(jù)對(duì)象類別的分類模型,再利用該模型對(duì)未知類別的數(shù)據(jù)進(jìn)行分類。分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類函數(shù)或分類模型(也稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個(gè)。
構(gòu)造模型的過(guò)程分為訓(xùn)練和測(cè)試兩個(gè)階段:第一階段是訓(xùn)練階段,將數(shù)據(jù)集隨機(jī)地分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,然后使用訓(xùn)練數(shù)據(jù)集通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。如每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作類標(biāo)號(hào)屬性的屬性來(lái)確定;訓(xùn)練數(shù)據(jù)集中的單元組也稱作訓(xùn)練樣本,可以表示為:(u1,u2,…un;c);其中u表示屬性值,c表示類別;在確定每個(gè)訓(xùn)練樣本的類標(biāo)號(hào)基礎(chǔ)上,所建立的模型通過(guò)分類規(guī)則、判定樹或數(shù)學(xué)公式表示。
第二階段為測(cè)試階段,使用測(cè)試數(shù)據(jù)集來(lái)評(píng)估模型的分類準(zhǔn)確率,如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用該模型對(duì)其他數(shù)據(jù)元組進(jìn)行分類。一般來(lái)說(shuō),測(cè)試階段的工作量低于訓(xùn)練階段。
為達(dá)到分類的準(zhǔn)確、有效和可解釋,在進(jìn)行分類之前,通常要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提高數(shù)據(jù)挖掘的效益和質(zhì)量。具體方法包括:(1)數(shù)據(jù)清理,包括消除數(shù)據(jù)不完整、數(shù)據(jù)噪聲、數(shù)據(jù)不一致、數(shù)據(jù)冗余、數(shù)據(jù)分散的狀況,處理空缺值;(2)數(shù)據(jù)集成,主要手段是把多個(gè)數(shù)據(jù)源中的數(shù)據(jù)集中存放于某個(gè)數(shù)據(jù)存儲(chǔ)中,并統(tǒng)籌解決數(shù)據(jù)冗余、重復(fù)的問(wèn)題,盡可能減少數(shù)據(jù)的不一致性;(3)數(shù)據(jù)變換,通過(guò)最小—最大規(guī)格化、零一均值規(guī)格化等規(guī)格化數(shù)據(jù)手段,將數(shù)據(jù)轉(zhuǎn)換到適合于分析、處理的程度,同時(shí)數(shù)據(jù)也可以規(guī)范化,將給定屬性的值按比例縮放,落入較小的區(qū)間比如[0,1]等;(4)數(shù)據(jù)歸約,通過(guò)屬性規(guī)約、記錄規(guī)約等方式,獲得較小同時(shí)保持完整性的原數(shù)據(jù),使對(duì)數(shù)據(jù)集的挖掘更加有效。
目前,數(shù)據(jù)挖掘分類已提出了很多算法,主要包括:決策樹、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、貝葉斯、規(guī)則學(xué)習(xí)、K-臨近法、遺傳算法、粗糙集以及模糊邏輯技術(shù)等。本文擬通過(guò)對(duì)學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生跟蹤收集到的各類數(shù)據(jù)如專業(yè)知識(shí)、專業(yè)技能、通用技能、求職能力、社會(huì)工作能力、與人溝通能力等多組數(shù)據(jù),應(yīng)用分類算法中的決策樹進(jìn)行數(shù)據(jù)挖掘,探索計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力影響因素的大小排序。
3.算法的選取和優(yōu)化的思路
在學(xué)生信息庫(kù)的數(shù)據(jù)挖掘中,旨在分析學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)學(xué)生的相關(guān)情況與就業(yè)之間的關(guān)系,并期望以就業(yè)為分類屬性建立分類模型,來(lái)達(dá)到對(duì)未畢業(yè)學(xué)生的就業(yè)情況進(jìn)行預(yù)測(cè)的目的,進(jìn)而能對(duì)未畢業(yè)學(xué)生的進(jìn)一步發(fā)展提出一定的建議。
從學(xué)生信息庫(kù)的角度而言,由于該專業(yè)學(xué)生規(guī)模不大,而且受各方條件限制,所收集到的數(shù)據(jù)類型復(fù)雜,來(lái)源并不集中,如成績(jī)是連續(xù)型數(shù)據(jù),而學(xué)生在學(xué)校的各項(xiàng)表現(xiàn)又是離散型數(shù)據(jù),最為重要的是考慮到學(xué)生信息是一種動(dòng)態(tài)的信息并且考慮到下一步能否從分類結(jié)果為學(xué)生提出進(jìn)一步的發(fā)展建議,而決策樹算法就比較適合于此類的數(shù)據(jù)建模。
在實(shí)際的應(yīng)用過(guò)程中,由于數(shù)據(jù)本身的特點(diǎn),所以數(shù)據(jù)的預(yù)處理是一項(xiàng)重要的工作,直接影響到實(shí)驗(yàn)的效果。因此,在對(duì)高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力研究的課題中,將對(duì)數(shù)據(jù)進(jìn)行泛化、規(guī)格化和歸約,并完成對(duì)連續(xù)數(shù)據(jù)離散化等預(yù)處理。
三 基于決策樹分類技術(shù)的高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力分析
1.決策樹算法的概念
決策樹是一個(gè)類似于流程圖的樹結(jié)構(gòu),通過(guò)決策樹采用分級(jí)形式,可以將多類別的復(fù)雜分類問(wèn)題轉(zhuǎn)化為若干簡(jiǎn)單分類問(wèn)題加以解決。通常一個(gè)決策樹由根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)、葉節(jié)點(diǎn)三個(gè)層次構(gòu)成,其中根節(jié)點(diǎn)是決策樹結(jié)構(gòu)中最高級(jí)、最頂層的構(gòu)成因素,可以包容其他層次的內(nèi)容;內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出;而葉節(jié)點(diǎn)表示一個(gè)類,不同的節(jié)點(diǎn)可以表示相同的類。通過(guò)設(shè)定,可以實(shí)現(xiàn)在決策樹從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的不同路徑之間轉(zhuǎn)化分類的規(guī)則。決策樹算法采用信息論中的概念,用信息增益作為決策屬性分類判別能力的度量,進(jìn)行決策節(jié)點(diǎn)屬性的選擇。
決策樹分類算法通過(guò)分析訓(xùn)練數(shù)據(jù)集遞歸地建立決策樹,通過(guò)設(shè)定根節(jié)點(diǎn)S,在S中的記錄屬于同一類別的前提下,則將S作為葉節(jié)點(diǎn)并采用相關(guān)類標(biāo)號(hào)標(biāo)示;具體包括以下步驟:(1)設(shè)定訓(xùn)練數(shù)據(jù)集A,描述屬性集合B。(2)創(chuàng)建對(duì)應(yīng)A的節(jié)點(diǎn)A1。(3)當(dāng)A的記錄屬于同一類別C,以C標(biāo)示A1,A1 作為葉節(jié)點(diǎn);當(dāng)B為空,以A中占優(yōu)的記錄類別C標(biāo)示A1,A1作為葉節(jié)點(diǎn)。(4)從B中選擇相對(duì)A信息增量最大的描述屬性B1,作為C的測(cè)試屬性。(5)B1的每個(gè)取值b1(1≤j≤v),并設(shè)定B1的取值范圍為b1b2b3……bn。
在算法中,使用信息增益來(lái)選擇測(cè)試屬性,尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段,建立決策樹的根節(jié)點(diǎn),按照字段的取值差異建立決策樹的各個(gè)分支,各分支子集中重復(fù)建立樹的下層結(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)),從而形成決策樹。
2.決策樹算法的原理和算法描述
決策樹算法是數(shù)據(jù)挖掘的常見(jiàn)算法之一,其原理是將大量數(shù)據(jù)按照設(shè)定的標(biāo)準(zhǔn)分類,在不同類別的數(shù)據(jù)中尋找某種對(duì)決策有價(jià)值的信息,在預(yù)測(cè)模型中使用得更加廣泛。目前,最具影響的決策樹方法是由J.R.Quinlan提出的ID3算法,算法可以概括為使用信息論中的信息增益尋找數(shù)據(jù)庫(kù)中具有最大信息增益的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)該屬性字段的不同取值建立樹的分支。C4.5算法是在ID3算法基礎(chǔ)上的發(fā)展,其工作流程與ID3算法基本相同。
在C4.5算法中,獲得決策屬性信息增益的計(jì)算方法是:
設(shè)定S是訓(xùn)練樣本數(shù)據(jù)集,S中類別標(biāo)識(shí)屬性有m個(gè)獨(dú)立的取值,也就是說(shuō)定義了m個(gè)類ci,I=1,2,…,m;Ri為數(shù)據(jù)集S中屬于ci類的子集,用ci表示子集Ri中元組的數(shù)量。
集合S在分類中的期望信息量可以由以下公式給出:
式中:pi表示任意樣本屬于ci類的概率;pi=ci / |S|,|S|為訓(xùn)練樣本數(shù)據(jù)集中的元組數(shù)量。
假設(shè)屬性A共有u個(gè)不同的取值{a1,a2,…,an},則通過(guò)屬性A的取值可將數(shù)據(jù)集S劃分為Sj個(gè)子集,其中,Sj表示在數(shù)據(jù)集S中屬性A的取值為aj的子集,j=1,2,…,u。
如果A被選為決策屬性,則這些子集將對(duì)應(yīng)該節(jié)點(diǎn)的不同分枝。
如果Sij表示Sj子集中屬于ci類的元組的數(shù)量,則屬性A對(duì)于分類ci(i=1,2,…,m)的熵可由下式計(jì)算:
屬性A的每個(gè)取值對(duì)分類cj的期望信息量I(Sij,…,Smj),可由下式給出:
式中:ij=Sij / |Sj|,它表示在Sj子集中屬于ci類的比重。
由此可得到對(duì)屬性A作為決策分類屬性的度量值,即信息增益為
Gain(A)=I(r1,r2,…,rm)-E(A)
因此,信息增益率為Ratio(A)=Gain(A)/E(A)。
該算法需要計(jì)算每個(gè)決策屬性的信息增益率,其中具有最大信息增益率的屬性就是給定數(shù)據(jù)集S的決策屬性節(jié)點(diǎn),并通過(guò)屬性的每一個(gè)取值建立由節(jié)點(diǎn)引出的分枝。
3.基于決策樹算法的高職學(xué)生就業(yè)競(jìng)爭(zhēng)力分析
第一,數(shù)據(jù)預(yù)處理。數(shù)據(jù)建模及泛化:這里首先把學(xué)生的就業(yè)情況作為類標(biāo)號(hào)屬性,按其就業(yè)情況分為以下三個(gè)級(jí)別:就業(yè)情況好(能很快就業(yè)、就業(yè)情況好,業(yè)績(jī)較為突出、評(píng)價(jià)好);就業(yè)情況中(能順利就業(yè),就業(yè)情況較好);就業(yè)情況差(多次推薦仍未就業(yè))。
數(shù)據(jù)樣本用一個(gè)7維度X={X1,X2,…,X7}表示,分別描述以下7個(gè)變量因素(7個(gè)維度:專業(yè)課平均成績(jī)、基礎(chǔ)課平均成績(jī)、性別、社會(huì)工作經(jīng)歷、獲獎(jiǎng)情況、承擔(dān)班委經(jīng)歷、溝通能力)對(duì)學(xué)生就業(yè)情況的影響。(1)對(duì)專業(yè)課平均成績(jī)(average1)進(jìn)行泛化: [average1<60時(shí),為1(差);60= 4.依據(jù)C4.5算法構(gòu)造決策樹
首先選取訓(xùn)練樣本數(shù)據(jù)集,如右表所示。
取屬性“就業(yè)情況”作為類別標(biāo)識(shí)屬性,“專業(yè)平均”“基礎(chǔ)平均”“性別”“是否班委”“獲獎(jiǎng)情況”“參加活動(dòng)情況”“與人交往”等屬性作為決策屬性集。其中,專業(yè)平均、基礎(chǔ)平均屬于學(xué)生知識(shí)能力結(jié)構(gòu),其他則可視為綜合素質(zhì)和非專業(yè)因素。
訓(xùn)練樣本數(shù)據(jù)集S中,共有18個(gè)元組,其中好、中、差類所對(duì)應(yīng)的子集中元組個(gè)數(shù)分別為:r1=4、r2=13、r3=1。
為了計(jì)算每一個(gè)決策屬性的信息增益,首先利用公式計(jì)算集合S分類的期望信息量:
I(r1,r2,r3)=I(4,13,1)=
=1.0529
然后計(jì)算每一個(gè)決策屬性的期望信息量(即熵值)。
在對(duì)屬性“專業(yè)平均”,專業(yè)平均=“優(yōu)”時(shí):
I(S11,S21,S31)= =0.8453
當(dāng)專業(yè)平均=“良”時(shí):
I(S12,S22,S32)= =0.7219
當(dāng)專業(yè)平均=“中”時(shí):
I(S13,S23,S33)= =1
當(dāng)專業(yè)平均=“差”時(shí),樣本數(shù)為0。
由此得出“專業(yè)平均”的熵值:
E(專業(yè)平均)= I(S11,S21,S31)+ I(S12,
S22,S32)+ I(S13,S23,S33)=0.8282
因此屬性“專業(yè)平均”的信息增益為:
Gain(專業(yè)平均)=I(r1,r2,r3)-E(專業(yè)平均)=1.0529-0.8282=0.2247
因此屬性“專業(yè)平均”的信息增益率為:
Ratio(專業(yè)平均)=Gain(專業(yè)平均)/E(專業(yè)平均)=0.2713
同理計(jì)算得到屬性“基礎(chǔ)平均”“性別”“是否擔(dān)任班委”“獲獎(jiǎng)情況”“參加活動(dòng)”“與人交往”的信息增益率分別為:Ratio(基礎(chǔ)平均)=0.2982、Ratio(性別)=0.1893、Ratio(是否擔(dān)任班委)=0.4935、Ratio(獲獎(jiǎng)情況)=0.1542、 Ratio(參加活動(dòng))=0.7999、Ratio(與人交往)=1.1549。由于“與人交往”具有最大信息增益率值,故而選擇該屬性作為決策樹的根節(jié)點(diǎn)。
對(duì)于每一個(gè)分枝,重復(fù)上述步驟,即可生成決策樹。
5.實(shí)驗(yàn)及分析
第一,生成決策樹。
選取460個(gè)樣本運(yùn)用于該算法,則得到如下所示的決策樹:
圖1 決策樹
第二,剪枝。
圖2 決策樹剪枝示意圖
決策樹算法將數(shù)據(jù)集中的數(shù)據(jù)信息轉(zhuǎn)化為樹的形式,在一定程度上可以提高計(jì)算效率,樹表示的信息也較容易理解。但是當(dāng)遇到數(shù)據(jù)量很大的數(shù)據(jù)庫(kù),根據(jù)其數(shù)據(jù)集建立的決策樹規(guī)模龐大時(shí),就不易被人理解,而且樹的空間與時(shí)間復(fù)雜性均很大,決策樹的效率很低。在這種情況下,就要進(jìn)行剪枝,使決策樹在保持正確率的情況下盡可能地減小規(guī)模,起到信息約減的作用。
如圖2所示的決策樹中,很明顯可以剪去第八層的分枝。
經(jīng)過(guò)處理,最后可得圖3所示的決策樹。
圖3 C4.5算法構(gòu)造就業(yè)決策樹圖
6.實(shí)驗(yàn)結(jié)果分析
把115個(gè)測(cè)試數(shù)據(jù)集用上述決策樹進(jìn)行分類后,其分類準(zhǔn)確率為82.61%,該決策樹分類模型可用于今后我院計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生的就業(yè)情況預(yù)測(cè)。預(yù)測(cè)就業(yè)情況屬于“差”或“中”的學(xué)生,可根據(jù)分類規(guī)則給出相應(yīng)的個(gè)人發(fā)展建議。就業(yè)情況差的,則可建議這一類學(xué)生多參加集體活動(dòng)和社會(huì)活動(dòng),創(chuàng)造機(jī)會(huì)讓這類學(xué)生與更多的人交往,并盡可能地在班上安排一些合適的職務(wù)給他們,使之培養(yǎng)出良好的協(xié)作觀念、團(tuán)隊(duì)精神。
7個(gè)維度的決策樹算法顯示,影響高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)學(xué)生就業(yè)情況的第一因素是與人交往能力,其次依次為在學(xué)校期間擔(dān)任班委情況(或從事社會(huì)工作的經(jīng)歷)、個(gè)人獲獎(jiǎng)情況、專業(yè)平均成績(jī)、基礎(chǔ)平均成績(jī)、參加集體活動(dòng)的情況,而對(duì)就業(yè)影響最弱的因素是性別。因此,筆者認(rèn)為,在高職教育這個(gè)層次,學(xué)生在學(xué)院就讀期間,溝通能力、社會(huì)活動(dòng)經(jīng)歷等非專業(yè)因素對(duì)高職學(xué)生就業(yè)競(jìng)爭(zhēng)力的影響非常深刻。這些結(jié)論對(duì)學(xué)院今后的教學(xué)安排、教學(xué)評(píng)價(jià)、學(xué)生評(píng)價(jià)、教學(xué)觀念、課外活動(dòng)安排將有一定的指導(dǎo)意義。
四 小結(jié)
高職學(xué)生就業(yè)競(jìng)爭(zhēng)力的培養(yǎng)需要從學(xué)校、學(xué)生和社會(huì)三方入手,形成聯(lián)動(dòng)機(jī)制。作為人才培養(yǎng)主體的高職院校,除了要圍繞市場(chǎng)需求辦學(xué)、加強(qiáng)專業(yè)建設(shè)、創(chuàng)新人才培養(yǎng)模式外,還應(yīng)重視學(xué)生綜合素質(zhì)的培養(yǎng)和非專業(yè)因素的影響。而作為就業(yè)主體的學(xué)生,除掌握課程知識(shí),形成盡可能豐富的知識(shí)結(jié)構(gòu)之外,還要自覺(jué)克服性格、個(gè)性方面的缺陷,以一種開(kāi)放的心態(tài)主動(dòng)參與各類社會(huì)事務(wù)和社會(huì)活動(dòng),促進(jìn)個(gè)人綜合素質(zhì)的提升,不斷增強(qiáng)自身的就業(yè)競(jìng)爭(zhēng)力。
【高職計(jì)算機(jī)網(wǎng)絡(luò)專業(yè)畢業(yè)生就業(yè)競(jìng)爭(zhēng)力分析論文】相關(guān)文章:
提升高職院校文秘專業(yè)就業(yè)競(jìng)爭(zhēng)力的思考論文12-02
高職旅游管理專業(yè)學(xué)生就業(yè)因素分析論文03-30
高職旅游管理專業(yè)學(xué)生就業(yè)傾向分析論文08-05
漢語(yǔ)言專業(yè)畢業(yè)生就業(yè)狀況分析論文04-03
信息管理與信息系統(tǒng)專業(yè)就業(yè)競(jìng)爭(zhēng)力分析研究論文03-30
外語(yǔ)專業(yè)的就業(yè)形勢(shì)分析論文02-11
工商管理專業(yè)就業(yè)分析論文08-02