- 相關(guān)推薦
可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文
1引言
網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時(shí)間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報(bào)分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中,這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講,關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此,網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價(jià)值。隨著網(wǎng)頁規(guī)模呈指數(shù)級(jí)增長(zhǎng),在網(wǎng)絡(luò)應(yīng)用中,模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢(shì)成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對(duì)特定需求,利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。
因?yàn)槌槿∵^程無需人工干預(yù),所以此類算法越來越多地應(yīng)用于實(shí)際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動(dòng)態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對(duì)動(dòng)態(tài)網(wǎng)頁進(jìn)行抽取時(shí)能夠取得較高的精度。但是,這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動(dòng)抽取算法通常基于過強(qiáng)的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時(shí),常常因?yàn)槟承┚W(wǎng)頁不符合假設(shè),而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí),需先針對(duì)某類網(wǎng)頁學(xué)習(xí)出模板,后人工標(biāo)注。面對(duì)日益增多的數(shù)據(jù)源,會(huì)導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運(yùn)維代價(jià)過大;同時(shí)日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降,從而導(dǎo)致抽取精度下降。針對(duì)上述模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷,本文進(jìn)行了深入研究。本文的貢獻(xiàn)主要有以下兩點(diǎn)。首先,提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點(diǎn),并在缺點(diǎn)方面互相彌補(bǔ)。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴(kuò)展性,框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換。其次,本文提出了模板的正交過濾算法,該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個(gè)模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。本文的組織結(jié)構(gòu)如下:第1節(jié)介紹了本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義,并簡(jiǎn)單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細(xì)介紹可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,重點(diǎn)介紹框架中的關(guān)鍵技術(shù)點(diǎn)。第4節(jié)介紹實(shí)驗(yàn)與結(jié)果分析。第5節(jié)對(duì)本文工作進(jìn)行總結(jié),并介紹未來工作。
2相關(guān)工作網(wǎng)頁信息抽取
是一種針對(duì)網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進(jìn)行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動(dòng)信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù),所以在實(shí)際的工程應(yīng)用中,基于模板的信息抽取算法和模板無關(guān)的全自動(dòng)信息抽取算法以其較強(qiáng)的實(shí)用性占據(jù)了主流的位置。基于模板的信息抽取通;谶@樣的假設(shè):待抽取的網(wǎng)頁是由同一個(gè)模板生成的,屬于模板的符號(hào)不會(huì)變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取;ヂ(lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁是由機(jī)器生成的(例如論壇)網(wǎng)頁;谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵1)利用多個(gè)同類型網(wǎng)頁中具有共性的不變的部分生成一個(gè)模板;2)根據(jù)模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。因?yàn)榇祟愃惴ㄟ^濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時(shí)自動(dòng)還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價(jià)的同時(shí),能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對(duì)同類型的網(wǎng)頁生成一個(gè)模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類算法通常利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動(dòng)信息抽取算法 MDR。
該算法的缺陷在于通常基于過強(qiáng)的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息,有不少針對(duì)正文抽取的模板無關(guān)的全自動(dòng)抽取算法。CoreEx是通過計(jì)算 DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高,通用性強(qiáng),但是效率較低,且假設(shè)過強(qiáng),精確度不如基于模板的算法。VIPS是一種通用性較強(qiáng)的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。在以往的文獻(xiàn)中,較少看到將模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中,巧妙地將這兩種算法有機(jī)地結(jié)合起來,使得二者能夠取長(zhǎng)補(bǔ)短,從本質(zhì)上提高信息抽取的質(zhì)量。
3可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架
3.1框架概述如圖1所示,框架的輸入是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。需要說明的是,這些抽取結(jié)果帶有 HTML標(biāo)簽結(jié)構(gòu),如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機(jī)平均分成k份,每一份均通過模板生成算法,生成關(guān)鍵信息模板集。再通過模板的正交過濾算法,生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法,生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。該框架具有很好的擴(kuò)展性,主要體現(xiàn)在以下幾個(gè)方面。
(1)關(guān)鍵信息模板集合生成算法的輸入部分,是一批原始訓(xùn)練網(wǎng)頁,或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動(dòng)抽取算法。這些算法已經(jīng)根據(jù)需求對(duì)原始網(wǎng)頁進(jìn)行了一次噪音過濾。因此,對(duì)于框架中的模板生成環(huán)節(jié),把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入,和把原始網(wǎng)頁作為輸入相比較,能夠獲得更精確的模板。另一方面,用模板無關(guān)的全自動(dòng)抽取算法處理不符合算法假設(shè)的網(wǎng)頁時(shí),噪音過濾的效果不夠好。對(duì)于這種情況,通過把抽取結(jié)果輸入到框架中,經(jīng)過后期一系列的模板生成、基于模板的抽取,能夠進(jìn)一步過濾掉噪音,從而增強(qiáng)了模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實(shí)驗(yàn)結(jié)果將有展示。
(2)特征過濾算法部分,可以根據(jù)要抽取的信息特征,替換相應(yīng)的算法。
(3)在模板生成過程中,框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤,當(dāng)再次遇到同類型網(wǎng)頁時(shí),可以直接從磁盤上讀取模板的中間結(jié)果。
(4)基于模板的信息抽取算法的輸入可以是框架中生成的模板,也可以是人工配置的模板。框架中的關(guān)鍵技術(shù)點(diǎn)有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法,以及基于模板的抽取算法。3.2.2關(guān)鍵信息的模板集合生成算法單記錄頁面生成關(guān)鍵信息模板集合的算法如下:首先建立 DOM 樹。刪除CSS、Script等節(jié)點(diǎn)。去掉br和p節(jié)點(diǎn),將相鄰的段落合并,即合并相鄰的葉子節(jié)點(diǎn)。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點(diǎn),則將它們合并成一個(gè)節(jié)點(diǎn)。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將 M 棵 DOM 樹對(duì)齊并合并。將對(duì)齊后每一個(gè)位置對(duì)應(yīng)的n個(gè)節(jié)點(diǎn),有選擇地插入到站點(diǎn)版塊風(fēng)格樹SBSTree(siteboardstyletree)中(圖4中的數(shù)字代表該節(jié)點(diǎn)重復(fù)度dump,即該節(jié)點(diǎn)出現(xiàn)的次數(shù)):如果全是標(biāo)簽節(jié)點(diǎn),則將第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點(diǎn),則統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的文本葉子節(jié)點(diǎn)全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下);如果部分是文本葉子節(jié)點(diǎn)部分是標(biāo)簽節(jié)點(diǎn),則選擇第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置,統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù),并將內(nèi)容互不重復(fù)的葉子節(jié)點(diǎn)也全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下)。圖4DOM 樹合并合并后的DOM 樹具有如下特征:對(duì)于網(wǎng)頁中公共的信息,例如,導(dǎo)航、網(wǎng)站聲明,其對(duì)應(yīng)的合并后的樹中的葉子節(jié)點(diǎn)的重復(fù)度dump為 M,并且該節(jié)點(diǎn)的父節(jié)點(diǎn)只有一個(gè)葉子節(jié)點(diǎn)。而各個(gè)網(wǎng)頁的關(guān)鍵信息,由于不相同,因此它們的父節(jié)點(diǎn)的葉子節(jié)點(diǎn)個(gè)數(shù)小于 M,并且大部分葉子節(jié)點(diǎn)的重復(fù)度為1。
計(jì)算每個(gè)重復(fù)度大于1的葉子節(jié)點(diǎn)的平均重復(fù)度dump。最后將所有子節(jié)點(diǎn)含有重復(fù)度大于dump的葉子的節(jié)點(diǎn)轉(zhuǎn)換成模板。多記錄頁面生成所有關(guān)鍵信息模板算法如下:首先,建立 DOM 樹。刪除 CSS、Script等節(jié)點(diǎn)。其次將 M 棵 DOM 樹中含有style和class屬性,且所有屬性名和屬性值一樣的節(jié)點(diǎn)各自聚類。橫向比較每一類節(jié)點(diǎn)在 M 棵 DOM 樹中的數(shù)量及其葉子內(nèi)容的變化,并記錄個(gè)數(shù)相關(guān)的節(jié)點(diǎn)類,它的節(jié)點(diǎn)個(gè)數(shù)隨著記錄個(gè)數(shù)的變化而變化。例如,跟帖的正文節(jié)點(diǎn)、跟帖的作者ID節(jié)點(diǎn)的數(shù)量和正文的節(jié)點(diǎn)數(shù)量是一致的。
而那些非關(guān)鍵信息,有一部分節(jié)點(diǎn)個(gè)數(shù)和記錄個(gè)數(shù)保持一致,但是內(nèi)容基本不變,另一部分出現(xiàn)的次數(shù)和正文節(jié)點(diǎn)無關(guān)。最后對(duì)于每棵DOM 樹中,節(jié)點(diǎn)數(shù)量和內(nèi)容都有變化的節(jié)點(diǎn),認(rèn)為是所有關(guān)鍵信息節(jié)點(diǎn)。將其轉(zhuǎn)換成模板。3.2.3模板的正交過濾一般的全自動(dòng)模板生成算法,都是通過訓(xùn)練輸入的所有網(wǎng)頁,生成一個(gè)包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低,模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法,該算法對(duì)生成的關(guān)鍵信息模板集合進(jìn)行正交過濾,以保證獲得更加準(zhǔn)確的候選模板。
4實(shí)驗(yàn)為了驗(yàn)證本文
提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性,我們以抽取新聞的正文為例在該框架上進(jìn)行了實(shí)驗(yàn)。CETD是目前較新的全自動(dòng)的網(wǎng)頁正文抽取算法,文獻(xiàn)表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強(qiáng)模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性,我們使用算法 CETD作為對(duì)比算法,并將其作為框架中的模板無關(guān)的全自動(dòng)抽取算法。
4.1實(shí)驗(yàn)數(shù)據(jù)與環(huán)境新聞的實(shí)驗(yàn)數(shù)據(jù)是來自10個(gè)新聞網(wǎng)站的國(guó)際頻道的網(wǎng)頁共2000個(gè)。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站,且網(wǎng)頁在 HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況,因此,保證了實(shí)驗(yàn)數(shù)據(jù)的多樣性。實(shí)驗(yàn)機(jī)器配置為IntelQ9300雙核CPU,4GB內(nèi)存,運(yùn)行環(huán)境為ubuntu平臺(tái),程序由C++開發(fā)實(shí)現(xiàn),編譯器為gcc。
4.2評(píng)價(jià)方法通過人工標(biāo)注,我們獲得2000個(gè)網(wǎng)頁的正文作為參考結(jié)果。假設(shè)a是參考結(jié)果,b是抽取結(jié)果,那么準(zhǔn)確率4.3實(shí)驗(yàn)結(jié)果與分析為了檢驗(yàn)本文提出的信息抽取框架的有效性,我們?cè)O(shè)計(jì)了4組實(shí)驗(yàn),如表1所示。1)使用本框架生成的模板進(jìn)行信息抽取的實(shí)驗(yàn)2)使用模板無關(guān)的全自動(dòng)抽取算法(CETD)抽取3)使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實(shí)驗(yàn)4)使用本框架,但是沒有對(duì)模板進(jìn)行正交過濾其中第1組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)利用模板無關(guān)的全自動(dòng)抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)正交過濾算法的有效性。第2組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)整個(gè)框架的有效性。
從結(jié)果中,我們可以得出以下結(jié)論。(1)從第3組和第1組實(shí)驗(yàn)結(jié)果可以看出,使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。(2)從第4組和第1組實(shí)驗(yàn)的結(jié)果可以看出,引入正交過濾算法后,生成的模板的抽取結(jié)果要好于沒有對(duì)模板進(jìn)行正交過濾的抽取結(jié)果。(3)從第1組和第2組實(shí)驗(yàn)的結(jié)果可以看出,該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動(dòng)抽取結(jié)果。(4)通過對(duì)抽取結(jié)果錯(cuò)誤的網(wǎng)頁進(jìn)行分析發(fā)現(xiàn),抽取錯(cuò)誤的主要因素有如下3點(diǎn):1)有些 HTML頁面標(biāo)簽缺失,從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來,和正文沒有區(qū)別。(5)全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對(duì)一小部分板塊的網(wǎng)頁抽取效果不明顯,但是從十個(gè)板塊的平均值上可以看出,這兩種算法對(duì)結(jié)果的正確率和召回率都有一定的提高。在運(yùn)行效率方面,我們也做了實(shí)驗(yàn)。該框架生成的模板平均每個(gè)頁面的處理時(shí)間為8.59ms,而模板無關(guān)的全自動(dòng)抽取算法平均每個(gè)頁面的處理時(shí)間為24.72ms。
可以得出這樣的結(jié)論,在在線抽取過程中,用該框架生成的模板對(duì)網(wǎng)頁進(jìn)行抽取,比用模板無關(guān)的全自動(dòng)抽取算法抽取的速度快近2倍。5結(jié)論與未來工作本文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架,該框架很好地融合模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法。實(shí)驗(yàn)結(jié)果表明,該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換,因此該框架具有很好的可擴(kuò)展性。
同時(shí),本文還提出了模板的正交過濾算法,將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性,最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。在未來工作中,我們將針對(duì)輸入的訓(xùn)練網(wǎng)頁進(jìn)行聚類以及引入視覺特征,以改進(jìn)關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法,從而進(jìn)一步提高生成的模板的精度。
【可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文】相關(guān)文章:
寫好論文的關(guān)鍵11-18
論文關(guān)鍵詞怎么選08-24
論文中的關(guān)鍵詞怎么寫11-16
關(guān)于大數(shù)據(jù)時(shí)代下的隱私保護(hù)探究論文04-14
信息技術(shù)論文12-13
成功的關(guān)鍵在于勤奮議論文(通用54篇)10-31
計(jì)算機(jī)信息論文12-14
信息安全管理論文07-29
計(jì)算機(jī)信息安全論文07-23
信息管理系統(tǒng)論文02-15