可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文

時(shí)間：2022-08-06 04:10:27 畢業(yè)論文范文我要投稿

相關(guān)推薦

　　1引言

可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文

　　網(wǎng)頁的關(guān)鍵信息是網(wǎng)頁的最基本的信息，它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關(guān)鍵信息有正文、作者、來源、發(fā)布時(shí)間等。在網(wǎng)絡(luò)輿情監(jiān)控、網(wǎng)絡(luò)情報(bào)分析、搜索引擎等重大網(wǎng)絡(luò)應(yīng)用中，這些關(guān)鍵信息都是后期分析挖掘必不可少的基礎(chǔ)數(shù)據(jù)。需要利用網(wǎng)絡(luò)信息抽取技術(shù)從網(wǎng)頁中抽取出這些關(guān)鍵信息。從某種角度上講，關(guān)鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡(luò)應(yīng)用服務(wù)的效果。因此，網(wǎng)頁的關(guān)鍵信息抽取研究具有重大的應(yīng)用價(jià)值。隨著網(wǎng)頁規(guī)模呈指數(shù)級(jí)增長(zhǎng)，在網(wǎng)絡(luò)應(yīng)用中，模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢(shì)成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對(duì)特定需求，利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁。

　　因?yàn)槌槿∵^程無需人工干預(yù)，所以此類算法越來越多地應(yīng)用于實(shí)際網(wǎng)絡(luò)環(huán)境中。基于模板的信息抽取算法充分利用了動(dòng)態(tài)網(wǎng)頁的規(guī)律：網(wǎng)頁是由同一個(gè)模板生成的，屬于模板的符號(hào)不會(huì)變化，變化的只是模板中填充的數(shù)據(jù)。因此，該算法在對(duì)動(dòng)態(tài)網(wǎng)頁進(jìn)行抽取時(shí)能夠取得較高的精度。但是，這兩類抽取算法也存在著其固有的缺陷。模板無關(guān)的全自動(dòng)抽取算法通常基于過強(qiáng)的假設(shè)。在處理多樣性日益顯著的網(wǎng)頁時(shí)，常常因?yàn)槟承┚W(wǎng)頁不符合假設(shè)，而導(dǎo)致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則，導(dǎo)致抽取效率低的情況。使用基于模板的信息抽取算法進(jìn)行抽取時(shí)，需先針對(duì)某類網(wǎng)頁學(xué)習(xí)出模板，后人工標(biāo)注。面對(duì)日益增多的數(shù)據(jù)源，會(huì)導(dǎo)致網(wǎng)絡(luò)應(yīng)用的運(yùn)維代價(jià)過大;同時(shí)日益復(fù)雜的網(wǎng)頁使得模板的準(zhǔn)確性下降，從而導(dǎo)致抽取精度下降。針對(duì)上述模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法的缺陷，本文進(jìn)行了深入研究。本文的貢獻(xiàn)主要有以下兩點(diǎn)。首先，提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架。該框架通過輸入訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果，生成關(guān)鍵信息模板集。再通過模板的正交過濾算法，生成候選的關(guān)鍵信息模板。最后通過模板的特征過濾算法，生成最終的關(guān)鍵信息模板。利用該模板可快速、準(zhǔn)確地從同類型網(wǎng)頁中抽取關(guān)鍵信息。該框架很好地融合了模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法，使得兩類算法能夠充分發(fā)揮各自的優(yōu)點(diǎn)，并在缺點(diǎn)方面互相彌補(bǔ)。實(shí)驗(yàn)結(jié)果表明，該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外，該框架具有很好的可擴(kuò)展性，框架中的一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換。其次，本文提出了模板的正交過濾算法，該算法將訓(xùn)練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份，生成若干個(gè)模板，再通過模板的正交過濾算法，過濾掉模板中的噪音部分，得到候選模板。將該算法引入基于模板的抽取算法中，能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性，最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。本文的組織結(jié)構(gòu)如下：第1節(jié)介紹了本文提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的背景及意義，并簡(jiǎn)單介紹該框架及核心算法。第2節(jié)介紹主要的相關(guān)工作。第3節(jié)詳細(xì)介紹可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架，重點(diǎn)介紹框架中的關(guān)鍵技術(shù)點(diǎn)。第4節(jié)介紹實(shí)驗(yàn)與結(jié)果分析。第5節(jié)對(duì)本文工作進(jìn)行總結(jié)，并介紹未來工作。

　　2相關(guān)工作網(wǎng)頁信息抽取

　　是一種針對(duì)網(wǎng)絡(luò)數(shù)據(jù)源和網(wǎng)頁進(jìn)行深度處理和加工的過程。由于網(wǎng)頁的復(fù)雜性和多樣性，使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類：包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關(guān)的全自動(dòng)信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預(yù)，所以在實(shí)際的工程應(yīng)用中，基于模板的信息抽取算法和模板無關(guān)的全自動(dòng)信息抽取算法以其較強(qiáng)的實(shí)用性占據(jù)了主流的位置。基于模板的信息抽取通�；谶@樣的假設(shè)：待抽取的網(wǎng)頁是由同一個(gè)模板生成的，屬于模板的符號(hào)不會(huì)變化，變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取�；ヂ�(lián)網(wǎng)上大量存在的動(dòng)態(tài)網(wǎng)頁是由機(jī)器生成的(例如論壇)網(wǎng)頁�；谀０宓男畔⒊槿〉墓ぷ髁鞒淌牵�1)利用多個(gè)同類型網(wǎng)頁中具有共性的不變的部分生成一個(gè)模板;2)根據(jù)模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。因?yàn)榇祟愃惴ㄟ^濾了網(wǎng)頁中的大量模板，只留下了數(shù)據(jù)，同時(shí)自動(dòng)還原出了數(shù)據(jù)的結(jié)構(gòu)，使得用戶在付出較小人工代價(jià)的同時(shí)，能夠獲得較為準(zhǔn)確的關(guān)鍵信息。因此此類算法一直都是網(wǎng)絡(luò)應(yīng)用中的主流算法。但是該類算法具有這樣的缺陷：首先需要針對(duì)同類型的網(wǎng)頁生成一個(gè)模板。模板的準(zhǔn)確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復(fù)雜性以及同一類型網(wǎng)頁的差異性的增大，生成的模板準(zhǔn)確性隨之降低。模板無關(guān)的全自動(dòng)信息抽取算法進(jìn)一步提高了信息抽取的自動(dòng)化程度。此類算法通常利用一些經(jīng)驗(yàn)規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁，例如，經(jīng)典的全自動(dòng)信息抽取算法 MDR。

　　該算法的缺陷在于通常基于過強(qiáng)的假設(shè)。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡(luò)應(yīng)用都需要的關(guān)鍵信息，有不少針對(duì)正文抽取的模板無關(guān)的全自動(dòng)抽取算法。CoreEx是通過計(jì)算 DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標(biāo)簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點(diǎn)。這些算法自動(dòng)化程度高，通用性強(qiáng)，但是效率較低，且假設(shè)過強(qiáng)，精確度不如基于模板的算法。VIPS是一種通用性較強(qiáng)的算法，但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。在以往的文獻(xiàn)中，較少看到將模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關(guān)研究。在本文提出的框架中，巧妙地將這兩種算法有機(jī)地結(jié)合起來，使得二者能夠取長(zhǎng)補(bǔ)短，從本質(zhì)上提高信息抽取的質(zhì)量。

　　3可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架

　　3.1框架概述如圖1所示，框架的輸入是一批原始訓(xùn)練網(wǎng)頁，或者其他信息抽取算法的抽取結(jié)果。需要說明的是，這些抽取結(jié)果帶有 HTML標(biāo)簽結(jié)構(gòu)，如圖2和圖3所示。然后將這些訓(xùn)練網(wǎng)頁或抽取結(jié)果隨機(jī)平均分成k份，每一份均通過模板生成算法，生成關(guān)鍵信息模板集。再通過模板的正交過濾算法，生成候選的關(guān)鍵信息模板。接著通過模板的特征過濾算法，生成最終的關(guān)鍵信息模板。最后根據(jù)最終模板對(duì)同類型網(wǎng)頁進(jìn)行抽取。該框架具有很好的擴(kuò)展性，主要體現(xiàn)在以下幾個(gè)方面。

　　(1)關(guān)鍵信息模板集合生成算法的輸入部分，是一批原始訓(xùn)練網(wǎng)頁，或者其他信息抽取算法的抽取結(jié)果。這里的抽取算法一般是模板無關(guān)的全自動(dòng)抽取算法。這些算法已經(jīng)根據(jù)需求對(duì)原始網(wǎng)頁進(jìn)行了一次噪音過濾。因此，對(duì)于框架中的模板生成環(huán)節(jié)，把這些抽取結(jié)果作為訓(xùn)練數(shù)據(jù)輸入，和把原始網(wǎng)頁作為輸入相比較，能夠獲得更精確的模板。另一方面，用模板無關(guān)的全自動(dòng)抽取算法處理不符合算法假設(shè)的網(wǎng)頁時(shí)，噪音過濾的效果不夠好。對(duì)于這種情況，通過把抽取結(jié)果輸入到框架中，經(jīng)過后期一系列的模板生成、基于模板的抽取，能夠進(jìn)一步過濾掉噪音，從而增強(qiáng)了模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性。這兩方面結(jié)論在第5節(jié)的實(shí)驗(yàn)結(jié)果將有展示。

　　(2)特征過濾算法部分，可以根據(jù)要抽取的信息特征，替換相應(yīng)的算法。

　　(3)在模板生成過程中，框架將關(guān)鍵信息模板集、候選的關(guān)鍵信息模板等中間結(jié)果存入磁盤，當(dāng)再次遇到同類型網(wǎng)頁時(shí)，可以直接從磁盤上讀取模板的中間結(jié)果。

　　(4)基于模板的信息抽取算法的輸入可以是框架中生成的模板，也可以是人工配置的模板。框架中的關(guān)鍵技術(shù)點(diǎn)有模板的表示、關(guān)鍵信息模板集合的生成算法、模板的正交過濾算法、模板的特征過濾算法，以及基于模板的抽取算法。3.2.2關(guān)鍵信息的模板集合生成算法單記錄頁面生成關(guān)鍵信息模板集合的算法如下：首先建立 DOM 樹。刪除CSS、Script等節(jié)點(diǎn)。去掉br和p節(jié)點(diǎn)，將相鄰的段落合并，即合并相鄰的葉子節(jié)點(diǎn)。標(biāo)簽名和屬性名、屬性值一樣的相鄰節(jié)點(diǎn)，則將它們合并成一個(gè)節(jié)點(diǎn)。這樣可以盡可能保證各關(guān)鍵信息不被分割。接著將 M 棵 DOM 樹對(duì)齊并合并。將對(duì)齊后每一個(gè)位置對(duì)應(yīng)的n個(gè)節(jié)點(diǎn)，有選擇地插入到站點(diǎn)版塊風(fēng)格樹SBSTree(siteboardstyletree)中(圖4中的數(shù)字代表該節(jié)點(diǎn)重復(fù)度dump，即該節(jié)點(diǎn)出現(xiàn)的次數(shù))：如果全是標(biāo)簽節(jié)點(diǎn)，則將第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置;如果全是文本葉子節(jié)點(diǎn)，則統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù)，并將內(nèi)容互不重復(fù)的文本葉子節(jié)點(diǎn)全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下);如果部分是文本葉子節(jié)點(diǎn)部分是標(biāo)簽節(jié)點(diǎn)，則選擇第一個(gè)標(biāo)簽節(jié)點(diǎn)插入到SBSTree中相應(yīng)位置，統(tǒng)計(jì)并記錄每個(gè)文本葉子節(jié)點(diǎn)出現(xiàn)的次數(shù)，并將內(nèi)容互不重復(fù)的葉子節(jié)點(diǎn)也全部插入到SBSTree中相應(yīng)位置 (同一個(gè)父節(jié)點(diǎn)下)。圖4DOM 樹合并合并后的DOM 樹具有如下特征：對(duì)于網(wǎng)頁中公共的信息，例如，導(dǎo)航、網(wǎng)站聲明，其對(duì)應(yīng)的合并后的樹中的葉子節(jié)點(diǎn)的重復(fù)度dump為 M，并且該節(jié)點(diǎn)的父節(jié)點(diǎn)只有一個(gè)葉子節(jié)點(diǎn)。而各個(gè)網(wǎng)頁的關(guān)鍵信息，由于不相同，因此它們的父節(jié)點(diǎn)的葉子節(jié)點(diǎn)個(gè)數(shù)小于 M，并且大部分葉子節(jié)點(diǎn)的重復(fù)度為1。

　　計(jì)算每個(gè)重復(fù)度大于1的葉子節(jié)點(diǎn)的平均重復(fù)度dump。最后將所有子節(jié)點(diǎn)含有重復(fù)度大于dump的葉子的節(jié)點(diǎn)轉(zhuǎn)換成模板。多記錄頁面生成所有關(guān)鍵信息模板算法如下：首先，建立 DOM 樹。刪除 CSS、Script等節(jié)點(diǎn)。其次將 M 棵 DOM 樹中含有style和class屬性，且所有屬性名和屬性值一樣的節(jié)點(diǎn)各自聚類。橫向比較每一類節(jié)點(diǎn)在 M 棵 DOM 樹中的數(shù)量及其葉子內(nèi)容的變化，并記錄個(gè)數(shù)相關(guān)的節(jié)點(diǎn)類，它的節(jié)點(diǎn)個(gè)數(shù)隨著記錄個(gè)數(shù)的變化而變化。例如，跟帖的正文節(jié)點(diǎn)、跟帖的作者ID節(jié)點(diǎn)的數(shù)量和正文的節(jié)點(diǎn)數(shù)量是一致的。

　　而那些非關(guān)鍵信息，有一部分節(jié)點(diǎn)個(gè)數(shù)和記錄個(gè)數(shù)保持一致，但是內(nèi)容基本不變，另一部分出現(xiàn)的次數(shù)和正文節(jié)點(diǎn)無關(guān)。最后對(duì)于每棵DOM 樹中，節(jié)點(diǎn)數(shù)量和內(nèi)容都有變化的節(jié)點(diǎn)，認(rèn)為是所有關(guān)鍵信息節(jié)點(diǎn)。將其轉(zhuǎn)換成模板。3.2.3模板的正交過濾一般的全自動(dòng)模板生成算法，都是通過訓(xùn)練輸入的所有網(wǎng)頁，生成一個(gè)包含所有關(guān)鍵信息的模板集合。這種做法生成的模板精度較低，模板的結(jié)果受輸入的訓(xùn)練網(wǎng)頁的影響較大。在此我們提出了正交過濾算法，該算法對(duì)生成的關(guān)鍵信息模板集合進(jìn)行正交過濾，以保證獲得更加準(zhǔn)確的候選模板。

　　4實(shí)驗(yàn)為了驗(yàn)證本文

　　提出的可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架的有效性，我們以抽取新聞的正文為例在該框架上進(jìn)行了實(shí)驗(yàn)。CETD是目前較新的全自動(dòng)的網(wǎng)頁正文抽取算法，文獻(xiàn)表明該算法能夠獲得較好的抽取效果。為了展示本框架能夠增強(qiáng)模板無關(guān)的全自動(dòng)抽取算法的適應(yīng)性，我們使用算法 CETD作為對(duì)比算法，并將其作為框架中的模板無關(guān)的全自動(dòng)抽取算法。

　　4.1實(shí)驗(yàn)數(shù)據(jù)與環(huán)境新聞的實(shí)驗(yàn)數(shù)據(jù)是來自10個(gè)新聞網(wǎng)站的國(guó)際頻道的網(wǎng)頁共2000個(gè)。這些網(wǎng)站覆蓋了各大主流的新聞網(wǎng)站，且網(wǎng)頁在 HTML結(jié)構(gòu)方面也幾乎覆蓋了各種情況，因此，保證了實(shí)驗(yàn)數(shù)據(jù)的多樣性。實(shí)驗(yàn)機(jī)器配置為IntelQ9300雙核CPU，4GB內(nèi)存，運(yùn)行環(huán)境為ubuntu平臺(tái)，程序由C++開發(fā)實(shí)現(xiàn)，編譯器為gcc。

　　4.2評(píng)價(jià)方法通過人工標(biāo)注，我們獲得2000個(gè)網(wǎng)頁的正文作為參考結(jié)果。假設(shè)a是參考結(jié)果，b是抽取結(jié)果，那么準(zhǔn)確率4.3實(shí)驗(yàn)結(jié)果與分析為了檢驗(yàn)本文提出的信息抽取框架的有效性，我們?cè)O(shè)計(jì)了4組實(shí)驗(yàn)，如表1所示。1)使用本框架生成的模板進(jìn)行信息抽取的實(shí)驗(yàn)2)使用模板無關(guān)的全自動(dòng)抽取算法(CETD)抽取3)使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的實(shí)驗(yàn)4)使用本框架，但是沒有對(duì)模板進(jìn)行正交過濾其中第1組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)利用模板無關(guān)的全自動(dòng)抽取結(jié)果作為訓(xùn)練樣例生成模板的有效性。第1組和第4組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)正交過濾算法的有效性。第2組和第3組的對(duì)比實(shí)驗(yàn)用于檢驗(yàn)整個(gè)框架的有效性。

　　從結(jié)果中，我們可以得出以下結(jié)論。(1)從第3組和第1組實(shí)驗(yàn)結(jié)果可以看出，使用模板無關(guān)的全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果要好于直接用訓(xùn)練網(wǎng)頁生成模板的抽取結(jié)果。(2)從第4組和第1組實(shí)驗(yàn)的結(jié)果可以看出，引入正交過濾算法后，生成的模板的抽取結(jié)果要好于沒有對(duì)模板進(jìn)行正交過濾的抽取結(jié)果。(3)從第1組和第2組實(shí)驗(yàn)的結(jié)果可以看出，該框架的整體抽取結(jié)果要好于模板無關(guān)的全自動(dòng)抽取結(jié)果。(4)通過對(duì)抽取結(jié)果錯(cuò)誤的網(wǎng)頁進(jìn)行分析發(fā)現(xiàn)，抽取錯(cuò)誤的主要因素有如下3點(diǎn)：1)有些 HTML頁面標(biāo)簽缺失，從而造成部分標(biāo)簽被當(dāng)作正文抽取出來。2)有些網(wǎng)頁的正文開頭或結(jié)尾的作者、來源等噪音和正文是連在一起的。3)有些網(wǎng)頁的副標(biāo)題或者摘要僅通過換行標(biāo)簽和正文區(qū)分開來，和正文沒有區(qū)別。(5)全自動(dòng)抽取算法的抽取結(jié)果作為訓(xùn)練網(wǎng)頁以及正交過濾算法對(duì)一小部分板塊的網(wǎng)頁抽取效果不明顯，但是從十個(gè)板塊的平均值上可以看出，這兩種算法對(duì)結(jié)果的正確率和召回率都有一定的提高。在運(yùn)行效率方面，我們也做了實(shí)驗(yàn)。該框架生成的模板平均每個(gè)頁面的處理時(shí)間為8.59ms，而模板無關(guān)的全自動(dòng)抽取算法平均每個(gè)頁面的處理時(shí)間為24.72ms。

　　可以得出這樣的結(jié)論，在在線抽取過程中，用該框架生成的模板對(duì)網(wǎng)頁進(jìn)行抽取，比用模板無關(guān)的全自動(dòng)抽取算法抽取的速度快近2倍。5結(jié)論與未來工作本文提出了一種可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取框架，該框架很好地融合模板無關(guān)的全自動(dòng)信息抽取算法和基于模板的信息抽取算法。實(shí)驗(yàn)結(jié)果表明，該框架能夠在抽取精度和效率方面有本質(zhì)上的提高。該框架中一些關(guān)鍵環(huán)節(jié)可根據(jù)需求進(jìn)行替換，因此該框架具有很好的可擴(kuò)展性。

　　同時(shí)，本文還提出了模板的正交過濾算法，將該算法引入基于模板的抽取算法中，能夠從本質(zhì)上提高生成的模板的準(zhǔn)確性，最后的實(shí)驗(yàn)結(jié)果也充分驗(yàn)證了這一結(jié)論。在未來工作中，我們將針對(duì)輸入的訓(xùn)練網(wǎng)頁進(jìn)行聚類以及引入視覺特征，以改進(jìn)關(guān)鍵信息模板集合的生成算法和模板的正交過濾算法，從而進(jìn)一步提高生成的模板的精度。

【可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文】相關(guān)文章：

寫好論文的關(guān)鍵11-18

論文關(guān)鍵詞怎么選08-24

論文中的關(guān)鍵詞怎么寫11-16

關(guān)于大數(shù)據(jù)時(shí)代下的隱私保護(hù)探究論文04-14

信息技術(shù)論文12-13

成功的關(guān)鍵在于勤奮議論文（通用54篇）10-31

計(jì)算機(jī)信息論文12-14

信息安全管理論文07-29

計(jì)算機(jī)信息安全論文07-23

信息管理系統(tǒng)論文02-15

精品国产一级毛片大全,毛片一级在线,毛片免费观看的视频在线,午夜毛片福利

可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取探究論文