從web頁(yè)面中抽取出用戶感興趣的數(shù)據(jù).doc
約61頁(yè)DOC格式手機(jī)打開展開
從web頁(yè)面中抽取出用戶感興趣的數(shù)據(jù),從web頁(yè)面中抽取出用戶感興趣的數(shù)據(jù)目 錄摘 要iabstractii第1章 緒論11.1 選題背景和意義11.2 web信息的抽取21.3 web信息抽取的應(yīng)用31.4 本文的研究?jī)?nèi)容31.5 本文的組織3第2章 相關(guān)標(biāo)準(zhǔn)與web信息抽取技術(shù)52.1 引言52.2相關(guān)標(biāo)準(zhǔn)52.2.1 xml52.2.2 xhtml8...
內(nèi)容介紹
此文檔由會(huì)員 pilycia 發(fā)布
從Web頁(yè)面中抽取出用戶感興趣的數(shù)據(jù)
目 錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 選題背景和意義 1
1.2 Web信息的抽取 2
1.3 Web信息抽取的應(yīng)用 3
1.4 本文的研究?jī)?nèi)容 3
1.5 本文的組織 3
第2章 相關(guān)標(biāo)準(zhǔn)與Web信息抽取技術(shù) 5
2.1 引言 5
2.2相關(guān)標(biāo)準(zhǔn) 5
2.2.1 XML 5
2.2.2 XHTML 8
2.2.3 DOM 8
2.2.4 XPath 8
2.2.5 XSLT 9
2.3 Web信息抽取技術(shù)概述 10
2.3.1 Web信息抽取技術(shù)的分類 11
2.3.2 Web信息抽取存在的問(wèn)題 16
2.3.3 Web信息抽取的關(guān)鍵技術(shù) 17
2.3.4 信息抽取系統(tǒng)的評(píng)測(cè)指標(biāo) 19
2.4 資料綜述 20
2.5 本章小結(jié) 20
第3章 基于XML的Web信息抽取平臺(tái) 22
3.1概述 22
3.1.1 平臺(tái)的目標(biāo) 22
3.1.2設(shè)計(jì)的基本思想 22
3.1.3 XML和XSLT在平臺(tái)中的角色 23
3.1.4 數(shù)據(jù)導(dǎo)向型頁(yè)面 25
3.2 平臺(tái)的總體框架 26
3.3 平臺(tái)中的知識(shí)庫(kù)與數(shù)據(jù)庫(kù) 27
3.3.1 構(gòu)造領(lǐng)域知識(shí)庫(kù) 27
3.3.2抽取規(guī)則庫(kù) 28
3.3.3抽取結(jié)果數(shù)據(jù)庫(kù)和Web頁(yè)面數(shù)據(jù)庫(kù) 28
3.4 頁(yè)面優(yōu)化模塊 29
3.4.1 清洗(TIDY)頁(yè)面文檔 29
3.4.2 頁(yè)面解析(PARSER) 32
3.5 信息抽取模塊 32
3.5.1 規(guī)則學(xué)習(xí)的依據(jù) 33
3.5.2規(guī)則學(xué)習(xí)的步驟 34
3.5.3 信息抽取過(guò)程的描述 41
3.6 資料綜述 42
3.7 本章小結(jié) 43
第4章 抽取規(guī)則的優(yōu)化研究 44
4.1 信息定位的優(yōu)化方法 44
4.1.1 基于樹路徑的定位 44
4.1.2 路徑與內(nèi)容結(jié)合的定位方式 45
4.1.3 完全基于文本的定位方式 46
4.1.4 基于屬性的定位 47
4.2 幾種定位方法的小結(jié) 47
4.3 本章小結(jié) 49
第5章 總結(jié) 50
5.1 實(shí)驗(yàn)例子 50
5.2 本文的研究工作 51
5.2 進(jìn)一步的工作 52
致 謝 54
參考文獻(xiàn) 55
摘 要
隨著Web的快速發(fā)展,如何從中獲得想要的信息成為亟待解決的問(wèn)題,因此信息抽取成為必要。Wrapper是從網(wǎng)頁(yè)進(jìn)行抽取的程序,信息抽取研究需要解決的問(wèn)題是:構(gòu)造盡可能準(zhǔn)確、健壯和通用的Wrapper,使其免受網(wǎng)站結(jié)構(gòu)不同和頁(yè)面結(jié)構(gòu)變化的影響,并盡可能地減少人為參與。
目前,已經(jīng)產(chǎn)生了各種各樣的方法來(lái)生成Wrapper,但這些方法有不同的局限性,在精確度、健壯性和通用性方面難以達(dá)到很高的要求,本文對(duì)這些方法進(jìn)行研究和分析。
本文利用了標(biāo)準(zhǔn)的XML技術(shù)來(lái)解決信息抽取問(wèn)題,提出一個(gè)基于XML技術(shù)的Web信息抽取平臺(tái)。并通過(guò)歸納學(xué)習(xí)算法,尋找和識(shí)別出感興趣的數(shù)據(jù)。利用XSLT和Xpath技術(shù)在數(shù)據(jù)定位和轉(zhuǎn)換方面的優(yōu)勢(shì),解決信息抽取中的關(guān)鍵問(wèn)題:編寫抽取規(guī)則。
最后,本文還對(duì)抽取規(guī)則的優(yōu)化問(wèn)題進(jìn)行了研究,對(duì)幾種信息定位方式進(jìn)行了比較,目的是此基礎(chǔ)上編寫更為簡(jiǎn)單、健壯和通用的抽取規(guī)則。
關(guān)鍵詞:信息抽取 XML XSLT
Abstract
With the explosion of Web, how to get the piece of information what he want from the web has become a serious problem, so information extraction from web pages is necessary. Wrapper is the program that performs the extraction task and the key problems are how to constructing accurate, robust and adaptable wrapper without much human intervention, and the wrapper should be independent on particular web sites and could avoid impact from changes of web pages.
Many approaches have been proposed to generate wrapper, but they have different limitations that hard to make it accurate, robust or general. This dissertation studied and analyzed those approaches
This paper apply standard technologies of XML to web extraction problem and developed a platform of web information extraction based XML. With Inductive Learning arithmetic lactated and identified the information blocks that we want. This paper used standard XSLT and Xpath, exploiting their powers of data location and conversion, to solve the key problem: writing extraction rules.
At last, this paper studied the optimization of extraction rules and compared several information location methods. The aim is to generate simple, robust and general extraction rules.
Key Words: Information Extraction XML XSLT
目 錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 選題背景和意義 1
1.2 Web信息的抽取 2
1.3 Web信息抽取的應(yīng)用 3
1.4 本文的研究?jī)?nèi)容 3
1.5 本文的組織 3
第2章 相關(guān)標(biāo)準(zhǔn)與Web信息抽取技術(shù) 5
2.1 引言 5
2.2相關(guān)標(biāo)準(zhǔn) 5
2.2.1 XML 5
2.2.2 XHTML 8
2.2.3 DOM 8
2.2.4 XPath 8
2.2.5 XSLT 9
2.3 Web信息抽取技術(shù)概述 10
2.3.1 Web信息抽取技術(shù)的分類 11
2.3.2 Web信息抽取存在的問(wèn)題 16
2.3.3 Web信息抽取的關(guān)鍵技術(shù) 17
2.3.4 信息抽取系統(tǒng)的評(píng)測(cè)指標(biāo) 19
2.4 資料綜述 20
2.5 本章小結(jié) 20
第3章 基于XML的Web信息抽取平臺(tái) 22
3.1概述 22
3.1.1 平臺(tái)的目標(biāo) 22
3.1.2設(shè)計(jì)的基本思想 22
3.1.3 XML和XSLT在平臺(tái)中的角色 23
3.1.4 數(shù)據(jù)導(dǎo)向型頁(yè)面 25
3.2 平臺(tái)的總體框架 26
3.3 平臺(tái)中的知識(shí)庫(kù)與數(shù)據(jù)庫(kù) 27
3.3.1 構(gòu)造領(lǐng)域知識(shí)庫(kù) 27
3.3.2抽取規(guī)則庫(kù) 28
3.3.3抽取結(jié)果數(shù)據(jù)庫(kù)和Web頁(yè)面數(shù)據(jù)庫(kù) 28
3.4 頁(yè)面優(yōu)化模塊 29
3.4.1 清洗(TIDY)頁(yè)面文檔 29
3.4.2 頁(yè)面解析(PARSER) 32
3.5 信息抽取模塊 32
3.5.1 規(guī)則學(xué)習(xí)的依據(jù) 33
3.5.2規(guī)則學(xué)習(xí)的步驟 34
3.5.3 信息抽取過(guò)程的描述 41
3.6 資料綜述 42
3.7 本章小結(jié) 43
第4章 抽取規(guī)則的優(yōu)化研究 44
4.1 信息定位的優(yōu)化方法 44
4.1.1 基于樹路徑的定位 44
4.1.2 路徑與內(nèi)容結(jié)合的定位方式 45
4.1.3 完全基于文本的定位方式 46
4.1.4 基于屬性的定位 47
4.2 幾種定位方法的小結(jié) 47
4.3 本章小結(jié) 49
第5章 總結(jié) 50
5.1 實(shí)驗(yàn)例子 50
5.2 本文的研究工作 51
5.2 進(jìn)一步的工作 52
致 謝 54
參考文獻(xiàn) 55
摘 要
隨著Web的快速發(fā)展,如何從中獲得想要的信息成為亟待解決的問(wèn)題,因此信息抽取成為必要。Wrapper是從網(wǎng)頁(yè)進(jìn)行抽取的程序,信息抽取研究需要解決的問(wèn)題是:構(gòu)造盡可能準(zhǔn)確、健壯和通用的Wrapper,使其免受網(wǎng)站結(jié)構(gòu)不同和頁(yè)面結(jié)構(gòu)變化的影響,并盡可能地減少人為參與。
目前,已經(jīng)產(chǎn)生了各種各樣的方法來(lái)生成Wrapper,但這些方法有不同的局限性,在精確度、健壯性和通用性方面難以達(dá)到很高的要求,本文對(duì)這些方法進(jìn)行研究和分析。
本文利用了標(biāo)準(zhǔn)的XML技術(shù)來(lái)解決信息抽取問(wèn)題,提出一個(gè)基于XML技術(shù)的Web信息抽取平臺(tái)。并通過(guò)歸納學(xué)習(xí)算法,尋找和識(shí)別出感興趣的數(shù)據(jù)。利用XSLT和Xpath技術(shù)在數(shù)據(jù)定位和轉(zhuǎn)換方面的優(yōu)勢(shì),解決信息抽取中的關(guān)鍵問(wèn)題:編寫抽取規(guī)則。
最后,本文還對(duì)抽取規(guī)則的優(yōu)化問(wèn)題進(jìn)行了研究,對(duì)幾種信息定位方式進(jìn)行了比較,目的是此基礎(chǔ)上編寫更為簡(jiǎn)單、健壯和通用的抽取規(guī)則。
關(guān)鍵詞:信息抽取 XML XSLT
Abstract
With the explosion of Web, how to get the piece of information what he want from the web has become a serious problem, so information extraction from web pages is necessary. Wrapper is the program that performs the extraction task and the key problems are how to constructing accurate, robust and adaptable wrapper without much human intervention, and the wrapper should be independent on particular web sites and could avoid impact from changes of web pages.
Many approaches have been proposed to generate wrapper, but they have different limitations that hard to make it accurate, robust or general. This dissertation studied and analyzed those approaches
This paper apply standard technologies of XML to web extraction problem and developed a platform of web information extraction based XML. With Inductive Learning arithmetic lactated and identified the information blocks that we want. This paper used standard XSLT and Xpath, exploiting their powers of data location and conversion, to solve the key problem: writing extraction rules.
At last, this paper studied the optimization of extraction rules and compared several information location methods. The aim is to generate simple, robust and general extraction rules.
Key Words: Information Extraction XML XSLT
TA們正在看...
- dctools測(cè)試項(xiàng)目(oqc).doc
- declarationofconformity-2010mdd原件.doc
- echa成員國(guó)委員會(huì)通過(guò)14個(gè)高關(guān)注物質(zhì).doc
- emc.ppt
- emc系列講座之一-結(jié)構(gòu)與線材設(shè)計(jì).ppt
- emi安規(guī).ppt
- en60335-1(chinese)-update.doc
- en1041-2008.doc
- en_980-2008_symbols_for_use_in_the_labelling_of...doc
- esd防護(hù)對(duì)策.doc