網頁凈化方法的研究與實現(xiàn)_獨家原創(chuàng).doc
約37頁DOC格式手機打開展開
網頁凈化方法的研究與實現(xiàn)_獨家原創(chuàng),網頁凈化方法的研究與實現(xiàn)1.3萬字自己原創(chuàng)的畢業(yè)論文,已經通過校內系統(tǒng)檢測,重復率低,僅在本站獨家出售,大家放心下載使用摘要 隨著internet的快速發(fā)展,萬維網已經發(fā)展成為一個龐大的信息空間,為人們提供了極其豐富的信息資源,也使網頁數(shù)據成為目前各種應用和研究的重要數(shù)據源之一。網頁數(shù)據通常包含了各種內容, 如廣告、導...
內容介紹
此文檔由會員 小丑88 發(fā)布
網頁凈化方法的研究與實現(xiàn)
1.3萬字
自己原創(chuàng)的畢業(yè)論文,已經通過校內系統(tǒng)檢測,重復率低,僅在本站獨家出售,大家放心下載使用
摘要 隨著Internet的快速發(fā)展,萬維網已經發(fā)展成為一個龐大的信息空間,為人們提供了極其豐富的信息資源,也使網頁數(shù)據成為目前各種應用和研究的重要數(shù)據源之一。網頁數(shù)據通常包含了各種內容, 如廣告、導航條、相關鏈接、正文等, 然而對于不同的研究和應用來說, 并非所有內容都是必需的, 相反, 不相關的內容反而會影響研究以及應用的效果和效率, 因此網頁去噪是一個基礎問題, 是提高Web應用的程序性能的關鍵技術之一,也是目前熱點研究的問題。
本文首先對網頁去噪的必要性進行了簡要說明, 并對網頁去噪進行了定義和分類, 然后簡單概介紹了幾種網頁去噪的方法及其特點,接著深入分析了一種基于模板的網頁凈化方法。該方法提出了一種數(shù)據結構——風格樹(Style Tree,SST),來表示一個網站給定的網頁文檔集合的結構和內容。通過遍歷網站風格樹(Site Style Tree ,SST)來計算出SST樹中每個元素節(jié)點它自身和它所有的子節(jié)點的重要性,然后和指定的閾值進行比較,確定哪些是噪音,再把它們刪除。
實驗表明,本文重點提出的算法能夠對模板型的網頁進行有效的凈化。
關鍵詞 網頁去噪 信息提取 模板 萬維網
Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web
目 錄
第一章 引 言 1
1.1 研究背景 1
1.2 研究現(xiàn)狀 1
1.3 研究內容 1
1.4 論文結構 2
第二章 相關知識 3
2.1 網頁正文的定義及分類 3
2.2 網頁表示 4
2.3 HTML 4
2.3.1 HTML基本語法 4
2.3.2 HTML的特點 5
2.4 網頁去噪的定義和分類 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 網頁地址樹 8
2.7 網頁凈化方法效果評估 8
第三章 網頁凈化算法 10
3.1 基于啟發(fā)式規(guī)則的網頁凈化算法 10
3.1.1 基于內容規(guī)則的網頁凈化算法 10
3.1.2 基于視覺的網頁凈化算法 10
3.2 基于機器學習的網頁凈化算法 11
3.2.1 一個框架 11
3.2.2 L-Extractor算法 12
第四章 網頁自動分類 13
4.1 頁面分類 13
4.2 網頁相似度計算 13
4.2.1 最長公共子序列 14
4.2.2 比較網頁結構相似度 15
第五章 基于模板的網頁凈化算法 17
5.1 文檔樹 17
5.2 風格樹 19
5.2.1 風格節(jié)點 21
5.2.2 元素節(jié)點 21
5.2.3 風格樹創(chuàng)建過程 22
5.3 確定噪音元素 22
5.3.1 節(jié)點重要性 24
5.3.2 綜合重要性 25
5.4 整體算法 27
5.5算法測試 27
5.5.1 測試環(huán)境 27
5.5.2 測試過程 28
5.5.3 測試結果 28
5.6 在搜索引擎中的應用 29
結 論 31
致 謝 32
參考文獻 33
1.3萬字
自己原創(chuàng)的畢業(yè)論文,已經通過校內系統(tǒng)檢測,重復率低,僅在本站獨家出售,大家放心下載使用
摘要 隨著Internet的快速發(fā)展,萬維網已經發(fā)展成為一個龐大的信息空間,為人們提供了極其豐富的信息資源,也使網頁數(shù)據成為目前各種應用和研究的重要數(shù)據源之一。網頁數(shù)據通常包含了各種內容, 如廣告、導航條、相關鏈接、正文等, 然而對于不同的研究和應用來說, 并非所有內容都是必需的, 相反, 不相關的內容反而會影響研究以及應用的效果和效率, 因此網頁去噪是一個基礎問題, 是提高Web應用的程序性能的關鍵技術之一,也是目前熱點研究的問題。
本文首先對網頁去噪的必要性進行了簡要說明, 并對網頁去噪進行了定義和分類, 然后簡單概介紹了幾種網頁去噪的方法及其特點,接著深入分析了一種基于模板的網頁凈化方法。該方法提出了一種數(shù)據結構——風格樹(Style Tree,SST),來表示一個網站給定的網頁文檔集合的結構和內容。通過遍歷網站風格樹(Site Style Tree ,SST)來計算出SST樹中每個元素節(jié)點它自身和它所有的子節(jié)點的重要性,然后和指定的閾值進行比較,確定哪些是噪音,再把它們刪除。
實驗表明,本文重點提出的算法能夠對模板型的網頁進行有效的凈化。
關鍵詞 網頁去噪 信息提取 模板 萬維網
Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web
目 錄
第一章 引 言 1
1.1 研究背景 1
1.2 研究現(xiàn)狀 1
1.3 研究內容 1
1.4 論文結構 2
第二章 相關知識 3
2.1 網頁正文的定義及分類 3
2.2 網頁表示 4
2.3 HTML 4
2.3.1 HTML基本語法 4
2.3.2 HTML的特點 5
2.4 網頁去噪的定義和分類 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 網頁地址樹 8
2.7 網頁凈化方法效果評估 8
第三章 網頁凈化算法 10
3.1 基于啟發(fā)式規(guī)則的網頁凈化算法 10
3.1.1 基于內容規(guī)則的網頁凈化算法 10
3.1.2 基于視覺的網頁凈化算法 10
3.2 基于機器學習的網頁凈化算法 11
3.2.1 一個框架 11
3.2.2 L-Extractor算法 12
第四章 網頁自動分類 13
4.1 頁面分類 13
4.2 網頁相似度計算 13
4.2.1 最長公共子序列 14
4.2.2 比較網頁結構相似度 15
第五章 基于模板的網頁凈化算法 17
5.1 文檔樹 17
5.2 風格樹 19
5.2.1 風格節(jié)點 21
5.2.2 元素節(jié)點 21
5.2.3 風格樹創(chuàng)建過程 22
5.3 確定噪音元素 22
5.3.1 節(jié)點重要性 24
5.3.2 綜合重要性 25
5.4 整體算法 27
5.5算法測試 27
5.5.1 測試環(huán)境 27
5.5.2 測試過程 28
5.5.3 測試結果 28
5.6 在搜索引擎中的應用 29
結 論 31
致 謝 32
參考文獻 33