職位信息垂直搜索引擎的系統與實現.doc
約38頁DOC格式手機打開展開
職位信息垂直搜索引擎的系統與實現,1.5萬字38頁原創(chuàng)作品,已通過查重系統摘要 目前就業(yè)信息發(fā)布途徑增多,出現了如智聯招聘、51job等大大小小的招聘信息網站。同一個招聘信息可以發(fā)布在不同網站,而每個網站的信息只限站內搜索。為了方便求職者能夠及時、快速的獲取職位招聘信息,本論文就這種實際情況并基于垂直搜索引擎的特點設計并...
內容介紹
此文檔由會員 馬甲線女神 發(fā)布
職位信息垂直搜索引擎的系統與實現
1.5萬字 38頁 原創(chuàng)作品,已通過查重系統
摘要 目前就業(yè)信息發(fā)布途徑增多,出現了如智聯招聘、51job等大大小小的招聘信息網站。同一個招聘信息可以發(fā)布在不同網站,而每個網站的信息只限站內搜索。為了方便求職者能夠及時、快速的獲取職位招聘信息,本論文就這種實際情況并基于垂直搜索引擎的特點設計并實現了職位信息垂直搜索引擎。
本論文在深入研究垂直搜索引擎的關鍵技術的基礎上分析設計并實現了基于Lucene的職位信息垂直搜索引擎系統。本系統主要包含如下個功能模塊:
(1)網頁采集模塊:該模塊負責抓取下載招聘網站上的網頁,其能夠抓取有效的招聘信息頁面,過濾掉與主題無關的網頁。本系統通過設計專業(yè)的網絡爬蟲,采用廣度優(yōu)先策略來實現該功能模塊。
(2)網頁解析模塊:網頁解析模塊的功能是過濾掉網頁上無用的信息(網頁去噪),提取出僅與主題相關的信息。如:正文內容、標題、超鏈接、信息來源和更新時間等信息,以供相關度分析模塊進行下一步的處理判斷。本系統使用開源工具包HTMLParser,采用基于HTML網頁結構的方法實現對網頁信息的提取。
(3)索引和數據存儲模塊:該模塊為網頁解析模塊提取出的結構化信息創(chuàng)建索引,并將結構化信息存儲到數據庫中。本系統借助全文檢索框架Lucene,采用基于詞典的中文分詞方法對結構化信息建立索引,并對索引進行優(yōu)化處理。
(4)檢索模塊:信息檢索模塊的目的是接收用戶提交的查詢分析查詢并從索引庫中檢索出相關的文檔根據文檔與查詢的相關度進行排序將排序后的文檔列表返回給用戶
最后建立職位信息垂直搜索引擎系統Web頁面,完成了對整個系統的構建工作。
關鍵詞:垂直搜索引擎 專業(yè)網絡爬蟲 Lucene 廣度優(yōu)先 HTMLParser 網頁去噪 中文分詞
1.5萬字 38頁 原創(chuàng)作品,已通過查重系統
摘要 目前就業(yè)信息發(fā)布途徑增多,出現了如智聯招聘、51job等大大小小的招聘信息網站。同一個招聘信息可以發(fā)布在不同網站,而每個網站的信息只限站內搜索。為了方便求職者能夠及時、快速的獲取職位招聘信息,本論文就這種實際情況并基于垂直搜索引擎的特點設計并實現了職位信息垂直搜索引擎。
本論文在深入研究垂直搜索引擎的關鍵技術的基礎上分析設計并實現了基于Lucene的職位信息垂直搜索引擎系統。本系統主要包含如下個功能模塊:
(1)網頁采集模塊:該模塊負責抓取下載招聘網站上的網頁,其能夠抓取有效的招聘信息頁面,過濾掉與主題無關的網頁。本系統通過設計專業(yè)的網絡爬蟲,采用廣度優(yōu)先策略來實現該功能模塊。
(2)網頁解析模塊:網頁解析模塊的功能是過濾掉網頁上無用的信息(網頁去噪),提取出僅與主題相關的信息。如:正文內容、標題、超鏈接、信息來源和更新時間等信息,以供相關度分析模塊進行下一步的處理判斷。本系統使用開源工具包HTMLParser,采用基于HTML網頁結構的方法實現對網頁信息的提取。
(3)索引和數據存儲模塊:該模塊為網頁解析模塊提取出的結構化信息創(chuàng)建索引,并將結構化信息存儲到數據庫中。本系統借助全文檢索框架Lucene,采用基于詞典的中文分詞方法對結構化信息建立索引,并對索引進行優(yōu)化處理。
(4)檢索模塊:信息檢索模塊的目的是接收用戶提交的查詢分析查詢并從索引庫中檢索出相關的文檔根據文檔與查詢的相關度進行排序將排序后的文檔列表返回給用戶
最后建立職位信息垂直搜索引擎系統Web頁面,完成了對整個系統的構建工作。
關鍵詞:垂直搜索引擎 專業(yè)網絡爬蟲 Lucene 廣度優(yōu)先 HTMLParser 網頁去噪 中文分詞