久久久国产一区_国产综合久久久久_欧美亚洲丝袜_成人综合国产精品

合作QQ:25496334 TG@heimao_wiki
當前位置:首頁 >> 黑帽SEO優化 >> SEO技術 >> 站群收錄:面向網站群的主題爬蟲研

站群收錄:面向網站群的主題爬蟲研

yupang SEO技術 952

引言

從 Web 上收集特定主題數據的技術可分為兩類:

①基于搜索的發現技術[1-3],主要依靠搜索引擎查找網頁;

②基 于爬行的發現技術[4-6],主要利用 Web 鏈接結構從已下載的 網頁中提取新鏈接,從而發現更多潛在的目標網頁。

前者 適用于存在一些關鍵字可區分主題數據和其它數據的情 況,后者靈活性更強,代表技術就是聚焦爬蟲。 與普通爬蟲相比,聚焦爬蟲有明確的目標指向性,在 爬取網頁過程中能夠丟棄不相關頁面,并始終跟蹤可能導 向“相關”頁面的超鏈接,因而能更有效地收集特定主題的 數據。聚焦爬蟲框架與一般爬蟲基本相同,也即是說,它 從幾個種子鏈接(Seed URL)開始,下載相關頁面并提取其 中包含的超鏈接,然后跟蹤這些超鏈接以獲取更多頁面。 不斷重復該過程,直到無法以這種方式找到更多網頁。

聚 焦爬蟲的特殊之處在于,其會引入兩個分類器——路徑判 別器目標判別器,以決定某個超鏈接是否值得進一步訪 問,以及某頁面是否值得保存。其中,路徑判別器負責判 斷鏈接值得跟蹤與否,目標判別器負責根據網頁與主題相關與否對其進行歸類。 聚焦爬蟲研究主要集中在 3 個方面:

一是如何獲得更 有效的分類器,例如使用在線學習策略構建路徑判別器 (目標判別器依然需要進行預訓練)[7,14-18];

二是如何獲得更 好的種子鏈接,

例如維埃拉等[3] 利用 Bing 搜索引擎,使用相 關反饋(Relevance Feedback)收集種子;

三是如何設計更好 的爬行策略[8-12,19-22]。盡管這些研究從各個方面對聚焦爬 蟲進行了改進,預先訓練分類器的工作仍不可省略,因此 造成了爬蟲使用的不便。

由于其分類器是任務相關的,換 一個目標主題就要重新手動構建數據集進行訓練。 

最近,KIEN[13] 將聚焦爬行描述為一個排序問題,其跳 過分類器訓練,只使用一些示例網站作為輸入。從樣本網 站中提取關鍵詞,再通過關鍵字搜索、前向爬行和后向爬 行擴展樣本網站集,其設計的系統根據與當前樣本網站的 相似性選擇新的樣本網站。結果表明,通過適當的相似性 度量,基于排序的聚焦爬蟲可取得與基于分類器的聚焦爬 蟲相似的性能表現。但其問題設置與本文不同,其目標是 得到相關網站,而不是網頁。因此,以上實踐啟發了本文 用排序器替換預訓練分類器構建自舉聚焦爬蟲,以解決網 站群內部的主題網頁發現問題。 本 文 設 計 一 種 自 舉 聚 焦 爬 蟲(Bootstrapping Focused Crawler,簡稱 BFC),該方法為聚焦爬蟲提供一些示例網頁, 而不是預先訓練的分類器,從而可略過繁復的分類器訓練 過程。該方法適用于特定網站群中的主題數據收集,例如 收集各大學錄取信息、各公司招聘信息、各政府網站的政 策信息等。圖 1 展示了兩個爬取任務示例。任務難點在 于,上千所高校、公司雖然網站架構類似,但每個節點對應 的超鏈接文字用詞千差萬別,路徑深度與目標頁面特征也 存在顯著差異。因此,在不預訓練分類器的前提下,只提 供少量樣例網頁充當爬蟲向導,是一種新的嘗試。 由于特定網站群是眾多一手信息的源頭,如果能及 時、有效地收集相關信息并匯聚起來,將極大地降低信息 瀏覽門檻,并催生出數據可視化等應用。因此,本文提出 的網站群爬蟲具有很強的現實意義

image.png

image.png

1 網站群爬蟲爬取任務示例 

注:粗體字表示爬蟲從網站根節點出發的最優爬行路徑


1 自舉聚焦爬蟲 自舉聚焦爬蟲框架如圖 2 所示

image.png


2 自舉聚焦爬蟲框架 程序有兩個輸入:

一個是網站群站點(Website)列表, 一個是少量樣例網頁,每個樣例網頁包含其所在站點的根 鏈接和自身鏈接這一對元素。

首先,對樣例網頁進行路徑 提取與特征提取。在傳統聚焦爬蟲框架下,需要一個能引 導爬蟲到目標節點的向導(路徑判別器),以及能夠區分目 標節點與其它節點的評委(目標判別器)。路徑提取目標 是構建路徑判別器,而特征提取目標是構建目標判別器。 區別在于,本文提出的自舉聚焦爬蟲用相似度排序模塊替 代傳統框架下的目標判別器,用類似于強化學習的手段在 · 110 ·8 期 線構建路徑判別器。然后利用兩個判別器從輸入的網站 群根節點開始循環抓取網頁,并不斷把最相關的網頁加入 網頁樣例庫,用于更新兩個判別器。該流程循環進行,直 到無法發現更多網頁或達到迭代次數上限為止。 1.1 路徑判別器 

路徑判別器本質上是一個二分類器:輸入一個超鏈接 短文本,輸出其是否與要爬取的主題相關,或沿著該鏈接 是否能找到與主題相關網頁。在網站群爬蟲這個具體應 用場景中,存在一條從站點根節點到當前頁面的超鏈接路 徑(見圖 1),可利用這條路徑上的前序文本增強當前鏈接 短文本的判斷準確度。因此,本文通過路徑提取將傳統路 徑判別器的單一短文本輸入擴充為短文本列表。 在頁面爬取過程中,對每個待判別的路徑 t 打分,如果 分數大于閾值,則判定為相關鏈接。計算公式如下: f (t) = ?w ? tαw 其中,超文本 w 是路徑 t 中的詞,αw w 的權重,其 初始化使用了樣例庫提供的信息。具體而言,本文把從樣 例網頁中提取的路徑集中起來,分詞后統計每個詞的詞 頻,形成各詞的初始權重。其它詞默認初始權重為-1,以 懲罰路徑中存在過多未知詞。在爬取過程中,αw 采用類似 強化學習的策略進行更新。每當一個路徑 t 被判定為相 關,其包含詞的對應權重都消耗 1;每當找到一個目標網 頁,其對應路徑中的詞權重獎勵 2


1.2 相似度排序 

在目標判別環節,本文用排序器替換預訓練的分類 器。

具體而言,爬蟲根據訪問頁面與示例網頁的相似性對 其進行排序,將相似度大于閾值的網頁作為相關網頁輸 出,并同時將排名前 p%的網頁添加到示例庫,開始下一輪 迭代。 在計算網頁相似度時,采用以下公式: s( x) = -dcos( xx) 其中,dcos 是余弦距離,x 是從待評估網頁標題和內容 中提取文本的詞袋模型(Bag of Words)向量表示,x 是樣例 網頁整合成單一文檔生成的詞袋模型向量表示。該公式 計算的相似度是目標網頁與樣例庫的總體平均相似性。 

2 爬取效果

2.1 實驗任務與數據集 

本文按照中國大學排行榜,收集了中國排名前 200 的 大學官方網站頁面集合作為實驗數據集。為檢驗爬蟲性 能,定義主題爬取任務如下:獲取高校歷史錄取分數相關 頁面。本文手動標記每個站點與所需主題相關頁面(URL) 作為真實標簽,數據集頁面總數為 41 600,其中正樣本數量 為 1 033。 為得到樣例網頁庫作為算法輸入,本文從 200 個網站 中隨機抽取 3 個網站,并為每個網站標記一個示例頁面,得 到 3 個樣例(每個樣例含有一對數據,即目標網頁的 URL 以 及所在網站根節點的 URL)。通過對 4 組使用不同樣例集 的爬蟲計算平均得分,得到 BFC 性能得分。 

2.2 效果展示 

本 文 選 取 傳 統 聚 焦 爬 蟲(FC)作 為 基 線 算 法 進 行 對 比。出于公平性考慮,FC 所需分類器基于樣例網頁庫的少 量正樣本,采用 KNN 算法獲得。本文提出的自舉聚焦爬蟲 (BFC)與基線算法 FC 在高校歷史錄取分數爬取任務中的 表現對比如表 1 所示。 1 BFC FC 在錄取分數爬取任務中表現對比 FC BFC Precision 0.62 0.35 Recall 0.16 0.62 F1 0.25 0.45 由表 1 可以看到,BFC 的準確率(Precision)比傳統方法 FC 低很多,其原因是 FC 爬取頁面數量較少,以極低的召回 率(Recall)為代價獲得了較高準確率。然而,在爬蟲實際 使用過程中,召回率更為重要,因為要盡可能全面地收集 所需信息,而在自動篩選環節一旦遺漏相關信息,就很難 再找到目標網頁。在召回率方面,BFC 的表現遠好于 FC。 綜合準確率和召回率的指標 F1-Score 也顯示 BFC 的性能 優于 FC。 爬取部分結果如

3 所示。圖中 name 列輸出爬取站 點,url 列輸出任務相關頁面網址,path 列輸出從網站根節 點到頁面的路徑,score是該頁面相關性得分

image.png

參考文獻: 

1DISHENG QLUCIANO BXIN Let al. Dexterlarge-scale discov? ery and extraction of product specifications on the webC. Proceed? ings of the VLDB Endowment20152194-2205. 

2XUEZHI WCONG YSIMON Bet al. Relevant document discovery for fact-checking articlesC. In Companion Proceedings of the Web Conference2018525-533. 

3KARANE VLUCIANO BALTIGRAN S D Set al. Finding seeds to bootstrap focused crawlersC. In The World Wide Web Confer? ence2016449-474. 

4LUCIANO BSRINIVAS BVIVEK K R S. Crawling back and forthusing back and out links to locate bilingual sitesC. In Proceedings of 5th International Joint Conference on Natural Language Processing2011429-437. 

5TSUYOSHI M. Finding related web pages based on connectivity infor? mation from a search engineC. In WWW Posters2001. 

6LUCIANO B. Harvesting forum pages from seed sitesC. In Interna? tional Conference on Web Engineering2017457-468. 

7MCCALLUM ANIGAM KRENNIE Jet al. A machine learning ap? proach to building domain-specific search enginesC. Proceedings of the Sixteenth International Joint Conference on Artificial Intelli? gence1999662-667. 

8MICHAEL HMICHAL JYOELLE S Met al. The shark-search al? gorithm. An applicationtailored Web site mappingJ. Computer Networks & Isdn Systems1998301-7):317-326. 9BERGMARK DLAGOZE CSBITYAKOV A. Focused crawlstun? nelingand digital libraries C. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Librar? ies2002. 10MARISTELLA ACOSTANTINO T. Research and Advanced Tech? nology of digital librariesM. Springer Berlin Heidelberg200291-106. 

11] 葉勤勇. 基于 URL 規則的聚焦爬蟲及其應用[D. 杭州:浙江大 學,2007 

12BRA P M E DPOST R D J. Information retrieval in the World-Wide Webmaking client-based searching feasibleJ. Computer Net? works & Isdn Systems1994272):183-192. 

13KIEN PAECIO SJULIANA F. Bootstrapping domain-specifific con? tent discovery on the WebC. In The World Wide Web Conference20191476-1486. 

14] 傅向華,馮博琴,馬兆豐,等. 可在線增量自學習的聚焦爬行方法 [J. 西安交通大學學報,2004386):599-602. 

15] 劉國靖,康麗,羅長壽. 基于遺傳算法的主題爬蟲策略[J. 計算機 應用,20072712):172-174. 

16] 曾廣樸,范會聯. 基于遺傳算法的聚焦爬蟲搜索策略[J. 計算機 工程,20103611):167-169. 

17] 童亞拉. 自適應動態演化粒子群算法在 Web 主題信息搜索中的應 用[J. 武漢大學學報(信息科學版),20083312):1296-1299. 

18] 賀晟,程家興,蔡欣寶. 基于模擬退火算法的主題爬蟲[J. 計算機 技術與發展,20091912):55-58. 

19] 宋海洋,劉曉然,錢海俊. 一種新的主題網絡爬蟲爬行策略[J. 計 算機應用與軟件,20112811):264-267. 

20] 謝志妮. 一種新的基于概念樹的主題網絡爬蟲方法[J. 計算機與 現代化,20101764):103-106. 

21] 左薇,張熹,董紅娟,等. 主題網絡爬蟲研究綜述[J. 軟件導刊, 2020192):278-281. 

22] 韓 瑞 昕. 基 于 時 效 性 的 爬 蟲 調 度[J. 軟 件 導 刊 ,2020191): 108-112.

。轉載請注明來源地址:黑帽SEO http://www.790079.com 專注于SEO培訓,快速排名
黑帽WiKi_黑帽百科(www.790079.com),8年黑帽SEO優化技術,黑帽seo快速排名,黑帽SEO技術培訓學習,黑帽SEO快速排名程序、泛目錄寄生蟲技術,贈送免費黑帽SEO視頻教程

(黑帽seo技術,網站快速排名,蜘蛛池加速收錄,目錄程序定制)

掃一下添加微信:



協助本站SEO優化一下,謝謝!
關鍵詞不能為空

免責聲明

資料匯總于網絡,如有侵權 聯系站長刪除 http://www.790079.com

同類推薦

發表評論

訪客

◎歡迎參與討論,請在這里發表您的看法和觀點。
久久久国产一区_国产综合久久久久_欧美亚洲丝袜_成人综合国产精品
国产中文欧美精品| 久久综合一区| 成人做爰www免费看视频网站| 欧美人交a欧美精品| 欧美猛交ⅹxxx乱大交视频| 国产精品久久久久99| 国产精品高清在线观看| 欧美精品在线极品| 亚洲制服欧美久久| 欧美一级特黄aaaaaa在线看片| 天天人人精品| 日韩欧美三级一区二区| 欧美诱惑福利视频| 韩国国内大量揄拍精品视频| 精品少妇在线视频| 国产一区视频在线播放| 精品一区二区三区自拍图片区| 精品一区二区不卡| 国产精品一区二区欧美黑人喷潮水| 99在线首页视频| 久久国产精品99久久久久久丝袜| 国产成人精品一区二区在线| 国产精品你懂得| 在线免费一区| 日本一区网站| 精品一区二区日本| 91精品美女在线| www国产精品com| 久久99热这里只有精品国产| 性色av香蕉一区二区| 欧美最猛性xxxx| 国产奶头好大揉着好爽视频| 久久视频这里有精品| 久久久国产视频91| 中文字幕在线亚洲三区| 日韩欧美激情一区二区| 每日在线更新av| 97精品国产97久久久久久| 久久爱av电影| 精品久久久久久一区| 午夜精品久久久久久久99黑人| 人人澡人人澡人人看欧美| 国产女同一区二区| 色婷婷久久一区二区| 亚洲影院色在线观看免费| 欧美性在线视频| 国产久一一精品| 色婷婷综合成人av| 中文字幕一区二区三区乱码| 欧美在线观看日本一区| 成人综合视频在线| 国产精品日韩专区| 日本在线精品视频| 俄罗斯精品一区二区| 久久精品视频99| 视频在线一区二区三区| 国产欧美自拍视频| 国产精品啪啪啪视频| 日韩一级片一区二区| 国产免费一区二区视频| 久久精品99国产精品酒店日本| 一区不卡视频| 国产主播欧美精品| 久久精品福利视频| 欧美一级黄色网| 99精品欧美一区二区三区| 国产精品电影网站| 欧美日本韩国在线| 久久99精品久久久久久青青日本| 亚洲图片都市激情| 国产热re99久久6国产精品| 国产成人欧美在线观看| 成人免费在线网址| 精品久久久三级| 麻豆av福利av久久av| 国产精品日韩在线一区| 日韩中文字幕av在线| www国产无套内射com| 99在线高清视频在线播放| 欧美激情小视频| 国产免费一区二区三区在线观看| 国产精品久久久久av| 精品日产一区2区三区黄免费| 日韩中文字幕久久| 欧洲久久久久久| 啊v视频在线一区二区三区 | 激情视频小说图片| 久久久久久久久久久久久国产| 亚洲美女网站18| 99精品视频播放| 午夜精品久久久久久久99黑人| 81精品国产乱码久久久久久| 亚洲精品无码久久久久久| 国产经典久久久| 日本高清视频免费在线观看| 久草视频这里只有精品| 日韩精品极品视频在线观看免费| 精品国产欧美成人夜夜嗨| 欧美日韩亚洲综合一区二区三区激情在线| 日韩在线观看高清| 激情成人开心网| 色综合久久88色综合天天看泰| 国产精品亚洲第一区| 亚洲综合色av| 91高清免费视频| 奇米888一区二区三区| 国产精品久久久久免费a∨| 国产欧美va欧美va香蕉在线| 岳毛多又紧做起爽| 久久综合狠狠综合久久综青草| 日韩久久不卡| 国产精品免费一区| 国产伦精品一区二区三区四区免费| 一区二区不卡视频| 久久久噜久噜久久综合| 免费看国产一级片| 亚洲一区三区在线观看| 久久久久久久久久久久久久国产 | 国产精品夜夜夜爽张柏芝| 亚洲综合精品一区二区| 久久精品国产美女| 精品亚洲欧美日韩| 亚洲精品高清视频| 日韩三级成人av网| 国产美女永久无遮挡| 色婷婷综合久久久久中文字幕| 国产精品美女午夜av| 91精品久久久久久久久中文字幕 | 蜜桃视频成人| 精品国产乱码久久久久软件| 国产精品av电影| 国产专区精品视频| 欧美一区二区三区四区在线观看地址| 国产成人免费av电影| 国产美女被下药99| 人人妻人人澡人人爽欧美一区 | 97久久国产精品| 欧美精品国产精品久久久| 亚洲免费精品视频| 久久亚洲精品视频| 国产精品∨欧美精品v日韩精品 | 美乳视频一区二区| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 国产精品区一区二区三含羞草 | www.九色.com| 青青草原av在线播放| 中文字幕综合在线观看| 国产精品视频xxx| 2019日本中文字幕| 精品日韩美女| 青青青免费在线| 午夜精品一区二区三区在线播放| 国产精品高潮呻吟久久av黑人| 久久免费少妇高潮久久精品99| 国产免费黄色小视频| 欧美极品少妇无套实战| 欧美一级片中文字幕| 一区二区免费在线视频| 久久电影一区二区| 国产成人精品在线| 国产成人精品福利一区二区三区| 国产美女久久久| 精品视频一区在线| 欧美亚洲激情视频| 色噜噜色狠狠狠狠狠综合色一| 九九精品视频在线| 国产精品久久久久国产a级| 久久久久久国产三级电影| 91久久偷偷做嫩草影院| 国产精品永久免费| 国产一区红桃视频| 黄色片视频在线播放| 青青在线免费视频| 日本电影一区二区三区| 偷拍视频一区二区| 亚洲乱码一区二区三区三上悠亚| 精品久久蜜桃| 久久国产精品免费视频| 久久综合伊人77777| 国产成人精品一区二区三区| 国产激情久久久久| 国产精品 欧美在线| 91高潮精品免费porn| 久久综合伊人77777麻豆| 久久一区二区三区av| 久久久伊人欧美| 久久综合久久综合这里只有精品| 91精品国产91久久久久久最新 | 日本一区高清不卡| 亚洲欧美日韩不卡一区二区三区| 欧美激情在线观看视频| 精品免费日产一区一区三区免费| 国产精品国产三级国产aⅴ浪潮 | 色噜噜狠狠色综合网图区| 久久99国产精品99久久| 国产高清在线不卡| 国产成人一区三区| 久久久久久久爱| 国产精品欧美日韩一区二区| 国产精品乱码久久久久|