核心五部曲: 列表采集規則核心只需要填寫這五個空。


1YS.jpg

  • 采集地址: 大家采集目標頁面的地址

  • 采集范圍: 你要采集目標頁面的哪一塊數據

  • 采集規則: Jquery選擇器,選擇頁面上的區域

  • 詳情頁采集范圍: 同上

  • 詳情頁采集規則: 同上


來看這是一個例子

先科普一下, 在 html 中


class 對應 Jquery 的 .


id 對應 Jquery 的 #


我下面的例子中每個選擇器都有 . 或者 # 大家放大圖仔細看。


不要拉下這些小符號了


目標采集目標地址:  這是國內某游戲新聞列表頁


https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml


打開頁面


在頁面中 點擊右鍵->檢查 即可出現下方的框框??煽吹巾撁娴脑创a


2YS.jpg

如圖所畫:


他每頁有十篇新聞


黃色區域就是我們本頁面所有文章所在的范圍


黃色區域 對應右側的代碼 區域 class = down-nr


解釋: 加上 ul  li 會循環每一個文章所在的區域。達到了我們列表批量采集的目的


注意: 這一步 請務必使用debug功能測試。(下面有介紹如何使用)


最終列表采集范圍結果:  .down-nr>ul>li


列表十篇文章的區域找到了,下面就找找十篇文章區域,所對應的文章鏈接吧


因為拿到具體的文章鏈接我們就能去采集每篇文章的內容??!


恭喜完成第一步


現在我們已經定位到了文章區域,我們現在要找到區域中文章的鏈接


3YS.jpg

一般的文章區域只有一個a就是文章地址。但是這個例子不太一樣


大家截圖中觀察 li 里面的文章區域有兩個 a


第一個a是新聞列表頁地址 第二個a才是我們需要的文章地址


我們用 Jquery 的 eq 語法 a:eq(1)   意是取 所在區域的 第二個 a


注:代碼中從 0 開始(只有一個 a標簽 可以只填 a 即可),


注:如果目標站鏈接是相對鏈接。程序會自動補全的


當當當~


最終列表采集規則:   a:eq(1) href


href 意思選擇a標簽的 href屬性(就是文章地址)


注: 請使用Debug功能(下面有介紹如何使用)


第二步完成了。。。


我們要進入文章詳情頁面啦、


有點累了。下面大家自己悟把。很簡單。


4YS.jpg

注:請使用Debug功能,每一步都使用debug功能看結果。


詳情采集范圍   .sub-cont  


解釋: 看圖 .sub-cont 包括了 標題和內容 是他們的父級區域 選擇這個區域可


詳情采集規則   title = .n_title 


詳情采集規則   content = .sub-nr


解釋: 看圖 .n_title 是文章的標題


解釋: 看圖 .sub-nr 使文章的內容


當當當~~~


終于所有的都搞完了。最終 完成的配置 


5YS.jpg

屬性解釋


href 基本指 a 標簽的 href 屬性(這個屬性存儲的是點擊后跳轉地址)

text 取區域的文本 ,一般用于標題

html 取區域的所有的html  一般用到取內容,內容比較多。且內容有排版里面有 image css js 很多東西 。所以要拿到所有的原始html

標簽過濾怎么用呢?給大家描述一下(多個過濾規則中間使用空格區分)


a 就是去除掉區域所有a標簽跳轉功能。保留文字

-a 刪除a標簽 包括刪除a標簽里面包含的內容 (不建議使用,因為有些圖片是在a里面的 刪除a 里面的 圖片也沒了。)

-div 刪除所有div

-p 同上

-b 同上

-span 同上

-p:first  刪除第一個 p標簽

-p:last  刪除最后一個 p標簽

-p:eq(-2) 刪除倒數 二個p

-p:eq(2) 刪除正數 二個p

就是這個套路…

標簽過濾支持所有 Jquery 語法,灰常強大。能幫你處理各種雜亂的數據


只是一部分過濾方法。居然更多請自行百度。


請看下圖


6YS.jpg

請看上圖,只是過濾的一部分。大家自行百度,胖鼠采集過濾功能很強大。


新手可以導入默認例子品嘗。全部都是配好的規則直接用


 Debug功能使用方法


7YS.jpg

給大家實戰一下


8YS.jpg

上面是debug是測試采集10條link有沒有采集成功。有了link之后就可以采集詳情頁面了


大家同樣要使用debug功能 測試 詳情頁 title content 是否可以獲取正確。


測試過 link title content 三個規則數據都對了。那么采集應該就十拿九穩啦。


一次花點時間配一次 就可以一直使用。希望大家花一點點時間學習一下。


這個網站只是其中一個例子。


目標站 html 與這種不同,可以動動腦筋,多改改。用Debug多看看結果


本文章出自http://www.www.qinhaozhao.cn,轉載請注明!
打賞 支付寶打賞 微信打賞