爬蟲指的是按照一定規則自動抓取網絡信息的程序,分為通用爬蟲和聚焦爬蟲兩大類,前者的
目標是在保持一定內容質量的情況下爬取儘可能多的站點;而後者的目標則是在爬取少量站點的情況下儘可能保持精準的內容質量。
爬蟲通常從一個或多個 URL 開始,在爬取的過程中不斷將新的並且符合要求的 URL 放人待爬隊列,直到滿足程序的停止條件。
爬蟲的的爬取過程可以分為下面3個步驟。
1. 請求指定的 URL 以獲取響應正文。
2. 解析響應正文內容並從中提取所需信息。
3. 將上一步提取的信息保存到資料庫或文件中。
No comments:
Post a Comment