爬虫中断后继续爬取,通常有几种方法可以实现:
1. 记录已爬取的数据:
在爬取数据时,将已爬取的URL或数据内容记录下来。
在爬虫重新启动时,检查并跳过已经爬取过的内容。
2. 持久化存储:
使用数据库或文件系统将爬取到的数据持久化存储。
在爬虫重启时,从上次停止的地方继续。
以下是一些具体的实现方法:
1. 使用文件记录已爬取的URL
```python
import requests
import os
def crawl(url, data_file):
if os.path.exists(data_file):
with open(data_file, 'r') as f:
visited_urls = set(f.read().splitlines())
else:
visited_urls = set()
if url not in visited_urls:
response = requests.get(url)
处理数据
print(f"Crawled {url