爬虫 - 布隆过滤器 - 高效检测URL是否已抓取

布隆过滤器是一种高效的空间数据结构，用于快速检测元素是否存在于集合中，尤其适用于爬虫中URL去重。其核心优势是低内存占用和快速查询，但存在一定误判率（假阳性，绝不会假阴性）。

工作原理

位数组：使用二进制向量（bit array）存储数据。
哈希函数：通过多个哈希函数将元素映射到不同的位下标。
操作流程：
- 添加元素：将每个哈希对应的位设为1。
- 检查元素：若所有哈希位均为1，则可能已存在；否则不存在。

示例代码（Python）

使用 mmh3 哈希库和 bitarray 实现简单布隆过滤器：

import mmh3
from bitarray import bitarray
class BloomFilter:
    def __init__(self, size, hash_count):
        self.size = size
        self.hash_count = hash_count
        self.bit_array = bitarray(size)
        self.bit_array.setall(0)
    def add(self, url):
        """添加URL到过滤器"""
        for seed in range(self.hash_count):
            index = mmh3.hash(url, seed) % self.size
            self.bit_array[index] = 1
    def exists(self, url):
        """检查URL是否可能已存在"""
        for seed in range(self.hash_count):
            index = mmh3.hash(url, seed) % self.size
            if self.bit_array[index] == 0:
                return False
        return True

参数设置与误判率

公式：
- 位数组大小（m）：m = -(n * ln(p)) / (ln2)^2
- 哈希函数数（k）：k = (m/n) * ln2
  - n：预期元素数量，p：允许的误判率。
示例计算：
若预计处理 1,000,000 个URL，误判率设为 1% (0.01)：
- m ≈ 9,585,059 bits （约1.14MB）
- k ≈ 7 个哈希函数。

使用示例

# 初始化：1百万容量，7个哈希函数，误判率约1%
bf = BloomFilter(9585059, 7)
url1 = "https://example.com"
url2 = "https://new-url.com"
bf.add(url1)
print(bf.exists(url1))  # 输出 True（准确判断）
print(bf.exists(url2))  # 输出 False（或小概率True，误判）

优缺点

优点：
- 内存占用极低（远低于哈希表）。
- 插入和查询时间复杂度均为 O(k)（k为哈希函数数）。
缺点：
- 存在误判率，需根据场景调整参数。
- 不支持删除操作（可用计数布隆过滤器改进）。

实际应用

分布式爬虫：结合Redis等工具实现分布式布隆过滤器。
预处理阶段：快速过滤已爬取的URL，减少重复请求。

通过合理设计参数，布隆过滤器能够以极小的内存代价，高效处理海量URL去重问题。

.bat程序教程	python入门基础教程	Pandas教程	Pygame教程
Django3.2.9教程	Flask1.1.1教程	python3.X - 区块链教程	Java教程
Spring教程	C#教程	PHP教程	R教程
Node.js教程	mysql数据库教程	Redis数据库教程	MongoDB数据库教程
RabbitMQ教程	Lua教程	FindBI教程	HTML5教程
CSS教程	Javascript教程	jQuery教程	微信小程序教程
微信小游戏教程	Vue.js教程	服务器教程	TensorFlow教程
PyTorch教程	Unity教程	Objective-C教程	Android教程
AppleScript教程	Mac - SHELL教程	算法教程	Python教程
数据库教程	运维工具教程	Nginx教程	Docker教程

爬虫 - 布隆过滤器 - 高效检测URL是否已抓取

工作原理

示例代码（Python）

参数设置与误判率

使用示例

优缺点

实际应用

精彩教程