1 | | 网络请求 - requests - 发送HTTP请求获取网页内容 | 公开 | | |
---|
2 | | 网页解析 - beautifulsoup4 - 解析HTML/XML文档提取数据 | 公开 | | |
---|
3 | | 网络请求 - httpx - 支持HTTP/2的异步请求库 | 公开 | | |
---|
4 | | 数据解析 - lxml - 高性能XPath与HTML解析库 | 公开 | | |
---|
5 | | 自动化工具 - selenium - 模拟浏览器操作处理动态页面 | 公开 | | |
---|
6 | | 框架 - scrapy - 异步爬虫框架支持分布式扩展 | 公开 | | |
---|
7 | | 网络请求 - aiohttp - 异步HTTP客户端/服务器库 | 公开 | | |
---|
8 | | 数据解析 - pyquery - jQuery语法解析HTML文档 | 公开 | | |
---|
9 | | 反爬应对 - fake-useragent - 生成随机用户代理绕过反爬检测 | 公开 | | |
---|
10 | | 代理管理 - proxyPool - 自建代理IP池实现IP轮换 | 公开 | | |
---|
11 | | 验证处理 - pytesseract - OCR识别图片验证码内容 | 公开 | | |
---|
12 | | 数据存储 - sqlalchemy - ORM工具支持多数据库交互 | 公开 | | |
---|
13 | | 异步框架 - scrapy-redis - 基于Redis的Scrapy分布式扩展 | 公开 | | |
---|
14 | | 自动化工具 - playwright - 跨浏览器自动化测试工具 | 公开 | | |
---|
15 | | 数据解析 - parsel - Scrapy内置选择器库支持XPath/CSS | 公开 | | |
---|
16 | | 反爬应对 - cloudscraper - 绕过Cloudflare反爬防护 | 公开 | | |
---|
17 | | 工具集 - tldextract - 精确分离域名各部分信息 | 公开 | | |
---|
18 | | 网络监控 - sentry-sdk - 错误日志监控与实时警报 | 公开 | | |
---|
19 | | 数据压缩 - brotli - 支持Brotli压缩算法解码 | 公开 | | |
---|
20 | | 异步处理 - asyncio - Python原生异步I/O框架 | 公开 | | |
---|
21 | | 数据存储 - elasticsearch-py - Elasticsearch官方Python客户端 | 公开 | | |
---|
22 | | 数据解析 - jsonpath - JSON数据路径解析提取 | 公开 | | |
---|
23 | | 数据存储 - openpyxl - 读写Excel表格文件数据 | 公开 | | |
---|
24 | | 工具集 - python-dotenv - 环境变量配置文件管理 | 公开 | | |
---|
25 | | 反爬应对 - undetected-chromedriver - 绕过浏览器指纹检测 | 公开 | | |
---|
26 | | 验证处理 - ddddocr - 深度学习验证码识别库 | 公开 | | |
---|
27 | | 数据加密 - cryptography - HTTPS证书与数据加解密 | 公开 | | |
---|
28 | | 工具集 - python-dateutil - 日期时间格式化处理工具 | 公开 | | |
---|
29 | | 数据解析 - dateparser - 多语言日期字符串解析 | 公开 | | |
---|
30 | | 网络请求 - websockets - WebSocket协议双向通信库 | 公开 | | |
---|
31 | | 代理管理 - ProxyBroker - 自动获取验证代理IP池 | 公开 | | |
---|
32 | | 数据存储 - psycopg2 - PostgreSQL数据库适配器 | 公开 | | |
---|
33 | | 数据存储 - csvkit - CSV文件读写与转换工具 | 公开 | | |
---|
34 | | 自动化工具 - splash - 基于WebKit的JavaScript渲染服务 | 公开 | | |
---|
35 | | 反爬应对 - requests-html - 集成JavaScript渲染的请求库 | 公开 | | |
---|
36 | | 工具集 - chardet - 自动检测文本编码格式 | 公开 | | |
---|
37 | | 数据处理 - jmespath - JSON查询表达式提取数据 | 公开 | | |
---|
38 | | 工具集 - tqdm - 命令行进度条可视化工具 | 公开 | | |
---|
39 | | 数据存储 - sqlite3 - 内置轻量级SQLite数据库接口 | 公开 | | |
---|
40 | | 数据解析 - html5lib - 兼容性HTML解析生成DOM树 | 公开 | | |
---|
41 | | 数据解析 - xmltodict - XML数据转Python字典格式 | 公开 | | |
---|
42 | | 工具集 - retrying - 函数重试机制装饰器 | 公开 | | |
---|
43 | | 数据存储 - pyspark - 大数据分布式处理框架 | 公开 | | |
---|
44 | | 验证处理 - captcha - 生成与识别简单验证码 | 公开 | | |
---|
45 | | 框架 - pyspider - 轻量级爬虫框架支持任务监控 | 公开 | | |
---|
46 | | 工具集 - furl - URL解析与参数拼接工具 | 公开 | | |
---|
47 | | 分布式任务 - rq - 轻量级Redis任务队列库 | 公开 | | |
---|
48 | | 代理管理 - scrapoxy - 集成代理服务的爬虫中间件 | 公开 | | |
---|
49 | | 反爬应对 - rotate-user-agents - 自动轮换请求头用户代理 | 公开 | | |
---|
50 | | 数据存储 - influxdb - 时序数据库存储监控数据 | 公开 | | |
---|
51 | | 验证处理 - 2captcha - 第三方验证码识别API封装 | 公开 | | |
---|
52 | | 工具集 - backoff - 灵活的函数异常重试机制 | 公开 | | |
---|
53 | | 数据解析 - selectorlib - YAML模板定义数据抽取规则 | 公开 | | |
---|
54 | | 数据存储 - pyodbc - 连接ODBC数据库的统一接口 | 公开 | | |
---|
55 | | 框架 - feapder - 支持分布式及断点续爬的框架 | 公开 | | |
---|
56 | | 数据处理 - jq - 命令行JSON处理工具Python封装 | 公开 | | |
---|
57 | | 反爬应对 - selenium-stealth - 隐藏Selenium自动化特征 | 公开 | | |
---|
58 | | 工具集 - parse - 字符串模板解析抽取数据 | 公开 | | |
---|
59 | | 代理管理 - proxy-db - 代理IP数据库校验管理 | 公开 | | |
---|
60 | | 数据存储 - motor - 异步MongoDB驱动库 | 公开 | | |
---|
61 | | 验证处理 - pyppeteer - 无头Chrome自动化控制库 | 公开 | | |
---|
62 | | 工具集 - ua-parser - 解析用户代理字符串信息 | 公开 | | |
---|
63 | | 数据存储 - tinydb - 轻量级NoSQL文件数据库 | 公开 | | |
---|
64 | | 数据解析 - extruct - 提取网页微格式结构化数据 | 公开 | | |
---|
65 | | 网络请求 - treq - 基于Twisted的异步HTTP库 | 公开 | | |
---|
66 | | 框架 - gerapy - Scrapy项目管理与部署工具 | 公开 | | |
---|
67 | | 反爬应对 - pycurl - libcurl库Python接口高效请求 | 公开 | | |
---|
68 | | 代理管理 - torpy - Tor匿名网络请求库 | 公开 | | |
---|
69 | | 数据存储 - pickle - Python对象序列化存储 | 公开 | | |
---|
70 | | 数据清洗 - ftfy - 修复乱码与错误编码文本 | 公开 | | |
---|
71 | | 工具集 - click - 命令行工具快速开发框架 | 公开 | | |
---|
72 | | 分布式任务 - dramatiq - 高性能异步任务队列库 | 公开 | | |
---|
73 | | 反爬应对 - cfscrape - 绕过Cloudflare反爬虫防护 | 公开 | | |
---|
74 | | 数据解析 - htmldom - 类JavaScript的DOM操作库 | 公开 | | |
---|
75 | | 工具集 - inflection - 字符串格式转换工具库 | 公开 | | |
---|
76 | | 代理管理 - proxy-tools - 代理IP采集与验证模块 | 公开 | | |
---|
77 | | 数据存储 - alembic - 数据库迁移管理工具 | 公开 | | |
---|
78 | | 验证处理 - speech_recognition - 音频验证码转文本 | 公开 | | |
---|
79 | | 工具集 - python-slugify - 生成URL友好字符串 | 公开 | | |
---|
80 | | 反爬应对 - antipathy - 基于机器学习识别爬虫流量 | 公开 | | |
---|
81 | | 数据解析 - xpath-generator - 自动生成XPath选择器 | 公开 | | |
---|
82 | | 分布式任务 - huey - 轻量级多线程任务队列 | 公开 | | |
---|
83 | | 代理管理 - shadowsocks - 加密代理隧道工具 | 公开 | | |
---|
84 | | 数据存储 - arrow - 日期时间处理与格式化 | 公开 | | |
---|
85 | | 工具集 - pyfakefs - 内存虚拟文件系统测试工具 | 公开 | | |
---|
86 | | 反爬应对 - fake-headers - 生成真实请求头信息 | 公开 | | |
---|
87 | | 框架 - crochet - Twisted异步库同步化封装 | 公开 | | |
---|
88 | | 数据存储 - tablib - 多格式数据表格导出库 | 公开 | | |
---|
89 | | 工具集 - xmlschema - XML模式校验与数据转换 | 公开 | | |
---|
90 | | 代理管理 - sshtunnel - 通过SSH隧道转发请求 | 公开 | | |
---|
91 | | 验证处理 - audio-metadata - 提取音频文件元信息 | 公开 | | |
---|
92 | | 工具集 - pypeln - 简化并行数据处理流程 | 公开 | | |
---|
93 | | 反爬应对 - diff-engine - 检测网页结构变化 | 公开 | | |
---|
94 | | 数据解析 - cssselect - CSS选择器解析HTML | 公开 | | |
---|
95 | | 工具集 - tenacity - 功能增强版重试库 | 公开 | | |
---|