微信登录

网络爬虫 - 数据抓取与网页解析

图标标题权限标签图片
1网络请求 - requests - 发送HTTP请求获取网页内容 公开
2网页解析 - beautifulsoup4 - 解析HTML/XML文档提取数据 公开
3网络请求 - httpx - 支持HTTP/2的异步请求库 公开
4数据解析 - lxml - 高性能XPath与HTML解析库 公开
5自动化工具 - selenium - 模拟浏览器操作处理动态页面 公开
6框架 - scrapy - 异步爬虫框架支持分布式扩展 公开
7网络请求 - aiohttp - 异步HTTP客户端/服务器库 公开
8数据解析 - pyquery - jQuery语法解析HTML文档 公开
9反爬应对 - fake-useragent - 生成随机用户代理绕过反爬检测 公开
10代理管理 - proxyPool - 自建代理IP池实现IP轮换 公开
11验证处理 - pytesseract - OCR识别图片验证码内容 公开
12数据存储 - sqlalchemy - ORM工具支持多数据库交互 公开
13异步框架 - scrapy-redis - 基于Redis的Scrapy分布式扩展 公开
14自动化工具 - playwright - 跨浏览器自动化测试工具 公开
15数据解析 - parsel - Scrapy内置选择器库支持XPath/CSS 公开
16反爬应对 - cloudscraper - 绕过Cloudflare反爬防护 公开
17工具集 - tldextract - 精确分离域名各部分信息 公开
18网络监控 - sentry-sdk - 错误日志监控与实时警报 公开
19数据压缩 - brotli - 支持Brotli压缩算法解码 公开
20异步处理 - asyncio - Python原生异步I/O框架 公开
21数据存储 - elasticsearch-py - Elasticsearch官方Python客户端 公开
22数据解析 - jsonpath - JSON数据路径解析提取 公开
23数据存储 - openpyxl - 读写Excel表格文件数据 公开
24工具集 - python-dotenv - 环境变量配置文件管理 公开
25反爬应对 - undetected-chromedriver - 绕过浏览器指纹检测 公开
26验证处理 - ddddocr - 深度学习验证码识别库 公开
27数据加密 - cryptography - HTTPS证书与数据加解密 公开
28工具集 - python-dateutil - 日期时间格式化处理工具 公开
29数据解析 - dateparser - 多语言日期字符串解析 公开
30网络请求 - websockets - WebSocket协议双向通信库 公开
31代理管理 - ProxyBroker - 自动获取验证代理IP池 公开
32数据存储 - psycopg2 - PostgreSQL数据库适配器 公开
33数据存储 - csvkit - CSV文件读写与转换工具 公开
34自动化工具 - splash - 基于WebKit的JavaScript渲染服务 公开
35反爬应对 - requests-html - 集成JavaScript渲染的请求库 公开
36工具集 - chardet - 自动检测文本编码格式 公开
37数据处理 - jmespath - JSON查询表达式提取数据 公开
38工具集 - tqdm - 命令行进度条可视化工具 公开
39数据存储 - sqlite3 - 内置轻量级SQLite数据库接口 公开
40数据解析 - html5lib - 兼容性HTML解析生成DOM树 公开
41数据解析 - xmltodict - XML数据转Python字典格式 公开
42工具集 - retrying - 函数重试机制装饰器 公开
43数据存储 - pyspark - 大数据分布式处理框架 公开
44验证处理 - captcha - 生成与识别简单验证码 公开
45框架 - pyspider - 轻量级爬虫框架支持任务监控 公开
46工具集 - furl - URL解析与参数拼接工具 公开
47分布式任务 - rq - 轻量级Redis任务队列库 公开
48代理管理 - scrapoxy - 集成代理服务的爬虫中间件 公开
49反爬应对 - rotate-user-agents - 自动轮换请求头用户代理 公开
50数据存储 - influxdb - 时序数据库存储监控数据 公开
51验证处理 - 2captcha - 第三方验证码识别API封装 公开
52工具集 - backoff - 灵活的函数异常重试机制 公开
53数据解析 - selectorlib - YAML模板定义数据抽取规则 公开
54数据存储 - pyodbc - 连接ODBC数据库的统一接口 公开
55框架 - feapder - 支持分布式及断点续爬的框架 公开
56数据处理 - jq - 命令行JSON处理工具Python封装 公开
57反爬应对 - selenium-stealth - 隐藏Selenium自动化特征 公开
58工具集 - parse - 字符串模板解析抽取数据 公开
59代理管理 - proxy-db - 代理IP数据库校验管理 公开
60数据存储 - motor - 异步MongoDB驱动库 公开
61验证处理 - pyppeteer - 无头Chrome自动化控制库 公开
62工具集 - ua-parser - 解析用户代理字符串信息 公开
63数据存储 - tinydb - 轻量级NoSQL文件数据库 公开
64数据解析 - extruct - 提取网页微格式结构化数据 公开
65网络请求 - treq - 基于Twisted的异步HTTP库 公开
66框架 - gerapy - Scrapy项目管理与部署工具 公开
67反爬应对 - pycurl - libcurl库Python接口高效请求 公开
68代理管理 - torpy - Tor匿名网络请求库 公开
69数据存储 - pickle - Python对象序列化存储 公开
70数据清洗 - ftfy - 修复乱码与错误编码文本 公开
71工具集 - click - 命令行工具快速开发框架 公开
72分布式任务 - dramatiq - 高性能异步任务队列库 公开
73反爬应对 - cfscrape - 绕过Cloudflare反爬虫防护 公开
74数据解析 - htmldom - 类JavaScript的DOM操作库 公开
75工具集 - inflection - 字符串格式转换工具库 公开
76代理管理 - proxy-tools - 代理IP采集与验证模块 公开
77数据存储 - alembic - 数据库迁移管理工具 公开
78验证处理 - speech_recognition - 音频验证码转文本 公开
79工具集 - python-slugify - 生成URL友好字符串 公开
80反爬应对 - antipathy - 基于机器学习识别爬虫流量 公开
81数据解析 - xpath-generator - 自动生成XPath选择器 公开
82分布式任务 - huey - 轻量级多线程任务队列 公开
83代理管理 - shadowsocks - 加密代理隧道工具 公开
84数据存储 - arrow - 日期时间处理与格式化 公开
85工具集 - pyfakefs - 内存虚拟文件系统测试工具 公开
86反爬应对 - fake-headers - 生成真实请求头信息 公开
87框架 - crochet - Twisted异步库同步化封装 公开
88数据存储 - tablib - 多格式数据表格导出库 公开
89工具集 - xmlschema - XML模式校验与数据转换 公开
90代理管理 - sshtunnel - 通过SSH隧道转发请求 公开
91验证处理 - audio-metadata - 提取音频文件元信息 公开
92工具集 - pypeln - 简化并行数据处理流程 公开
93反爬应对 - diff-engine - 检测网页结构变化 公开
94数据解析 - cssselect - CSS选择器解析HTML 公开
95工具集 - tenacity - 功能增强版重试库公开