数据处理 - pandas - 二维数据表处理与分析,支持时间序列
数值计算 - NumPy - 多维数组高效运算与线性代数操作
科学计算 - SciPy - 算法库,涵盖优化、积分等数学工具
大数据处理 - Dask - 并行计算框架,兼容Pandas/NumPy接口
交互分析 - Polars - 多线程DataFrame库,适用于大规模数据
数据清洗 - pyjanitor - 链式方法增强Pandas数据清洗流程
内存优化 - Vaex - 懒加载与内存映射技术处理超大数据
数据可视化 - Matplotlib - 基础绘图库,高度定制图表生成
统计绘图 - Seaborn - 基于Matplotlib的高级统计图形接口
交互可视化 - Plotly - 动态交互式图表与仪表盘构建工具
Web可视化 - Bokeh - 支持浏览器端渲染的交互式可视化库
地理数据处理 - GeoPandas - 扩展Pandas支持地理空间数据操作
图像处理 - OpenCV - 计算机视觉库,图像分析与特征提取
时间序列 - Prophet - 针对商业预测的时间序列分解模型
数据库交互 - SQLAlchemy - 数据库ORM与SQL表达式语言工具
异步数据库 - asyncpg - PostgreSQL异步客户端提升IO性能
文档处理 - PyPDF2 - PDF文本提取、分割与合并操作
文本处理 - NLTK - 自然语言处理基础库,含语料与算法
高级NLP - spaCy - 工业级自然语言理解与实体识别框架
文本挖掘 - Gensim - 主题建模与词向量训练库
数据爬取 - Requests - HTTP库,获取网页数据与API交互
动态网页爬取 - Selenium - 浏览器自动化测试与数据抓取
数据解析 - BeautifulSoup - HTML/XML文档解析与元素提取
分布式计算 - PySpark - Spark接口,集群环境大数据处理
并行加速 - Numba - 基于LLVM的Python代码即时编译优化
GPU计算 - CuPy - 兼容NumPy接口的GPU加速计算库
数值加速 - PyTorch - 动态图深度学习框架,支持GPU张量
自动微分 - JAX - 可组合函数转换与高性能数值计算
机器学习 - scikit-learn - 分类、回归、聚类等算法统一接口
集成学习 - XGBoost - 梯度提升树算法库,竞赛常用工具
轻量级GBDT - LightGBM - 微软高效梯度提升框架,支持并行
自动化ML - TPOT - 基于遗传算法的自动化机器学习管道
特征工程 - Feature-engine - 封装常见特征预处理与转换方法
统计模型 - statsmodels - 统计分析库,支持假设检验与建模
概率编程 - PyMC3 - 贝叶斯统计与马尔科夫链蒙特卡罗模拟
数据标注 - Label Studio - 多功能数据标注与质量管理工具
数据版本控制 - DVC - 机器学习项目数据与模型版本管理
实验追踪 - MLflow - 机器学习生命周期管理及结果追踪
工作流编排 - Prefect - 任务调度与数据处理流水线框架
配置管理 - Hydra - 动态配置文件与多实验参数管理
代码格式化 - Black - 自动化PEP8代码风格统一工具
环境隔离 - Poetry - 虚拟环境与依赖管理一体化解决方案
文档生成 - Sphinx - 从代码注释生成结构化项目文档
测试框架 - pytest - 单元测试与复杂功能测试运行器
调试工具 - ipdb - IPython集成交互式代码调试器
日志管理 - Loguru - 简化日志记录与可视化输出库
进度跟踪 - tqdm - 终端进度条显示与任务耗时估算工具
数据验证 - Great Expectations - 数据质量测试与结果可视化
异常检测 - PyOD - 无监督离群点检测算法集成库
数据合成 - SDV - 基于生成模型的表格数据合成与模拟
图数据分析 - NetworkX - 复杂网络结构与图算法分析库
金融分析 - pyfolio - 投资组合收益与风险分析工具库
异常检测 - Alibi - 机器学习模型异常检测与解释工具
模型解释 - SHAP - 基于博弈论的模型预测解释库
数据标注 - Snorkel - 弱监督学习框架,生成训练标签