预处理 - NLTK - 自然语言处理基础库,支持分词和标注
预处理 - spaCy - 高效工业级NLP工具,支持多语言解析
预处理 - TextBlob - 简单文本处理库,内置情感分析功能
预处理 - jieba - 中文分词工具,支持自定义词典
预处理 - Gensim - 主题建模与向量空间建模工具
预处理 - Polyglot - 多语言文本处理库,支持165种语言
预处理 - scikit-learn - 文本特征提取及机器学习支持
预处理 - ftfy - 修复文本编码错误及乱码问题
预处理 - BPE - 子词切分算法,优化未登录词处理
文本分析 - TextStat - 计算文本统计指标(可读性、复杂度)
文本分析 - Pattern - 文本模式匹配及网络数据爬取
文本分析 - vaderSentiment - 社交媒体文本情感分析工具
文本分析 - Sklearn-Crfsuite - 条件随机场实现用于序列标注
文本分析 - Flair - 上下文敏感的词嵌入与序列标注框架
文本分析 - spacy-transformers - 集成Transformer模型的spaCy扩展
文本分析 - PyTorch-NLP - PyTorch生态的文本处理工具库
文本分析 - AllenNLP - 高级深度学习模型快速构建框架
文本分析 - Stanza - 斯坦福大学的多语言NLP工具包
语义理解 - sense2vec - 基于上下文的词义相似度计算
语义理解 - HanLP - 中文语义解析及依存句法分析
语义理解 - PyText - Facebook的语义理解与分类框架
语义理解 - OpenNMT - 神经机器翻译及序列生成工具
语义理解 - SNLI - 自然语言推理数据集与模型训练
语义理解 - NeuralCoref - 基于神经网络的共指消解工具
语义理解 - Spacy-Entity-Linker - 实体链接与知识库关联
语义理解 - DeepPavlov - 对话系统与问答模型框架
语义理解 - Textacy - 基于spaCy的高级语义分析工具
语义理解 - BERTopic - 基于BERT的文本主题建模框架
词向量 - Word2Vec - 生成词语分布式向量表示
词向量 - FastText - 支持子词的词向量训练工具
词向量 - GloVe - 基于全局词频的词向量生成算法
词向量 - ELMo - 动态上下文敏感的词向量模型
词向量 - Sentence-BERT - 生成句子级语义向量表示
词向量 - Poincaré - 双曲空间词向量建模工具
词向量 - Magnitude - 轻量级词向量快速加载库
词向量 - TF-Hub - 预训练词向量及模型库
词向量 - PyTorch-Transformers - Transformer模型词向量接口
模型与算法 - scikit-learn - 传统机器学习文本分类模型
模型与算法 - XGBoost - 集成学习算法用于文本分类
模型与算法 - LightGBM - 高效梯度提升树文本处理框架
模型与算法 - CatBoost - 支持类别特征的梯度提升库
模型与算法 - CRF++ - 条件随机场模型的C++实现接口
模型与算法 - TF-IDF - 经典文本特征权重计算方法
模型与算法 - LDA - 隐含狄利克雷分布主题模型
模型与算法 - HMM - 隐马尔可夫模型用于序列标注
模型与算法 - BERT - 谷歌预训练Transformer语义模型
模型与算法 - GPT - 生成式预训练Transformer模型
可视化 - matplotlib - 文本数据统计可视化工具
可视化 - seaborn - 基于matplotlib的高级统计图表库
可视化 - plotly - 交互式文本数据可视化框架
可视化 - Yellowbrick - 机器学习模型可视化工具
可视化 - WordCloud - 生成文本关键词词云图
可视化 - t-SNE - 高维词向量降维可视化方法
可视化 - pyLDAvis - LDA主题模型交互式可视化工具
可视化 - NetworkX - 文本关系网络图构建与分析
可视化 - Bokeh - 支持流式文本数据实时可视化
工具与框架 - Joblib - 机器学习流水线缓存工具
工具与框架 - Airflow - 文本处理任务调度监控平台
工具与框架 - Streamlit - 快速构建文本分析Web应用
多语言处理 - konlpy - 韩语文本处理工具包
多语言处理 - SnowNLP - 中文情感分析与文本处理
多语言处理 - KhmerNLP - 柬埔寨语文本处理库
多语言处理 - IndicNLP - 印度语言文本处理工具集
多语言处理 - UralicNLP - 乌拉尔语系语言处理支持
行业应用 - MedCAT - 医疗文本实体识别与链接
行业应用 - LegalNLP - 法律文档解析与条款抽取
行业应用 - FinNLP - 金融新闻情感分析与事件提取
行业应用 - ChemDataExtractor - 化学文献信息提取
行业应用 - CLTK - 古典语言文本分析工具包
深度学习集成 - HuggingFace-Datasets - 预训练数据集加载工具
深度学习集成 - TorchText - PyTorch文本数据预处理库
深度学习集成 - Keras-Preprocessing - Keras文本序列生成工具
深度学习集成 - SentenceTransformers - 句子嵌入模型训练框架
深度学习集成 - SimpleTransformers - 快速实现Transformer模型
增强技术 - nlpaug - 文本数据增强与扰动工具
增强技术 - TextAttack - 对抗样本生成与模型鲁棒性测试
增强技术 - Snorkel - 弱监督文本数据标注框架
增强技术 - Weakly-Supervised - 弱监督学习文本分类工具
分布式处理 - PySpark - 大规模文本分布式处理框架
分布式处理 - Dask-ML - 分布式文本机器学习库
分布式处理 - Hadoop-Streaming - Hadoop流式文本处理接口
语义搜索 - Elasticsearch - 全文检索引擎支持语义查询
语义搜索 - Faiss - 高效向量相似度搜索库
语义搜索 - Annoy - 近似最近邻搜索算法库
强化学习 - OpenAI-Gym-NLP - 文本强化学习环境模拟
强化学习 - TextWorld - 文本游戏环境训练代理
部署优化 - ONNX - 跨平台模型导出与加速