1 | | 预处理 - NLTK - 自然语言处理基础库,支持分词和标注 | 公开 | | |
---|
2 | | 预处理 - spaCy - 高效工业级NLP工具,支持多语言解析 | 公开 | | |
---|
3 | | 预处理 - TextBlob - 简单文本处理库,内置情感分析功能 | 公开 | | |
---|
4 | | 预处理 - jieba - 中文分词工具,支持自定义词典 | 公开 | | |
---|
5 | | 预处理 - Gensim - 主题建模与向量空间建模工具 | 公开 | | |
---|
6 | | 预处理 - Polyglot - 多语言文本处理库,支持165种语言 | 公开 | | |
---|
7 | | 预处理 - scikit-learn - 文本特征提取及机器学习支持 | 公开 | | |
---|
8 | | 预处理 - ftfy - 修复文本编码错误及乱码问题 | 公开 | | |
---|
9 | | 预处理 - BPE - 子词切分算法,优化未登录词处理 | 公开 | | |
---|
10 | | 文本分析 - TextStat - 计算文本统计指标(可读性、复杂度) | 公开 | | |
---|
11 | | 文本分析 - Pattern - 文本模式匹配及网络数据爬取 | 公开 | | |
---|
12 | | 文本分析 - vaderSentiment - 社交媒体文本情感分析工具 | 公开 | | |
---|
13 | | 文本分析 - Sklearn-Crfsuite - 条件随机场实现用于序列标注 | 公开 | | |
---|
14 | | 文本分析 - Flair - 上下文敏感的词嵌入与序列标注框架 | 公开 | | |
---|
15 | | 文本分析 - spacy-transformers - 集成Transformer模型的spaCy扩展 | 公开 | | |
---|
16 | | 文本分析 - PyTorch-NLP - PyTorch生态的文本处理工具库 | 公开 | | |
---|
17 | | 文本分析 - AllenNLP - 高级深度学习模型快速构建框架 | 公开 | | |
---|
18 | | 文本分析 - Stanza - 斯坦福大学的多语言NLP工具包 | 公开 | | |
---|
19 | | 语义理解 - sense2vec - 基于上下文的词义相似度计算 | 公开 | | |
---|
20 | | 语义理解 - HanLP - 中文语义解析及依存句法分析 | 公开 | | |
---|
21 | | 语义理解 - PyText - Facebook的语义理解与分类框架 | 公开 | | |
---|
22 | | 语义理解 - OpenNMT - 神经机器翻译及序列生成工具 | 公开 | | |
---|
23 | | 语义理解 - SNLI - 自然语言推理数据集与模型训练 | 公开 | | |
---|
24 | | 语义理解 - NeuralCoref - 基于神经网络的共指消解工具 | 公开 | | |
---|
25 | | 语义理解 - Spacy-Entity-Linker - 实体链接与知识库关联 | 公开 | | |
---|
26 | | 语义理解 - DeepPavlov - 对话系统与问答模型框架 | 公开 | | |
---|
27 | | 语义理解 - Textacy - 基于spaCy的高级语义分析工具 | 公开 | | |
---|
28 | | 语义理解 - BERTopic - 基于BERT的文本主题建模框架 | 公开 | | |
---|
29 | | 词向量 - Word2Vec - 生成词语分布式向量表示 | 公开 | | |
---|
30 | | 词向量 - FastText - 支持子词的词向量训练工具 | 公开 | | |
---|
31 | | 词向量 - GloVe - 基于全局词频的词向量生成算法 | 公开 | | |
---|
32 | | 词向量 - ELMo - 动态上下文敏感的词向量模型 | 公开 | | |
---|
33 | | 词向量 - Sentence-BERT - 生成句子级语义向量表示 | 公开 | | |
---|
34 | | 词向量 - Poincaré - 双曲空间词向量建模工具 | 公开 | | |
---|
35 | | 词向量 - Magnitude - 轻量级词向量快速加载库 | 公开 | | |
---|
36 | | 词向量 - TF-Hub - 预训练词向量及模型库 | 公开 | | |
---|
37 | | 词向量 - PyTorch-Transformers - Transformer模型词向量接口 | 公开 | | |
---|
38 | | 模型与算法 - scikit-learn - 传统机器学习文本分类模型 | 公开 | | |
---|
39 | | 模型与算法 - XGBoost - 集成学习算法用于文本分类 | 公开 | | |
---|
40 | | 模型与算法 - LightGBM - 高效梯度提升树文本处理框架 | 公开 | | |
---|
41 | | 模型与算法 - CatBoost - 支持类别特征的梯度提升库 | 公开 | | |
---|
42 | | 模型与算法 - CRF++ - 条件随机场模型的C++实现接口 | 公开 | | |
---|
43 | | 模型与算法 - TF-IDF - 经典文本特征权重计算方法 | 公开 | | |
---|
44 | | 模型与算法 - LDA - 隐含狄利克雷分布主题模型 | 公开 | | |
---|
45 | | 模型与算法 - HMM - 隐马尔可夫模型用于序列标注 | 公开 | | |
---|
46 | | 模型与算法 - BERT - 谷歌预训练Transformer语义模型 | 公开 | | |
---|
47 | | 模型与算法 - GPT - 生成式预训练Transformer模型 | 公开 | | |
---|
48 | | 可视化 - matplotlib - 文本数据统计可视化工具 | 公开 | | |
---|
49 | | 可视化 - seaborn - 基于matplotlib的高级统计图表库 | 公开 | | |
---|
50 | | 可视化 - plotly - 交互式文本数据可视化框架 | 公开 | | |
---|
51 | | 可视化 - Yellowbrick - 机器学习模型可视化工具 | 公开 | | |
---|
52 | | 可视化 - WordCloud - 生成文本关键词词云图 | 公开 | | |
---|
53 | | 可视化 - t-SNE - 高维词向量降维可视化方法 | 公开 | | |
---|
54 | | 可视化 - pyLDAvis - LDA主题模型交互式可视化工具 | 公开 | | |
---|
55 | | 可视化 - NetworkX - 文本关系网络图构建与分析 | 公开 | | |
---|
56 | | 可视化 - Bokeh - 支持流式文本数据实时可视化 | 公开 | | |
---|
57 | | 工具与框架 - Joblib - 机器学习流水线缓存工具 | 公开 | | |
---|
58 | | 工具与框架 - Airflow - 文本处理任务调度监控平台 | 公开 | | |
---|
59 | | 工具与框架 - Streamlit - 快速构建文本分析Web应用 | 公开 | | |
---|
60 | | 多语言处理 - konlpy - 韩语文本处理工具包 | 公开 | | |
---|
61 | | 多语言处理 - SnowNLP - 中文情感分析与文本处理 | 公开 | | |
---|
62 | | 多语言处理 - KhmerNLP - 柬埔寨语文本处理库 | 公开 | | |
---|
63 | | 多语言处理 - IndicNLP - 印度语言文本处理工具集 | 公开 | | |
---|
64 | | 多语言处理 - UralicNLP - 乌拉尔语系语言处理支持 | 公开 | | |
---|
65 | | 行业应用 - MedCAT - 医疗文本实体识别与链接 | 公开 | | |
---|
66 | | 行业应用 - LegalNLP - 法律文档解析与条款抽取 | 公开 | | |
---|
67 | | 行业应用 - FinNLP - 金融新闻情感分析与事件提取 | 公开 | | |
---|
68 | | 行业应用 - ChemDataExtractor - 化学文献信息提取 | 公开 | | |
---|
69 | | 行业应用 - CLTK - 古典语言文本分析工具包 | 公开 | | |
---|
70 | | 深度学习集成 - HuggingFace-Datasets - 预训练数据集加载工具 | 公开 | | |
---|
71 | | 深度学习集成 - TorchText - PyTorch文本数据预处理库 | 公开 | | |
---|
72 | | 深度学习集成 - Keras-Preprocessing - Keras文本序列生成工具 | 公开 | | |
---|
73 | | 深度学习集成 - SentenceTransformers - 句子嵌入模型训练框架 | 公开 | | |
---|
74 | | 深度学习集成 - SimpleTransformers - 快速实现Transformer模型 | 公开 | | |
---|
75 | | 增强技术 - nlpaug - 文本数据增强与扰动工具 | 公开 | | |
---|
76 | | 增强技术 - TextAttack - 对抗样本生成与模型鲁棒性测试 | 公开 | | |
---|
77 | | 增强技术 - Snorkel - 弱监督文本数据标注框架 | 公开 | | |
---|
78 | | 增强技术 - Weakly-Supervised - 弱监督学习文本分类工具 | 公开 | | |
---|
79 | | 分布式处理 - PySpark - 大规模文本分布式处理框架 | 公开 | | |
---|
80 | | 分布式处理 - Dask-ML - 分布式文本机器学习库 | 公开 | | |
---|
81 | | 分布式处理 - Hadoop-Streaming - Hadoop流式文本处理接口 | 公开 | | |
---|
82 | | 语义搜索 - Elasticsearch - 全文检索引擎支持语义查询 | 公开 | | |
---|
83 | | 语义搜索 - Faiss - 高效向量相似度搜索库 | 公开 | | |
---|
84 | | 语义搜索 - Annoy - 近似最近邻搜索算法库 | 公开 | | |
---|
85 | | 强化学习 - OpenAI-Gym-NLP - 文本强化学习环境模拟 | 公开 | | |
---|
86 | | 强化学习 - TextWorld - 文本游戏环境训练代理 | 公开 | | |
---|
87 | | 部署优化 - ONNX - 跨平台模型导出与加速 | 公开 | | |
---|