【深度学习】基于BRET的高级主题检测

一、说明

        使用BERT,UMAP和HDBSCAN捕获文档主题,紧随最先进的BERTopic架构(transformer编码器)。

        主题检测是一项 NLP 任务,旨在从文本文档语料库中提取全局“主题”。例如,如果正在查看书籍描述的数据集,主题检测将使我们能够将书籍分类,例如:“浪漫”、“科幻”、“旅行”等。

        在本教程中,我们将使用BERT的HuggingFace库实现以及用于聚类的HDBSCAN和用于降维的UMAP来实现。该管道将遵循Maarten Grootendorst提出的BERTopic结构:

伯特皮克管道

二、开始实践

        为了简单起见,我建议在Google Coolab中运行代码,但另一个平台也很好。

        首先安装必要的依赖项:

!pip install pandas numpy umap-learn transformers plotly hdbscan

        然后继续加载输入数据:

import pandas as pd
data = pd.read_csv("ecommerce.csv", on_bad_lines='skip', nrows=500)
data = data[[""]]


        在我们的示例中,数据对应于从 Kagg

你可能感兴趣的:(NLP入门到精通,深度学习,人工智能)