NLP夏令营——任务一

赛题链接:2023 iFLYTEK A.I.开发者大赛-讯飞开放平台

NLP演示全流程PPT:PPT网址

赛事任务:

  • 机器通过对论文摘要等信息的理解,判断该论文是否属于医学领域的文献。

  • 提取出该论文关键词。

赛题信息:

NLP夏令营——任务一_第1张图片

 评估指标:

 

实践思路:

任务一:文献领域分类

针对文本分类任务,可以提供两种实践思路,一种是使用传统的特征提取方法(如TF-IDF/BOW)结合机器学习模型,另一种是使用预训练的BERT模型进行建模。使用特征提取 + 机器学习的思路步骤如下:

  1. 数据预处理:首先,对文本数据进行预处理,包括文本清洗(如去除特殊字符、标点符号)、分词等操作。可以使用常见的NLP工具包(如NLTK或spaCy)来辅助进行预处理。

  2. 特征提取:使用TF-IDF(词频-逆文档频率)或BOW(词袋模型)方法将文本转换为向量表示。TF-IDF可以计算文本中词语的重要性,而BOW则简单地统计每个词语在文本中的出现次数。可以使用scikit-learn库的TfidfVectorizer或CountVectorizer来实现特征提取。

  3. 构建训练集和测试集:将预处理后的文本数据分割为训练集和测试集,确保数据集的样本分布均匀。

  4. 选择机器学习模型:根据实际情况选择适合的机器学习模型,如朴素贝叶斯、支持向量机(SVM)、随机森林等。这些模型在文本分类任务中表现良好。可以使用scikit-learn库中相应的分类器进行模型训练和评估。

  5. 模型训练和评估:使用训练集对选定的机器学习模型进行训练,然后使用测试集进行评估。评估指标可以选择准确率、精确率、召回率、F1值等。

  6. 调参优化:如果模型效果不理想,可以尝试调整特征提取的参数(如词频阈值、词袋大小等)或机器学习模型的参数,以获得更好的性能。

任务二:关键词提取

论文关键词划分为两类:

  • 在标题和摘要中出现的关键词

  • 没有在标题和摘要中出的关键词

在标题和摘要中出现的关键词:这些关键词是文本的核心内容,通常在文章的标题和摘要中出现,用于概括和提炼文本的主题或要点。对于提取这类关键词,可以采用以下方法:

  • 词频统计:统计标题和摘要中的词频,选择出现频率较高的词语作为关键词。同时设置停用词去掉价值不大、有负作用的词语。

  • 词性过滤:根据文本的词性信息,筛选出名词、动词、形容词等词性的词语作为关键词。

  • TF-IDF算法:计算词语在文本中的词频和逆文档频率,选择TF-IDF值较高的词语作为关键词。

没有在标题和摘要中出现的关键词:这类关键词可能在文本的正文部分出现,但并没有在标题和摘要中提及。要提取这些关键词,可以考虑以下方法:

  • 文本聚类:将文本划分为不同的主题或类别,提取每个主题下的关键词。

  • 上下文分析:通过分析关键词周围的上下文信息,判断其重要性和相关性。

  • 基于机器学习/深度学习的方法:使用监督学习或无监督学习的方法训练模型,从文本中提取出未出现在标题和摘要中的关键词。

在线上平台跑通baseline:

由于赛事方提供的数据集有问题,已经把keywords给出,所以只需要跑任务一即可

导出结果数据csv文件

下载结果数据,然后提交,得出跑分

 NLP夏令营——任务一_第2张图片

 

 在本地平台上跑通baseline:

我在Jupyter上跑baseline

NLP夏令营——任务一_第3张图片

然后成功输出结果数据

NLP夏令营——任务一_第4张图片 

在本地跑时容易遇到的问题: 

NLP夏令营——任务一_第5张图片

具体解决参考博客:https://blog.csdn.net/qq_41297934/article/details/111310009 

结果提交:

NLP夏令营——任务一_第6张图片

 

你可能感兴趣的:(NLP夏令营,nlp)