基于NLP的恶意网页识别

基于NLP的恶意网页识别

  • 基于NLP的恶意网页识别
    • 引言
    • 项目目录回顾
    • 优化HTML标签提取结果
    • 使用预训练模型Fine-tune
    • 数据处理和模型训练
    • 模型训练与评估
    • 模型导出
    • 部署与预测
    • 总结

基于NLP的恶意网页识别

引言

欢迎阅读《 基于NLP的恶意网页识别》,在前三篇中,我们已经使用PaddleNLP进行了恶意网页的分类,包括使用文本分类模型和预训练模型Fine-tune。本篇文章将着重优化模型,处理HTML标签提取结果不理想的情况,并最终将训练好的模型部署成可用的Python应用程序。
基于NLP的恶意网页识别_第1张图片

项目目录回顾

在前三篇文章中,我们已经完成了以下内容:

  1. 使用PaddleNLP的文本分类模型进行简单的正常网页与被黑网页的二分类。
  2. 使用PaddleNLP的预训练模型Fine-tune,提高HTML网页内容处理结果的判断准确率。
  3. 进行正常网页与恶意网页的二分类,提取HTML标签信息判断网页是否正常。

本篇文章将以第四篇为基础,继续优化HTML标签提取结果,训练并评估模型,并最终将模型部署成可用的Python应用程序。

优化HTML标签提取结果

在之前的训练中,我们发现有些样本的HTML标签提取结果不够理想,主要集中在

你可能感兴趣的:(深度学习,自然语言处理,人工智能,恶意网站识别)