技术图文:如何利用C#爬取CSDN的博客文章?

背景

大家有没有这样的体验,在 CSDN 上发现某个博主有很多干货文章,我们就想拿到这个博主以往文章的列表,在需要的时候进行查询和浏览。

如果从 CSDN 网站上用复制粘贴的方式来建立这个列表,一个是工作量很大,另一个博主更新了文章,也不会第一时间知道。

所以,我想做这样的一个工具,把自己关注的 博主 主页地址存储下来,通过程序来构建这个列表,以便在需要查询资料的时候能够方便的找到。

本次,以 爬取 “老马的程序人生” 为例,来介绍如何爬取该博主的文章列表。


技术分析

首先,我们来看一下需要爬取的网页。

技术图文:如何利用C#爬取CSDN的博客文章?_第1张图片

第一页对应的网址为:

https://blog.csdn.net/lsgo_myp/article/list/1?

第二页对应的网址为:

https://blog.csdn.net/lsgo_myp/article/list/2?

以此类推,我们就能找到要爬取的网页地址。

其次,我们来看一下网页的源代码。

技术图文:如何利用C#爬取CSDN的博客文章?_第2张图片

从以上源代码,我们发现文章列表都包含在 article-item-box 类当中。

技术图文:如何利用C#爬取CSDN的博客文章?_第3张图片

从以上源代码,我们发现有一篇文章的 style 属性为 display:none,该篇文章不显示,当然也不是博主写的,不清楚 CSDN 放置这篇文章的目的是什么。

对于其它的文章,在 h4 标签中包含了文章的标题和对应的url地址、在 date 类中包含了文章的发表时间、在 read-num 类的 num 类中包含了文章的阅读数。

只要我们获取到网页对应的HTML DOM树,通过相应的标签就可以得到希望的数据。


代码实现

Step01:构造存储文章的结构 CsdnDataItem

public class CsdnDataItem
{
    /// 
    /// 发表时间
    /// 
    public DateTime Data { get; set; }
    /// 
    /// 阅读数
    /// 
    public int ReadNum { get; set; }
    /// 
    /// 文章标题
    /// 
    public string Title { get; set; }
    /// 
    /// 网址
    /// 
    public string Url { get; set; }

}

Step02:获取对应网页的 HTML Dom TREE

public static IHtmlDocument GetHtmlDocument(string url)
{
    IHtmlDocument document;
    try
    {
        document = new JumonyParser().LoadDocument(url);
    }
    catch
    {
        document = null;
    }
    return document;
}

Step03:获取文章列表 List

public static string EntryPoint;

public static List<CsdnDataItem> GetArticle(int page)
{
    List<CsdnDataItem> result = new List<CsdnDataItem>();

    string url = EntryPoint + @"/article/list/" + page + "?";
    
    IHtmlDocument document = HtmlSpiter.GetHtmlDocument(url);
    if (document == null)
        return result;

    List<IHtmlElement> lists = document.Find(".article-item-box").ToList();

    for (int i = 0; i < lists.Count; i++)
    {
        IHtmlAttribute attribute = lists[i].Attribute("style");
        if (attribute != null
            && attribute.AttributeValue.Contains("display: none"))
            continue;

        CsdnDataItem item = new CsdnDataItem();
        
        IHtmlElement temp = lists[i].FindSingle("h4");
        item.Url = temp.FindSingle("a").Attribute("href").AttributeValue;
        
        string title = temp.FindSingle("a").InnerHtml().Trim();
        int index = title.LastIndexOf("", StringComparison.Ordinal);
        if (index != -1)
        {
            title = title.Substring(index + 7).Trim();
        }
        item.Title = title;
        
        string date = lists[i].FindSingle(".date").InnerHtml().Trim();
        item.Data = DateTime.Parse(date);
        
        string rednum = lists[i].FindFirst(".read-num")
            .FindSingle(".num").InnerHtml().Trim();
        item.ReadNum = int.Parse(rednum);
        result.Add(item);
    }
    return result;
}

总结

我们来看一下具体的应用:

private void btn_Click(object sender, EventArgs e)
{
    CsdnUtility.EntryPoint = comboBoxPage.Text;
    int pageTo = integerInput1.Value;
    
    List<CsdnDataItem> lst = new List<CsdnDataItem>();
    
    for (int i = 1; i <= pageTo; i++)
    {
        List<CsdnDataItem> temp = CsdnUtility.GetArticle(i);
        if (temp.Count == 0)
            break;
        lst.AddRange(temp);
    }
    ShowInGrid(lst);
}

获取的文章列表,如下所示:

技术图文:如何利用C#爬取CSDN的博客文章?_第4张图片

这些数据慢慢积累起来,就可作为构建自己知识库的基础了,是不是很有意思。

今天就到这里吧!希望对大家有用,See You!


相关图文

  • 如何利用 C# 实现 K 最邻近算法?
  • 如何利用 C# 实现 K-D Tree 结构?
  • 如何利用 C# + KDTree 实现 K 最邻近算法?
  • 如何利用 C# 对神经网络模型进行抽象?
  • 如何利用 C# 实现神经网络的感知器模型?
  • 如何利用 C# 实现 Delta 学习规则?
  • 如何利用 C# 爬取带 Token 验证的网站数据?
  • 如何利用 C# 向 Access 数据库插入大量数据?
  • 如何利用 C# 开发「桌面版百度翻译」软件!
  • 如何利用 C# 开发「股票数据分析软件」(上)
  • 如何利用 C# 开发「股票数据分析软件」(中)
  • 如何利用 C# 开发「股票数据分析软件」(下)
  • 如何利用 C# 爬取「财报说」中的股票数据?
  • 如何利用 C# 爬取 One 持有者返利数据!
  • 如何利用 C# 爬取Gate.io交易所的公告!
  • 如何利用 C# 爬取BigOne交易所的公告!
  • 如何利用 C# 爬取 ONE 的交易数据?
  • 如何利用 C# 爬取「猫眼电影:热映口碑榜」及对应影片信息!
  • 如何利用 C# 爬取「猫眼电影专业版:票房」数据!
  • 如何利用 C# 爬取「猫眼电影:最受期待榜」及对应影片信息!
  • 如何利用 C# 爬取「猫眼电影:国内票房榜」及对应影片信息!
  • 如何利用 C# + Python 破解猫眼电影的反爬虫机制?
  • 如何利用BigOne的API制作自动化交易系统 – 身份验证
  • 如何利用BigOne的API制作自动化交易系统 – 获取账户资产
  • 如何利用BigOne的API制作自动化交易系统 – 订单系统

你可能感兴趣的:(计算机语言C#)