Python---爬虫---智能解析---newspaper

  1. 智能解析的深度学习切入方向

    1. 标题,一般它的字号是比较大的,而且长度不长,位置一般都在页面上方,而且大部分情况下它应该和 title 标签里的内容是一致的

    2. 正文,它的内容一般是最多的,而且会包含多个段落 p 或者图片 img 标签,另外它的宽度一般可能会占用到页面的三分之二区域,并且密度(字数除以标签数量)会比较大。

    3. 时间,不同语言的页面可能不同,但时间的格式是有限的,如 2019-02-20 或者 2019/02/20 等等,也有的可能是美式的记法,顺序不同,这些也有特定的模式可以识别。

    4. 广告,它的标签一般可能会带有 ads 这样的字样,另外大多数可能会处于文章底部、页面侧栏,并可能包含一些特定的外链内容。

    5. 区块位置、区块大小、区块标签、区块内容、区块疏密度等等多种特征,另外很多情况下还需要借助于视觉的特征

    6. 其实结合了算法计算、视觉处理、自然语言处理等各个方面的内容。如果能把这些特征综合运用起来,再经过大量的数据训练,是可以得到一个非常不错的效果的。

  2. Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。

    作者从requests库的简洁与强大得到灵感,使用python开发的可用于提取文章内容的程序。

    支持10多种语言并且所有的都是unicode编码.

  3. python3 安装newspaper 

    pip3 install newspaper3k

  4. from newspaper import Article
    url = '你想要爬取的网站url'
    news = Article(url, language='zh')
    news .download()
    news .parse()
    print(news.text)
    print(news.title)
    print(news.html)
    print(news.authors)
    print(news.top_image)
    print(news.movies)
    print(news.keywords)
    
    or 
    
    ''''
    import newspaper
    news = newspaper.build(url, language='zh')
    article = news.articles[0]
    article.download()
    article.parse()
    print(article.text)
    ''''
    
    

     

你可能感兴趣的:(爬虫开发,爬虫开发历程)