2018-01-15 剖析新闻标识符 用于下一个的爬取评论

开头 怎么说  慢慢学吧  

开始 对网址进行剖析 URL = news.sina.com.cn/c/nd/2018-01-15/doc-ifyqptqv9660647.shtml

对于下一次的爬取评论用到的import json这个再说

爬取url中的fyqptqv9660647这一部分 没办法 要用到

还是图片


然后就是结果


可以看出 已经按/进行剖析了 list 

还有图片


可以看出不同 多了一个[-1]

结果图片


然后怎么把所需要的拿出来呢 用到的是rstrip和lstrip


2018-01-15 剖析新闻标识符 用于下一个的爬取评论_第1张图片

用的rstrip

2018-01-15 剖析新闻标识符 用于下一个的爬取评论_第2张图片

加上lstrip


2018-01-15 剖析新闻标识符 用于下一个的爬取评论_第3张图片

over!

#不怎么习惯加标点 下一遍文章看情况把

#软件用的pychram虽说很难用 但是比myeclipse好用点

还有一个方法进行剖析 比上一个简单

用到 re search group


2018-01-15 剖析新闻标识符 用于下一个的爬取评论_第4张图片

看图


2018-01-15 剖析新闻标识符 用于下一个的爬取评论_第5张图片

首先导入re

用search进行选择 主要内容就是(.*)

然后用到group进行获取 有0有1                        看图


group1轻松的剖析出所需内容

你可能感兴趣的:(2018-01-15 剖析新闻标识符 用于下一个的爬取评论)