python爬虫之PyQuery库程序笔记


# 字符串初始化
# html = '
'
# from pyquery import PyQuery as pq # doc = pq(html) #声明pq对象,html作为参数 # print(doc('li')) # url初始化 # from pyquery import PyQuery as pq # doc = pq(url='http://www.baidu.com') # print(doc('head')) # 打印头部信息 # 本地文件初始化 # from pyquery import PyQuery as pq # doc = pq(filename='demo.html') # 读取本地文件 # print(doc('li')) # 基本css选择器 # from pyquery import PyQuery as pq # doc = pq(html) # print(doc('.i_3 #where')) # 与其他css选择器相同 # # 查找子元素 # from pyquery import PyQuery as pq # doc = pq(html) # item = doc('.list') # # print(type(item)) # # print(item) # lis = item.find('li') # 常用:使用find()方法查找元素子元素,其中的参数也是css选择器,只要在他里面就可以查找 # # print(type(lis)) # 每一个选择的结果都是pyquery对象,则可以使用嵌套 # # print(lis) # lists = item.children() # 也可以在其中传入参数 # # print(type(lis)) # print(lis) # 父元素 # item = doc('.list') # parent = item.parents() #也可以在其中传入css选择器,item.parents('.class') # print(parent) # 兄弟元素 # html = '
'
# from pyquery import PyQuery as pq # doc = pq(html) # li = doc('.i_0') # print(li.siblings()) ## 输出出所有的li # from pyquery import PyQuery as pq # doc = pq(html) # li = doc('li') # 与下面达到的效果相同 # print(li) # # 遍历 # from pyquery import PyQuery as pq # doc = pq(html) # lis = doc('li').items() # 创建一个产生器,然后构造一个循环,对lis进行遍历输出 # print(type(lis)) # for li in lis: # print(li) # 获取属性 # from pyquery import PyQuery as pq # doc = pq(html) # li = doc('li') # # a = doc('.i_1 a') # # print(a) # print(a.attr('href')) #获取属性方法1:使用attr()方法,直接将参数传入 # print(a.attr.href) # 获取属性方法2 #获取文本:使用.text()方法来获取文本 # print(a.text()) # 获取a标签的内容、 # # 获取html # # 使用html方法 # print(li.html()) # DOM操作 # add class,move class :完成对class的操作 from pyquery import PyQuery as pq html = '
'
# doc = pq(html) # li = doc('.i_0.active') # print(li) # li.removeClass('active') # print(li) # li.addClass('active') # print(li) # print(li) # attr,css属性 # doc = pq(html) # li = doc('.i_1.active') # 为li标签添加name属性和link属性值 # print(li) # li.attr('name','link') # print(li) # li.css('font-size','14px') # 为li标签添加font-size属性 # print(li) # html = '
hello,world

this is a

'
# from pyquery import PyQuery as pq # doc = pq(html) # wrap = doc('.wrap') # print(wrap.text()) # wrap.find('p').remove() # print(wrap.text())

你可能感兴趣的:(python,python爬虫程序笔记)