bs4简单使用

from bs4 import BeautifulSoup

html = """
    
职位名称 职位类别 人数 地点 发布时间
TEG05-高级安全策略工程师(深圳) 技术类 1 深圳 2019-01-27
18428-财付通平台组件测试工程师 技术类 1 深圳 2019-01-27
CSIG07-基础安全威胁情报分析师 技术类 4 深圳 2019-01-27
CSIG07-业务威胁情报分析师 技术类 1 深圳 2019-01-27
CSIG07-业务威胁情报分析师 技术类 2 深圳 2019-01-27
25925-数据挖掘工程师 技术类 2 深圳 2019-01-27
PCG04-测试开发高级工程师(深圳) 技术类 1 深圳 2019-01-27
28603-116 微信支付效能开发工程师(深圳) 技术类 1 深圳 2019-01-27
28601-微信支付行业缴费开发工程师(深圳) 技术类 1 深圳 2019-01-27
19157-车联物联安全—固件/硬件安全研究员(上海) 技术类 1 上海 2019-01-27
550个职位
""" soup = BeautifulSoup(html,'lxml') # 获取所以的tr标签 """ trs = soup.find_all('tr')[:-1] for tr in trs: print(tr) """ # 获取第三个tr标签 """ tr = soup.find_all('tr',limit=3)[2] # limit意思是提取n个tr标签 print(tr) """ # 获取所以class等于even的tr标签 """ trs = soup.find_all('tr',class_= 'even') # class是关键字所以要加_ for tr in trs: print(tr) """ # 获取所有td等于test,class也等于test的标签a提取出来 """ aLists = soup.find_all('td',id='test',calss_='test') for aList in aLists: print(aList) """ # 获取所有a标签的href属性 """ aLists = soup.find_all('a',limit=10)[1:] for a in aLists: # 1.通过下标的操作方式 # href = a['href'] # print(href) # 2.通过attrs属性的方式 href = a.attrs['href'] """ # 获取所有的职位信息 trs = soup.find_all('tr')[1:-1] movies = [] movie = {} for tr in trs: # tds = tr.find_all('td') """ for td in tds: print(td.string) """ """ title = tds[0].string # 获取某个标签下的非标签字符串,返回是个字符 category = tds[1].string nums = tds[2].string city = tds[3].string time = tds[4].string movie['标题'] = title movie['类型'] = category movie['人数'] = nums movie['时间'] = time movies.append(movie) """ # infos = list(tr.strings) # 获取某个标签下的子孙非标签字符串,返回来是一个生成器,需要list,但是会产生空字符串 infos = list(tr.stripped_strings) movie['标题'] = infos[0] movie['类型'] = infos[1] movie['人数'] = infos[2] movie['时间'] = infos[3] movies.append(movie) print(movies)
bs4简单使用_第1张图片
获取第三个tr标签.png
bs4简单使用_第2张图片
获取所以class等于even的tr标签.png
bs4简单使用_第3张图片
获取所以的tr标签.png
bs4简单使用_第4张图片
获取所有a标签的href属性.png

你可能感兴趣的:(bs4简单使用)