顾木子吖

【Python爬虫实战】找工作太难？职场套路太深？来来来小编教你做人啊—这里的老板都跑到街上招人了，月薪1万够不够?

导语

哈喽大家好！我是木子吖~

上一期给大家已经介绍了爬虫的一些功能步骤等等，这一期想着还是给大家更新一些爬虫的案

例吧！这里有我给大家准备的精心准备的爬虫案例代码，当然如果基础有点儿差的小伙伴儿也

不用担心哈，附带了详细的视频讲解的，可以直接跟着视频慢慢敲代码听思路也可以的啦！

你的贴心木已上线，爱了爱了！

所有文章完整的素材+源码都在

粉丝白嫖源码福利，请移步至CSDN社区或文末公众hao即可免费。

——小Tips

很多案例都是不能过啦。所以只能竟可能的不描述的太详细。（不能出现一些详细的爬虫的地

址、案例名字等等）

又到了毕业生找工作的季节了，秋风起兮雨萧瑟，校招不知几人回啊。就算找到了工作被前辈

骂成狗也是家常便饭。正值“毕业”求职季，大三大四实习期，年关也快到了，大家都找到心仪

的工作了吗？面对海量信息，哪些招聘网站可以放心使用？找工作的小伙伴快来跟着小编一起

看看吧！招聘网站三部曲，你想要的招聘网站都在这这儿啦~

（如果没有你心仪的，你说我下次接着努力趴一趴）

正文

找工作太难？职场套路太深？来来来，今天木子来教你怎么找工作了哈。

一、基础讲解

模块安装统一讲解：

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内

镜像源)

相对应的安装包/安装教程/激活码/使用教程/学习资料/工具插件可以来找我拿免费分享的哈

模块安装问题：

    - 如果安装python第三方模块:
        1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
        2. 在pycharm中点击Terminal(终端) 输入安装命令
    - 安装失败原因:
        - 失败一: pip 不是内部命令
            解决方法: 设置环境变量

        - 失败二: 出现大量报红 (read time out)
            解决方法: 因为是网络链接超时,  需要切换镜像源
                清华：https://pypi.tuna.tsinghua.edu.cn/simple
                阿里云：https://mirrors.aliyun.com/pypi/simple/
                中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/
                华中理工大学：https://pypi.hustunique.com/
                山东理工大学：https://pypi.sdutlinux.org/
                豆瓣：https://pypi.douban.com/simple/
                例如：pip3 install -i https://pypi.doubanio.com/simple/ 模块名

        - 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入
            解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好
                    或者你pycharm里面python解释器没有设置好

如何配置pycharm里面的python解释器?

1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器) 

2. 点击齿轮, 选择add 

3. 添加python安装路径

pycharm如何安装插件?

1. 选择file(文件) >>> setting(设置) >>> Plugins(插件) 
2. 点击 Marketplace  输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
3. 选择相应的插件点击 install(安装) 即可 
4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效

二、案例实战

1）Python采集招聘网站数据内容——猎聘

（1）前期准备

运行环境——

Python3、Pycharm。

第三方库：requests >>> pip install requests 数据请求 

selenium >>> pip install selenium==3.141.0 自动化测试 操作浏览器 

parsel >>> pip install parsel 数据解析 提取数据 

faker >>> pip install faker 随机生成UA

csv 保存数据 保存csv文件

time 时间模块 

random 随机模块

（2）代码展示

代码实现步骤——

  1. 发送请求, 模拟浏览器对 url地址 发送请求
        url地址: https://www.liepin.com/job/1948917627.shtml?d_sfrom=search_prime&d_ckId=null&d_curPage=2&d_pageSize=40&d_headId=null&d_posi=1&skId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&fkId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&ckId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&sfrom=search_job_pc&curPage=2&pageSize=40&index=1
    2. 获取数据, 获取服务器返回响应数据
        开发者工具: response
    3. 解析数据, 提取我们想要的数据内容
        岗位基本数据信息:
    4. 保存数据, 把数据保存本地文件
        - 基本数据 保存csv表格里面
        - 岗位职责 保存文本里面

主程序——

# 导入数据请求模块 --> 第三方模块 需要安装 pip install requests
import requests
# 导入faker --> 第三方模块 需要安装 pip install 导入faker
from faker import Factory
# 导入数据解析模块 --> 第三方模块 需要安装 pip install parsel
import parsel
# 导入csv模块  内置模块 不需要安装
import csv
# 导入自动化测试模块
from selenium import webdriver
# 导入时间模块
import time
# 导入随机模块
import random

"""
selenium: 模拟人的行为去操作浏览器
"""
# 1. 打开浏览器
driver = webdriver.Chrome()
# 2. 访问网站
driver.get(
    'https://www.liepin.com/zhaopin/?city=410&dq=410&pubTime=¤tPage=2&pageSize=40&key=python%E7%88%AC%E8%99%AB&suggestTag=&workYearCode=0&compId=&compName=&compTag=&industry=&salary=&jobKind=&compScale=&compKind=&compStage=&eduLevel=&otherCity=&scene=input&suggestId=')
# 隐式等待 ---> 让网页数据加载完成
driver.implicitly_wait(10)
time.sleep(3)

# 创建文件
f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '职位名',
    '薪资',
    '城市',
    '经验',
    '学历',
    '福利',
    '岗位标签',
    '公司名',
    '详情页',
])
# 写入表头
csv_writer.writeheader()

# 3. 获取岗位详情页url地址
url_list = driver.find_elements_by_css_selector('.job-detail-box a')
for index in url_list:
    url = index.get_attribute('href')
    print(url)
    time.sleep(random.randint(1, 2))
    """
    1. 发送请求, 模拟浏览器对 url地址 发送请求
        - 把python代码伪装成浏览器发送请求
            目的: 为了防止被反爬
    """
    # 请求url地址
    # url = 'https://www.liepin.com/job/1948917627.shtml?d_sfrom=search_prime&d_ckId=null&d_curPage=2&d_pageSize=40&d_headId=null&d_posi=1&skId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&fkId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&ckId=s5h3mfxh8n1c3ec3dr7nnc6d4lycb9db&sfrom=search_job_pc&curPage=2&pageSize=40&index=1'
    # 模拟伪装  ---> 开发者工具里面进行复制粘贴
    Fact = Factory.create()
    # 随机生成UA
    ua = Fact.user_agent()
    headers = {
        # User-Agent 用户代理 表示浏览器基本身份信息
        'User-Agent': ua
    }
    # 发送请求 ->   表示请求成功
    response = requests.get(url=url, headers=headers)
    """
    2. 获取数据, 获取服务器返回响应数据
        开发者工具: response
        response.text 获取响应文本数据, 返回字符串数据类型 html字符串数据内容
    3. 解析数据, 提取我们想要的数据内容

        css选择器 根据标签属性提取数据内容:
    """
    # 把获取下来 html字符串数据内容  转成可解析对象
    selector = parsel.Selector(response.text)
    """
    .job-apply-content .name-box .name 定位标签
        - get() 获取第一个标签 就获取一个内容 返回字符串
        - getall 获取所有标签内容, 返回列表

    css选择器, 在系统课程 都是从头到尾讲2.5个小时才能讲完知识点内容

    a::text 表示 提取a标签里面文本呀
    """
    title = selector.css('.job-apply-content .name-box .name::text').get()  # 职位名
    salary = selector.css('.job-apply-content .name-box .salary::text').get()  # 薪资
    city = selector.css('.job-apply-content .job-properties span:nth-child(1)::text').get()  # 城市
    exp = selector.css('.job-apply-content .job-properties span:nth-child(3)::text').get()  # 经验
    edu = selector.css('.job-apply-content .job-properties span:nth-child(5)::text').get()  # 学历
    # 把列表合并成字符串
    labels = ','.join(selector.css('.job-apply-container-desc .labels span::text').getall())  # 福利
    job_labels = ','.join(selector.css('.tag-box ul li::text').getall())  # 职位标签
    company = selector.css('.company-info-container .company-card .content .name::text').get()  # 公司名
    job_info = '\n'.join(selector.css('.job-intro-container .paragraph dd::text').getall())  # 岗位职业
    """
    4. 保存数据, 把数据保存本地文件
        - 基本数据 保存csv表格里面
        - 岗位职责 保存文本里面

    """
    # 把数据写入到字典里面
    dit = {
        '职位名': title,
        '薪资': salary,
        '城市': city,
        '经验': exp,
        '学历': edu,
        '福利': labels,
        '岗位标签': job_labels,
        '公司名': company,
        '详情页': url,
    }
    # 写入数据
    csv_writer.writerow(dit)
    print(title, salary, city, exp, edu, labels, job_labels, company, job_info)
    file = f'data\\{company}_{title}.txt'
    with open(file, mode='a', encoding='utf-8') as w:
        w.write(job_info)
        w.write('\n')
        w.write(url)

（3）效果展示

2）Python采集招聘网站数据内容——前程无忧

（1）前期准备

运行环境——

环境： Python 3 、Pycharm、requests 。 其他内置模块（不需要安装 re json csv），安装 

好 python环境就可以了。 

（win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安 装速度比较慢, 你可以切 

换国内镜像源)） 



第三方库的安装：

pip install + 模块名 或者 带镜像源 pip install -i https://pypi.douban.com/simple/ +模块名

（2）代码展示

代码实现步骤——

1. 发送请求, 模拟浏览器对于url地址发送请求

2. 获取数据, 获取服务器返回响应数据 开发者工具里面所看到 response 显示内容
3. 解析数据, 提取我们想要的数据内容 招聘岗位基本信息
4. 保存数据, 把数据信息保存表格里面

主程序——

# 数据请求模块
import requests
# 导入正则表达式模块
import re
# 导入json
import json
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv
 
# 创建文件
f = open('data.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '职位',
    '公司',
    '城市',
    '经验',
    '学历',
    '薪资',
    '福利',
    '公司领域',
    '公司规模',
    '公司性质',
    '发布日期',
    '公司详情页',
    '职位详情页',
])
csv_writer.writeheader()
"""
1. 发送请求, 模拟浏览器对于url地址发送请求
    - 需要模块
    
    - 模拟浏览器, 是用什么伪装模拟的
        请求头
    - 批量替换方法:
        1. 选择替换内容, ctrl +  R
        2. 点击 .*
        3. 输入正则命令 进行替换
            (.*?): (.*)
            '$1': '$2',
"""
# 确定请求url地址
url = 'https://search.51job.com/list/010000%252C020000%252C030200%252C040000%252C090200,000000,0000,00,9,99,python,2,1.html?u_atoken=0ebd3b84-8a7e-4598-8442-28333687bb0e&u_asession=01LE1DKlBRig-pCserJvEKtcD8FRdkDmxSC9vHIlu9RgicRu619dwho-tcQMpJEh-ZX0KNBwm7Lovlpxjd_P_q4JsKWYrT3W_NKPr8w6oU7K8losFOpWBCXw72NVjjGbeyUe3R9QHfzEvknA4dzJmVTGBkFo3NEHBv0PZUm6pbxQU&u_asig=0509LTGV1DvXMS_d8cXU0jv3xyAuxRHtUv_3iTMcaock6sXe4lMoRzoeNU0-4WRPy8d9VLjYwSYoqZRfrHRzYjSRtEXt_gJnMbngMyKwkcQvy_U3ZscBbWiqZINhCZ6eYI4iBYZ8_0uvXSgelx2P_AmiQIPqS5RvD76Ykjv1qCZTv9JS7q8ZD7Xtz2Ly-b0kmuyAKRFSVJkkdwVUnyHAIJzQlgrzuxIWQIo0fiMVZCpCacmYM5qL-ed1eR5R0F9DTnH_8T8uYGNepqxdb-gLe1IO3h9VXwMyh6PgyDIVSG1W_B5D3kdbrqcgu5uUHKicA6yeddtsgrM7GqljNTK8OvHqzgiKs0HrpHBlhQgs6dylHgSSI0vZrxvglZJr9CZiMwmWspDxyAEEo4kbsryBKb9Q&u_aref=T%2BGBzeflb1FpnfpkX4KDw6w05pw%3D'
# 伪装模拟 headers 字典数据类型
headers = {
    # User-Agent 用户代理 浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36',
}
# 发送请求
# 调用requests模块里面get请求方法, 对于url地址发送请求, 并且携带上headers请求头伪装, 最后用自定义变量名response接收返回数据
response = requests.get(url=url, headers=headers)
"""
2. 获取数据, 获取服务器返回响应数据
    开发者工具里面所看到 response 显示内容
    
3. 解析数据, 提取我们想要的数据内容
    招聘岗位基本信息
    response.text 获取响应文本数据 获取html数据
    
re 会 1 不会 0
- 调用re模块里面findall方法  找到所有我们想要数据
- re.findall('匹配什么数据<匹配规则>', '什么地方')
    - 从什么地方去匹配找寻什么样的数据内容
    - 从 response.text 去找寻 window.__SEARCH_RESULT__ = (.*?) 其中 (.*?) 这段是我们要的数据
    - 正则表达式提取出来数据返回 ---> 列表数据类型
print(json_data)    打印字典数据, 显示一行
pprint(json_data)   打印字典数据, 显示多行, 展开效果
type() 内置函数, 查看数据类型
"""
html_data = re.findall('window.__SEARCH_RESULT__ = (.*?)', response.text)[0]
# 转一下数据类型 转成字典数据类型
# 通过字典键值对取值, 提取我们想要的内容 根据冒号左边的内容[键], 提取冒号右边的内容[值]
json_data = json.loads(html_data)
# for循环遍历, 把列表里面的元素一个一个提取出来
for index in json_data['engine_jds']:
    dit = {
        '职位': index['job_name'],
        '公司': index['company_name'],
        '城市': index['workarea_text'],
        '经验': index['attribute_text'][1],
        '学历': index['attribute_text'][-1],
        '薪资': index['providesalary_text'],
        '福利': index['jobwelf'],
        '公司领域': index['companyind_text'],
        '公司规模': index['companysize_text'],
        '公司性质': index['companytype_text'],
        '发布日期': index['issuedate'],
        '公司详情页': index['company_href'],
        '职位详情页': index['job_href'],
    }
    csv_writer.writerow(dit)
    print(dit)

（3）效果展示

3）Python采集招聘网站数据内容——拉勾网

（1）前期准备

运行环境——

环境： Python 3 、Pycharm、requests 。 其他内置模块（不需要安装 re json csv），安装

好 python环境就可以了。

（win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安 装速度比较慢, 你可以切

换国内镜像源)）

第三方库的安装：

pip install + 模块名 或者 带镜像源 pip install -i https://pypi.douban.com/simple/ +模块名

（2）代码展示

主程序——

"""
# 导入数据请求模块
import requests
# 导入正则
import re
# 导入json
import json
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv
# 导入时间模块
import time
 
# 创建文件
f = open('python多页.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '职位名',
    '公司名',
    '城市',
    '区域',
    '薪资',
    '经验',
    '学历',
    '公司规模',
    '公司领域',
    '详情页',
])
# 写入表头
csv_writer.writeheader()
"""
1. 发送请求, 模拟浏览器对于url地址发送请求
    - 需要请求工具 ---> requests
    - 老师, 我英语不好, 可以学习编程吗? 可以学习python吗? 
        单词不需要死记硬背, python常用关键单词词汇 135+左右  
        python常用单词词汇文本
        pycharm 翻译插件 ---> 自己去安装 
        
    - 模拟浏览器
        爬虫模拟浏览器, 都是用请求头... headers 
    - 如果你是VIP学员, 远程安装 解答辅导 都是可以
"""
for page in range(1, 11):
    try:
        # 确定url地址
        time.sleep(1)
        url = f'https://www.lagou.com/wn/jobs?pn={page}&fromSearch=true&kd=python'
        # 模拟浏览器
        headers = {
            # cookie 用户信息, 常用于检测是否登陆账号
            # User-Agent 用户代理, 表示浏览器基本身份标识
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
        }
        # 发送请求 --->   响应对象 200 状态码 表示请求成功
        response = requests.get(url=url, headers=headers)
        # 2. 获取数据 print(response.text)
        """
        3. 解析数据 ---> re正则表达式  会用 1  不会用 0
            简单的使用re ----> 详细re教学 在系统课程教授2.5个小时左右...
            re.findall('什据么数', 什么地方) re模块findall方法
            从 什么地方 去找什么数据
        
        说字典的同学, 说明你自学, 基础学的不怎么扎实...
            
        """
        html_data = re.findall('


    
        你可能感兴趣的:(爬虫+数据合集,python合集,程序员合集,python,爬虫,猎聘爬虫,拉勾网爬虫,前程无忧爬虫)
        
            
                
                    FreeRTOS进阶使用之流缓冲区：高效处理字节流的秘密武器
                        逸云客嵌入式
FreeRTOS操作系统单片机stm32mcu
                        在嵌入式开发中，流缓冲区（StreamBuffer）是FreeRTOS中用于高效处理字节流数据传输的核心机制，尤其适合任务间或中断与任务间的连续数据传输场景（如串口通信、网络数据流等）。本文将深入解析其原理、特点、使用方法及注意事项，助你进阶掌握这一关键技术。一、流缓冲区是什么？为什么需要它？流缓冲区是FreeRTOS中基于环形缓冲区实现的字节流传输机制，其核心作用是动态管理数据的读写，支持任意长
                    
                    关闭表单后再次打开时校验提示未清除
                        松岛的枫叶
vue.js前端javascript
                        在Vue+ElementUI中，若关闭表单后再次打开时校验提示未清除，可通过以下方案解决（结合搜索结果的实践经验）：一、核心原因分析•校验状态缓存：ElementUI的表单校验状态（如红色边框和错误提示）不会随对话框关闭自动重置，需手动清理。•数据残留：若表单数据未正确初始化，旧数据可能触发残留校验规则。•DOM更新时序：直接调用resetFields()时，若表单DOM未完全渲染，可能导致方法失
                    
                    JavaWeb学习笔记
                        时间会给答案scidag
javajava-eeservlet笔记学习数据库
                        一.刨析JDBC1.概念：JDBC就是java语言操作关系型数据库的一套API2.常用API2.1DriverManager:作用1.注册驱动2.获取数据库连接;都是静态方法，直接类名.方法2.2Connection:作用1.获取sql执行对象2.事务管理《《关于管理事务回滚常用方法setAutoCommit（）commit(),rollback()2.3Statement:作用执行SQL语句《《
                    
                    10初识Spring MVC框架
                        TechLens
JAVAEE笔记servletspringjava
                        学习内容一、回顾1.JSPModel2架构模型采用JSP+Servlet+JavaBean技术实现了页面显示、流程控制和业务逻辑的分离Jsp负责生成动态网页，只用做显示页面；Servlet负责流程控制，用来处理各种请求的分派；JavaBeans负责业务逻辑，对数据库的操作流程控制等通用逻辑以硬编码的方式实现，每次开发新的Web应用程序均需重新编写流程控制、通用逻辑代码2.WebMVC应用框架Spr
                    
                    跨域自监督学习：打破数据壁垒的创新突破
                        mslion
学习人工智能跨模态学习深度学习计算机视觉自监督表示学习
                        近年来，跨域学习和跨模态学习在多个应用领域中取得了显著的进展。尽管不同领域和模态之间的数据分布差异和标注数据稀缺常常带来挑战，但越来越多的研究集中在如何通过自监督学习和无监督领域适应技术来解决这些问题。自监督学习作为一种无需大量标注数据的方法，能够有效地从未标注数据中提取有用特征，并在跨域或跨模态设置中增强模型的迁移能力和泛化能力。此外，如何处理源域和目标域之间的差异，使得模型能够在多领域或跨模态
                    
                    Java多线程
                        反方向的空
Java多线程java开发语言
                        Java多线程为什么要在代码中引入多线程?可以使用多个线程来处理任务,提高效率如果阻塞点过多,一个线程会处理不过来;例如TCP服务器在等待建立连接的时候会阻塞,而整个流程不能因为这个而卡死在这里,所以引入另外的线程去处理另外的任务哪些地方是线程安全问题的风险点?线程对共享数据修改的部分,必须考虑是否线程安全!!!并发编程的优缺点为什么要使用并发编程?(优点)充分利用多核CPU的计算能力:通过并发编
                    
                    深度讨论Python for循环
                        观智能
python开发语言
                        作者的其他文章推荐：强化学习再受关注！for循环使用于遍历可迭代对象的Python语句，工作原理如下：#for循环foriteminiterable:print(item)#等价于iterator=iter(iterable)#获取迭代器whileTrue:try:item=next(iterator)#获取下一个元素print(item)exceptStopIteration:break#迭代结
                    
                    【操作系统概念】【恐龙书】笔记六——第六章 进程同步
                        我岂是非人哉
计算机操作系统
                        Chapter6:ProcessSynchronization问题的提出：彼此合作的进程之间可以用共享逻辑地址空间的方式来实现，共享逻辑地址空间，也就是共享代码区和数据区，会导致数据不一致，所以介绍一些避免数据不一致的机制。6.1BackgroundConcurrentaccesstoshareddatamayresultindatainconsistencyMaintainingdatacons
                    
                    Python第六章08：元组操作练习题
                        苹果.Python.八宝粥
python开发语言
                        #元组定义操作练习题"""定义一个元组，内容是：('周杰伦',11,['football','music'])，记录一个学生的信息（姓名、年龄、爱好）请通元组（tuple）的功能，对其进行如下操作：1.查询其年龄所在的下标位置2.查询学生的姓名3.删除学生爱好中的football4.增加爱好：coding"""my_tuple=('周杰伦',11,['football','music'])#1.查
                    
                    B站黑马程序员第二章10——字符串格式化，占位符
                        苹果.Python.八宝粥
python开发语言
                        #字符串格式化#占位符%S%表示：我要占位s表示：将变成字符串放入占位的地方#多个变量占位拼接，变量要用括号，用逗号隔开#将变量内容均转换为字符串进行拼接name="朱丽叶"height=166weight=57.5print("我最爱的狗狗是：%s,她个子高%s，身材好%s。"%(name,height,weight))#多类型数据占位#%s将内容转换为字符串，放入占位#%d将内容转换为整数，放
                    
                    Python第六章07：元组的定义和操作
                        苹果.Python.八宝粥
python前端开发语言
                        #tuple元组的定义和操作#tuple元组定义用小括号：(1,2,3,4,5),可以是不同类型元素#给变量定义元组时，写括号不写tuple：a=(1,2,3,4,5)#变量=（）变量=tuple（）空元组变量#tuple元组定义完成后，不可以修改，但是，如果元组中嵌套了一个列表时，元组中列表的内容可以修改#封装数据后，不希望被篡改数据，就使用元组tuple#1.定义一个元组t1=("halibo
                    
                    利用Python爬虫获取Shopee（虾皮）商品详情：实战指南
                        小爬虫程序猿
python爬虫开发语言
                        在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
                    
                    单片机 - 串行通信 & 并行通信、接口类型及常见通信协议详细解析
                        Peter_Deng.
单片机嵌入式硬件
                        串行通信、并行通信、接口类型及常见通信协议详细解析1.并行通信vs.串行通信通信方式主要分为并行通信（ParallelCommunication）和串行通信（SerialCommunication），两者的主要区别在于数据传输的方式。1.1并行通信（ParallelCommunication）概念：并行通信使用多条数据线同时传输多个数据位（bit），通常需要单独的时钟信号进行同步。优点：速度快，适
                    
                    业务7——数据埋点
                        嚯嚯嚯嚯什么都不会
业务数据分析
                        文章目录一、数据生命周期：二、埋点是什么？1、含义2、方式三、埋点流程1、埋点生命周期2、业务需求分析3、埋点文档设计一、数据生命周期：还能从数据角度来看，数据在工作中的参与环节，帮助理清数据分析流程和思路。二、埋点是什么？1、含义数据埋点是数据采集的一种重要方式，是在有需要的位置采集相应的信息，主要是终端用户的操作行为，后续用于解决业务方提出的业务需求。2、方式全埋点代码埋点（百度统计、友盟、T
                    
                    如何快速搭建一套属于自己的埋点系统，看这里有详细部署操作文档
                        webfunny2020
前端
                        webfunny新产品——点位系统上线啦~欢迎使用webfunny的埋点系统，它是一个轻量级、易使用，埋点分析一体化的产品，用户可以根据自己的需求，创建不同的埋点，选择不同的图形在数据看板中来展示分析数据；webfunny支持单个数据的展示，有适用于体现数据的变化趋势，也有适用于体现总量和比率，还支持多个数据进行重叠展示等等。下面介绍一下如何快速搭建属于自己的一套埋点系统。分为下面几个主要步骤：创
                    
                    物联网（IoT）系统中，数据采集器拿来即用
                        小赖同学啊
人工智能智能硬件物联网
                        在物联网（IoT）系统中，数据采集器（也称为网关或数据集中器）扮演着至关重要的角色，主要负责从各种传感器和设备中收集数据，并将其转换为统一的格式后传输到云端或本地服务器进行处理和分析。以下是关于数据采集器的设计要点、功能需求以及实现方案：一、数据采集器的核心功能数据中转：从传感器、设备或其他数据源收集数据。将数据转发到云端、本地服务器或其他目标系统。数据格式统一化：将不同协议、不同格式的数据转换为
                    
                    专业课笔记——（第一章：C、C++基础知识）
                        大小胖虎
C/C++基础知识笔记算法CC++数据类型操作类型笔记
                        目录一、数据类型二、不同格式输出的含义三、运算符优先级四、计算机基础知识五、零碎基础知识点一、数据类型1、C语言中的最简单的数据类型：整数类型、字符类型、浮点类型（C语言没有逻辑型(bool)它是C++特有的，而c语言它是通过0、1表示实现的）构造类型：枚举型、数组类型、结构体类型、共用体类型、类类型(C++特有)2、计算字符串长度：strlen()：c语言中的函数length()：c++中的函数
                    
                    大模型提示词工程师的自我修养-应用二（RAG数据合成与数据多样性问题的解决） -（专题4）
                        AI专题精讲
大模型专题系列人工智能
                        1.生成数据大型语言模型（LLMs）具有生成连贯文本的强大能力。通过有效的提示策略，可以引导模型生成更好、一致且更有事实依据的响应。LLMs也特别适用于生成数据，这对于进行各种实验和评估非常有用。例如，我们可以用它来为情感分类器生成快速样本，如下所示：提示词生成10个情感分析的示例。示例分为正面或负面类别。生成2个负面示例和8个正面示例。示例如下格式：Q:A:输出Q:我刚刚得到了最棒的消息！A:正
                    
                    SQLyog 13.1.6 社区免费中文版：高效便捷的MySQL管理工具
                        m0_74823264
面试学习路线阿里巴巴mysql数据库
                        SQLyog13.1.6社区免费中文版：高效便捷的MySQL管理工具sqlyog_13.1.6.7z项目地址:https://gitcode.com/open-source-toolkit/a94c8项目介绍SQLyog13.1.6社区免费中文版是一款专为MySQL设计的数据库管理工具，以其强大的功能和直观的图形用户界面（GUI）深受开发者和数据库管理员的喜爱。该版本为社区免费版，提供了中文界面，
                    
                    嵌入式Linux网络编程实战：基于libcurl实现Gitee文件上传
                        银河码
Linux网络编程linux网络giteec语言vscodetcp/ip服务器
                        嵌入式Linux网络编程实战：基于libcurl实现Gitee文件上传【本文代码已在立创·泰山派平台验证通过，可直接用于物联网设备数据上报场景】一、功能概述与实现效果1.1核心功能本地文件读取：支持任意二进制/文本文件Base64编码转换：符合RFC4648标准HTTP传输：通过libcurl实现，也可以使用HTTPS加密通信GiteeAPI对接：自动创建/更新仓库文件1.2运行效果演示#上传本地
                    
                    在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证
                        ku_code_ku
机器学习macos推荐算法推荐系统
                        让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
                    
                    探索NebulaGraph：一个开源分布式图数据库的技术解析
                        一休哥助手
数据库分布式系统开源分布式数据库
                        1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
                    
                    前端实现埋点&监控
                        Cipher_Y
前端
                        前端实现埋点&监控实现埋点功能的意义主要体现在以下几个方面：数据采集：埋点是数据采集领域（尤其是用户行为数据采集领域）的术语，它针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。通过埋点，可以收集到用户在应用中的所有行为数据，例如页面浏览、按钮点击、表单提交等。数据分析：采集的数据可以帮助业务人员分析网站或者App的使用情况、用户行为习惯等，是后续建立用户画像、用户行为路径等数据产
                    
                    网盘搜索器 VIP 版：资源搜索与下载的高效利器
                        2501_90827335
电脑软件工程开源软件
                        在信息爆炸的时代，从网盘获取各类资源已经成为很多人的日常操作。今天要给大家介绍一款功能强大的工具——网盘搜索器VIP版，它为我们在海量的网盘资源中精准定位所需内容提供了极大便利。强大的核心功能多平台资源整合网盘搜索器VIP版堪称资源整合的“超级大师”。它打破了不同网盘之间的壁垒，支持阿里云盘、百度网盘、迅雷云盘等主流网盘资源的跨平台搜索。无论是热门影视、专业文档、实用软件，还是动听音乐，都能一网打
                    
                    MySQL 中，分库分表机制和分表分库策略
                        小赖同学啊
javamysqloracle数据库
                        在MySQL中，分库分表是一种常见的数据库水平扩展方案，用于解决单库单表数据量过大导致的性能瓶颈问题。通过将数据分散到多个数据库或表中，可以提高系统的并发处理能力、降低单点故障风险，并提升查询性能。一、分库分表的作用提升性能：分散数据存储和查询压力，避免单库单表的性能瓶颈。提高并发能力：多个数据库或表可以并行处理请求，提高系统吞吐量。降低单点故障风险：数据分散存储，单个数据库或表故障不会影响整个系
                    
                    linux如何释放内存缓存
                        千航@abc
linux缓存运维内存
                        [root@redis~]#sync#将内存缓存数据强制写入磁盘（保存数据后再做释放）[root@redis~]#echo1>/proc/sys/vm/drop_caches#释放内存缓存
                    
                    TDengine 入坑
                        xijieyu
tdenginedockerlinux
                        的最近想折腾一个时序数据库，所以入坑了TDengine我的环境是WIN10+虚拟机ubuntu，开发语言是C#。在虚拟机里一开始使用docker来拉取TDengine镜像，后来发现docker的网络配置不熟，所以干脆直接在宿主机上安装TDengine直接使用。安装完了后，taos怎么都连接不上，显示"Unabletoestablishconnection"，根据官方教程中的解释，一步一步排除各类连
                    
                    雅特力AT32F435学习——3.PWM实验
                        数字梦想家
学习
                        PWM实验定时器浑身都是包其中PWM占大头，因为PWM应用太广了：呼吸灯、电机、蜂鸣器，生日火炬里的声音都是PWM干的，接下来就让我们学一下雅特力AT32F435单片机的PWM吧。基础知识老样子对于PWM的基础了解那肯定直接从数据手册学起，先要从头到尾过一遍。PWM是高级功能不是一般的定时器就能有的，所以第一时间就要看数据手册看看哪些定时器用PWM功能，并且确认PWM输入输出的通道和引脚，本次教学
                    
                    springCloud集成tdengine(原生和mapper方式) 其一
                        张小娟
springcloudtdenginemybatis
                        第一种mapper方式，原生方式在主页看第二章一、添加pom文件com.zaxxerHikariCPcom.taosdata.jdbctaos-jdbcdriver3.5.3二、在nacos中配置好数据库连接spring:datasource:url:jdbc:TAOS://localhost:6030/testusername:rootpassword:yourPassWorddriver-cl
                    
                    数据库数值函数详解
                        web安全工具库
数据库oraclejvm
                        各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
                    
                                java责任链模式
                                    3213213333332132
java责任链模式村民告县长
                                    责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。 
 
就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。 
 
下面代码模拟这样的效果： 
创建一个政府抽象类,方便所有的具体政府部门继承它。 
 

package 责任链模式;

/**
 * 
 
                                
                                linux、mysql、nginx、tomcat 性能参数优化
                                    ronin47

                                    一、linux 系统内核参数 
 
  /etc/sysctl.conf文件常用参数     net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目
net.core.rmem_max  = 8388608        #SOCKET读缓存区大小
net.core.wmem_max  = 8388608        #SOCKET写缓存区大
                                
                                php命令行界面
                                    dcj3sjt126com
PHPcli
                                    常用选项
php -v
php -i PHP安装的有关信息
php -h 访问帮助文件
php -m 列出编译到当前PHP安装的所有模块

执行一段代码
php -r 'echo "hello, world!";'
php -r 'echo "Hello, World!\n";'
php -r '$ts = filemtime("
                                
                                Filter&Session
                                    171815164
session
                                    Filter 
 
 

HttpServletRequest requ = (HttpServletRequest) req;
HttpSession session = requ.getSession();
if (session.getAttribute("admin") == null) {
           PrintWriter out = res.ge
                                
                                连接池与Spring,Hibernate结合
                                    g21121
Hibernate
                                            前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 
        1.下载相关内容：     &nb
                                
                                [简单]mybatis判断数字类型
                                    53873039oycg
mybatis
                                           昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: 
      
Caused by: java.lang.NumberFormatException: For input string: "null"
	at sun.mis
                                
                                项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space
                                    程序员是怎么炼成的
eclipsejvmtomcatcatalina.sheclipse.ini
                                       在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 
    
解决办法是点击eclipse里的tomcat，在
                                
                                我的crm小结
                                    aijuans
crm
                                    各种原因吧，crm今天才完了。主要是接触了几个新技术： 
Struts2、poi、ibatis这几个都是以前的项目中用过的。 
Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
                                
                                spring里配置使用hibernate的二级缓存几步
                                    antonyup_2006
javaspringHibernatexmlcache
                                    ．在spring的配置文件中 applicationContent.xml，hibernate部分加入 
xml 代码 
 
<prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop>   
    <prop key="hi
                                
                                JAVA基础面试题
                                    百合不是茶
抽象实现接口String类接口继承抽象类继承实体类自定义异常
                                    /*   * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、   *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于   * 寄存器（register），快于堆。堆（heap）：用于存储对象。   */  &
                                
                                让sqlmap文件 "继承" 起来
                                    bijian1013
javaibatissqlmap
                                            多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用 ，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
                                
                                精通Oracle10编程SQL(13)开发触发器
                                    bijian1013
oracle数据库plsql
                                    /*
 *开发触发器
 */
--得到日期是周几
select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual;

select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual;

--建立BEFORE语句触发器
CREATE O
                                
                                【EhCache三】EhCache查询
                                    bit1129
ehcache
                                    本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。 
  
要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性 
  数据准备 
    @Before
    public void setUp() {
        //加载EhCache配置文件
        Inpu
                                
                                CXF框架入门实例
                                    白糖_
springWeb框架webserviceservlet
                                    CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。 
它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。 
在apache cxf官网提供
                                
                                angular.equals
                                    boyitech
AngularJSAngularJS APIAnguarJS 中文APIangular.equals
                                    angular.equals 
   描述:  
  比较两个值或者两个对象是不是 相等。还支持值的类型，正则表达式和数组的比较。       两个值或对象被认为是 相等的前提条件是以下的情况至少能满足一项：  
 
 
   
   
   两个值或者对象能通过=== （恒等） 的比较 
   两个值或者对象是同样类型，并且他们的属性都能通过angular
                                
                                java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1]
                                    bylijinnan
java
                                    这道题的具体思路请参看 何海涛的微博：http://weibo.com/zhedahht 
 

import java.math.BigInteger;
import java.util.Arrays;

public class CreateBFromATencent {

	/**
	 * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
                                
                                FastDFS 的安装和配置 修订版
                                    Chen.H
linuxfastDFS分布式文件系统
                                    FastDFS Home:http://code.google.com/p/fastdfs/ 
1. 安装 
http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 
安装libevent (对libevent的版本要求为1.4.
                                
                                [强人工智能]拓扑扫描与自适应构造器
                                    comsci
人工智能
                                     
 
 
      当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 
 
      那么,现在我们必须设计新的模块和代码包来处理上面的问题
                                
                                oracle merge into的用法
                                    daizj
oraclesqlmerget into
                                    Oracle中merge into的使用 
http://blog.csdn.net/yuzhic/article/details/1896878 
http://blog.csdn.net/macle2010/article/details/5980965 
该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
                                
                                不适合使用Hadoop的场景
                                    datamachine
hadoop
                                    转自：http://dev.yesky.com/296/35381296.shtml。 
　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。 当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop!  实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
                                
                                YII findAll的用法
                                    dcj3sjt126com
yii
                                    看文档比较糊涂，其实挺简单的： 
$predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 
  
第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值； 
更完善的查询需要
                                
                                vim 常用 NERDTree 快捷键
                                    dcj3sjt126com
vim
                                    下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。 
切换工作台和目录 
ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 
o 在已有窗口中打开文件、目录或书签，并跳
                                
                                Java把目录下的文件打印出来
                                    蕃薯耀
列出目录下的文件文件夹下面的文件目录下的文件
                                    Java把目录下的文件打印出来 
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 
蕃薯耀 2015年7月11日 11:02:
                                
                                linux远程桌面----VNCServer与rdesktop
                                    hanqunfeng
Desktop
                                    windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 
  
linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。 
  
下面分别介绍，以windo
                                
                                guava中的join和split功能
                                    jackyrong
java
                                    guava库中，包含了很好的join和split的功能，例子如下： 
 
1） 将LIST转换为使用字符串连接的字符串 
   

    List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");

                                
                                Web开发技术十年发展历程
                                    lampcy
androidWeb浏览器html5
                                    回顾web开发技术这十年发展历程： 
Ajax 
03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。 
彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
                                
                                架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好)
                                    nannan408
buffer
                                    1.前言。 
  如题。 
2.代码。 
  

IoService

IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括：

1、监听器管理

2、IoHandler

3、IoSession
                                
                                ORA-00054:resource busy and acquire with NOWAIT specified
                                    Everyday都不同
oraclesessionLock
                                    [Oracle] 
今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 
  
step1，查看被lock的session： 
  
select t2.username, t2.sid, t2.serial#, t2.logon_time
  from v$locked_obj
                                
                                javascript学习笔记
                                    tntxia
JavaScript
                                      
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
                                
                                Java enum的用法详解
                                    xieke90
enum枚举
                                    Java中枚举实现的分析： 
    示例：  
public static enum SEVERITY{
          INFO,WARN,ERROR
} 
    enum很像特殊的class，实际上enum声明定义的类型就是一个类。 而这些类都是类库中Enum类的子类      (java.l
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

【Python爬虫实战】找工作太难？职场套路太深？来来来小编教你做人啊—这里的老板都跑到街上招人了，月薪1万够不够?

导语

所有文章完整的素材+源码都在

正文

一、基础讲解

模块安装统一讲解：

二、案例实战

1）Python采集招聘网站数据内容——猎聘

2）Python采集招聘网站数据内容——前程无忧

​3）Python采集招聘网站数据内容——拉勾网

你可能感兴趣的:(爬虫+数据合集,python合集,程序员合集,python,爬虫,猎聘爬虫,拉勾网爬虫,前程无忧爬虫)

3）Python采集招聘网站数据内容——拉勾网