bluepad

Python之Selenium自动化爬虫

文章目录

Python之Selenium自动化爬虫
- 0.介绍
- 1.安装
- 2.下载浏览器驱动
- 3.实例
- 4.开启无头模式
- 5.保存页面截图
- 6.模拟输入和点击
- - a.根据文本值查找节点
  - b.获取当前节点的文本
  - c.打印当前网页的一些信息
  - d.关闭浏览器
  - e.模拟鼠标滚动
- 7.ChromeOptions
- 8.验证滑块移动
- 9.打开多窗口和页面切换
- 10.Cookie操作
- 11.模拟登录
- 12.使用代理
- 14.更换UA
- 15.鼠标悬停
- 16.优缺点

Python之Selenium自动化爬虫

0.介绍

Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器（2018年开发者说暂停开发，chromedriver也可以实现同样的功能）），可以接收指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏。

1.安装

pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple

2.下载浏览器驱动

这里用的谷歌浏览器

http://npm.taobao.org/mirrors/chromedriver/

查看自己的浏览器版本下载对应的驱动。

把解压后的驱动放在自己的python.exe 目录下。

3.实例

我之前写过3个实例

https://harris.blog.csdn.net/article/details/116406200

4.开启无头模式

是否开启无头模式（即是否需要界面）

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

option = Options()  # 实例化option对象
option.add_argument("--headless")  # 给option对象添加无头参数
option.headless = True #这种方式也可以
if __name__ == '__main__':
    web = Chrome(executable_path='D:PyProjectspiderenvScriptschromedriver.exe',options=option) # 指定驱动位置,否则从python解释器目录下查找.
    web.get("https://baidu.com")
    print(web.title)

5.保存页面截图

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

option = Options()  # 实例化option对象
option.add_argument("--headless")  # 给option对象添加无头参数

if __name__ == '__main__':
    web = Chrome()
    web.maximize_window()  # 浏览器窗口最大化
    web.get("https://baidu.com")
    print(web.title)
    web.save_screenshot('baidu.png')  # 保存当前网页的截图  保存到当前文件夹下
    web.close()  # 关闭当前网页

6.模拟输入和点击

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

option = Options()  # 实例化option对象
option.add_argument("--headless")  # 给option对象添加无头参数

if __name__ == '__main__':
    web = Chrome()
    web.maximize_window()  # 浏览器窗口最大化
    web.get("https://baidu.com")
    el = web.find_element_by_id('kw')
    el.send_keys('')
    btn = web.find_element_by_id('su')
    btn.click()
    # web.close()  # 关闭当前网页

貌似现在百度可以识别出selenium，还需要图片验证。

a.根据文本值查找节点

# 找到文本值为百度一下的节点
driver.find_element_by_link_text("百度一下") 
# 根据链接包含的文本获取元素列表，模糊匹配
driver.find_elements_by_partial_link_text("度一下")

b.获取当前节点的文本

ele.text # 获取当前节点的文本
ele.get_attribute("data-click")  # 获取到属性对应的value

c.打印当前网页的一些信息

print(driver.page_source)  # 打印网页的源码
print(driver.get_cookies())  # 打印出网页的cookie
print(driver.current_url)  # 打印出当前网页的url

d.关闭浏览器

driver.close()  # 关闭当前网页
driver.quit()  # 直接关闭浏览器

e.模拟鼠标滚动

from selenium.webdriver import Chrome
import time

if __name__ == '__main__':

    driver = Chrome()

    driver.get(
        "https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=78000241_12_hao_pg&wd=selenium%20js%E6%BB%91%E5%8A%A8&fenlei=256&rsv_pq=8215ec3a00127601&rsv_t=a763fm%2F7SHtPeSVYKeWnxKwKBisdp%2FBe8pVsIapxTsrlUnas7%2F7Hoo6FnDp6WsslfyiRc3iKxP2s&rqlang=cn&rsv_enter=1&rsv_dl=tb&rsv_sug3=31&rsv_sug1=17&rsv_sug7=100&rsv_sug2=0&rsv_btype=i&inputT=9266&rsv_sug4=9770")
    #  1.滚动到网页底部
    js = "document.documentElement.scrollTop=1000"
    # 执行js
    driver.execute_script(js)
    time.sleep(2)
    # 滚动到顶部
    js = "document.documentElement.scrollTop=0"
    driver.execute_script(js)  # 执行js

    time.sleep(2)
    driver.close()

7.ChromeOptions

options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://110.52.235.176:9999") # 添加代理
options.add_argument("--headless") # 无头模式
options.add_argument("--lang=en-US") # 网页显示英语
prefs = {"profile.managed_default_content_settings.images": 2, 'permissions.default.stylesheet': 2} # 禁止渲染
options.add_experimental_option("prefs", prefs)
driver = webdriver.Chrome(executable_path="D:ProgramAppchromedriverchromedriver73.exe",chrome_options=options)
 
driver.get("http://httpbin.org/ip")

8.验证滑块移动

"""
目标：滑动验证码
1.定位按钮
2.按住滑块
3.滑动按钮
"""
import time
from selenium import webdriver

if __name__ == '__main__':
    chrome_obj = webdriver.Chrome()
    chrome_obj.get('https://www.helloweba.net/demo/2017/unlock/')

    # 1.定位滑动按钮
    click_obj = chrome_obj.find_element_by_xpath('//div[@class="bar1 bar"]/div[@class="slide-to-unlock-handle"]')

    # 2.按住
    # 创建一个动作链对象，参数就是浏览器对象
    action_obj = webdriver.ActionChains(chrome_obj)

    # 点击并且按住，参数就是定位的按钮
    action_obj.click_and_hold(click_obj)

    # 得到它的宽高
    size_ = click_obj.size
    width_ = 298 - size_['width']  # 滑框的宽度 减去 滑块的 宽度 就是 向x轴移动的距离(向右)
    print(width_)
    # 3.定位滑动坐标
    action_obj.move_by_offset(298-width_, 0).perform()

    # 4.松开滑动
    action_obj.release()

    time.sleep(6)
    chrome_obj.quit()

9.打开多窗口和页面切换

有时候窗口中有很多子tab页面。这时候肯定是需要进行切换的。selenium提供了一个叫做switch_to_window来进行切换，具体切换到哪个页面，可以从driver.window_handles中找到

from selenium import webdriver

if __name__ == '__main__':
    driver = webdriver.Chrome()

    driver.get("https://www.baidu.com/")
    driver.implicitly_wait(2)
    driver.execute_script("window.open('https://www.douban.com/')")
    driver.switch_to.window(driver.window_handles[1])

    print(driver.page_source)

第二个实例

if __name__ == '__main__':
    from selenium import webdriver
    import time

    driver = webdriver.Chrome()
    start_url = 'https://www.baidu.com'
    start_url_1 = 'https://www.csdn.net'

    driver.get(start_url)
    time.sleep(5)
    """通过执行js代码，打开浏览器窗口，访问地址"""
    js = 'window.open("{}")'.format(start_url_1)
    driver.execute_script(js)
    time.sleep(5)
    """获取浏览器所有窗口：注意点：窗口的切换是通过下标控制的"""
    win = driver.window_handles
    # 执行切换
    driver.switch_to.window(win[0])
    time.sleep(2)
    driver.switch_to.window(win[1])
    time.sleep(2)
    driver.switch_to.window(win[0])
    time.sleep(2)
    driver.switch_to.window(win[1])
    # 浏览器窗口的关闭
    driver.close()
    # 退出浏览器
    driver.quit()

有时候网页会内嵌另一个html。一般称为iframe

from selenium import webdriver
driver = webdriver.Chrome()
start_url = 'https://mail.163.com/'
driver.get(start_url)
"""定位不成功，在有的情况是因为有页面的嵌套导致的
在一个html源码中有多个html页面，示例：一个html嵌套一个html
以上：又称之为iframe的嵌套
"""
# 定位嵌套位置iframe
el_iframe = driver.find_elements_by_tag_name('iframe')
# 执行iframe的切换
driver.switch_to.frame(el_iframe[0])
# 标签定位
driver.find_element_by_name('email').send_keys('邮箱账号')
driver.find_element_by_name('password').send_keys('你的邮箱密码')
driver.find_element_by_id('dologin').click()

10.Cookie操作

# 1.获取所有的cookie：
for cookie in driver.get_cookies():
    print(cookie)
# 2.根据cookie的key获取value：
value = driver.get_cookie(key)
# 3.删除所有的cookie：
driver.delete_all_cookies()
# 4.删除某个cookie：
driver.delete_cookie(key)
# 添加cookie：
driver.add_cookie({"name":"password","value":"111111"})

11.模拟登录

这里模拟登录我们学校教务处。

from selenium.webdriver import Chrome

if __name__ == '__main__':
    web = Chrome()
    web.get('http://bkjx.wust.edu.cn/')
    username = web.find_element_by_id('userAccount')
    username.send_keys('xxxxxxx') # 这里填自己的学号
    password = web.find_element_by_id('userPassword')
    password.send_keys('xxxxxxx') # 这里填自己的密码
    btn = web.find_element_by_xpath('//*[@id="ul1"]/li[4]/button')
    btn.click()
    # do something

因为没有滑块啥的验证，所以就很简单qwq。然后后面进行自己的操作即可。

12.使用代理

from selenium import webdriver
import time

options = webdriver.ChromeOptions()
options.add_argument('--proxy-server=http://ip地址')  # 代理IP:端口号
# ${chromedriver_path}: chromedriver驱动存放路径
driver = webdriver.Chrome(options=options)
driver.get("https://dev.kdlapi.com/testproxy")

# 获取页面内容
print(driver.page_source)

# 延迟3秒后关闭当前窗口，如果是最后一个窗口则退出
time.sleep(3)
driver.close()

14.更换UA

from selenium import webdriver
import time

agent = 'Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1'
options = webdriver.ChromeOptions()
options.add_argument('--user-agent=' + agent)
# ${chromedriver_path}: chromedriver驱动存放路径
driver = webdriver.Chrome(options=options)
driver.get("https://www.baidu.com")

# 获取页面内容
print(driver.page_source)

# 延迟3秒后关闭当前窗口，如果是最后一个窗口则退出
time.sleep(3)

15.鼠标悬停

if __name__ == '__main__':
    from selenium import webdriver
    from selenium.webdriver.common.action_chains import ActionChains

    driver = webdriver.Chrome()
    import time

    start_url = 'https://lceda.cn/'

    driver.get(start_url)

    # 定位到需要悬停的标签
    move = driver.find_element_by_xpath('//*[@id="headerNav"]/li[1]/a/span')
    # //*[@id="headerNav"]/li[1]/a/span
    # 悬停之后需要点击的标签
    a = driver.find_element_by_xpath('/html/body/div[1]/div[2]/div[1]/div[1]/div[3]/div[1]/a[2]')
    # //*[@id="headerNav"]/li[1]/div/a[2]
    # /html/body/div[1]/div[2]/div[1]/div[1]/div[1]/div/div/div[1]/ul/li[1]/div/a[2]
    # 悬停点击执行
    # 创建事件对象
    actions = ActionChains(driver)
    time.sleep(1)
    # 记录操作
    actions.move_to_element(move)
    time.sleep(1.5)
    # 悬停的点击
    actions.click(a)
    time.sleep(1)
    # 开始执行事件
    actions.perform()

16.优缺点

selenium能够执行页面上的js，对于js渲染的数据和模拟登陆处理起来非常容易。
selenium由于在获取页面的过程中会发送很多请求，所以效率非常低，所以在很多时候需要酌情使用。

你可能感兴趣的:(面试,学习路线,阿里巴巴,android,前端,后端)

python提取excel数据批量生成固定格式的word文件的问题鱼弦【HOT】技术热谈 excel word
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）使用Python从Excel中提取数据并生成固定格式的Word文档1.介绍本项目旨在介绍如何使用Python从Excel中提取数据并生成固定格式的Word文档
【从零开始学习计算机科学】设计模式（五）MVC模式、业务代表模式、组合实体模式、数据访问对象模式、前端控制器模式、拦截过滤器模式、服务定位器模式、传输对象模式贫苦游商学习设计模式 mvc 业务代理模式组合实体模式数据访问对象模式传输对象模式
【从零开始学习计算机科学】设计模式（五）MVC模式、业务代表模式、组合实体模式、数据访问对象模式、前端控制器模式、拦截过滤器模式、服务定位器模式、传输对象模式MVC模式主要组件工作原理优点缺点适用场景总结业务代表模式主要特点组成部分工作原理优点缺点适用场景总结组合实体模式主要特点组成部分工作原理适用场景优点缺点总结数据访问对象模式主要特点组成部分工作原理适用场景优点缺点总结前端控制器模式主要特点组
Java高频面试之集合-11 牛马baby java 面试哈希算法
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：详细说说hashmap的put和get操作HashMap的put和get操作是核心功能，其底层通过数组+链表/红黑树实现，结合哈希计算与冲突处理完成键值对的存取。以下是详细流程和关键逻辑分析：一、put操作流程publicVput(Kkey,Vvalue){returnputVal(hash(key),key,value
这些用例设计题，你在面试时遇到过吗？ bug管理者软件测试面试软件测试面试
功能测试点赞功能：1.点击点赞按钮，是否可以成功点赞，并显示点赞图标和微信昵称；2.点赞成功后是否可以取消点赞；3.没有网络情况下是否可以点赞；4.点赞成功后是否可以评论；5.是否按照点赞顺序进行排序；6.点赞刚好一排可以显示多少头像；7.是否有点赞人数限制；8.是否可以多次点赞/取消点赞；9.点赞成功后，原“点赞”字样是否变为“取消”；10.朋友圈是否可以看到共同好友的点赞；11.是否可以点赞刚
腾讯 IEG 游戏前沿技术一面复盘 andrew_1219 面试经验面试 java sql redis
前言投了个实习内推后台开发，本来要电话先交流的那天直接走流程下午面试了，对面两人，面了有一个小时，游戏本的构思续航忘记插电了最后还掉线了一下，趁着还记得面试内容复盘一下自我介绍一下答：您好，我是深大26届xxx的xxx，对贵公司后台开发的岗位很感兴趣。现在在xxx做后台开发实习生，负责项目的开发和运维相关，还有一部分系统设计相关的的工作，之前在学校中也做过web开发相关的项目。了解到贵公司正在招聘
MediaPlayer 状态机，接口详情趋势大仙 android应用 android源码 android
一，AndroidMediaPlayer状态图MediaPlayer对象声明周期:从Idle到End状态就是MediaPlayer整个生命周期;--生命周期开始:进入Idle(闲置)状态;--生命周期结束:进入End(结束)状态;Idle和End状态转换:--进入Idle状态:MediaPlayer刚被创建newMediaPlayer()或者调用了reset()方法之后,进入Idle(闲置)状态;
Android广播限制Background execution not allowed: receiving Intent { act= 趋势大仙异常题库 android
“Backgroundexecutionnotallowed:receivingIntent”这个错误信息通常出现在Android应用开发中，特别是在处理后台任务或接收广播（Broadcast）时。这个错误表明应用试图在后台执行某些操作，但Android系统出于电池优化和用户体验的考虑，限制了后台任务的执行。可以尝试以下二种方法：1.把targetSdkVersion设置为25及以下的版本号，重新
Flutter设计模式全面解析：单例模式那年星空 flutter 设计模式单例模式
谈到设计模式这个“古老”的话题，大家先别急着划走哈，虽然对它再熟悉不过，几乎是最初开始学习编程到现在伴随着我们整个编程生涯，最早Java、C++语言实现的各种设计模式到现在还会经常有所接触，面试中也是必问的环节，在开发Flutter项目的时候，也会多少借鉴了其它语言设计模式的实现，但始终觉得dart语言实现的设计模式理解不够系统，有的实现还缺点儿dart语言本身的语法特性。加上最近在看一些Flut
Flutter三棵树是什么，为什么这么设计 Ever69 Flutter《葵花宝典》flutter 三棵树
目录1.三棵树的定义与职责(1)Widget树(2)Element树(3)RenderObject树2.三棵树的协同工作流程3.为什么设计三棵树？(1)性能优化(2)逻辑解耦(3)灵活性4.三棵树的设计优势总结示例：动态列表更新常见面试追问Flutter的「三棵树」是其核心设计之一，用于高效管理UI的构建、更新和渲染。它们分别是Widget树、Element树和RenderObject树。这种分层
Spring有哪些缺点? java1234_小锋 java java 面试开发语言
大家好，我是锋哥。今天分享关于【Spring有哪些缺点?】面试题。希望对大家有帮助；Spring有哪些缺点?1000道互联网大厂Java工程师精选面试题-Java资源分享网Spring是一个非常流行的Java框架，提供了丰富的功能和灵活的配置选项，广泛应用于企业级应用开发。然而，尽管Spring有许多优点，但它也存在一些缺点和挑战，以下是一些常见的缺点：1.学习曲线较陡峭Spring框架包含了大量
36、弱电网络技术之TCP协议灵魂 12 问，总会用得到 BinaryStarXin 网络工程师提升之路 tcp/ip 网络 java
TCP作为传输层的协议，是一个软件工程师素养的体现，也是面试中经常被问到的知识点。在此，我将TCP核心的一些问题梳理了一下，希望能帮到各位。001.能不能说一说TCP和UDP的区别？首先概括一下基本的区别:TCP是一个面向连接的、可靠的、基于字节流的传输层协议。而UDP是一个面向无连接的传输层协议。(就这么简单，其它TCP的特性也就没有了)。具体来分析，和UDP相比，TCP有三大核心特性:面向连接
Android进行Post提交JSON数据注意事项 kerry1789 Android 感慨 android java 单元测试
刚好业务需要写一个测试程序给客户使用，直接入主题吧！请求地址：http://12.32.12.32:91889/testx.php请求参数：{"test1":"顾家家居口味咯咯咯","test2":"把1册","test3":"13512341234","test4":"5rW35Y2X55uR54ux566h55CG5bGA6LCD5bqm5oyH5oyl5bmz5Y","test5":"123
树莓派raspberry搭建web服务(基于LAMP) 最古琴
撸了今年阿里、头条和美团的面试，我有一个重要发现.......>>>本文永久地址：https://my.oschina.net/bysu/blog/15502121.安装apachesudoapt-getinstallapache2php-gdphp安装完之后，怎么确认是否安装成功了呢？可以通过以下几种方式确认。a.可以查看是否已有相应的服务ps-ef|grepapache会看到4条服务，其中主进
深入理解 Android 中的 ViewModel 和 LiveData：实现数据与 UI 的分离与响应式更新 tangweiguo03051987 android android ui ViewModel LiveData
ViewModel和LiveData是Android架构组件中的两个核心类，用于帮助开发者构建健壮、可维护且响应迅速的应用程序。它们通常一起使用，以实现数据与UI的分离，并确保数据在配置更改（如屏幕旋转）时不会丢失。ViewModelViewModel的主要目的是管理与UI相关的数据，并在配置更改时保持数据的持久性。它允许数据在Activity或Fragment销毁和重新创建时保持不变。1.1Vi
数据库查询优化：提升性能的关键实践
title:数据库查询优化：提升性能的关键实践date:2025/1/30updated:2025/1/30author:cmdragonexcerpt:在当今数据驱动的商业环境中，数据库的性能直接影响着应用程序的响应速度和用户体验。查询优化是性能调优的重要组成部分，通过对SQL查询的分析与改进，减少查询执行时间和资源消耗，从而提升整体系统效率。categories:前端开发tags:查询优化数据
安卓-关于使用startForegroundService启动服务于服务提前终止的思考 Auspemak-Derafru android
在安卓官方说明中对前台服务的说明是这样的：从应用启动前台服务分为两步。首先，您必须通过调用context.startForegroundService()来启动服务。然后，让该服务调用ServiceCompat.startForeground()将自身提升为前台服务。启动前台服务|Backgroundwork|AndroidDevelopers其中，说明到了要调用ServiceCompat.sta
java-通过继承android.location.Location实现自定义化的location对象 Auspemak-Derafru android
起因：1.在中国大部分地区，由于政策原因。对定位的使用必须使用定位为俗称火星坐标的gcj02坐标系。然而，在调用安卓原生的android.location.LocationListener获取定位对象时，给到的将是以默认WGS84为坐标系的点，所以由于该种原因，导致我们在调用的大多数大陆地区api地图时会出错。2.获取到的定位点有可能出现漂移现象，为了给获取到的点打上标记，以便于后续的处理，我希望
Go+Vue通用后台管理项目实战 - 带源码课件 6v6-博客网 6v6-博客 golang vue.js 开发语言
Go+Vue通用后台管理项目实战-带源码课件课程描述本课程从0到1搭建前后端项目，帮助学员掌握Go+Vue开发前后端分离项目的能力。通过实战项目，学员将学习到如何设计系统架构、实现核心功能模块，并最终完成一个完整的后台管理系统。课程亮点前后端分离：基于Go语言后端和Vue前端，实现高效开发模式。实战项目：通过完整项目实战，掌握从需求分析到部署上线的全流程。源码提供：附带完整源码，方便学员学习和二次
如何撰写一份清晰专业的软件功能测试报告？看这篇就够了！软件测试君自动化测试软件测试职场经验功能测试面试软件测试自动化测试职场经验深度学习功能测试报告
面试求职：「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）职场经验干货：软件测试工程师简历上如何编写个人信息（一周8个面试）软件测试工程师简历上如何编写专业技能（一周8个面试）软件测
JavaEE系统架构师学习路线(基础篇) 淘小五
大纲：第1阶段(Java程序员)-Java语言基础第2阶段(Java初级软件工程师)-JSP、Servlet、HTML、CSS、JS、Bootstrap、XML、AJAX、MySQL、SQLServer、Oracle第3阶段(Java中级软件工程师)-Struts2、Spring、Hibernate、SpringMVC、Mybatis、Shiro、JVM第4阶段(Java高级软件工程师)-WebS
基于python+mysql+vue的医院门诊管理系统自不量力的A同学 mysql
主要使用技术环境需要1.运行环境：python3.82.IDE环境：pycharm+mysql5.73.数据库工具：Navicat154.硬件环境：windows10/118G内存以上；或者MacOS；5.数据库：MySql5.7版本；技术栈后端：python+django前端：vue+CSS+JavaScript+jQuery+antdesign代码结构server目录是后端代码web目录是前端
基于python的家政预约管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。学习技术问题可以留言。整个平台包括前台和后台两个部分。前台功能包括：首页、详情页、用户中心、家政入驻模块。后台功能包括：总览、家政管理、分类管理、标签管理、评论管理、用户管理、运营管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_ji
基于python+django+vue.js开发的健身房管理系统源码+运行步骤冷琴1996 Python系统设计 python django vue.js
功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。技术学习中的问题可以留言。功能包括：教练管理、会员管理、场地管理、设备管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_fitness演示地址http://fitness.gitapp.cn演示帐号：用户名：admin123
数据分析面试全攻略：项目经验篇代码CC 数据分析（包括各种面试题）数据分析面试 python
引言：为什么项目经验是数据分析面试的“敲门砖”？在数据分析岗位的面试中，项目经验是最核心的竞争力证明。HR视角：80%的面试官会通过项目细节判断候选人的真实能力技术视角：项目是数据清洗、建模分析、业务落地的综合体现误区警示：单纯罗列工具名称（如Python/SQL）≠具备实战能力本文将系统讲解如何用STAR法则包装项目、如何选择高含金量数据集、以及如何通过和鲸社区快速积累实战经验。文末提供10个可
Python常用10个模块详解：提升开发效率的利器 Python_trys python microsoft 数据库开发语言 Python入门 Python基础 Python教程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】Python作为一门功能强大且易于学习的编程语言，拥有丰富的标准库和第三方模块，能够帮助开发者快速实现各种功能。本文将详细介绍Python中常用的10个模块，帮助你在开发中更高效地完成任务。1.os模块：操作系统交互os模块提供了与操作系统交互的功能，包括文件操作、目录管理、环境变量等。常用功能：文件与目录操作：importos#获取当前
Webpack 前端性能优化全攻略北辰alk 前端 vue 前端 webpack 性能优化
文章目录1.性能优化全景图1.1优化维度概览1.2优化效果指标2.构建速度优化2.1缓存策略2.2并行处理2.3减少构建范围3.输出质量优化3.1代码分割3.2TreeShaking3.3压缩优化4.运行时性能优化4.1懒加载4.2预加载4.3资源优化5.高级优化策略5.1持久化缓存5.2模块联邦5.3性能分析6.优化效果验证6.1构建速度分析6.2性能监控7.最佳实践总结7.1优化策略7.2持续
C语言面试高频(二) HUZ_小Z c++开发语言
C语言面试高频(二)1.结构体和共用体的区别1.定义结构体：成员在内存中独立存储，每个成员占用独立的内存空间。内存占用是成员之和，每个成员都占用独立的空间。成员可以同时被访问，通过成员名字来访问。适合存储和处理多个不同类型的数据，如员工信息、图形对象等。共用体：成员共享同一块内存空间，只能存储一个成员的值。内存占用是最大成员的大小，所有成员共享该空间。成员只能同时访问其中的一个，存取时要明确指定。
RabbitMQ相关的面试题努力的搬砖人. java rabbitmq 后端
以下是150道RabbitMQ相关的面试题及简洁回答：RabbitMQ基础概念1.什么是RabbitMQ？RabbitMQ是一个开源的AMQP（高级消息队列协议）实现，用于在分布式系统中进行消息传递和通信。它允许应用程序通过网络发送和接收消息，实现异步处理、解耦合和扩展性。RabbitMQ使用Erlang语言开发，具有高可用性和容错性，适用于各种规模的应用程序。2.RabbitMQ的核心组件有哪些
（一）响应式编程理论糖心何包蛋爱编程响应式编程 java 响应式框架经验分享
小编大学毕业后面试的第一家公司问我会响应式吗，我当时觉得好陌生呀，完全没有听说过的名词，还在那里胡编乱造说一堆，但是也不是完全没有沾边，提到了Java8的新特性，现在想想也是印象很深，但好在成功拿到offer,入职后我就很努力的恶补很多相关知识，现在纯纯就是干货拿来分享，让你少走弯路。在了解响应式编程之后，发现响应式编程在行业内还没有普及，因为这对程序员有比较高的要求，不比传统编程好调试，但是当我
只用过传统搜索方式？来试试url持久化搜索 Mebius1916 前端开发 javascript 前端前端框架 react.js vue.js
本文为开发开源项目的真实开发经历，感兴趣的可以来给我的项目点个star，谢谢啦~具体博文介绍：开源｜Documind协同文档（接入deepseek-r1、支持实时聊天）Documind一个支持实时聊天和接入-掘金传统搜索方式从搜索框拿到数据后直接传给后端查询import{NextResponse}from'next/server';exportasyncfunctionPOST(request:R
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他