刘延林 | 梦陆

在centos7上部署selenium（基于chrome驱动）的爬虫项目

相信大家在写爬虫的时候，经常会遇到爬取的网站是动态渲染的，而且各自反爬加密参数，难以破解，所以不得已采用使用了python+selenium进行模拟人为操作爬取。免去了一些繁琐步骤。但是我们大多数都是在windows或者Mac下进行开发和测试。开发完了之后。最终要部署到服务器上去。那么服务器常用的就有liunx。

至于liunx服务器我们都知道，它并没有一个像windows上的桌面，而是一个纯命令行的界面。所以也就没有所谓的Chrome浏览器之类的。在部署selenium项目的时候，需要开启Chrome的无头模式。也就是没有界面的浏览器。由于我在实际部署上centos7上运行的时候，遇到了很多的问题，各种坑，总是会报各种错误使得selenium项目不能正常运行。通过网上搜集和整理了一些资料动手操作，最终尝试了千百次后成功的部署并正常运行爬取了。这里将我的经验以笔记形式记下来，希望对需要的同仁有所参考：

环境准备

首先我们需要准备好一台centos7的liunx服务器，例如我这里是内核为：3.10.0-862.el7.x86_64 的服务器，如下图所示：

我们可以使用：uname -r 命令查看内核版本，这里建议使用3.10以上的版本。然后我们需要安装Python和项目中用到的一些库。我这里安装的Python版本是3.6.4的，如下图所示：

安装好Python之后，接下来，我们来配置关于selenium的一些环境。相关步骤如下：

步骤1：下载Chrome

wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

步骤2：安装Chrome

yum install ./google-chrome-stable_current_x86_64.rpm

步骤3：配置chromedriver

注意chromedriver的版本，要与你安装的chrome版本对应上，这里的版本已经不是最新的。版本列表：http://chromedriver.chromium.org/downloads

步骤4：以我这里为例，下载chromedriver_linux64.zip：

wget https://chromedriver.storage.googleapis.com/2.38/chromedriver_linux64.zip

然后解压：解压chromedriver_linux64.zip

unzip chromedriver_linux64.zip

步骤5：为chromedriver授权

chmod 755 chromedriver

步骤6：Python代码测试

例如使用以下代码：

from selenium import webdriver

def spider(url='http://bing.com'):
    option = webdriver.ChromeOptions()
    option.add_argument('--no-sandbox')  
    option.add_argument('--headless')  
    # 注意path，我这里是chromedriver放在/home/apk/chromedriver
    driver = webdriver.Chrome(executable_path='/home/apk/chromedriver', chrome_options=option)
    driver.get(url)
    print(driver.page_source)
spider()

运行代码，如下图所示表示已经环境配置已经成功：

可以看到，它已经成功的返回了许多html代码。

环境配置成功以后，接下来就可以将我们python+selenium写的爬虫代码部署上去啦。最后需要注意两点最关键的代码：

#开启无头模式
options.add_argument('--headless')
#这个命令禁止沙箱模式，否则肯能会报错遇到chrome异常。
options.add_argument('--no-sandbox')

这两个参数特别重要，不然运行会报错，因为liunx下是没有界面的。（这里给点建议，在liunx下跑的时候，最好带上header信息的）

这里给出一个示例我自己的爬取同城旅游网机票信息的爬虫：

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from comm.spider_communal import is_same_month,get_day,async,es_save
from selenium.webdriver.chrome.options import Options
import time
import re
from lxml import etree
import platform
import random
import uuid

'''
使用selenium自动化测试工具爬取同城旅游网机票信息
爬取URL：https://www.ly.com
author：liu-yanlin
依赖环境：python3.6.1
pip install selenium==3.13.0
pip install lxml==4.2.1
Chrome驱动下载地址：https://chromedriver.storage.googleapis.com/index.html?path=2.35/
'''
class LySpider():

    '''
    @:param date_str 查询日期
    @:param start_city 查询起始城市
    @:param arrive_city 查询抵达城市
    '''
    def __init__(self,date_str=None,start_city=None,arrive_city=None):
        self.date_str=date_str
        self.start_city=start_city
        self.arrive_city=arrive_city
        options = Options()
        #开启无头模式
        options.add_argument('--headless')
        #这个命令禁止沙箱模式，否则肯能会报错遇到chrome异常。
        options.add_argument('--no-sandbox')
        #建议加上user-agent，因为liunx下有时候会被当成手机版的，所以你会发现代码会报错
        num=str(float(random.randint(500,600)))
        #此参数最好建议最好带上，不然有些网站会识别liunx系统进行拦截，这里把它伪装成windows下的
        options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/{} (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/{}".format(num,num))
        options.add_argument('Origin=https://www.ly.com')
        sys_str = platform.system()
        if sys_str=="Linux":
            self.driver = webdriver.Chrome(executable_path='/home/chromedriver/chromedriver', chrome_options=options)
        else:
            self.driver = webdriver.Chrome(chrome_options=options)

    '''
    通过selenium控制Chrome驱动，完成模拟人工输入查询地址和日期然后点击提交获取查询结果html的流程
    '''
    def get_query_results(self):

        # 隐性等待和显性等待可以同时用，但要注意：等待的最长时间取两者之中的大者
        self.driver.implicitly_wait(10)
        self.driver.get('https://www.ly.com/FlightQuery.aspx')
        locator = (By.ID, 'txtAirplaneCity1')
        try:
            # 显性等待
            WebDriverWait(self.driver, 20, 0.5).until(EC.presence_of_element_located(locator))
            # 起始地城市input元素获取并清空值，然后填入城市名称,输入之后模拟按回车键
            txtAirplaneCity1 = self.driver.find_element_by_id("txtAirplaneCity1")
            # 通过js清空起始地城市值，并填充新的值
            js_clear_city1 = ''' document.getElementById('txtAirplaneCity1').value="" '''
            self.driver.execute_script(js_clear_city1)
            txtAirplaneCity1.send_keys(self.start_city)
            txtAirplaneCity1.send_keys(Keys.ENTER)

            # 抵达地城市input元素获取并清空值，然后填入城市名称，输入之后模拟按回车键
            txtAirplaneCity2 = self.driver.find_element_by_id("txtAirplaneCity2")
            txtAirplaneCity2.clear()
            # 通过js清空抵达地城市值，并填充新的值
            js_clear_city2 = ''' document.getElementById('txtAirplaneCity2').value="" '''
            self.driver.execute_script(js_clear_city2)
            txtAirplaneCity2.send_keys(self.arrive_city)
            txtAirplaneCity2.send_keys(Keys.ENTER)

            # 如果所查询的日期在当月范围内，则定位到日历插件中第1个div否则定位到第2个div，div1 表示当月，div2表示下一个月
            if is_same_month(self.date_str):
                # 定位到日历插件
                element_calendar = self.driver.find_elements_by_xpath(
                    "/html/body/div[17]/div/div[1]/div[1]/div/table/tbody/tr/td/span")
                for item in element_calendar:
                    if item.text == get_day(self.date_str):
                        item.click()
            else:
                element_calendar = self.driver.find_elements_by_xpath(
                    "/html/body/div[17]/div/div[1]/div[2]/div/table/tbody/tr/td/span")
                for item in element_calendar:
                    if item.text == get_day(self.date_str):
                        item.click()
            # 定位搜索按钮并模拟点击提交
            airplaneSubmit = self.driver.find_element_by_id("airplaneSubmit")
            airplaneSubmit.click()
            # 显性等待后，定位到机票查询结果div，然后获取div内的html
            locator_content = (By.ID, 'allFlightListDom_1')
            WebDriverWait(self.driver, 20, 0.5).until(EC.presence_of_element_located(locator_content))
            flight_list_html=self.get_flight_list_dom()
            #返回结果
            data_list=[]
            '''
            此处判断返回的flight_list_html里面是否包含有机票信息，如果有直接返回此html代码，否则使用for循环
            从新尝试10次，每循环一次暂停一秒（这里为啥要这样写，因为实际情况中可能会存在网络延迟加载慢等原因
            导致获取不到内容）
            '''
            if flight_list_html:
                for item in flight_list_html:
                    data_list.append(item.get_attribute('innerHTML'))
            else:
                for x in range(10):
                    flight_list_html = self.get_flight_list_dom()
                    if flight_list_html:
                        for item in flight_list_html:
                            data_list.append(item.get_attribute('innerHTML'))
                        break
                    time.sleep(1)
            return data_list

        except Exception as ex:
            print(ex)
        finally:
            self.driver.close()
    '''
    定位到机票查询结果div，然后获取div内的html
    '''
    def get_flight_list_dom(self):
        # ---显性等待后，定位到机票查询结果div，然后获取div内的html
        #通过观察页面发现这个机票列表数据有三种格式，所以将它们都提取出来拼接成一个List返回
        flight_list_html_n=self.driver.find_elements_by_xpath('//div[@class="clearfix flightList"]//div[@class="flist_box"]')
        flight_list_html_top=self.driver.find_elements_by_xpath('//div[@class="clearfix flightList"]//div[@class="flist_box f_m_top flist_boxat"]')
        flight_list_html_boxbot = self.driver.find_elements_by_xpath('//div[@class="clearfix flightList"]//div[@class="flist_box flist_boxbot"]')
        return flight_list_html_n+flight_list_html_top+flight_list_html_boxbot

    '''
    提取数据
    @:param respone get_query_results()方法中返回的结果内容
    '''
    def extract(self,respone):
        try:
            data_list=[]
            for item in respone:
                data = {}
                html = etree.HTML(item)
                #ID
                data["air_id"]=str(uuid.uuid4())
                # 航司
                airline = html.xpath('/html/body/table/tbody/tr/td[1]/div[1]/text()')
                data["airline"] = airline[0] if airline else ""
                # 航班号
                flight_number = re.findall("[a-zA-Z]{2}\d+", airline[0])+re.findall("\d[a-zA-Z]{1}\d+", airline[0])
                data["flight_number"] = flight_number[0] if flight_number else ""
                # 出发时间
                dep_time = html.xpath('/html/body/table/tbody/tr/td[2]/div[1]/text()')
                data["dep_time"] = dep_time[0] if dep_time else ""
                # 出发机场
                dep_airport = html.xpath('/html/body/table/tbody/tr/td[2]/div[2]/text()')
                data["dep_airport"] = dep_airport[0] if dep_airport else ""
                # 飞机类型
                aircraft_type = html.xpath('/html/body/table/tbody/tr/td[1]/div[2]/a/text()')
                data["aircraft_type"] = aircraft_type[0] if aircraft_type else ""
                # 抵达时间
                arr_time = html.xpath('/html/body/table/tbody/tr/td[4]/div[1]/text()')
                data["arr_time"] = arr_time[0] if arr_time else ""
                # 抵达机场
                arr_airport = html.xpath('/html/body/table/tbody/tr/td[4]/div[2]/text()')
                data["arr_airport"] = arr_airport[0] if arr_airport else ""
                # 价格
                price = html.xpath('/html/body/table/tbody/tr/td[8]/div[1]/span[1]/em[1]/text()')
                data["price"] = price[0] if price else ""
                #出发日期
                data["date_str"]=self.date_str
                #采集时间
                data["create_time"]=str(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time())))
                data_list.append(data)
            return data_list
        except Exception as ex:
            print(ex)
            return None
    '''
    保存数据
    @:param data 要保存的数据，默认是保存extract()方法所返回的数据
    '''
    def save(self,data=None):
        try:
            #以下将数据保存到kafka中
            if data:
               # with open("ly_data.log","a")as f:
               #      f.write(str(data))
               #      f.write("\n")
                result=es_save(data)
                print("-----返回结果------")
                print(result)


        except Exception as ex:
            pass

if __name__ == "__main__":

    @async
    def run_spider(date):
        print("-------进入 {} ----------爬取".format(date))
        ly_spider = LySpider(date,"成都","北京")
        res=ly_spider.get_query_results()
        data_list=ly_spider.extract(res)
        for item in data_list:
            print(item)
            # ly_spider.save(item)
    #-------------------------------
    while True:
        date_list=["2019-01-14","2019-01-15"]
        for x in date_list:
            run_spider(x)
        time.sleep(600)

运行结果如图所示：

AI加速回归测试：如何用大模型预测哪些模块最容易出问题测试者家园人工智能测试开发和测试质量效能人工智能质量效能软件测试软件研发大模型预测回归测试风险预测
用ChatGPT做软件测试回归测试是软件开发过程中必不可少的环节，尤其是在持续集成和快速迭代的开发环境下。随着软件系统变得日益复杂，传统的回归测试面临着显著的挑战：测试覆盖面广、执行周期长、资源消耗大，而测试人员又常常无法准确预测哪些模块会出现问题。为了提高回归测试的效率和精准性，AI，特别是大模型技术的引入，为回归测试的智能化提供了前所未有的机遇。通过大模型的预测能力，测试团队能够更加高效地识别
说说 Spring MVC 的执行流程？浮生带你学Java Java面试题 Spring spring mvc java
高频面试题：说说SpringMVC的执行流程？大家好，我是浮生，一个工作了十四年的java程序员！昨天，一个工作2年的粉丝在面试的时候，面试官要求他说SpringMVC的执行流程。他没回答上来，错过了这个offer。一、问题解析SpringMVC的执行流程，一个面试频率超级高的问题，但是缺难倒了无数的程序员。这个问题的考察范围主要是3~5年，甚至5年以上都会问到。和它同类型的问题还有Bean的加载
-字母概率- -JMY- C++题库 c++
题目描述小明最近对概率问题很感兴趣。一天，小明和小红一起玩一个概率游戏，首先小明给出一个字母和一个单词，然后由小红计算这个字母在这个单词中出现的概率。字母不区分大小写。例如，给定的字母是a，单词是apple，那么概率是0.20。输入输入包含多组测试数据。每组数据包含一个字母和一个单词。单词的长度不超过200。输出对于每一个输入，输出对应的概率，结果保留2位小数。样例输入aapple样例输出0.20
15天大厂真题带刷day1 练习时长两年半1 算法数据结构
牛客网在线编程_算法面试_15天大厂真题带刷(nowcoder.com)ZT123年OPPO-a的翻转描述数字a翻转数位得到数字b，计算+a+b。输入描述：一个正整数 (1⩽⩽109)a(1⩽a⩽109)。保证a在十进制下每一位都非00。输出描述：一个正整数表示答案。示例1输入：12输出：33说明：正整数=12a=12，翻转得到=21b=21，+=33a+b=33。示例2输入：23输出：55im
蓝桥杯二分题练习时长两年半1 算法数据结构 java 蓝桥杯
P1083[NOIP2012提高组]借教室题目描述在大学期间，经常需要租借教室。大到院系举办活动，小到学习小组自习讨论，都需要向学校申请借教室。教室的大小功能不同，借教室人的身份不同，借教室的手续也不一样。面对海量租借教室的信息，我们自然希望编程解决这个问题。我们需要处理接下来n天的借教室信息，其中第i天学校有ri个教室可供租借。共有m份订单，每份订单用三个正整数描述，分别为,,dj,sj,tj，
SpringCloud/Boot集成LogBack azoon.top spring cloud logback spring log4j slf4j
一.简要介绍什么是SLF4J？官网介绍：SimpleLoggingFacadeforJava（SLF4J）充当简单的各种日志记录框架的Facade或抽象（e.g.java.util.logging、logback、log4j）允许最终用户在部署时插入所需的日志记录框架。类似java中的接口，如果只集成SLF4J，日志只能输出在控制台，并没有输出到文件的能力，要实现真正的日志能力，需要引入其实现层：
图论刷题计划与题解1（最短路问题） cqust_qilin02811 #最短路与分层图图论算法深度优先
文章目录图论刷题计划与题解1（最短路问题）题目1：P1629邮递员送信（建反图做两次dijkstra）题目2：P1144最短路计数题目3：P1828[USACO3.2]香甜的黄油SweetButter题目4：P1576最小花费题目5：P5767[NOI1997]最优乘车题目6：P5764[CQOI2005]新年好图论刷题计划与题解1（最短路问题）题目1：P1629邮递员送信（建反图做两次dijks
图论题解索引 JLU_LYM 各类型题解索引图论算法数据结构题解索引解题攻略
前言作图论的题的时候，无论何时，DFS，BFS加剪枝，都是你可靠的方法，如果第一眼没有具体思路，完全可以先按照刚才的两个方法思考下去，可能想着想着，这道题真实的样子(即真正合适的算法)，你就发现了。并查集１、并查集计算连通分量数：力扣547省份数量２、并查集维护一个大集合问题（是一个集合不可以连线）＋计算连通分量变种题目力扣684冗余连接3、并查集维护连通分量是否为１的Kruskal算法：力扣15
讯飞星火 VS 文心一言：谁是中文大语言模型的TOP1？沉迷单车的追风少年深度学习-计算机视觉人工智能文心一言讯飞星火百度科大讯飞
在百度发布文心一言一个多月后，科大讯飞也发布了自己的大模型“讯飞星火大模型”。本篇博客就测评一下这两个在中文圈最受好评的大语言模型，顺便辅以ChatGPT为参考。大家一起来看看到底谁是中文大语言模型的TOP1？目录体验网址1、旅游攻略2、数理逻辑题3、故事创作4、古诗创作5、图片创作6、文案创作7、代码编写8、互联网黑话9、中文梗对比10、英文写作结论体验网址1、文心一言：文心一言2、ChatGP
Eureka vs Zookeeper：谁才是微服务世界的“寻人启事”之王？码农技术栈 eureka zookeeper 微服务架构 spring cloud
引言：为什么需要“服务发现”？想象一下，你走进一家巨大的购物中心，里面有1000家店铺，但没有任何地图或指示牌。你需要找到一家奶茶店，却只能挨家挨户敲门问路——这就是没有服务发现的微服务世界。服务发现（ServiceDiscovery）就像购物中心的智能导航系统：它能自动告诉你奶茶店的位置、哪家正在营业，甚至哪家人最少。而Eureka和Zookeeper就是两套不同的“导航系统”，但它们的底层逻辑
Eureka、Zookeeper、Nacos 三国杀：谁才是微服务“全家桶”的终极答案？码农技术栈 eureka zookeeper 微服务 spring cloud spring boot 后端
引言：微服务世界的“三大护法”如果你在微服务领域摸爬滚打过，一定听过这三个名字：Eureka、Zookeeper、Nacos。它们看似都解决了“服务发现”问题，但背后的定位天差地别——Eureka是Netflix的“退休老干部”（已停更），主打高可用；Zookeeper是Apache的“强迫症管家”，专注强一致性；Nacos是阿里的“全能新秀”，号称“服务发现+配置管理”二合一。到底怎么选？我们通
Unity（游戏）中五种数据存储的方法别皱眉inging unity3d 游戏存储存储方式
Unity（游戏）中五种数据存储的方法一、PlayerPrefsunity3d提供了一个用于本地持久化保存与读取的类-------PlayerPrefs.工作原理很简单，以键值对的形式将数据保存在文件中，然后程序可以根据这个名称取出上次保存的数值（注：PlayerPrefs运用起来很方便，随时都可以存取与读取）。Playerprefs类支持3中数据类型的保存和读取，分别是浮点型、整型和字符串型：P
从入门到精通，解锁AI新高度——DeepSeek学习手册周师姐学习
资料链接：https://pan.quark.cn/s/c927326f70c5你是否渴望掌握前沿AI技术，却在复杂的理论和实践中迷茫？现在，一本由清华大学出品的《DeepSeek：从入门到精通》学习手册横空出世，为你开启AI新世界的大门。作为人工智能领域的新兴力量，DeepSeek以其卓越的性能和创新的技术，正在重塑我们对AI的认知。这本手册，由清华大学顶尖科研团队精心编写，是DeepSeek技
SGI STL（六）——reallocate函数解析 FuzhouJiang SGI STL allocator C/C++c++
reallocate函数主要用于内存池的扩容和缩容templatevoid*__default_alloc_template::reallocate(void*__p,size_t__old_sz,size_t__new_sz){void*__result;size_t__copy_sz;if(__old_sz>(size_t)_MAX_BYTES&&__new_sz>(size_t)_MAX_B
Pytorch使用手册—使用TACOTRON2进行文本到语音转换（专题二十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
一、概述本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。文本到语音的管道流程如下：文本预处理首先，输入的文本被编码为一系列符号。在本教程中，我们将使用英语字符和音标作为符号。谱图生成从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。3.时域转换最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder（声码器）。在本教程中，我们
Pytorch使用手册--将 PyTorch 模型导出为 ONNX（专题二十六） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
注意截至PyTorch2.1，ONNX导出器有两个版本。torch.onnx.dynamo_export是最新的（仍处于测试阶段）导出器，基于PyTorch2.0发布的TorchDynamo技术。torch.onnx.export基于TorchScript后端，自PyTorch1.2.0起可用。一、torch.onnx.dynamo_export使用在60分钟入门中，我们有机会从高层次上了解PyT
spring boot、spring cloud、spring cloud alibaba 之间的版本对应关系薄荷街的兔比先生 spring boot spring cloud java
大家在引用pom的时候还是要以官方推荐版本为主，不然容易出现未知的问题。1.springboot和springcloud的版本关系官方提供的版本对照表https://start.spring.io/actuator/info{"git":{"branch":"93e528fc7e79e41a513e493d057499401a15eb67","commit":{"id":"93e528f","ti
Apache Lucene 详解及示例微笑听雨。 java 进阶教程 apache lucene java 全文检索
ApacheLucene详解及示例1.简介ApacheLucene是一个开源的高性能全文搜索引擎库，广泛应用于构建各种搜索系统和信息检索应用。Lucene提供了丰富的API来进行索引和搜索，支持高效的文本处理和查询。本文将深入解析Lucene的核心概念和主要功能，并通过示例代码演示其使用方法。2.核心概念2.1倒排索引倒排索引（InvertedIndex）是Lucene的核心数据结构。它将文档中的
Cuppa CMS任意文件读取漏洞（CVE-2022-25401）风中追风-fzzf #文件读取安全 web安全
一、漏洞概述CuppaCMSv1.0中文件管理器的复制功能允许将任何文件复制到当前目录，从而授予攻击者对任意文件得读取权限，/templates/default/html/windows/right.php文件存在任意文件读取漏洞。二、影响范围v1.0三、访问页面四、漏洞复现1、访问接口POST接口/templates/default/html/windows/right.phpPOST/temp
非常实用的linux操作系统一键巡检脚本我科绝伦（Huanhuan Zhou） linux linux chrome 运维
[root@localhost~]#chmod+xsystem_check.sh[root@localhost~]#./system_check.sh[root@localhost~]#cat/root/check_log/check-20250227.txt脚本内容：#!/bin/bash#@Author:zhh#beseemCentOS6.XCentOS7.X#date:20250224#检查
根据Excel生成建表语句sql——源码设计说明忙碌的菠萝 java 环境搭建 sql java 数据库
根据Excel生成建表语句sql设计的人跟开发的人总不是同一个，这就导致了设计是设计的思路，开发是开发的思路，表也是一样，开发给加了字段不同步给设计人员，设计加了字段开发可能这个环境加了，另一个没加。为了避免比对和扯皮，以设计为准！序号内容连接地址1工具使用说明https://blog.csdn.net/qq_21271511/article/details/1219010642工具下载地址htt
【linux自动化实践】linux shell 脚本替换某文本忙碌的菠萝 linux自动化实践 linux 自动化运维
在Linuxshell脚本中，可以使用sed命令来替换文本。以下是一个基本的例子，它将在文件example.txt中查找文本old_text并将其替换为new_textsed-i's/old_text/new_text/g'example.txt解释：sed:是streameditor的缩写，用于处理文本数据。-i:表示直接修改文件内容。s:表示替换操作。old_text:要被替换的文本。new_
【目录】PMP项目管理—基础认知篇—十五至尊图洛北辰南 PMP PMP 项目管理目录
笔者已经3A通过PMP考试，近期抽空会把上网课记录的笔记腾到博客中，以此文为目录链接全部内容，欢迎订阅关注。已整理完成基础认知篇、整合管理篇。持续更新中…知识领域启动过程组规划过程组执行过程组监控过程组收尾过程组项目整合管理4.1制定项目章程4.2制定项目管理计划4.3指导和管理项目工作4.4管理项目知识4.5监控项目工作4.6实施整体变更控制4.7结束项目或阶段项目范围管理5.1规划范围管理5.
【有啥问啥】深入了解 FlashMLA：Hopper GPU 的高效 MLA 解码内核有啥问啥大模型行业调研科普算法语言模型
深入了解FlashMLA：HopperGPU的高效MLA解码内核简介在人工智能(AI)领域，特别是大型语言模型(LLM)领域，对计算效率和速度的需求持续增长。为了应对这些挑战，DeepSeek推出了FlashMLA，这是一种专为NVIDIAHopperGPU架构优化的高效MLA(Multi-LayerAttention)解码内核。FlashMLA旨在加速LLM的解码过程，从而显著提高模型的响应速度
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
Spring 核心技术解析【纯干货版】- XII：Spring 数据访问模块 Spring-R2dbc 模块精讲 m0_74825003 面试学习路线阿里巴巴 spring java 后端
在现代应用架构中，高并发、低延迟的需求推动了响应式编程的发展，而传统的JDBC由于其同步阻塞机制，在高吞吐场景下可能成为瓶颈。R2DBC（ReactiveRelationalDatabaseConnectivity）作为响应式关系型数据库访问标准，正是为了解决这一问题而诞生的。SpringR2DBC作为Spring生态对R2DBC的封装，提供了非阻塞、异步的数据库访问能力，并与SpringWebF
Spring Boot的项目结构 m0_74823983 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot的项目结构技术背景SpringBoot项目结构遵循Maven或Gradle的标准目录结构，同时融入了SpringBoot的特定约定。良好的项目结构不仅有助于代码组织，还能提高开发效率和项目可维护性。了解SpringBoot的项目结构对于开发高质量的应用至关重要。1.基础项目结构1.1标准目录结构基本的SpringBoot项目结构如下：myproject/├──src/│├──m
类和对象——const修饰的类的对象和函数 Darkwanderor c++学习 c++const
const修饰的类的对象和函数const成员函数和const对象1const成员函数2调用关系3const在成员函数中的位置4取地址&及const取地址操作符重载const成员函数和const对象1const成员函数将const修饰的“成员函数”称之为const成员函数，const修饰类成员函数，实际修饰该成员函数隐含的this指针，表明在该成员函数中不能对类的任何成员进行修改。例如：#inclu
类和对象——static修饰类的成员 Darkwanderor c++学习 c++
static修饰类的成员static成员1static成员的概念2特性static成员有时会有这样的需求：计算程序中创建出了多少个类的对象，以及多少个正在使用的对象。因为构造函数和析构函数都只会调用一次，所以可以通过设置生命周期和main函数一致的计数变量进行统计。计数变量用全局变量还会有别的问题：c++讲究封装，用全局变量可能会被不明因素修改。#include#includeintn,m;cla
解释SQL和NoSQL数据库的区别，各自的适用场景是什么？破碎的天堂鸟学习教程 nosql 数据库
SQL与NoSQL数据库的深度对比及适用场景分析一、核心定义与数据模型差异1：SQL数据库结构化数据模型：基于关系型模型，数据以表格（行和列）形式存储，表之间通过外键建立关联。例如，客户表与订单表通过客户ID关联，形成严格的逻辑结构。预定义模式（Schema）：需提前定义表结构（字段类型、主键、外键等），修改结构需通过ALTER等命令，灵活性较低。标准化查询语言：使用SQL（StructuredQ
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

在centos7上部署selenium（基于chrome驱动）的爬虫项目

环境准备

你可能感兴趣的:(在centos7上部署selenium（基于chrome驱动）的爬虫项目)