近来想在服务端部署一个爬虫,原本phantomjs是一个很好的选择,因为phantomjs无界面,而且设置也很灵活,比如设置不加载图片,是一个轻量级别的最佳选择。
但是好像selenium后面的版本并不支持phantomjs了,至于为什么不支持这可简直了,这么好用的搭配竟然不支持…然后我对selenium降级也没什么用,所以只能转向Chrome了。
然而在CentOS上安装Chrome的道路异常艰辛曲折…
一般来说都是64位的,当然也可以在命令行检查一下
echo "You are using $(getconf LONG_BIT) bit Linux disctro."
或者
$ uname -m
// Output:>x86_64
打开命令行Terminal
输入
wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm
在此说明,如果不是centos或者red-hat的Linux系统,比如是Ubuntu,则应该输入wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb
接着就直接在当前目录下安装即可
yum install ./google-chrome-stable_current_*.rpm
如果没有报错就算安装成功了
Tip: 可以看看安装的版本号,等下安装驱动的时候需要用
直接从官网上下载驱动(不过一般是下载不了的,需要),这里我直接分享一个
百度网盘链接:https://pan.baidu.com/s/1R8mdsSynFs6aAV2noSfMGA
提取码:6666
这个版本应该是:87.0.4280.88
如果需要其他版本的,可以私聊我
首先需要把这个文件下载到服务器端,然后添加到环境变量,用下面的方式
mv chromedriver /usr/bin/
这样一般还不能使用,一般而言还需要一个授权阶段
cd /usr/bin/
chmod 777 chromedriver
运行之后一般即可了
下面给一个简单的示例
使用selenium+chrome在CentOS上运行
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument("window-size=1920,1080")
chrome_options.add_argument("--no-sandbox")
prefs = {
"profile.managed_default_content_settings.images":2}
chrome_options.add_experimental_option("prefs",prefs)
driver = webdriver.Chrome(chrome_options=chrome_options)
url = "https://www.baidu.com"
driver.get(url)
print(driver.page_source) ## 打印加载后的源码
原创文章,转载请注明出处