公司开发需要,需要爬去网页ajax动态数据,存入elasticsearch数据库中,因此需要安装部署以下三个工具。
下载四个软件:
lxml-4.1.1-cp36-cp36m-win_amd64.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/lxml-4.1.1-cp36-cp36m-win_amd64.whl
pyOpenSSL-17.5.0-py2.py3-none-any.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/pyOpenSSL-17.5.0-py2.py3-none-any.whl
Twisted-17.9.0-cp36-cp36m-win_amd64.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/Twisted-17.9.0-cp36-cp36m-win_amd64.whl
pywin32-221.win-amd64-py3.6.exe
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/pywin32-221.win-amd64-py3.6.exe
其他版本下载网址分别如下:
https://www.lfd.uci.edu/~gohlke/pythonlibs/
https://pypi.python.org/pypi/pyOpenSSL
https://sourceforge.net/projects/pywin32/files/pywin32/
安装方法:
先安装三个whl文件
pip install XXXX.whl
之后点击运行pywin32文件直接运行即可
以上4个软件安装完毕之后,
pip install scrapy
既可以完成安装scrapy爬虫框架
第一步 按照docker
具体参考百度
第二步 拉取 scrapy-splash镜像
docker pull scrapinghub/splash
第三步 运行docker创建容器
docker run --name aplash -d -p 8050:8050 scrapinghub/splash --max-timeout 3600
参数–max-timeout 3600是设置超时时间。
执行以上命令后,访问 IP:8050 即可查看 splash
至此scrapy-splash安装完成。
第一步 下载elasticsearch
下载地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.2.2.zip
或者:http://linux-1251121573.cosgz.myqcloud.com/soft/elk/elasticsearch-6.2.2.zip
第二步 安装
直接解压即可
运行
./elasticsearch -d
后台运行
第三步 安装head插件
elasticsearch6.X版本之后,不支持命令行安装head插件,需要手动安装。
https://github.com/mobz/elasticsearch-head
或者: http://linux-1251121573.cosgz.myqcloud.com/soft/elk/elasticsearch-head-master.zip
下载完成后解压至其他目录,不要存放在elasticsearch的plugins中,否则会导致elasticsearch无法启动
第四步 安装nodejs
下载nodejs:https://nodejs.org/dist/v8.9.4/node-v8.9.4-x64.msi
或者:http://linux-1251121573.cosgz.myqcloud.com/soft/node/node-v8.9.4-x64.msi
安装完成后,进入 elasticsearch-head插件文件夹。
执行npm install -g grunt -cli 命令安装grunt
之后npm install 进行安装pathomjs
以上即安装完所有插件
执行grunt server 命令即可启动elasticsearch-head
通过访问:ip:9100 浏览web页面。
简单安装完elasticsearch-head是无法连接elasticsearch服务器的,
需要修改 elasticsearch中/config/elasticsearch.yml配置文件,添加如下参数:
增加如下字段
http.cors.enabled: true
http.cors.allow-origin: “*”
并取消如下参数的注视。
network.host: 192.168.1.X
稍后重启 grunt和elasticsearch即可完成。
至此以上三个软件全部安装完毕。
参考网站:
http://blog.csdn.net/qq3401247010/article/details/78742524
https://www.jianshu.com/p/2516138e9e75?open_source=weibo_search
https://www.cnblogs.com/zklidd/p/6433123.html