安装scrapy,scrapy-splash,elasticsearch教程

安装scrapy,scrapy-splash,elasticsearch教程

公司开发需要,需要爬去网页ajax动态数据,存入elasticsearch数据库中,因此需要安装部署以下三个工具。

安装scrapy

下载四个软件:
lxml-4.1.1-cp36-cp36m-win_amd64.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/lxml-4.1.1-cp36-cp36m-win_amd64.whl

pyOpenSSL-17.5.0-py2.py3-none-any.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/pyOpenSSL-17.5.0-py2.py3-none-any.whl

Twisted-17.9.0-cp36-cp36m-win_amd64.whl
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/Twisted-17.9.0-cp36-cp36m-win_amd64.whl

pywin32-221.win-amd64-py3.6.exe
http://linux-1251121573.cosgz.myqcloud.com/soft/scrapy/pywin32-221.win-amd64-py3.6.exe

其他版本下载网址分别如下:
https://www.lfd.uci.edu/~gohlke/pythonlibs/
https://pypi.python.org/pypi/pyOpenSSL
https://sourceforge.net/projects/pywin32/files/pywin32/

安装方法:
先安装三个whl文件
pip install XXXX.whl
之后点击运行pywin32文件直接运行即可

以上4个软件安装完毕之后,

pip install scrapy

既可以完成安装scrapy爬虫框架

安装scrapy-splash

第一步 按照docker

具体参考百度

第二步 拉取 scrapy-splash镜像

docker pull scrapinghub/splash

第三步 运行docker创建容器

docker run --name aplash -d -p 8050:8050 scrapinghub/splash --max-timeout 3600

参数–max-timeout 3600是设置超时时间。

执行以上命令后,访问 IP:8050 即可查看 splash
至此scrapy-splash安装完成。

安装elasticsearch

第一步 下载elasticsearch
下载地址:https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.2.2.zip
或者:http://linux-1251121573.cosgz.myqcloud.com/soft/elk/elasticsearch-6.2.2.zip

第二步 安装
直接解压即可

运行

./elasticsearch -d

后台运行

第三步 安装head插件

elasticsearch6.X版本之后,不支持命令行安装head插件,需要手动安装。
https://github.com/mobz/elasticsearch-head
或者: http://linux-1251121573.cosgz.myqcloud.com/soft/elk/elasticsearch-head-master.zip
下载完成后解压至其他目录,不要存放在elasticsearch的plugins中,否则会导致elasticsearch无法启动

第四步 安装nodejs

下载nodejs:https://nodejs.org/dist/v8.9.4/node-v8.9.4-x64.msi
或者:http://linux-1251121573.cosgz.myqcloud.com/soft/node/node-v8.9.4-x64.msi

安装完成后,进入 elasticsearch-head插件文件夹。

执行npm install -g grunt -cli 命令安装grunt
之后npm install 进行安装pathomjs

以上即安装完所有插件

执行grunt server 命令即可启动elasticsearch-head

通过访问:ip:9100 浏览web页面。

简单安装完elasticsearch-head是无法连接elasticsearch服务器的,
需要修改 elasticsearch中/config/elasticsearch.yml配置文件,添加如下参数:
增加如下字段
http.cors.enabled: true
http.cors.allow-origin: “*”

并取消如下参数的注视。
network.host: 192.168.1.X

稍后重启 grunt和elasticsearch即可完成。

至此以上三个软件全部安装完毕。

参考网站:
http://blog.csdn.net/qq3401247010/article/details/78742524
https://www.jianshu.com/p/2516138e9e75?open_source=weibo_search
https://www.cnblogs.com/zklidd/p/6433123.html

你可能感兴趣的:(python,环境安装)