在线PDF数据处理服务器搭设:linode + anaconda + jupyter + camelotpy

linode环境设置

选择linode作为VPS服务提供商。可以在Linode注册账号。注册完成后,登入linode账号选择设立最便宜的linode方案:

  • 1CPU,25G SSD,5$/month。
  • 服务器所在地选择新加坡(也可以选择Fermont或者其他地区)。

选择建立新的linode节点。

Create New Linode Node

选择最新的Ubuntu LTS版本。

选择最新Ubuntu LTS版本

选择新加坡为服务器所在地。

选择服务器所在地

选择最便宜的linode方案:

  • Nanode 1GB = 1CPU+ 25G SSD + 1GB RAM。
  • 5 US$/month。
选择最便宜的Linode方案

设定root密码及ssh public key。

设定root密码及ssh public key
  • 参考linode手册产生RSA Public Key创建ssh public key。
  • 注意:下面的步骤假设在本地linux机器上产生rsa key pair
  1. 检查是否已经存在rsa key,如果已经存在可以直接使用。
    ls ~/.ssh/id_rsa*.
  2. 如果不存在,可以生成新的key。
    ssh-keygen -b 4096
  3. 跟随指令建立rsa key,最好选择一个pass phrase。
  4. 把ssh key 保留下来,准备拷贝到linode vps server上。
  5. 从本地服务器把本地产生出来的rsa key pair拷贝到远程服务器上。
    scp ~/.ssh/id_rsa.pub [email protected]:~/.ssh/authorized_keys

把linode生成的vps服务器IP地址拷贝下来,在ssh terminal中使用建立连接。

参考截图中圈出的ssh命令行、IP地址及域名信息。


拷贝生成的Linode服务器地址

建立管理和运行anaconda环境的用户

跟随以下步骤

  1. 通过root user 建立新用户
    adduser poweruser
  2. 用新用户登陆并用sudo更新系统到最新
    sudo apt-get update
  3. 下载最新anaconda package
    点击查看最新anaconda版本
  4. 此处下载的是201910版
    wget https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh
  5. 检查下载文件完整性
    sha256sum /path/filename
  6. 输入以下命令以安装最新的Anaconda for Python 3.7:
    bash ~/Downloads/Anaconda3-2019.10-Linux-x86_64.sh
  7. 把conda的环境变量加入当前用户的profile
    source /bin/activate
  8. 初始化conda
    conda init
  9. 设置在每次启动shell session时(即用户登录时)自动激活conda的环境
    conda config --set auto_activate_base True

安装jupyter notebook

跟随以下步骤设置:

  1. conda install jupyter notebook
  2. 生成配置文件
    jupyter notebook --generate-config
  3. 使用python中的passwd()创建密码,终端输入ipython打开ipython
    ipython
  4. 然后输入:
    In [1]: from notebook.auth import passwd
    In [2]: passwd()
    Enter password: ******
    Verify password: ******
    Out [2]: 'sha1:...'
  5. 修改jupyter notebook的配置文件
    vim ~/.jupyter/jupyter_notebook_config.py
  6. 在该文件中做如下修改或直接在文件尾端添加:
c.NotebookApp.ip='*' #设置所有ip皆可访问
c.NotebookApp.password = u'sha:..'  #之前ipython中Out[2]输出的密码
c.NotebookApp.open_browser = False #禁止自动打开浏览器
c.NotebookApp.port =8888 #任意指定一个端口```

SSL加密配置

  1. 自己建一个文件夹或者干脆在~/.jupyter/ 文件夹下面执行下面命令:
    openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout mycert.pem -out mycert.pem
  2. 编辑 jupyter_notebook_config.py
c.NotebookApp.certfile = u'路径名/mycert.pem' 

安装处理PDF文件的camelot-py模块

  1. 首先尝试conda install
    conda install -c conda-forge camelot-py
  2. 如果不成功,那么换pip
    pip install camelot-py[cv]
  3. 启动jupyter notebook
    jupyter notebook &
  4. 浏览器打开jupyter notebook服务器指定端口的,开始运行jupyter notebook。
    http://linode_vps_ip:port/
  5. 输入此前安装jupyter notebook第3步时设定的密码登入。


    Jupyter Notebook Login
  6. 尝试在jupyter notebook运行camelot import
    In [1]: import camelot
    Jupyter Notebook Runtime
  7. 如果提示有缺失package,那么安装对应的包,一般会缺失下面的包:
    libSM.so.6, opencv等,通过如下命令安装:
    apt-get update
    apt-get install -y libsm6 libxext6 libxrender-dev
    pip install opencv-python

重新启动jupyter notebook

jupyter notebook &

如果你觉得有用,不妨赞赏鼓励一下哦。

你可能感兴趣的:(在线PDF数据处理服务器搭设:linode + anaconda + jupyter + camelotpy)