deepdive安装笔记全纪录

引言

DeepDive是一种新型的数据管理系统,可让它在单个系统中解决提取,集成和预测问题,从而使用户能够快速构建复杂的端到端数据管道,例如暗数据BI(商业智能)系统。通过允许用户端到端构建系统,DeepDive允许用户将精力集中在系统中最直接改善应用程序质量的部分。相比之下,以前的基于管道的系统要求开发人员构建提取器,集成代码和其他组件,而对它们的更改如何提高其数据产品的质量没有清晰的想法。这种简单的见解是DeepDive系统如何在更短的时间内生成高质量数据的关键。基于DeepDive的系统被没有机器学习专业知识的用户使用,涉及从古生物学到基因组学再到人口贩运等多个领域。

安装环境

  • jdk 1.8
  • python 3.7.3
  • postgresql 96

其实yum预装了python 2.7应该就够了,只不过我是在这之前用的anaconda,另外jdk是由于内部有elasticsearch以及nodejs等等,所以需要Java环境。postgresql就是数据库了,下面会介绍jdk与sql的安装,因为python已经预装就不做过多介绍。

jdk安装

虽然这个很简单,但因为之前笔记里我没有提过,所以这里提一嘴。首先检查之前是否安装过jdk,还有文件夹的创建:

// 如果以前安装过,请清除干净后重新安装1.8
rpm -qa | grep -i jdk

// 创建文件夹
mkdir -p /usr/local/jdk

这里存在一个技巧,直接去请求Oracle的Java版本是非常慢的,除非是有梯子,不然可能一个安装包能下一个下午是可能的。所以这里还是很建议用阿里的源:
deepdive安装笔记全纪录_第1张图片

// Oracle官方源
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie"  http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz

// aliyun的1.8版本的包
wget https://code.aliyun.com/kar/oracle-jdk/raw/3c932f02aa11e79dc39e4a68f5b0483ec1d32abe/jdk-8u251-linux-x64.tar.gz

然后就是安装:

tar -zxvf jdk-8u251-linux-x64.tar.gz

// 为了更好加环境变量
mv jdk1.8.0_251/ jdk1.8

再加入环境变量:

// An highlighted block
vim /etc/profile

#java
export JAVA_HOME=/usr/local/src/jdk/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

然后就能输入java -version看到当前是否安装成功。

deepdive安装笔记全纪录_第2张图片

postgresql安装

这个东西bug就比较多了,另外其中很多东西我也还没弄懂,刚开始用,下面就是我的过程以及bug笔记。

PostgreSQL Version 64 Bit Platforms 32 Bit Platforms
10 RHEL / CentOS / OEL 7.x & 6.x RHEL / CentOS / OEL 6.x
9.6 RHEL / CentOS / OEL 7.x & 6.x RHEL / CentOS / OEL 6.x
9.5 RHEL / CentOS / OEL 7.x & 6.x RHEL / CentOS / OEL 6.x

postgresql的安装跟mysql类似,但它的源会出现一些问题,另外,如果去找deepdive的搭建笔记,看到的基本都是用 bash <(curl -fsSL git.io/getdeepdive) postgres 这个命令以Git的方式拉取与之对应的deepdive,但我尝试后会报错,具体原因未知,甚至把ca证书弄没了。。下面是图:
deepdive安装笔记全纪录_第3张图片
然后尝试rpm安装:

# Install the repository RPM:
yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm

# Install PostgreSQL:
yum install postgresql96-server

上面rpm链接,网上的大部分都有问题,不太清楚是不是云服务器的问题还是rpm失效了,在我进入postgresql.org网站找源依然没有找到,而如果用其它的源导致后面失败的,这里有几个bug记录一下:

repodata/repomd.xml: [Errno 14] HTTPS Error 404 – Not Found

failure: repodata/repomd.xml from pgdg11: [Errno 256] No more mirrors to try.

https://download.postgresql.org/pub/repos/yum/11/redhat/rhel-$releasever-x86_64/repodata/repomd.xml: [Errno 14] HTTPS Error 404 – Not Found

这个东西就需要去/etc/yum.repos.d找到报错的repo,将其中的$releaserver改成当前centos版本的数字,比如centos 7 那就是全部改成7.
deepdive安装笔记全纪录_第4张图片
data directory “/var/lib/pgsql/9.6/data” has group or world access

这个错就主要是没有权限,所以需要赋权:

cd /var/lib/pgsql/9.6
chown -R postgres:postgres data
chmod -R 0700 data

另外还有一些报错,但我忘记记录了,所以主要两个就是如上。另外如果还需要sql的其它服务,还可以看下面的表然后根据情况安装:

postgresql-client 客户端
postgresql-server 服务端
postgresql-contrib 第三方扩展
postgresql-devel C语言开发Header头文件和库
pgadmin4 图形管理实用程序

启动方式:

/usr/pgsql-9.6/bin/postgresql96-setup initdb
systemctl enable postgresql-9.6
systemctl start postgresql-9.6

sudo -u postgres psql
passwd postgres

deepdive安装笔记全纪录_第5张图片

deepdive安装

这个安装同样有命令:bash <(curl -fsSL git.io/getdeepdive),但同样,我还是没有安装成功,和上面的错误一样。所以考虑本地安装:

https://github.com/HazyResearch/deepdive
https://pan.baidu.com/s/1slLpYVz

去官网找到0.8的安装包,或者去下面的百度云盘下载中文版的deepdive,它里面带有0.8的安装包,不过速度就更慢了。有安装包后,这里我开始遇到一个问题,就是tar命令缺少-z的指令,会报错Error is not recoverable: exiting now,所以需要安装bzip,为:

yum -y install zip gzip    # (--安装压缩工具)
tar -zxvf deepdive-v0.8-STABLE-Linux.tar.gz

然后将路径加入profile中:

export PATH="/home/test/bin:$PATH"

然后就可以启动deepdive了:
deepdive安装笔记全纪录_第6张图片
另外它内部还包括了elasticsearch也能启动了:
在这里插入图片描述

你可能感兴趣的:(Linux,centos,大数据,java)