DeepDive是一种新型的数据管理系统,可让它在单个系统中解决提取,集成和预测问题,从而使用户能够快速构建复杂的端到端数据管道,例如暗数据BI(商业智能)系统。通过允许用户端到端构建系统,DeepDive允许用户将精力集中在系统中最直接改善应用程序质量的部分。相比之下,以前的基于管道的系统要求开发人员构建提取器,集成代码和其他组件,而对它们的更改如何提高其数据产品的质量没有清晰的想法。这种简单的见解是DeepDive系统如何在更短的时间内生成高质量数据的关键。基于DeepDive的系统被没有机器学习专业知识的用户使用,涉及从古生物学到基因组学再到人口贩运等多个领域。
其实yum预装了python 2.7应该就够了,只不过我是在这之前用的anaconda,另外jdk是由于内部有elasticsearch以及nodejs等等,所以需要Java环境。postgresql就是数据库了,下面会介绍jdk与sql的安装,因为python已经预装就不做过多介绍。
虽然这个很简单,但因为之前笔记里我没有提过,所以这里提一嘴。首先检查之前是否安装过jdk,还有文件夹的创建:
// 如果以前安装过,请清除干净后重新安装1.8
rpm -qa | grep -i jdk
// 创建文件夹
mkdir -p /usr/local/jdk
这里存在一个技巧,直接去请求Oracle的Java版本是非常慢的,除非是有梯子,不然可能一个安装包能下一个下午是可能的。所以这里还是很建议用阿里的源:
// Oracle官方源
wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.tar.gz
// aliyun的1.8版本的包
wget https://code.aliyun.com/kar/oracle-jdk/raw/3c932f02aa11e79dc39e4a68f5b0483ec1d32abe/jdk-8u251-linux-x64.tar.gz
然后就是安装:
tar -zxvf jdk-8u251-linux-x64.tar.gz
// 为了更好加环境变量
mv jdk1.8.0_251/ jdk1.8
再加入环境变量:
// An highlighted block
vim /etc/profile
#java
export JAVA_HOME=/usr/local/src/jdk/jdk1.8
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
然后就能输入java -version看到当前是否安装成功。
这个东西bug就比较多了,另外其中很多东西我也还没弄懂,刚开始用,下面就是我的过程以及bug笔记。
PostgreSQL Version | 64 Bit Platforms | 32 Bit Platforms |
---|---|---|
10 | RHEL / CentOS / OEL 7.x & 6.x | RHEL / CentOS / OEL 6.x |
9.6 | RHEL / CentOS / OEL 7.x & 6.x | RHEL / CentOS / OEL 6.x |
9.5 | RHEL / CentOS / OEL 7.x & 6.x | RHEL / CentOS / OEL 6.x |
postgresql的安装跟mysql类似,但它的源会出现一些问题,另外,如果去找deepdive的搭建笔记,看到的基本都是用 bash <(curl -fsSL git.io/getdeepdive) postgres
这个命令以Git的方式拉取与之对应的deepdive,但我尝试后会报错,具体原因未知,甚至把ca证书弄没了。。下面是图:
然后尝试rpm安装:
# Install the repository RPM:
yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm
# Install PostgreSQL:
yum install postgresql96-server
上面rpm链接,网上的大部分都有问题,不太清楚是不是云服务器的问题还是rpm失效了,在我进入postgresql.org网站找源依然没有找到,而如果用其它的源导致后面失败的,这里有几个bug记录一下:
repodata/repomd.xml: [Errno 14] HTTPS Error 404 – Not Found
failure: repodata/repomd.xml from pgdg11: [Errno 256] No more mirrors to try.
https://download.postgresql.org/pub/repos/yum/11/redhat/rhel-$releasever-x86_64/repodata/repomd.xml: [Errno 14] HTTPS Error 404 – Not Found
这个东西就需要去/etc/yum.repos.d找到报错的repo,将其中的$releaserver改成当前centos版本的数字,比如centos 7 那就是全部改成7.
data directory “/var/lib/pgsql/9.6/data” has group or world access
这个错就主要是没有权限,所以需要赋权:
cd /var/lib/pgsql/9.6
chown -R postgres:postgres data
chmod -R 0700 data
另外还有一些报错,但我忘记记录了,所以主要两个就是如上。另外如果还需要sql的其它服务,还可以看下面的表然后根据情况安装:
postgresql-client | 客户端 |
---|---|
postgresql-server | 服务端 |
postgresql-contrib | 第三方扩展 |
postgresql-devel | C语言开发Header头文件和库 |
pgadmin4 | 图形管理实用程序 |
启动方式:
/usr/pgsql-9.6/bin/postgresql96-setup initdb
systemctl enable postgresql-9.6
systemctl start postgresql-9.6
sudo -u postgres psql
passwd postgres
这个安装同样有命令:bash <(curl -fsSL git.io/getdeepdive)
,但同样,我还是没有安装成功,和上面的错误一样。所以考虑本地安装:
https://github.com/HazyResearch/deepdive
https://pan.baidu.com/s/1slLpYVz
去官网找到0.8的安装包,或者去下面的百度云盘下载中文版的deepdive,它里面带有0.8的安装包,不过速度就更慢了。有安装包后,这里我开始遇到一个问题,就是tar命令缺少-z的指令,会报错Error is not recoverable: exiting now,所以需要安装bzip,为:
yum -y install zip gzip # (--安装压缩工具)
tar -zxvf deepdive-v0.8-STABLE-Linux.tar.gz
然后将路径加入profile中:
export PATH="/home/test/bin:$PATH"