今天开始,学习NoSQL数据库之Cassandra,将过程记录下来,也供有兴趣的参考。
Apache Cassandra是一个开源分布式NoSQL数据库系统。最初由Facebook创建,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
Cassandra的官方文档主要是Wiki:http://wiki.apache.org/cassandra
另外,DataStax公司提供了更为详细的第三方文档可供参考学习:
http://docs.datastax.com/en/cassandra/2.1
我一向习惯是,学习一个新东西,先把环境搭起来,然后再折腾。
OS:Ubuntu 14.04 x64
JDK:jdk-7u45-linux-x64.tar.gz
Cassandra:apache-cassandra-2.1.9-bin.tar.gz
1.首先检查一下需要的JRE环境:
$ java –version
如果已经安装了JDK或JRE,可能会显示如下:
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build24.45-b08, mixed mode)
如果没有,那么首先需要安装,其实只需要JRE就可以,这里因为有现成的JDK,所以就不单独再去下载JRE包了,注意Cassandra2.1.9需要Java7+(具体是7u25+)
2.创建一个目录,用来安装jre:
$ sudo mkdir /usr/lib/jvm
3.然后将我们的jdk包解压到该目录:
$ sudo tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/lib/jvm
4.配置安装一个新的JRE:
$ sudo update-alternatives --install "/usr/bin/java" "java" "/usr/lib/jvm/jdk1.7.0_45/jre/bin/java" 1
5.将该JRE设置为系统默认:
$ sudo update-alternatives --set java /usr/lib/jvm/jdk1.7.0_45/jre/bin/java
6.然后如第一步那样检查一下:
$ java –version
另外我们可以将该环境变量加入系统配置(可选):
$ sudo vi /etc/profile
最后追加:
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_45/jre
1.首先从官网下载:
http://cassandra.apache.org/download/
找到一个合适的下载链接:
wget http://mirrors.hust.edu.cn/apache/cassandra/2.1.9/apache-cassandra-2.1.9-bin.tar.gz
也可以手动下载后再传到Linux中
2.解压并安装:
$ sudo tar -zxvf apache-cassandra-2.1.9-bin.tar.gz -C /var/lib
进入解压后的目录:
$ cd /var/lib/apache-cassandra-2.1.9
$ sudo bin/cassandra -f
如果启动过程没有什么异常的话,那么现在cassandra就已经启动成功了:
INFO 10:32:48 Starting listening for CQL clients onlocalhost/127.0.0.1:9042...
INFO 10:32:48 Binding thrift service to localhost/127.0.0.1:9160
INFO 10:32:48 Listening for thrift clients...
Cassandra默认运行在9160端口,我们可以检查一下:
注意:Cassandra2.1开始,客户端(cqlsh)默认端口改为9042了,Thrift客户端监听9160端口
$ netstat -nltp |grep 9160
显示:
tcp 0 0 127.0.0.1:9160 0.0.0.0:* LISTEN
如果想停止的话,直接Ctrl+C就可以了。
注:” -f” 选项指定cassandra在前台运行,如果不加的话会在后台运行
如果要结束在后台运行的cassandra,输入:
$ ps -ef |grep cassandra
查询到该进程的pid,然后kill:
$ sudo kill pid
这里pid替换成你实际的pid即可。
cqlsh是Cassandra的一个交互式的命令行界面,通过cqlsh,我们可以执行CQL(Cassandra Query Language)语句,使用CQL我们可以定义模式,插入数据,执行查询等等。
运行以下命令可以连接到本地Cassandra实例:
$ bin/cqlsh
如果连接成功,会提示如下:
Connected to Test Cluster at127.0.0.1:9042.
[cqlsh 5.0.1 | Cassandra 2.1.9 | CQL spec3.2.0 | Native protocol v3]
Use HELP for help.
cqlsh>
上面显示我们连接到了一个叫Test Cluster的集群,这是默认的名字。
在cqlsh中命令要以”;”结尾,这跟MySQL等其他客户端是一样的,并且支持TAB补全及提示功能,这点比较方便,比如一个命令记不全或者一个命令会有哪些选项时,可以用TAB列出。
现在我们来建一个keyspace--表的命名空间:
CREATE KEYSPACE mykeyspace
WITH replication = {'class':'SimpleStrategy', 'replication_factor': 1};
基本上一路TAB就写出来了,呵呵。
然后切换到该keyspace:
cqlsh> use mykeyspace ;
接着建表(叫做表可能不太准确):
create TABLE users(
userid intPRIMARY KEY,
fname text,
lname text
);
插入几条数据:
insert into users (userid, fname, lname ) VALUES ( 1,'john','smith');
insert into users (userid, fname, lname ) VALUES ( 2,'john','zhangsan');
insert into users (userid, fname, lname ) VALUES ( 3,'john','smith');
现在我们执行以下查询看看:
select * from users;
需要注意的是,如果要执行带where条件的查询,那么条件中指定的列必须先建索引,否则会出错:
select * from users where lname = 'smith';
InvalidRequest: code=2200 [Invalid query]message="No secondary indexes on the restricted columns support theprovided operators: "
先建索引:
create INDEX on users(lname);
然后再执行刚才的查询就好了:
使用exit或quit可以退出cqlsh。
现在我们完成了基本的配置,但是我们现在只有一个节点,通常一个Cassandra集群中存在多个节点,配置多个节点的集群也非常简单,基本上就是重复以上步骤,然后做些小的调整即可,这个放在下一篇再介绍吧。
参考文档:http://wiki.apache.org/cassandra/GettingStarted