之前已经掌握:主要参考教程
PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。
PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。
在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装。
PyMySQL 下载地址:https://github.com/PyMySQL/PyMySQL。
如果还未安装,我们可以使用以下命令安装最新版的 PyMySQL:
$ pip install PyMySQL
如果你的系统不支持 pip 命令,可以使用以下方式安装:
1、使用 git 命令下载安装包安装(你也可以手动下载):
$ git clone https://github.com/PyMySQL/PyMySQL $ cd PyMySQL/ $ python3 setup.py install
2、如果需要制定版本号,可以使用 curl 命令来安装:
$ # X.X 为 PyMySQL 的版本号 $ curl -L https://github.com/PyMySQL/PyMySQL/tarball/pymysql-X.X | tar xz $ cd PyMySQL* $ python3 setup.py install $ # 现在你可以删除 PyMySQL* 目录
注意:请确保您有root权限来安装上述模块。
安装的过程中可能会出现"ImportError: No module named setuptools"的错误提示,意思是你没有安装setuptools,你可以访问https://pypi.python.org/pypi/setuptools 找到各个系统的安装方法。
Linux 系统安装实例:
$ wget https://bootstrap.pypa.io/ez_setup.py $ python3 ez_setup.py
连接数据库前,请先确认以下事项:
以下实例链接Mysql的TESTDB数据库:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() # 使用 execute() 方法执行 SQL 查询 cursor.execute("SELECT VERSION()") # 使用 fetchone() 方法获取单条数据. data = cursor.fetchone() print ("Database version : %s " % data) # 关闭数据库连接 db.close()
执行以上脚本输出结果如下:
Database version : 5.5.20-log
如果数据库连接存在我们可以使用execute()方法来为数据库创建表,如下所示创建表EMPLOYEE:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用 cursor() 方法创建一个游标对象 cursor cursor = db.cursor() # 使用 execute() 方法执行 SQL,如果表存在则删除 cursor.execute("DROP TABLE IF EXISTS EMPLOYEE") # 使用预处理语句创建表 sql = """CREATE TABLE EMPLOYEE ( FIRST_NAME CHAR(20) NOT NULL, LAST_NAME CHAR(20), AGE INT, SEX CHAR(1), INCOME FLOAT )""" cursor.execute(sql) # 关闭数据库连接 db.close()
以下实例使用执行 SQL INSERT 语句向表 EMPLOYEE 插入记录:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操作游标 cursor = db.cursor() # SQL 插入语句 sql = """INSERT INTO EMPLOYEE(FIRST_NAME, LAST_NAME, AGE, SEX, INCOME) VALUES ('Mac', 'Mohan', 20, 'M', 2000)""" try: # 执行sql语句 cursor.execute(sql) # 提交到数据库执行 db.commit() except: # 如果发生错误则回滚 db.rollback() # 关闭数据库连接 db.close()
以上例子也可以写成如下形式:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操作游标 cursor = db.cursor() # SQL 插入语句 sql = "INSERT INTO EMPLOYEE(FIRST_NAME, \ LAST_NAME, AGE, SEX, INCOME) \ VALUES ('%s', '%s', '%d', '%c', '%d' )" % \ ('Mac', 'Mohan', 20, 'M', 2000) try: # 执行sql语句 cursor.execute(sql) # 执行sql语句 db.commit() except: # 发生错误时回滚 db.rollback() # 关闭数据库连接 db.close()
以下代码使用变量向SQL语句中传递参数:
.................................. user_id = "test123" password = "password" con.execute('insert into Login values("%s", "%s")' % \ (user_id, password)) ..................................
Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据。
查询EMPLOYEE表中salary(工资)字段大于1000的所有数据:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操作游标 cursor = db.cursor() # SQL 查询语句 sql = "SELECT * FROM EMPLOYEE \ WHERE INCOME > '%d'" % (1000) try: # 执行SQL语句 cursor.execute(sql) # 获取所有记录列表 results = cursor.fetchall() for row in results: fname = row[0] lname = row[1] age = row[2] sex = row[3] income = row[4] # 打印结果 print ("fname=%s,lname=%s,age=%d,sex=%s,income=%d" % \ (fname, lname, age, sex, income )) except: print ("Error: unable to fetch data") # 关闭数据库连接 db.close()
以上脚本执行结果如下:
fname=Mac, lname=Mohan, age=20, sex=M, income=2000
更新操作用于更新数据表的的数据,以下实例将 TESTDB表中的 SEX 字段全部修改为 'M',AGE 字段递增1:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操作游标 cursor = db.cursor() # SQL 更新语句 sql = "UPDATE EMPLOYEE SET AGE = AGE + 1 WHERE SEX = '%c'" % ('M') try: # 执行SQL语句 cursor.execute(sql) # 提交到数据库执行 db.commit() except: # 发生错误时回滚 db.rollback() # 关闭数据库连接 db.close()
删除操作用于删除数据表中的数据,以下实例演示了删除数据表 EMPLOYEE 中 AGE 大于 20 的所有数据:
#!/usr/bin/python3 import pymysql # 打开数据库连接 db = pymysql.connect("localhost","testuser","test123","TESTDB" ) # 使用cursor()方法获取操作游标 cursor = db.cursor() # SQL 删除语句 sql = "DELETE FROM EMPLOYEE WHERE AGE > '%d'" % (20) try: # 执行SQL语句 cursor.execute(sql) # 提交修改 db.commit() except: # 发生错误时回滚 db.rollback() # 关闭连接 db.close()
事务机制可以确保数据一致性。
事务应该具有4个属性:原子性、一致性、隔离性、持久性。这四个属性通常称为ACID特性。
Python DB API 2.0 的事务提供了两个方法 commit 或 rollback。
# SQL删除记录语句 sql = "DELETE FROM EMPLOYEE WHERE AGE > '%d'" % (20) try: # 执行SQL语句 cursor.execute(sql) # 向数据库提交 db.commit() except: # 发生错误时回滚 db.rollback()
对于支持事务的数据库, 在Python数据库编程中,当游标建立之时,就自动开始了一个隐形的数据库事务。
commit()方法游标的所有更新操作,rollback()方法回滚当前游标的所有操作。每一个方法都开始了一个新的事务。
DB API中定义了一些数据库操作的错误及异常,下表列出了这些错误和异常:
异常 | 描述 |
---|---|
Warning | 当有严重警告时触发,例如插入数据是被截断等等。必须是 StandardError 的子类。 |
Error | 警告以外所有其他错误类。必须是 StandardError 的子类。 |
InterfaceError | 当有数据库接口模块本身的错误(而不是数据库的错误)发生时触发。 必须是Error的子类。 |
DatabaseError | 和数据库有关的错误发生时触发。 必须是Error的子类。 |
DataError | 当有数据处理时的错误发生时触发,例如:除零错误,数据超范围等等。 必须是DatabaseError的子类。 |
OperationalError | 指非用户控制的,而是操作数据库时发生的错误。例如:连接意外断开、 数据库名未找到、事务处理失败、内存分配错误等等操作数据库是发生的错误。 必须是DatabaseError的子类。 |
IntegrityError | 完整性相关的错误,例如外键检查失败等。必须是DatabaseError子类。 |
InternalError | 数据库的内部错误,例如游标(cursor)失效了、事务同步失败等等。 必须是DatabaseError子类。 |
ProgrammingError | 程序错误,例如数据表(table)没找到或已存在、SQL语句语法错误、 参数数量错误等等。必须是DatabaseError的子类。 |
NotSupportedError | 不支持错误,指使用了数据库不支持的函数或API等。例如在连接对象上 使用.rollback()函数,然而数据库并不支持事务或者事务已关闭。 必须是DatabaseError的子类。 |
mongo数据库的基本操作主要参考这篇文章
mongoDB的更多语法功能点击查看
Pymongo
是python
的一个操作Mongodb
的库。
安装Pymongo
的文章在此:https://www.weiya.me/item/68.html
下面我们直接简列出一些常用操作命令。
链接数据库需要提供一个地址和接口即可。首先还是要导入包。
from pymongo import MongoClient
conn = MongoClient('localhost',27017)
当然,你可以使用如下写法:
conn = MongoClient('mongodb://localhost:27017/')
mongodb
不需要提前创建好数据库,而是直接使用,如果发现没有则自动创建。
db = conn.testdb
上面的语句,会创建一个testdb
的数据库。但是,在没有插入数据的时候,该数据库在管理工具里面你是看不到的(不显示)。
首先第一步我们先插入一条数据瞧瞧。
from pymongo import MongoClient
conn = MongoClient('mongodb://localhost:27017/')
db = conn.testdb
db.col.insert({
"name":'yanying','province':'江苏','age':25})
注意: 接下来的操作中会忽略掉数据库连接操作,直接写核心代码,请自行补上。
python
控制台什么都没有发生,这就是成功的意思。使用管理工具查看数据库记录,的确包含了一条数据。
Mongodb
一次也可以插入多条数据
db.col.insert([
{
"name":'yanying','province':'江苏','age':25},
{
"name":'张三','province':'浙江','age':24},
{
"name":'张三1','province':'浙江1','age':25},
{
"name":'张三2','province':'浙江2','age':26},
{
"name":'张三3','province':'浙江3','age':28},
])
下面我们将刚刚插入的数据查询出来。
我们可以使用find_one()
来查询一条记录。
db.col.find_one()
上面的语句可以查询出一条mongodb
记录。记录中多出来的_id
是Mongodb自动生成的唯一值。
{
'_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}
我们再随便插入点儿数据供下面操作使用。(省略几万字)
如果我们需要查询出所有的记录,则可以使用db.col.find()
但是查出来的是一个结果资源集。
我们可以使用for
来列出所有记录。
for item in db.col.find():
print(item)
这样可以获取所有记录。
{
'_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}
{
'_id': ObjectId('592550e5d92fac0b8c449f87'), 'name': 'zhangsan', 'province': '北京', 'age': 29}
{
'_id': ObjectId('592550f6d92fac3548c20b1a'), 'name': 'lisi', 'province': '上海', 'age': 22}
{
'_id': ObjectId('59255118d92fac43dcb1999a'), 'name': '王二麻', 'province': '广东', 'age': 30}
只要将查询条件当做参数塞入即可筛选数据。
for item in db.col.find({
'name':"yanying"}):
print(item)
查询结果
{
'_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}
当然还可以查询小于某个值的记录
for item in db.col.find({
"age":{
"$lt":25}}):
print(item)
或者大于某个值的记录
for item in db.col.find({
"age":{
"$gt":25}}):
print(item)
上面的代码可以统计出所有的记录数量
db.col.find().count() // 4
或者加点儿条件
db.col.find({
"age":{
"$gt":25}}).count() //2
_id
是mongodb
自动生成的id
,其类型为ObjectId
,想要使用就需要转换类型。
python3
中提供了该方法,不过需要导入一个库。
from bson.objectid import ObjectId
这样就可以直接使用_id
进行查询啦。
collection.find_one({
'_id':ObjectId('592550e5d92fac0b8c449f87')})
只要将需要排序的字段放入sort
方法即可,Mongodb
默认为升序
db.col.find().sort("age")
不过你也可以加一些参数去改变排序的方式。比如倒序,不过要记得先导入pymongo
库
import pymongo
db.col.find().sort("UserName",pymongo.DESCENDING)
你还可以让他升序,尽管默认如此
for item in db.col.find().sort('age',pymongo.ASCENDING):
print(item)
更新数据很简单,只需要一个条件和需要更新的数据即可
db.col.update({
'_id':ObjectId('59255118d92fac43dcb1999a')},{
'$set':{
'name':'王二麻33333'}})
结果如下:王二麻
变成了王二麻33333
{
'_id': ObjectId('59255118d92fac43dcb1999a'), 'name': '王二麻33333', 'province': '广东', 'age': 30}
删除数据使用remove()
方法,如果方法带条件,则删除指定条件数据,否则删除全部
删除name
为王二麻33333的用户。
db.col.remove({
'name':'王二麻33333'})
删除全部数据(慎用)
db.col.remove()
主要参考这篇文章
hdfs工作原理
=====================================================================================
之前做的Hadoop集群,组合了Hive,Hbase,sqoop,Spark等开源工具,现在要对他们做一个Web的可视化操作,由于本小白只懂如何使用Python做一个交互的web应用,所以这里就选择了python的Django
Django教程参考:Django从manage.py shell 到项目部署
hadoop集群操作请参考:三台PC服务器部署高可用hadoop集群
言归正传:
使用python操作hdfs本身并不难,只不过是把对应的shell 功能“翻译”成高级语言,网上大部分使用的是
pyhdfs:官方文档
hdfs:官方文档
libhdfs(比较狗血)
我这里选用的是hdfs,下边的实例都是基于hdfs包进行的
由于我的是windows环境(Linux其实也一样),只要有pip或者setup_install安装起来都是很方便的
其他参数说明:
classhdfs.client.
Client
(url, root=None, proxy=None, timeout=None, session=None)
url:ip:端口
root:制定的hdfs根目录
proxy:制定登陆的用户身份
timeout:设置的超时时间
seesion:requests.Session instance, used to emit all requests.(不是太懂,应该四用户发出请求)
这里我们着重看一下proxy这个,首先我们指定root用户连接
看起来一切正常的样子,接下来我们指定一个别的用户,比如说gamer再看 这时候就抛出异常了
其他参数:status
(hdfs_path, strict=True)
hdfs_path:就是hdfs路径
strict:设置为True时,如果hdfs_path路径不存在就会抛出异常,如果设置为False,如果路径为不存在,则返回None
从例子中可以看出,当设置为false时,路径不存在,什么也不输出
其他参数:list
(hdfs_path, status=False)
status:为True时,也返回子目录的状态信息,默认为Flase
其他参数:makedirs
(hdfs_path, permission=None)
permission:设置权限
可以看出该文件夹的权限是777
格式说明:rename
(hdfs_path, local_path)
其他参数:delete
(hdfs_path, recursive=False)
recursive:删除文件和其子目录,设置为False如果不存在,则会抛出异常,默认为False
=======================分割线==========================
为什么这里需要分割线?因为在做web平台可视化操作hdfs的时候遇到了问题!错误如下:
对错误的理解:看其大意是Http连接太多,没有及时关闭,导致错误 (PS:网上对hdfs操作的资料比较少,大部分都只停留在基础语法层面,但对于错误的记录及解决办法少之又少)
解决办法:暂无
由于我是在windows上操作集群的,而我的集群是在服务器上部署的,所以我考虑是否在服务器上尝试下载和上传数据,果断ok
其他参数:
upload
(
hdfs_path
,
local_path
,
overwrite=False
,
n_threads=1
,
temp_dir=None
,
chunk_size=65536,progress=None, cleanup=True, **kwargs)
overwrite:是否是覆盖性上传文件
n_threads:启动的线程数目
temp_dir:当overwrite=true时,远程文件一旦存在,则会在上传完之后进行交换
chunk_size:文件上传的大小区间
progress:回调函数来跟踪进度,为每一chunk_size字节。它将传递两个参数,文件上传的路径和传输的字节数。一旦完成,-1将作为第二个参数
cleanup:如果在上传任何文件时发生错误,则删除该文件
其他参数:
download
(
hdfs_path
,
local_path
,
overwrite=False
,
n_threads=1
,
temp_dir=None
,
**kwargs
)
同样在windows客户端上执行依旧报错,在hadoop的节点服务器上执行
其他参数:read
(
*args
,
**kwds
)
hdfs_path:hdfs路径
offset:设置开始的字节位置
length:读取的长度(字节为单位)
buffer_size:用于传输数据的字节的缓冲区的大小。默认值设置在HDFS配置。
encoding:制定编码
chunk_size:如果设置为正数,上下文管理器将返回一个发生器产生的每一chunk_size字节而不是一个类似文件的对象
delimiter:如果设置,上下文管理器将返回一个发生器产生每次遇到分隔符。此参数要求指定的编码。
progress:回调函数来跟踪进度,为每一chunk_size字节(不可用,如果块大小不是指定)。它将传递两个参数,文件上传的路径和传输的字节数。称为一次与- 1作为第二个参数。
附:在对文件操作时,可能会提示错误
解决办法是:在配置文件hdfs-site.xml中加入 重启集群即可
基本常用的功能也就这些了,如果需要一些特殊的功能,可以自己执行help(client.method)进行查看
补充:
write------写入文件
参考文章及错误修改参考教程或官方文档
connection = happybase.Connection('10.1.13.111')
默认自动连接 ,但在测试时不可以???
connection = happybase.Connection('10.1.13.111', autoconnect=False)
非自动连接
查看语法redis教程
Python3 + redis 使用教程
root:用户名
%:IP
password:密码
未完待续。。。
这些只是创建数据库的基本知识,对于如何利用各个数据库的存储特点发挥最优性能还需在以后的实践中去学习、总结!!
针对不同需求会有不同方案!!
。。。。。。