python爬虫进阶(五):数据的存储

一、mysql


之前已经掌握:主要参考教程

什么是 PyMySQL?

PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb。

PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库。


PyMySQL 安装

在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装。

PyMySQL 下载地址:https://github.com/PyMySQL/PyMySQL。

如果还未安装,我们可以使用以下命令安装最新版的 PyMySQL:

$ pip install PyMySQL

如果你的系统不支持 pip 命令,可以使用以下方式安装:

1、使用 git 命令下载安装包安装(你也可以手动下载):

$ git clone https://github.com/PyMySQL/PyMySQL
$ cd PyMySQL/
$ python3 setup.py install

2、如果需要制定版本号,可以使用 curl 命令来安装:

$ # X.X 为 PyMySQL 的版本号
$ curl -L https://github.com/PyMySQL/PyMySQL/tarball/pymysql-X.X | tar xz
$ cd PyMySQL*
$ python3 setup.py install
$ # 现在你可以删除 PyMySQL* 目录

注意:请确保您有root权限来安装上述模块。

安装的过程中可能会出现"ImportError: No module named setuptools"的错误提示,意思是你没有安装setuptools,你可以访问https://pypi.python.org/pypi/setuptools 找到各个系统的安装方法。

Linux 系统安装实例:

$ wget https://bootstrap.pypa.io/ez_setup.py
$ python3 ez_setup.py

数据库连接

连接数据库前,请先确认以下事项:

  • 您已经创建了数据库 TESTDB.
  • 在TESTDB数据库中您已经创建了表 EMPLOYEE
  • EMPLOYEE表字段为 FIRST_NAME, LAST_NAME, AGE, SEX 和 INCOME。
  • 连接数据库TESTDB使用的用户名为 "testuser" ,密码为 "test123",你可以可以自己设定或者直接使用root用户名及其密码,Mysql数据库用户授权请使用Grant命令。
  • 在你的机子上已经安装了 Python MySQLdb 模块。
  • 如果您对sql语句不熟悉,可以访问我们的 SQL基础教程

实例:

以下实例链接Mysql的TESTDB数据库:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# 使用 execute()  方法执行 SQL 查询 
cursor.execute("SELECT VERSION()")

# 使用 fetchone() 方法获取单条数据.
data = cursor.fetchone()

print ("Database version : %s " % data)

# 关闭数据库连接
db.close()

执行以上脚本输出结果如下:

Database version : 5.5.20-log

创建数据库表

如果数据库连接存在我们可以使用execute()方法来为数据库创建表,如下所示创建表EMPLOYEE:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

# 使用 execute() 方法执行 SQL,如果表存在则删除
cursor.execute("DROP TABLE IF EXISTS EMPLOYEE")

# 使用预处理语句创建表
sql = """CREATE TABLE EMPLOYEE (
         FIRST_NAME  CHAR(20) NOT NULL,
         LAST_NAME  CHAR(20),
         AGE INT,  
         SEX CHAR(1),
         INCOME FLOAT )"""

cursor.execute(sql)

# 关闭数据库连接
db.close()

数据库插入操作

以下实例使用执行 SQL INSERT 语句向表 EMPLOYEE 插入记录:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操作游标 
cursor = db.cursor()

# SQL 插入语句
sql = """INSERT INTO EMPLOYEE(FIRST_NAME,
         LAST_NAME, AGE, SEX, INCOME)
         VALUES ('Mac', 'Mohan', 20, 'M', 2000)"""
try:
   # 执行sql语句
   cursor.execute(sql)
   # 提交到数据库执行
   db.commit()
except:
   # 如果发生错误则回滚
   db.rollback()

# 关闭数据库连接
db.close()

以上例子也可以写成如下形式:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操作游标 
cursor = db.cursor()

# SQL 插入语句
sql = "INSERT INTO EMPLOYEE(FIRST_NAME, \
       LAST_NAME, AGE, SEX, INCOME) \
       VALUES ('%s', '%s', '%d', '%c', '%d' )" % \
       ('Mac', 'Mohan', 20, 'M', 2000)
try:
   # 执行sql语句
   cursor.execute(sql)
   # 执行sql语句
   db.commit()
except:
   # 发生错误时回滚
   db.rollback()

# 关闭数据库连接
db.close()

以下代码使用变量向SQL语句中传递参数:

..................................
user_id = "test123"
password = "password"

con.execute('insert into Login values("%s", "%s")' % \
             (user_id, password))
..................................

数据库查询操作

Python查询Mysql使用 fetchone() 方法获取单条数据, 使用fetchall() 方法获取多条数据。

  • fetchone(): 该方法获取下一个查询结果集。结果集是一个对象
  • fetchall(): 接收全部的返回结果行.
  • rowcount: 这是一个只读属性,并返回执行execute()方法后影响的行数。

实例:

查询EMPLOYEE表中salary(工资)字段大于1000的所有数据:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操作游标 
cursor = db.cursor()

# SQL 查询语句
sql = "SELECT * FROM EMPLOYEE \
       WHERE INCOME > '%d'" % (1000)
try:
   # 执行SQL语句
   cursor.execute(sql)
   # 获取所有记录列表
   results = cursor.fetchall()
   for row in results:
      fname = row[0]
      lname = row[1]
      age = row[2]
      sex = row[3]
      income = row[4]
       # 打印结果
      print ("fname=%s,lname=%s,age=%d,sex=%s,income=%d" % \
             (fname, lname, age, sex, income ))
except:
   print ("Error: unable to fetch data")

# 关闭数据库连接
db.close()

以上脚本执行结果如下:

fname=Mac, lname=Mohan, age=20, sex=M, income=2000

数据库更新操作

更新操作用于更新数据表的的数据,以下实例将 TESTDB表中的 SEX 字段全部修改为 'M',AGE 字段递增1:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操作游标 
cursor = db.cursor()

# SQL 更新语句
sql = "UPDATE EMPLOYEE SET AGE = AGE + 1
                          WHERE SEX = '%c'" % ('M')
try:
   # 执行SQL语句
   cursor.execute(sql)
   # 提交到数据库执行
   db.commit()
except:
   # 发生错误时回滚
   db.rollback()

# 关闭数据库连接
db.close()

删除操作

删除操作用于删除数据表中的数据,以下实例演示了删除数据表 EMPLOYEE 中 AGE 大于 20 的所有数据:

#!/usr/bin/python3

import pymysql

# 打开数据库连接
db = pymysql.connect("localhost","testuser","test123","TESTDB" )

# 使用cursor()方法获取操作游标 
cursor = db.cursor()

# SQL 删除语句
sql = "DELETE FROM EMPLOYEE WHERE AGE > '%d'" % (20)
try:
   # 执行SQL语句
   cursor.execute(sql)
   # 提交修改
   db.commit()
except:
   # 发生错误时回滚
   db.rollback()

# 关闭连接
db.close()

执行事务

事务机制可以确保数据一致性。

事务应该具有4个属性:原子性、一致性、隔离性、持久性。这四个属性通常称为ACID特性。

  • 原子性(atomicity)。一个事务是一个不可分割的工作单位,事务中包括的诸操作要么都做,要么都不做。
  • 一致性(consistency)。事务必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。
  • 隔离性(isolation)。一个事务的执行不能被其他事务干扰。即一个事务内部的操作及使用的数据对并发的其他事务是隔离的,并发执行的各个事务之间不能互相干扰。
  • 持久性(durability)。持续性也称永久性(permanence),指一个事务一旦提交,它对数据库中数据的改变就应该是永久性的。接下来的其他操作或故障不应该对其有任何影响。

Python DB API 2.0 的事务提供了两个方法 commit 或 rollback。

实例

# SQL删除记录语句
sql = "DELETE FROM EMPLOYEE WHERE AGE > '%d'" % (20)
try:
   # 执行SQL语句
   cursor.execute(sql)
   # 向数据库提交
   db.commit()
except:
   # 发生错误时回滚
   db.rollback()

对于支持事务的数据库, 在Python数据库编程中,当游标建立之时,就自动开始了一个隐形的数据库事务。

commit()方法游标的所有更新操作,rollback()方法回滚当前游标的所有操作。每一个方法都开始了一个新的事务。


错误处理

DB API中定义了一些数据库操作的错误及异常,下表列出了这些错误和异常:

异常 描述
Warning 当有严重警告时触发,例如插入数据是被截断等等。必须是 StandardError 的子类。
Error 警告以外所有其他错误类。必须是 StandardError 的子类。
InterfaceError 当有数据库接口模块本身的错误(而不是数据库的错误)发生时触发。 必须是Error的子类。
DatabaseError 和数据库有关的错误发生时触发。 必须是Error的子类。
DataError 当有数据处理时的错误发生时触发,例如:除零错误,数据超范围等等。 必须是DatabaseError的子类。
OperationalError 指非用户控制的,而是操作数据库时发生的错误。例如:连接意外断开、 数据库名未找到、事务处理失败、内存分配错误等等操作数据库是发生的错误。 必须是DatabaseError的子类。
IntegrityError 完整性相关的错误,例如外键检查失败等。必须是DatabaseError子类。
InternalError 数据库的内部错误,例如游标(cursor)失效了、事务同步失败等等。 必须是DatabaseError子类。
ProgrammingError 程序错误,例如数据表(table)没找到或已存在、SQL语句语法错误、 参数数量错误等等。必须是DatabaseError的子类。
NotSupportedError 不支持错误,指使用了数据库不支持的函数或API等。例如在连接对象上 使用.rollback()函数,然而数据库并不支持事务或者事务已关闭。 必须是DatabaseError的子类。


二、mongo


mongo数据库的基本操作主要参考这篇文章

mongoDB的更多语法功能点击查看


Pymongopython的一个操作Mongodb的库。

安装Pymongo的文章在此:https://www.weiya.me/item/68.html

下面我们直接简列出一些常用操作命令。

连接数据库

链接数据库需要提供一个地址和接口即可。首先还是要导入包。

from pymongo import MongoClient
conn = MongoClient('localhost',27017)

当然,你可以使用如下写法:

conn = MongoClient('mongodb://localhost:27017/')

创建数据库

mongodb不需要提前创建好数据库,而是直接使用,如果发现没有则自动创建。

db = conn.testdb

上面的语句,会创建一个testdb的数据库。但是,在没有插入数据的时候,该数据库在管理工具里面你是看不到的(不显示)。

插入数据

首先第一步我们先插入一条数据瞧瞧。

单条记录插入

from pymongo import MongoClient
conn = MongoClient('mongodb://localhost:27017/')
db = conn.testdb
db.col.insert({
      "name":'yanying','province':'江苏','age':25})

注意: 接下来的操作中会忽略掉数据库连接操作,直接写核心代码,请自行补上。

python控制台什么都没有发生,这就是成功的意思。使用管理工具查看数据库记录,的确包含了一条数据。

多条记录插入

Mongodb一次也可以插入多条数据

db.col.insert([
    {
      "name":'yanying','province':'江苏','age':25},
    {
      "name":'张三','province':'浙江','age':24},
    {
      "name":'张三1','province':'浙江1','age':25},
    {
      "name":'张三2','province':'浙江2','age':26},
    {
      "name":'张三3','province':'浙江3','age':28},
])

查询数据

下面我们将刚刚插入的数据查询出来。

单条查询

我们可以使用find_one()来查询一条记录。

db.col.find_one()

上面的语句可以查询出一条mongodb记录。记录中多出来的_id是Mongodb自动生成的唯一值。

{
      '_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}

我们再随便插入点儿数据供下面操作使用。(省略几万字)

查询所有

如果我们需要查询出所有的记录,则可以使用db.col.find()但是查出来的是一个结果资源集。

我们可以使用for来列出所有记录。

for item in db.col.find():
    print(item)

这样可以获取所有记录。

{
      '_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}
{
      '_id': ObjectId('592550e5d92fac0b8c449f87'), 'name': 'zhangsan', 'province': '北京', 'age': 29}
{
      '_id': ObjectId('592550f6d92fac3548c20b1a'), 'name': 'lisi', 'province': '上海', 'age': 22}
{
      '_id': ObjectId('59255118d92fac43dcb1999a'), 'name': '王二麻', 'province': '广东', 'age': 30}

条件查询

只要将查询条件当做参数塞入即可筛选数据。

for item in db.col.find({
      'name':"yanying"}):
    print(item)

查询结果

{
      '_id': ObjectId('5925351ad92fac3250b9ae3f'), 'name': 'yanying', 'province': '江苏', 'age': 25}

当然还可以查询小于某个值的记录

for item in db.col.find({
      "age":{
      "$lt":25}}):
    print(item)

或者大于某个值的记录

for item in db.col.find({
      "age":{
      "$gt":25}}):
    print(item)

统计查询

上面的代码可以统计出所有的记录数量

db.col.find().count() // 4

或者加点儿条件

db.col.find({
      "age":{
      "$gt":25}}).count() //2

根据_id查询记录

_idmongodb自动生成的id,其类型为ObjectId,想要使用就需要转换类型。

python3中提供了该方法,不过需要导入一个库。

from bson.objectid import ObjectId

这样就可以直接使用_id进行查询啦。

collection.find_one({
      '_id':ObjectId('592550e5d92fac0b8c449f87')})

结果排序

只要将需要排序的字段放入sort方法即可,Mongodb默认为升序

db.col.find().sort("age")

不过你也可以加一些参数去改变排序的方式。比如倒序,不过要记得先导入pymongo

import pymongo
db.col.find().sort("UserName",pymongo.DESCENDING)

你还可以让他升序,尽管默认如此

for item in db.col.find().sort('age',pymongo.ASCENDING):
    print(item)

更新数据

更新数据很简单,只需要一个条件和需要更新的数据即可

db.col.update({
      '_id':ObjectId('59255118d92fac43dcb1999a')},{
      '$set':{
      'name':'王二麻33333'}})

结果如下:王二麻变成了王二麻33333

{
      '_id': ObjectId('59255118d92fac43dcb1999a'), 'name': '王二麻33333', 'province': '广东', 'age': 30}

删除数据

删除数据使用remove()方法,如果方法带条件,则删除指定条件数据,否则删除全部

删除name为王二麻33333的用户。

db.col.remove({
      'name':'王二麻33333'})

删除全部数据(慎用

db.col.remove()


三、hdfs


主要参考这篇文章

hdfs工作原理


=====================================================================================

写在前边的话:

        之前做的Hadoop集群,组合了Hive,Hbase,sqoop,Spark等开源工具,现在要对他们做一个Web的可视化操作,由于本小白只懂如何使用Python做一个交互的web应用,所以这里就选择了python的Django

        Django教程参考:Django从manage.py shell 到项目部署

        hadoop集群操作请参考:三台PC服务器部署高可用hadoop集群


言归正传:

       使用python操作hdfs本身并不难,只不过是把对应的shell 功能“翻译”成高级语言,网上大部分使用的是

       pyhdfs:官方文档

       hdfs:官方文档

       libhdfs(比较狗血)

       我这里选用的是hdfs,下边的实例都是基于hdfs包进行的

1:安装

      由于我的是windows环境(Linux其实也一样),只要有pip或者setup_install安装起来都是很方便的

[plain]  view plain   copy
  1. pip install hdfs  

2:Client——创建集群连接

[python]  view plain   copy
  1. >>> from hdfs import *  
  2. >>> client = Client("http://127.0.0.1:50070")  

       其他参数说明:

       classhdfs.client.Client(urlroot=Noneproxy=Nonetimeout=Nonesession=None)

                    url:ip:端口

                    root:制定的hdfs根目录

                    proxy:制定登陆的用户身份

                    timeout:设置的超时时间

                    seesion:requests.Session instance, used to emit all requests.(不是太懂,应该四用户发出请求)

       这里我们着重看一下proxy这个,首先我们指定root用户连接

[html]  view plain   copy
  1. >>> client = Client("http://127.0.0.1:50070",root="/",timeout=100,session=False)  
  2. >>> client.list("/")  
  3. [u'hbase']  
       看起来一切正常的样子,接下来我们指定一个别的用户,比如说gamer再看
[html]  view plain   copy
  1. >>> client = Client("http://127.0.0.1:50070",root="/",proxy="gamer",timeout=100,session=False)  
  2. >>> client.list("/")  
  3. Traceback (most recent call last):  
  4.   File "<stdin>", line 1, in <module>  
  5.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 893, in list  
  6.     statuses = self._list_status(hdfs_path).json()['FileStatuses']['FileStatus']  
  7.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 92, in api_handler  
  8.     **self.kwargs  
  9.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 181, in _request  
  10.     return _on_error(response)  
  11.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 44, in _on_error  
  12.     raise HdfsError(message)  
  13. hdfs.util.HdfsError: Failed to obtain user group information: org.apache.hadoop.security.authorize.AuthorizationException: User: dr.who is not allowed to impersonate gamer  
       这时候就抛出异常了

3:dir——查看支持的方法

[python]  view plain   copy
  1. >>> dir(client)  
  2. ['__class__''__delattr__''__dict__''__dir__''__doc__''__eq__''__format__''__ge__''__getattribute__''__gt__',   
  3. '__hash__''__init__''__le__''__lt__''__module__''__ne__''__new__''__reduce__''__reduce_ex__''__registry__',  
  4.  '__repr__''__setattr__''__sizeof__''__str__''__subclasshook__''__weakref__''_append''_create''_delete',  
  5.  '_get_content_summary''_get_file_checksum''_get_file_status''_get_home_directory''_list_status''_mkdirs''_open',  
  6.  '_proxy''_rename''_request''_session''_set_owner''_set_permission''_set_replication''_set_times''_timeout',   
  7. 'checksum''content''delete''download''from_options''list''makedirs''parts''read''rename''resolve''root',  
  8.  'set_owner''set_permission''set_replication''set_times''status''upload',  
  9.  'url''walk''write']  

4:status——获取路径的具体信息

[python]  view plain   copy
  1. >>> client.status("/")  
  2. { 'accessTime'0'pathSuffix''''group''supergroup''type''DIRECTORY''owner''root''childrenNum'4'blockSize'0,  
  3.  'fileId'16385'length'0'replication'0'storagePolicy'0'modificationTime'1473023149031'permission''777'}  

      其他参数:status(hdfs_pathstrict=True)

               hdfs_path:就是hdfs路径

               strict:设置为True时,如果hdfs_path路径不存在就会抛出异常,如果设置为False,如果路径为不存在,则返回None

[python]  view plain   copy
  1. >>> client = Client("http://127.0.0.1:50070",root="/",timeout=100,session=False)  
  2. >>> client.status("/gamer",strict=True)  
  3. Traceback (most recent call last):  
  4.   File "", line 1in   
  5.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 277in status  
  6.     res = self._get_file_status(hdfs_path, strict=strict)  
  7.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 92in api_handler  
  8.     **self.kwargs  
  9.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 181in _request  
  10.     return _on_error(response)  
  11.   File "/usr/local/lib/python2.7/dist-packages/hdfs/client.py", line 44in _on_error  
  12.     raise HdfsError(message)  
  13. hdfs.util.HdfsError: File does not exist: /gamer  
  14. >>> client.status("/gamer",strict=False)  
  15. >>>  
      从例子中可以看出,当设置为false时,路径不存在,什么也不输出

5:list——获取指定路径的子目录信息

[python]  view plain   copy
  1. >>> client.list("/")  
  2. ['file''gyt''hbase''tmp']  

     其他参数:list(hdfs_pathstatus=False)

              status:为True时,也返回子目录的状态信息,默认为Flase

[python]  view plain   copy
  1. >>> client.list("/")  
  2. [u'hbase']  
  3. >>> client.list("/",status=False)  
  4. [u'hbase']  
  5. >>> client.list("/",status=True)  
  6. [(u'hbase', {u'group': u'supergroup', u'permission': u'755', u'blockSize'0, u'accessTime'0, u'pathSuffix': u'hbase', u'modificationTime'1472986624167, u'replication'0, u'length'0, u'childrenNum'7, u'owner': u'root', u'storagePolicy'0, u'type': u'DIRECTORY', u'fileId'16386})]  
  7. >>>   

6:makedirs——创建目录

[python]  view plain   copy
  1. >>> client.makedirs("/test")  
  2. >>> client.list("/")  
  3. ['file''gyt''hbase''test''tmp']  
  4. >>> client.status("/test")  
  5. { 'accessTime'0'pathSuffix''''group''supergroup''type''DIRECTORY''owner''dr.who''childrenNum'0'blockSize'0,  
  6.  'fileId'16493'length'0'replication'0'storagePolicy'0'modificationTime'1473096896947'permission''755'}  

       其他参数:makedirs(hdfs_pathpermission=None)

                permission:设置权限

[python]  view plain   copy
  1. >>> client.makedirs("/test",permission=777)  
  2. >>> client.status("/test")  
  3. {u'group': u'supergroup', u'permission': u'777', u'blockSize'0, u'accessTime'0, u'pathSuffix': u'', u'modificationTime'1473175557340, u'replication'0, u'length'0, u'childrenNum'0, u'owner': u'dr.who', u'storagePolicy'0, u'type': u'DIRECTORY', u'fileId'16437}  
       可以看出该文件夹的权限是777

7:rename—重命名

[python]  view plain   copy
  1. >>> client.rename("/test","/new_name")  
  2. >>> client.list("/")  
  3. ['file''gyt''hbase''new_name''tmp']  

       格式说明:rename(hdfs_path, local_path)

8:delete—删除

[python]  view plain   copy
  1. >>> client.list("/")  
  2. ['file''gyt''hbase''new_name''tmp']  
  3. >>> client.delete("/new_name")  
  4. True  
  5. >>> client.list("/")  
  6. ['file''gyt''hbase''tmp']  

      其他参数:delete(hdfs_pathrecursive=False)

               recursive:删除文件和其子目录,设置为False如果不存在,则会抛出异常,默认为False

[python]  view plain   copy
  1. >>> client.delete("/test",recursive=True)  
  2. True  
  3. >>> client.delete("/test",recursive=True)  
  4. False  
  5. >>> client.delete("/test")  
  6. False  

9:upload——上传数据

=======================分割线==========================

为什么这里需要分割线?因为在做web平台可视化操作hdfs的时候遇到了问题!错误如下:

[python]  view plain   copy
  1. requests.exceptions.ConnectionError: HTTPConnectionPool(host='slaver1', port=50075): Max retries exceeded with url:  
  2.  /webhdfs/v1/thinkgamer/name.txt?op=OPEN&namenoderpcaddress=master&offset=0 (Caused by NewConnectionError  
  3. ('0x00000000043A3FD0>: Failed to establish a new connection:  
  4.  [Errno 11004] getaddrinfo failed',))  

对错误的理解:看其大意是Http连接太多,没有及时关闭,导致错误 (PS:网上对hdfs操作的资料比较少,大部分都只停留在基础语法层面,但对于错误的记录及解决办法少之又少)

解决办法:暂无

由于我是在windows上操作集群的,而我的集群是在服务器上部署的,所以我考虑是否在服务器上尝试下载和上传数据,果断ok

[python]  view plain   copy
  1. >>> client.list("/")  
  2. [u'hbase', u'test']  
  3. >>> client.upload("/test","/opt/bigdata/hadoop/NOTICE.txt")  
  4. '/test/NOTICE.txt'  
  5. >>> client.list("/")  
  6. [u'hbase', u'test']  
  7. >>> client.list("/test")  
  8. [u'NOTICE.txt']  
       其他参数: upload ( hdfs_path local_path overwrite=False n_threads=1 temp_dir=None

                                 chunk_size=65536,progress=Nonecleanup=True**kwargs)

               overwrite:是否是覆盖性上传文件

               n_threads:启动的线程数目

               temp_dir:当overwrite=true时,远程文件一旦存在,则会在上传完之后进行交换

               chunk_size:文件上传的大小区间

               progress:回调函数来跟踪进度,为每一chunk_size字节。它将传递两个参数,文件上传的路径和传输的字节数。一旦完成,-1将作为第二个参数

               cleanup:如果在上传任何文件时发生错误,则删除该文件

10:download——下载

[python]  view plain   copy
  1. >>> client.download("/test/NOTICE.txt","/home")  
  2. '/home/NOTICE.txt'  
  3. >>> import os  
  4. >>> os.system("ls /home")  
  5. lost+found  NOTICE.txt  thinkgamer  
  6. 0  
  7. >>>   
      其他参数: download ( hdfs_path local_path overwrite=False n_threads=1 temp_dir=None **kwargs )
              参考上传 upload

11:read——读取文件

    同样在windows客户端上执行依旧报错,在hadoop的节点服务器上执行

[python]  view plain   copy
  1.   
[python]  view plain   copy
  1. >>> with client.read("/test/NOTICE.txt") as reader:  
  2. ...     print reader.read()  
  3. ...   
  4. This product includes software developed by The Apache Software  
  5. Foundation (http://www.apache.org/).  
  6. "font-family: Arial, Helvetica, sans-serif;">  
  7. >>>  
     其他参数: read ( *args **kwds )

              hdfs_path:hdfs路径

              offset:设置开始的字节位置

              length:读取的长度(字节为单位)

              buffer_size:用于传输数据的字节的缓冲区的大小。默认值设置在HDFS配置。

              encoding:制定编码

              chunk_size:如果设置为正数,上下文管理器将返回一个发生器产生的每一chunk_size字节而不是一个类似文件的对象

              delimiter:如果设置,上下文管理器将返回一个发生器产生每次遇到分隔符。此参数要求指定的编码。

              progress:回调函数来跟踪进度,为每一chunk_size字节(不可用,如果块大小不是指定)。它将传递两个参数,文件上传的路径和传输的字节数。称为一次与- 1作为第二个参数。


附:在对文件操作时,可能会提示错误

[python]  view plain   copy
  1. hdfs.util.HdfsError: Permission denied: user=dr.who, access=WRITE, inode="/test":root:supergroup:drwxr-xr-x  
        解决办法是:在配置文件hdfs-site.xml中加入
[python]  view plain   copy
  1.   
  2.   dfs.permissions  
  3.   false  
  4.   
        重启集群即可

基本常用的功能也就这些了,如果需要一些特殊的功能,可以自己执行help(client.method)进行查看


补充:

write------写入文件



四、hbase


参考文章及错误修改参考教程官方文档


connection = happybase.Connection('10.1.13.111')

默认自动连接 ,但在测试时不可以???

connection = happybase.Connection('10.1.13.111', autoconnect=False) 

非自动连接



五、redis


查看语法redis教程

Python3 + redis 使用教程


六、将多进程爬虫部署到多台主机上




root:用户名

%:IP

password:密码


七、mongo with redis




未完待续。。。

这些只是创建数据库的基本知识,对于如何利用各个数据库的存储特点发挥最优性能还需在以后的实践中去学习、总结!!

针对不同需求会有不同方案!!

。。。。。。


你可能感兴趣的:(python)