python读取文件

可以用padas读取excel、txt  (但本文不介绍)

 

 

1、读取txt文件:

file = open(r‘E:\\myworkspace\\lucky.txt’)
for line in lines:
    print(line)

2、读取docx文件的内容

1)python 可以利用python-docx 模块处理docx文档,处理方式是面向对象的,python-docx模块会把word,文档中的段落、文本、字体等都看作对象,对对象进行处理就是对word文档的内容处理

2)安装python-docx    :pip install python-docx

3)


import docx
file=docx.Document("F:\\....docx")
#段落数
print(file.paragraphs ) 
# 段落内容
for paragraph in  file.paragraphs:
    print(paragraph.text)

 4)python无法处理doc文件,需要转化为docx文件后再处理

import sys
import pickle
import re
import  codecs
import string
import shutil
from win32com import client as wc
import docx
 
 
def doSaveAas():
    word = wc.Dispatch('Word.Application')
    doc = word.Documents.Open(u'E:\code\\xxxx.doc')        # 目标路径下的文件
    doc.SaveAs(u'E:\\code\\hhhhhhhh.docx', 12, False, "", True, "", False, False, False, False)  # 转化后路径下的文件    
    doc.Close()
    word.Quit()
 
doSaveAas()

# 想批处理文件,就用for循环

 

3、读取excel

     (1)安装xlrd包(pip install xlrd     /    conda install   xlrd)

     (2)  打开文件 

xlrd.open_workbook(r'/root/excel/chat.xls')

(3)获取打开的sheet文件 

    # 获取所有sheet
    sheet_name = workbook.sheet_names()[0]

    # 根据sheet索引或者名称获取sheet内容
    sheet = workbook.sheet_by_index(0) # sheet索引从0开始
 # 获取指定单元格里面的值

 sheet.cell_value(第几行,第几列)

# 获取整行和整列的值(数组)

rows = sheet.row_values(1) # 获取第2行内容 

cols = sheet.col_values(2) # 获取第3列内容

# sheet的名称,行数,列数

print (sheet.name,sheet.nrows,sheet.ncols)

 

你可能感兴趣的:(数据分析----python)