python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe

数据为 酒店评论语料
准备要做情感分析

有一个名为neg的文件夹里面有neg.0.txt到neg.2999.txt,3000个txt文件,每个txt不一定仅有一行内容,有一个名为pos的文件夹里面有pos.0.txt到pos.2999.txt,3000个txt文件,每个txt不一定仅有一行内容,怎么用python pandas读取文件夹里面的txt文件并且把每个txt文件转为dataframe的某一列的一行内容。去掉txt文件里的换行符和空格。
在这里插入图片描述
python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe_第1张图片
python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe_第2张图片

import os
import pandas as pd

pos_folder = "pos"  # pos文件夹路径
neg_folder = "neg"  # neg文件夹路径

# 获取pos文件夹中的所有文件
pos_file_list = os.listdir(pos_folder)
pos_data = []
for file_name in pos_file_list:
    if file_name.endswith(".txt"):
        file_path = os.path.join(pos_folder, file_name)
        with open(file_path, "r", encoding="utf-8") as file:
            content = file.read().replace("\n", "").replace(" ", "")  # 读取文件内容并去除换行符和空格
            pos_data.append(content)

# 获取neg文件夹中的所有文件
neg_file_list = os.listdir(neg_folder)
neg_data = []
for file_name in neg_file_list:
    if file_name.endswith(".txt"):
        file_path = os.path.join(neg_folder, file_name)
        with open(file_path, "r", encoding="utf-8") as file:
            content = file.read().replace("\n", "").replace(" ", "")  # 读取文件内容并去除换行符和空格
            neg_data.append(content)

# 创建DataFrame,将pos和neg的内容分别存储在"Positive"和"Negative"列中
df = pd.DataFrame({"Positive": pos_data, "Negative": neg_data})
df.to_csv('neg_pos.csv',index=0)

转为的dataframe如下:
python pandas读取文件夹并把文件夹里面的所有txt文件转为dataframe_第3张图片

你可能感兴趣的:(数据分析与数据挖掘,python,pandas,开发语言)