Python 有许多强大的库和工具可以用于文本分析。下面是一个简单的文本分析流程,使用一些常见的 Python 库和工具:
import pandas as pd
data = pd.read_csv('text_data.csv')
import re
def clean_text(text):
# 去除标点符号
text = re.sub(r'[^\w\s]', '', text)
# 转换为小写
text = text.lower()
return text
data['clean_text'] = data['text'].apply(clean_text)
import nltk
nltk.download('punkt') # 下载必要的数据
def tokenize(text):
tokens = nltk.word_tokenize(text)
return tokens
data['tokens'] = data['clean_text'].apply(tokenize)
from nltk.corpus import stopwords
nltk.download('stopwords') # 下载必要的数据
def remove_stopwords(tokens):
stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token not in stop_words]
return filtered_tokens
data['tokens_without_stopwords'] = data['tokens'].apply(remove_stopwords)
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
def stem_tokens(tokens):
stemmed_tokens = [stemmer.stem(token) for token in tokens]
return stemmed_tokens
data['stemmed_tokens'] = data['tokens_without_stopwords'].apply(stem_tokens)
from collections import Counter
word_counts = Counter()
for tokens in data['stemmed_tokens']:
word_counts.update(tokens)
print(word_counts.most_common(10))
这些是一些基本的步骤,您可以根据具体需求使用不同的库和工具进行文本分析。
如果需要数据和代码的请关注我的公众号JdayStudy
本文由 mdnice 多平台发布