基于 Python 对百度热搜 “Manus 推出引发科技圈震动” 的数据分析

目录

一、案例背景

二、代码实现

2.1 数据收集

2.2 数据探索性分析

2.3 数据清洗

2.4 关键词提取与词频统计

2.5 情感分析(简单示例,实际可采用更复杂模型)

2.6 数据可视化

三、主要的代码难点解析

3.1 数据收集

3.2 数据清洗 - 文本预处理

3.3 关键词提取与词频统计

3.4 情感分析

3.5 数据可视化

四、可能改进的代码

4.1 数据收集改进

4.2 文本预处理改进

4.3 关键词提取改进

4.4 情感分析改进

4.5 可视化改进


一、案例背景

在近期的网络热搜中,“Manus 推出引发科技圈震动” 这一话题热度居高不下。2025 年 3 月 6 日,来自中国创业公司 Monica 的通用型 AI Agent 产品 Manus 正式对外发布,其在 GAIA 基准测试中取得了 SOTA 成绩,性能超越 OpenAI 同层次大模型,这一消息瞬间点燃了科技圈的热情。Manus 被称为全球首款真正意义上的通用 AI Agent,它不仅能对话,更能将想法付诸实践,解决实际问题,如完成人力资源筛选简历、复杂购房筛选、旅行规划等任务。本案例将运用 Python 对围绕 Manus 的网络舆情、市场反应等数据进行收集、分析与可视化,深入洞察这一新兴技术在社会各界引发的影响 。

二、代码实现

import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from sklearn.feature_extraction.text import TfidfVectorizer

2.1 数据收集

# 模拟请求科技新闻网站获取相关新闻数据
# 实际需注意网站的robots协议和版权问题
url = 'https://tech_example_website.com/search?q=Manus AI'
response = requests.get(url)
data = response.json()
news_list = []
for item in data['articles']:
    news = {
        'title': item['title'],
        'content': item['content'],
        'date': item['date']
    }
    news_list.append(news)
df = pd.DataFrame(news_list)

2.2 数据探索性分析

print('数据基本信息:')
df.info()
# 查看数据集行数和列数
rows, columns = df.shape
if rows < 1000:
    # 小数据集(行数少于1000)查看全量数据信息
    print('数据全部内容信息:')
    print(df.to_csv(sep='\t', na_rep='nan'))
else:
    # 大数据集查看数据前几行信息
    print('数据前几行内容信息:')
    print(df.head().to_csv(sep='\t', na_rep='nan'))

2.3 数据清洗

# 处理缺失值
df = df.dropna(subset=['title', 'content'])
# 去除重复新闻
df = df.drop_duplicates(subset=['title', 'content'])
# 文本预处理(去除标点符号、转换为小写等)
import re
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower()
    return text
df['clean_content'] = df['content'].apply(clean_text)

2.4 关键词提取与词频统计

from collections import Counter
words = []
for content in df['clean_content']:
    word_list = content.split()
    words.extend(word_list)
word_counter = Counter(words)
top_words = word_counter.most_common(20)

2.5 情感分析(简单示例,实际可采用更复杂模型)

from textblob import TextBlob
df['sentiment'] = df['clean_content'].apply(lambda x: TextBlob(x).sentiment.polarity)

2.6 数据可视化

# 新闻发布时间分布
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
plt.figure(figsize=(10, 6))
df.resample('D').size().plot()
plt.title('Manus相关新闻发布时间分布')
plt.xlabel('日期')
plt.

你可能感兴趣的:(python,python,百度,科技)