海胆奶油饭

晋江文学城爬取小说评论情感分析

1. 收集数据
- 1.1 爬取晋江文学城收藏排行榜前50页的小说信息
2. 数据加载和预处理
- 2.1 格式转化
- 2.2 数据去重
- 2.3 短评去重
- 2.4 添加情绪标签
- 2.5 去除停用词和分词
- 2.6 短评可视化
3. 训练模型
- 3.1 建立训练数据集和测试数据集
- 3.2 使用 sklearn 包中的 TfidfVectorizer 方法进行特征提取。
- 3.3 用朴素贝叶斯完成中文文本分类器
- 3.4 用逻辑回归完成中文文本分类
4. 结果分析

1. 收集数据

1.1 爬取晋江文学城收藏排行榜前50页的小说信息

获取收藏榜前50页的小说列表，第一页网址为 ‘http://www.jjwxc.net/bookbase.php?fw0=0&fbsj=0&ycx0=0&xx2=2&mainview0=0&sd0=0&lx0=0&fg0=0&sortType=0&isfinish=0&collectiontypes=ors&searchkeywords=&page=1’ , 第二页网址中page=2，以此类推，直到第50页中page=50。爬取每个小说的ID，小说名字，小说作者。将爬取到的信息存储到晋江排行榜【按收藏数】.txt文件中。

import requests
from bs4 import BeautifulSoup
import bs4
import re
import csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import jieba
import seaborn as sns
import xlrd
from xlutils.copy import copy
# 一些魔法命令，使得matplotlib画图时嵌入单元中而不是新开一个窗口
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection  import train_test_split

爬取小说基本信息 ，主要思路：
找到需要爬取的所有信息主体tbody；
分别找到每个信息对应的小标签td(a)，数清楚在所有标签中的顺序；
存进txt文档时按顺序存储。

headers = {"User-Agent": "Mozilla/5.0"}

for n in range(1,50):
    url = 'http://www.jjwxc.net/bookbase.php?fw0=0&fbsj=0&ycx0=0&xx2=2&mainview0=0&sd0=0&lx0=0&fg0=0&sortType=0&isfinish=0&collectiontypes=ors&searchkeywords=&page={}'.format(n)
    html = requests.get(url,headers=headers)
    html.encoding = html.apparent_encoding
    soup = BeautifulSoup(html.text, 'html.parser')
    for tr in soup.find_all('tbody'):
        
            tds=tr('td')  
            a = tr('a') 
            count=0
            id=[]
            for u in tr.find_all('a'):
                    count=count+1
                    book_url=u.get('href') # 获取小说主页的url
                    p = re.compile(r'\d+')
                    book_id = p.findall(book_url)[0]  # 获取小说ID
                    if(count%2==0):
                        id.append(book_id)
            for n in range(0,100):
                
                    with open('./data/晋江排行榜【按收藏数】.txt','a+',encoding='utf-8') as f:
                        
                            print("{0}\t{1}\t{2}".format(id[n],a[n*2+1].string,a[n*2].string),file=f)  # 序号 书名 作者

查看爬虫结果 ，分别查看前8部小说的ID和名字

# 查看收藏榜前8部小说的ID
with open('./data/晋江排行榜【按收藏数】.txt','r',encoding='utf-8',errors='ignore') as f:
    book_list = f.readlines()
    id_list = [item.split('\t')[0] for item in book_list]

print(id_list[:8])

# 查看收藏榜前8部小说的名字
name_list = [item.split('\t')[1] for item in book_list]

print(name_list[:8])

3. ** 爬取每部小说的评论** ，找到小说的评论区，第一部小说《天官赐福》的第一页评论网址为 ‘http://www.jjwxc.net/comment.php?novelid=3200611&huati=1’ ,3200611是小说ID，1是评论页数，这部小说第二页网址为’http://www.jjwxc.net/comment.php?novelid=3200611&huati=2’ 。下一部小说《撒野》的ID是2956313，它的第一页评论网址为’http://www.jjwxc.net/comment.php?novelid=2956313&huati=1’ ,以此类推，爬取所有小说的评论和打分。为了避免有一些小说评论数不够多，自己设定每部小说只爬取5页的评论。
爬取思路与爬取小说信息大致相同，不同的是将爬取到的信息存储到xls文件中。

headers = {"User-Agent": "Mozilla/5.0"}
with open('./data/晋江排行榜【按收藏数】.txt','r',encoding='utf-8') as f:
            book_list = f.readlines()
            id_list = [item.split('\t')[0] for item in book_list]
for book_id in id_list:
    for page in range(1,6):
        url="http://www.jjwxc.net/comment.php?novelid={}&huati=1&page={}".format(book_id,page)
        html = requests.get(url,headers=headers)
        html.encoding = html.apparent_encoding
        soup = BeautifulSoup(html.text, 'html.parser')
        scores=[]
        comments=[]
        for item1 in soup.find_all('span',"coltext"):
            score=item1('span')
            scores.append(score[2].string)
            
        for item2 in soup.find_all('div',"readbody"):
            comment=item2('span')
            comments.append(comment[0].string)
        
        for i in range(0,len(comments)):
            excel = xlrd.open_workbook('./data/jjwxc1.xls')
            wb = copy(excel)
            w_sheet = wb.get_sheet(0)
            sheet = excel.sheets()[0]
            nrow = sheet.nrows # 文件行数
            w_sheet.write(nrow, 0, book_id)
            w_sheet.write(nrow, 1, comments[i])
            w_sheet.write(nrow, 2, scores[i])
            
            wb.save('./data/jjwxc1.xls')

2. 数据加载和预处理

预处理包括：

格式转化；上一步将爬取信息存到了xls文件，将xls格式文件转化为csv格式文件方便下一步加载。
数据去重；爬取过程中某些页面爬取了多次，导致csv文件包含重复的行。
短评去重；对同一部小说，或者不同的小说，可能存在评论内容相同的行。
添加情绪标签
去除停用词和分词
短评可视化

2.1 格式转化

使用pandas模块可以快速将xls文件转换为.csv

# 格式转化
ex=pd.read_excel("./data/jjwxc.xls")
ex.to_csv("./data/jjwxc.csv",encoding="gb18030")

# 加载评论
review = pd.read_csv("./data/jjwxc.csv",names=['ID','comment','score'],encoding='gb18030')

2.2 数据去重

去除重复的行

# 去重
review = review.drop_duplicates()

2.3 短评去重

去除评论相同的行

# 删除评论内容重复的行
review= review.drop_duplicates('comment')
review.shape

2.4 添加情绪标签

根据打分的分数来添加情绪标签，观察晋江文学城的打分机制发现，打分区间在[-2,2]内，且打2分的人数占大多数，于是将分数为2的评论看作是好评，情绪标签为1，而低于2分的看作是差评，情绪标签为0。

# 添加情绪标签
review['emotion'] = (review.score ==2) * 1

# 打乱顺序
review = review.sample(frac=1).reset_index(drop=True)
print(review.shape)

2.5 去除停用词和分词

短评内容进行分词并去掉停用词

def review_without_stop(review):
    # 打开停用词文件
    with open("./data/emotion_stopwords.txt","r",encoding="utf-8") as f:
        stop_word = [x.strip() for x in f.readlines()] 
    all_stop_words = set(stop_word) # 删除停用词中重复的项
    # 短评中的非中文字符替换为''
    review = re.sub("[^\u4e00-\u9fa5]",'',review)
    # 去除全角空白字符
    review = review.replace("\u3000","") 
    # 分词
    review = jieba.cut(review)
    # 过滤一个字的词
    review = filter(lambda x: len(x)>1,review)
    # 去除停用词
    review = filter(lambda x: x not in all_stop_words,review)
    return ' '.join(review)

# 自定义分词字典
jieba.load_userdict("./data/emotion_userdict.txt")
review['cut_jieba'] = review.comment.apply(review_without_stop)

【注】停用词和分词文件需要自己定义

# 查看一些评论
review.head()

# 好评中一些评论包含“不想”，“不喜欢”
review[(review['cut_jieba'] == '不想') & (review['emotion'] == 1)]

review[(review['cut_jieba'] == '不喜欢') & (review['emotion'] == 1)]

# 好评中出现的消极情绪词，去除这些评论
def change_negtive_like(cut_text):
    word_list = cut_text.split()
    if "不喜欢" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不喜欢":
                word_list[i] = ""
        return " ".join(word_list)
    elif "不想" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不想":
                word_list[i] = ""
        return " ".join(word_list)
    else:
        return cut_text

review.loc[review['emotion'] == 1,'cut_jieba'] = review[review['emotion'] == 1].cut_jieba.apply(change_negtive_like)

# 一些评论内容为空，去除这些为空的评论
review = review[~(review['cut_jieba'] == '')]
review.shape

2.6 短评可视化

对所有短评进行可视化

from wordcloud import WordCloud
from imageio import imread

mask = imread("./data/cloud.jpg")
font = './data/FZSTK.TTF'

wc = WordCloud(
    font_path= font,
    max_words=2000, # 设置最大现实的字数
    max_font_size=250,# 设置字体最大值
    background_color = "white",
    random_state=30,
    mask = mask)


wc.generate(''.join(review['cut_jieba'])) # 生成词云
plt.imshow(wc)
plt.axis('off')

2. 对emotion为1的短评进行可视化

from wordcloud import WordCloud
from imageio import imread

mask = imread("./data/piggy.jpg")
font = './data/FZSTK.TTF'

wc1 = WordCloud(
    font_path= font,
    max_words=2000, # 设置最大现实的字数
    max_font_size=300,# 设置字体最大值
    background_color = "white",
    random_state=30,
    mask = mask)


wc1.generate(''.join(review['cut_jieba'][review['emotion']==1]))
plt.imshow(wc1)
plt.axis('off')

3. 对score为-2的短评进行可视化

wc1.generate(''.join(review['cut_jieba'][review['score']==-2])) # 生成词云
plt.imshow(wc1)
plt.axis('off')

【注】词云和字体自己定义

3. 训练模型

3.1 建立训练数据集和测试数据集

由于已经为分析准备好了数据，所以现在需要将数据分成训练数据集和测试数据集。将数据分成两部分：75%的训练数据和25%的测试数据。

x, y = review['cut_jieba'], review['emotion']

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25)

print(x_train.shape)
print(y_train.shape)

print(x_test.shape)
print(y_test.shape)

3.2 使用 sklearn 包中的 TfidfVectorizer 方法进行特征提取。

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer(decode_error='ignore',
                             token_pattern=r"\b[^\d\W]\w+\b", # 剔除向量化结果中的数字
                             analyzer='word',
                             ngram_range=(2,4),
                            max_df = 0.8,
                            min_df = 3)
Xtrain = tfidf_vect.fit_transform(x_train)
Xtest = tfidf_vect.transform(x_test)

print(Xtrain.shape)
print(Xtest.shape)

3.3 用朴素贝叶斯完成中文文本分类器

from sklearn.naive_bayes import MultinomialNB

review_classifier = MultinomialNB()
review_classifier.fit(Xtrain,y_train)

# 对测试集的样本进行预测
y_pred = review_classifier.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩阵

# 利用 sns 模块查看测试值和预测值构成的热图
colorMetrics = metrics.confusion_matrix(y_test, y_pred)
sns.heatmap(colorMetrics,annot=True,fmt='d')

# 分类报告
# 给出每个类的准确率，召回率和F值，以及这三个参数和宏平均值
print(metrics.classification_report(y_test,y_pred))

print(metrics.accuracy_score(y_test,y_pred))

from sklearn.model_selection import cross_val_score
score1 = cross_val_score(review_classifier,Xtrain,y_train,cv=10,scoring="accuracy").mean()
print(score1)

3.4 用逻辑回归完成中文文本分类

from sklearn.linear_model import LogisticRegression  

LR_model = LogisticRegression(penalty='l2',max_iter=3000)  
LR_model.fit(Xtrain,y_train)

# 对测试集的样本进行预测
y_pred = LR_model.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩阵

print(LR_model.score(Xtest,y_test))

# 给出每个类的准确率，召回率和F值，以及这三个参数和宏平均值
print(metrics.classification_report(y_test,y_pred))

4. 结果分析

（1）词云分析：

词云1中最明显的词汇是“喜欢”；
词云2中的词汇与词云1区别不大，因为所有短评中好评占大多数；
由差评生成的词云3出现了“不好”、“一般”、“硬伤”等负面色彩的词语。

（2）影响情感分析准确性的原因：

获取到的短评数量比较少；
由于小说中对主角讨论比较多，一些小说角色名字会重复出现在短评内，一定程度影响对评论的感情分析；
没有删除过于短小的评论；
分词后中发现代表积极或消极情绪的词汇往往不会成为单独短评，而是和别的词一起出现，对于查找差评中的积极词汇和好评中的消极词汇造成一定困难。
短评中出现明显代表正面色彩和负面色彩的词汇较少。

Python MayaVi stereohomology 学习学习 python MayaVi
http://www.sam.math.ethz.ch/~raoulb/teaching/PythonTutorial/tips_mayavi2.htmlMayavi2Mayavi2seekstoprovideeasyandinteractivevisualizationof3-Ddata.Itoffers:An(optional)richuserinterfacewithdialogstoint
Python库 - Mayavi 司南锤 PYTHON库 python 开发语言
Mayavi是一个用于科学数据可视化的Python库，特别适用于三维数据的可视化。基于VTK（VisualizationToolkit）库，提供了简单易用的接口来创建复杂的三维图形。Mayavi可以用于绘制各种类型的三维图形，如点云、曲面、体积数据等，并且支持交互式操作。文章目录安装Mayavi基本概念基本用法1.创建一个简单的三维图形2.绘制点云3.绘制等值面4.交互式操作高级用法1.使用模块和
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
Python中的常用库 cmgdxrz python 开发语言
一、collectionscollections是Python标准库中的一个模块，提供了一些专门的容器数据类型，能够帮助你更高效地处理常见的数据结构操作。1、CounterCounter是一个字典的子类，用于计数可哈希对象。它会统计对象的出现次数，并能快速获取某个元素出现的次数。特点：它的键是可哈希的元素，值是该元素的计数。可以使用常见的字典操作，也支持一些特定的方法，如.most_common(
“告别 dict.update！Python 3.9+ 字典合并的逆天操作符来了” HerrFu@灵思智行科技你不知道的 Python 那些事儿 python 开发语言学习
一、为什么你需要抛弃dict.update在Python3.9之前，合并字典的“标准操作”通常是这样的：config={"host":"localhost","port":8080}defaults={"port":80,"debug":False}#传统合并方式merged=defaults.copy()#防止污染原字典merged.update(config)print(merged)#{'p
python获取windows进程cpu占用率_用Python计算进程cpu使用率 weixin_39736007
经过进一步的研究，我找到了解决办法。在因此，为了获得进程cpu使用率的百分比，我们需要一些参数：1。系统时间为了计算这个，我们需要用户模式时间，内核模式时间和空闲模式时间：fromctypesimport*importtimeclassFILETIME(Structure):_fields_=[("dwLowDateTime",DWORD),("dwHighDateTime",DWORD)]def
HTML5+CSS3 weixin_34250709
2019独角兽企业重金招聘Python工程师标准>>>第一课HTML5结构HTML5是新一代的HTMLDTD声明改变新的结构标签注意的地方ie8不兼容常用的一些新的结构标签删除的HTML标签纯表现的元素：basefontbigcenterfontsstrikettu对可用性产生负面影响的元素：frameframesetnoframes产生混淆的元素：acronymappletisindexdir重
android自动化测试 python3.0+appium+uiautomatorviewer+unittest+csv+HTMLTestRunner 登录测试框架 luoyangcoding app自动化测试 app登录自动化脚本
#coding:utf-8importcsv#导入csv库，可以读取csv文件fromappiumimportwebdriverimportunittest#单元测试fromtimeimportsleep#等待时间importtime#时间方法importos#文件、目录方法importsys#引用系统函数fromHTMLTestRunnerimportHTMLTestRunner#定义路径变量，
如何通过Python实现股票市场的高频交易策略？如何应对高频交易中的滑点问题？股票量化量化投资量化交易程序化交易量化交易 python 量化炒股券商接口 QMT 量化投资 PTrade
推荐阅读：《【最全攻略】券商交易接口API申请：从数据获取到下单执行》如何通过Python实现股票市场的高频交易策略？如何应对高频交易中的滑点问题？在股票市场中，高频交易（HFT）是一种利用计算机算法快速执行大量交易的策略。这种策略依赖于速度和算法的优化来捕捉微小的价格差异。本文将介绍如何使用Python实现高频交易策略，并探讨如何应对高频交易中的滑点问题。1.理解高频交易高频交易的核心在于速度和
探索std::thread，让 C++ 程序 “火力全开” @ANONYME c++开发语言
在C++编程领域，多线程编程是提升程序性能和实现高效并发的关键手段。它允许程序同时执行多个任务，充分利用多核处理器的优势，在诸如游戏开发、服务器端编程、数据分析等诸多场景中发挥着重要作用。接下来，让我们一同学习线程的std::thread的相关知识。一、线程的创建与启动函数指针作为线程入口通过std::thread构造函数传递函数指针或可调用对象,在传递参数时，默认是按值传递的。若需要传递引用类型
【python】【conda】【Commands 命令5】【conda install】在指定的conda环境中安装一组软件包资源存储库 windows 服务器
目录1condainstall2PositionalArguments位置参数3NamedArguments命名参数4TargetEnvironmentSpecification4目标环境规范编号5ChannelCustomization5渠道定制6SolverModeModifiers6求解器模式修改器7PackageLinkingandInstall-timeOptions7软件包链接和安装时
【开题报告】基于Springboot+vue智能停车场管理系统（程序+源码+论文) 计算机毕业设计计算机程序_设计 spring boot vue.js 课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着城市化进程的加速，车辆数量急剧增加，停车难问题已成为各大城市面临的严峻挑战。传统的停车场管理方式存在效率低下、资源浪费、用户体验差等问题，无法满足现代城市对高效、便捷停车服务的需求。智能停车场管理系统作为一种创新的解决方案，通过集成先进的物联网技术、云计算技术和大数据分析技
Python函数 Gao_xu_sheng python 开发语言
函数概述函数就是Python程序的重要组成单位，一个Python程序可以由很多个函数组成。函数是组织好的，可重复使用的，用来实现单一或相关联功能的代码段，函数能提高应用的模块性，和代码的重复利用率。我们已经知道Python提供了许多内置函数，比如print()。但你也可以自己创建函数，这被叫做用户自定义函数。在本章节我们重点来讲解如何自定义函数，以及如何定义和使用函数。函数定义函数概述函数代码块以
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python笔记之多线程与多进程人间酒中仙 python笔记 python 笔记
Python笔记之多线程与多进程一、简介二、线程基础（`threading`模块）1、概念说明2、代码示例(1)创建与启动线程(2)使用`threading`模块创建多个线程三、进程基础（`multiprocessing`模块）1、概念说明2、代码示例(1)创建与启动进程(2)创建多个进程四、GIL与线程池1、概念说明2、代码示例(1)GIL影响演示(2)使用线程池管理线程五、小结一、简介本章节详
Python多进程，多线程和异步实例汤米先生 Python学习多线程 python 多进程
文章目录前言一、多进程1.进程间通信使用Queue队列2.多进程中的通信【一个往Queue里写，一个从Queue里读】3.进程池中的通信【只需要就上述的Queue()转换成Manager().Queue()】4.多进程拷贝文件【多个文件的拷贝】二、多线程1.加入互斥锁2.不加入互斥锁3.在屏幕上连续打印10次ABC4.死锁的产生5.针对死锁的处理方法6.生产者消费者模型【常用】—>比如爬虫：爬取数
复杂网络；社交网络；社区检测；节点重要性(重要节点识别)；舆论动力学模型；传染病模型；蓄意攻击、随机攻击；网络鲁棒性、脆弱性、稳定性 xiao黄复杂网络 python 复杂网络
复杂网络社交网络社区检测节点重要性(重要节点识别)舆论动力学模型传染病模型蓄意攻击随机攻击网络鲁棒性、脆弱性、稳定性Python基本的网络分析详细私聊网络拓扑图连通性网络效率下降
Python, Java 联合开发全国以及港澳主要商业银行办信用卡实操APP (Siliver) Geeker-2025 python java
以下是一个使用Python和Java联合开发全国以及港澳主要商业银行办信用卡实操APP的示例架构和部分代码示例。这个APP主要功能包括查询银行信息、了解办信用流程、模拟申请信用卡等操作。###整体架构概述-**Python部分**：-用于数据处理和分析，例如从各种数据源获取银行信息、信用政策等数据，并进行数据清洗和整理。-可以利用数据分析和可视化库来辅助生成信用评估报告和相关图表。-**Java部
Python数据可视化——Matplotlib的基本绘图：图形、轴、标签大数据张老师 python 信息可视化 matplotlib
Matplotlib的绘图系统是由多个层次组成的，它的基本结构包括图形（Figure）、坐标轴（Axes）、刻度（Ticks）、标签（Labels）等多个部分。理解这些基本组件，有助于更好地使用Matplotlib绘制和优化图表。在本节中，我们将结合NumPy数组，详细讲解Matplotlib的基本结构，并展示它们在实际项目中的应用。图形（Figure）：整个绘图的容器在Matplotlib中，图
【自然语言处理-NLP】情感分析与主题建模云博士的AI课堂深度学习哈佛博后带你玩转机器学习自然语言处理人工智能情感分析主题建模深度学习机器学习 NLP
以下内容详细剖析了NLP中情感分析（SentimentAnalysis）和主题建模（TopicModeling）的技术与方法，分别展示如何从文本中提取情感倾向和潜在主题，并提供示例代码和讲解，可在Python环境下直接运行。目录情感分析（SentimentAnalysis）1.1概念与方法概览1.2传统机器学习方法1.3深度学习与预训练模型1.4代码示例：基于机器学习的情感分类主题建模（Topic
微博舆情分析：使用Python进行深度解析傻啦嘿哟关于python那些事儿 python 开发语言
目录一、准备工作二、基础理论知识三、步骤详解数据预处理情感分析关键词提取四、案例分享数据爬取数据分析五、优化六、结论在当今信息爆炸的时代，社交媒体平台如微博已成为公众表达意见和情感的重要渠道。微博舆情分析通过对大量微博数据进行挖掘和分析，可以揭示公众对某些事件或话题的态度和情绪。本文将详细介绍如何使用Python进行微博舆情分析，包括数据获取、预处理、情感分析、关键词提取和数据可视化等步骤，并附上
打造你的专属时钟应用：用Python和Tkinter实现实时时间显示 LIY若依 python tensorflow 开发语言
这个项目展示了如何使用Python的tkinter库创建一个简单的数字时钟。通过逐步解析代码片段，我们了解了每个部分的功能和实现方式。说明这个代码展示了如何使用tkinter库创建一个简单的数字时钟，并每秒更新一次显示的时间。依赖库tkinter：Python的标准GUI库，无需额外安装。time：Python的标准库，无需额外安装。代码解析1.导入库和创建主窗口importtkinterastk
使用 Python 和 Selenium 爬取快手视频附源码 LIY若依 python 开发语言
在本教程中，我们将展示如何使用Selenium爬取网页中的视频URL。我们将以快手短视频页面为例，演示如何自动化浏览器操作，等待页面加载完成后，获取视频元素的URL并打印出来。使用python爬取快手视频URL.py资源-CSDN文库https://download.csdn.net/download/m0_74972192/89578924前提条件在开始之前，请确保你已经安装了以下工具和库：Py
使用Python 打造专属自己的屏幕录制工具：使用NumPy、PIL和OpenCV的完整指南 LIY若依 opencv 人工智能 python 应用开发录屏软件
简介在这篇博客中，我们将介绍如何使用NumPy、PIL和OpenCV创建一个屏幕录制工具。通过逐步解析代码片段，解释每个部分的功能，最终展示完整代码。希望这篇博客能帮助你理解如何实现屏幕录制功能。依赖库在运行代码之前，请确保已安装以下依赖库：NumPyPIL（Pillow）OpenCV可以使用以下命令安装这些库：pipinstallnumpypillowopencv-python步骤1:导入必要的
EXCEL自动化13 | 批量重命名工作簿中的工作表 Turbo正则 python办公自动化笔记 excel 自动化 python
目录一.重命名工作表1.修改单个文件的工作表2.修改单个文件的多个工作表3.替换文件中的所有工作表名二.批量重命名多个文件的工作表如下图所示，文件夹下有6个excel文件（工作簿）。打开任意一个工作簿，可看到其中有工作表，如Sheet1。要将6个工作簿中的工作表“Sheet1”重命名为“数据表”。这种有规律可循的批量重命名操作可通过Python来快速完成。一.重命名工作表在进行批量操作之前，先说一
【深度学习】PyTorch v2.6 Overview OpenSeek 人工智能 #机器学习 #深度学习 python pytorch 人工智能
PyTorchv2.6OverviewPythonAPILibrariesPyTorch是一个优化的张量库，用于使用GPU和CPU进行深度学习。PythonAPI序号API名称解释1torchPyTorch核心库(中文:火炬)PyTorch的核心库，提供了张量操作、自动求导等基础功能。2torch.nn神经网络模块包含构建神经网络所需的各种模块，如层、损失函数等。3torch.nn.functio
Python爬虫实战——如何自动爬取百度搜索结果页面 Python爬虫项目 2025年爬虫实战项目 python 爬虫百度开发语言信息可视化
1.引言随着互联网技术的飞速发展，信息的获取变得越来越方便。百度作为中国最主要的搜索引擎之一，每天都会处理大量的搜索请求。对于研究人员和开发者来说，爬取百度的搜索结果可以帮助他们获取大量的网络数据，用于分析和研究。然而，百度的反爬虫措施使得这一过程变得复杂，如何绕过这些限制并高效地抓取搜索结果，是很多开发者面临的问题。本文将详细介绍如何编写Python爬虫，自动抓取百度搜索结果页面中的所有内容，包
python搭建NPL模型的详细步骤和代码百锦再@新空间代码工作室包罗万象 python 开发语言 django flask pygame pip
目录**一、环境准备****二、数据准备****三、文本预处理****1.清理文本****四、特征工程****1.TF-IDF****2.Word2Vec****五、搭建NLP模型****1.逻辑回归****2.LSTM深度学习模型****六、使用预训练的BERT模型****七、模型评估****八、部署模型****总结**1.**人机交互的核心技术**2.**推动AI技术发展的动力**3.**广泛
在 PiscTrace 上使用 YOLO 进行预测与 MiDaS 景深补偿：体验纯视觉自动驾驶的数据分析那雨倾城 PiscTrace 人工智能计算机视觉图像处理自动驾驶 YOLO 视觉检测
随着自动驾驶技术的不断发展，视觉感知系统逐渐成为车辆感知的核心组件。PiscTrace作为一款支持高效视图处理的桌面应用，集成了先进的计算机视觉工具，如YOLO目标检测模型和MiDaS景深估计模型，能够为纯视觉自动驾驶的实现提供强大的支持。通过这两个模型的结合，PiscTrace可以提供高精度的目标识别与环境感知功能，帮助用户进行实时的驾驶数据分析，为决策系统提供宝贵的数据支持。本文将详细介绍如何
记录 | python os添加系统环境变量极智视界 python linux os 系统环境变量
python中通过os来添加系统环境变量：#设置os系统环境变量os.environ['CUDA_VISIBLE_DEVICES']='0'os.environ['p2c']='1'os.environ['p2o']='0'os.environ['io']='0'#获取os系统环境变量os.getenv('CUDA_VISIBLE_DEVICES')os.getenv('p2c')...
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

晋江文学城爬取小说评论情感分析