Python中文社区

基于豆瓣影评数据的完整文本分析

原文链接： https://jinshuju.net/f/kb1Bcq

♚

作者：沂水寒城，CSDN博客专家，个人研究方向：机器学习、深度学习、NLP、CV

Blog: http://yishuihancheng.blog.csdn.net

文本分析中很多的工作都是基于评论数据来进行的，比如：滴滴出行的评价数据、租房的评价数据、电影的评论数据等等，从这些预料数据中能够挖掘出来客户群体对于某种事物或者事情的看法，较为常见的工作有：舆情分析、热点挖掘和情感分析。

在之前的工作经历中，我对微博数据和电影评论数据进行文本分析工作较多，今天的文章主要就是想以影评数据为切入点介绍一些自己文本分析的流程和方法，本文简单的实现流程如下图所示：

主要分为：数据采集、数据清洗存储、主题挖掘、分词与词频统计、词云展示几个部分。

一、影评数据采集

影评数据有很多网站可以去获取，比如最常用的猫眼电影、豆瓣电影等等，本文是基于豆瓣电影完成的数据采集工作，这个具体的采集项目网上都有很多详细的讲解与实现，这里我就不再对采集过程进行过多的介绍，直接看代码实现。

首选需要实现对于给定电影名称获取到其对应的id功能，因为在数据中电影数据项都是以id作为标识的，这里的代码实现很简单，主要是就是需要找到具体请求的API即可：

1.def getIMDBIdByName(name='勇敢的心',save_path='id_title.txt'):  
2.    ''''' 
3.    基于剧名查询获取 id 
4.    '''  
5.    url="https://movie.douban.com/j/subject_suggest?q="+urllib.quote(name)  
6.    data=getJsonData(url)  
7.    if data:  
8.        id_list=[one['id'] for one in data]  
9.        title_list=[one['title'] for one in data]  
10.        with open(save_path,'a') as f:  
11.            for i in range(len(id_list)):  
12.                f.write(','.join([id_list[i],title_list[i]]).strip()+'\n')

获取到的电影id会存储在我们默认的文件id_title.txt中，之后影评数据的获取会从这里读取数据来构建映射字典。

完成上述功能后我们就可以对给定名称的电影获取其对应的影评数据了，这里给出来样例爬虫代码的具体实现：

1.def demoSpider(movie_id='12345689',offset=0):  
2.    ''''' 
3.    爬虫数据展示 
4.    '''  
5.    res_list=[]  
6.    url="https://movie.douban.com/subject/{0}/comments?start={1}&limit=20&sort=new_score&status=P".format(movie_id,str(offset))  
7.    header,proxy=buildProxy()  
8.    res=getPageHtml(url,header,proxy,flag=True,num_retries=3)  
9.    soup=BeautifulSoup(res.content,'html5lib')  
10.    div_comment=soup.find_all('div',class_='comment-item')   
11.    for one in div_comment:  
12.        username=one.find('div',class_='avatar').a['title']  
13.        comment_time=one.find('span',class_='comment-time')['title']  
14.        votes=one.find('span',class_='votes').get_text()  
15.        comment=one.p.get_text()  
16.        one_list=[username.strip(),comment_time.strip(),votes.strip(),comment.strip()]  
17.        print one_list  
18.        res_list.append(one_list)  
19.        offset+=20  
20.        time.sleep(random.randint(3,8))  
21.        url="https://movie.douban.com/subject/{0}/comments?start={1}&limit=20&sort=new_score&status=P".format(movie_id,str(offset))  
22.        header,proxy=buildProxy()  
23.        res=getPageHtml(url,header,proxy,flag=True,num_retries=3)  
24.        soup=BeautifulSoup(res.content,'html5lib')  
25.        div_comment=soup.find_all('div',class_='comment-item')   
26.        for one in div_comment:  
27.            username=one.find('div',class_='avatar').a['title']  
28.            comment_time=one.find('span',class_='comment-time')['title']  
29.            votes=one.find('span',class_='votes').get_text()  
30.            comment=one.p.get_text()  
31.            one_list=[username.strip(),comment_time.strip(),votes.strip(),comment.strip()]  
32.            res_list.append(one_list)  
33.    return res_list

仔细看上述代码会发现，这里的实现是非常简单的，我们的翻页操作是基于网页的offset偏移量来间接完成的。上述代码实现了指定电影评论数据的采集工作。

如果在实际应用中出现大量数据采集工作的话需要考虑一些网站的反爬虫机制，这里我较为常用的三种反反爬虫机制主要包括：随机休眠机制、随机User-Agent伪装机制和动态IP代理池构建机制，如果对这方面感兴趣的话可以阅读我的头条号系列文章，搜索《反反爬虫机制三重奏》即可，这里我基于代码实现了随机UA和代理池的功能，具体不多解释了，直接看代码实现即可：

1.def buildProxy():  
2.    ''''' 
3.    构建代理信息 
4.    '''  
5.    header_list=generateRandomUA(num=500)  
6.    header={'User-Agent':random.choice(header_list)}  
7.    ip_proxy=random.choice(ip_list)  
8.    one_type,one_ip,one_port=ip_proxy[0],ip_proxy[1],ip_proxy[2]  
9.    proxy={one_type:one_type+'://'+one_ip+':'+one_port}  
10.    return header,proxy

二、影评数据清洗存储

完成第一部分的工作后，我们就采集到了所需的评论数据，但是这里的评论数据难以直接用于分析工作，我们需要对其进行解析处理后，对所需的评论文本数据进行清洗后才能够使用，这里简单对相关的工作进行说明。

我们随便打开一部电影《红海行动》的影评数据文件，找出前3条评论数据样例如下所示：

1.评论人：梦梦梦梦  
2.评论时间：2018-02-16 00:05:42  
3.支持人数：14673  
4.评论内容：本来对这类电影不感兴趣，陪着男朋友去看的，很意外，还不错，一部很燃的片子，俩个多小时的电影，至少一个半小时的高潮，全程无尿点，据说是根据真实事件改编的，海陆空作战，超级帅。算是春节档电影的一股清流，大家真的要感受一下中国军人的风采，只想说威武！！佟莉炸飞机还有狙击手对战那段太帅了  
5.评论人：乌鸦火堂  
6.评论时间：2018-02-13 15:35:16  
7.支持人数：10557  
8.评论内容：春节档最好！最好不是战狼而是战争，有点类似黑鹰坠落，主旋律色彩下，真实又残酷的战争渲染。故事性不强，文戏不超20分钟，从头打到尾，林超贤场面调度极佳，巷战、偷袭、突击有条不紊，军械武器展示效果不错。尺度超大，钢锯岭式血肉横飞，还给你看特写！敌人如丧尸一般打不完，双方的狙击手都是亮点  
9.评论人：sylvia晓霄小小  
10.评论时间：2018-02-11 00:11:02  
11.支持人数：7839  
12.评论内容：超前点映场。场面真实，剧情紧凑。中间其实很想上厕所，但是愣是没有找到任何尿点…作为战争片，已超额完成任务，在真实度还原上，达到了国产影片从未有过的高度。细节处理也很妙，剥糖纸的那一段看的揪心。被海清和蒋璐霞的演技圈粉…看到最后，感觉自己整个人都在燃烧。准备春节的时候带着爸妈二刷。  
13.评论人：华盛顿樱桃树  
14.评论时间：2018-02-06 00:06:34  
15.支持人数：10171  
16.评论内容：国产类型片的里程碑，2个多小时节奏全程紧绷清晰，真热血真刺激。叙事，人物，情感，动作，制作都几乎无可挑剔。该有的都有，演员群像都比想象中出色，但最出色的还是导演。这个格局，超越某狼N倍。

分析发现：对于单条影评数据主要包含：评论人、评论时间、支持人数和评论内容四部分，我们需要的是评论内容，这里需要对原始获取到数据进行解析，具体实现如下：

1.def singeCommentParse(data='comments/1291546.txt',save_path='handle/1291546.json'):  
2.    ''''' 
3.    单个影评数据的解析处理 
4.    数据样式： 
5.    评论人：phoebe
6.    评论时间：2007-11-21 20:38:33
7.    支持人数：22660 
8.    评论内容：陈凯歌可以靠它吃两辈子饭了，现在看来江郎才尽也情有可原 
9.    '''  
10.    with open(data) as f:  
11.        data_list=[one.strip() for one in f.readlines() if one]  
12.    comment_list=cutList(data_list,c=4)  
13.    res_list=[]  
14.    for i in range(len(comment_list)):  
15.        one_list=comment_list[i]  
16.        try:  
17.            one_dict={}  
18.            one_dict['person'],one_dict['timestamp'],one_dict['number'],one_dict['content']='N','N','N','N'  
19.            for one in one_list:  
20.                if one.startswith('评论人'):  
21.                    one_dict['person']=one.split('：')[-1].strip()  
22.                elif one.startswith('评论时间'):  
23.                    one_dict['timestamp']=one.split('：')[-1].strip()  
24.                elif one.startswith('支持人数'):  
25.                    one_dict['number']=one.split('：')[-1].strip()  
26.                elif one.startswith('评论内容'):  
27.                    one_dict['content']=one.split('：')[-1].strip()  
28.            res_list.append(one_dict)  
29.        except:  
30.            pass  
31.    with open(save_path,'wb') as f:  
32.        f.write(json.dumps(res_list))  
33.  
34.  
35.def allCommentsHandle(dataDir='comments/',saveDir='handle/'):  
36.    ''''' 
37.    对整个目录下的影评数据全部处理 
38.    '''  
39.    if not os.path.exists(saveDir):  
40.        os.makedirs(saveDir)  
41.    txt_list=os.listdir(dataDir)  
42.    for one_txt in txt_list:  
43.        one_name=one_txt.split('.')[0].strip()  
44.        one_txt_path=dataDir+one_txt  
45.        one_json_path=saveDir+one_name+'.json'  
46.        singeCommentParse(data=one_txt_path,save_path=one_json_path)

上述代码实现了对所有电源原始评论数据的解析处理，执行后就得到了所需的评论内容数据。

完成解析处理后需要对影评内容数据进行清洗，这里的清洗我主要是去除评论数据中的特殊字符等信息，具体实现如下：

1.def dataClean(one_line):  
2.    ''''' 
3.    去脏、去无效数据 
4.    '''  
5.    with open('stopwords.txt') as f:  
6.        stopwords_list=[one.strip() for one in f.readlines() if one]  
7.    sigmod_list=['，','。','（','）','-','——','\n','“','”','*','#','《','》','、','[',']','(',')','-',  
8.                   '.','/','】','【','……','！','!',':','：','…','@','~@','~','「一」','「','」',  
9.                '？','＂','?','~','_',' ','；','◆','①','②','③','④','⑤','⑥','⑦','⑧','⑨','⑩',  
10.                '⑾','⑿','⒀','⒁','⒂','&quot;',' ','/','·','…','！！！','】','！','，',  
11.                '。','［','］','【','、','？','/^/^','/^','”','）','（','～','》','《','。。。',  
12.                '=','⑻','⑴','⑵','⑶','⑷','⑸','⑹','⑺','…','']  
13.    for one_sigmod in sigmod_list:  
14.        one_line=one_line.replace(one_sigmod,'')  
15.    return one_line

到这里文本数据的预处理工作就结束了，之后需要对数据进行存储，这里我是直接将数据存储到了MySQL数据库中。

首先需要创建对应的表，具体实现如下：

1.def createTableMySQL(tablename='mytable'):  
2.    ''''' 
3.    创建表 
4.    '''  
5.    conn=pymysql.connect(**mysql)  
6.    cur=conn.cursor()    
7.    try:  
8.        drop_sql="drop table if exists %s" % tablename  
9.        cur.execute()  
10.    except Exception,e:  
11.        print 'Drop Exception: ',e  
12.    try:  
13.        create_sql="""CREATE TABLE %s ( 
14.                     movieId VARCHAR(50) NOT NULL, 
15.                     movieName VARCHAR(50) NOT NULL, 
16.                     personName VARCHAR(50) NOT NULL, 
17.                     supportNum VARCHAR(50), 
18.                     content VARCHAR(255), 
19.                     timePoint VARCHAR(50) NOT NULL, 
20.                     """ %(table)  
21.        cur.execute(create_sql)  
22.        conn.commit()  
23.        cur.close()  
24.        conn.close()  
25.    except Exception,e:  
26.        print 'createTableMySQL Exception: ',e

数据入库操作实现如下：

到此就完成了影评数据的清洗与存储工作！

三、LDA主题挖掘分析

这一部分主要是基于LDA主题挖掘模型来对处理好的影评数据进行主题倾向性的分析挖掘工作。具体实现如下所示：

结果输出如下：

1.{"蝶衣": 1, "记得": 1, "故事": 1, "哥哥": 6, "背景": 1, "作品": 2, "时代": 1, "真的": 1, "疯魔": 1, "女娇": 1, "霸王": 1, "说好": 1, "生活": 1, "角色": 1, "陈凯歌": 3, "电影": 6, "人生": 2, "风华绝代": 1, "成活": 1, "中国": 4, "喜欢": 1, "一年": 1, "人物": 1, "这部": 3, "一辈子": 2, "历史": 2, "时辰": 1, "经典": 3, "看过": 1, "感情": 1, "导演": 1, "程蝶衣": 6, "真虞姬": 1, "一部": 2, "霸王别姬": 2, "不算": 1, "关注": 1, "虞姬": 3, "一个月": 1, "永远": 1, "张国荣": 5, "一出": 1, "巅峰": 1, "之作": 1}

上述代码中我们数据的数据是《霸王别姬》的评论数据，输出的是对应的10个主题中主题词的词频数据。基于词云对其可视化结果如下所示：

接下来我们借助于主题可视化分析工具对其各个主题进行展示如下所示：

Topic0：

Topic1：

Topic2：

Topic3：

这里仅展示出前4个主题的分布情况，借助于可视化工具来呈现主题还是一种不错的方式。

四、分词与词频统计

这部分的工作主要是对原始的影评数据进行分词和词频统计，相对来说较为简单，就不多说明了，直接看代码实现即可：

1.def singleCommentCut(data='1291546.json',word_path='1291546.txt',fre_path='1291546.json'):  
2.    '''  
3.    对单个影评数据清洗、分词处理  
4.    '''  
5.    with open(data) as f:  
6.        data_list=json.load(f)  
7.    content=[]  
8.    fre_dict={}  
9.    for one_dict in data_list:  
10.        one_clean=dataClean(one_dict['content'])  
11.        one_cut=seg(one_clean)  
12.        one_line='/'.join(one_cut)  
13.        content.append(one_line)  
14.        for one in one_cut:  
15.            if one in fre_dict:  
16.                fre_dict[one]+=1  
17.            else:  
18.                fre_dict[one]=1  
19.    with open(word_path,'w') as f:  
20.        for one_line in content:  
21.            f.write(one_line.strip()+'\n')  
22.    with open(fre_path,'w') as f:  
23.        f.write(json.dumps(fre_dict))

上述代码实现了对输入影评数据的分词与词频统计，并存储到本地文件中。

五、词云可视化分析

这里是本文的最后一个部分，主要是对前面几章中计算处理得到的文本数据进行可视化展示分析，对于文本数据的可视化我用的最多的也就是词云了，简单看下具体的效果吧。

原始影评数据词云可视化结果如下：

《我不是药神》

《流浪地球》

《肖申克的救赎》

《红海行动》

主题挖掘词云可视化分析结果如下：

《我不是药神》

《流浪地球》

《肖申克的救赎》

《红海行动》

对于完整影评数据的可视化来说更全面地展现出来了评论数据的信息，对于主题挖掘的可视化来说，突出了在广大评论数据中的主题倾向性。

到这里本文的工作就结束了，很高兴在自己温习回顾知识的同时能写下点分享的东西出来，如果说您觉得我的内容还可以或者是对您有所启发、帮助，还希望得到您的鼓励支持，谢谢！

赞赏作者

Python中文社区作为一个去中心化的全球技术社区，以成为全球20万Python中文开发者的精神部落为愿景，目前覆盖各大主流媒体和协作平台，与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系，拥有来自十多个国家和地区数万名登记会员，会员来自以工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司，全平台近20万开发者关注。

▼ 点击成为社区注册会员 「在看」一下，一起PY！

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

基于豆瓣影评数据的完整文本分析

你可能感兴趣的:(基于豆瓣影评数据的完整文本分析)