Dive_

Python实现《都挺好》社交网络分析

1《都挺好》简介

该小说讲述了职场金领苏明玉从小不受家人待见，生长在家庭的边缘，在孤独扭曲的环境中长大成人的故事。结局是这样的，苏明哲回到了美国，苏明成和朱丽离婚后不知所踪，苏明玉和石天冬在一起了，三个子女看清了苏大强的为人，没有人再管着他，最终苏大强得了老年痴呆症，苏明玉于心不忍，因此把他接回家照顾。

上图是去除停用词、去除人名、只保留形容词和名词的小说词云图；由图中也可以看出基本都是和家庭相关的词语。

# 小说词云
def getWordCloud():
    rlist=[]
    for s in content:
        for w in pseg.cut(str(s)):
            if(w.word not in stopdict and w.flag=='a' or w.flag=='n'):
                rlist.append(w.word)
    rlist = " ".join(rlist)
    w = WordCloud(font_path="C:/Users/Windows/fonts/simkai.ttf",width=600,height=400,background_color="black",max_words=50)
    w.generate(rlist)
    path=r'C:\Users\Administrator\Desktop\pic.png'
    w.to_file(path)

2人物共同出现频数

2.1制作主要人物字典

需要把《都挺好》小说txt版下载下来，刚开始我是通过jieba分词把所有nr(人名)的词语保存下来，作为人物集合，但是①某个人物多个称呼 ②nr类型会出现许多不合适的词

words=pseg.cut(single)
        for w in words:
            if(w.flag=='nr')

参考电视猫中的人物关系图，单独制作了主要人物词典

#主要人物 姓名词典
pdict={'明玉':['明玉','苏明玉','苏总'],'朱丽':['朱丽','丽丽'],'明哲':['明哲','苏明哲','大哥'],
       '明成':['明成','苏明成','大哥'],'苏大强':['苏大强','老爹','爸'],'吴非':['吴非'],'苏家':['苏家'],
       '宝宝':['宝宝'],'老蒙':['老蒙','蒙总'],'小蒙':['小蒙'],'天冬':['天冬','石天冬','石大哥'],
       '柳青':['柳青'],'蔡根花':['蔡根花'],'钟点工':['钟点工'],'温玮光':['温玮光','温总'],'苏母':['苏母']}

#判断na是哪个人物
def getPerson(na):
    for key,value in pdict.items():
        if(na in value):
            return str(key)
    return '无'

2.2计算人物相互出现的频数

（1）首先初始化一个16×16的人物频数0矩阵。
（2）在小说的每一段中，当这一段中出现了词典中的人物时，就把出现的人物两两对应的频数+1。
（3）遍历频数矩阵的右上半边（或左下半边）获得人物两两之间的频数。

# 计算人物相互出现的频数 保存成顶点-权重
def getPeopleNetwork():
    plist=list(pdict.keys())
    N=len(plist)
    pcount=np.zeros([N,N])
    #初始化 人物频数 二维矩阵
    pcount=pd.DataFrame(data=pcount,columns=plist,index=plist)
   
    #遍历每一段，出现的人物 频数+1
    for sentence in content:
        s_plist=[]#出现的人物集合
        words=jieba.cut(sentence)
        for w in words:
            if(getPerson(w)!='无' and getPerson(w) not in s_plist):
                s_plist.append(getPerson(w))
        #根据出现的人物集合 进行频数+1
        for p1 in s_plist:
            for p2 in s_plist:
                pcount.loc[p1][p2]+=1

    #保存频数二维矩阵
    pcount.to_excel('./data/人物频数矩阵.xlsx')
    print('w ok')

    #根据频数二维矩阵 计算 人物1-人物2-权重
    p_network=[]
    for i in np.arange(N):
        for j in np.arange(i+1,N):
            p_network.append([plist[i],plist[j],pcount.iloc[i,j]])

    #保存 边-权重
    p_network=pd.DataFrame(data=p_network,columns=['人物1','人物2','count'])
    p_network.to_excel('./data/权重.xlsx')
    print('w ok')

3绘制人物关系图

节点越大，代表该人物越重要。根据频数范围（400，200，100，30），将边划分成五个程度，红蓝黄紫橙，关系依次减弱。

一共有5条出现次数超过400的关系，其中3条关系是明哲、明成、明玉这三兄妹之间的关系，另外两条是明成、明玉和各自配偶的关系；而苏大强和三位子女的关系也较强，均超过200次，稍弱于三兄妹之间的关系。这表明《都挺好》小说主要围绕三兄妹和父亲进行剧情发展，这也符合我们的实际认知。

#画出第c1-c2章的社交网络图
def drawNetwork(c1,c2):
    data=pd.DataFrame(pd.read_excel('./data/权重-.xlsx',sheet_name=0)) 
    #data=data[data['人物1']!=data['人物2']]
    data=data[(data['chapter']>=c1)&(data['chapter']<=c2)]
    data=data.groupby([data['人物1'],data['人物2']])['count'].sum().reset_index()
    data=data[data['count']!=0]
    G=nx.Graph()
    for index,item in data.iterrows():
        G.add_weighted_edges_from([(item['人物1'],item['人物2'],item['count'])])
    pos = nx.spring_layout(G)
    nx.draw_networkx_labels(G,pos,font_size=11,font_family='simhei')#画标签
    nx.draw_networkx_nodes(G,pos,nodelist=list(nx.algorithms.pagerank(G).keys()),node_size=[x*3000 for x in list(nx.algorithms.pagerank(G).values())],node_color='lightgreen') 

    if(c1==1 and c2==40):
        #不同联系强度的边集合 
        degree1=[(x,y) for (x,y,z)in G.edges(data=True) if z['weight']<30]
        degree2= [(x, y) for (x, y, z) in G.edges(data=True) if 30<=z['weight'] < 100]
        degree3= [(x, y) for (x, y, z) in G.edges(data=True) if 100<=z['weight'] < 200]
        degree4= [(x, y) for (x, y, z) in G.edges(data=True) if 200<=z['weight'] < 400]
        degree5=[(x,y) for (x,y,z)in G.edges(data=True) if z['weight']>=400]

        #不同强度的边 宽度、颜色 不同
        nx.draw_networkx_edges(G, pos, edgelist=degree1, width=0.5, edge_color='orange')
        nx.draw_networkx_edges(G, pos, edgelist=degree2, width=1.5, edge_color='m')
        nx.draw_networkx_edges(G, pos, edgelist=degree3, width=3, edge_color='yellow')
        nx.draw_networkx_edges(G, pos, edgelist=degree4, width=4, edge_color='cornflowerblue')
        nx.draw_networkx_edges(G,pos,edgelist=degree5,width=6,edge_color='red')
    else:
        for e in G.edges(data=True):
            nx.draw_networkx_edges(G,pos,edgelist=[e],width=e[2]['weight']/10,edge_color='red')
 
    plt.axis('off')
    plt.title('第{}章到第{}章人物关系网络图'.format(c1,c2))
    plt.show()

4重要人物

调用PageRank算法，可以获得每个节点人物的pr值，我们以此值来衡量人物的重要程度。作为该小说的主角，明玉当仁不让位居第一；值得一提的是，三兄妹位于TOP3，三兄妹及其配偶、父亲苏大强七位人物位于TOP7。

 page_ranks = pd.Series(nx.algorithms.pagerank(G)).sort_values()
 page_ranks.plot(kind="barh")
 plt.title('pagerank')
 plt.show()

5社区发现

结果将《都挺好》的剧情人物自动划分成两个社区：社区1是以明玉为代表的其配偶、生意伙伴；社区2是除了明玉以外的苏家人物集合。很明显，明玉由于从小在家里不受喜欢，长大后和整个苏家是联系较弱的（虽然内心还是有爱的）。可见算法生成的结果也是符合情理的。

    #step2 画社区 都在一张图上
    part = community.best_partition(G)
    values = [part.get(node) for node in G.nodes()] #社区
    nx.draw_networkx_nodes(G,pos,alpha=0.6, node_color=values,node_size=400)
    nx.draw_networkx_edges(G,pos,edgelist=G.edges,width=0.5,edge_color='orange')
    nx.draw_networkx_labels(G,pos,font_size=12,font_family='simhei')
    plt.axis('off')
    plt.title('社区发现')
    plt.show()

6人物相关系数

相关系数（x,y）的值代表x和y的联系度，计算方式是x和y都出现的段落/x的段落。图中横着为y，纵着为x。比如人物x和人物y之间共同出现了100次，但是x出现了200次，y出现了1000次；显然y对于x来说更重要，因为y占据了x的50%，而x占据了y的10%。

（1）明玉整体来说对于其他人物来说都比较重要，她对于苏家、小蒙、天冬、柳青、温总的相关系数均超过0.6，除了钟点工和蔡根花，明玉对于其他人的相关系数也较强。
（2）明哲、明成、苏大强对于其他人物来说也较为重要。
（3）和苏大强联系最紧密的三位人物是：明哲-0.48、明成-0.46、明玉-0.33，这表明大儿子和二儿子对于苏大强的重要程度相近，都领先于三女儿对其的重要程度，小说中苏大强跟着二儿子住，一门心思想跟着大儿子去美国享福，所以两人的相关系数最高；这也侧面印证了明玉在苏家不那么受重视。
（4）和明玉联系最紧密的两位人物是明成-0.24和天冬-0.21，和明成联系紧密是因为两人矛盾冲突很大，小说中甚至有明成去殴打明玉的情节；和天冬联系紧密则是因为两人的情侣关系。
（5）有趣的是，对于蔡根花来说，苏大强是其最重要人物，相关系数高达0.65；作为苏大强的保姆，两人的黄昏恋可以说是让人啼笑皆非，在电视剧热播之后“蔡根花宝贝”、“图你年纪大、图你不洗澡”也成为流行一时的梗。

#人物相关系数
def getPeopleRelation():
    pcount=pd.DataFrame(pd.read_excel('./data/人物频数矩阵.xlsx',sheet_name=0,index_col=0))#第0列作索引
    N=pcount.shape[0]
    secondmax=0
    for i in np.arange(N):
        count=pcount.iloc[i][i]
        for j in np.arange(N):
            pcount.iloc[i,j]/=count
            #if(pcount.iloc[i,j]>secondmax and pcount.iloc[i,j]!=1):
            #    secondmax=pcount.iloc[i,j]
    print(pcount)
    ax = plt.axes() 
    im = ax.imshow(pcount,cmap=plt.cm.summer,interpolation='none',vmin=0,vmax=0.6,aspect='equal')#vmax如果是1，图会很稀疏
    plt.colorbar(im, shrink=0.5)
    plt.xticks(np.arange(N),list(pcount.index))
    plt.yticks(np.arange(N),list(pcount.index))
    plt.title('人物相关系数矩阵')
    plt.show()
    pcount.to_excel('./data/人物相关系数矩阵.xlsx')
    print('w ok')

7随时间变化的人物关系

下载得到的《都挺好》小说中有40章，每一章的标题都以对应的数字显示，因此可以计算人物频数时，再加一列数字来表明是第几章。我以每5章为一时间段，制作八个时间段的人物关系网络图。

比如以上面两张图为例，分别是1-5章和6-10章的人物关系网络图。可以看出：前5章就主要是三兄妹家庭之间的联系；而6-10章明玉与天冬、柳青、老蒙的联系突然增强，可能这几章在讲明玉与苏家之间的关系的同时，也兼顾讲述了明玉工作上的情况，所以这些生意伙伴的联系突然增多。

为了显示某两个人物随时间变化的关系，我重新计算八个时间段内的某两个人物的出现次数和相关系数,挑选以下几个进行说明。

（1）明玉对于苏大强的相关系数
从第2时间段的0.2左右开始，明玉对于苏大强的相关系数一直随时间增加到第7时间段的0.45左右，最后一个时间段稍微减少至0.4左右；这表明明玉对于苏大强的重要性在前期较弱，但是随着时间发展，明玉越来越重要，直到最后重要性比第2时间段的重要性多了1倍；由于结局是明玉照顾得了老年痴呆的苏大强，所以明显在后面几个时间段，明玉对于苏大强的关联都较强。

（2）朱丽对于明成的相关系数
从第5时间段的峰值0.6左右开始逐渐减弱，直至最后的0.1左右；这与小说中两人关系破裂最终离婚的剧情也是相符合的。

#获取人物关系随时间变化
def getTimePeople(p1,p2):
    data=pd.DataFrame(pd.read_excel('./data/权重-.xlsx',sheet_name=0)) 
    y=[] #相关系数
    y1=[]#p1出现次数
    y2=[]#p1 p2共同出现次数
    for c in np.arange(1,40,5): 
        mdata=data[(data['chapter']>=c)&(data['chapter']<=c+4)]
        mdata=mdata.groupby([mdata['人物1'],mdata['人物2']])['count'].sum().reset_index()
        mdata=mdata[(mdata['人物1']==p1)|(mdata['人物2']==p1)]
        for index,item in mdata[(mdata['人物1']==p1)&(mdata['人物2']==p1)].iterrows():
            count=item[2]
        y1.append(count)
        mdata=mdata[(mdata['人物1']==p2)|(mdata['人物2']==p2)]
        for index,item in mdata.iterrows():
            y2.append(item[2])
            y.append(item[2]/count if count>0 else 0)
 
    plt.figure()
    plt.subplot(2, 1, 1)
    plt.title('{p2}对于{p1}的相关系数'.format(p2=p2,p1=p1))
    plt.plot(np.arange(1,9),y,color='red')
    plt.subplot(2, 1, 2)
    plt.bar(np.arange(1,9),y1)
    plt.bar(np.arange(1,9),y2)
    plt.legend(labels=['{p1}的出现次数'.format(p1=p1),'{p1}和{p2}共同出现的次数'.format(p1=p1,p2=p2)],loc='best')
    plt.show()

8最后

明玉从被苏家嫌弃的三女儿成长为职场女强人，映证着小说结尾的一句话，“自己过得好，才是一切”。在生活这张复杂网络下，每个人又何尝不是一个节点，不断努力丰富自己，也许才能更自主的选择周围的边和联系程度，也许有一天会发现自己所处的“小世界”一切都挺好。

问题：按照每段中出现了不同的人物，就两两进行频数+1的处理思路，但是这样同时有个问题，就是当一段中出现同一个人物不只一次时的情况如何处理，比如某一段出现了A3次，B2次，C1次：
①本作业中使用的是不重复统计，即AA BB CC AB AC BC BA BC CB的次数都+1；
②但是我个人感觉按次数计算也合理，即AA+3 BB+2 CC+1 AB+6 AC+3 BC+2 BA+6 CA+3 CB+2；刚开始我是这么计算的，进行社区发现之后的结果分成了三个社区：明玉及其生意伙伴；明成、朱丽、钟点工小家庭；明哲、苏大强以及苏家其他的人；当时认为这个社区发现结果很合理，三兄妹直接分成对应的三个社区，但是由于这样处理频数是虚高的，所以还是放弃了这种方法，直接用①方法进行处理。
所以针对人物共同出现频数，我也没有去细究如何处理。

参考文章：
https://blog.csdn.net/blmoistawinde/article/details/85344906
https://blog.csdn.net/csdnnews/article/details/84312510
https://blog.csdn.net/erin_hh/article/details/52938211

扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
那个抄袭的大张伟猫小努
最近一直在追《即刻电音》这个综艺，除了觉得出场节目的音乐制作人有意思之外，也觉得有两个导师挺有趣的（另外一个就忽略了吧）。孙艺兴在上一篇文章里面已经说过了，那么这篇就说说我们的大老师，大张伟吧。其实在节目刚开始大张伟出来的时候，我以为他是属于导师里面来活跃气氛负责搞笑的，毕竟孙艺兴属于卖萌卖傻卖老实的，尚雯婕一般负责装逼耍狠的，而大张伟一贯以来上综艺的形象基本上都是蹦蹦跳跳带动气氛的。谁知道，两期
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
想明白这个问题，你才能写下去文自拾
春节放假的时候，又有一天梦见她，第二天她冒着漫天大雪，傻傻地跑来见我。她说，见见傻傻的我，天很冷，心很暖。她回去后，我写了一篇文章，题目叫——从此梦中只有你。我们没在一起的很长一段时间里，她都在我的心底，一次次出现在我的梦里。我对她说，在一起之前，是胆小且闷骚，在一起之后，我变得不要脸了。不要脸的——去爱你。那文章没写完，火车上，给她看了。我有点小失望，花了好几个小时写，她分分钟就看完，很希望她逐
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【无标题】达瓦达瓦 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
上图为是否色发 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
143234234123432 JhonKI 考研
博客主页：https://blog.csdn.net/2301_779549673欢迎点赞收藏⭐留言如有错误敬请指正！本文由JohnKi原创，首发于CSDN未来很长，值得我们全力奔赴更美好的生活✨文章目录前言111️‍111❤️111111111111111总结111前言111骗骗流量券，嘿嘿111111111111111111111111111️‍111❤️111111111111111总结11
道阻且长，行则将至 sweet橘子
本文参与书香澜梦主题征文“行”文章原创首发，文责自负。我们每一个人都应该有属于自己的愿望或者是理想，人一但有了理想也就算是有了方向，它就会像灯塔一样指引我们前进的方向，哪怕是再远大的理想，如果坚持，那么我相信它就一定有收获。屈原是我最喜欢的一个浪漫主义的诗人，他曾今说过：“路漫漫其修远兮，吾将上下而求索。”人生的道路很长，但是为了实现自己的理想抱负我愿意付出我毕生的精力，只专注这一件事，因为“道阻
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
openssl+keepalived安装部署 _小亦_ 项目部署 keepalived openssl
文章目录OpenSSL安装下载地址编译安装修改系统配置版本Keepalived安装下载地址安装遇到问题安装完成配置文件keepalived运行检查运行状态查看系统日志修改服务service重新加载systemd检查配置文件语法错误OpenSSL安装下载地址考虑到后面设备可能没法连接到外网，所以采用安装包的方式进行部署，下载地址：https://www.openssl.org/source/old/
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
一颗小桃树李蓉乐平市湾头中小学
当“凹”同“洼”的时侯，才读(wa，平声)，他不叫贾平洼(贾，原名贾平娃)，非要写作贾平凹。为了表示对他的尊重，对文学的尊重，对文化人的尊重。如果不是帮闺蜜的儿子修改作文，我也不会发现贾平凹叫贾平娃。以下是摘选他的文章《一棵小桃树》：可我的小桃树儿，一颗“仙桃”的种子，却开得太白了，太淡了，那瓣片儿单薄得似纸做的，没有肉的感觉，没有粉的感觉，像患了重病的少女，苍白白的脸，又偏苦涩涩地笑着。雨还在下
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓