kuronekonano

Python实现可视化界面多线程豆瓣电影信息爬虫，并绘制统计图分析结果

完整代码见链接：https://github.com/kuronekonano/python_scrapy_movie
实现时使用图形界面、多线程、文件操作、数据库编程、网络编程、统计绘图六项技术。
1. 数据采集
（1）用wxPython实现GUI界面，包括登录界面、爬虫界面。爬虫界面上包含：
1）复选框：选择网站页面上要爬取的元素,包括电影名、评论、导演、主演、论坛讨论、电影别名；
2）下拉列表：选择开启几个多线程进行爬虫，选择爬取电影类型，排序方式
3）scrolledtext：爬虫结果汇总，包括运行时间，爬取结果，运行状态，爬取数量等数据；
（2）以豆瓣电影为主页面爬取数据深入页面三个层次。并采取多线程方式实现爬虫。
第一层次：电影分类列表，包括标签热门、最新、经典、可播放、豆瓣高分、冷门佳片、华语、欧美、韩国、日本、动作、喜剧、爱情、科幻、悬疑、恐怖、动画，并有三个可选择电影排列顺序：评价、最新、时间
第二层次：电影的详细信息，包括上映年份、片名、导演、编剧、主演、类型、制片国家地区、语言、上映日期、片长、别名、IMDB编号、评分、评价人数、页面网址
第三层次：包括该电影的短评、论坛讨论标题、爬取电影主演个人信息，包括姓名、性别、星座、出生日期、出生地、职业、简介信息
（3）将爬取的数据存储至数据库中。并将爬虫日志（本次数据采集起止时间、采用的线程数、爬取多少条数据，总共用时多长时间等）写到文件中。

2. 数据分析
数据统计分析：
分析爬取的数据中悬疑类、剧情类、恐怖类的电影所占比例是多少，并用直方图、饼图展示结果。
对爬取过程中产生的数据进行分析：
同样为3线程数条件下，爬取数据条数与所用时长间的散点关系图；爬取数据条数同样为40条时，使用线程数与所用时长间的关系图；得出结论，线程数一定时，时间与数量成正比，数量一定时，线程数和时间成反比。

这个程序是我们期末Python大作业的要求。

其实很大程度上的要求是一学期以来做的各种作业，相当于把一学期的作业整合起来做个大的东西。

可是在程序结构上从零开始还是毫无头绪的。

首先分为大致几个结构：

登陆界面的图形化专门在Login_to_Spider.py中实现

接下来因为要用到网络编程技术，因此将爬虫程序和图形化界面程序分开，分别作为服务器端和客户端来处理。
即爬虫程序：服务器端调用，在KuroNeko_Spider_Server.py中实现
爬虫图形化界面：客户端启动，在KuroNeko_Spider_GUI.py中实现

爬虫实现具体方法：Spider_Engine.py

统计图分析结果的图片存储：Save_Show_Pic.py

大致的结构定位，用户登录到客户端中，然后根据客户端界面内的选项设置爬取要求，确定并点击【开始爬虫】按钮后，由客户端整理用户设置的信息，通过socket通信传送至服务器端，服务器端调用爬虫程序，开启多线程爬虫，在爬虫程序中将爬取结果存储到数据库内，并通过socket通信实时反馈给客户端，显示在客户端界面中。最后多个线程完成爬虫任务，给客户端返回结束信息，客户端记录完成时间，并写入日志，一次爬虫操作结束。

在客户端中还直接整合了统计结果绘制统计图的功能。

流程图如下:

客户端的总体功能结构如下：

服务器端调用爬虫程序的框架如下：

以上即确定了程序将要实现的大体结构功能等内容，依据这个可行结构完成实现整个程序。

那么首先要面对的即是图形化界面的代码怎么写，首先，python中用户实现图形化界面的包有两种，即tkinter和wxpython，tkinter说实话是比较好实现的，调用也十分灵活，但是在规模很大的程序上，wxpython有wxFormBuilder这种方便的可视化软件进行设计，自动生成代码，粘上去就可用，因此最后确定使用wxpython来实现。

至于登陆如何实现，在理解代码的基础上，我们都知道所谓登陆注册功能其实就是对数据库中用户表的插入和查询。再完善一些容错处理即可【如未输入密码，输入格式错误等】。

# -*- coding: utf-8 -*-

###########################################################################
## Python code generated with wxFormBuilder (version Jun 17 2015)
## http://www.wxformbuilder.org/
## by Kuroneko
## PLEASE DO "NOT" EDIT THIS FILE!
###########################################################################
import pymysql
import wx
import wx.xrc

###########################################################################
## Class loginFrame
###########################################################################
import KuroNeko_Spider_GUI

class loginFrame ( wx.Frame ):

    def __init__( self, parent ):#框体布局
        wx.Frame.__init__ ( self, parent, id = wx.ID_ANY, title = u"KuroNeko_Client——欢迎", pos = wx.DefaultPosition, size = wx.Size( 289,153 ), style = wx.DEFAULT_FRAME_STYLE|wx.TAB_TRAVERSAL )

        self.SetSizeHints( wx.DefaultSize, wx.DefaultSize )
        self.SetBackgroundColour(wx.Colour(170, 255, 170))
        fgSizer6 = wx.FlexGridSizer( 0, 2, 0, 0 )
        fgSizer6.SetFlexibleDirection( wx.BOTH )
        fgSizer6.SetNonFlexibleGrowMode( wx.FLEX_GROWMODE_SPECIFIED )

        self.username_text = wx.StaticText( self, wx.ID_ANY, u"用户名:", wx.DefaultPosition, wx.Size( 100,-1 ), 0 )#用户名标签
        self.username_text.Wrap( -1 )
        self.username_text.SetFont( wx.Font( 16, 70, 90, 90, False, "黑体" ) )
        self.username_text.SetForegroundColour(wx.Colour(255, 128, 0 ))

        fgSizer6.Add( self.username_text, 0, wx.ALL|wx.ALIGN_RIGHT, 5 )

        self.username = wx.TextCtrl( self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.Size( 150,-1 ), 0 )#用户名文本框
        fgSizer6.Add( self.username, 0, wx.TOP|wx.BOTTOM|wx.LEFT, 5 )

        self.password_text = wx.StaticText( self, wx.ID_ANY, u"密码:", wx.DefaultPosition, wx.Size( 100,-1 ), 0 )#密码标签
        self.password_text.Wrap( -1 )
        self.password_text.SetFont( wx.Font( 16, 70, 90, 90, False, "黑体" ) )
        self.password_text.SetForegroundColour(wx.Colour(180, 89, 219 ))

        fgSizer6.Add( self.password_text, 0, wx.ALL|wx.ALIGN_RIGHT, 5 )

        self.password = wx.TextCtrl( self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.Size( 150,-1 ), wx.TE_PASSWORD )#密码文本框
        fgSizer6.Add( self.password, 0, wx.ALL, 5 )

        self.login = wx.Button( self, wx.ID_ANY, u"登录", wx.DefaultPosition, wx.Size( 80,-1 ), wx.NO_BORDER )#登陆按钮
        self.login.SetFont( wx.Font( 12, 75, 90, 90, False, "黑体" ) )
        self.login.SetBackgroundColour(wx.Colour(170, 255, 170))
        self.login.SetForegroundColour(wx.Colour(255, 94, 94))

        fgSizer6.Add( self.login, 0, wx.ALL|wx.ALIGN_RIGHT, 5 )

        self.register = wx.Button( self, wx.ID_ANY, u"注册", wx.DefaultPosition, wx.Size( 80,-1 ), wx.NO_BORDER )#注册按钮
        self.register.SetFont( wx.Font( 12, 75, 90, 90, False, "黑体") )
        self.register.SetBackgroundColour(wx.Colour(170, 255, 170))
        self.register.SetForegroundColour(wx.Colour(128, 128, 255))

        fgSizer6.Add( self.register, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL, 5 )


        self.SetSizer( fgSizer6 )
        self.Layout()

        self.Centre( wx.BOTH )

        # Connect Events
        self.login.Bind( wx.EVT_BUTTON, self.loginFunc )#登陆按钮监听
        self.register.Bind( wx.EVT_BUTTON, self.registerFunc )#注册按钮监听

    def __del__( self ):
        pass


    # Virtual event handlers, overide them in your derived class
    def loginFunc( self, event ):#登录
        try:#链接数据库
            conn = pymysql.connect(host='localhost',user='root',password='970922',db='mytest')
            cur = conn.cursor()
        except:
            wx.MessageBox('数据库连接错误')
            return

        username = self.username.GetValue()#获取用户输入的用户名
        password = self.password.GetValue()#获取输入的密码
        if username == "" and password == "":
            wx.MessageBox('用户名密码不能为空',caption="错误提示")
            return

        try:
            sql = 'select * from pyuser where user_name="%s"' %(username)#查询数据库用户表
            cur.execute(sql)
            conn.commit()
        except:
            wx.MessageBox('系统错误',caption="错误提示")

        user = cur.fetchone()
        if user == None:#用户名查询为空
            wx.MessageBox('用户不存在',caption="错误提示")
            self.username.Clear()
            self.password.Clear()
            return

        if username == user[0] and password == user[1]:#查询到用户名并与密码匹配
            wx.MessageBox("登陆成功",caption="登陆成功")
            spiderClient = KuroNeko_Spider_GUI.SpiderClient(None)
            self.Show(False)
            spiderClient.Show(True)
        else:#查询到用户名却与密码不匹配
            wx.MessageBox('用户名或者密码错误',caption="错误提示")
            self.username.Clear()
            self.password.Clear()
            return


    def registerFunc( self, event ):#注册
        try:#链接数据库
            conn = pymysql.connect(host='localhost',user='root',password='970922',db='mytest',port=3306,charset='utf8')
            cur = conn.cursor()
        except:
            wx.MessageBox('数据库连接错误')
            return

        username = self.username.GetValue()
        password = self.password.GetValue()
        if username == "" and password == "":#错误处理
            wx.MessageBox('用户名密码不能为空',caption="错误提示")
            return

        sql = 'insert into pyuser values("%s","%s")' %(username,password)
        try:
            cur.execute(sql)
            conn.commit()
            wx.MessageBox('注册成功')#插入用户输入的用户名和密码到数据库中
            self.username.Clear()
            self.password.Clear()
        except:
            conn.rollback()
            wx.MessageBox('用户名已经存在')#用户名作为主键的数据已经存在，报错
            self.username.Clear()
            self.password.Clear()


if __name__=='__main__':#测试
    app = wx.App()
    LoginFrame = loginFrame(None)
    LoginFrame.Show()
    app.MainLoop()

运行后实现效果：

整体B/S（客户端/服务器端）结构
使用wxpython实现登陆，包括用户名标签，用户名输入文本框，密码标签，密码输入文本框，登陆按钮、注册按钮。在输入相关信息后，点击登陆即链接数据库查询用户名与密码，并判断是否匹配，匹配则调用客户端窗口，否则提示“账号密码错误”。点击注册即可向数据库中插入用户名与密码，并查询是否存在相同用户名，若已存在提示“该用户名已存在”，并可以重新输入用户名与密码进行注册。
客户端输入账号密码登陆后进入，整体框架上客户端和服务器端没有代码相互调用上的直接关系。而是由客户端整合用户选择的数据要求通过socket发送至服务器端，由服务器端调用并运行爬虫程序，并将结果存储后发送回客户端。

接下来是客户端界面的实现：

# -*- coding: utf-8 -*-

###########################################################################
## Python code generated with wxFormBuilder (version Jun 17 2015)
## http://www.wxformbuilder.org/
## by KuroNeko
## PLEASE DO "NOT" EDIT THIS FILE!
###########################################################################
import pickle
import socket
import threading
import matplotlib
import numpy as np
import matplotlib.pyplot as plt
import datetime
import pymysql
import xlwt as ExcelWrite
from xlwt import Borders, XFStyle, Pattern
import wx
import wx.xrc
import os
lock_flag = threading.Lock()
###########################################################################
## Class SpiderClient
###########################################################################
import Save_Show_Pic
import KuroNeko_Spider_Server
class SpiderClient ( wx.Frame ):

    def __init__( self, parent ):
        wx.Frame.__init__ ( self, parent, id = wx.ID_ANY, title = u"KuroNeko-Spider_Client", pos = wx.DefaultPosition, size = wx.Size( 605,755 ), style = wx.DEFAULT_FRAME_STYLE|wx.TAB_TRAVERSAL )
        #主窗口
        self.toltime = 0

        self.SetSizeHints( wx.DefaultSize, wx.DefaultSize )
        self.SetBackgroundColour(wx.Colour(255, 255, 168))

        bSizer5 = wx.BoxSizer( wx.VERTICAL )

        fgSizer7 = wx.FlexGridSizer( 0, 2, 0, 0 )
        fgSizer7.SetFlexibleDirection( wx.BOTH )
        fgSizer7.SetNonFlexibleGrowMode( wx.FLEX_GROWMODE_SPECIFIED )

        self.url_label = wx.StaticText( self, wx.ID_ANY, u"By KuroNeko", wx.DefaultPosition, wx.Size( 100,-1 ), 0 )#地址栏标签
        self.url_label.Wrap( -1 )
        self.url_label.SetFont( wx.Font( 12, 70, 90, 90, False, "Tempus Sans ITC" ) )

        fgSizer7.Add( self.url_label, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.movie_url = wx.TextCtrl( self, wx.ID_ANY, u"豆瓣电影————https://movie.douban.com/", wx.DefaultPosition, wx.Size( 400,-1 ), wx.TE_READONLY )#地址栏文本框
        self.movie_url.SetBackgroundColour(wx.Colour(255, 255, 168))
        self.movie_url.SetFont(wx.Font(12, 70, 90, 90, False, "Tempus Sans ITC"))
        fgSizer7.Add( self.movie_url, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )


        bSizer5.Add( fgSizer7, 0, 0, 5 )

        fgSizer2 = wx.FlexGridSizer( 0, 8, 0, 0 )
        fgSizer2.SetFlexibleDirection( wx.BOTH )
        fgSizer2.SetNonFlexibleGrowMode( wx.FLEX_GROWMODE_SPECIFIED )

        self.type_label = wx.StaticText( self, wx.ID_ANY, u"类别:", wx.DefaultPosition, wx.DefaultSize, 0 )#类别标签
        self.type_label.Wrap( -1 )
        self.type_label.SetFont( wx.Font( 12, 70, 90, 90, False, "黑体" ) )

        fgSizer2.Add( self.type_label, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )
        #电影分类下拉框
        movie_typeChoices = [ u"热门", u"最新", u"经典", u"可播放", u"豆瓣高分", u"冷门佳片", u"华语", u"欧美", u"韩国",u"日本", u"动作", u"喜剧", u"爱情", u"科幻", u"悬疑", u"恐怖", u"动画" ]
        self.movie_type = wx.Choice( self, wx.ID_ANY, wx.DefaultPosition, wx.DefaultSize, movie_typeChoices, 0 )
        self.movie_type.SetSelection( 0 )
        self.movie_type.SetFont( wx.Font( 11, 70, 90, 90, False, "幼圆" ) )
        self.movie_type.SetBackgroundColour(wx.Colour(165, 253, 142))
        self.movie_type.SetForegroundColour(wx.Colour(243, 31, 222))

        fgSizer2.Add( self.movie_type, 0, wx.ALL|wx.ALIGN_CENTER_VERTICAL|wx.ALIGN_CENTER_HORIZONTAL, 5 )

        self.sort_way = wx.StaticText( self, wx.ID_ANY, u"排序:", wx.DefaultPosition, wx.DefaultSize, 0 )#排序方式标签
        self.sort_way.Wrap( -1 )
        self.sort_way.SetFont( wx.Font( 12, 70, 90, 90, False, "黑体" ) )

        fgSizer2.Add( self.sort_way, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        movie_sortChoices = [ u"热度", u"时间", u"评价" ]#排序方式下拉框
        self.movie_sort = wx.Choice( self, wx.ID_ANY, wx.DefaultPosition, wx.DefaultSize, movie_sortChoices, 0 )
        self.movie_sort.SetSelection( 0 )
        self.movie_sort.SetFont( wx.Font( 11, 70, 90, 90, False, "幼圆" ) )
        self.movie_sort.SetBackgroundColour(wx.Colour(255, 255, 168))
        self.movie_sort.SetForegroundColour(wx.Colour(243, 31, 222))

        fgSizer2.Add( self.movie_sort, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.thread_label = wx.StaticText( self, wx.ID_ANY, u"线程数:", wx.DefaultPosition, wx.DefaultSize, 0 )#线程数标签
        self.thread_label.Wrap( -1 )
        self.thread_label.SetFont( wx.Font( 12, 70, 90, 90, False, "黑体" ) )

        fgSizer2.Add( self.thread_label, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        threadNumChoices = [ u"1", u"2", u"3", u"4", u"5",u"6",u"7" ]#线程数量下拉框
        self.threadNum = wx.Choice( self, wx.ID_ANY, wx.DefaultPosition, wx.DefaultSize, threadNumChoices, 0 )
        self.threadNum.SetSelection( 2 )#初始化下拉选项
        self.threadNum.SetFont(wx.Font(13, 70, 90, 92, False, "幼圆"))
        self.threadNum.SetForegroundColour(wx.Colour(243, 31, 222))
        self.threadNum.SetBackgroundColour(wx.Colour(192, 243, 241))

        fgSizer2.Add( self.threadNum, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.page_label = wx.StaticText( self, wx.ID_ANY, u"页数:", wx.DefaultPosition, wx.DefaultSize, 0 )#页数标签
        self.page_label.Wrap( -1 )
        self.page_label.SetFont( wx.Font( 12, 70, 90, 90, False, "黑体" ) )

        fgSizer2.Add( self.page_label, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.pageNum = wx.TextCtrl( self, wx.ID_ANY, "1", wx.DefaultPosition, wx.Size( 35,-1 ), wx.TE_CENTRE )#输入页数文本框
        fgSizer2.Add( self.pageNum, 0, wx.ALL, 5 )


        bSizer5.Add( fgSizer2, 0, 0, 5 )

        fgSizer3 = wx.FlexGridSizer( 0, 5, 0, 0 )
        fgSizer3.SetFlexibleDirection( wx.BOTH )
        fgSizer3.SetNonFlexibleGrowMode( wx.FLEX_GROWMODE_SPECIFIED )

        self.get_way = wx.StaticText(self, wx.ID_ANY, u"执行方式：", wx.DefaultPosition, wx.DefaultSize, 0)
        self.get_way.Wrap(-1)
        self.get_way.SetFont(wx.Font(12, 70, 90, 90, False, "黑体"))

        fgSizer3.Add(self.get_way, 0, wx.ALL | wx.ALIGN_CENTER_HORIZONTAL | wx.ALIGN_CENTER_VERTICAL, 5)

        query_typeChoices = [u"快速爬虫", u"完整爬虫"]
        self.query_type = wx.Choice(self, wx.ID_ANY, wx.DefaultPosition, wx.DefaultSize, query_typeChoices, 0)
        self.query_type.SetSelection(0)
        self.query_type.SetFont(wx.Font(12, 70, 90, 90, False, "幼圆"))
        self.query_type.SetForegroundColour(wx.Colour(255, 0, 0))
        self.query_type.SetBackgroundColour(wx.Colour(228, 202, 255))

        fgSizer3.Add(self.query_type, 0, wx.ALL | wx.ALIGN_CENTER_HORIZONTAL | wx.ALIGN_CENTER_VERTICAL, 5)

        self.start = wx.Button( self, wx.ID_ANY, u"开始爬虫✔", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER )#启动爬虫按钮start
        self.start.SetFont( wx.Font( 12, 70, 90, 90, False, "幼圆" ) )
        self.start.SetBackgroundColour(wx.Colour(165, 253, 142))
        self.start.SetForegroundColour(wx.Colour(243, 31, 222))

        fgSizer3.Add( self.start, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.export = wx.Button( self, wx.ID_ANY, u"导出数据♋", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER )#导出数据按钮export
        self.export.SetFont( wx.Font( 12, 70, 90, 90, False, "幼圆" ) )
        self.export.SetBackgroundColour(wx.Colour(183, 245, 253))
        self.export.SetForegroundColour(wx.Colour(243, 31, 222))

        fgSizer3.Add( self.export, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )

        self.analyze = wx.Button( self, wx.ID_ANY, u"数据分析图♐", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER )#分析数据按钮analyze
        self.analyze.SetFont( wx.Font( 12, 70, 90, 90, False, "幼圆" ) )
        self.analyze.SetForegroundColour(wx.Colour(177, 37, 218))
        self.analyze.SetBackgroundColour(wx.Colour(255, 187, 119))

        fgSizer3.Add( self.analyze, 0, wx.ALL|wx.ALIGN_CENTER_VERTICAL|wx.ALIGN_CENTER_HORIZONTAL, 5 )

        self.analyze2 = wx.Button(self, wx.ID_ANY, u"线程散点图♌", wx.DefaultPosition, wx.DefaultSize, wx.NO_BORDER)  # 分析数据按钮analyze
        self.analyze2.SetFont(wx.Font(12, 70, 90, 90, False, "幼圆"))
        self.analyze2.SetForegroundColour(wx.Colour(255, 0, 0))
        self.analyze2.SetBackgroundColour(wx.Colour(228, 202, 255))

        fgSizer3.Add(self.analyze2, 0, wx.ALL | wx.ALIGN_CENTER_VERTICAL | wx.ALIGN_CENTER_HORIZONTAL, 5)

        self.clear = wx.Button(self, wx.ID_ANY, u"✘清空✘", wx.DefaultPosition, wx.DefaultSize,
                                  wx.NO_BORDER)
        self.clear.SetFont(wx.Font(12, 70, 90, 90, False, "幼圆"))
        self.clear.SetForegroundColour(wx.Colour(255, 0, 0))
        self.clear.SetBackgroundColour(wx.Colour(255, 255, 168))
        fgSizer3.Add(self.clear, 0, wx.ALL | wx.ALIGN_CENTER_VERTICAL | wx.ALIGN_CENTER_HORIZONTAL, 5)


        bSizer5.Add( fgSizer3, 0, 0, 5 )

        fgSizer4 = wx.FlexGridSizer( 0, 1, 0, 0 )
        fgSizer4.SetFlexibleDirection( wx.BOTH )
        fgSizer4.SetNonFlexibleGrowMode( wx.FLEX_GROWMODE_SPECIFIED )

        self.log_text = wx.TextCtrl( self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.Size( 575,520 ), wx.TE_MULTILINE )
        fgSizer4.Add( self.log_text, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL|wx.ALIGN_CENTER_VERTICAL, 5 )
        self.log_text.SetFont(wx.Font(9, 75, 90, 90, False, "微软雅黑"))
        self.log_text.SetBackgroundColour(wx.Colour(211, 243, 203))

        bSizer5.Add( fgSizer4, 0, 0, 5 )

        self.m_staticText_select = wx.StaticText(self, wx.ID_ANY, u"选择内容:",(70,400), wx.DefaultSize, 0)  # 内容标签
        self.m_staticText_select.Wrap(-1)
        self.m_staticText_select.SetFont(wx.Font(12, 70, 90, 90, False, "黑体"))
        fgSizer2.Add(self.m_staticText_select, 0, wx.ALL | wx.ALIGN_CENTER_HORIZONTAL | wx.ALIGN_CENTER_VERTICAL, 5)

        self.turn_off=wx.CheckBox(self,label="关灯",pos=(530,25))
        self.turn_off.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.turn_off.SetForegroundColour(wx.Colour(0,0,0))
        self.turn_off.Bind(wx.EVT_CHECKBOX,self.onChecked)#关灯事件监听

        self.movie_name_check = wx.CheckBox(self, label='电影名', pos=(100,75))
        self.movie_name_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_name_check.SetForegroundColour(wx.Colour( 255, 0, 0 ))
        self.movie_comment_check = wx.CheckBox(self, label='评论', pos=(180,75))
        self.movie_comment_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_comment_check.SetForegroundColour(wx.Colour( 255, 128, 0 ))
        self.movie_director_check = wx.CheckBox(self, label='导演', pos=(240,75))
        self.movie_director_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_director_check.SetForegroundColour(wx.Colour( 6, 18, 249 ))
        self.movie_actor_check = wx.CheckBox(self, label='主演', pos=(310,75))
        self.movie_actor_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_actor_check.SetForegroundColour(wx.Colour( 0, 128, 0 ))
        self.movie_discussion_check = wx.CheckBox(self, label='论坛讨论', pos=(390,75))
        self.movie_discussion_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_discussion_check.SetForegroundColour(wx.Colour( 7, 170, 248 ))
        self.movie_anothername_check = wx.CheckBox(self, label='电影别名', pos=(480,75))
        self.movie_anothername_check.SetFont(wx.Font(10, 70, 90, 90, False, "黑体"))
        self.movie_anothername_check.SetForegroundColour(wx.Colour( 128, 0, 255 ))
        self.movie_name_check.SetValue(1)
        self.movie_comment_check.SetValue(1)
        self.movie_director_check.SetValue(1)
        self.movie_actor_check.SetValue(1)
        self.movie_discussion_check.SetValue(1)
        self.movie_anothername_check.SetValue(1)
        self.SetSizer( bSizer5 )
        self.Layout()

        self.Centre( wx.BOTH )

        # Connect Events
        self.start.Bind( wx.EVT_BUTTON, self.startSpider )#点击触发事件，此处是调用类中开始爬虫函数事件
        self.export.Bind( wx.EVT_BUTTON, self.exportData )#导出事件监听
        self.analyze.Bind( wx.EVT_BUTTON, self.analyzeData )#电影数据分析监听
        self.analyze2.Bind( wx.EVT_BUTTON, self.analyzeData2 )#日志数据分析监听
        self.clear.Bind(wx.EVT_BUTTON,self.Clear_log)

        #movie_type [ u"热门", u"最新", u"经典", u"可播放", u"豆瓣高分", u"冷门佳片", u"华语", u"欧美", u"韩国",u"日本", u"动作", u"喜剧", u"爱情", u"科幻", u"悬疑", u"恐怖", u"动画" ]
        self.movie_type_list = [
                        '%E7%83%AD%E9%97%A8',
                        '%E6%9C%80%E6%96%B0',
                        '%E7%BB%8F%E5%85%B8',
                        '%E5%8F%AF%E6%92%AD%E6%94%BE',
                        '%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86',
                        '%E5%86%B7%E9%97%A8%E4%BD%B3%E7%89%87',
                        '%E5%8D%8E%E8%AF%AD',
                        '%E6%AC%A7%E7%BE%8E',
                        '%E9%9F%A9%E5%9B%BD',
                        '%E6%97%A5%E6%9C%AC',
                        '%E5%8A%A8%E4%BD%9C',
                        '%E5%96%9C%E5%89%A7',
                        '%E7%88%B1%E6%83%85',
                        '%E7%A7%91%E5%B9%BB',
                        '%E6%82%AC%E7%96%91',
                        '%E6%81%90%E6%80%96',
                        '%E5%8A%A8%E7%94%BB'
                        ]
        #movie_sort
        self.movie_sort_list = ['recommend','time','rank']
        self.log_text.SetForegroundColour(wx.Colour(24, 50, 226))
        self.log_text.AppendText('>>>>>>>>>>>>>>>>\n')
        self.log_text.AppendText('(๑°3°๑)小可爱正在满世界找服务器(｡>∀<｡)...\n')
        self.s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
        try:
            self.s.connect(('localhost',12306))
            self.log_text.AppendText("\n找到辣辣辣辣get！٩( 'ω' )و ！！！！！！！\n")
            self.log_text.AppendText("<<<<<<<<<<<<<<<<\n")
        except:
            self.s = None
            print("error：没找到服务器，可能你没开")
            self.log_text.AppendText("\n（╯‵□′）╯︵┴─┴  ...\n")
            self.log_text.AppendText("┴─┴︵╰（‵□′╰）    ...\n")
            self.log_text.AppendText("竟然没找到!!!∑(°Д°ノ)ノ！！！等会儿再试试(ó﹏ò｡)\n")
            self.log_text.AppendText("<<<<<<<<<<<<<<<<\n")
            return

以上是客户端界面的标签及功能按键的位置布置

以下即客户端各部分功能实现：

以下代码包括：
1.清空数据显示文本框
2.关灯
3.启动爬虫程序

 def __del__( self ):
     pass

 def Clear_log(self,e):#清空内容显示文本框
     self.log_text.Clear()
 def onChecked(self,e):#关灯
     flag=self.turn_off.GetValue()
     if flag:
         self.SetBackgroundColour(wx.Colour(64, 64, 64))
         self.log_text.SetBackgroundColour(wx.Colour(96, 96, 96))
         self.movie_url.SetBackgroundColour(wx.Colour(264, 64, 64))
     else:
         self.SetBackgroundColour(wx.Colour(255, 255, 168))
         self.log_text.SetBackgroundColour(wx.Colour(211, 243, 203))
         self.movie_url.SetBackgroundColour(wx.Colour(255, 255, 168))

 # Virtual event handlers, overide them in your derived class
 def startSpider( self, event ):#点击并开始爬虫，此事件仅仅是为开始爬虫做准备，包括爬虫要求的整理，服务器的链接校验，直到最后才调用了真正启动爬虫的线程
     page_info = []#用于收集要传送的到爬虫服务器的选择信息
     if self.pageNum.GetValue() == "":#若未能获取到爬取页数，显示错误提示
         wx.MessageBox('请输入页数',caption="错误提示")
         return
     if int(self.pageNum.GetValue()) <= 0:#若输入页数格式错误，显示错误提示
         wx.MessageBox('页数应该大于0',caption="错误提示")
         return
     if self.s == None:#若链接超时则重新链接
         self.log_text.AppendText('>>>>>>>>>>>>>>>>\n')
         self.log_text.AppendText('(๑°3°๑)小可爱又在满世界找服务器(｡>∀<｡)...\n')
         self.s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
         try:
             self.s.connect(('localhost',12306))
             self.log_text.AppendText("\n找到辣辣辣辣get！٩( 'ω' )و ！！！！！！！\n")
             self.log_text.AppendText("<<<<<<<<<<<<<<<<\n")
         except:
             self.log_text.SetForegroundColour(wx.Colour(255, 0, 0))
             self.s = None
             print("error：没找到服务器，可能你没开")
             self.log_text.AppendText("\n（╯‵□′）╯︵┴─┴  ...\n")
             self.log_text.AppendText("┴─┴︵╰（‵□′╰）    ...\n")
             self.log_text.AppendText("竟然没找到!!!∑(°Д°ノ)ノ！！！快去检查服务器开没(ó﹏ò｡)\n")
             self.log_text.AppendText("<<<<<<<<<<<<<<<<\n")
             return
     movie_type = self.movie_type_list[self.movie_type.GetSelection()]#获取输入的电影标签
     movie_sort = self.movie_sort_list[self.movie_sort.GetSelection()]#获取输入的排序方式
     threadNum = self.threadNum.GetString(self.threadNum.GetSelection())#获取输入的线程数
     pageNum = self.pageNum.GetValue()#获取输入的页数
     query_type = self.query_type.GetSelection()#获取爬取方式
     print('标签:',movie_type)#标签
     print('排序方式：',movie_sort)#排序方式
     print('线程数：',threadNum)#线程数
     print('页数：',pageNum)#页数
     print('爬虫方式：',query_type)#采集方式
     # page_info[movie_type,movie_sort,threadNum,pageNum,query_type]
     page_info.append(movie_type)#全部打包到要发送的List中
     page_info.append(movie_sort)
     page_info.append(threadNum)
     page_info.append(pageNum)
     page_info.append(query_type)
     page_info.append(self.movie_name_check.GetValue())#复选框信息
     page_info.append(self.movie_director_check.GetValue())
     page_info.append(self.movie_actor_check.GetValue())
     page_info.append(self.movie_anothername_check.GetValue())
     page_info.append(self.movie_comment_check.GetValue())
     page_info.append(self.movie_discussion_check.GetValue())
     threading.Thread(target=self.showLog,args=(page_info,)).start()#开启新线程调用爬虫程序

此处将用户要求打包通过socket发送到服务器端，之后监听服务器端回传的消息

    def showLog(self,page_info):#真正开始爬虫的函数
        try:
            starttime = datetime.datetime.now()#起始时间
            self.s.sendall(pickle.dumps(page_info))#转化为byte传输
            flag = 0#返回的线程计数
            num=0
            self.log_text.SetForegroundColour(wx.Colour(255, 128, 0))
            while True:
                recv_data=self.s.recv(10240).decode()#接收并转码
                print(recv_data)
                if recv_data == "end":#结束标志
                    flag = flag+1#当一个线程返回end时表示线程结束，所有线程结束时退出循环
                    print(flag,page_info[2])
                    if flag == int(page_info[2]):
                        self.log_text.SetForegroundColour(wx.Colour(128, 0, 255))#结束爬取标志颜色
                        self.log_text.AppendText(recv_data)#在图形界面中显示结束标志
                        break
                    continue
                self.log_text.AppendText(recv_data)#在图形界面中显示电影信息
                num=num+1
            endtime = datetime.datetime.now()#结束时间
            self.toltime =  (endtime - starttime).seconds
            self.log_text.AppendText("\n运行耗时:"+str(self.toltime)+"s\n")

            Clientlog = open('spider_log.txt', 'ba+')#写入日志
            Clientlog.write(str("\t*****爬虫日志*****\t\n").encode('utf-8'))
            Clientlog.write(str("[开始时间]"+str(starttime.strftime('%Y/%m/%d %H:%M:%S'))+'\n').encode('utf-8'))
            Clientlog.write(str("[结束时间]"+str(endtime.strftime('%Y/%m/%d %H:%M:%S'))+'\n').encode('utf-8'))
            Clientlog.write(str("[线程数]"+str(page_info[2])+'\n').encode('utf-8'))
            Clientlog.write(str("[爬取数据量]"+str(num)+'\n').encode('utf-8'));
            Clientlog.write(str("[总耗时]"+str((endtime - starttime).seconds)+'s\n').encode('utf-8'))
            conn = pymysql.connect(host='localhost',user='root',password='970922',db='mytest',port=3306,charset='utf8')
            cur = conn.cursor()
            sql = 'insert into data_log values(null ,"%s","%s","%s")' % (num,(endtime - starttime).seconds,page_info[2])
            cur.execute(sql)
            conn.commit()
        except:
            wx.MessageBox('采集启动失败！！！',caption="错误提示")
        self.s.close()#注意这个链接是爬完一次就直接关掉的，而不是被归到except下面，否则会直接导致第二次爬虫无限等待因为上一次爬虫仍然占用原端口
        self.s = None

4.导出数据功能，即读取本地数据库信息并写入到Excel表格中


    def exportData( self, event ):#导出数据库中电影信息
        savePath = self.GetDesktopPath()+"\\豆瓣电影信息.xls"
        threading.Thread(target=self.writeXls,args=(savePath,)).start()#线程写入Excel表格

    def writeXls(self ,file_name):#写入Excel表格
        movie_list = ['上映年份','片名','导演','编剧','主演','类型','制片国家地区','语言','又名','上映日期','片长','IMDB链接/影片地址','评分','评价人数','页面网址','短评','话题']
        xls = ExcelWrite.Workbook()
        sheet = xls.add_sheet("Sheet1")#写入表1
        style = XFStyle()
        pattern = Pattern()                 # 创建一个模式
        pattern.pattern = Pattern.SOLID_PATTERN     # 设置其模式为实型
        pattern.pattern_fore_colour = 0x16        #设置其模式单元格背景色
        # 设置单元格背景颜色 0 = Black, 1 = White, 2 = Red, 3 = Green, 4 = Blue, 5 = Yellow, 6 = Magenta,  the list goes on...
        style.pattern = pattern
        for i in range(len(movie_list)):#写入首行信息，为表头，表示列名
            sheet.write(0,i,movie_list[i],style)
            sheet.col(i).width = 5240

        actors_list=['姓名','性别','星座','年龄','出生地','职业','简介']
        sheet2=xls.add_sheet("Sheet2")
        style2 = XFStyle()
        style2.pattern = pattern
        for i in range(len(actors_list)):  # 写入首行信息，为表头，表示列名
            sheet2.write(0, i, actors_list[i], style2)
            sheet2.col(i).width = 5140
        try:
            #连接数据库读取数据
            conn = pymysql.connect(host='localhost',user='root',password='970922',db='mytest',port=3306,charset='utf8')
            cur = conn.cursor()
            sql = 'select * from movies'
            cur.execute(sql)
            row = 0
            for movie_info in cur.fetchall():#遍历数据库中每行信息，一行表示一部电影的所有信息
                row = row+1#第0行为表头，不添加数据，因此从第一列开始写入
                for i in range(len(movie_info)-1):#对于一行信息进行遍历，分别存入每列
                    sheet.write(row,i,movie_info[i+1])

            sql = "select id,name,sex,star,date_format(from_days(to_days(now())-to_days(birthday)),'%Y')+0,place,job,message from actors"
            cur.execute(sql)
            row = 0
            for actor_info in cur.fetchall():  # 遍历数据库中每行信息，一行表示一部电影的所有信息
                row = row + 1  # 第0行为表头，不添加数据，因此从第一列开始写入
                for i in range(len(actor_info) - 1):  # 对于一行信息进行遍历，分别存入每列
                    sheet2.write(row, i, actor_info[i + 1])

            xls.save(file_name)#写入完成，存储
            cur.close()
            conn.close()

            wx.MessageBox('数据已导出到桌面！！！',caption="导出成功")
        except:
            wx.MessageBox('数据导出失败！！！',caption="导出失败")

5.数据分析功能，可以分析电影信息以及爬虫日志

	def analyzeData( self, event ):#分析数据，参数为调用 <统计电影类型数量> 的函数
        self.matplotlib_show(self.count_type())
    def analyzeData2(self, event ):#分析数据2,日志信息散点图
        self.matplotlib_show2()
    def GetDesktopPath(self):#获取桌面路径
        return os.path.join(os.path.expanduser("~"), 'Desktop')

    def count_type(self):#统计电影类型数量
        conn = pymysql.connect(host='localhost',user='root',password='970922',db='mytest',port=3306,charset='utf8')
        #从数据库中获取数据
        cur = conn.cursor()
        sql = 'select movie_type from movies'#只查询电影0类型
        cur.execute(sql)
        movie_type_list = []#存储已知的电影类型
        movie_count_type = dict()#定义字典，表示电影类型对应的数量
        for movie_type_row in cur.fetchall():#遍历查询结果
            movie_types = movie_type_row[0]#获取该电影属于哪些分类
            # print(movie_types)
            movie_type_list += movie_types.split("/")#因为一部电影可能属于多种分类，因此用分隔符 ‘/’ 分开，然后将得到的list全部加入类型list中
        for movie_type in movie_type_list:#最后将收集到的所有类型进行字典计数
            if movie_type not in movie_count_type:#如果是字典中不存在的类型，那么计数为初始计数为1
                movie_count_type[movie_type] = 1
            else:
                movie_count_type[movie_type] += 1#否则计数加1
        print(movie_count_type)#输出统计结果
        return movie_count_type#返回字典

    def matplotlib_show(self,movie_count_type):#饼状图、直方图
        #指定默认字体
        plt.cla()
        matplotlib.rcParams['font.sans-serif'] = ['SimHei']
        matplotlib.rcParams['font.family']='sans-serif'
        matplotlib.rcParams['axes.unicode_minus'] = False
        count = []#数量
        category = []#类型
        for movie_type in movie_count_type:#遍历电影类型计数
            count.append(movie_count_type[movie_type])
            category.append(str(movie_type))
        new_count=count
        y_pos = np.arange(len(category))
        plt.bar(y_pos, count, align='center', alpha=0.7)
        plt.xticks(y_pos, category)

        for count, y_pos in zip(count, y_pos):
            plt.text(y_pos, count+0.5, count,  horizontalalignment='center', verticalalignment='center', weight='bold')
        plt.title('电影类别数据分析')#图标标题
        plt.xlabel(u'电影分类')
        plt.subplots_adjust(bottom = 0.15)
        plt.ylabel(u'分类出现次数')

        try:
            savePath = self.GetDesktopPath() + "\\电影类别数据直方图.png"  # 将结果图存储到桌面
            plt.savefig(savePath)
            showDataPic = Save_Show_Pic.ShowDataPic(None,openPath=savePath)
            showDataPic.Show(True)
            # wx.MessageBox('数据图已导出到桌面！！！', caption="导出成功")
        except:
            wx.MessageBox('数据图导出失败！！！', caption="导出失败")
        plt.cla()
        sum_count = sum(new_count)
        sizes = []
        for it in new_count:
            sizes.append(it / sum_count)
        plt.pie(sizes, explode=list(0.1 for x in range(len(sizes))), labels=category, autopct="%.2f%%", shadow=True, startangle=90)
        plt.title(r'电影类型比例饼状图', fontproperties="SimHei", fontsize=15)
        try:
            savePath = self.GetDesktopPath() + "\\电影类别数据饼状图.png"  # 将结果图存储到桌面
            plt.savefig(savePath)
            showDataPic2 = Save_Show_Pic.ShowDataPic(None,openPath=savePath)
            showDataPic2.Show(True)
            wx.MessageBox('数据图已导出到桌面！！！', caption="导出成功")
        except:
            wx.MessageBox('数据图导出失败！！！', caption="导出失败")

    def matplotlib_show2(self):#散点图
        conn = pymysql.connect(host='localhost', user='root', password='970922', db='mytest', port=3306, charset='utf8')
        # 从数据库中获取数据
        cur = conn.cursor()
        sql = 'select thread_num,times from data_log where data_num>=40 and data_num<=42'  # 查询爬取相同数据下，线程与时间关系
        cur.execute(sql)
        thread_nums=[]
        time_cnt=[]
        for it in cur.fetchall():
            thread_nums.append(it[0])
            time_cnt.append(it[1])
        plt.cla()
        matplotlib.rcParams['font.sans-serif'] = ['SimHei']
        matplotlib.rcParams['font.family'] = 'sans-serif'
        plt.title(r'线程数-时间散点图（数据量为40~42时）', fontproperties="SimHei", fontsize=15)

        plt.xlabel('线程数量')
        plt.ylabel('时间')
        plt.xlim(0, 6)
        plt.scatter(thread_nums, time_cnt, s=20, c="#ff1212", marker='*')
        try:
            savePath = self.GetDesktopPath() + "\\线程-时间数据散点图.png"  # 将结果图存储到桌面
            plt.savefig(savePath)
            showDataPic2 = Save_Show_Pic.ShowDataPic(None, openPath=savePath)
            showDataPic2.Show(True)
            # wx.MessageBox('数据图已导出到桌面！！！', caption="导出成功")
        except:
            wx.MessageBox('数据图导出失败！！！', caption="导出失败")

        sql = 'select data_num,times from data_log where thread_num=3'  # 查询爬取相同数据下，线程与时间关系
        cur.execute(sql)
        data_cnt = []
        time_cnt2 = []
        for it in cur.fetchall():
            data_cnt.append(it[0])
            time_cnt2.append(it[1])
            # print(it)
        plt.cla()
        plt.title(r'数量-时间散点图（同为3线程数）', fontproperties="SimHei", fontsize=15)

        plt.xlabel('电影数量')
        plt.ylabel('时间')
        plt.xlim(0, 100)
        plt.scatter(data_cnt, time_cnt2, s=20, c="#ff1212", marker='+')
        try:
            savePath = self.GetDesktopPath() + "\\数量-时间数据散点图.png"  # 将结果图存储到桌面
            plt.savefig(savePath)
            showDataPic2 = Save_Show_Pic.ShowDataPic(None, openPath=savePath)
            showDataPic2.Show(True)
            wx.MessageBox('数据图已导出到桌面！！！', caption="导出成功")
        except:
            wx.MessageBox('数据图导出失败！！！', caption="导出失败")



if __name__=='__main__':#测试
    app = wx.App()
    spiderClient = SpiderClient(None)
    spiderClient.Show()
    app.MainLoop()

2.客户端结构
选择相应爬虫要求，包括爬取类型，排序方式，线程数，页数等信息。点击“启动”开始爬虫，点击“导出数据”将读取数据库内容生成Excel表格。点击“数据分析图”将读取数据库信息，分析整理后制作电影类型饼状图与直方图，点击“线程散点图”将读取数据库信息，制作线程与数据量与时间关系散点图。
客户端在点击启动后将获取所有用户填写的爬虫要求打包成列表，并通过socket发送到服务器端，之后通过socket监听服务器端传回的结果消息，接受结果消息将显示在scrolledtext中汇总。

以上即客户端方面所有内容，

以下介绍服务器端内容：
服务器是等待客户端发送数据的程序，因此一直通过socket监听端口，一旦受到消息就根据要求调用爬虫程序。

import json
import pickle
import socket
import threading

from Spider_Engine import Spider#此处导入爬虫模块，也就是说这个爬虫服务必须先开启，并且客户端是通过爬虫服务器来启动和获取爬取结果

class SpiderServer(object):
    def __init__(self):
        pass

    def startServer(self):
        print("(:з」∠)_服务器：又要起床做事了ヾ(ｏ・ω・)ノ！！！")
        s = socket.socket(socket.AF_INET,socket.SOCK_STREAM)
        s.bind(('localhost',12306))
        s.listen(5)
        while True:
            conn,addr = s.accept()#conn用于与客户端进行通信
            page_info = conn.recv(1024)
            if not page_info:
                continue
            print(pickle.loads(page_info))#输出从客户端发送过来的爬取要求，读取byte
            page_info = pickle.loads(page_info)
            # page_info[movie_type,movie_sort,threadNum,pageNum,query_type]
            threading.Thread(target=Spider().startSpiderInfo,args=(page_info,conn,)).start()#此处启动线程调用了爬虫模块，并用conn作为参数，使得爬虫模块也能直接与客户端进行通信
            conn.sendall("服务器：我被找到了(｡>∀<｡)！！！\n".encode())#以 encoding 指定的编码格式编码字符串
        conn.close()
        s.close()
#开启服务器
if __name__=='__main__':
    s = SpiderServer()
    s.startServer()

# function_name: 需要线程去执行的方法名
# threading.Thread()创建线程.start()并启动线程
# args: 线程执行方法接收的参数，该属性是一个元组，如果只有一个参数也需要在末尾加逗号

服务器端只是作为一个爬虫请求的管理功能，并不具备爬虫功能，在需要的时候启动爬虫程序才是服务器的真正功能，并且爬虫程序的结果反馈给客户端也是由服务器端实现，简单的说即只负责通信。

爬虫程序：
初始化部分，包括爬虫程序的头【header】，如果没有头会被网页的反爬机制认出，拒绝访问，并且还要设置相应的时间间隔来防止程序过快的访问页面，被豆瓣反爬机制封掉IP

# encoding=utf-8
# by:KuroNeko
import threading
import urllib.request

import datetime
import pymysql
import json

import time
from lxml import etree

lock = threading.Lock()  # 数据库的锁，只允许同时有一个线程操作数据库
lock_num = threading.Lock()  # 全局变量,爬取电影的计数锁
NUM = 0


# 爬虫客户端爬取模块
class Spider(object):
    # 编辑头。使其不会被网站拦截
    def __init__(self):
        self.send_headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
            'Referer': 'https://movie.douban.com/explore'
        }
        self.hotMovieUrl_list = []
        self.movieDetailInfo_list = []
        global lock
        global lock_num

豆瓣电影用户需要分类的列表，主要抓取每个电影详细页面的url地址，以供第二层第三层使用

    # 爬取热门电影列表(参数：电影种类，排序方式，页数)【第一层】
    def getHotMovieUrlList(self, movie_type, movie_sort, pageNum):
        if int(pageNum) > 0:  # 当页数大于0时才能爬取
            for i in range(int(pageNum)):
                print(i)  # 输出页数
                start = i * 20
                url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=' + movie_type + '&sort=' + movie_sort + '&page_limit=20&page_start=' + str(
                    start)
                print(url)
                # 使用Request类构建一个完整的请求 增加headers信息
                req = urllib.request.Request(url, headers=self.send_headers)
                # 打开url获得响应
                resp = urllib.request.urlopen(req)
                # 接受响应信息
                json_data = resp.read().decode('utf-8')
                # 将json数据转换成字典
                json_obj = json.loads(
                    json_data)  # 转换为字典后，是以列表的方式返回，且这个列表中就一个字典元素：subjects，该字典对应一个列表，这个列表对应一个字典，表示该电影所有信息
                for key, value in json_obj.items():
                    # print(value)
                    for item in value:
                        # print(item)#具体电影信息，包括电影名和详细信息的URL地址
                        hotMovie_dict = {}
                        hotMovie_dict['url'] = item['url']
                        self.hotMovieUrl_list.append(hotMovie_dict)
        else:  # 页数小于等于0直接返回
            return False
        # 返回id+name的list表
        return self.hotMovieUrl_list

第二层网页以及第三层网页的抓取
爬取了电影详细信息【第二层】，主演个人信息【第三层】的数据

    # 爬取热门电影详细信息【第二层】
    def getMovieDetailInfo(self, movie_url, page_info):
        movieDetailInfo_dict = {}  # 存储电影详细信息的字典
        resp = urllib.request.urlopen(movie_url)
        html_data = resp.read().decode('utf-8')
        # 构建xpath
        html = etree.HTML(html_data)
        # movie_year = soup.find('span', class_='year').text.strip('(').strip(')')
        movie_year = html.xpath('//*[@id="content"]/h1/span[2]/text()')[0].strip('(').strip(')')  # 年份
        #  print(movie_year)
        movieDetailInfo_dict['movie_year'] = movie_year
        # movie_name = soup.find('i',class_='').text.split('的')[0]
        if (page_info[5]):
            movie_name = html.xpath('//*[@id="content"]/h1/span[1]/text()')[0].split(' ')[0]  # 电影名
            #  print(movie_name)
            movieDetailInfo_dict['movie_name'] = movie_name
        else:
            movieDetailInfo_dict['movie_name'] = ""
        # movie_director
        if (page_info[6]):
            movie_director_list = html.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')  # 导演
            director = ""
            for directors in movie_director_list:
                director += str(directors) + "/"

            movie_director = director.strip('/')
            #   print(movie_director)
            movieDetailInfo_dict['movie_director'] = movie_director
        else:
            movieDetailInfo_dict['movie_director'] = ""
        movie_writer_list = html.xpath('//*[@id="info"]/span[2]/span[2]/a/text()')  # 编剧
        writer = ""
        for writers in movie_writer_list:
            writer += str(writers) + "/"

        movie_writer = writer.strip('/')
        # print(movie_writer)
        movieDetailInfo_dict['movie_writer'] = movie_writer
        # movie_actor = //*[@id="info"]/span[3]/span[2]
        if (page_info[7]):
            movie_actor_list = html.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')  # 演员
            actor = ""
            for actors in movie_actor_list:
                actor += str(actors) + "/"

            movie_actor = actor.strip('/')
            #  print(movie_actor)
            movieDetailInfo_dict['movie_actor'] = movie_actor
        else:
            movieDetailInfo_dict['movie_actor'] = ""
        # movie_type = //*[@id="info"]/span[5]
        movie_type_list = html.xpath('//*[@id="info"]/span[@property="v:genre"]/text()')  # 类型
        type = ""
        for types in movie_type_list:
            type += str(types) + "/"

        movie_type = type.strip('/')
        #  print(movie_type)
        movieDetailInfo_dict['movie_type'] = movie_type
        # movie_country = //*[@id="info"]/span[7] //*[@id="info"]/span[8]
        movieDetailInfo_dict['movie_anotherName'] = ""  # 别名
        movieDetailInfo_dict['movie_language'] = ""  # 语言
        movieDetailInfo_dict['movie_country'] = ""  # 国家/地区
        movie_attrs = html.xpath('//*[@id="info"]/span[@class="pl"]')
        for attr in movie_attrs:
            # print(attr.text)
            if attr.text == '制片国家/地区:' and page_info[8]:
                movie_country = attr.tail.strip()
                #   print(movie_country)
                movieDetailInfo_dict['movie_country'] = movie_country
            if attr.text == '语言:':
                movie_language = attr.tail.strip()
                #  print(movie_language)
                movieDetailInfo_dict['movie_language'] = movie_language
            if attr.text == '又名:':
                movie_anotherName = attr.tail.strip()
                #  print(movie_anotherName)
                movieDetailInfo_dict['movie_anotherName'] = movie_anotherName

        # movie_date = //*[@id="info"]/span[10]
        try:
            movie_date = html.xpath('//*[@id="info"]/span[@property="v:initialReleaseDate"]/@content')[0]
            # print(movie_date)
            movieDetailInfo_dict['movie_date'] = movie_date  # 上映日期
        except:
            movieDetailInfo_dict['movie_date'] = "无上映日期"
        try:
            # movie_time = v:runtime
            movie_time = html.xpath('//*[@id="info"]/span[@property="v:runtime"]/text()')[0]
            # print(movie_time)
        except:
            movie_time = "无片长信息"
        movieDetailInfo_dict['movie_time'] = movie_time  # 片长
        # movie_IMDB = //*[@id="info"]/a
        movieDetailInfo_dict['movie_IMDB'] = ""
        movie_IMDB = html.xpath('//*[@id="info"]/a[@rel="nofollow" and @target="_blank"]/text()')
        if len(movie_IMDB) != 0:
            # print(movie_IMDB)
            movieDetailInfo_dict['movie_IMDB'] = movie_IMDB[0]  # IMDB链接
        # movie_grade =
        movie_grade = html.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0]
        # print(movie_grade)
        movieDetailInfo_dict['movie_grade'] = movie_grade  # 评分
        # movie_commentsNum = //*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span
        movie_commentsNum = html.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/div/div[2]/a/span/text()')[0]
        # print(movie_commentsNum)
        movieDetailInfo_dict['movie_commentsNum'] = movie_commentsNum  # 评价人数
        # movie_pageUrl = movie_url
        movie_pageUrl = movie_url
        # print(movie_pageUrl)
        movieDetailInfo_dict['movie_pageUrl'] = movie_pageUrl  # 电影详情页面URL地址

        if (page_info[9]):
            movieDetailInfo_dict['movie_comment'] = self.get_comments(movie_url + 'comments?status=F')  # 短评
        else:
            movieDetailInfo_dict['movie_comment'] = ""
        # print(movieDetailInfo_dict['movie_comment'])

        if (page_info[10]):
            movieDetailInfo_dict['movie_discussion'] = self.get_discussion(movie_url + 'discussion/')  # 论坛
        else:
            movieDetailInfo_dict['movie_discussion'] = ""
        # print(movieDetailInfo_dict['movie_discussion'])

        movieDetailInfo_dict['actor_url'] = html.xpath('//*[@id="info"]/span[3]/span[2]/a/@href')
        # print(movieDetailInfo_dict['actor_url'])
        movieDetailInfo_dict['actor_message'] = []
        for it in movieDetailInfo_dict['actor_url']:
            if page_info[4]: time.sleep(3)
            actor_info = {}
            actor_info['name'] = ""
            actor_info['sex'] = ""
            actor_info['star'] = ""
            actor_info['birthday'] = ""
            actor_info['place'] = ""
            actor_info['job'] = ""
            actor_info['message'] = ""
            resp2 = urllib.request.urlopen('https://movie.douban.com/' + it)
            html_data2 = resp2.read().decode('utf-8')
            html2 = etree.HTML(html_data2)
            try:
                actor_info['name'] = html2.xpath('//*[@id="content"]/h1/text()')[0]  # 姓名
                actor_info['sex'] = html2.xpath('//*[@id="headline"]/div[2]/ul/li[1]/text()')[1].strip('\n').strip(':').strip()  # 性别
                actor_info['star'] = html2.xpath('//*[@id="headline"]/div[2]/ul/li[2]/text()')[1].strip('\n').strip(':').strip()  # 星座
                actor_info['birthday'] = html2.xpath('//*[@id="headline"]/div[2]/ul/li[3]/text()')[1].strip('\n').strip(':').strip()  # 生日
                actor_info['place'] = html2.xpath('//*[@id="headline"]/div[2]/ul/li[4]/text()')[1].strip('\n').strip(':').strip()  # 出生地
                actor_info['job'] = html2.xpath('//*[@id="headline"]/div[2]/ul/li[5]/text()')[1].strip('\n').strip(':').strip()  # 职业
                try:actor_info['message'] = html2.xpath('//*[@id="intro"]/div[2]/span[2]/text()')[0].replace('\u3000',''), replace('\n', '').strip()  # 简介
                except:actor_info['message'] = html2.xpath('//*[@id="intro"]/div[2]/text()')[0].replace('\u3000','').replace('\n','').strip()
            except:
                print('https://movie.douban.com/' + it, '无该演员信息')
            if actor_info:
                movieDetailInfo_dict['actor_message'].append(actor_info)
            else:
                pass
            if page_info[4] == 0: break
        print(movieDetailInfo_dict['actor_message'])

        return movieDetailInfo_dict
        # 爬取结果是字典，表示单部电影的所有详细信息

    def get_comments(self, comments_url):  # 第一条短评【P为看过，F为想看】
        resp = urllib.request.urlopen(comments_url)
        html_data = resp.read().decode('utf-8')
        # 构建xpath
        html = etree.HTML(html_data)
        return html.xpath('//*[@id="comments"]/div[1]/div[2]/p/span/text()')[0]

    def get_discussion(self, discussion_url):  # 论坛第一条题目
        resp = urllib.request.urlopen(discussion_url)
        html_data = resp.read().decode('utf-8')
        # 构建xpath
        html = etree.HTML(html_data)
        try:
            return html.xpath('//*[@id="posts-table"]//tr[2]/td[1]/a/text()')[0].strip('\n').strip()
        except:
            return "论坛内容为空"

该函数被结果整理函数调用，具体实现了将所有数据存储到本地数据库中，并去重

    # 插入数据库
    def saveDatabase(self, movie_info, conn):
        lock.acquire()
        cur = conn.cursor()
        # print(movie_info['movie_anotherName'],'='*20)
        actor_info = movie_info['actor_message']
        for it in actor_info:
            sql_select = 'select name from actors where name="%s"' % (it['name'])
            cur.execute(sql_select)
            conn.commit()
            check_name = cur.fetchone()
            if check_name == None:
                sql_actor = 'insert into actors values(null,"%s","%s","%s","%s","%s","%s","%s")' % (
                    it['name'], it['sex'], it['star'], it['birthday'], it['place'], it['job'], it['message'])
                try:
                    cur.execute(sql_actor)
                    conn.commit()
                    print(it['name'], '保存成功呢')
                except:
                    print('演员信息不完整')
        try:
            sql_judge = 'select movie_name from movies where movie_name="%s"' % (movie_info['movie_name'])
            cur.execute(sql_judge)
            conn.commit()
            judge_name = cur.fetchone()
            if judge_name == None:
                sql = 'insert into movies values(null ,"%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s")' % (
                    movie_info['movie_year'], movie_info['movie_name'], movie_info['movie_director'],
                    movie_info['movie_writer'], movie_info['movie_actor'], movie_info['movie_type'],
                    movie_info['movie_country'], movie_info['movie_language'], movie_info['movie_anotherName'],
                    movie_info['movie_date'], movie_info['movie_time'], movie_info['movie_IMDB'],
                    movie_info['movie_grade'],
                    movie_info['movie_commentsNum'], movie_info['movie_pageUrl'], movie_info['movie_comment'],
                    movie_info['movie_discussion'])
                cur.execute(sql)
                conn.commit()
                print("保存成功！！！")
        except:
            try:
                sql_judge = 'select movie_name from movies where movie_name="%s"' % (movie_info['movie_name'])
                cur.execute(sql_judge)
                conn.commit()
                judge_name = cur.fetchone()
                if judge_name == None:
                    sql = 'insert into movies values(null ,"%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s")' % (
                        movie_info['movie_year'], movie_info['movie_name'], movie_info['movie_director'],
                        movie_info['movie_writer'], movie_info['movie_actor'], movie_info['movie_type'],
                        movie_info['movie_country'], movie_info['movie_language'], movie_info['movie_anotherName'],
                        movie_info['movie_date'], movie_info['movie_time'], movie_info['movie_IMDB'],
                        movie_info['movie_grade'],
                        movie_info['movie_commentsNum'], movie_info['movie_pageUrl'], "评论存在emoji或未知编码字符",
                        movie_info['movie_discussion'])
                    cur.execute(sql)
                    conn.commit()
                    print("保存成功！！！")
            except:
                print("保存失败！！！")
        lock.release()
        cur.close()
        return movie_info

这是对三层爬取数据结果数据的存储和整理，并通过socket回传给客户端

    def getMovieDetailInfo_list(self, movie_urls, connClient, page_info):
        conn = pymysql.connect(host='localhost', user='root', password='970922', db='mytest', port=3306, charset='utf8')
        for url in movie_urls:
            time.sleep(1)
            movieDetailInfo = self.getMovieDetailInfo(url['url'], page_info)  # 【第二层】爬取详细信息
            movie_info = self.saveDatabase(movieDetailInfo, conn)  # 存储到数据库中
            # movie_info['movie_year'] ,movie_info['movie_name'] ,movie_info['movie_director'] ,movie_info['movie_writer'] ,movie_info['movie_actor']  ,movie_info['movie_type'] ,movie_info['movie_country'] ,	movie_info['movie_language'] ,movie_info['movie_anotherName'] ,	movie_info['movie_date'] ,movie_info['movie_time'] ,movie_info['movie_IMDB'] ,movie_info['movie_grade'] ,movie_info['movie_commentsNum'] ,movie_info['movie_pageUrl']
            lock_num.acquire()
            global NUM
            NUM = NUM + 1
            num = NUM  # 从这里开始构建返回到客户端的信息
            movie_msg = '爬取的第' + str(num) + '条电影信息\n'
            movie_msg += '|' + '>' * 60 + '|\n'
            movie_msg += '【上映年份】' + movie_info['movie_year'] + '\n【片名】' + movie_info['movie_name'] + '\n【导演】' + \
                         movie_info['movie_director'] + '\n【编剧】' + movie_info['movie_writer'] + '\n【主演】' + movie_info[
                             'movie_actor'] + '\n【类型】' + movie_info['movie_type'] + '\n【制片国家地区】' + movie_info[
                             'movie_country'] + '\n【语言】' + movie_info['movie_language'] + '\n【上映日期】' + movie_info[
                             'movie_date'] + '\n【片长】' + movie_info['movie_time'] + '\n【又名】' + movie_info[
                             'movie_anotherName'] + '\n【IMDB链接】' + movie_info['movie_IMDB'] + '\n【评分】' + movie_info[
                             'movie_grade'] + '\n【评价人数】' + movie_info['movie_commentsNum'] + '\n【页面网址】' + movie_info[
                             'movie_pageUrl'] + '\n【短评】' + movie_info['movie_comment'] + '\n【论坛讨论】' + movie_info[
                             'movie_discussion'] + '\n'
            movie_msg += '|' + '<' * 60 + '|\n'
            print(movie_msg)
            lock_num.release()
            threading.Thread(target=connClient.sendall, args=(movie_msg.encode(),)).start()  # 启动线程发送回客户端显示
            print(movie_urls.index(url))
        print('结束')
        connClient.sendall("end".encode())  # 一个线程的结束
        conn.close()

这是被服务器端调用的开始函数，肩负了第一层爬虫的调用以及第二层多线程爬取数据的数量分配

    # page_info[movie_type,movie_sort,threadNum,pageNum,query_type]
    def startSpiderInfo(self, page_info, connClient):  # 此处是被服务器端启动的爬虫线程
        # print(page_info)
        global NUM
        NUM=0
        urls = self.getHotMovieUrlList(page_info[0], page_info[1], page_info[3])  # 首先爬取电影列表【第一层】
        print(urls)  # 返回要爬取详细信息的电影URL列表，是以字典形式存储
        for i in range(int(page_info[2])):  # page_info[2]就是线程数
            time.sleep(1)
            leng = len(urls)
            movie_urls = urls[i * leng // int(page_info[2]):(i + 1) * leng // int(page_info[2])]  # 切片操作，为每个线程平均分配要爬的电影url
            threading.Thread(target=self.getMovieDetailInfo_list, args=(movie_urls, connClient, page_info,)).start()
            # 创建并启动线程，调用获取电影详细信息【第二层】

实现结果：

服务器端结构
服务器端作为后台程序状态不显示在客户端中，其结构实现了对客户端访问的监听，并根据指令开始爬虫程序。
在客户端发送启动爬虫的指令并发送要求的数据包后，服务器端监听收到消息，并调用spider爬虫主程序。Spider程序中将获取豆瓣电影主页面作为入口地址，并使用单线程获取主页面上所有待爬电影的url地址，存储在列表中。
接着遍历该列表，将列表中电影总数平均分成线程数的份数，每个线程被分配到:电影总数/线程数个电影进行详细页面爬取。
在每个线程上，单独对多个电影页面进行爬取，获得的信息存储到字典中，并经过函数整理打包成字符串回传给客户端，并在滑动文本框中显示
在回传给客户端之前，服务器端完成了对数据的爬取，分类整理，调用存储函数链接数据库将数据插入到数据库中。并将存储状态，返回给客户端。
在结束所有数据爬取后，返回end标志给客户端，客户端计算整个爬虫过程所用时间。并反馈到scrolledtext上，最终记录整个爬虫过程的所有数据写入日志文件中。并连接数据库将相关日志信息插入库中。
其中爬取方式有快速爬取及完整爬取，用于对第三层演员个人信息的爬取控制。若选择简单快速爬取，对于一部电影只采集第一位主演的个人信息，考虑到豆瓣网所收集的主演信息并不完整，因此靠后的主演个人信息内容可用性并不高，并且内容缺乏严重，同时，因为对同一部电影深入第三层快速进入多个演职员的个人信息页面，容易触发豆瓣网站的反爬机制，封锁IP，因此若是完整爬取需要对爬取速度进行间歇性暂停控制，这样就造成了完整爬取大量演职员信息时耗费更多时间。考虑到对内容质量以及爬取效率的优化，建议用户使用快速爬取，当然也可以根据个人需要选择完整爬取
最后，在数据插入部分，无论是电影信息还是演职员表信息，都对数据进行了重复检测，以防止大量重复数据被在多次爬取时重复插入。

数据分析图的绘制在客户端中已经写有，以下是对分析的图存储到桌面的过程

# -*- coding: utf-8 -*-
#by KuroNeko
import base64

import os
import wx
from wx.lib.embeddedimage import PyEmbeddedImage


class ShowDataPic ( wx.Frame ):
    def __init__( self, parent ,openPath):#路径参数作为文件名可以直接区分不同的图，以达到重用该存储类
        wx.Frame.__init__ ( self, parent,title = openPath)
        self.SetBackgroundColour( wx.SystemSettings.GetColour( wx.SYS_COLOUR_3DLIGHT ) )
        bSizer1 = wx.BoxSizer( wx.VERTICAL )
        # openPath = self.GetDesktopPath()+"\\电影类别数据分析图.png"#在客户端函数中已经存储了一张图片，现在将结果写入
        file = open(openPath, 'rb')
        str = file.read()
        b64 = base64.b64encode(str)
        file.close()
        bitmap = PyEmbeddedImage(b64).GetBitmap()
        self.m_bitmap1 = wx.StaticBitmap( self, wx.ID_ANY, bitmap )
        bSizer1.Add( self.m_bitmap1, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL, 5 )
        self.SetSizer( bSizer1 )
        self.Layout()
        bSizer1.Fit( self )
        self.Centre( wx.BOTH )
    def GetDesktopPath(self):#再次定义桌面路径
        return os.path.join(os.path.expanduser("~"), 'Desktop')
if __name__=='__main__':
    app = wx.App()
    gui = ShowDataPic(None)
    gui.Show()
    app.MainLoop()

分析结果：

你可能感兴趣的:(Python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache