老手er

基于scrapy框架的爬虫项目（近乎完美的可视化以及分词呈现）

python爬虫项目（完整项目流程以及源码分享）

注：本网站采集的数据来源于51job.com，仅做学习参考

项目流程大体概述：

友情提示：之后的源代码文件顺序按照如下次序排列。

1.首先，分析网站，明确采集数据，创建scrapy框架环境，编写爬虫主程序；
（本文为：jobspider.py文件）

2.开辟临时存储空间，将主程序爬取的数据进行临时存储（类似于字典封装）；
（本文为：items.py文件）

3.通过管道文件获取存储空间中的采集信息，并输出打印到控制台（类似于获取value值的操作）；
（本文为：pipelines.py管道文件）

4.更改初始的settings.py文件设置；
（本文为：settings.py文件）

5.编写启动爬虫程序（目的是为了更友好的采集多个不同职位的数据），之后还包括向jobpositiondao.py文件中传入采集记录的方法；
（本文为：startspider.py文件）

6.创建dao包，在其中创建pymysql.json配置文件，存储连接数据库的基本信息；
（本文为：pymysql.json文件）

7.在dao包中创建连接mysql数据库的通用主程序文件；
（本文为：basedao.py文件）

8.在dao包中创建写入（方法）以及查询（方法）数据库中数据的文件；
（本文为：jobpositiondao.py文件）

9.在dao包中创建将用户采集记录写入到数据库的方法文件；
（本文为：taskdao.py文件）

10.数据的优化处理以及向jobpositiondao.py文件中传入采集数据的方法（数据来源于临时存储空间中主程序所采集的数据）；
（本文为：mysqlpipelines.py管道文件）

11.编写启动sql查询以及进行可视化显示的文件；
（本文为：showstatics.py文件）

如下为最终可视化效果以及项目源码：

jobspider.py文件，代码如下：

# -*- coding: utf-8 -*-
import scrapy
from ..items import SpiderprojectItem

class JobspiderSpider(scrapy.Spider):
    name = 'jobspider'
    # allowed_domains = ['www.baidu.com']
    start_urls = []
    def __init__(self, start_urls=None, taskid=0, *args, **kwargs):
        super(JobspiderSpider, self).__init__(*args, **kwargs)
        # print(start_urls)
        # print(taskid)
        self.start_urls.append(start_urls)
        self.taskid = int(taskid)
        pass

    def parse(self, response):
        jobItems=response.xpath("//div[@class = 'el']") #返回xpath的选择器列表结果
        #遍历选择器列表
        jobLen = len(jobItems)
        jobCount = 0

        # 分页
        nextURL = response.xpath("//li[@class='bk']/a/@href").extract()
        nextText = response.xpath("//li[@class='bk']/a/text()").extract()
        realURL = ""
        if nextURL and nextText[-1].strip()=="下一页":
            # if nextText[-1].strip()=="下一页":
            realURL = response.urljoin(nextURL[-1])
            # print('url',url)
            pass
        pass

        for jobItem in jobItems:
            jobCount += 1
            sItem = SpiderprojectItem()
            sItem['taskId']=self.taskid
            #extract()解析职位  strip()去掉多余空格
            jobposition = jobItem.xpath("p/span/a/text()")
            if jobposition:
                sItem['jobposition']=jobposition.extract()[0].strip()  #相当于字典

            #取链接
            positionDetail = jobItem.xpath("p[@class='t1 ']/span/a/@href")#返回的是选择器

            #解析公司名称
            jobCompany = jobItem.xpath("span[@class='t2']/a/text()")
            if jobCompany:
                sItem['jobCompany'] = jobCompany.extract()[0].strip()

            #解析公司地点
            jobAddress = jobItem.xpath("span[@class='t3']/text()")
            if jobAddress:
                sItem['jobAddress'] = jobAddress.extract()[0].strip()

            #解析月薪
            jobMMoney = jobItem.xpath("span[@class='t4']/text()")
            if jobMMoney:
                sItem['jobMMoney'] = jobMMoney.extract()[0].strip()

            #解析发布日期
            FBTime = jobItem.xpath("span[@class='t5']/text()")
            if FBTime:
                sItem['FBTime'] = FBTime.extract()[0].strip()

            if jobposition and jobCompany and jobAddress and jobMMoney and FBTime and positionDetail:
                detailURL = positionDetail.extract()[0]
                # print(detailURL)
                sItem['nextURL'] = realURL
                # 访问二级页面
                yield scrapy.Request(url=detailURL, callback=self.parse_detail,meta={'item':sItem,'jobLen':jobLen, 'jobCount':jobCount},dont_filter=True)
                pass
            pass
            #将解析的数据写到数据库（用管道）
            #实现分页爬取

    #定义爬取详情(点进去)页的方法
    def parse_detail(self, response):
        sItem = response.meta['item']
        jobLen = response.meta['jobLen']
        jobCount = response.meta['jobCount']
        detailData = response.xpath("//div[@class='bmsg job_msg inbox']")
        print('detailData：', detailData)
        if detailData:
            contents=detailData.xpath('//p/text()')  #返回当前选择器
            ct = ""
            if contents:
                for temp in contents.extract():
                    if temp.strip()=="" or temp.strip()=="/":
                        continue
                    ct += temp +"\n"
            sItem['jobDetail'] = ct
            yield sItem   #保顺序
            pass
        # 判断当前页是否爬取完成了，完成就继续爬取下一页
        if jobLen == jobCount:
            if sItem['nextURL']:
                yield scrapy.Request(sItem['nextURL'], self.parse, dont_filter=False)
            pass
        pass
    pass

items.py文件，代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

#数据封装的实体类
class SpiderprojectItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    jobposition = scrapy.Field()
    jobCompany = scrapy.Field()
    jobAddress = scrapy.Field()
    jobMMoney = scrapy.Field()
    FBTime = scrapy.Field()
    nextURL = scrapy.Field()
    jobDetail = scrapy.Field()   #存放详情页
    taskId = scrapy.Field()
    pass

pipelines.py管道文件，代码如下：

class SpiderprojectPipeline(object):
    def process_item(self, item, spider):
        print("通过管道输出数据")
        print(item['jobposition'])
        print(item['jobCompany'])
        print(item['jobAddress'])
        print(item['jobMMoney'])
        print(item['FBTime'])
        print(item['jobDetail'])
        return item

settings.py文件，将如下内容前的注释（#）去掉即可：

ROBOTSTXT_OBEY = False    #注意，去掉注释符号#后，将原来的值改为False

DOWNLOAD_DELAY = 5        #注意，去掉注释符号#后，将原来的3改为5

SPIDER_MIDDLEWARES = {
    'spidermovieproject.middlewares.SpidermovieprojectSpiderMiddleware': 543,
}

DOWNLOADER_MIDDLEWARES = {
    'spidermovieproject.middlewares.SpidermovieprojectDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
    'spidermovieproject.pipelines.SpidermovieprojectPipeline': 300,
}

startspider.py文件，代码如下：

#此脚本是爬虫启动脚本(不用去cmd输入命令)

from scrapy.cmdline import execute
from Include.day022.spiderproject.spiderproject.dao.taskdao import TaskDao

#启动爬虫
td = TaskDao()

result,taskId = td.create(('Python职位数据采集','https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,2.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare= '))
if result>0:
    execute(['scrapy','crawl','jobspider',
             '-a','start_urls=https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,2.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare= ',
             '-a','taskid='+str(taskId)])

# result,taskId = td.create(('Java职位数据采集','https://search.51job.com/list/000000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='))
#
# if result>0:
#     execute(['scrapy','crawl','jobspider',
#              '-a','start_urls=https://search.51job.com/list/000000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=',
#              '-a','taskid='+str(taskId)])


# result,taskId = td.create(('C++职位数据采集','https://search.51job.com/list/000000,000000,0000,00,9,99,c%252B%252B,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='))
# if result>0:
#     execute(['scrapy','crawl','jobspider',
#              '-a','start_urls=https://search.51job.com/list/000000,000000,0000,00,9,99,c%252B%252B,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=',
#              '-a','taskid='+str(taskId)])

# result,taskId = td.create(('js职位数据采集','https://search.51job.com/list/000000,000000,0000,00,9,99,js,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='))
#
# if result>0:
#     execute(['scrapy','crawl','jobspider',
#              '-a','start_urls=https://search.51job.com/list/000000,000000,0000,00,9,99,js,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=',
#              '-a','taskid='+str(taskId)])


# result,taskId = td.create(('php职位数据采集','https://search.51job.com/list/000000,000000,0000,00,9,99,php,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='))
#
# if result>0:
#     execute(['scrapy','crawl','jobspider',
#              '-a','start_urls=https://search.51job.com/list/000000,000000,0000,00,9,99,php,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=',
#              '-a','taskid='+str(taskId)])

pymysql.json文件，代码样式如下：

{"host":"127.0.0.1","user":"你的数据库的用户名","password":"你的数据库的密码", "database" :"db_movie_data","port":3306}

basedao.py连接数据库文件，代码如下：

import pymysql
import json
import logging
import sys
import os

class BaseDao():
    def __init__(self,configPath = 'pymysql.json'):
        self.__connection =None
        self.__cursor = None
        self.__config = json.load(open(os.path.dirname(__file__) + os.sep + configPath,'r')) #通过json配置获得数据的连接配置信息
        print(self.__config)
        pass
    def getConnection(self):
        #当有连接对象时，直接返回连接对象
        if self.__connection:
            return self.__connection
        #否则通过建立新的连接对象
        try:
            self.__connection = pymysql.connect(**self.__config)
            return self.__connection
        except pymysql.MySQLError as e:
            print("Exception"+str(e))
        pass
    pass
    #用于执行Sql语句的通用方法
    def execute(self,sql,params):
        try:
            self.__cursor = self.getConnection().cursor()
            #execute:返回的是修改数据的条数
            if params:
                result = self.__cursor.execute(sql,params)
            else:
                result = self.__cursor.execute(sql)
            return result
        except (pymysql.MySQLError,pymysql.DatabaseError,Exception) as e:#捕获多个异常
            print("出现数据库访问异常："+str(e))
            self.rollback()
            pass
        pass
    pass
    def fetch(self):
        if self.__cursor:     #提高代码健壮性
            return self.__cursor.fetchall()
        pass
    def commit(self):
        if self.__connection:
            self.__connection.commit()    #回滚问题
        pass

    def rollback(self):
        if self.__connection:
            self.__connection.rollback()

        pass

    def getLastRowId(self):
        if self.__cursor:
            return self.__cursor.lastrowid

    def close(self):
        if self.__cursor:
            self.__cursor.close()
        if self.__connection:
            self.__connection.close()
    pass

if __name__=="__main__":
    ms = BaseDao()

jobpositiondao.py数据库读写文件，代码如下：

from .basedao import BaseDao    # . 代表当前目录
#定义一个职位数据操作的数据库访问类
class JobPositionDao(BaseDao):

    def __init__(self):
        super().__init__()
    #向数据库插入职位信息
    def create(self,params):
        sql = "insert into job_position (jobposition,jobCompany,jobAddress,job_MMoney,FBTime,job_taskid,job_lowsalary,job_highsalary,job_meansalary,job_city) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"
        result = self.execute(sql,params)
        lastRowId = self.getLastRowId()
        self.commit()
        return result,lastRowId
    pass

    def createDetail(self,params):
        sql = "insert into job_position_detail (detail_desciption,detail_positionid) values (%s,%s)"
        result = self.execute(sql,params)
        self.commit()
        return result
    pass
    pass

    def findPositionClassify(self):
        sql = "select avg(job_meansalary),job_taskid,task_title from job_position,job_collect_task where job_position.job_taskid = job_collect_task.task_id group by job_taskid,task_title;"
        result = self.execute(sql,params=None)
        self.commit()
        return self.fetch()

    def findCityPositionClassify(self):
        sql = "select avg(t1.job_meansalary) as m,t1.job_taskid,t2.task_title,t1.job_city from job_position t1 left join job_collect_task t2 on t1.job_taskid = t2.task_id group by job_taskid,job_city,t2.task_title order by t1.job_taskid asc,m desc;"
        result = self.execute(sql,params=None)
        self.commit()
        return self.fetch()
        pass


    def findPositionDetail(self):   #查询各职位具体内容
        sql = "select detail_desciption from job_position_detail"
        result = self.execute(sql,params=None)
        self.commit()
        return self.fetch()
        pass

taskdao.py数据库写入采集记录文件，代码如下：

from .basedao import BaseDao

class TaskDao(BaseDao):


    def create(self,params):
        sql = "insert into job_collect_task (task_title,task_url) values (%s,%s)"
        result = self.execute(sql,params)
        lastRowId = self.getLastRowId()
        self.commit()
        self.close()
        return result,lastRowId

    pass

mysqlpipelines.py数据库管道文件，代码如下：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from .dao.jobpositiondao import JobPositionDao
class SpidermysqlPipeline(object):


    def process_item(self, item, spider):
        jobPositionDao =  JobPositionDao()
        try:
            jobAddress = item['jobAddress']
            jobMMoney  = item['jobMMoney']

            lowSalary  = 0
            highSalary = 0
            meanSalary = 0
            #根据 地址信息 拆分出 城市信息   例：北京市-海淀区
            jobCity = jobAddress.split('-')[0]

            #处理薪资数据 1.判断单位
            if jobMMoney.endswith('万/月'):
                jobMMoney = jobMMoney.replace('万/月','')
                if jobMMoney.find('-'):
                    MoneyArray = jobMMoney.split('-')
                    lowSalary = float(MoneyArray[0])*10000
                    highSalary = float(MoneyArray[1])*10000
                    pass
                else:
                    lowSalary = highSalary =float(jobMMoney)*10000

                meanSalary = (lowSalary + highSalary)/2
                pass

            elif jobMMoney.endswith('千/月'):
                jobMMoney = jobMMoney.replace('千/月', '')
                if jobMMoney.find('-'):
                    MoneyArray = jobMMoney.split('-')
                    lowSalary = float(MoneyArray[0]) * 1000
                    highSalary = float(MoneyArray[1]) * 1000
                    pass
                else:
                    lowSalary = highSalary = float(jobMMoney) * 1000
                meanSalary = (lowSalary + highSalary) / 2

            elif jobMMoney.endswith('万/年'):
                jobMMoney = jobMMoney.replace('万/年', '')
                if jobMMoney.find('-'):
                    MoneyArray = jobMMoney.split('-')
                    lowSalary = float(MoneyArray[0]) * 10000/12
                    highSalary = float(MoneyArray[1]) * 10000/12
                    pass
                else:
                    lowSalary = highSalary = float(jobMMoney) * 10000/12
                meanSalary = (lowSalary + highSalary) / 2
                pass

            elif jobMMoney.endswith('元/天'):
                jobMMoney = jobMMoney.replace('元/天', '')
                if jobMMoney.find('-'):
                    MoneyArray = jobMMoney.split('-')
                    lowSalary = float(MoneyArray[0]) * 22
                    highSalary = float(MoneyArray[1]) * 22
                    pass
                else:
                    lowSalary = highSalary = float(jobMMoney) * 22
                meanSalary = (lowSalary + highSalary) / 2
                pass
            else:
                return


            result,lastRowId=jobPositionDao.create((item['jobposition'],item['jobCompany'],item['jobAddress'],item['jobMMoney'],item['FBTime'],item['taskId'],lowSalary,highSalary,meanSalary,jobCity))
            if result:
                jobPositionDao.createDetail((item['jobDetail'],lastRowId))



                pass
        except Exception as e:
            print(e)
        finally:
            jobPositionDao.close()
        return item

showstatics.py是sql查询以及可视化文件，具体代码如下：

from Include.day022.spiderproject.spiderproject.dao.jobpositiondao import JobPositionDao
import numpy as np
import matplotlib.pyplot as plt


jp = JobPositionDao()
# print(jp.findPositionClassify())
# print(jp.findCityPositionClassify())

# 两行代码支持显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

#分块代码：
fig = plt.figure()
subplot = fig.add_subplot(2,2,1)

#------绘制各职位平均月薪条状图（第一个子图）---------------
Result_fnPosCla = np.array(jp.findPositionClassify())
Result_fnPosCla = Result_fnPosCla.T
# print(Result_fnPosCla)
xlabel = Result_fnPosCla[2]
x = Result_fnPosCla[1].astype(np.float)  #刻度
y = Result_fnPosCla[0].astype(np.float)  #工资
bars = subplot.bar(x,y,width=0.3)

subplot.set_xlabel("热门语言职位分类")
subplot.set_ylabel("月薪资")

subplot.set_xticks(x)
subplot.set_xticklabels(xlabel)

subplot.grid(linestyle="--")

for x,y in zip(x,y):
    subplot.text(x,y+0.05,'{0}元/月'.format(np.floor(y)),ha = 'center',va = 'bottom')

#--------------绘制折线图（第二个子图）---------------------------
subplot2 = fig.add_subplot(2,2,2)
Result_fnCiPosClas = np.array(jp.findCityPositionClassify())
# print(Result_fnCiPosClas)

#准备数据

Py = [temp for temp in Result_fnCiPosClas if temp[1] == '1']
Py=np.array(Py)
# print(Py)

Ja= [temp for temp in Result_fnCiPosClas if temp[1] == '2']
Ja=np.array(Ja)
# print(Ja)

Cpp= [temp for temp in Result_fnCiPosClas if temp[1] == '3']
Cpp=np.array(Cpp)
# print(Cpp)

Js= [temp for temp in Result_fnCiPosClas if temp[1] == '4']
Js=np.array(Js)
# print(Js)

datalist = []
for py in Py:
    for ja in Ja:
        for cpp in Cpp:
            for js in Js:
                if py[3] == ja[3] == cpp[3] == js[3]:
                    if py[3]==ja[3] == cpp[3] == js[3]!='异地招聘':
                        datalist.append([py,ja,cpp,js])
data = np.array(datalist)
data = data.T
print(data)

##绘制多折线图
xlabel = [address for address in data[3,0]]
print(xlabel)
pyData = [Salary.astype(np.float) for Salary in data[0,0]]
jaData = [Salary.astype(np.float) for Salary in data[0,1]]
cppData =[Salary.astype(np.float) for Salary in data[0,2]]
jsData = [Salary.astype(np.float) for Salary in data[0,3]]

subplot2.plot(xlabel,pyData,'bp-',alpha=0.5,label = 'python')
subplot2.plot(xlabel,jaData,'mp-',alpha=0.5,label = 'java')
subplot2.plot(xlabel,cppData,'yp-',alpha=0.5,label = 'c++')
subplot2.plot(xlabel,jsData,'gp-',alpha=0.5,label = 'javascript')

#绘制辅助标签
subplot2.set_xlabel("全国热门IT省份")
subplot2.set_ylabel("平均月薪资/元")

subplot2.legend(loc='best')
subplot2.grid(linestyle="--")

#----------------------第三个子图（饼图）-----------------------
subplot3 = fig.add_subplot(2,2,3)

# Result_fnPosCla = np.array(jp.findPositionClassify())
# Result_fnPosCla = Result_fnPosCla.T
# print(Result_fnPosCla)
##准备数据
jobs = [job for job in Result_fnPosCla[2]]
colorlist = ["green","red","orange","yellow"]
colors = [color for color in colorlist]

#比例处理
Salaries = [salary.astype(np.float) for salary in Result_fnPosCla[0]]
sumSalary = np.sum(Salaries)     #各语言的月薪资总和
SalaBlis = [temp.astype(np.float)/sumSalary*100 for temp in Result_fnPosCla[0]]   #全国范围内大多数城市各热门编程语言的月薪资比例
# print(SalaBlis)
#绘饼图如下
labels = ["{0}\n{1} %\n{2}元/月".format(job,np.floor(SalaBli*1000)/1000,str(salary).split(".")[0] )for job,SalaBli,salary in zip(jobs,SalaBlis,Result_fnPosCla[0])]
explode = np.where(np.array(jobs)=="Python职位数据采集" ,1,0)
subplot3.pie(SalaBlis,colors=colors,labels=labels,explode=explode)
subplot3.axis('equal')


#-------------------词云以及jieba的使用（第四个子图）---------------------------
#jieba
import jieba
from wordcloud import WordCloud, STOPWORDS

subplot4 = fig.add_subplot(2,2,4)
print("内容")
text = str(jp.findPositionDetail())

with open("job_detail_text.txt","w") as fp:  #写成.txt文件
    fp.write(text)

signatures = []
with open('job_detail_text.txt', mode='r', encoding='gb18030') as fp:
    signatures = fp.read()

# 设置屏蔽词，去除特殊符号以及低价值的分词
stopwords = STOPWORDS.copy()
stopwords.add('xa0')
stopwords.add('xa03')
stopwords.add('n')
stopwords.add('n1')
stopwords.add('n2')
stopwords.add('n3')
stopwords.add('n4')
stopwords.add('n5')
stopwords.add('无忧')
stopwords.add('推荐')
stopwords.add('xa009')
stopwords.add('发布')
stopwords.add('有限公司')
stopwords.add('民营公司')

# 导入背景图
bg_image = plt.imread('xiaoxi.jpg')
# 设置词云参数，参数分别表示：画布宽高、背景颜色、背景图形状、字体、屏蔽词、最大词的字体大小
wc = WordCloud(width=1000,height=800,background_color='white', mask=bg_image, font_path='STKAITI.TTF', stopwords=stopwords,max_font_size=220, random_state=50)
# 将分词后数据传入云图
wc.generate_from_text(words)
subplot4.imshow(wc)   # 绘制图像
subplot4.axis('off')  # 不显示坐标轴
# 保存结果到本地
wc.to_file('51job词云图.jpg')


plt.show()
jp.close()

如下图所示，为可视化结果：

mysql数据表结构如下（本文章用到了三张数据表）：

job_collect_task数据表：主要存储采集数据记录

job_position数据表：主要存储一级界面的基本信息

job_position_detail数据表：主要存储二级界面的详细信息

以上就是本项目的具体内容，如有纰漏，请多指教 ^ _ ^

fork客户端mac使用教程 xtyzmnchen fork
1:安装fork:https://git-fork.com/2:登录账户,gitlab或者github账户3:克隆:复制服务器地址clone到本地4:gitfetch：相当于是从远程获取最新版本到本地，不会自动mergegitfetchoriginmastergitlog-pmaster..origin/mastergitmergeorigin/master以上命令的含义：首先从远程的origin
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
剑指 Offer II 113. 课程顺序（中等图 bfs 拓扑排序数组哈希表）风雨中de宁静图搜索算法
剑指OfferII113.课程顺序现在总共有numCourses门课需要选，记为0到numCourses-1。给定一个数组prerequisites，它的每一个元素prerequisites[i]表示两门课程之间的先修顺序。例如prerequisites[i]=[ai,bi]表示想要学习课程ai，需要先完成课程bi。请根据给出的总课程数numCourses和表示先修顺序的prerequisites
一个完整的小项目案例，涉及到项目的规划，模块的设计功能的衔接等。 PyAIGCMaster 我的学习笔记学习
以下是一个基于分层架构和模块化设计的项目规划，使用Tkinter作为GUI框架，Playwright进行浏览器操作，SQLite作为数据库：项目结构```web_checker/├──__main__.py#程序入口├──config.py#配置管理├──gui/#图形界面模块│├──__init__.py│└──main_window.py├──services/#业务逻辑│├──__init_
1252. 奇数值单元格的数目 / 剑指 Offer II 113. 课程顺序彼淇梁力扣刷题记录算法 leetcode java 刷题记录
1252.奇数值单元格的数目【简单题】【每日一题】思路：【模拟】定义行数组rows和列数组cols，用来记录当前行的+1次数和当前列的+1次数，遍历indices数组用来给rows和cols赋值。定义奇数值单元格数目为ans，初值为0。那么遍历矩阵每个位置，如果当前行和当前列的+1次数和是奇数，则ans+1代码：classSolution{publicintoddCells(intm,intn,i
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
LoadRunner 11 性能测试全面教程金融先生-Frank
本文还有配套的精品资源，点击获取简介：LoadRunner11（LR11）是HP开发的一款企业级性能测试工具，支持多应用程序类型的负载测试，用于性能评估、瓶颈识别和系统优化。教程详细介绍LR11的组件功能、脚本开发、场景设置、测试执行、结果分析、性能指标监测、故障诊断以及自动化测试等，提供从初级到高级的完整学习路径。1.LoadRunner11(LR11)功能概述LoadRunner11(LR11
mysql数据库应用与开发姜桂洪课后答案_清华大学出版社-图书详情-《MySQL数据库应用与开发》... 韦盛江课后答案
前言Oracle公司的MySQL是目前最流行的关系数据库管理系统之一。MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL数据库以其精巧灵活、运行速度快、经济适用性强、开放源码等优势，作为网站数据库获得许多中小型网站的开发公司的青睐。MySQL性能卓越，搭配PHP和Apache可组成良好的软件开发环境，并且已经大量部署到中小型企业和高校的教学平台。本书从教学实际需求出发，结合
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
Vue.js 中的 Memoization：提升性能的缓存技术 vvilkim vue vue.js 前端 javascript
在现代前端开发中，性能优化是一个永恒的话题。随着应用规模的增大，复杂的计算和频繁的函数调用可能会导致性能瓶颈。Vue.js作为一个流行的前端框架，提供了多种优化手段，其中memoization（记忆化）就是一种非常有效的技术。本文将详细介绍Vue.js中的memoization，以及如何利用它来提升应用性能。什么是Memoization？Memoization是一种优化技术，通过缓存函数的结果来避
Vue.js 性能优化：虚拟 DOM 与虚拟滚动 vvilkim vue vue.js 前端 javascript
在现代前端开发中，性能优化是一个永恒的话题。Vue.js作为一款流行的前端框架，提供了许多强大的工具和技术来提升应用的性能。其中，虚拟DOM和虚拟滚动是两个非常重要的概念。本文将深入探讨它们的原理、优势以及如何在Vue.js中使用它们来优化性能。什么是虚拟DOM？虚拟DOM（VirtualDOM）是Vue.js用于提升性能的核心技术之一。它是一个轻量级的JavaScript对象树，用于表示真实DO
CVPR2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~ 四口鲸鱼爱吃盐文献阅读安全 transformer 深度学习对抗样本神经网络视觉语言模型后门攻击
汇总结果来源：CVPR2025AcceptedPapers若文中出现的论文链接和GitHub链接点不开，则说明还未公布，在公布后笔者会及时添加.若笔者未及时添加，欢迎读者告知.文章根据题目关键词搜索，可能会有遗漏.若笔者出现遗漏，欢迎告知.部分文章还未公布正文，只有名称.MindtheGap：通过查询更新分析检测正在进行中的黑盒对抗攻击MindtheGap:DetectingBlack-boxAd
Leetcode 剑指 Offer II 032. 有效的变位词我不是程序员~~~~ C&C++leetcode 算法职场和发展
给定两个字符串s和t，编写一个函数来判断它们是不是一组变位词（字母异位词）。注意：若s和t中每个字符出现的次数都相同且字符顺序不完全相同，则称s和t互为变位词（字母异位词）。示例1:输入:s="anagram",t="nagaram"输出:true示例2:输入:
剑指 Offer II 061. 和最小的 k 个数对炫云云大数据算法和数据结构 leetcode 算法 python
剑指OfferII061.和最小的k个数对给定两个以升序排列的整数数组nums1和nums2,以及一个整数k。定义一对值(u,v)，其中第一个元素来自nums1，第二个元素来自nums2。请找到和最小的k个数对(u1,v1),(u2,v2)…(uk,vk)。示例1:输入:nums1=[1,7,11],nums2=[2,4,6],k=3输出:[1,2],[1,4],[1,6]解释:返回序列中的前3对
Java多线程与高并发专题——Callable 和 Runnable 的不同？黄雪超技术基础 java 开发语言并发编程
为什么需要Callable？Runnable的缺陷Runnable是JDK1.0就有的，而Callable是JDK1.5新增的，那我们为什么需要Callable？要想回答这个问题，我们先来看看先有的Runnable有哪些缺陷？不能返回一个返回值第一个缺陷，对于Runnable而言，它不能返回一个返回值，虽然可以利用其他的一些办法，比如在Runnable方法中写入日志文件或者修改某个共享的对象的办法
使用大语言模型API在AI应用中的实现 qq_37836323 人工智能语言模型自然语言处理 python
随着人工智能技术的迅速发展，大语言模型（LLM）在自然语言处理（NLP）领域的应用越来越广泛。本文将介绍如何使用大语言模型API来实现一些基础的AI应用，并提供一个简单的demo代码，帮助大家更好地理解和使用这些技术。大语言模型API简介大语言模型（如GPT-4）能够理解和生成类似人类的文本。这些模型可以应用于各种任务，包括文本生成、语言翻译、情感分析、对话系统等。为了方便国内用户访问这些强大的模
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
LeetCode146.LRU 缓存（哈希表+双向链表） techpupil 缓存散列表链表
请你设计并实现一个满足LRU(最近最少使用)缓存约束的数据结构。实现LRUCache类：LRUCache(intcapacity)以正整数作为容量capacity初始化LRU缓存intget(intkey)如果关键字key存在于缓存中，则返回关键字的值，否则返回-1。voidput(intkey,intvalue)如果关键字key已经存在，则变更其数据值value；如果不存在，则向缓存中插入该组k
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
Vscode niuhe 插件使用教程 - xorm 代码生成诗意地回家 niuhe 插件 vscode ide 编辑器
官方教程已经上线,请访问:http://niuhe.zuxing.net本文相关项目:vue3-element-admin基于niuhe插件的管理后台模板niuhe-mdbookniuhe插件示例项目在日常开发中，新增数据库表时通常需要编写大量重复的增删改查代码。为提高开发效率，niuhe插件0.3.4版本新增Xorm基础代码生成功能，可自动生成：数据库表对应的Golang模型结构体基础CURD操
MySQL学习路线蜡笔小新星 MySQL 数据库 mysql 学习经验分享
本专栏纯干货订阅专栏不迷路以下是一个详细的MySQL学习路线，适合从初学者到中高级用户的逐步学习。整个路线分为几个阶段，每个阶段包含了必要的知识点和学习材料。第一阶段：基础知识（1-2周）目标：了解数据库的基本概念，熟悉MySQL的基本用法。学习内容：数据库基础什么是数据库、数据库管理系统（DBMS）数据库的类型（关系型数据库与非关系型数据库）SQL（结构化查询语言）概述MySQL入门MySQL的
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
响应式数据和 Pinia 状态肉肉不吃肉前端 vue.js pinia
响应式数据和Pinia状态是Vue.js应用中用于管理数据的两种重要机制，它们之间有密切的关系。以下是它们的定义、特点以及关系：1.响应式数据定义响应式数据是Vue.js的核心特性之一，指的是当数据发生变化时，视图会自动更新。Vue.js通过Proxy或Object.defineProperty实现数据的响应式。特点自动更新：当数据变化时，依赖该数据的视图会自动更新。声明式：开发者只需关注数据本身
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
手机端Flutter、React Native与原生安卓、iOS交互的方案及设计原理 JafarOne 智能手机 flutter react native Android iOS Java
手机端Flutter、ReactNative与原生安卓、iOS交互的方案及设计说明一、交互方案与代码示例1.Flutter与原生交互方案核心方案：通过MethodChannel和EventChannel实现双向通信。原理：Flutter的Channel机制基于平台信道（如MethodChannel），通过Dart引擎与原生层的二进制消息传递完成调用。原生代码需监听信道，并根据方法名执行操作，结果通
AlphaFolding填补蛋白质动态结构预测空白！复旦大学等提出4D扩散模型，成果入选AAAI 2025 HyperAI超神经 ScienceAI 人工智能深度学习机器学习扩散模型蛋白质结构 AI4S 4D
蛋白质的功能很大程度上取决于其3D结构。19世纪中期，科学界普遍认为蛋白质结构是固定的、刚性的，类似「锁与钥匙」模型(lock-and-keymodel)，即蛋白质与配体的结合是由固定的三维结构决定的。然而，当DanielKoshland提出酶与底物结合时会发生构象变化的观点后，传统思维开始受到挑战。1980年代，分子动力学模拟(MolecularDynamics,MD)兴起，首次从计算角度揭示了
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

基于scrapy框架的爬虫项目（近乎完美的可视化以及分词呈现）

python爬虫项目（完整项目流程以及源码分享）

项目流程大体概述：

你可能感兴趣的:(基于scrapy框架的爬虫项目（近乎完美的可视化以及分词呈现）)