qfliweimin

Golang丨Java丨Python爬虫实战—Boss直聘网站数据抓取

我们分别通过Golang、Python、Java三门语言，分别实现对Boss直聘网站的招聘数据进行爬取。

首先打开Boss直聘网站：

然后我们在职位类型中输入Go或者Golang关键字：

然后我们可以看到一个列表，和Go语言相关的各种招聘职位，还可以不停的下一页。。

那我们现在就来爬取这些数据：我们比较关心这里的职位名称，薪资待遇，工作地点，对于工作经验的要求，学历的要求，公司名称，公司类型，公司发展阶段，公司规模等等。。

一、分析页面

我们通过分析页面的结构发现，页面的职位列表，其实都位于一个ul中的li里，每个页面有30个职位，所以有30个li标签：

打开这个li标签后，里面是div标签嵌套，包括了招聘信息和公司信息：

接下来我们就可以通过代码来爬取这些数据了，首先我们要确定要爬取的第一个url：

https://www.zhipin.com/c101010100/?query=Go&page=1

一共有10页数据，分别通过page=1、2、3。。。来实现，

所以接下来要爬取的url：

https://www.zhipin.com/c101010100/?query=Go&page=2

https://www.zhipin.com/c101010100/?query=Go&page=3

。。。

https://www.zhipin.com/c101010100/?query=Go&page=10

爬取到的数据，我们也不需要处理，打印输出即可。。因为我们只是想看一下几门语言爬取数据在实现上有什么不同。。

好了，现在让我们来开开心心的撸代码吧。。

二、Golang语言实现

使用Go语言来爬取这个页面，github里搜了下，发现goquery这个爬虫包用的人还挺多的，7000多个star，而且是BSD开源协议，于是毫不犹豫的拿来用了。

goquery的使用还是比较简单，按照文档说明一步一步来就可以了：

首先：需要安装

localhost:~ ruby$ go get github.com/PuerkitoBio/goquery

其次：就是去看看goquery的API，先了解一下常用的方法：

https://godoc.org/github.com/PuerkitoBio/goquery

然后就可以开始写代码了：

打开Goland，新建一个go文件:

package main

import (
    "github.com/PuerkitoBio/goquery"
    "log"
    "fmt"
    "strconv"
    "time"
)

func main() {
    url := "https://www.zhipin.com/c101010100/?query=Go&page="
    t := time.Now()
    fmt.Println("============== 千锋教育Go语言开发教学部 职位信息分析 ================")
    for offset := 0; offset < 10; offset++ {
        time.Sleep(1 * time.Second)
        doc, err := goquery.NewDocument(url + strconv.Itoa(offset))
        handleErr(err)
        fmt.Printf("第 %d 页的数据：\n", offset)
        doc.Find(".job-primary").Each(func(i int, selection *goquery.Selection) {
            item := Item{}
            fmt.Printf("职位序号：第%d个职位\n", (i + 1))
            item.position_name = selection.Find("div .job-title").Text()
            fmt.Printf("职位名称：%s\n", item.position_name)
            item.position_salary = selection.Find("div .red").Text()
            fmt.Printf("职位薪酬：%s\n", item.position_salary)
            item.work_address = selection.Find(".info-primary p").Children().Nodes[0].PrevSibling.Data
            fmt.Printf("工作地点：%s\n", item.work_address)
            item.work_experience = selection.Find(".info-primary p").Children().Nodes[0].NextSibling.Data
            fmt.Printf("职位所需工作经历：%s\n", item.work_experience)
            item.education = selection.Find(".info-primary p").Children().Nodes[1].NextSibling.Data
            fmt.Printf("学历要求：%s\n", item.education)
            item.company_name = selection.Find(".company-text .name").Children().First().Text()
            fmt.Printf("公司名称：%s\n", item.position_name)
            item.company_type = selection.Find(".company-text p").Children().Nodes[0].PrevSibling.Data
            fmt.Printf("公司类型：%s\n", item.company_type )
            if selection.Find(".company-text p").Children().Size() == 2 {
                item.company_development_stage = selection.Find(".company-text p").Children().Nodes[0].NextSibling.Data
                fmt.Printf("公司发展阶段：%s\n", item.company_development_stage)
                item.company_size = selection.Find(".company-text p").Children().Nodes[1].NextSibling.Data
                fmt.Printf("公司规模：%s\n", item.company_size )
            } else if selection.Find(".company-text p").Children().Size() == 1 {
                item.company_size = selection.Find(".company-text p").Children().Nodes[0].NextSibling.Data
                fmt.Printf("公司规模：%s\n", item.company_size)
            }
            fmt.Println("================================================================\n")
        })
    }
    elapsed := time.Since(t)
    fmt.Println("app elapsed:", elapsed)
}

type Item struct {
    // 职位名称
    position_name string
    // 职位薪酬
    position_salary string
    //工作地点
    work_address string
    // 职位所需工作经历
    work_experience string
    // 学历要求
    education string
    // 公司名称
    company_name string
    // 公司类型
    company_type string
    // 公司发展阶段
    company_development_stage string
    //公司规模
    company_size string
}

func handleErr(err error) {
    if err != nil {
        log.Fatal(err)
    }
}

一共也就这些代码，加上注释78行。

然后可以运行：（注：由于执行结果过长，为增加可阅读性部分执行结果已经删除处理）

GOROOT=/usr/local/go #gosetup
GOPATH=/Users/ruby/go #gosetup
/usr/local/go/bin/go build -i -o /private/var/folders/kt/nlhsnpgn6lgd_q16f8j83sbh0000gn/T/___go_build_boss_go /Users/ruby/go/src/boss/boss.go #gosetup
/private/var/folders/kt/nlhsnpgn6lgd_q16f8j83sbh0000gn/T/___go_build_boss_go #gosetup
============== 千锋教育Go语言开发教学部 职位信息分析 ================
第 0 页的数据：
职位序号：第1个职位
职位名称：Golang
职位薪酬：25k-50k
工作地点：北京  
职位所需工作经历：5-10年
学历要求：本科
公司名称：京东集团
公司类型：电子商务
公司发展阶段：已上市
公司规模：10000人以上
================================================================

职位序号：第2个职位
职位名称：Golang
职位薪酬：20k-35k
工作地点：北京 朝阳区 亮马桥
职位所需工作经历：3-5年
学历要求：本科
公司名称：平安科技
公司类型：互联网
公司发展阶段：不需要融资
公司规模：1000-9999人
================================================================

职位序号：第3个职位
职位名称：Golang
职位薪酬：20k-30k
工作地点：北京 海淀区 知春路
职位所需工作经历：3-5年
学历要求：本科
公司名称：腾讯科技(北京)公司
公司类型：移动互联网
公司发展阶段：已上市
公司规模：10000人以上
================================================================

职位序号：第4个职位
职位名称：Golang
职位薪酬：20k-40k
工作地点：北京 海淀区 中关村
职位所需工作经历：3-5年
学历要求：本科
公司名称：旷视科技
公司类型：移动互联网
公司发展阶段：C轮
公司规模：1000-9999人
================================================================

职位序号：第5个职位
职位名称：Golang
职位薪酬：20k-40k
工作地点：北京 海淀区 上地
职位所需工作经历：3-5年
学历要求：本科
公司名称：Aibee
公司类型：互联网
公司发展阶段：A轮
公司规模：100-499人
================================================================
.
省略
.
注：由于执行结果过长，为增加可阅读性部分执行结果已经删除处理
.
省略
.
================================================================
职位序号：第25个职位
职位名称：Golang
职位薪酬：20k-35k
工作地点：北京 海淀区 上地
职位所需工作经历：3-5年
学历要求：本科
公司名称：滴滴出行
公司类型：移动互联网
公司发展阶段：D轮及以上
公司规模：1000-9999人
================================================================

职位序号：第26个职位
职位名称：高级软件工程师(Golang)
职位薪酬：30k-50k
工作地点：北京 海淀区 五道口
职位所需工作经历：3-5年
学历要求：学历不限
公司名称：魔门塔科技
公司类型：计算机软件
公司发展阶段：B轮
公司规模：500-999人
================================================================

职位序号：第27个职位
职位名称：京东云golang后端开发工程师
职位薪酬：20k-40k
工作地点：北京 朝阳区 小营
职位所需工作经历：5-10年
学历要求：本科
公司名称：京东集团
公司类型：电子商务
公司发展阶段：已上市
公司规模：10000人以上
================================================================

职位序号：第28个职位
职位名称：Golang开发工程师
职位薪酬：15k-25k
工作地点：北京 海淀区 航天桥
职位所需工作经历：1-3年
学历要求：本科
公司名称：央视网
公司类型：互联网
公司发展阶段：不需要融资
公司规模：1000-9999人
================================================================

职位序号：第29个职位
职位名称：Golang开发工程师
职位薪酬：5k-9k
工作地点：北京 海淀区 大钟寺
职位所需工作经历：1年以内
学历要求：本科
公司名称：卿烨科技
公司类型：互联网
公司发展阶段：A轮
公司规模：100-499人
================================================================

职位序号：第30个职位
职位名称：Golang开发工程师
职位薪酬：30k-60k
工作地点：北京 海淀区 万柳
职位所需工作经历：3-5年
学历要求：本科
公司名称：费曼咨询
公司类型：互联网
公司发展阶段：未融资
公司规模：0-20人
================================================================

app elapsed: 11.074699684s

Process finished with exit code 0

我们可以看到一共花费了11s的时间，但是我们为了防止boss反爬，在程序中设置了，每隔1s中再爬取下个页面，所以减掉9s，真正的爬数据的时间也就2s：

三、Python语言实现

python在爬虫方面还是比较强大的，我选了一个最时髦的框架：scrapy

这个框架虽然说功能很强大，但是用起来还稍微有点麻烦的，不说别的，创建项目就得用终端的scrapy命令创建，而不是IDE直接创建。

所以打开终端，进入python的workspace，输入以下命令：

localhost:~ ruby$ scrapy startproject bossspider

然后通过Pycharm打开这个项目：

先编写items.py文件，就是我们要爬取的数据，需要先在此处定义，然后每一条数据就是一个item：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class BossspiderItem(scrapy.Item):

    # 职位名称
    position_name = scrapy.Field()
    # 职位薪酬
    position_salary = scrapy.Field()
    # 工作地点
    work_address = scrapy.Field()
    # 职位所需工作经历
    work_experience = scrapy.Field()
    # 学历要求
    education = scrapy.Field()
    # 公司名称
    company_name = scrapy.Field()
    # 公司类型
    company_type = scrapy.Field()
    # 公司发展阶段
    company_development_stage = scrapy.Field()
    # 公司规模
    company_size = scrapy.Field()

然后我们打开spiders目录：新建一个py文件：bossspider.py，这里写爬取数据的代码：

# -*- coding: utf-8 -*-
import scrapy
import time
from bossspider.items import BossspiderItem


class BossSpider(scrapy.Spider):
    """
    功能：爬取Boss直聘Golang职位
    """
    # 爬虫名
    name = "bossspider"
    # 爬虫作用范围
    allowed_domains = ["zhipin.com"]

    url = "https://www.zhipin.com/c101010100/?query=Go&page="
    offset = 1
    # 起始url
    start_urls = [url + str(offset)]

    def parse(self, response):
        # items = []
        for each in response.xpath("//div[@class='job-list']/ul//li"):

            item = BossspiderItem()
            # 职位名称
            item['position_name'] = each.xpath(".//div[@class='job-title']/text()").extract()[0]
            print("职位名称：", item['position_name'])
            # 职位薪酬
            item['position_salary'] = each.xpath(".//span[@class='red']/text()").extract()[0]
            print("职位薪酬：", item['position_salary'])
            # 工作地点
            item['work_address'] = each.xpath(".//div[@class='info-primary']/p/text()").extract()[0]
            print("工作地点：", item['work_address'])
            # 职位所需工作经历
            item['work_experience'] = each.xpath(".//div[@class='info-primary']/p/text()").extract()[1]
            print("职位所需工作经历：", item['work_experience'])
            # 学历要求
            item['education'] = each.xpath(".//div[@class='info-primary']/p/text()").extract()[2]
            print("学历要求：", item['education'])
            # 公司名称
            item['company_name'] = each.xpath(".//div[@class='company-text']/h3//text()").extract()[0]
            print("公司名称：", item['company_name'])
            company_info = each.xpath(".//div[@class='company-text']/p/text()").extract()

            # print("====>>长度：", len(company_info))
            # 公司类型
            item['company_type'] = company_info[0]
            if len(company_info) == 3:
                # 公司发展阶段
                item['company_development_stage'] = company_info[1]
                print("公司发展阶段：", item['company_development_stage'])
                # 公司
                item['company_size'] = company_info[2]
                print("公司规模：", item['company_size'])
            else:
                # 公司规模
                item['company_size'] = company_info[1]
                print("公司规模：", item['company_size'])
            yield item

        if self.offset < 10:
            self.offset += 1
            print("---->", self.url+str(self.offset))
            time.sleep(1)
        yield scrapy.Request(self.url + str(self.offset), callback=self.parse)

        # return items

然后修改setting.py文件，设置请求头等等：

# -*- coding: utf-8 -*-

# Scrapy settings for bossspider project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'bossspider'

SPIDER_MODULES = ['bossspider.spiders']
NEWSPIDER_MODULE = 'bossspider.spiders'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# 设置item——pipelines
ITEM_PIPELINES = {
   'bossspider.pipelines.BossspiderPipeline': 300,
}

# 设置请求头部，添加url
DEFAULT_REQUEST_HEADERS = {
    "User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
}

为了能够在爬取数据的时候，统计程序耗时，我们还可以修改scrapy的包文件：corestats.py

    def spider_opened(self, spider):
        self.start = time.time()
        start_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(self.start))  # 转化格式
        self.stats.set_value('start_time', start_time, spider=spider)

    def spider_closed(self, spider, reason):
        self.end = time.time()
        finish_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(self.end))  # 转化格式
        self.stats.set_value('finish_time', finish_time, spider=spider)
        self.stats.set_value('finish_reason', reason, spider=spider)

        # 这是计算此时运行耗费多长时间，特意转化为 时:分:秒
        Total_time = self.end - self.start
        m, s = divmod(Total_time, 60)
        h, m = divmod(m, 60)
        self.stats.set_value('Total_time', "共耗时===>%d时:%02d分:%02d秒" % (h, m, s), spider=spider)

然后运行一下程序，打开终端，输入以下命令：

hanru-3:bossspider ruby$ scrapy crawl bossspider

或者：

hanru-3:bossspider ruby$ scrapy crawl bossspider -o boss.json

表示把爬取的数据导出到boss.json文件中。

共耗时12s，同样也是减掉9s的睡眠时间，耗时3s。

四、Java语言实现

Java的爬虫，我们可以通过Jsoup库来辅助我们实现Java语言的编程实现）。

先创建Java工程，然后下载Jsoup.jar源码库并添加到Java工程中的libs中，并添加成为library。

接着创建Item类，因为Java是面向对象的语言，所以我们先创建一个类，用于封装下载后的数据：

package com.javahook.boss;

//爬取数据后构建对象
public class Item {
    // 职位名称
    private String positionName;
    // 职位薪酬
    private String positionSalary;
    // 工作地点
    private String workAddress;
    // 职位所需工作经历
    private String workExperience;
    //学历要求
    private String education;
    // 公司名称
    private String companyName;
    // 公司类型
    private String companyType;
    //公司发展阶段
    private String companyDevelopmentStage;
    //公司规模
    private String companySize;

    public String getPositionName() {
        return positionName;
    }

    public void setPositionName(String positionName) {
        this.positionName = positionName;
    }

    public String getPositionSalary() {
        return positionSalary;
    }

    public void setPositionSalary(String positionSalary) {
        this.positionSalary = positionSalary;
    }

    public String getWorkAddress() {
        return workAddress;
    }

    public void setWorkAddress(String workAddress) {
        this.workAddress = workAddress;
    }

    public String getWorkExperience() {
        return workExperience;
    }

    public void setWorkExperience(String workExperience) {
        this.workExperience = workExperience;
    }

    public String getEducation() {
        return education;
    }

    public void setEducation(String education) {
        this.education = education;
    }

    public String getCompanyName() {
        return companyName;
    }

    public void setCompanyName(String companyName) {
        this.companyName = companyName;
    }

    public String getCompanyType() {
        return companyType;
    }

    public void setCompanyType(String companyType) {
        this.companyType = companyType;
    }

    public String getCompanyDevelopmentStage() {
        return companyDevelopmentStage;
    }

    public void setCompanyDevelopmentStage(String companyDevelopmentStage) {
        this.companyDevelopmentStage = companyDevelopmentStage;
    }

    public String getCompanySize() {
        return companySize;
    }

    public void setCompanySize(String companySize) {
        this.companySize = companySize;
    }
}

然后我们创建一个带main()的java文件，来编写爬虫的代码：

package com.javahook.boss;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * Boss直聘网站职位信息爬取代码实现
 */
public class HookBoss {

    public static void main(String[] args) {

        long start = System.currentTimeMillis();

        int jobSum = 0;
        //总共爬取10页内容
        for (int i = 0; i < 10; i++) {
            try {
                jobSum += hookJobInfo(i);
                Thread.sleep(1000);
            } catch (Exception e) {
                e.printStackTrace();
                System.out.println(" 职位爬取中断，检查程序是否有错误并重新爬取。");
            }
        }

        System.out.println("职位数量：" + jobSum);
        System.out.println();

        long end = System.currentTimeMillis();

        System.out.println("本次爬取共计耗时：" + ((float) (end - start)) / 1000 + "s");
    }

    /**
     * 爬取页面的方法
     *
     * @param pageNumber 爬取也页码
     * @return
     */
    private static int hookJobInfo(int pageNumber) throws IOException {

        //Boss直聘职位信息url
        String url = "https://www.zhipin.com/c101010100/?query=Go&page=1&ka=page-1";

        //使用Jsoup库来对特定的url进行直接请求 抛出异常
        Document doc = Jsoup.connect(url).get();

        Elements jobElements = doc.getElementsByClass("job-list");
        Element jobListElement = jobElements.get(0);

        Element ulElement = jobListElement.getElementsByTag("ul").first();
        int jobSize = ulElement.childNodeSize() / 2;//因为标签是开标签和闭标签对称的，因此职位的数量应该是1/2；

        for (int i = 0; i < jobSize; i++) {
            Item item = new Item();
            Element jobElement = ulElement.child(i);
            System.out.println("============== 千锋教育Go语言开发教学部 职位信息分析 ================");
            System.out.println("职位序号：第" + (i + 1) + "个职位");
            Element jobTitle = jobElement.getElementsByClass("job-title").first();
            item.setPositionName(jobTitle.text());
            System.out.println("职位名称：" + item.getPositionName());
            Element jobSalary = jobElement.getElementsByClass("red").first();
            item.setPositionSalary(jobSalary.text());
            System.out.println("职位薪酬：" + item.getPositionSalary());
            Element elJob = jobElement.getElementsByTag("p").first();
            item.setWorkAddress(elJob.childNode(0).toString());
            System.out.println("工作地点：" + item.getWorkAddress());
            item.setWorkExperience( elJob.childNode(2).toString());
            System.out.println("职位所需工作经历：" +item.getWorkExperience());
            item.setEducation( elJob.childNode(4).toString());
            System.out.println("学历要求：" +item.getEducation());
            //公司信息
            Element companyElement = jobElement.getElementsByClass("info-company").first();
            Element companyName = companyElement.getElementsByClass("name").first();
            System.out.println("公司名称：" + companyName.text());
            //公司 类型、发展阶段、规模等相关信息的解析
            Element companyEl = companyElement.getElementsByTag("p").first();
            int companyInfoLength = companyEl.childNodeSize();
            for (int j = 0; j < companyInfoLength; j++) {
                String info = companyEl.childNode(j).toString();
                if (!"".equals(info)) {
                    switch (j) {
                        case 0:
                            item.setCompanyType(companyEl.childNode(0).toString());
                            System.out.println("公司类型：" + item.getCompanyType());
                            break;
                        case 2:
                            item.setCompanyDevelopmentStage(companyEl.childNode(2).toString());
                            System.out.println("公司发展阶段：" + item.getCompanyDevelopmentStage());
                            break;
                        case 4:
                            item.setCompanySize(companyEl.childNode(4).toString());
                            System.out.println("公司规模：" + item.getCompanySize());
                            break;
                        default:
                            break;
                    }
                }
            }
            System.out.println("================================================================\n\n");
        }
        return jobSize;
    }
}

因为我们对数据没有什么处理，所以边封装就边打印查看了。

这个速度还是有点意思的。。

五、对比

从代码量上可以看得出来Go语言是最少的，尤其的简洁。。

从运行速度上可以看出来Go语言是执行最快的，耗时最短。。

然后每个语言也都有着不同的优缺点，所以也有着各自的发展领域。

如何优化项目预算编制？关键步骤解析项目管理项目管理工具项目资金
在项目管理中，资金管理是确保项目顺利进行的关键因素之一。项目资金管理的主要办法和原则包括：预算编制、资金使用监控、风险控制、财务透明度、及时报告和审计。其中，预算编制是项目资金管理的基础，它涉及到对项目所需资金的合理预测和分配。有效的预算编制不仅能帮助项目团队合理配置资源，还能为项目的成功实施提供保障。一、预算编制的重要性预算编制是项目资金管理的首要步骤，它直接影响到项目的整体执行和结果。一个合理
项目范围管理的最佳实践：避免软件项目膨胀项目管理软件
在软件项目管理中，有效的项目范围管理是防止项目过度膨胀的关键。项目范围管理不仅涉及到项目的初步定义，还包括对项目需求的持续监控和控制。通过明确项目目标、合理规划资源、及时调整需求，可以有效避免项目在实施过程中出现范围蔓延的现象。特别是在软件开发中，需求的不断变化和增加往往会导致项目延期和成本超支。因此，建立清晰的项目范围界限、与利益相关者保持良好的沟通、定期进行项目审查是确保项目成功的必要措施。一
【Linux】 Linux下载RabbitMQ，并解决Github拒绝访问443的问题 wy02_ linux rabbitmq github
RabbitMQLinux下载资源时，GitHub网站443拒绝访问例如无法直接使用下面命令rpm--importhttps://github.com/rabbitmq/signing-keys/releases/download/2.0/rabbitmq-release-signing-key.asc在Linux中无法访问Github(外网)资源的都可以采用以下类似的方式首先我们可以访问http
分布式资源管理和调度架构 johnny233 架构架构
概述不管是计算任务还是数据存储都会涉及资源分配，资源包括但不限于硬件资源如CPU、内存、硬盘、网口。在单机环境中，资源管理相对简单；分布式环境中，资源分布相对分散，如何协调资源应对计算任务和数据存储就是亟待解决的问题。资源管理和调度是将计算任务分配到资源的过程，为了处理并发的计算任务，系统会通过集群的方式组织资源。集群中的资源可以按照服务器或者虚拟机的方式划分。注：本文是《分布式架构原理与实践》的
ArcGIS API for JavaScript获取和配置-ArcGIS Web 开发学习（一）大海上飞翔 ArcGIS Web API javascript arcgis
ArcGISAPIforJavaScript获取和配置最近开始学习WebGIS开发，刚一接触就很是让人恼火，第一个问题就是：ArcGISAPIforJavaScript库和SDK的获取。（1）我直接访问的是ARCGIS的资源中心：http://resources.arcgis.com/zh-cn/home/，点击JavaScript，出现以下页面：https://developers.arcg
VPN是什么？高校为什么用？创意锦囊网络
虚拟专用网络（VPN）：隐私保护与安全上网的利器随着互联网的普及和网络安全威胁的增加，越来越多的人开始关注如何在网上保护自己的隐私和安全。虚拟专用网络（VPN，VirtualPrivateNetwork）作为一种有效的解决方案，正受到广泛关注和使用。本文将详细介绍VPN的工作原理及其优势，帮助您全面了解VPN的功能和应用场景。VPN的工作原理VPN是一种通过加密隧道技术将用户的设备与互联网资源连接
【水果识别】SVM水果成熟检测系统（含苹果香蕉橙子）【含GUI Matlab源码 11052期】含报告 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
Matlab武动乾坤博客之家博主简介：985研究生，Matlab领域科研开发者；座右铭：行百里者，半于九十。代码获取方式：CSDNMatlab武动乾坤—代码获取方式更多Matlab图像处理仿真内容点击①Matlab图像处理（进阶版）⛳️关注CSDNMatlab武动乾坤，更多资源等你来！！⛄一、SVM水果成熟检测系统SVM（支持向量机）水果成熟检测系统的原理和流程如下：原理：1SVM是一种监督学习算
【云原生布道系列】第三篇：“软”饭“硬”吃的计算江中散人云原生-IaaS专栏云原生云计算
1虚拟化技术定义首先援引一段《虚拟化技术发展编年史》中针对虚拟化技术的定义：在计算机科学中，虚拟化技术（Virtualization）是一种资源管理（优化）技术，将计算机的各种物理资源（例如CPU、内存、磁盘空间，以及网络适配器等I/O设备）予以抽象、转换，然后呈现出一个可供分割并任意组合为一个或多个（虚拟）计算机的配置环境。虚拟化技术打破了计算机内部硬件实体结构不可分割的物理实体障碍，使用户能够
day 21 qq_50996930 Go语言基础 go 学习
进程、线程、协程的区别进程：操作系统分配资源的最小单位，其中可以包含一个或者多个线程，进程之间是独立的，可以通过进程间通信机制（管道，消息队列，共享内存，信号量，信号，socket套接字）通信，进程的切换涉及到许多资源耗费时间多。线程：轻量级的进程，一个进程之间可以有多个线程，系统调度的最小单位，多个线程之间共享一部分进程的资源，有线程独立的线程栈，程序计数器，寄存器等。可以通过共享内存通信，相对
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比不二人生 #数据集成工具 SeaTunnel
文章目录SeaTunnel与DataX、Sqoop、Flume、FlinkCDC对比同类产品横向对比2.1、高可用、健壮的容错机制2.2、部署难度和运行模式2.3、支持的数据源丰富度2.4、内存资源占用2.5、数据库连接占用2.6、自动建表2.7、整库同步2.8、断点续传2.9、多引擎支持2.10、数据转换算子2.11、性能2.12、离线同步2.13、增量同步&实时同步2.14、CDC同步2.15
什么是ShardingSphere的关联表？ java1234_小锋 java ShardingSphere
大家好，我是锋哥。今天分享关于【什么是ShardingSphere的关联表？】面试题。希望对大家有帮助；什么是ShardingSphere的关联表？1000道互联网大厂Java工程师精选面试题-Java资源分享网在ShardingSphere中，关联表（也叫做跨库跨表查询）是指多个表之间通过关联查询而涉及到的表。当你在进行数据库分片时，可能会遇到多个表需要通过外键、联合查询等方式进行连接的情况。S
MySQL有哪些高可用方案? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【RMySQL有哪些高可用方案?】面试题。希望对大家有帮助；MySQL有哪些高可用方案?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL的高可用方案可以帮助确保数据库在发生故障时仍能持续提供服务，避免单点故障带来的影响。以下是一些常见的MySQL高可用方案：1.主从复制（Master-SlaveReplication）概述：主从复制是最常见的
RocketMQ如何保证消息顺序？ java1234_小锋 java rocketmq
大家好，我是锋哥。今天分享关于【RocketMQ如何保证消息顺序？】面试题。希望对大家有帮助；RocketMQ如何保证消息顺序？1000道互联网大厂Java工程师精选面试题-Java资源分享网RocketMQ是阿里巴巴开源的一款分布式消息队列，它能够保证消息的顺序性。为了保证消息顺序，RocketMQ采用了特定的机制和设计。具体来说，RocketMQ主要通过以下几个方式来确保消息的顺序：1.消息的
鸿蒙 er 紧急集合！贡献你的鸿蒙开发工具，赢取大赶集好礼
在科技浪潮中，鸿蒙生态正以破竹之势迅猛前行，蓬勃发展。鸿蒙开发工具广场社区作为鸿蒙开发实用工具的汇聚高地，一直致力于为开发者们打造一个资源丰富、高效便捷的交流平台。2025年开春之际，Gitcode诚邀广大开发者参与“鸿蒙开发工具大赶集”活动，将平时鸿蒙开发过程中的经验工具化，助力更多开发者高效地开发鸿蒙应用。欢迎扫描下方海报中的二维码加入此次活动，一同为鸿蒙生态的繁荣添砖加瓦.
ctr、crictl和nerdctl命令介绍与常用命令列表篙芷容器
ctr、crictl和nerdctl命令区分ctr工具ctr是containerd提供的官方CLI（命令行工具），主要用于与containerd守护进程交互。它允许用户直接操作容器、镜像和任务等资源，是containerd的核心管理工具之一。crictl工具crictl是一个遵循CRI（ContainerRuntimeInterface）规范的命令行工具，用于检查和调试Kubernetes集群中的
ITIL运维管理体系是什么？怎样选择合适的方案？运维
ITIL是一组综合的最佳实践，用于帮助企业向客户交付IT服务。ITIL使企业组织能够根据业务需求调整IT资源，从而使客户价值最大化。它通过衡量、监控、优化IT服务与服务提供商的表现来降低成本，并向企业展示如何轻松地实现标准化服务管理。虽然每个企业组织在IT基础设施和治理方面都不相同，但ITIL的指导方针足够灵活，可以帮助任何企业组织实现其服务管理目标。高效的IT运维管理对于企业的稳定运行至关重要。
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
RocketMQ的集群架构是怎样的? java1234_小锋 java java-rocketmq rocketmq 架构
大家好，我是锋哥。今天分享关于【RocketMQ的集群架构是怎样的?】面试题。希望对大家有帮助；RocketMQ的集群架构是怎样的?1000道互联网大厂Java工程师精选面试题-Java资源分享网RocketMQ是阿里巴巴开源的分布式消息中间件，广泛用于处理高吞吐量、高可用的消息队列服务。它的集群架构设计非常注重高可用性、可扩展性和高效性。以下是RocketMQ的集群架构主要组件和工作原理：1.集
2025年上海市专精特新中小企业申报条件（专精特新认定要求）项目申报-华夏泰科人工智能
2025年上海市专精特新中小企业的申报工作即将展开，这一认定旨在鼓励和支持中小企业走专业化、精细化、特色化、新颖化的发展道路。申报条件及认定要求对于企业来说是至关重要的，它们不仅决定了企业是否能够获得这一殊荣，还关系到企业能否享受到相关的政策扶持和资源倾斜。因此，详细了解和准备申报条件是企业参与认定的首要步骤。2025年上海市专精特新中小企业的申报条件和认定要求如下：一、申报条件1、注册与法人资格
Vue：现代前端开发的首选框架-【应用篇】行动π技术博客 vue.js 前端 javascript
引言在现代前端开发中，Vue.js以其轻量、灵活和易学的特性成为开发者的热门选择。本文将深入探讨Vue.js的核心优势，与React和Angular的比较，前端工程化的最佳实践，性能优化的关键策略，测试驱动开发（TDD）的实施方法，以及Vue.js生态系统的强大工具和资源。Vue.js与React和Angular的深度比较Vue.js的核心优势学习曲线：Vue.js的设计哲学使得新手能够快速上手，
探索MIPI D-PHY V1.2规范：深入了解高速数据传输技术葛津旗Timekeeper
探索MIPID-PHYV1.2规范：深入了解高速数据传输技术【下载地址】MIPID-PHY规范V1.2资源下载-**文件名**:MIPI_D-PHY_Spec_V1.2.pdf-**内容**:该文件包含了MIPI联盟D-PHYV1.2规范的详细信息，涵盖了D-PHY的技术细节、协议、应用场景等内容。-**价值**:这份资料在全网非常罕见，对于从事相关领域的工程师、研究人员或学生来说，具有极高的参考
Python读取通达信日线数据（.day文件）逝去的紫枫 Python python
Python读取通达信日线数据（.day文件）1.day文件位置2.day文件内容的构成3.Python代码识别day文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如日线数据文件.day）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.day文件位置通达信日线数
如何优化物流库存规划？4个工具助力精准需求预测与资源配置物流系统团队协作
在物流管理的庞大体系中，库存管理占据着举足轻重的地位。它不仅直接影响着企业的运营成本和客户服务水平，还与整个供应链的稳定性和效率紧密相连。从库存的规划、采购、存储到配送，每一个环节都需要精细把控，以实现资源的优化配置和效益的最大化。接下来，我们将深入探讨物流库存管理中的关键要点、相关实用工具以及风险应对策略，尤其会着重突出板栗看板在其中的重要作用。一、物流库存管理流程解析（一）库存规划与需求预测库
域名重定向怎么设置？设置后为什么打不开？域名域名配置重定向
在互联网的世界中，域名重定向是一种常见的操作，它能够帮助网站管理者更好地管理域名资源，提升用户体验。简单来说，域名重定向就是将一个域名指向另一个域名或者网页地址，当用户访问原域名时，会自动跳转到指定的目标地址。然而，在进行域名重定向设置的过程中，可能会遇到设置后打不开网页的情况，下面我们就来详细探讨一下域名重定向的设置方法以及设置后打不开的原因。一、域名重定向的设置方法（一）通过DNS设置许多域名
Python读取通达信一分钟K线数据（.lc1文件）逝去的紫枫 Python python
Python读取通达信一分钟K线数据（.lc1文件）1.lc1文件位置2.lc1文件内容的构成3.Python代码识别lc1文件4.将识别结果输出为csv文件5.最终结果展示在金融数据分析中，通达信软件提供的数据文件（如1分钟K线数据文件.lc1）是非常宝贵的资源。本文将详细介绍如何使用Python读取和解析这些文件，并将解析结果输出为CSV文件，以便进行进一步的数据分析和处理。1.lc1文件位置
开发者可以利用DNS做什么？
域名服务（DNS）是互联网上用于将域名和IP地址相互映射的一个系统，它使得用户可以通过易于记忆的域名来访问互联网上的资源，而不需要记住复杂的IP地址。可以说任何需要在互联网上拥有可访问地址的个人或组织都需要使用域名服务。域名系统（DNS）对于开发者来说有许多重要的用途：一、网站开发与部署方面域名解析开发者可以通过DNS将易于用户记忆的域名（如example.com）转换为计算机能够理解的IP地址（
人工智能时代，企业如何搭建自己的AI知识库知识库知识库管理知识库软件
随着人工智能技术的迅猛发展，企业越来越意识到构建AI知识库的重要性。AI知识库不仅能够高效管理企业的海量知识资源，还能通过智能检索和推荐，提升员工的工作效率，促进企业的创新与发展。本文将详细探讨企业如何搭建自己的AI知识库，包括前期准备、技术选型、构建过程及后续维护等方面。一、前期准备在构建AI知识库之前，企业需要进行充分的前期准备，明确需求和目标。确定需求和目标企业首先需要明确知识库的服务对象、
网络安全：信息时代的守护者我是章汕呐网络
随着互联网的快速发展，网络安全问题日益成为全球关注的焦点。无论是个人用户、企业组织还是政府部门，网络安全都已成为保障信息安全、保护隐私、确保社会秩序的基石。在这个数字化时代，如何应对复杂多变的网络安全威胁，成为了我们共同的挑战。一、网络安全的现状与挑战网络安全是指通过各种技术手段、管理措施和策略，确保网络系统的稳定运行、数据传输的安全、信息资源的保密性以及用户隐私的保护。然而，随着技术的进步，网络
开发经验及方法导读盒子君~ #算法机器人系统架构
文章目录前言一、搭建工程开发环境专题三方库的调用方法二、代码程序设计专题1、C++开发知识树的阶段2、程序设计Kiss原则3、数据结构与语法规范4、CPP代码检查工具5、架构模式设计层（设计模式）6、代码重构7、代码设计模式--如何提高代码的运行效率、可读性、可维护性、健壮性？8、【C++RAII机制】将资源用类进行封装起来，做到资源创建即完成初始化，使用完资源即自动销毁9、源代码封装成库Lib的
垃圾佬-万兆网络整体改造 FUNNET超有趣网络网络协议网络安全
1.需求1）服务器硬盘偶尔出现故障，需要硬盘冗余2）某台服务器需要大量的硬盘空间，有些服务器又不需要大硬盘，硬盘使用不够充分3）手工调整CPU、内存资源，需要进行迁移虚拟机环境，往往迁移就要一个多小时4）某台服务器挂掉，不能迅速启用。5）折腾使用快乐。。。。服务器插内存2.拓扑3.购买设备网络万兆升级、服务器万兆网卡、服务器购买。在预算有限情况精力做到满足需求的基础上做到未来可扩容。3.1.万兆交
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D