昕光xg

golang笔记15--go 语言单任务版爬虫

1 介绍
2 单任务版爬虫
- 2.1 获得初始页面内容
- 2.2 正则表达式
- 2.3 提取城市和 url
- 2.4 单任务版爬虫的架构
- 2.5 Engine 与 Parser
- 2.6 测试 CityListParser
- 2.7 城市解析器
- 2.8 用户信息解析器（上）
- 2.9 用户信息解析器（下）
- 2.10 单任务版爬虫性能
3 注意事项
4 说明

1 介绍

本文继上文 golang笔记14-go 语言爬虫实战项目介绍，进一步了解 go 语言单任务版爬虫项目，以及相应注意事项。
具体包括: 获得初始页面内容、正则表达式、提取城市和 url、单任务版爬虫的架构、Engine 与 Parser、测试 CityListParser、城市解析器、用户信息解析器（上）、用户信息解析器（下）、单任务版爬虫性能等内容。

2 单任务版爬虫

2.1 获得初始页面内容

暂时设定单任务爬虫功能为：获取并打印所有城市第一页用户的详细信息；
因此需要先获取所有城市信息，此处可以通过 http://www.zhenai.com/zhenghun 页面获取，以下为该主页的获取方式：

1) 添加字符转换库
go get golang.org/x/text
go get golang.org/x/net/html

2) 爬取主页信息
vim main.go
package main

import (
	"bufio"
	"fmt"
	"io"
	"io/ioutil"
	"net/http"

	"golang.org/x/net/html/charset"
	"golang.org/x/text/transform"

	"golang.org/x/text/encoding"
)

func determineEncoding(r io.Reader) encoding.Encoding {
     
	bytes, err := bufio.NewReader(r).Peek(1024)
	if err != nil {
     
		panic(err)
	}
	e, _, _ := charset.DetermineEncoding(bytes, "")
	return e
}

func main() {
     
	request, err := http.NewRequest(http.MethodGet, "http://www.zhenai.com/zhenghun", nil)
	request.Header.Add("User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36")
	resp, err := http.DefaultClient.Do(request)
	if err != nil {
     
		panic(err)
	}
	defer resp.Body.Close()
	e := determineEncoding(resp.Body)
	utf8Reader := transform.NewReader(resp.Body, e.NewDecoder())
	// all, err := httputil.DumpResponse(resp, true)
	all, err := ioutil.ReadAll(utf8Reader)
	if err != nil {
     
		panic(err)
	}
	fmt.Printf("%s\n", all)
}

2.2 正则表达式

获取城市主页之后，就需要进一步获取所有城市的名称和链接，常见获取的方式包括：

使用 css 选择器
在网页界面右键-》Inspect-》Elements 下找到对应的table -》class=“city-list clearfix” -》Copy -》copy selector；
进入Console，将上面copy 的 selector 的内容作为一个变量执行，即可获得对应的城市信息，如下图所示：

$('#app > article:nth-child(4) > dl')
通过css 选择器可以发现当前共有 22 个首字母栏目，共 470 个城市
```![在这里插入图片描述](https://img-blog.csdnimg.cn/20210219015855502.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTExMjcyNDI=,size_16,color_FFFFFF,t_70#pic_center)

使用 xpath 选择器
当前网页的模式暂不支持，可以通过出现xpath相关的库来实现，此处暂时不介绍。
使用正则表达式
获取网页内容后，直接通过正则表达式获取所需要的内容，本案例就是通过正则表达式来实现的。

以下为go语言正则匹配案例：

package main

import (
	"fmt"
	"regexp"
)

// 使用 ` raw 内容` 后，内部的字符串不会收到转义的影响
const text = `
my email is [email protected]@abc.com
email1 is [email protected]
email2 is    [email protected]
email3 is [email protected]
`

func myRegexp1() {
     
	fmt.Println("this myRegexp1")
	text := "my email is [email protected]@abc.com"
	re := regexp.MustCompile(".*@gmail.com")
	match := re.FindString(text)
	fmt.Println(match)
}
func myRegexp2() {
     
	fmt.Println("this myRegexp2")
	text := "my email is [email protected]@abc.com"
	re := regexp.MustCompile("[a-zA-Z0-9][email protected]") //以字母或者数字开通，紧接着为@，因此会过滤掉空格符和前面的内容
	match := re.FindString(text)
	fmt.Println(match)
}
func myRegexp3() {
     
	fmt.Println("this myRegexp3")
	re := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9.]+)`)
	match := re.FindAllStringSubmatch(text, -1)
	for _, m := range match {
     
		fmt.Println(m)
	}
}

func main() {
     
	myRegexp1()
	myRegexp2()
	myRegexp3()
}
输出：
this myRegexp1
my email is ccmouse@gmail.com
this myRegexp2
ccmouse@gmail.com
this myRegexp3
[ccmouse@gmail.com ccmouse gmail .com]
[abc@def.org abc def .org]
[kkk@qq.com kkk qq .com]
[ddd@abc.com.cn ddd abc .com.cn]

2.3 提取城市和 url

获取网页后，可以在输出中 copy 一条城市链接信息，根据正则提取城市名称和城市 url，具体案例如下：

vim main.go
package main

import (
	"bufio"
	"fmt"
	"io"
	"io/ioutil"
	"net/http"
	"regexp"

	"golang.org/x/net/html/charset"
	"golang.org/x/text/transform"

	"golang.org/x/text/encoding"
)

func determineEncoding(r io.Reader) encoding.Encoding {
     
	bytes, err := bufio.NewReader(r).Peek(1024)
	if err != nil {
     
		panic(err)
	}
	e, _, _ := charset.DetermineEncoding(bytes, "")
	return e
}

func printCityList(contents []byte) {
     
	re := regexp.MustCompile(`]*>([^<]+)`) // 加了括号后就会提取括号内的内容
	matches := re.FindAllSubmatch(contents, -1)
	for _, m := range matches {
     
		fmt.Printf("City: %s, URL: %s\n", m[2], m[1])
	}
	fmt.Println("Matches found:", len(matches))
}

func main() {
     
	request, err := http.NewRequest(http.MethodGet, "http://www.zhenai.com/zhenghun", nil)
	request.Header.Add("User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36")
	resp, err := http.DefaultClient.Do(request)
	if err != nil {
     
		panic(err)
	}
	defer resp.Body.Close()
	e := determineEncoding(resp.Body)
	utf8Reader := transform.NewReader(resp.Body, e.NewDecoder())
	all, err := ioutil.ReadAll(utf8Reader)
	if err != nil {
     
		panic(err)
	}
	printCityList(all)
}
输出：
City: 阿坝, URL: http://www.zhenai.com/zhenghun/aba
City: 阿克苏, URL: http://www.zhenai.com/zhenghun/akesu
......
City: 资阳, URL: http://www.zhenai.com/zhenghun/ziyang1
City: 遵义, URL: http://www.zhenai.com/zhenghun/zunyi
Matches found: 470

2.4 单任务版爬虫的架构

对不同模块设置不同的解析器，此处根据需要设置城市列表解析器、城市解析器和用户解析器；
城市列表解析器：解析城市信息，提取出城市名称、城市url；
城市解析器：解析出城市中所有用户的名称和用户的 url 信息；
用户解析器：解析用户的各类信息，包括姓名、年龄、少、体重、收入、性别、星座、职业等具体信息；

由于需要设置多个解析器，此处单独抽象出解析器 parser:
输入： uft-8 编码的文本；
输出： Request{URL，对应的Parser} 列表， Item 列表；

抽象出 Parser 后，我们再添加Seed、Engine、 Fetcher 和任务队列，就可以构建出如下的单任务爬虫架构。其工作流程如下图所示：
engine 用于驱动所有的动作；
种子页面用于触发一系列爬虫任务；
种子页面触发爬虫任务后，engine就会将任务丢到对应的队列中；
engine 会不停的从队列中去除任务，并将其丢给 Fetcher，Fetcher 就返回指定的utf8文本给engine；
engine 收到 Fetcher 的数据后，让 Parser 解析数据，Parser 提取出有用的item数据并存放到指定db，并把相关的目标(例如潜在的用户 url )返回给Engine，从而继续提供新任务；
当任务队列为空后，就可以结束单词爬取任务了；

2.5 Engine 与 Parser

本节继续对模块进行优化和完善，继续抽象出 engine， fetcher，parser等模块，并大幅优化 main.go 函数；具体优化如下：

/learngo/crawler$ tree -L 3
.
├── engine
│   ├── engine.go
│   └── types.go
├── fetcher
│   └── fetcher.go
├── mian.go
└── zhenai
    └── parser
        └── citylist.go

4 directories, 5 files
更新代码比较多，此处暂不逐一贴出：

vim engine/engin.go 
func Run(seeds ...Request)

vim engine/types.go 
type Request struct
type ParseResult struct
func NilParser([]byte) ParseResult

vim fetcher/fetcher.go 
func determineEncoding(r io.Reader) encoding.Encoding
func Fetch(url string) ([]byte, error)

vim zhenai/parser/citylist.go 
func ParseCityList(contents []byte) engine.ParseResult

vim main.go
package main

import (
	"learngo/crawler/engine"
	"learngo/crawler/zhenai/parser"
)

func main() {
     
	url := "http://www.zhenai.com/zhenghun"
	engine.Run(engine.Request{
     Url: url, ParserFunc: parser.ParseCityList})
}
输出：
2021/02/19 10:10:48 Fetching http://www.zhenai.com/zhenghun
2021/02/19 10:10:49 Get item: 阿坝
2021/02/19 10:10:49 Get item: 阿克苏
......
2021/02/19 10:10:49 Get item: 资阳
2021/02/19 10:10:49 Get item: 遵义
2021/02/19 10:10:49 Fetching http://www.zhenai.com/zhenghun/aba
2021/02/19 10:10:49 Fetching http://www.zhenai.com/zhenghun/akesu
......
2021/02/19 10:12:32 Fetching http://www.zhenai.com/zhenghun/ziyang1
2021/02/19 10:12:32 Fetching http://www.zhenai.com/zhenghun/zunyi

2.6 测试 CityListParser

上一小节已经完成了基础的 citylist 解析，因此可以使用之前 golang笔记09–go语言测试与性能调优中的方法对其进行测试。

测试时，正常情况下下直接获取网页数据，然后和测试结果进行对比，并得出测试结论；
但是考虑到网络情况(存在断网或者暂时无法连外网的情况)，可以先将目标网页保存到本地，然后再通过解析本地文件来测试；
本案例中就是使用第二种方式测试的，测试中暂且选取了 3 个测试用例。

vim zhenai/parser/citylist_test.go 
package parser

import (
	"io/ioutil"
	"testing"
)

func TestParseCityList(t *testing.T) {
     
	/* 预先获取数据，复制到 citylist_test_data.html 中，以便于后续测试对比
	contents, err := fetcher.Fetch("http://www.zhenai.com/zhenghun")
	if err != nil {
		panic(err)
	}
	fmt.Printf("%s\n", contents)
	*/
	contents, err := ioutil.ReadFile(
		"citylist_test_data.html")

	if err != nil {
     
		panic(err)
	}

	result := ParseCityList(contents)

	const resultSize = 470
	expectedUrls := []string{
     
		"http://www.zhenai.com/zhenghun/aba",
		"http://www.zhenai.com/zhenghun/akesu",
		"http://www.zhenai.com/zhenghun/alashanmeng",
	}

	expectedCities := []string{
     
		"阿坝",
		"阿克苏",
		"阿拉善盟",
	}

	if len(result.Requests) != resultSize {
     
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Requests))
	}
	for i, url := range expectedUrls {
     
		if result.Requests[i].Url != url {
     
			t.Errorf("expected url #%d: %s; but was %s", i, url, result.Requests[i].Url)
		}
	}
	if len(result.Items) != resultSize {
     
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Items))
	}
	for i, city := range expectedCities {
     
		if result.Items[i].(string) != city {
     
			t.Errorf("expected city #%d: %s; but was %s", i, city, result.Items[i].(string))
		}
	}
}
输出：
=== RUN   TestParseCityList
--- PASS: TestParseCityList (0.00s)
PASS

2.7 城市解析器

vim zhenai/parser/city.go
package parser

import (
	"regexp"

	"learngo/crawler/engine"
)

const cityRe = `]*>([^<]+)`

func ParseCity(contents []byte) engine.ParseResult {
     
	// example 执着
	re := regexp.MustCompile(cityRe) // 加了括号后就会提取括号内的内容
	matches := re.FindAllSubmatch(contents, -1)
	result := engine.ParseResult{
     }
	for _, m := range matches {
     
		result.Items = append(result.Items, "User "+string(m[2]))
		result.Requests = append(result.Requests, engine.Request{
     
			Url:        string(m[1]),
			ParserFunc: engine.NilParser,
		})
	}
	return result
}
执行 main.go 输出：
2021/02/19 12:58:30 Fetching http://www.zhenai.com/zhenghun
2021/02/19 12:58:30 Got item: City 阿坝
2021/02/19 12:58:30 Got item: City 阿克苏
......
2021/02/19 12:58:30 Got item: City 资阳
2021/02/19 12:58:30 Got item: City 遵义
2021/02/19 12:58:30 Fetching http://www.zhenai.com/zhenghun/aba
2021/02/19 12:58:30 Got item: User 硒路西路
2021/02/19 12:58:30 Got item: User 心悦
2021/02/19 12:58:30 Got item: User 飞花落砚
......
2021/02/19 12:58:30 Got item: User 余生有你
2021/02/19 12:58:30 Got item: User 执着
2021/02/19 12:58:30 Fetching http://www.zhenai.com/zhenghun/akesu
2021/02/19 12:58:30 Got item: User 许我个未来
2021/02/19 12:58:30 Got item: User 不必在乎我是谁
......

2.8 用户信息解析器（上）

由于当前珍爱网用户信息在不登录的情况下无法直接获取，因此此处暂时不通过具体用户页面来获取；后续将更改为从城市页面获取每个页面的的内容，并提取少量用户信息，具体包括下图中的用户昵称、用户uid|url、年龄、性别、婚姻状况、学历、身高、收入、自我介绍等内容。

初步解析如下：

vim learngo/crawler/zhenai/parser/city.go
package parser

import (
	"learngo/crawler/engine"
	"regexp"
	"time"
)

const (
	cityRe      = `]*>([^<]+)`
	ageRe       = `年龄：([^<]+)`
	genderRe    = `性别：([^<]+)`
	marriageRe  = `婚况：([^<]+)`
	locationRe  = `居住地：([^<]+)`
	educationRe = `学   历：([^<]+)`
	heightRe    = `身   高：([^<]+)`
	incomeRe    = `月   薪：([^<]+)`
	introduceRe = `([^<]+)
`
	idUrlRe     = `.*album\.zhenai\.com/u/([\d]+)`
)

func getMatches(reRule string, contents []byte) []string {
     
	reAge := regexp.MustCompile(reRule)
	matchesAge := reAge.FindAllSubmatch(contents, -1)
	retList := make([]string, len(matchesAge))
	for i, m := range matchesAge {
     
		retList[i] = string(m[1])
	}
	return retList
}

func extractString(contents []byte, re *regexp.Regexp) string {
     
	match := re.FindSubmatch(contents)
	if len(match) >= 2 {
     
		return string(match[1])
	} else {
     
		return "null"
	}
}

func ParseCity(contents []byte) engine.ParseResult {
     
	// example 执着
	re := regexp.MustCompile(cityRe) // 加了括号后就会提取括号内的内容
	matches := re.FindAllSubmatch(contents, -1)

	ageList := getMatches(ageRe, contents)
	genderList := getMatches(genderRe, contents)
	marriageList := getMatches(marriageRe, contents)
	heightList := getMatches(heightRe, contents)
	locationList := getMatches(locationRe, contents)
	// educationList := getMatches(educationRe, contents) //部分用户没有education信息，需要更新调整为null
	// incomeList := getMatches(incomeRe, contents) //部分用户没有income信息，需要更新调整为null
	// fmt.Println("education", len(incomeList))

	result := engine.ParseResult{
     }
	for i, m := range matches {
     
		idUrl := extractString(m[1], regexp.MustCompile(idUrlRe))
		result.Items = append(result.Items, "User info: "+idUrl+", "+string(m[2])+", "+ageList[i]+", "+genderList[i]+
			", "+marriageList[i]+", "+heightList[i]+", "+locationList[i]+", "+string(m[1])) //+", "+incomeList[i]+", "+educationList[i])
		result.Requests = append(result.Requests, engine.Request{
     
			Url:        string(m[1]),
			ParserFunc: engine.NilParser,
		})
	}

	time.Sleep(time.Duration(time.Second * 2)) // 测试的时候爬慢点，否则会被系统检测到并禁止一或多天不能访问
	return result
}
输出：
2021/02/20 12:37:30 Fetching http://www.zhenai.com/zhenghun
2021/02/20 12:37:30 Got item: City 阿坝
2021/02/20 12:37:30 Got item: City 阿克苏
......
2021/02/20 12:37:30 Got item: City 资阳
2021/02/20 12:37:30 Got item: City 遵义
2021/02/20 12:37:30 Fetching http://www.zhenai.com/zhenghun/aba
2021/02/20 12:37:32 Got item: User info: 1876503328, 硒路西路, 30, 女士, 未婚, 163, 四川阿坝, http://album.zhenai.com/u/1876503328
......
2021/02/20 12:37:32 Got item: User info: 1412872831, 执着, 36, 女士, 离异, 162, 四川阿坝, http://album.zhenai.com/u/1412872831
2021/02/20 12:37:32 Fetching http://www.zhenai.com/zhenghun/akesu
......

2.9 用户信息解析器（下）

后续将更改为从城市页面获取每个用户的少量非重要信息。

2.10 单任务版爬虫性能

待添加

3 注意事项

待添加

4 说明

软件环境
go版本：go1.15.8
操作系统：Ubuntu 20.04 Desktop
Idea：2020.01.04
参考文档
由浅入深掌握Go语言 --慕课网
正则表达式在线测试 --菜鸟网

一文快速了解.NET项目文件(.csproj) ，基础而重要的文件【代码之美系列】 Microi风闲【开源】NET Core 跨平台 .net c#
代码之美系列目录一、C#命名规则规范二、C#代码约定规范三、C#参数类型约束四、浅析B/S应用程序体系结构原则五、浅析C#Async和Await六、浅析ASP.NETCoreSignalR双工通信七、浅析ASP.NETCore和MongoDB创建WebAPI八、浅析ASP.NETWebUI框架RazorPages/MVC/WebAPI/Blazor九、如何使用MiniProfilerWebAPI分
复盘日志㈡李怡芳
Part11，从本单元中我学到的最重要的理念（精读和视听说分别总结）精读：拥有一个真心朋友是人生的幸事，一定要珍惜与朋友之间的友谊，及时与朋友联系。视听说：用不同的方式去休闲娱乐，在电影中放松自我，在音乐中感受欢乐，让自己身心愉悦。2，我在本片文章／音频／视频中学到的怦然心动的单词（精读和视听说分别总结）精读：available,orsomething,goahead,byheart,kindof
Java学习----Redis集群典孝赢麻崩乐急 java 学习 redis
在分布式系统开发中，Redis作为高性能的键值存储数据库，被广泛用于缓存、会话存储、消息队列等场景。当单节点Redis无法满足高并发、大容量的需求时，Redis集群成为解决性能瓶颈和数据可靠性问题的关键方案。Redis集群是Redis提供的分布式解决方案，通过将数据分片存储在多个节点上，实现数据的分布式存储和负载均衡。它由多个Redis节点组成，节点之间通过gossip协议进行通信，共同承担数据存
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
[go] binary.Write 小坑一个兼论go的错误处理哲学勤奋happyfire
有如下go代码：const(foo=123)buffer:=new(bytes.Buffer)binary.Write(buffer,binary.BigEndian,foo)fmt.Println(buffer.Len())输出结果是0，foo没有写入到buffer中。原因在于，binary包的Write内部调用了intDataSize函数获取foo的长度：funcintDataSize(dat
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
RISC-V基金会Datacenter SIG月会圆满举办，探讨RAS、PMU性能分析实践和经验 OpenAnolis小助手 risc-v Datacenter SIG 龙蜥社区RISC-V SIG 龙蜥社区开源
一直以来，龙蜥社区在RISC-V生态建设中持续投入，并积极贡献上游社区。多位龙蜥社区成员在RISC-V国际基金会担任主席/副主席角色，与来自阿里云、阿里达摩院、中兴通讯、浪潮信息、中科院软件所、字节跳动、Google、MIT、Akeana等企业的专家共同推动基金会DatacenterSIG的运作及相关标准的制定。（图/DatacenterSIG6月月会分享）近日，RISC-V基金会Datacent
HTTP性能优化终极指南：从协议原理到企业级实践
前言：为什么性能优化是Web开发的生命线？根据Google研究数据，当页面加载时间从1秒增加到3秒时，跳出率提升32%；当达到5秒时，转化率下降90%。本文将通过七层优化体系，带您掌握HTTP性能优化的核心技术，包含：8大核心优化方向12个真实企业案例20+可立即落地的配置代码最新HTTP/3实践方案一、网络层优化：从DNS到HTTP/3的全栈加速1.1智能DNS解析体系//动态预解析用户可能访问
Gson、Fastjson 和 Jackson 对比解析小张0.0 JavaWeb json
目录1.Gson(Google)基本介绍：核心功能：特点：使用场景：2.Fastjson(Alibaba)基本介绍：核心功能：特点：使用场景：3.Jackson基本介绍：核心功能：特点：使用场景：4.对比总结5.选择建议Gson、Fastjson和Jackson这三种都是Java生态中广泛使用的JSON处理库，用于实现Java对象与JSON数据之间的相互转换。在项目中使用不同的方法即可调用不同的J
MacOS 安装k8s MartinDai1993 macos kubernetes 容器
安装前准备确保本地已经安装并启动好了DockerDesktop拉取k8s镜像（如果本地网络好可以正常拉取到k8s官方镜像，可以跳过这一步）克隆git仓库到本地gitclonehttps://github.com/gotok8s/k8s-docker-desktop-for-mac.git进入项目目录，执行./load_images.sh等待所有镜像拉取完成部署k8s进入DockerDecktop的
RWMutex 注意事项 -睡到自然醒~ golang
RWMutex是单写多读锁，该锁可以加多个读锁或者一个写锁⚫读锁占用的情况下会阻止写，不会阻止读，多个Goroutine可以同时获取读锁⚫写锁会阻止其他Goroutine（无论读和写）进来，整个锁由该Goroutine独占⚫适用于读多写少的场景⚫RWMutex类型变量的零值是一个未锁定状态的互斥锁⚫RWMutex在首次被使用之后就不能再被拷贝⚫RWMutex的读锁或写锁在未锁定状态，解锁操作都会引
gRPC-Go基础（3）基础gRPC服务 -睡到自然醒~ golang qt 开发语言
文章目录1.服务定义1.1一元RPC1.2服务端流式RPC1.3客户端流式RPC1.4双向流式RPC2.生成GRPC代码3.构建逻辑代码3.1Server端3.2Client端3.3一元RPC3.4服务端流式RPC3.5客户端流式RPC3.6双向流式RPC1.服务定义前面说过，proto中定义消息结构体的关键字是message，同样，定义服务的关键字是service。serviceRoute{//
简化 Go 开发：使用强大的工具提高生产力 -睡到自然醒~ golang 开发语言后端 qt 笔记 spring
作为Go开发人员，应该都知道维持简洁高效开发工作流程的重要性。为了提高工作效率和代码质量，简化开发流程并自动执行重复性任务至关重要。在本文中，我们将探讨一些强大的工具和技术，它们将简化Go开发过程，助力您的编码之旅。Cookiecutter：使用一致的模板快速启动项目问题描述从头开始创建新的Go项目通常涉及设置标准项目结构和配置基本文件。此过程可能非常耗时且容易出错。Cookiecutter通过允
关于Go语言的底层，Slice，map -睡到自然醒~ golang 开发语言后端 gin spring boot
1SliceSlice底层实现原理切片是基于数组实现的，它的底层是数组，它自己本身非常小，可以理解为对底层数组的抽象。因为基于数组实现，所以它的底层的内存是连续分配的，效率非常高，还可以通过索引获得数据，可以迭代以及垃圾回收优化。切片本身并不是动态数组或者数组指针。它内部实现的数据结构通过指针引用底层数组，设定相关属性将数据读写操作限定在指定的区域内。切片本身是一个只读对象，其工作机制类似数组指针
Python FastMCP：让你的AI工具链飞起来
PythonFastMCP：让你的AI工具链飞起来FastMCPFastMCP是什么？1.工具(Tools)：赋予LLM执行能力2.Resources（资源）：安全数据通道3.Prompts（提示模板）：标准化LLM交互4.组件协同：构建项目AI工具链5.部署架构与性能优化博主热门文章推荐：官方文档：FastMCP官方文档：https://gofastmcp.com/MCP协议规范：https:/
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
python爬大学生就业信息报告_Python语言爬虫——Python 岗位分析报告 weixin_39578457
本文主要向大家介绍了Python语言爬虫——Python岗位分析报告，通过具体的内容向大家展示，希望对大家学习Python语言有所帮助。前两篇我们分别爬取了糗事百科和妹子图网站，学习了Requests,BeautifulSoup的基本使用。不过前两篇都是从静态HTML页面中来筛选出我们需要的信息。这一篇我们来学习下如何来获取Ajax请求返回的结果。本篇以拉勾网为例来说明一下如何获取Ajax请求内容
解决百度网盘上传请求中或上传慢的方法
百度网盘正常情况下是超快的，不应该是"上传请求中"或几k的速度。原因是因为DNS解释问题。尤其是海外用户。例如，使用DNS8.8.8.8PSC:\WINDOWS\system32>nslookupDefaultServer: dns.googleAddress: 8.8.8.8>server8.8.8.8DefaultServer: dns.googleAddress: 8.8.8.8>c.pcs
Python 爬虫——Pyppeteer
Python爬虫——PyppeteerPythonSpider——Pyppeteer一、爬虫的两种方式二、Pyppeteer三、爬虫实现PythonSpider——Pyppeteer爬虫具有时效性，该文产生于2023年末一、爬虫的两种方式爬虫大致可以分为两类方式：直接请求直接请求的方式一般是使用python的HTTP请求库发起HTTP请求，然后接收返回的数据再进行解析，这种方式存在很大的局限性。当
重学前端006 --- 响应式网页设计 CSS 弹性盒子
文章目录盒模型一、盒模型的基本概念二、两种盒模型的对比举例三、总结Flexbox弹性盒子布局一、Flexbox的核心概念二、Flexbox的基本语法1.定义Flex容器2.Flex容器的主要属性3.Flex项目的主要属性三、Flexbox的常见布局示例四、FlexboxvsGrid布局五、总结imgobject-fitgapCSS::after伪元素详解1.基本概念2.基础语法3.关键注意事项以下
政务云,私有云,还有移动云的区别到底是什么？
1.政务云（GovernmentCloud）定位：面向政府机构（如委办局、事业单位）提供的专属云平台。核心特点：强合规性与安全性：必须符合国家信息安全等级保护（如等保三级）、数据本地化要求，并通过严格的安全审计（如《网络安全法》《数据安全法》）。独立资源池：物理或逻辑隔离的计算/存储资源，确保政府数据与其他行业数据分离。专属服务目录：提供适配政府业务的标准化服务（如电子政务、协同办公、数据共享交换
推荐一个免费高速图床imgos.cn 爱睡觉的猪猪网络
imgos.cn图床推荐：重新定义高效图片托管体验在数字化内容创作中，图片管理的高效性直接影响创作体验。作为深耕行业多年的技术团队，我们推出的imgos.cn图床，以极致的稳定性、便捷性和功能性，成为内容创作的最佳拍档。以下从核心优势、场景适配、用户权益等维度展开解析，助您快速了解为何imgos.cn值得成为首选图床。一、核心优势：重新定义图片托管体验1.极速稳定，全球畅享CDN加速网络：采用分布
Python爬虫教程：抓取地方政府网站的公开文件与政策信息 Python爬虫项目 python 爬虫开发语言数据分析 mysql
1.引言在信息化时代，政府网站已成为信息公开的重要渠道。各级地方政府网站上发布的政策、公告和公开文件，通常包含了政府决策、法律法规等关键信息。爬取这些公开数据，可以为研究人员、政策分析师、企业决策者等提供有价值的数据支持。本文将通过Python爬虫技术，展示如何抓取地方政府网站上的公开文件、政策等信息。我们将使用最新的爬虫技术，如requests、BeautifulSoup、Selenium等工具
PHP continue与break区别苏康申
Modelwhile($foo){<--------------------┐continue;---goesbackhere--┘break;-----jumpshere----┐}|<--------------------┘Example$i=10;while(--$i){if($i==8){continue;}if($i==5){break;}echo$i."\n";}输出976
Java 正则表达式详解 BigData_Hubert java基础正则表达式 regex java
正则表达式乍一看上去是一堆繁琐的、无规律的、令人头大的字符串，但是其简单易学，适用于各种语言；当你了解他之后，你就会知道它的强大。很多程序设计语言都支持用正则表达式来进行字符串的操作。正则表达式简介初识正则表达式正则表达式是使用单个字符串来描述、匹配一系列规则的字符串。正则表达式并不仅限于某一种语言（几乎所有的语言都有字符串），在每种语言中有细微的差别。一个正则表达式字符串：^p[a-zA-Z_]
JAVA API (三)：从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略钮祜禄.爱因斯晨 JAVA学习笔记 java 爬虫开发语言
个人主页-爱因斯晨文章专栏-Java学习相关文章：API(一)相关文章：API（二）持续努力中，感谢支持一、爬虫基础（一）爬虫的基本概念定义：爬虫是按照一定规则自动抓取网络信息的程序，在Java环境下，可借助URL、HttpURLConnection等API来实现。应用场景：广泛应用于数据采集，如电商平台的价格监控、各类新闻的聚合；还可用于信息分析，如舆情监测等。（二）Java实现简单爬虫的步骤建
全球企业生成式AI应用图谱：601个案例揭示11行业×6类智能体实践，全网最详细！
写在前面：本文为谷歌发布的《601real-worldgenAIusecasesfromtheworld’sleadingorganizations》原文链接为：https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders?hl=en以下案例按照“汽车与物流、商业与专用
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

golang笔记15--go 语言单任务版爬虫