Cllmsy_K

Golang爬虫学习

2023年将会持续于B站、CSDN等各大平台更新，可加入粉丝群与博主交流:838681355，为了老板大G共同努力。
【商务合作请私信或进群联系群主】

一、golang-net/http包(正则)

1.1 简介和示例

导包：
import(
    "fmt"
    "io/ioutil"
    "net/http"
)

创建请求：
	client := &http.Client{} 
	req,_ := http.NewRequest("GET",url,nil)
示例：
import (
	"fmt"
	"io/ioutil"
	"net/http"
)
func pachong(url string) string{ // 设置一个变量名为Url,类型为string
	// Get请求服务
	client := &http.Client{} 
	req,_ := http.NewRequest("GET",url,nil)
	// 设置ua头，cookie等，是为了绕过一些爬虫机制
	req.Header.Set("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0")
	req.Header.Add("Cookie","buvid3=65BAA442-C9DA-443F-9A21-DD07C777480C34756infoc;")
	// 请求处理
	resp,err := client.Do(req)
	if err != nil{
		fmt.Println("Http get err:",err)
		return ""
	}
	if resp.StatusCode != 200{
		fmt.Println("Htpp status code:",resp.StatusCode)
		return ""
	}
	// 处理完毕后关掉连接
	defer resp.Body.Close() 
	body,err := ioutil.ReadAll(resp.Body)
	if err != nil{
		fmt.Println("Read error",err)
		return ""
	}
	return string(body)
}
func main(){
	url := "https://www.baidu.com" //付给变量url地址
	s := pachong(url) //用方法引用该变量url，付给s
	fmt.Printf(s) // 打印输出
}

1.2 爬虫解析页面

导包：
import(
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
    "strings"
)

如何解析到想要的数据：
1.替换空格，去除空格
2.找到标签，找到页面内容`(.*?)
`
3.找到标题(`(.*?)
`)
4.找到页面内容
5.切片

1.2.1 解析链接页面

func parse(html string){ // 解析链接页面，主要采用正则表达式
	// 替换掉空格
	html = strings.Replace(html,"\n","",-1)
	// 边栏内容正则
	re_sidebar := regexp.MustCompile(`(.*?)
`) // (.*?)任意匹配
	// 找到边栏内容块
	sidebar := re_sidebar.FindString(html) // 意思是在html里头找re_sidebar正则匹配的内容
	// 链接正则
	re_link := regexp.MustCompile(`href="(.*?)"`)
	// 找到所有链接
	links := re_link.FindAllString(sidebar,-1)

	base_url := "https://gorm.io/zh_CN/docs/"
	for _, v := range links{
		fmt.Printf("v: %v\n", v)
		s := v[6:len(v)-1] // 抓取到的切片取从第六位开始，到最后一位减一，href="index.html"
		url := base_url + s
		fmt.Printf("url:%v\n",url) // 做字符串链接
	}
}

1.2.2 解析内容页面

func parse2(body string){
		// 替换掉空格
		body = strings.Replace(body,"\n","",-1)
		// 内容正则
		re_content := regexp.MustCompile(`(.*?)
`) // (.*?)任意匹配
		// 找到页面内容
		content := re_content.FindString(body) // 意思是body里头找re_sidebar正则匹配的内容
		// 标题
		re_title := regexp.MustCompile(`(.*?)
`)
		// 找到页面内容
		title := re_title.FindString(content)
		fmt.Printf("title: %v\n", title)
		// 切片
		title = title[42 : len(title)-5]
		fmt.Printf("title: %v\n", title)
}

1.2.3 代码实例

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"regexp" // 正则标准库
	"strings"
)
func pachong(url string) string{ // 设置一个变量名为Url,类型为string
	// Get请求服务
	client := &http.Client{} 
	req,_ := http.NewRequest("GET",url,nil)
	// 设置ua头，cookie等，是为了绕过一些爬虫机制
	req.Header.Set("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0")
	req.Header.Add("Cookie","buvid3=65BAA442-C9DA-443F-9A21-DD07C777480C34756infoc; CURRENT_FNVAL=4048; PVID=1; CURRENT_QUALITY=0; blackside_state=0; fingerprint=d51052e7d692cb696b50a17a3078c108; buvid_fp=2a41143fc6b7358421c5668cd60fe1cb; LIVE_BUVID=AUTO9116241867606956; b_ut=5; i-wanna-go-back=-1; CURRENT_BLACKGAP=0; buvid4=57E262C3-373B-0C43-11A2-EFB150BEE9EC87880-022012716-c8mC4VtaIp9z9jT1JvXl9w%3D%3D; nostalgia_conf=-1; bp_video_offset_494577303=746190708927365100; hit-dyn-v2=1; _uuid=2F10DDA24-1772-D10C4-8D76-B108D105E7E78981241infoc; buvid_fp_plain=undefined; fingerprint3=4ac7728b721e19742b1f93d7585c875d; b_nut=100; sid=5axxdv1c; SESSDATA=da784f22%2C1680100070%2C110b4%2A91; bili_jct=9e665d59c5d2c8f6fddecad47c65e920; DedeUserID=494577303; DedeUserID__ckMd5=92cd12f6622dfb59; rpdid=|(JYYRlYR))u0J'uYY)~~lJ|R; innersign=1; b_lsid=EB4EB6E9_1857603661D; theme_style=ligh")
	// 请求处理
	resp,err := client.Do(req)
	if err != nil{
		fmt.Println("Http get err:",err)
		return ""
	}
	if resp.StatusCode != 200{
		fmt.Println("Htpp status code:",resp.StatusCode)
		return ""
	}
	// 处理完毕后关掉连接
	defer resp.Body.Close() 
	body,err := ioutil.ReadAll(resp.Body)
	if err != nil{
		fmt.Println("Read error",err)
		return ""
	}
	return string(body)
}
func parse(html string){ // 解析链接页面，主要采用正则表达式
	// 替换掉空格
	html = strings.Replace(html,"\n","",-1)
	// 边栏内容正则
	re_sidebar := regexp.MustCompile(`(.*?)
`) // (.*?)任意匹配
	// 找到边栏内容块
	sidebar := re_sidebar.FindString(html) // 意思是在html里头找re_sidebar正则匹配的内容
	// 链接正则
	re_link := regexp.MustCompile(`href="(.*?)"`)
	// 找到所有链接
	links := re_link.FindAllString(sidebar,-1)

	base_url := "https://gorm.io/zh_CN/docs/"
	for _, v := range links{
		fmt.Printf("v: %v\n", v)
		s := v[6:len(v)-1] // 抓取到的切片取从第六位开始，到最后一位减一，href="index.html"
		url := base_url + s
		fmt.Printf("url:%v\n",url) // 做字符串链接
		
		body := pachong(url)
		go parse2(body) // 启动另外一个线程处理
	}
}
func parse2(body string){
		// 替换掉空格
		body = strings.Replace(body,"\n","",-1)
		// 内容正则
		re_content := regexp.MustCompile(`(.*?)
`) // (.*?)任意匹配
		// 找到页面内容
		content := re_content.FindString(body) // 意思是body里头找re_sidebar正则匹配的内容
		// 标题
		re_title := regexp.MustCompile(`(.*?)
`)
		// 找到页面内容
		title := re_title.FindString(content)
		fmt.Printf("title: %v\n", title)
		// 切片
		title = title[42 : len(title)-5]
		fmt.Printf("title: %v\n", title)
}
func main(){
	url := "https://gorm.io/zh_CN/docs" //付给变量url地址
	s := pachong(url) //用方法引用该变量url，付给s
	//fmt.Printf(s) // 打印输出
	parse(s)
}

1.3 保存至文件

func save(title string,content string){
    err := os.WriteFile("./"+title+".html",[]byte(content),0644)
    if err != nil{
        panic(err)
    }
}

1.4 保存至数据库

安装库：
go get xorm.io/xorm
go get github.com/go-sql-driver/mysql

导包：
import(
    "fmt"
    "io/ioutil"
    "net/http"
    "regexp"
    "strings"
    "xorm.io/xorm"
    "github.com/go-sql-driver/mysql"
)

连接数据库：
var engine *xorm.Engine
var err error

func init(){
    engine,err = xorm.NewEngine("mysql","root:123456@/test_xorm?charset=utf8")
    if err != nil{
        fmt.Printf("err:%v\n",err)
    }else{
        err2 := engine.Ping()
        if err2 != nil{
            fmt.Printf("err2:%v\n",err2)
        }else{
            print("连接成功!")
        }
    }
}

创建结构体：
type GormPage struct{
    Id int64
    Title string
    Content string `xorm:"text"`
    Created time.Time `xorm:"created"`
    Updated time.Time `xorm:"updated"`
}

保存数据到数据库：
func saveToDB(title string,content string){
    engine.Sync(new(GormPage)) // 创建的数据库表名为gorm_page
    page := GormPage{
        Title:title,
        Content:content,
    }
    affected,err := engine.Insert(&page)
    if err != nil{
        fmt.Printf("err:%v\n",err)
    }
    fmt.Println("save:"+string(affected))
}
解析内容中加入：saveToDB(title,content)

二、golang-goquery

goquery是一个爬虫库，可以非常方便进行html页面分析，元素提取，类似jquery,它基于html解析库net/html和css库cascadia,提供与jquery相近的接口，go著名的爬虫框架colly就是基于goquery。

安装：go get -u github.com/PuerkitoBio/goquery

2.1 爬取示例

package main

import (
	"fmt"
	"github.com/PuerkitoBio/goquery"
)
func main() {
	url := "https://gorm.io/zh_CN/docs" //付给变量url地址
	d, _ := goquery.NewDocument(url)
	d.Find(".sidebar-link").Each(func(i int, s *goquery.Selection) { //查找class里面的包含sidebar-link所有的元素
		s2 := s.Text()
		fmt.Printf("s2:%v\n", s2)
		href, _ := s.Attr("href") // 在class大类中找到href属性，将链接爬取
		fmt.Printf("href:%v\n", href)
	})
}

2.2 Goquery Api Document

Document表示要爬取的文档。

方式一：goquery.NewDocument(url)
	url := "https://gorm.io/zh_CN/docs" //付给变量url地址
	dom , err := goquery.NewDocument(url) // 加载文档
	if err != nil{
		log.Fatalln(err)
	}

方式二：goquery.NewDocumentFromResponse(resp)
	client := &http.Client{} // 打开连接
	url := "https://gorm.io/zh_CN/docs" //付给变量url地址
	req,_ := http.NewRequest("GET",url,nil) // 连接方式GET，传递url
	resp,err := client.Do(req)
	dom,err := goquery.NewDocumentFromResponse(resp)
	if err != nil{
		log.Fatalln(err)
	}
    dom.Find() //爬虫过程

方式三：goquery.NewDocumentFromReader(strings.NewReader(html))
    func main() {
        html := `
                      DIV1
                      DIV2
                      SPAN
                 `
        dom, err := goquery.NewDocumentFromReader(strings.NewReader(html)) //本地读取html方式
        if err != nil {
            log.Fatalln(err)
        }
        dom.Find("")
    }

2.2.1 Goquery Api 选择器

Goquery选择器：类似jQuery或css选择器，常用的有元素名称选择器、ID选择器、class选择器

元素名称选择器：
func main() {
	html := `
                  DIV1
                  DIV2
                  SPAN
             `
	dom, err := goquery.NewDocumentFromReader(strings.NewReader(html))
	if err != nil {
		log.Fatalln(err)
	}
	dom.Find("div").Each(func(i int, selection *goquery.Selection) { //选择div标签，匹配所有
		fmt.Println("i", i, "select text", selection.Text())
	})
}

ID选择器：
func main() {
	html := `
                  DIV1 // 变成div id="div1"
                  DIV2
                  SPAN
             `
	dom, err := goquery.NewDocumentFromReader(strings.NewReader(html))
	if err != nil {
		log.Fatalln(err)
	}
	dom.Find("#div1").Each(func(i int, selection *goquery.Selection) { // 匹配div1
		fmt.Println("i", i, "select text", selection.Text())
	})
}

class选择器：
func main() {
	html := `
                  DIV1
                  DIV2
                  SPAN
             `
	dom, err := goquery.NewDocumentFromReader(strings.NewReader(html))
	if err != nil {
		log.Fatalln(err)
	}
	dom.Find(".name").Each(func(i int, selection *goquery.Selection) { // 匹配class中的name
		fmt.Println("i", i, "select text", selection.Text())
	})
}

2.3 Goquery Api Selection

select可以提取、删除、添加元素、属性内容

内容函数：
1) 类似函数的位置操作
Eq(index int) *Selection // 根据索引获取某个节点集
First() *Selection // 获取第一个子节点集
Last() *Selection // 获取最后一个子节点集
Next() *Selection // 获取下一个兄弟节点集
NextAll() *Selection // 获取后面所有兄弟节点集
Prev() *Selection // 前一个兄弟节点集
Get(index int) *html.Node // 根据索引获取一个节点
Index() int // 返回选择对象中第一个元素的位置
Slice(start,end int) *Selection // 根据起始位置获取子节点集

2) 循环遍历选择的节点
Each(f func(int, *Selection)) *Selection //遍历
EachWithBreak(f func(int,*Selection)bool) *Selection //可中断遍历
Map(f func(int,*Selection)string)(result []string) //返回字符串数组

3) 检测或获取节点属性值
Attr(),RemoveAttr(),SetAttr() //获取，移除，设置属性的值
AddClass(),HasClass(),RemoveClass(),ToggleClass()
Html() // 获取该节点的Html
Length() //返回该Selection的元素个数
Text() //获取该节点的文本值

4) 在文档书之间来回跳转(常用的查找节点方法)
Children() //返回Selection中各个节点下的孩子节点
Contents() //获取当前节点下的所有节点
Find() //查找获取当前匹配的元素
Next() //下一个元素
Prev() //上一个元素

三、爬虫框架-colly

Colly是go语言编写的Web框架，提供一个能够写任何爬虫、采集器、蜘蛛的简洁模板。

特性：
1.API清晰
2.速度快
3.管理每个域的请求延迟和最大并发数
4.自动cookie会话处理
5.同步、异步、并行抓取
6.高速缓存
7.自动处理非unicode编码
8.支持Robots.txt
9.支持google APP engine
10.通过环境变量进行配置
11.可拓展

安装：go get -u github.com/gocolly/colly

3.1 爬取示例

import (
	"fmt"
	"github.com/gocolly/colly"
)

func main() {
	c := colly.NewCollector()
	c.OnHTML(".siderbar-link", func(e *colly.HTMLElement) {
		e.Request.Visit(e.Attr("href"))
	})
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("url", r.URL)
	})
	c.Visit("https://xxx/) // 爬取的URL
}

3.2 回调方法

请求之前调用：OnRequest
请求期间发生错误调用：OnError
收到响应标头后调用：OnResponseHeaders
收到响应后调用：OnResponse
OnResponse接收的内容HTML就调用：OnHTML
OnHTML接收内容是HTML或XML就调用：OnXML
回调后OnXML调用：OnScraped

示例：
    c := colly.NewCollector()
    c.OnRequest(func(r *colly.Request) {
        fmt.Println("请求前调用:OnRequest")
    })
    c.OnError(func(_*colly.Response, err error) {
        fmt.PrintIn("发生错误调用:OnError")
    })
    c.OnResponse(func(r *colly.Response) {
        fmt.PrintIn("获得响应后调用:OnResponse")
    })
    c.OnHTML("a[href]"，func(e *colly.HTMLElement) {
        fmt.PrintIn("OnResponse接收的内容HTML就调用：OnHTML")
    c.OnXML("//h1"，func(e *colly.XMLElement) {
        fmt.PrintIn("onResponse收到xm1内容后调用:OnXML")
    })
    c.OnScraped(func(r *colly.Response) {
        fmt.Println("结束"，r.Request.URL)
    })

3.3 配置

设置UserAgent:
    c := colly.NewCollector()
    c.UserAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101 Firefox/108.0"

设置cookie:
方式一：
    c.OnRequest(func(r *colly.Request){
        r.Headers.Add("cookie","")
    })
方式二：
    siteCokkie := C.Cookies("url")
    c.SetCookies("",siteCokkie)

HTTP配置：
    c := colly.NewCollectior()
    c.WithTransport(&http.Transport{
        Proxy:http.ProxyFromEnvironment,
        DialContext:(&net.Dialer{
            Timeout: 30 * time.Second,
            KeepAlive: 30 * time.Second,
            DualStack: true,
        }).DialContext,
        MaxIdleConns: 100,
        IdleConnTimeout: 90 * time.Second,
        TLSHandshakeTimeout: 10 * time.Second,
        ExpectContinueTimeout: 1 * time.Second,
    })

3.4 页面爬取和解析

页面爬取和解析重点方法是OnHTML的回调方法
    c.OnHTML("a[href]",func(e *colly.HTMLElement){
        e.Request.Visit(e.Attr("href"))
    })

3.5 框架重构爬虫应用

import (
	"fmt"
	"github.com/gocolly/colly"
)

func main() {
	c := colly.NewCollector()
	c.OnHTML(".sidebar-link", func(e *colly.HTMLElement) {
		href := e.Attr("href")
		if href != "index.html" { // 如果等于index.html则继续访问
			c.Visit(e.Request.AbsoluteURL(href))
		}
	})
	c.OnHTML(".article-title", func(h *colly.HTMLElement) { // 跳转链接后，找到ariticle-title，获取他的内容
		content, _ := h.DOM.Html()
		fmt.Printf("content:%v\n", content)
	})
	c.OnHTML(".article", func(h *colly.HTMLElement) {
		content, _ := h.DOM.Html()
		fmt.Printf("content:%v\n", content)
	})
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("Visiting", r.URL.String())
	})
	c.Visit("https://gorm.io/zh_CN/docs/")
}

pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
回归任务中的评价指标MAE，MSE，RMSE，R-Squared 旺旺棒棒冰统计学习方法机器学习回归评价指标 r2 mse
转自博客。仅供自己学习使用，如有侵权，请联系删除分类任务的评价指标有准确率，P值，R值，F1值，而回归任务的评价指标就是MSE，RMSE，MAE、R-SquaredMSE均方误差MSE是真实值与预测值的差值的平方和然后求平均。通过平方的形式便于求导，所以常被用作线性回归的损失函数。MSE=1m∑i=1m(yi−y^i)2MSE=\frac{1}{m}\sum_{i=1}^{m}\left(y_{i
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
图像质量评价学习笔记02：IQA模型性能评价指标（PLCC、SROCC、KROCC、RMSE）可靠的豆包蟹同志图像质量评估IQA 图像处理计算机视觉人工智能算法
性能好的图像质量评价（IQA）算法，其质量评测分数会与主观质量分数高度一致，IQA有许多评价指标，为了衡量方法测试结果与主观评价之间的一致性，视频质量专家组VQEG（VideoQualityExpertsGroup，目前国际上对视频质量进行标准化及性能测试的权威组织）提出了四个可以验证客观评价结果和主观评价结果之间的紧密程度的四个指标：PLCC、SROCC、KROCC和RMSE，也是目前最常用的I
计算机基础：编码01，无符号数编码水饺编程 MFC学习笔记 Win32学习笔记 mfc c++visual studio windows
专栏导航本节文章分别属于《Win32学习笔记》和《MFC学习笔记》两个专栏，故划分为两个专栏导航。读者可以自行选择前往哪个专栏。（一）WIn32专栏导航上一篇：计算机基础：二进制基础13，十六进制与二进制的相互转换回到目录下一篇：计算机基础：编码02，有符号数编码，原码（二）MFC专栏导航上一篇：计算机基础：二进制基础13，十六进制与二进制的相互转换回到目录下一篇：计算机基础：编码02，有符号数编
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
先验地图--slam学习笔记超级璐璐人工智能机器学习
先验信息(PriorInformation)先验信息指的是在收集新数据之前已有的知识或假设。这种信息可以来自之前的实验、历史数据、理论模型或专家意见。地图信息：在无人驾驶中，车辆通常会预先加载高精度地图数据，这些地图数据提供了道路布局、车道线位置、交叉口结构等信息。这些信息就是先验信息。车辆动力学模型：车辆的动力学模型，包括车辆的物理特性（如质量、轮胎摩擦系数等），这些模型可以帮助预测车辆的行为。
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
【机器学习】机器学习工程实战-第3章数据收集和准备腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第2章项目开始前文章目录3.1关于数据的问题3.1.1数据是否可获得3.1.2数据是否相当大3.1.3数据是否可用3.1.4数据是否可理解3.1.5数据是否可靠3.2数据的常见问题3.2.1高成本3.2.2质量差3.2.3噪声（noise）3.2.4偏差（bias）3.2.5预测能力低（lowpredictivepower）3.2.6过时的样本3.2.7离群值3.2.8数据泄露/目标泄漏3
机器学习实战第一章机器学习基础 LuoY、 Machine Learning 机器学习算法人工智能
第一章机器学习1.1何谓机器学习1.2关键术语1.3机器学习的主要任务1.4如何选择合适的算法1.5开发机器学习应用程序的步骤1.6Python语言的优势1.1何谓机器学习 1、简单地说，机器学习就是把无序的数据转换成有用的信息； 2、机器学习能让我们自数据集中受启发，我们会利用计算机来彰显数据背后的真实含义； 3、机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
集成学习（随机森林） herry57 数学建模大数据随机森林集成学习
目录一、集成学习概念二、Bagging集成原理三、随机森林四、例子（商品分类）一、集成学习概念集成学习通过建⽴⼏个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各⾃独⽴地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的二、Bagging集成原理分类圆形和长方形三、随机森林在机器学习中，随机森林是
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【机器学习】机器学习工程实战-第2章项目开始前腊肉芥末果机器学习工程实战机器学习人工智能
上一章：第1章概述文章目录2.1机器学习项目的优先级排序2.1.1机器学习的影响2.1.2机器学习的成本2.2估计机器学习项目的复杂度2.2.1未知因素2.2.2简化问题2.2.3非线性进展2.3确定机器学习项目的目标2.3.1模型能做什么2.3.2成功模型的属性2.4构建机器学习团队2.4.1两种文化2.4.2机器学习团队的成员2.5机器学习项目为何失败2.5.1缺乏有经验的人才2.5.2缺乏领
Xilinx系ZYNQ学习笔记（二）ZYNQ入门及点亮LED灯贾saisai FPGA学习学习笔记 fpga开发
系列文章目录文章目录系列文章目录前言简单介绍简称xc7z020型号FPGAZYNQ实操通用IO点亮LED灯硬件逻辑基础前言简单入门一下ZYNQ是何种架构，如何编程，至于深入了解应该要分开深入学习Linux和FPGA简单介绍其基本架构都是在同一个硅片上集成FPGA和CPU，并通过高速、高带宽的互联架构连接起来。ARM的顺序控制、丰富外设，开源驱动、FPGA的并行运算、高速接口、灵活定制、数字之王的特
ZYNQ学习笔记_GPIO之输入输出凌星星星星星 ZYNQ学习笔记 gpio mio fpga 嵌入式单片机
ZYNQ学习笔记_GPIO之输入输出GPIO介绍MIO介绍EMIO介绍控制GPIO接口的寄存器原理_输入输出部分GPIO介绍GPIO的英文全称为General-purposeinput/output，即一种通用外设，可以通过MIO（MultiuseI/O）模块对器件的引脚做观测（input）和控制（output）。ZYNQ的PS端上的GPIO也可以通过EMIO（ExtraMIO）模块对PL端的IP
《基于自适应正负样本对比学习的特征提取框架》-核心公式提炼简洁版 2022年neural networks 阳光明媚大男孩学习深度学习人工智能论文笔记
论文源地址以下是从文档中提取的关于“基于对比学习的特征提取框架（CL-FEFA）”中正负样本对比学习实现的技术细节，包括详细的数学公式、特征提取过程以及特征表示方式的说明。1.正负样本的定义与构造在CL-FEFA框架中，正负样本的定义是动态且自适应的，基于特征提取的结果，而不是预先固定的。这种自适应性是CL-FEFA区别于传统对比学习（如SimCLR、SupCon）的一个关键点。定义方式：指示矩阵
zynq设计学习笔记2——GPIO之MIO控制LED实验墨漓_lyl FPGA之zynq设计学习笔记嵌入式 fpga
vivado软件操作步骤与学习笔记1——helloworld差不多，这里不再过多赘述，不同点是在zynq的设置中添加上GPIO的设置即可。进入SDK软件后，程序如下：#include"stdio.h"#include"xparameters.h"#include"xgpiops.h"#include"sleep.h"#defineGPIO_DEVICE_IDXPAR_XGPIOPS_0_DEVIC
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
机器学习怎么做特征工程全栈你个大西瓜人工智能机器学习人工智能特征工程数据预处理特征变换特征降维特征构造
一、特征工程通俗解释特征工程就像厨师做菜前的食材处理：原始数据是“生肉和蔬菜”，特征工程是“切块、腌制、调料搭配”，目的是让机器学习模型（食客）更容易消化吸收，做出更好预测（品尝美味）。二、为什么要做特征工程？数据质量差：原始数据常有缺失、噪声、不一致问题（如年龄列混入“未知”）。模型限制：算法无法直接理解原始数据（如文本、日期需要数值化）。提升效果：好特征能显著提升模型性能（准确率提升10%~5
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
蓝桥杯备赛Day12 动态规划1基础爱coding的橙子蓝桥杯蓝桥杯动态规划 c++算法
动态规划动态规划基础动态规划将复杂问题分解成很多重叠的子问题，再通过子问题的解得到整个问题的解分析步骤:确定状态:dp[i][j]=val,“到第i个为止，xx为j的方案数/最小代价/最大价值”状态转移方程:确定最终状态要求:(1)最优子结构(2)无后效性:已经求解的子问题，不会再受到后续决策的影响。(3)子问题重叠，将子问题的解存储下来两种思路:(1)按题目线性DP数字三角形学习:(1)将整个大
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
【Docker系列四】Docker 网络 Kwan的解忧杂货铺@新空间代码工作室 s4 Docker系列 docker 网络容器
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
《Solidity智能合约开发：从零到一实战指南》大纲白马区块Crypto100 智能合约
为什么要学Solidity智能合约？在过去几年，区块链从一种“投机工具”进化为一种全新的技术基础设施。无论是NFT、DeFi、GameFi还是DAO，它们的核心都是——智能合约。✨什么是智能合约？智能合约是运行在区块链上的“自动执行程序”，不用依赖中介或第三方，信任直接写进代码里。而Solidity是智能合约开发的“通用语言”。为什么要做这个专栏？做区块链项目的人越来越多，但真正从零系统学习Sol
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Golang爬虫学习

一、golang-net/http包(正则)

1.1 简介和示例

1.2 爬虫解析页面

(.*?)

1.2.1 解析链接页面

1.2.2 解析内容页面

(.*?)

1.2.3 代码实例

(.*?)

1.3 保存至文件

1.4 保存至数据库

二、golang-goquery

2.1 爬取示例

2.2 Goquery Api Document

2.2.1 Goquery Api 选择器

2.3 Goquery Api Selection

三、爬虫框架-colly

3.1 爬取示例

3.2 回调方法

3.3 配置

3.4 页面爬取和解析

3.5 框架重构爬虫应用

你可能感兴趣的:(Golang_study,golang,爬虫,学习)