hsu282

Go语言实战爬虫项目

因为要做一个爬虫系统，用的是python，可是最后发现效率很低，恰好遇到一个go大神，他建议go试试，效果还不错，所以恶补了一下资料！

Go语言爬虫框架之Colly和Goquery

Python爬虫框架比较多有requests、urllib, pyquery,scrapy等，解析库有BeautifulSoup、pyquery、Scrapy和lxml等等，基于Go的爬虫框架是比较强健的，尤其Colly和Goquery是比较强大的工具，其灵活性和表达性都比较优秀。

网络爬虫

网络爬虫是什么?从本质上讲,网络爬虫的工作原理通过检查web页面的HTML内容和执行某种类型的行动基于内容。通常,抓取暴露的链接,爬虫按照队列的去爬取。我们也可以从当前页面保存数据提取。例如,如果我们的维基百科页面上开始,我们可能保存页面的文本和标题。

爬虫的简单算法

initialize Queue
enqueue SeedURL

while Queue is not empty:
    URL = Pop element from Queue
    Page = Visit(URL)
    Links = ExtractLinks(Page)
    Enqueue Links on Queue
12345678

Visit和ExtractLinks函数是改变的地方，两个函数的应用都是特定的。我们的爬虫会尽力解释整个WEB的图，就像google一样，或者像Wikipedia一样简单一些。

随着你使用的用例的增加许多事情会变得复杂起来，许多许多的页面会被抓取，你可能需要一个更尖端的爬虫同时运行，对于更为复杂的页面，你需要一个更强大的HTML解释器。

Colly

Colly是一个基于Go语言的灵活的爬虫框架，开箱即用，你会获得一些速率限制，并行爬行等支持。
Colly基本组件之一是Collector，Collector保持跟踪那些需要被爬取的页面，并且保持回调当页面被爬取的时候。

一、开始

创造一个Collector是容易的，但是我们有许多可选项我们可以使用。

c := colly.NewCollector(

// Restrict crawling to specific domains

colly.AllowedDomains("godoc.org"),

// Allow visiting the same page multiple times

colly.AllowURLRevisit(),

// Allow crawling to be done in parallel / async

colly.Async(true),

)

12345678

你可以只有colly.NewCollector()，然后自己添加那些可选项。

我们也可以使用一些特别的限制让我们的爬虫表现的像一个行为良好的网络公民，Colly添加速率限制是简单的。

c.Limit(&colly.LimitRule{

// Filter domains affected by this rule

DomainGlob: "godoc.org/*",

// Set a delay between requests to these domains

Delay: 1 * time.Second

// Add an additional random delay

RandomDelay: 1 * time.Second,

})

12345678

某些网页可能对高流量的访问比较挑剔，他会将你断线。通常设置一个延迟维持几秒中就可让你里淘气榜单远一点。

从这里开始，我们能开始我们的collector通过一个URL种子。

1	`c.Visit("https://godoc.org")`

二、OnHTML

我们有一个好的collector他可以从任意网站开始工作，现在我们希望我们的collector做一些什么的话他需要检查页面以便提取链接和其他的数据。
colly.Collector.OnHTML方法允许注册一个回调为当收集器达到页面相匹配的一部分特定的HTML标签说明符。首先,我们可以得到一个回调时当爬虫看到[标记包含一个href链接。]()

c.OnHTML("a[href]", func(e *colly.HTMLElement) {

// Extract the link from the anchor HTML element

link := e.Attr("href")

// Tell the collector to visit the link

c.Visit(e.Request.AbsoluteURL(link))

})

123456

就像和上面看到的一样，在这个回调中你得到一个colly.HTMLElement它包含了匹配到的HTML的数据。
现在,我们有一个实际的网络爬虫的开始:我们发现页面上的链接访问,并告诉我们的collector在后续请求访问这些链接。
OnHTML是一个功能强大的工具。它可以搜索CSS选择器(即div.my_fancy_class或# someElementId),你可以连接多个OnHTML回调你的收集器处理不同类型的页面。
Colly的HTMLElement结构非常有用。除了使用Attr函数获得那些属性之外,还可以提取文本。例如,我们可能想要打印页面的标题:

c.OnHTML("title", func(e *colly.HTMLElement) {

fmt.Println(e.Text)

})

123

三、OnRequest / OnResponse

有些时候你不需要一个特定的HTML元素从一个页面,而是想知道当你的爬虫检索或刚刚检索页面。为此,Colly暴露OnRequest OnResponse回调。
所有这些回调将被调用当访问到每个页面的时候。至于如何在符合OnHTML的使用要求。回调被调用的时候有一些顺序:1。OnRequest 2。OnResponse 3。OnHTML 4。OnScraped(在这边文章中没有提及到,但可能对你有用)
尤其使用的是OnRequest中止回调的能力。这可能是有用的,当你想让你的collector停止。

c.OnHTML("title", func(e *colly.HTMLElement) {

fmt.Println(e.Text)

})

123

在OnResponse,可以访问整个HTML文档,这可能是有用的在某些情况下:

c.OnResponse(func(r *colly.Response) {

fmt.Println(r.Body)

})

123

四、HTMLElement

除了colly.HTMLElement的Attr()方法和text,我们还可以使用它来遍历子元素。ChildText(),ChildAttr()特别是ForEach()方法非常有用。
例如,我们可以使用ChildText()获得所有段落的文本部分:

c.OnHTML("#myCoolSection", func(e *colly.HTMLElement) {

fmt.Println(e.ChildText("p"))

})

123

我们可以使用ForEach()循环遍历一个孩子匹配一个特定的元素选择器:

c.OnHTML("#myCoolSection", func(e *colly.HTMLElement) {

e.ForEach("p", func(_ int, elem *colly.HTMLElement) {

if strings.Contains(elem.Text, "golang") {

fmt.Println(elem.Text)

}

})

1234567

五、Bringing in Goquery

Colly的内置HTMLElement对大多数抓取任务都很有用，但是如果我们想对DOM进行特别高级的遍历，我们就必须去别处寻找。例如，（目前）没有办法将DOM遍历到父元素或通过兄弟元素横向遍历。
输入Goquery，“就像那个j-thing，只在Go中”。它基本上是jQuery。在Go。（这很棒）对于你想从HTML文档中删除的任何内容，可以使用Goquery完成。
虽然Goquery是以jQuery为模型的，但我发现它在很多方面与BeautifulSoup API非常相似。所以，如果你来自Python抓取世界，那么你可能会对Goquery感到满意。
Goquery允许我们进行比Colly的HTMLElement提供的更复杂的HTML选择和DOM遍历。例如，我们可能想要找到我们的锚元素的兄弟元素，以获得我们已经抓取的链接的一些上下文：

dom, _ := qoquery.NewDocument(htmlData)

dom.Find("a").Siblings().Each(func(i int, s *goquery.Selection) {

fmt.Printf("%d, Sibling text: %s\n", i, s.Text())

})

1234

此外，我们可以轻松找到所选元素的父级。如果我们从Colly给出一个锚标记，并且我们想要找到页面

1 2	`anchor.ParentsUntil("~").Find("title").Text()` `1`

ParentsUntil遍历DOM，直到找到与传递的选择器匹配的东西。我们可以使用〜遍历DOM的顶部，然后允许我们轻松获取标题标记。
这实际上只是抓住了Goquery可以做的事情。到目前为止，我们已经看到了DOM遍历的示例，但Goquery也对DOM操作提供了强大的支持 - 编辑文本，添加/删除类或属性，插入/删除HTML元素等。
将它带回网络抓取，我们如何将Goquery与Colly一起使用？它很简单：每个Colly HTMLElement都包含一个Goquery选项，您可以通过DOM属性访问它。

c.OnHTML("div", func(e *colly.HTMLElement) {

// Goquery selection of the HTMLElement is in e.DOM

goquerySelection := e.DOM

// Example Goquery usage

fmt.Println(qoquerySelection.Find(" span").Children().Text())

})

1234567

值得注意的是，大多数抓取任务都可以以不需要使用Goquery的方式构建！只需为html添加一个OnHTML回调，就可以通过这种方式访问整个页面。但是，我仍然发现Goquery是我的DOM遍历工具带的一个很好的补充。

实战项目

1. metalsucks专辑评论排名信息

代码

// go get github.com/PuerkitoBio/goquery

// git clone https://github.com/golang/net

package main

import (

"fmt"

"log"

"net/http"

"github.com/PuerkitoBio/goquery"

)

func main() {

// 请求html页面

res, err := http.Get("http://metalsucks.net")

if err != nil {

// 错误处理

log.Fatal(err)

}

defer res.Body.Close()

if res.StatusCode != 200 {

log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)

}

// 加载 HTML document对象

doc, err := goquery.NewDocumentFromReader(res.Body)

if err != nil {

log.Fatal(err)

}

// Find the review items

doc.Find(".sidebar-reviews article .content-block").Each(func(i int, s *goquery.Selection) {

// For each item found, get the band and title

band := s.Find("a").Text()

title := s.Find("i").Text()

fmt.Printf("Review %d: %s - %s\n", i, band, title)

})

}

输出

Review 0: Darkthrone - Old Star
Review 1: Baroness - Gold & Grey
Review 2: Death Angel - Humanicide
Review 3: Devin Townsend - Empath
Review 4: Whitechapel - The Valley

2. emojipedia表情抓取（colly + goquery）

代码

package main

import (

"fmt"

"strings"

"time"

"github.com/PuerkitoBio/goquery"

"github.com/gocolly/colly"

)

func main() {

c := colly.NewCollector(

colly.AllowedDomains("emojipedia.org"),

)

// Callback for when a scraped page contains an article element

c.OnHTML("article", func(e *colly.HTMLElement) {

isEmojiPage := false

// Extract meta tags from the document

metaTags := e.DOM.ParentsUntil("~").Find("meta")

metaTags.Each(func(_ int, s *goquery.Selection) {

// Search for og:type meta tags

property, _ := s.Attr("property")

if strings.EqualFold(property, "og:type") {

content, _ := s.Attr("content")

// Emoji pages have "article" as their og:type

isEmojiPage = strings.EqualFold(content, "article")

}

})

if isEmojiPage {

// Find the emoji page title

fmt.Println("Emoji: ", e.DOM.Find("h1").Text())

// Grab all the text from the emoji's description

fmt.Println(

"Description: ",

e.DOM.Find(".description").Find("p").Text())

}

})

// Callback for links on scraped pages

c.OnHTML("a[href]", func(e *colly.HTMLElement) {

// Extract the linked URL from the anchor tag

link := e.Attr("href")

// Have our crawler visit the linked URL

c.Visit(e.Request.AbsoluteURL(link))

})

c.Limit(&colly.LimitRule{

DomainGlob: "*",

RandomDelay: 1 * time.Second,

})

c.OnRequest(func(r *colly.Request) {

fmt.Println("Visiting", r.URL.String())

})

c.Visit("https://emojipedia.org")

}

运行结果

3.校花网图片爬取

代码

// 知识点

// 1. http 的用法，返回数据的格式、编码

// 2. 正则表达式

// 3. 文件读写

package main

import (

"bytes"

"fmt"

"io/ioutil"

"net/http"

"os"

"path/filepath"

"regexp"

"strings"

"sync"

"time"

"github.com/axgle/mahonia"

)

var workResultLock sync.WaitGroup

func check(e error) {

if e != nil {

panic(e)

}

func ConvertToString(src string, srcCode string, tagCode string) string {

srcCoder := mahonia.NewDecoder(srcCode)

srcResult := srcCoder.ConvertString(src)

tagCoder := mahonia.NewDecoder(tagCode)

_, cdata, _ := tagCoder.Translate([]byte(srcResult), true)

result := string(cdata)

return result

}

func download_img(request_url string, name string, dir_path string) {

image, err := http.Get(request_url)

check(err)

image_byte, err := ioutil.ReadAll(image.Body)

defer image.Body.Close()

file_path := filepath.Join(dir_path, name+".jpg")

err = ioutil.WriteFile(file_path, image_byte, 0644)

check(err)

fmt.Println(request_url + "\t下载成功")

}

func spider(i int, dir_path string) {

defer workResultLock.Done()

url := fmt.Sprintf("http://www.xiaohuar.com/list-1-%d.html", i)

response, err2 := http.Get(url)

check(err2)

content, err3 := ioutil.ReadAll(response.Body)

check(err3)

defer response.Body.Close()

html := string(content)

html = ConvertToString(html, "gbk", "utf-8")

// fmt.Println(html)

match := regexp.MustCompile(`"210".*alt="(.*?)".*src="(.*?)" />`)

     matched_str := match.FindAllString(html, -1)
     for _, match_str := range matched_str { 
         var img_url string
         name := match.FindStringSubmatch(match_str)[1]
         src := match.FindStringSubmatch(match_str)[2]
         if strings.HasPrefix(src, "http") != true { 
             var buffer bytes.Buffer
             buffer.WriteString("http://www.xiaohuar.com")
             buffer.WriteString(src)
             img_url = buffer.String()
         } else { 
             img_url = src
         }
         download_img(img_url, name, dir_path)
     }
 }
  
 func main() { 
     start := time.Now()
     dir := filepath.Dir(os.Args[0])
     dir_path := filepath.Join(dir, "images")
     err1 := os.MkdirAll(dir_path, os.ModePerm)
     check(err1)
     for i := 0; i < 4; i++ { 
         workResultLock.Add(1)
         go spider(i, dir_path)
     }
     workResultLock.Wait()
     fmt.Println(time.Now().Sub(start))
 }

运行结果

下载的图片

作者：张亚飞
出处：https://www.cnblogs.com/zhangyafei
gitee：https://gitee.com/zhangyafeii
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

标签: Go之路

你可能感兴趣的:(go语言,爬虫)

【Go】Go语言继承-多态模拟菜萝卜子 Golang golang 开发语言后端
继承（结构体嵌入）多态（接口实现和空接口）1.继承（结构体嵌入）Go语言没有传统的面向对象的继承机制，但可以通过“结构体嵌入”实现类似继承的效果。结构体嵌入：在结构体中嵌入另一个结构体，使得子结构体可以直接访问父结构体的字段和方法。字段重写：若子结构体定义了与嵌入的结构体同名的字段，则可以认为“重写”了父结构体的同名字段，访问时默认访问子结构体自己的字段，若需要访问父结构体的字段，则使用Struc
腾讯面经，有点难度~ 后端go
今天分享组织内的朋友在腾讯安全的实习面经。内容涵盖了QPS测试方法、SQL聚合查询、Linux进程管理、Redis数据结构与持久化、NAT原理、Docker隔离机制、Go语言GMP调度模型、协程控制、系统调用流程、变量逃逸分析及map操作等等知识点。下面是我整理的面经详解：面经详解一个表，里面有数据列，id，name,class，查学生最喜欢的前10个课程，sql语句实现SELECTclass,C
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
利用Python爬虫获取Shopee（虾皮）商品详情：实战指南小爬虫程序猿 python 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Python爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Python爬虫获取Shopee商品详情，并提供完整的代码示例。一、为
Go 语言实用工具：如何高效解压 ZIP 文件程序员爱钓鱼 golang ios 开发语言
在日常开发中，我们经常需要处理ZIP文件，例如从远程服务器下载压缩包后解压、备份数据或处理日志文件等。在本文中，我们将介绍一个使用Go语言编写的高效ZIP文件解压工具，并提供示例代码帮助你快速上手。代码实现以下是Unzip函数的完整实现，它可以将ZIP文件解压到指定的目录，并返回解压后的文件路径列表。packageutilsimport("archive/zip""fmt""io""os""pat
Python 爬虫实战：舞台剧与演出信息获取西攻城狮北 python 爬虫开发语言
作为一名对文化艺术活动和数据获取感兴趣的内容创作者，我决定利用Python爬虫技术抓取舞台剧与演出信息。这对于文艺爱好者、文化活动组织者以及相关研究人员来说，是一个极具价值的探索。一、项目背景舞台剧和各类演出活动丰富了人们的精神文化生活。许多城市都有专业的演出场馆，如国家大剧院、上海大剧院等，它们会定期发布演出信息。通过爬虫技术，我们可以自动化地获取这些演出信息，方便用户查询和分析。二、技术选型在
AsyncHttpClient使用说明书有梦想的攻城狮 netty学习专栏 Java asynchttpclient 异步处理 netty
[[toc]]AsyncHttpClient（AHC）是一个高性能、异步的HTTP客户端库，广泛用于Java和Scala应用中，特别适合处理高并发、非阻塞的HTTP请求。它基于Netty或Java原生的异步HTTP客户端实现，支持HTTP/1.1和HTTP/2协议，适用于微服务、API调用、爬虫等场景。1.核心特性特性说明异步非阻塞基于事件驱动模型，避免线程阻塞，支持高并发（如每秒数千请求）。HT
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
LeetCode算法题(Go语言实现)_07 LuckyLay Golang学习笔记算法 leetcode 职场和发展 golang
题目给你一个整数数组nums，返回数组answer，其中answer[i]等于nums中除nums[i]之外其余各元素的乘积。题目数据保证数组nums之中任意元素的全部前缀元素和后缀的乘积都在32位整数范围内。请不要使用除法，且在O(n)时间复杂度内完成此题。一、代码实现funcproductExceptSelf(nums[]int)[]int{n:=len(nums)answer:=make([
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
探秘知乎数据抓取神器 —— zhihu-spider 丁慧湘Gwynne
探秘知乎数据抓取神器——zhihu-spider项目地址:https://gitcode.com/gh_mirrors/zh/zhihu-spider在知识的海洋中畅游，每一份数据都可能成为智慧的火花。今天，我们来一起探索一个专为知乎设计的数据爬虫工具——zhihu-spider，它是由计算机科学研究生MorganZhang精心打造的开源宝藏。项目介绍zhihu-spider，正如其名，是一个针对
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
【Golang】Go语言中defer与return的精妙交织：探索延迟执行与返回顺序的微妙关系 m0_74824894 面试学习路线阿里巴巴 golang 开发语言后端
【Golang】Go语言中defer与return的精妙交织：探索延迟执行与返回顺序的微妙关系大家好我是寸铁??总结了一篇defer和return返回值的执行顺序探讨的文章喜欢的小伙伴可以点点关注??前言在Go语言中，defer和return是两个非常重要的关键字，它们在函数执行过程中起着至关重要的作用。defer用于延迟执行一个函数调用，通常用于在函数执行结束后进行一些清理工作或资源释放操作。而
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
JavaScript反爬技术解析与应对不做超级小白 web逆向知识碎片 web前端 javascript 开发语言 ecmascript
JavaScript反爬技术解析与应对前言在当今Web爬虫与数据抓取的生态环境中，网站运营方日益关注数据安全与隐私保护，因此逐步采用多种反爬技术来限制非授权访问。本文从JavaScript角度出发，深入剖析主流反爬策略的技术原理，并探讨相应的绕过方案，以期为研究者和开发者提供系统性的理解与实践指导。1.JavaScript反爬技术概述1.1右键禁用与开发者工具防护部分网站采用JavaScript拦
go的hooks如何写 lotluck golang golang 开发语言后端
在Go语言中，实现Hooks的方式多样，具体取决于应用场景。以下是几种常见实现方法及示例：一、函数式Hooks（基础实现）通过函数类型作为参数传递，实现灵活的钩子机制：//定义钩子函数类型typeHookFuncfunc()//业务函数接受钩子参数funcDoSomething(hookHookFunc){//执行前置操作fmt.Println("Beforeoperation")hook()//
Go语言常用框架及工具介绍半桶水专家 golang入门 golang 开发语言后端
在Go语言开发中，框架和工具的选择能够显著提升开发效率和项目可维护性。以下是Go生态中常用的框架分类及详细介绍：一、Web框架Gin特点：轻量级、高性能，基于httprouter实现快速路由。优势：适合API开发，中间件支持丰富（如日志、CORS、JWT等），社区活跃。适用场景：高并发API服务、微服务、中小型Web应用。示例：r:=gin.Default()r.GET("/ping",func(
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
Go语言反射机制详解半桶水专家 golang入门 golang 开发语言后端
Go语言中的反射（Reflection）是一种在运行时动态检查类型信息和操作对象的能力。通过反射，可以获取变量的类型、值、方法、结构体字段等信息，甚至动态调用函数或修改变量的值。Go的反射功能由标准库中的reflect包提供。反射的核心概念反射的核心围绕两个接口展开：reflect.Type：表示Go语言中的类型信息（如类型名称、方法、字段等）。reflect.Value：表示某个类型的实例的值信
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
并发安全的sync.Map 不7夜宵基础知识后端
对于并发读写map的情况下，map的数据会被写乱造成panic。Go语言原生map并不是线程安全的，因此对它进行并发读写操作时需要加锁。但是当操作频繁且要求性能的情况下，锁的优化已经无法满足业务需求，考虑到互联网应用通常是读多写少的场景，Golang的标准库提供了一个特殊的并发安全的map实现，为了与原生map区分，人们习惯性称为sync.map。一、sync.map与map的区别1.并发安全sy
从零开始学习 Go 语言九班长 Golang 学习 golang 后端开发语言 gin
Go语言（又称Golang）是由Google开发的一种静态强类型、编译型、并发型编程语言。它以其简洁的语法、高效的并发支持和强大的标准库而闻名，非常适合开发高性能的服务器端应用、分布式系统和云计算工具。本文将从零开始，详细介绍如何学习Go语言，涵盖基础语法、核心概念、并发编程、工具链和实战项目等内容。1.Go语言简介1.1Go语言的特点简洁易学：语法简洁，学习曲线平缓。高效编译：编译速度快，生成的
【go】从函数输入选择思考到关注点分离原则还没入门的大菜狗 golang 开发语言
在阅读《100个go语言经典错误》的时候，看到错误：使用文件名作为函数输入。由此思考，这个虽然是入参的设计，但是实际上涉及到了函数的抽象问题。从函数输入选择与函数抽象的最佳实践到思考关注点分离原则。函数输入选择与函数抽象的最佳实践通过分析46-function-input中的代码，我们可以总结出关于函数输入选择的重要原则以及函数抽象的深入思考。一、函数名不应包含输入来源代码展示了两个功能相似但设计
【go语言规范】使用函数式选项 Functional Options 模式处理可选配置还没入门的大菜狗 golang 开发语言后端
如何处理可选配置？ConfigStruct方式(config-struct/main.go)这是最简单的方式，使用一个配置结构体：定义了一个简单的Config结构体，包含Port字段创建服务器时直接传入配置对象优点：简单直接缺点：不够灵活，所有字段都必须设置值，即使只想修改其中一个Builder模式(builder/main.go)使用建造者模式：定义ConfigBuilder结构体来构建配置提供
【Golang】defer与recover的组合使用星星点点洲 Go golang 开发语言后端
在Go语言中，defer和recover是两个关键特性，通常结合使用以处理资源管理和异常恢复。以下是它们的核心应用场景及使用示例：1.defer的应用场景defer用于延迟执行函数调用，确保在函数退出前执行特定操作。主要用途包括：资源释放文件操作：确保文件句柄关闭。funcreadFile(filenamestring)error{file,err:=os.Open(filename)iferr!
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1