small_to_large

Go colly爬虫框架精简高效【杠杠的】入门到精通

1 前言

1.1 Go Colly 爬虫介绍

爬虫框架中，各中流行的编程语言都有自己热门框架，python中的selenium、Scrapy、PySpider等，Java中的Nutch、Crawler4j、WebMagic、WebCollector等。golang中colly使用Go语言编写的功能强大的爬虫框架，api简洁、性能强大、并发性高，github star 接近20K。

1.2 安装

go init colly.demo
go get -u github.com/gocolly/colly/v2

1.3 hello word

入门程序：抓取百度首页的按钮文字：“百度一下”

package main

import (
	"fmt"
	"log"

	"github.com/gocolly/colly/v2"
)

func main() {
	// 创建收集器
	c := colly.NewCollector()

	// 获取 "百度一下" 按钮文本
	c.OnHTML("#su", func(e *colly.HTMLElement) {
		baiduBtn := e.Attr("value")
		fmt.Println(baiduBtn)
	})

	// 开始访问
	err := c.Visit("http://www.baidu.com/")
	if err != nil {
		log.Fatalln(err)
		return
	}
}

PS D:\dev\go\workspace\go-colly-demo> go run .\demo1.go
百度一下

2 使用介绍

2.1 核心生命周期函数介绍

NewCollector 创建收集器对象
Visit 开始访问
OnRequest 请求发起时回调,一般用来设置请求头等
OnHTML 匹配指定元素后回调
OnXML 和OnHTML类似，用于匹配xpath解析
OnScraped 在所有OnHTML之后执行，可以用来做一些回收操作
OnError 请求发生错误回调，比如404

package main

import (
	"fmt"
	"log"

	"github.com/gocolly/colly/v2"
)

func main() {
	// 创建收集器
	c := colly.NewCollector()

	// 匹配指定元素后回调
	c.OnHTML("#su", func(e *colly.HTMLElement) {
		baiduBtn := e.Attr("value")
		fmt.Println("匹配到目标元素ID su:", baiduBtn)
	})

	// 可以多次 OnHTML 不同的页面元素
	c.OnHTML("#kw", func(e *colly.HTMLElement) {
		maxlength := e.Attr("maxlength")
		fmt.Println("匹配到目标元素ID kw, 最多允许输入:", maxlength)
	})

	// 请求发起时回调,一般用来设置请求头等
	c.OnRequest(func(request *colly.Request) {
		fmt.Println("----> 开始请求了")
	})

	// 请求完成后回调
	c.OnResponse(func(response *colly.Response) {
		fmt.Println("----> 开始返回了")
	})

	//请求发生错误回调
	c.OnError(func(response *colly.Response, err error) {
		fmt.Printf("发生错误了:%v", err)
	})

	// 在所有OnHTML之后执行，可以用来做一些回收操作
	c.OnScraped(func(response *colly.Response) {
		fmt.Println("----> 所有匹配已完成")
	})

	// 和OnHTML类似，用于匹配xpath解析
    // 匹配：百度首页左上方链接
	c.OnXML("//div[@id='s-top-left']/a", func(element *colly.XMLElement) {
		text := element.Text
		href := element.Attr("href")
		fmt.Printf("名称:%s -> 连接:%s\n", text, href)
	})

	// 开始访问
	err := c.Visit("http://www.baidu.com/")
	if err != nil {
		log.Fatalln(err)
		return
	}
}

PS D:\dev\go\workspace\go-colly-demo> go run .\demo2.go
----> 开始请求了
----> 有结果返回了
匹配到目标元素ID su: 百度一下
匹配到目标元素ID kw, 最多允许输入: 255
名称:新闻 -c> 连接:http://news.baidu.com
名称:hao123 -c> 连接:https://www.hao123.com?src=from_pc
名称:地图 -c> 连接:http://map.baidu.com
名称:贴吧 -c> 连接:http://tieba.baidu.com/
名称:视频 -c> 连接:https://haokan.baidu.com/?sfrom=baidu-top
名称:图片 -c> 连接:http://image.baidu.com/
名称:网盘 -c> 连接:https://pan.baidu.com?from=1026962h
----> 所有匹配已完成

2.2 goquerySelector 语法

OnHTML方法的第一个参数是选择器，goquery选择器语法类似jquery，可以认为它是jquery的go版本实现。这里简单介绍常用的选择器，具体可以参考jquery选择器使用。

ID选择器： #id-name 根据元素id属性进行选择
类选择器：.class-name 根据class名称选择
标签选择器：div 根据标签名字选择
子元素选择器：parent>child 筛选parent这个父元素下，符合child这个条件的最直接的子元素，不会匹配孙子元素
子孙选择器：parent son 空格隔开代表可以匹配非直接子元素也就包括子孙元素了
prev+next相邻选择器：选择相邻的元素
…

2.3 xpath语法

OnXML 的第一个参数为xpath选择器，用的相对少一些，可以自行搜索语法学期，这里不再赘述，余下代码实例都用goquery选择器

XPath 语法 (w3school.com.cn)

2.4 *colly.HTMLElement常用方法

	c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
		// 
	})

2.4.1 常用属性

Name：获取元素名称

Text：获取元素文本内容，包括子元素的内容

DOM：返回goquery dom对象，可以调用goquery的方法进行操作：Find、Has、After 等

c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
    fmt.Println(e.Name)
    fmt.Println(e.Text)
})

PS D:\dev\go\workspace\go-colly-demo> go run .\demo3.go
div
新闻hao123地图贴吧视频图片网盘更多翻译学术文库百科知道健康营销推广直播音乐查看全部百度产品 >

2.4.2 常用的方法

Attr：Attr(k string) string 获取元素指定属性

cs := e.Attr("class")

ForEach：ForEach(goquerySelector string, callback func(int, *HTMLElement)) 在当前元素的遍历所有符合指定条件的元素

c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
    e.ForEach("a", func(i int, element *colly.HTMLElement) {
        fmt.Printf("第%d超链接\t %s :: %s\n", i, element.Text, element.Attr("href"))
    })
})

PS D:\dev\go\workspace\go-colly-demo> go run .\demo3.go
第0超链接        新闻 :: http://news.baidu.com
第1超链接        hao123 :: https://www.hao123.com?src=from_pc
第2超链接        地图 :: http://map.baidu.com
第3超链接        贴吧 :: http://tieba.baidu.com/
第4超链接        视频 :: https://haokan.baidu.com/?sfrom=baidu-top
第5超链接        图片 :: http://image.baidu.com/
第6超链接        网盘 :: https://pan.baidu.com?from=1026962h
第7超链接        更多 :: http://www.baidu.com/more/
第8超链接        翻译 :: http://fanyi.baidu.com/
第9超链接        学术 :: http://xueshu.baidu.com/
第10超链接       文库 :: https://wenku.baidu.com
第11超链接       百科 :: https://baike.baidu.com
第12超链接       知道 :: https://zhidao.baidu.com
第13超链接       健康 :: https://jiankang.baidu.com/widescreen/home
第14超链接       营销推广 :: http://e.baidu.com/ebaidu/home?refer=887
第15超链接       直播 :: https://live.baidu.com/
第16超链接       音乐 :: http://music.taihe.com
第17超链接       查看全部百度产品 > :: http://www.baidu.com/more/

ForEachWithBreak：和ForEach类似，但是可以根据指定返回true false控制是否终止循环

c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
    e.ForEachWithBreak("a", func(i int, element *colly.HTMLElement) bool {
        fmt.Printf("第%d超链接\t %s :: %s\n", i, element.Text, element.Attr("href"))
        return i < 3
    })
})

PS D:\dev\go\workspace\go-colly-demo> go run .\demo3.go
第0超链接        新闻 :: http://news.baidu.com
第1超链接        hao123 :: https://www.hao123.com?src=from_pc
第2超链接        地图 :: http://map.baidu.com
第3超链接        贴吧 :: http://tieba.baidu.com/

ChildAttrs：(goquerySelector, attrName string) []string 在当前元素下匹配指定元素，并返回指定的属性值

c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
    attrs := e.ChildAttrs("a", "href")
    for i, attr := range attrs {
        fmt.Printf("第%d个a标签的href属性: %s\n", i, attr)
    }
})

PS D:\dev\go\workspace\go-colly-demo> go run .\demo3.go
第0个a标签的href属性: http://news.baidu.com
第1个a标签的href属性: https://www.hao123.com?src=from_pc
第2个a标签的href属性: http://map.baidu.com
第3个a标签的href属性: http://tieba.baidu.com/
第4个a标签的href属性: https://haokan.baidu.com/?sfrom=baidu-top
第5个a标签的href属性: http://image.baidu.com/
第6个a标签的href属性: https://pan.baidu.com?from=1026962h
第7个a标签的href属性: http://www.baidu.com/more/
第8个a标签的href属性: http://fanyi.baidu.com/
第9个a标签的href属性: http://xueshu.baidu.com/
第10个a标签的href属性: https://wenku.baidu.com
第11个a标签的href属性: https://baike.baidu.com
第12个a标签的href属性: https://zhidao.baidu.com
第13个a标签的href属性: https://jiankang.baidu.com/widescreen/home
第14个a标签的href属性: http://e.baidu.com/ebaidu/home?refer=887
第15个a标签的href属性: https://live.baidu.com/
第16个a标签的href属性: http://music.taihe.com
第17个a标签的href属性: http://www.baidu.com/more/

ChildTexts：ChildTexts(goquerySelector string) []string 在当前元素下匹配指定元素，并返回指定元素的text内容

c.OnHTML("#s-top-left", func(e *colly.HTMLElement) {
    texts := e.ChildTexts("a")
    fmt.Println(strings.Join(texts, ", "))
})

PS D:\dev\go\workspace\go-colly-demo> go run .\demo3.go
新闻, hao123, 地图, 贴吧, 视频, 图片, 网盘, 更多, 翻译, 学术, 文库, 百科, 知道, 健康, 营销推广, 直播, 音乐, 查看全部百度产品 >

3 高级配置

3.1 收集器配置-UserAgent

用来设置浏览器UA头

c := colly.NewCollector(
    colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"),
)

c.OnRequest(func(request *colly.Request) {
    fmt.Println("User-Agent:", request.Headers.Get("User-Agent"))
})

3.2 收集器配置-Async

设置网络请求异步处理，异步之后需要调用c.Wait()

package main

import (
	"fmt"
	"github.com/gocolly/colly/v2"
	"time"
)

func main() {
	// Instantiate default collector
	c := colly.NewCollector(
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"),
		colly.Async(),
		colly.MaxDepth(2),
	)

	c.OnRequest(func(request *colly.Request) {
		fmt.Println("开始请求：", request.URL)
	})
	c.OnHTML("#s-top-left a", func(e *colly.HTMLElement) {
		link := e.Attr("href")
		e.Request.Visit(link)
	})

	now := time.Now()
	c.Visit("https://baidu.com/")
	// Wait until threads are finished
	c.Wait()
	fmt.Println("耗时：", time.Now().Sub(now).Milliseconds())
}

测试结果

关闭异步：5~6s

开启异步：1~2s

3.3 收集器配置-MaxDepth

限制访问的URL的递归深度

3.4 收集器配置-AllowedDomains

设置允许请求的域名主机，可以是多个，Visit只会发起这些域名下的请求

	c := colly.NewCollector(
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"),
		colly.Async(true),
		colly.AllowedDomains("www.baidu.com", "wiki.hackerspaces.org"),
	)

3.5 收集器配置-IgnoreRobotsTxt

设置忽略robots协议

robots协议也称爬虫协议、爬虫规则等,是指网站可建立一个robots.txt文件来告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,而搜索引擎则通过读取robots.txt文件来识别这个页面是否允许被抓取。但是,这个robots协议不是防火墙,也没有强制执行力,搜索引擎完全可以忽视robots.txt文件去抓取网页的快照。

	c := colly.NewCollector(
		colly.IgnoreRobotsTxt(),
	)

3.6 收集器配置-CacheDir

设置GET请求本地缓存文件夹

	c := colly.NewCollector(
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"),
		colly.Async(true),
		colly.AllowedDomains("www.baidu.com", "wiki.hackerspaces.org"),
		colly.IgnoreRobotsTxt(),
		colly.CacheDir("cache-dir"),
	)

3.7 收集器配置-AllowURLRevisit

允许同一个收集器多次访问同一个地址

colly.AllowURLRevisit(),

3.8 并发请求设置

c.Limit(&colly.LimitRule{
    DomainGlob:  "*baidu.*", // 匹配URL包含baidu的
    Parallelism: 10, // 并发请求10
    RandomDelay: 5 * time.Second, // 设置发起请求随机延时0-5
})

例子：

package main

import (
	"fmt"
	"github.com/gocolly/colly/v2"
	"time"
)

func main() {
	// Instantiate default collector
	c := colly.NewCollector(
		colly.UserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.42"),
		colly.Async(),
		colly.MaxDepth(2),
		colly.AllowURLRevisit(),
	)

	c.Limit(&colly.LimitRule{
		DomainGlob:  "*baidu.*",
		Parallelism: 10,
		RandomDelay: 5 * time.Second,
	})

	//c.Limit(&colly.LimitRule{DomainGlob: "*", Parallelism: 2})
	c.OnRequest(func(request *colly.Request) {
		fmt.Println("开始请求：", request.URL)
	})
	c.OnResponse(func(response *colly.Response) {
		fmt.Println("请求结束：", response.Request.URL)
		fmt.Println("------------")
	})
	c.OnHTML("#s-top-left a", func(e *colly.HTMLElement) {
		link := e.Attr("href")
		e.Request.Visit(link)
	})

	now := time.Now()
	c.Visit("https://baidu.com/")
	// Wait until threads are finished
	c.Wait()
	fmt.Println("耗时：", time.Now().Sub(now).Milliseconds())
}

3.9 配置代理

频繁访问网站，会面临IP被封，需要进行代理池设置，colly支持http https socks5的代理

这里使用"快代理"免费代理池测试；国内高匿HTTP免费代理IP - 快代理 (kuaidaili.com) 免费的极其不稳定，测试过程中-_-碰运气

// 设置代理:http https socks5
proxyPool, err := proxy.RoundRobinProxySwitcher("http://111.3.102.207:30001", "http://183.247.211.41:30001")
if err != nil {
    fmt.Println("设置代理失败", err)
    return
}
c.SetProxyFunc(proxyPool)

3.10 上传multipart文件

colly的收集器，提供了 PostMultipart方法用来上传文件，这里贴出一个官方的小demo

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"time"

	"github.com/gocolly/colly/v2"
)

func generateFormData() map[string][]byte {
	f, _ := os.Open("gocolly.jpg")
	defer f.Close()

	imgData, _ := ioutil.ReadAll(f)

	return map[string][]byte{
		"firstname": []byte("one"),
		"lastname":  []byte("two"),
		"email":     []byte("[email protected]"),
		"file":      imgData,
	}
}

func setupServer() {
	var handler http.HandlerFunc = func(w http.ResponseWriter, r *http.Request) {
		fmt.Println("received request")
		err := r.ParseMultipartForm(10000000)
		if err != nil {
			fmt.Println("server: Error")
			w.WriteHeader(500)
			w.Write([]byte("Internal Server Error"))
			return
		}
		w.WriteHeader(200)
		fmt.Println("server: OK")
		w.Write([]byte("Success"))
	}

	go http.ListenAndServe(":8080", handler)
}

func main() {
	// Start a single route http server to post an image to.
	setupServer()

	c := colly.NewCollector(colly.AllowURLRevisit(), colly.MaxDepth(5))

	// On every a element which has href attribute call callback
	c.OnHTML("html", func(e *colly.HTMLElement) {
		fmt.Println(e.Text)
		time.Sleep(1 * time.Second)
		e.Request.PostMultipart("http://localhost:8080/", generateFormData())
	})

	// Before making a request print "Visiting ..."
	c.OnRequest(func(r *colly.Request) {
		fmt.Println("Posting gocolly.jpg to", r.URL.String())
	})

	// Start scraping
	c.PostMultipart("http://localhost:8080/", generateFormData())
	c.Wait()
}

3.11 Cookies处理

请求中难免会遇到cookies处理的情况：

cookiejar go 语言net包提供的：net/http/cookiejar用来存储cookies

colly 收集器提供了两个方法：SetCookieJar和SetCookies来设置请求

cjar, err := cookiejar.New(nil)
if err != nil {
    fmt.Println("创建cookiejar失败", err)
}
// 设置cookiejar
c.SetCookieJar(cjar)
// 请求发起时候打印cookies
c.OnRequest(func(request *colly.Request) {
    cookies := cjar.Cookies(request.URL)
    fmt.Println(cookies)
    fmt.Println("开始请求：", request.URL, ", cookies:", cookies)
})

4 综合实战

4.1 抓取笔趣阁小说

网站地址：http://www.bqg5200.net/16/16705/ 伏天氏小说章节抓取

代码实现：

package main

import (
	"bufio"
	"fmt"
	"github.com/PuerkitoBio/goquery"
	"github.com/gocolly/colly/v2"
	"github.com/gocolly/colly/v2/extensions"
	"log"
	"os"
	"strings"
	"time"
)

type PageChapter struct {
	Name  string `json:"name"`
	Url   string `json:"url"`
	Index int    `json:"index"`
}

func GetNewCollector() *colly.Collector {
	collector := colly.NewCollector(
		func(collector *colly.Collector) {
			// 设置随机ua
			extensions.RandomUserAgent(collector)
		},
		func(collector *colly.Collector) {
			collector.OnRequest(func(request *colly.Request) {
				log.Println(request.URL, ", User-Agent:", request.Headers.Get("User-Agent"))
			})
		},
	)
	collector.SetRequestTimeout(time.Second * 60)
	return collector
}

func BqgChapterParse(url string) ([]PageChapter, error) {
	var cha []PageChapter
	collector := GetNewCollector()
	collector.OnHTML(".listmain dl", func(element *colly.HTMLElement) {
		element.DOM.Children().Each(func(i int, selection *goquery.Selection) {
			selection = selection.ChildrenFiltered("a")
			link, _ := selection.Attr("href")
			name := strings.TrimSpace(selection.Text())
			cha = append(cha, PageChapter{
				Index: i,
				Url:   element.Request.AbsoluteURL(link),
				Name:  name,
			})
		})
	})
	err := collector.Visit(url)
	return cha, err
}

func writeTxt(fileName string, chapters []PageChapter) {
	f, err := os.Create(fileName)
	if err != nil {
		fmt.Println("创建文件失败,", err)
		return
	}
	defer f.Close()
	w := bufio.NewWriter(f)

	for _, chapter := range chapters {
		w.WriteString(fmt.Sprintf("%d %s %s\n", chapter.Index, chapter.Name, chapter.Url))
	}
	w.Flush()
}

func main() {
	log.Println("开始抓取")
	parse, err := BqgChapterParse("http://www.bqg5200.net/16/16705/")
	if err != nil {
		log.Fatalf("解析章节错误：%v", err)
	}
	log.Println("抓取结束")
	writeTxt("16705.txt", parse)
	log.Println("写入文件结束")
}

0  http://www.bqg5200.net/16/16705/
1 第一章 此间少年 http://www.bqg5200.net/16/16705/4845336.html
2 第二章 三年聚气 http://www.bqg5200.net/16/16705/4845337.html
3 第三章 一日三境 http://www.bqg5200.net/16/16705/4845338.html
4 第四章 太阳命魂 http://www.bqg5200.net/16/16705/4845339.html
5 第五章 风晴雪的决定 http://www.bqg5200.net/16/16705/4845340.html
6 第六章 有龙出没 http://www.bqg5200.net/16/16705/4845341.html
7 第七章 刻箓师 http://www.bqg5200.net/16/16705/4845342.html
8 第八章 万众瞩目 http://www.bqg5200.net/16/16705/4845343.html
9 第九章 文试 http://www.bqg5200.net/16/16705/4845344.html
10 第十章 一鸣惊人 http://www.bqg5200.net/16/16705/4845345.html
11 第十一章 妖精害我 http://www.bqg5200.net/16/16705/4845346.html
12 第十二章 师兄弟 http://www.bqg5200.net/16/16705/4845347.html
13 第十三章 一日功成 http://www.bqg5200.net/16/16705/4845348.html
14 第十四章 论战 http://www.bqg5200.net/16/16705/4845349.html
15 第十五章 太嚣张了 http://www.bqg5200.net/16/16705/4845350.html
16 第十六章 年少轻狂 http://www.bqg5200.net/16/16705/4845351.html
17 第十七章 我不服 http://www.bqg5200.net/16/16705/4845352.html
。。。
。。。

4.2 抓取百度热搜

地址：百度热搜 (baidu.com)

代码实现：

package main

import (
	"fmt"
	"github.com/gocolly/colly/v2"
	"github.com/gocolly/colly/v2/extensions"
	"log"
	"time"
)

type HotItem struct {
	Link  string
	Img   string
	Title string
	Desc  string
	Hot   int
}

func main() {
	collector := colly.NewCollector(
		func(collector *colly.Collector) {
			// 设置随机ua
			extensions.RandomUserAgent(collector)
		},
		func(collector *colly.Collector) {
			collector.OnRequest(func(request *colly.Request) {
				log.Println(request.URL, ", User-Agent:", request.Headers.Get("User-Agent"))
			})
		},
	)
	collector.SetRequestTimeout(time.Second * 60)

	data := []HotItem{}

	collector.OnHTML(".container-bg_lQ801", func(element *colly.HTMLElement) {
		element.ForEach(".category-wrap_iQLoo", func(i int, element *colly.HTMLElement) {
			aLink := element.DOM.ChildrenFiltered("a")
			jumpLink, _ := aLink.Attr("href")
			imgLink, _ := aLink.ChildrenFiltered("img").Attr("src")

			title := element.ChildText(".content_1YWBm .c-single-text-ellipsis")
			desc := element.ChildText(".content_1YWBm .large_nSuFU ")
			data = append(data, HotItem{
				Link:  jumpLink,
				Img:   imgLink,
				Title: title,
				Desc:  desc,
			})
		})
	})

	err := collector.Visit("https://top.baidu.com/board?tab=realtime")
	if err != nil {
		log.Fatalf("%v", err)
	}

	for i := range data {
		fmt.Printf("[%d]标题:%s, 链接:%s, 图片地址:%s, 描述:%s\n", i, data[i].Title, data[i].Link, data[i].Img, data[i].Desc)
	}
}

你可能感兴趣的:(Golang,golang,爬虫,colly)

对Python中常用的爬虫request库做一个简单的介绍 HL.云黑 python 爬虫开发语言
在Python爬虫的世界中，Requests库是一个不可或缺的工具。它以其简洁的API和强大的功能，成为了开发者进行HTTP请求的首选库。下面将从几个方面介绍Requests库的特点和使用技巧。1.简洁易用的APIRequests库的设计理念是让HTTP请求变得简单直观。通过几行代码，开发者就可以发送GET或POST请求，获取网页内容。例如：```pythonimportrequestsrespo
Python一个爬虫 HL.云黑 python 爬虫开发语言
importrequestsimportreimportthreadingfromconcurrent.futuresimportThreadPoolExecutorheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/62.0.3202.101Safari/5
pythonrequests发送数据_对python requests发送json格式数据的实例详解 weixin_39652869
requests是常用的请求库，不管是写爬虫脚本，还是测试接口返回数据等。都是很简单常用的工具。这里就记录一下如何用requests发送json格式的数据，因为一般我们post参数，都是直接post，没管post的数据的类型，它默认有一个类型的，貌似是application/x-www-form-urlencoded。但是，我们写程序的时候，最常用的接口post数据的格式是json格式。当我们需要
【Golang】——Gin 框架与数据库集成详解 Linke- Golang golang gin 数据库后端开发语言 go
文章目录1.引言2.初始化项目2.1创建Gin项目2.2安装依赖3.数据库驱动安装与配置3.1配置数据库3.2连接数据库3.3在主函数中初始化数据库4.定义数据模型4.1创建用户模型4.2自动迁移5.使用GORM进行CRUD操作5.1创建用户5.2获取用户列表5.3更新用户信息5.4删除用户5.5路由配置6.数据库迁移与管理6.1数据迁移6.2手动迁移7.使用事务处理复杂操作8.优化与调试8.1数
Golang｜单机并发缓存恒嘉宇分布式缓存 Golang golang 缓存开发语言
varmsync.Mutex//sync.Mutex是一个互斥锁，可以由不同的协程加锁和解锁。//sync.Mutex是Go语言标准库提供的一个互斥锁//当一个协程(goroutine)获得了这个锁的拥有权后，其它请求锁的协程(goroutine)就会阻塞在Lock()方法的调用上，直到调用Unlock()锁被释放。varset=make(map[int]bool,0)funcprintOnce(
python怎么爬网站视频教程_python爬虫爬取某网站视频的示例代码 weixin_39630247 python怎么爬网站视频教程
把获取到的下载视频的url存放在数组中(也可写入文件中)，通过调用迅雷接口，进行自动下载。(请先下载迅雷，并在其设置中心的下载管理中设置为一键下载)实现代码如下：frombs4importBeautifulSoupimportrequestsimportos,re,timeimporturllib3fromwin32com.clientimportDispatchclassDownloadVide
Web-3.0学习路线奶龙牛牛 web3
方向学习内容✅区块链基础区块链、智能合约、共识机制✅智能合约Solidity/Rust（Ethereum/Solana）✅前端React.js,Next.js,Web3.js,ethers.js✅后端Node.js,Python,Golang（链上数据）✅存储IPFS,Arweave,Filecoin（去中心化存储）✅交互MetaMask,WalletConnect（钱包）如果你是前端开发Reac
运用python爬虫爬取汽车网站图片并下载，几个汽车网站的示例参考大懒猫软件 python 爬虫汽车图像处理
当然，以下是一些常见的汽车网站及其爬虫示例代码，展示如何爬取汽车图片并下载。请注意，爬取网站内容时应遵守网站的使用协议和法律法规，避免对网站造成不必要的负担。示例1：爬取汽车之家图片网站地址汽车之家爬虫代码Python复制importrequestsfrombs4importBeautifulSoupimportosdefdownload_images(url,folder):ifnotos.pa
爬虫_pandas 起来，该敲代码啦爬虫
123.pyimportpandasaspddf=pd.read_csv('./123.csv')打印某一列;判断某一列是否有空值print(df['NUM_BEDROOMS'])print(df['NUM_BEDROOMS'].isnull())dropna()中写inplace=True修改源数据df2=df.dropna()指定的列的某一行有空值的话就删除那一行数据df3=df.dropna
爬虫基础（五）爬虫基本原理 A.sir啊网络爬虫必备知识点爬虫网络 http 网络协议 python pycharm
目录一、爬虫是什么二、爬虫过程（1）获取网页（2）提取信息（3）保存数据三、爬虫可爬的数据四、爬虫问题一、爬虫是什么互联网，后面有个网字，我们可以把它看成一张蜘蛛网。爬虫，后面有个虫子，我们可以把它看成蜘蛛。爬虫之于互联网，就是蜘蛛之于蜘蛛网。蜘蛛每爬到一个节点，就是爬虫访问了一个网页。用正式的话来说，爬虫，就是自动提取、保存网页信息的程序。二、爬虫过程（1）获取网页获取网页，就是获取网页的源代码
爬虫基础（三）Session和Cookie讲解 A.sir啊网络爬虫必备知识点前端服务器运维网络网络爬虫
目录一、前备知识点（1）静态网页（2）动态网页（3）无状态HTTP二、Session和Cookie三、Session四、Cookie（1）维持过程（2）结构正式开始说Session和Cookie之前，有些基础知识需要知道，我们先来看一下：一、前备知识点（1）静态网页比如，我们写了一段html代码，然后保存为一个html文件该文件所在主机，具有服务器那么其他人就可以通过访问服务器，来打开这个html
爬虫基础（四）线程和进程及相关知识点 A.sir啊网络爬虫必备知识点服务器网络网络爬虫 python pycharm
目录一、线程和进程（1）进程（2）线程（3）区别二、串行、并发、并行（1）串行（2）并行（3）并发三、爬虫中的线程和进程（1）GIL锁（2）爬虫的多线程（3）Python的多进程一、线程和进程（1）进程所谓进程，就是正在运行的程序，它占用独立的内存区域用通俗的话来说：我们打开媒体播放器，就是打开了一个媒体播放器进程，打开浏览器，就是打开了一个浏览器进程，打开某软件，就是打开了某软件进程。这三个进程
爬虫基础（六）代理简述 A.sir啊网络爬虫必备知识点网络协议爬虫 python
目录一、什么是代理二、基本原理三、代理分类一、什么是代理爬虫一般是自动化的，当我们自动运行时爬虫自动抓取数据，但一会就出现了错误：如，您的访问频率过高！这是因为网站的反爬措施，如果频繁访问，则会被禁止，即封IP为解决这种情况，我们需要把自己的IP伪装一下，即代理所谓代理，就是代理服务器。二、基本原理正常来说：客户发送请求给服务器然后服务器将响应传给客户而代理的话：相当于在客户和服务器之间加一个代理
python 爬取小红书追光少年3322 python 网络爬虫
爬虫实现基本流程一.明确需求明确采集的网站及数据内容目标：根据小红书作者主页链接，采集作者主页所有笔记，并保存为excel表格。采集的字段包括作者、笔记类型、标题、点赞数、笔记链接。网址：https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43二.分析思路分析爬虫思路，概括如下：打开小红书主页与登录打开小红书作者主页,获取作
XXL-CRAWLER v1.4.0 ｜ Java爬虫框架后端爬虫java
ReleaseNotes1、【提升】爬虫JS渲染能力强化：升级提供"Selenium+ChromeDriver"方案支持JS渲染，兼容性更高，废弃旧Phantomjs方案。非JS渲染场景仍然Jsoup，速度更快。同时支持自由扩展其他实现。2、【优化】进一步优化Selenium兼容问题，完善JS渲染场景下兼容性和性能。3、【重构】重构核心功能模块，提升扩展性；修复历史代码隐藏问题，提升系统稳定习惯。
03-1.python爬虫-爬虫简介执着的小火车 python入门到项目实践爬虫 python http
03-1.python爬虫-爬虫简介简介Python爬虫是一种使用Python编程语言编写的程序，用于自动从互联网上获取网页数据。它可以模拟人类浏览器的行为，发送HTTP请求到目标网站，获取网页的HTML内容，然后通过解析HTML提取所需的数据，如文本、图片链接、表格数据等。爬虫的应用广泛，比如在数据挖掘领域，可收集大量数据用于分析趋势和模式；在信息聚合方面，能将不同网站的特定信息汇总到一处；还可
03-2.python爬虫-Python爬虫基础(一) 执着的小火车 python入门到项目实践爬虫 python 开发语言
HTTP基本原理HTTP（HyperTextTransferProtocol），即超文本传输协议，是互联网通信的关键所在。它作为应用层协议，构建于可靠的TCP协议之上，保障了数据传输的稳定与可靠，犹如网络世界的“交通规则”，规范着客户端与服务器之间的数据往来。HTTP的请求响应过程是其核心机制。当用户在浏览器中输入一个URL并按下回车键，浏览器就会作为客户端向服务器发送HTTP请求。请求由请求行、
Python 爬虫实战：在马蜂窝抓取旅游攻略，打造个性化出行指南西攻城狮北 python 爬虫旅游开发语言实战案例
一、引言二、准备工作（一）安装必要的库（二）分析网页结构三、抓取攻略列表信息（一）发送请求获取网页内容（二）解析网页提取攻略信息（三）整合代码获取攻略列表四、抓取单个攻略详情信息（一）发送请求获取攻略详情页面内容（二）解析网页提取攻略详情信息（三）整合代码获取攻略详情五、数据存储（一）存储到CSV文件（二）存储到数据库（以SQLite为例）六、注意事项（一）遵守法律法规和平台规定（二）应对反爬虫机
爬虫守则--写爬虫，不犯法 Erfec
玩爬虫，技术当然是中立的，浏览了因为爬虫被捕入狱的案例，自己总结了如下爬虫守则，不吃牢饭！1、爬虫速度不要太快，不要给对方服务器造成太大压力2、爬虫不要伪造VIP，绕过对方身份验证，你可以真的买一个VIP做自动化，这没问题3、公民个人信息不要去碰4、爬取的数据不能用于盈利5、爬虫是模拟人，不要做人不能做到的事情
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！夜色恬静一人 python 爬虫开发语言 Python
Python程序员爬取大量视频资源，最终面临刑期2年的惩罚！近日，一名Python程序员因为涉嫌大规模爬取视频资源而被判处2年有期徒刑。这个案例引起了广泛的关注，也引发了对于网络爬虫合法性和道德问题的讨论。据了解，这名程序员利用Python编程语言开发了一套自动化爬虫工具，通过抓取网站上的视频链接，批量下载了超过13万部视频资源。这些资源包括电影、电视剧以及其他各种类型的视频内容。然而，尽管他成功
Python 爬虫实战案例 - 获取拉勾网招聘职位信息西攻城狮北 python 爬虫拉勾网招聘信息
引言拉勾网，作为互联网招聘领域的佼佼者，汇聚了海量且多样的职位招聘信息。这些信息涵盖了从新兴科技领域到传统行业转型所需的各类岗位，无论是初出茅庐的应届生，还是经验丰富的职场老手，都能在其中探寻到机遇。对于求职者而言，能够快速、全面地掌握招聘职位的详细情况，如薪资待遇的高低、工作地点的便利性、职位描述所要求的技能与职责等，无疑能在求职路上抢占先机。而企业方，通过分析同行业职位信息的发布趋势、薪资水平
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
golang语言在使用httplib包中遇到的关于自建证书的问题及解决方案 dg1011 golang 服务器
1.前言创建自建证书私钥生成：opensslgenrsa-des3-outserver.key2048opensslrsa-inserver.key-outserver.keyCA生成：opensslreq-new-x509-keyserver.key-outca.crt-days3650csr生成：opensslreq-new-keyserver.key-outserver.csr证书生成：op
Python爬虫与窗口实现翻译小工具（仅限学习交流）纵码奔腾 python
Python爬虫与窗口实现翻译小工具（仅限学习交流）在工作中，遇到一个不懂的单词时，就会去网页找对应的翻译，我们可以用Python爬虫与窗口配合，制作一个简易的翻译小工具，不需要打开网页，自动把翻译结果显示出来。整个过程比较简单。#ThisisasamplePythonscript.#PressShift+F10toexecuteitorreplaceitwithyourcode.#PressDo
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
Golang中的格式化输入输出 whhom Golang golang 开发语言后端 go语言 go
Golang中的格式化输入输出打印输出在Go语言中有多种输出方式，不同的输出适用场景不同。归纳起来有三种，每种还分为3种方式(原内容、原内容+ln、原内容+f)PrintXX()FprintXX()SprintXX()FprintXXFprintXX在GoWeb中使用比较多，把内容写到响应流中。以Fprintln()为例，源码如下：//Fprintlnformatsusingthedefaultf
Python的旅游网站数据爬虫分析与可视化大屏展示论文 IT实战课堂—x小凡同学 Python毕业设计项目 python 旅游爬虫
摘要随着互联网技术的迅猛发展，旅游行业也逐渐实现了数字化转型。旅游网站作为游客获取旅游信息的主要渠道，蕴含着丰富的旅游数据资源。本文旨在通过Python技术，实现旅游网站数据的爬虫分析，并利用可视化大屏展示分析结果，为旅游行业的数据驱动决策提供支持。关键词：Python；旅游网站；数据爬虫；可视化大屏一、引言旅游行业作为服务业的重要组成部分，其发展水平直接关系到国家经济的繁荣和人民生活的质量。随着
python爬虫项目（八十二）：爬取旅游攻略网站的用户评论，构建旅游景点推荐系统人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫旅游开发语言金融信息可视化
构建一个旅游景点推荐系统，可以帮助用户根据他们的偏好和其他用户的评论来选择旅行目的地。在这个项目中，我们将通过爬取旅游攻略网站的用户评论数据，分析这些数据，并使用协同过滤等推荐算法来构建一个基本的推荐系统。本文将详细描述整个过程，包括爬虫部分和推荐系统的构建。目录文章大纲一、项目背景与目标项目的目标：二、目标网站分析与数据需求数据需求：目标网站：三、爬虫技术选型安装所需库四、使用Scrapy爬取用
网络爬虫爬取动态网页数据 db_sqy_2012 爬虫
目录一、导学与指南豆瓣单页分析豆瓣多页输出二、理论学习1.抓取动态网页的技术2.Selenium和WebDriver的安装与配置3.Selenium的基本使用三、小结一、导学与指南豆瓣单页分析importjsonimportrequests#基础URL不顶事了url_base="https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%
python 爬虫如何爬取动态生成的网页内容骗鬼 python 爬虫开发语言
---好的方法很多，我们先掌握一种---【背景】对于静态页面，我们通常可以通过python的request.get()库获取到页面的信息，但是对于动态生成的网页信息来说，我们通过request.get()获取不到。【方法】我们可以通过python第三方库selenium来配合实现信息获取采取方案：python+request+selenium+BeautifulSoup我们拿纵横中文网的小说采集举
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts