需求

我们登录上网站，并且选择应用管理。
我们现在需要爬取我们账号下的所有APP信息，根据签名期限，来计算APP剩余的时间（小时）。

获取cookie

1.登录上网站
2.按F12（不考虑IE浏览器），我这里使用的Chrome, 我们选择Network，再次刷新下网页

复制下我们的cookie

var cookie string ="in_userid=1; in_username=xxxxxqq.com; in_userpassword=xxxxx; in_adminid=3; in_adminname=xxxxxqq.com; in_adminpassword=xxxxx; in_permission=1%2C2%2C3%2C4%2C5%2C6"

为了安全起见我把部分信息使用xxxx进行替换。

查看html 信息



鹿鼎娱乐
签名期限： 2018-12-10 13:49:16
应用平台： iOS
应用标识： com.baochi.bc
最新版本： 1.0（Build 1891）
 管理 预览

通过上面的代码我们可以看到我们的app信息都在类为 card app card-ios 的div块里面, 并且我们的主要信息都在xxxxx包含着

制作正则表达式

当然我这个正则表达式只是为了偷懒，所有需要爬去的信息都是使用(.*?)来获取，我这个肯定不是好的方案，你可以自己去尝试写一个正则表达式。

这里我定义一个 Reg变量，保存正则表达式。

Reg := `(.*?)(.*?)
签名期限： (.*?)
应用平台： iOS
应用标识： (.*?)
最新版本： (.*?)
(.*?)

反爬虫

有的时候一些网站会有一些反爬虫机制，判断你是人工访问，还是机器访问，判断的原则,就是识别user-agent ,这里我们定义一个字符串切片，来保存不同浏览器的user-agent。当然有得网站还有IP访问限制，你可以使用代理解决，这里我们就不讨论这种情况了。

user-agent 数组

var userAgentList = []string{"Mozilla/5.0 (compatible, MSIE 10.0, Windows NT, DigExt)",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, 360SE)",
    "Mozilla/4.0 (compatible, MSIE 8.0, Windows NT 6.0, Trident/4.0)",
    "Mozilla/5.0 (compatible, MSIE 9.0, Windows NT 6.1, Trident/5.0,",
    "Opera/9.80 (Windows NT 6.1, U, en) Presto/2.8.131 Version/11.11",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, TencentTraveler 4.0)",
    "Mozilla/5.0 (Windows, U, Windows NT 6.1, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Macintosh, Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh, U, Intel Mac OS X 10_6_8, en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Linux, U, Android 3.0, en-us, Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
    "Mozilla/5.0 (iPad, U, CPU OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "Mozilla/4.0 (compatible, MSIE 7.0, Windows NT 5.1, Trident/4.0, SE 2.X MetaSr 1.0, SE 2.X MetaSr 1.0, .NET CLR 2.0.50727, SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (iPhone, U, CPU iPhone OS 4_3_3 like Mac OS X, en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
    "MQQBrowser/26 Mozilla/5.0 (Linux, U, Android 2.3.7, zh-cn, MB200 Build/GRJ22, CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1"}

随机获取user-agent

上面我们存储了不同的浏览器user-agent, 现在我们还需要一个函数来随机调用它们。

func GetRandomUserAgent() string {
    r := rand.New(rand.NewSource(time.Now().UnixNano()))
    return userAgentList[r.Intn(len(userAgentList))]
}

模拟登录并获取html代码

现在我们开始进入重点，有了cookie我们怎么才能模拟登录，并且怎么才能获取网站的信息。

func getUrlRespHtml() string {
    url := "https://866w.cn/index.php/home"
    client := &http.Client{}
    req, err := http.NewRequest("GET", url, nil)
    if err!=nil {
        fmt.Println("获取地址错误")
    }
    req.Header.Set("Cookie", cookie)
    req.Header.Add("Agent",GetRandomUserAgent() )
    resp, err := client.Do(req)
    if err!=nil {
        fmt.Println("登录错误")
    }
    resp_byte, err := ioutil.ReadAll(resp.Body)
    defer resp.Body.Close()
    respHtml := string(resp_byte)
    return respHtml

}

使用正则表达式筛选信息

当然我们获取了网站的html 代码也不行，html的信息太多，我们需要对它进行筛选，我们需要获取应用名称、签名期限、应用标识、最新版本等信息，并且我们还需要根据签名期限来计算剩余时间。

func Initialize() {
    reader := getUrlRespHtml()
    Reg := `(.*?)(.*?)
签名期限： (.*?)
应用平台： iOS
应用标识： (.*?)
最新版本： (.*?)
(.*?)`
    rp1 := regexp.MustCompile(Reg)
    heads := rp1.FindAllStringSubmatch(reader, -1)
    timeLayout := "2006-01-02 15:04:05"   //转化所需模板
    loc, _ := time.LoadLocation("Local")

    for _, v := range heads {
        theTime, _ := time.ParseInLocation(timeLayout, v[4], loc) //使用模板在对应时区转化为time.time类型
        TimeNow := time.Now()
        left := theTime.Sub(TimeNow)
        appHours := int(left.Hours())
        fmt.Printf("应用名称：%s \n到期时间: %s\n剩余时间 :%s小时\n应用标识:%s\n应用版本:%s\n ",v[2],v[4],strconv.Itoa(appHours),v[5],v[6])
        fmt.Println()
    }
}

运行

func main()  {
    Initialize()
}

我们可以查看到运行结果。

总结

到此我们的教程已经结束，你可以自己根据你的需求来添加文本保存，或者其他啥的功能。如果你对正则表达式比较头疼，你也可以选择一些go的爬虫框架。

签名期限：	2018-12-10 13:49:16
应用平台：	iOS
应用标识：	com.baochi.bc
最新版本：	1.0（Build 1891）

签名期限：	(.*?)
应用平台：	iOS
应用标识：	(.*?)
最新版本：	(.*?)

Go语言模拟登录并爬虫

需求

获取cookie

查看html 信息

制作正则表达式

反爬虫

模拟登录并获取html代码

使用正则表达式筛选信息

运行

总结

你可能感兴趣的:(Go语言模拟登录并爬虫)