冷风的云

requests基操/爬取调用百度翻译

因为最近使用pandas 和numpy,所以就研究下requests库，毕竟这是目前python最流行的http请求库，也是最符合pythonic的库，有时间也准备看源码学习下，不过前一阵看到一个httpx第三方库，支持了更加丰富的API调用，比requests库扩展了，还没有细看，后面也会看下，这里只是简单的记录下requests库看的基础东西，(requests是基于urllib去做的，所以很多的底层也要先研究下urllib的实现)

文章目录

最基础的get请求
最基础的post请求
其他基础请求
使用代理发送请求
使用session保持会话

注意
步骤

解码
证书问题
cookie转化为字典
通过requests调用百度翻译(2020-06-28)

百度翻译需要用到的 JS源码
python实现代码

最基础的get请求

# 这个比较简单, 使用官方案例
# 不带任何参数的请求
import requests
r = requests.get('https://api.github.com/events')
print(r.status_code)

# 带有url参数的请求
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print(r.url)

# 带有嵌套字典
payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://httpbin.org/get', params=payload)
print(r.url)

# result
'''
r.status_code >>> 200
r.url >>> http://httpbin.org/get?key2=value2&key1=value1
r.url >>> http://httpbin.org/get?key1=value1&key2=value2&key2=value3
'''

最基础的post请求

# 这个比较简单, 使用官方案例
import requests
r = requests.post('http://httpbin.org/post', data = {'key':'value'})
print(r.status_code)

# 传递请求参数，比如说登录
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
print(r.text)

# result
'''
r.status_code >>> 200

r.text >>> 
{
  ...
  "form": {
    "key2": "value2",
    "key1": "value1"
  },
  ...
}
'''

其他基础请求

>>> r = requests.put('http://httpbin.org/put', data = {'key':'value'})
>>> r = requests.delete('http://httpbin.org/delete')
>>> r = requests.head('http://httpbin.org/get')
>>> r = requests.options('http://httpbin.org/get')

使用代理发送请求

import requests	

# 设置代理 domain, 意思就是http请求通过以下字典的http的值访问, https则是通过https的值访问
proxy = {"http": "http://xxx.com", "https": "https://xxx.com"}
headers = {
            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}
r = requests.get(url, proxy=proxy, headers=headers)
print(r)

使用session保持会话

requests提供了一个叫做session的类，来实现客户端和服务端的会话保持

注意

一套cookie和session往往和一个用户对应，如果用不同的ip但是带有相同的cookie去访问，则会容易判定为爬虫信息
获取登录之后的页面，必须发送带有cookies的请求

步骤

想要爬取需要登陆后才能访问的页面，确定登录url地址
实例化session
使用session发送请求，登录网站，把cookies保存在session中
再使用session请求登录之后才能访问的网站, session能够自动携带登陆成功时保存在其中的coookies

#######################################################################
# session方法
import requests
session = requests.session()
post_url = "http://www.renren.com/PLogin.do"
headers = {
            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}
# 需要提供自己的密码
post_data = {"email": "xxx.com", "password": "xxxxxx"}
# 这里将session和cookie设置
session.post(post_url, data=post_data, headers=headers)
# 这时已经可以直接用session对象进行一系列请求了,这里用get举例
r = session.get("http://www.renren.com/357363399/profile")
print(r.content.decode())

#######################################################################
# 当然如果你不想用这样的方式，你可以先去网站登录，拿到登陆后的cookies，用字典推导式将cookies拆分成一个大字典，然后带入
import requests
requests.get("http://www.renren.com/PLogin.do", headers=headers, cookies=cookies)

解码

# 将带有%号的网络地址解码为人类可读的url
r = requests.utils.unquote("带有看不懂的%号的url")
print(r)

证书问题

在访问https时，有时会遇到告诉你证书不对的信息，原因可能是对方的服务器网站并没有申请证书（CA）或者证书过期，这时，如果你确认你访问的地址没有问题，则可以加上以下参数解决，就是我单方面的不管对方服务器证书的问题

# 参数是指不需要验证证书
requests.get("https://www.12306.cn/index/", verify=False)

cookie转化为字典

# 从服务器取cookies,这里是CookieJar对象
r.cookies = requests.get(url).content.decode().cookies
# 将CookieJar对象转为字典
requests.utils.dict_from_cookiejar(r.cookies)

通过requests调用百度翻译(2020-06-28)

这里仅做自己感兴趣，做技术交流，侵权删！这里仅做技术交流，侵权删！这里仅做技术交流，侵权删！

百度翻译需要用到的 JS源码

# 这里仅做技术交流，侵权删
# 这里仅做技术交流，侵权删
# 这里仅做技术交流，侵权删

# 百度翻译需要用到的 JS源码, 在js文件中可以通过一些技巧搜索到

var i = "320305.131321201"

    function a(r) {
        if (Array.isArray(r)) {
            for (var o = 0, t = Array(r.length); o < r.length; o++) t[o] = r[o];
            return t
        }
        return Array.from(r)
    }

    function n(r, o) {
        for (var t = 0; t < o.length - 2; t += 3) {
            var a = o.charAt(t + 2);
            a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a), a = "+" === o.charAt(t + 1) ? r >>> a : r << a, r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
        }
        return r
    }

    function e(r) {
        var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
        if (null === o) {
            var t = r.length;
            t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
        } else {
            for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++) "" !== e[C] && f.push.apply(f, a(e[C].split(""))), C !== h - 1 && f.push(o[C]);
            var g = f.length;
            g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))
        }
        var u = void 0, l = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);
        u = null !== i ? i : (i = window[l] || "") || "";
        for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {
            var A = r.charCodeAt(v);
            128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)), S[c++] = A >> 18 | 240, S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224, S[c++] = A >> 6 & 63 | 128), S[c++] = 63 & A | 128)
        }
        for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++) p += S[b], p = n(p, F);
        return p = n(p, D), p ^= s, 0 > p && (p = (2147483647 & p) + 2147483648), p %= 1e6, p.toString() + "." + (p ^ m)
    }

python实现代码

# 这里仅做技术交流，侵权删
# 这里仅做技术交流，侵权删
# 这里仅做技术交流，侵权删

# 就是最近在看requests，所以拿来练个手，有写的不好的，多担待
import requests
import urllib.parse
import json


class BaiDuTranslator:

    def __init__(self, query, origin_lang="en", translated_lang="zh"):
        """
        :param query:
        :param origin_lang: 原翻译语言类型, 默认为英文
        :param translated_lang: 翻译成什么语言, 默认为中文
        
        self.headers: 需要提供访问百度翻译的自己机器上的cookies
        self.data: token的值可能需要更改 ,目前(2020-06-28)是这个样子的,之后可能要在百度翻译源码搜一下，替换就行了，我这里暂时没用bs4取直接取，写着方便就直接拿过来用了
        """
        
        self.base_url = "https://fanyi.baidu.com/v2transapi?"
        self.origin_lang = origin_lang
        self.translated_lang = translated_lang
        self.query = query
        self.headers = {
            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36",
            "cookie": "你自己访问百度翻译的cookies"
}
        self.data = {
            "from": self.origin_lang,
            "to": self.translated_lang,
            "transtype": "translang",
            "simple_means_flag": "3",
            "token": "daa6bc27173d38ecf0fd28141cf572f3",
            "domain": "common",
            "query": self.query
        }

    # 请求的实际完整url
    @property
    def full_url(self):
        return self.base_url + urllib.parse.urlencode({"from": self.origin_lang, "to": self.translated_lang})

    # 主要用来添加sign和query两个数据
    def update_data(self, value):
        self.data.update({"sign": value})

    def post_query(self, full_url):
        r = requests.post(full_url, data=self.data, headers=self.headers).content.decode()
        return r

    @staticmethod
    def parse_sign(key, js_path=None):
    	# 这里调用第三方库，来解析js语法
        import execjs
        if not js_path:
            raise FileNotFoundError("必须要有百度官方js文件")
        with open(js_path) as fp:
            content = fp.read()
        sign_value = execjs.compile(content).call("e", key)
        return sign_value

    def run(self):
        full_url = self.full_url
        sign_value = self.parse_sign(self.query, "/home/chen/PycharmProjects/spider_man/baidu_translator/baidu.js")
        self.update_data(sign_value)
        resp = self.post_query(full_url)
        return json.loads(resp)


if __name__ == '__main__':
    # 默认为英语转中文,可以通过传参不同翻译不同的语言，见__init__参数
    while True:
        _str = input("input your query:")
        transltor = BaiDuTranslator(_str)
        r = transltor.run()
        print(r["trans_result"]["data"][0]["dst"])

你可能感兴趣的:(爬虫相关)

python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
python爬虫面试真题及答案_Python面试题爬虫篇(附答案) 朴少 python爬虫面试真题及答案
0|1第一部分必答题注意：第31题1分，其他题均每题3分。1，了解哪些基于爬虫相关的模块？-网络请求：urllib，requests，aiohttp-数据解析：re，xpath，bs4，pyquery-selenium-js逆向：pyexcJs2，常见的数据解析方式？-re、lxml、bs43，列举在爬虫过程中遇到的哪些比较难的反爬机制？-动态加载的数据-动态变化的请求参数-js加密-代理-coo
20个必不可少的Python第三方库（存干货分享）！ Python派小星 Python python 编程语言
读者您好。今天我将介绍20个属于我常用工具的Python库，我相信你看完之后也会觉得离不开它们。他们是：Requests.KennethReitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。wxPython.Python的一个GUI（图形用户界面）工具。我主要用它替代tkinte
《爬虫职海录》卷二 • 爬在广州爬虫
HI，朋友们好，「爬虫职海录」第二期更新啦！本栏目的内容方向会以爬虫相关的“岗位分析”和“职场访谈”为主，方便大家了解一下当下的市场行情。本栏目持续更新，暂定收集国内主要城市的爬虫岗位相关招聘信息，有求职和跳槽打算的小伙伴们，可以多多关注。本期为广州篇！这不马上就要过年了，每年这时候都有很多小伙伴按捺不住，想要跳槽或者观望观望。这两年行情不好，大家转行or跳槽，都需要多做功课，慎重做决定。本次我依
Java编写爬虫和Python编写爬虫到底有什么区别菜到极致就是渣网络知识爬虫 java 爬虫大数据 javascript
关于Java编写爬虫和Python编写爬虫，以前我就特别疑惑，但是却并没有放在心上，不知道最近我为什么会突然感兴趣。于是我就搜了一下爬虫相关知识以及学习课程，结果我发现全都是用Python来进行网络爬虫，基本上看不到Java爬虫，以前没学爬虫的时候，我还以为只能用Python进行爬虫，难道我还要再去学Python？后面我才发现Java也可以进行爬虫，但是竟然Java也可以爬虫的话，为什么很多教学网
数据分析？小意思！python帮你搞定山禾家的猫
前言如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，今天了，我就来分享上一次在培训中的一个作品：猫眼电影爬虫及分析。通过猫眼电影TOP100榜的爬虫，然后进行可视化，让学员体会到，小数据爬虫也能玩出这样的花样来。爬虫爬虫分析这里是获取的是top100的电影数据，进行了跨页爬虫，获取的字段：电影名，主演，上映时间，评分，电影类型和时长。最后
php解析html类库simple_html_dom(爬虫相关) 七彩邪云
下载地址：https://github.com/samacs/simple_html_dom解析器不仅仅只是帮助我们验证html文档；更能解析不符合W3C标准的html文档。它使用了类似jQuery的元素选择器，通过元素的id，class，tag等等来查找定位；同时还提供添加、删除、修改文档树的功能。当然，这样一款强大的htmlDom解析器也不是尽善尽美；在使用的过程中需要十分小心内存消耗的情况。
《爬虫职海录》卷二 • 爬在广州 K哥爬虫爬虫
HI，朋友们好，「爬虫职海录」第二期更新啦！本栏目的内容方向会以爬虫相关的“岗位分析”和“职场访谈”为主，方便大家了解一下当下的市场行情。本栏目持续更新，暂定收集国内主要城市的爬虫岗位相关招聘信息，有求职和跳槽打算的小伙伴们，可以多多关注。本期为广州篇！这不马上就要过年了，每年这时候都有很多小伙伴按捺不住，想要跳槽或者观望观望。这两年行情不好，大家转行or跳槽，都需要多做功课，慎重做决定。本次我依
Windows下安装配置爬虫工具Scrapy及爬虫环境罗伊德666
爬虫工具Scrapy在Mac和Linux环境下都相对好装，但是在Windows上总会碰到各种莫名其妙的问题。本文记录下Scrapy在Window上的安装过程。本文是基于Python2.7及Windows10安装Scrapy及各种爬虫相关库。下载安装ScrapyScrapy官方文档按照官网建议下载安装Anaconda,使用这个安装比直接pip安装会少很多问题。下载地址安装完成后，python2.7也
Python数据分析之猫眼电影TOP100 罗罗攀
前言如果大家经常阅读Python爬虫相关的公众号，都会是以爬虫+数据分析的形式展现的，这样很有趣，图表也很不错，今天了，我就来分享上一次在培训中的一个作品：猫眼电影爬虫及分析。通过猫眼电影TOP100榜的爬虫，然后进行可视化，让学员体会到，小数据爬虫也能玩出这样的花样来。爬虫爬虫分析这里是获取的是top100的电影数据，进行了跨页爬虫，获取的字段：电影名，主演，上映时间，评分，电影类型和时长。最后
【Python从入门到精通】（二十八）五万六千字对Python基础知识做一个了结吧【值得收藏】 m0_67403013 面试学习路线阿里巴巴 android 前端后端
为什么写这篇文章我从2021年6月13号写下第一篇Python的系列专栏算起，陆续更新了二十七篇Python系列文章。在此感谢读者朋友们的支持和阅读，特别感谢一键三连的小伙伴。本专栏起名【Python从入门到精通】，主要分为基础知识和项目实战两个部分，目前基础知识部分已经完全介绍完毕。下一阶段就是写Python项目实战以及爬虫相关的知识点。为了对前期学习的Python基础知识做一个总结归纳，以帮助
python爬虫相关 cjz0422 python 爬虫开发语言
基础知识点python格式化python格式化数字格式化pythonprint("{:.2f}".format(3.1415926))#设置两位小数print("{:.2%}".format(0.25))#百分比print("{:^10}".format("aaaaa"))#居中print("{:10}".format("aaaaa"))#右对齐结果python3.1425.00%aaaaaaaa
利用python的urllib库爬取某度热搜 lupe_c 爬虫 python 百度
非计算机专业，对爬虫比较感兴趣，最近又在学爬虫相关的知识，自己写了点实战的练习项目，在CSDN上展示一下，一方面是记录一下自己学习成果和代码，另一方面，自己从CSDN上学到了不少，把自己写的一些东西展示出来，希望也可以帮到别人。首先，导入需要的库importurllib.requestimportlxml.html输入目标网页和构造请求头baidu_rul='https://top.baidu.c
随手写写 catcherin麦田
今天开始收集相关基金股票数据网站，复习爬虫相关知识，准备数据爬取脚本。连续日更想休息一下，暂停日更一天，明天继续加油！以一句话自勉：其实越是好走的路，一般都是下坡路，越是难走的路，往往坚持住了就是最好的路。你要努力走，走到灯火通明。
Python bs4解析库使用详解永远是少年啊 python爬虫 python 爬虫 bs4 数据解析编程开发
今天继续给大家介绍Python爬虫相关知识，本文主要内容是Pythonbs4解析库使用详解。一、Pythonbs4库简介与安装bs4是Python的一个第三方库，主要用于从HTML或者是XML文档中快速提取数据。bs4是BeautifulSoup库的简称，最后的4是版本号。要想使用bs4进行数据解析，就必须先安装bs4，安装命令为：pipinstallbs4安装完毕后，在Python程序中导入时，
python3 爬虫相关学习4： requests.post 奔跑的犀牛先生爬虫学习 python
requests.post()基本功能类requests.get()，他们的次级属性基本一样POST比GET更安全，url地址中不会暴露用户的账号密码等信息POST请求对数据长度没有要求importrequesetsurl="http://www.iciba.com/fy?a=fy"headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64
Python网络爬虫原理及实践会python的小孩 python 爬虫开发语言 Python教程 Python入门数据库
1网络爬虫网络爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网络爬虫相关技术和框架繁多，针对场景的不同可以选择不同的网络爬虫技术。2Scrapy框架（Python）2.1.Scrapy架构2.1.1.系统架构2.1.2.执行流程总结爬虫开发过程，简化爬虫执行流程如下图所示：爬虫运行主要流程如下：（1）Scrapy启动Spider后加载Spaider的start_url，生成req
【Python 网络爬虫】使用 urllib 爬取网页源码、图片和视频有请小发菜 Python 网络爬虫 python 爬虫开发语言
目录1.网络爬虫简介2.使用urllib爬虫2.1发送请求2.2数据保存和异常处理2.3模拟浏览器发起请求2.4添加请求头2.5认证登录3.下载图片和视频4.拓展-万能视频下载1.网络爬虫简介前面介绍了HTML基础和CSS基础，了解了页面元素构成的基础上，这对于爬虫来说，看到源代码也能熟悉一二，并且也能更好地定位到所需要的数据。接下来带大家更深入了解爬虫相关知识。网络爬虫是一种按照一定的规则，自动
python学习系列1---爬取糗事百科段子余蝈蝈
python学习了大半个月了。前段时间一直在慕课网看廖雪峰老师的python学习入门和进阶，视频地址http://www.imooc.com/learn/317。讲的很好，很通俗易懂，一边讲解还能一边练习。后面开始学习python爬虫相关的知识，看的课程都是来自http://wiki.jikexueyuan.com/project/python-crawler-guide/summarize.ht
20个常用的Python库汲之郎
Requests.KennethReitz写的最富盛名的http库。每个Python程序员都应该有它。Scrapy.如果你从事爬虫相关的工作，那么这个库也是必不可少的。用过它之后你就不会再想用别的同类库了。wxPython.Python的一个GUI（图形用户界面）工具。我主要用它替代tkinter。你一定会爱上它的。Pillow.它是PIL（Python图形库）的一个友好分支。对于用户比PIL更加
Python入门第5篇（爬虫相关）龙井茶Sky Python python 爬虫开发语言
目录爬虫初步说明html相关基础urllib之读取网页内容http相关基础requests之webapi调用爬虫初步说明爬虫，一句话来说，即模拟浏览器爬取一些内容，如自动下载音乐、电影、图片这种的具体可能是直接访问网页进行解析，也可能是调用webapi直接获取数据，后者应该更多一些html相关基础html、js、css构成了html的三要素urllib之读取网页内容fromurllib.reque
精选2个小例子，带你快速入门Python文件处理妄心xyx
精选2个小例子，带你快速入门Python文件处理我们来讲一讲文件的使用,python对数据的处理分两种一种是本地文件的处理，另外一种是通过网络数据处理(也就是爬虫相关的).而本地的数据处理，主要是通过文件的读和写完成~~我们先想一想平时对文件处理一般遇到哪些问题:如何读取一个文件的内容,然后处理,最后写到一个新的文件如何更改一个文件夹下的某一些文件名这个两个是非常常见的问题，如何处理呢,pytho
爬虫入门案例——Java还能用来写爬虫？翰戈.summer 其他内容爬虫开发语言 java python
目录前言入门案例依赖导入爬虫代码注意事项爬取结果总结前言我们在和Python程序员交流的时候，经常会听到他们谈论和爬虫相关的事，爬这个网站，爬那个网站的。这个时候如果听不懂的话，气氛就显得尴尬了。事实上我们Java程序员是有自己的爬虫的！那么和Python相比，Java实现的爬虫有什么不同呢？下面我们来看看两者有什么区别，用一个简单的案例来体验如何用Java实现网络爬虫。以后在和Python程序员
中国python爬虫违法违规案例大汇总（爬虫学得好，牢饭....）爱摸鱼的菜鸟码农 python 大数据安全爬虫
最近在GitHub发现了一个爬虫库，这个库整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。该项目库用来整理所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。致力于帮助在中国大陆工作的爬虫行业从业者了解我国相关法律，避免触碰数据合规红线。违法违规案例汇总爬虫禁区1：为违法违规组织提供爬虫相关服务（验证码识别服务贩卖、SEO……）CASE1:知乎某极验破解者自述被抓（已删除
C语言两个文本相似度的算法,两个文本相似度算法实现和对比 Bearseason C语言两个文本相似度的算法
背景最近做一个爬虫相关的项目,需要排除掉一些相似的链接,比如分页控件里上一页,下一页等等没什么用的链接.编辑距离算法编辑距离，又称Levenshtein距离(莱文斯坦距离也叫做EditDistance)，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。这个概念是由俄罗斯科学家V
Python爬虫知识储备就叫飞六吧 python 爬虫开发语言
Python爬虫知识储备一、基础知识常见的Python爬虫相关库和工程化爬虫框架：请求库：requests：用于发送HTTP请求并获取响应的流行库。它简单易用，适合大多数爬虫任务。urllib：Python的标准库之一，包含了处理URL和发送HTTP请求的模块。aiohttp：支持异步HTTP请求的库，适用于需要高效处理多个请求的情况。解析库：BeautifulSoup：用于解析HTML和XML文
python学习-要学 Python 需要怎样的基础？编程大乐趣
人生苦短，很高兴你选择了python，这是我比较喜欢的语言。如果你是想做pythonweb相关的话，可以看看这个指南pythonweb入坑指南-python-web-guide0.1文档,都是根据我的工作经(cai)验(keng)总结的。主要涉及python网站和爬虫相关的开发，还有一些工程性的东西。入行不久，经验有限，希望能给你指条路。下边列举了计算机基础、开发工具、代码规范、软件工程相关的东西
在Linux服务器部署爬虫程序？大佬只需七步！ q56731523 服务器 linux 爬虫数据库爬虫程序爬虫IP
之前在某乎上看见一篇关于《为什么很多程序员都建议使用Linux》的文章，结合我自身关于Linux的使用经验。心血来潮得写了一段关于我在Linux系统部署爬虫程序的心得，希望结识更多的爬虫技术大佬，一起游弋在代码世界中。根据我多年在Linux上部署爬虫程序的经验，大体上可以通过以下七个步骤进行：步骤1：安装Python和需要的库首先确保Linux系统上安装了Python，以及需要的爬虫相关的库，比如
Python 爬虫入门心态与习惯 Python python 爬虫 requests beautifulsoup 豆瓣
文章目录Python爬虫入门`requests`库`beautifulsoup4`库函数`findall()`，`find()`函数`get()`爬虫实例1：抓小说爬虫实例2：抓豆瓣top250的电影信息后记Python爬虫入门Python的爬虫功能使得程序员可以快速抓取并分析网页中的信息，它实质上是模拟浏览器访问网页。本章主要常用的两个爬虫相关的库requests，beautifulsoup4。
你应该知道关于Python的这几个技巧！ python 筱水花 python 爬虫开发语言学习
随着大数据时代的到来，我们每天都在接触爬虫相关的事情，这其中就不得不提及Python这门编程语言。我已经使用Python编程有多年了，即使今天我仍然惊奇于这种语言所能让代码表现出的整洁和对DRY编程原则的适用。这些年来的经历让我学到了很多的小技巧和知识，大多数是通过阅读很流行的开源软件，如Django,Flask,Requests中获得的。1.字典推导(Dictionarycomprehensio
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他