柯西西西西

（2021-08-10）网络爬虫学习-中国大学排名定向爬虫

网络爬虫学习

1 Requests
- 1.1 Requests库的安装
- 1.2 Requests库的7个主要方法
- - 1.2.1 request()方法
  - 1.2.2 get()方法
  - 1.2.3 通用代码框架
  - 1.2.4 HTTP协议及Requests其他方法
- 1.3 Robots协议
- 1.4 初试
- - 1.4.1 尝试爬取淘宝京东等网站的商品信息
  - 1.4.2 尝试向搜索引擎提交信息，并返回内容
  - 1.4.3 IP地址归属地的自动查询
2 Beautiful Soup库
- 2.1 安装库及调用
- 2.2 soup库的基本元素
- 2.3 基于bs4的HTML内容遍历方法
- - 2.3.1 下行遍历
  - 2.3.2 上行遍历
  - 2.3.3 平行遍历
- 2.4 基于bs4库的HTML格式化和编码
- 2.5 信息组织与提取方法
- - 2.5.1 信息标记的三种形式
  - 2.5.2 信息提取的一般方法
  - 2.5.3 基于bs4库的HTML内容查找方法
3 bs4实例-中国大学排名定向爬虫
- 3.1 实例基本情况
- 3.2 代码编写
- 3.3 优化实现

教程来源：慕课课程
记录下我的学习过程
学习时长：三天

1 Requests

1.1 Requests库的安装

在anaconda中安装requests库，因为我的python环境是anaconda搭建的虚拟环境。
只需要在anaconda Prompt中输入以下代码即可：

conda install requests

安装成功后可以在cmd中试验一下。在使用pycharm调用requests库时，我需要配置其解释器，前几次碰到过这样的问题，明明用anaconda安装了模块，但是在pycharm中无法调用，后来发现就是解释器没有配置好。
在setting>Project:pyfile>Project Interpreter中配置，如下图：

我的是选中anaconda中安装python的位置，确认即可。
开始愉快的爬虫之旅吧！

1.2 Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

1.2.1 request()方法

request方法：requests.request(method, url, **kwargs)
method：请求方式，对应get/put/post等7种方法，即HTTP的那些功能。
url：拟获取页面的url链接
**kwargs:13个控制访问的参数，均为可选项
1）params：字典或字节序列，作为参数增加到url中；

import requests
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('GET', 'http://python123.io/ws', params=kv)
print(r.url)

输出得到：https://python123.io/ws?key1=value1&key2=value2
通过这个方法，可以把一些键值对增加到url中，使得url再次访问时，不止访问的是这个资源，而同时带入了这些参数，而服务器根据这些参数，筛选部分资源返回回来。
2）data：字典、字节序列或文件对象，作为Request的内容；重点是作为向服务器提供或提交资源时使用。提交的资源并不放在url链接里，而是放在url链接对应位置的地方，作为数据来存储。

import requests
kv = {'key1': 'value1', 'key2': 'value2'}
r = requests.request('POST', 'http://python123.io/ws', data=kv)

3）json：JSON格式的数据，作为Request的内容
也是作为内容部分可以向服务器提交。
4）headers：字典，HTTP定制开头；它对应了向某一个url访问时所发起的HTTP头字段，也就是说我们可以用这个字段来定制访问某一个url的HTTP的协议头。
我们可以定义一个字典hd = {'user-agent': 'Chrome/10'}来修改HTTP协议中的user-agent字段，我们把user-agent变为Chrome/10，
r = requests.request('POST', 'http://python123.io/ws', headers=hd)那么在访问某一个链接时，我们可以把这样的字段赋给headers，此时headers再去向服务器访问时，服务器看到的user-agent字段就是Chrome/10，也即Chrome浏览器的第十个版本；这种模拟浏览器的方法就是在header字段中实现。
4）cookies：指的是字典或CookieJar，Request中的cookie，从HTTP中解析cookie
auth：是元组类型，支持HTTP认证功能
5）files:字典类型，向服务器传输文件时使用的字段

import requests
fs = {'file': open('data.xls', 'rb')}
r = requests.request('POST', 'http://python123.io/ws', files=fs)

以file和对应文件为键值对，对应到相关的url上。
6）timeout：设定超时时间，秒为单位
可设置一个timeout时间，如果在timeout时间内，我们的请求内容没有返回回来，那么将产生一个timeout的异常。

r = requests.request('GET', 'http://www.baidu.com', timeout=10)

7）proxies字段：字典类型，设定访问代理服务器，可以增加登录认证。
如下，使用两个代理，一个是http访问时使用的代理，代理中可以增加用户名跟密码的设置，我们再增加一个https的代理服务器，我们再访问百度时所使用的IP地址就是代理服务器的IP地址，使用这个字段可以有效的隐藏用户爬取网页的源IP地址的信息，能够有效地防止对爬虫的逆追踪。

import requests
pxs = {'http': 'http://user:[email protected]:1234',
       'https': 'https:10.10.10.1:4321'}
r = requests.request('GET','http://www.baidu.com', proxies=pxs)

8）allow_redirects：True/False，默认为True，重定向开关；此开关表示允不允许对url重定向。
stream：True/False，默认为True，获取内容立即下载开关。
verify字段：True/False，默认为True，认证SSL证书开关。
sert：是保存本地SSL证书路径的字段

1.2.2 get()方法

最简单的应用方法即r=requests.get(url)，构造一个向服务器请求资源的Request对象，返回一个包含服务器资源的Response对象，用r来表示返回的所有相关资源。
完整使用方法包含三个参数：requests.get(url, params=None, **kwargs)
url：拟获取页面的url链接
params:url中的额外参数，字典或字节流格式，可选
**kwargs:12个控制访问的参数

理解Response的编码：有的header中有charset，即表示有编码要求，那就，但并不是所有的网址都能返回这个值，所以就会默认编码为ISO-8859-1，但这一编码不能解析中文。当我们用encoding不能正确返回内容时，就要用apparent_encoding来从内容中分析出编码方式。

属性	说明
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）

可以通过以下代码试验：

import requests
r = requests.get('http://www.baidu.com')
# 查看状态码
print(r.status_code)
print(r.text)
print(r.encoding)
print(r.apparent_encoding)
# 改变编码方式，并输出
r.encoding = 'utf-8'
print(r.text)

1.2.3 通用代码框架

通常使用get()函数，最大的作用是使得用户访问网页变得更有效更稳定更可靠。
因为网络连接有风险，因此异常处理很重要，Requests库常用的六种连接异常，最后一种是触发生成：

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.ToolManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

代码框架如下（如果状态不是200，引发HTTPError异常，判断网络连接的正常）：

def getHTMLText():
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '产生异常'

if __name__ == '__main__':
    url = 'http://www.baidu.com'
    print(getHTMLText())

1.2.4 HTTP协议及Requests其他方法

HTTP，Hypertext Transfer Protocol，超文本传输协议，是一个基于“请求与响应”模式的、无状态的应用层协议。即用户发起请求，服务器做出响应，无状态指第一次请求和第二次请求之间没有相关的关联，应用层协议指的是该协议工作在TCP协议之上。
HTTP协议采用URL作为定位网络资源的标识。
URL格式如下：http://host[:port][path]
两个反斜杠之后有三个域，host表示合法的Internet主机域名或IP地址；port表示端口号，缺省端口为80；path是请求资源的路径。URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。
HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置寸尺一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

用户通过GET或者HEAD获取全部信息或者头部信息，如果想将自己的资源放在URL对应的位置上就要用PUT、POST、PATCH方法。当面对庞大资源时，采用PATCH可以只修改需要的，可以节省带宽。
使用head()方法

requests.head(url,**kwargs)

**kwargs：13g个访问控制参数
使用post()及其他方法
向URL POST一个字典，自动编码为form(表单)，而字符串会默认归为到data下。
put()方法与post()方法类似。

requests.post(url, data=None, json=None,**kwargs)
requests.put(url, data=None, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.delete(url, **kwargs)

1.3 Robots协议

Robots Exclusion Standard 网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。
形式：在网站根目录下的robots.txt文件。
在域名后，输入robots.txt，如https://www.taobao.com/robots.txt
Robots协议基本语法：
User-agent：*
Disallow：/
*代表所有，/代表根目录
如何遵守呢，网络爬虫应该可以自动或人工识别robots.txt，再进行内容爬取，爬虫爬的好，局子进的早，还是好好遵守规则。当然如果访问量小，不涉及商业利益，不违法还是可以不遵守的。

1.4 初试

1.4.1 尝试爬取淘宝京东等网站的商品信息

import requests
url1 = 'https://item.taobao.com/item.htm?id=638296572648'
url2 = 'https://item.jd.com/100023800830.html'
try:
	kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url2, headers=kv)
    # 查看状态码
    print(r.status_code)
    # 查看编码
    print(r.encoding)
    print(r.request.headers)
    r.raise_for_status()
    print(r.text[:10000])
except:
    print('爬取失败')

1.4.2 尝试向搜索引擎提交信息，并返回内容

百度的关键词接口：
https://www.baidu.com/s?wd=keyword
360关键词的接口：
https://so.com/s?q=keyword
好家伙，百度搜索会有安全验证，然后我试了试bing搜索

import requests
url = 'https://cn.bing.com/search'
kv1 = {'q': 'python'}
try:
    kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url, headers=kv, params=kv1)
    r.encoding = r.apparent_encoding
    r.raise_for_status()
    print(r.text[:20000])
except:
    print('爬取失败')

然后干脆试了一下京东搜索物品，还可以，虽然不知道参数为什么两个才行，一个就不对，显示需要登陆。

import requests
url1 = 'https://search.jd.com/Search'
kv1 = {'wq': '男装', 'keyword': '男装'}
try:
    kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url1, headers=kv, params=kv1)
    r.raise_for_status()
    print(r.text[:20000])
except:
    print('爬取失败')

1.4.3 IP地址归属地的自动查询

这个还好，就要弄清楚填什么关键字段，就比如其他的IP查询网址就就可能不是这么提交的。

import requests
url1 = 'https://m.ip138.com/iplookup.asp?ip='
try:
    kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url1+'202.204.80.112', headers=kv)
    r.encoding = r.apparent_encoding
    r.raise_for_status()
    print(r.text[:20000])
except:
    print('爬取失败')

2 Beautiful Soup库

2.1 安装库及调用

安装还是用的conda install beautifulsoup4
但是需要注意的是调用的时候，from bs4 import BeautifulSoup
使用一个html网页来演示，获得HTML的源代码
获取源代码的方式：

在网页上手动获取
requests.grt()来获取

import requests
from bs4 import BeautifulSoup
url1 = 'http://python123.io/ws/demo.html'
try:
    kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url1, headers=kv)
    demo = r.text
    # 给出demo，同时给出解释器，此处为HTML的解释器
    soup = BeautifulSoup(demo, 'html.parser')
    print(soup.prettify())
    r.raise_for_status()
    print(r.text[:20000])
except:
    print('爬取失败')

因此使用bs4只需要两行

from bs4 import BeautifulSoup
soup = BeautifulSoup('data
', 'html.parser')

第一个参数是我们需要解析的一个html格式的信息，第二个是解析器。

2.2 soup库的基本元素

Beautiful Soup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和标明开头和结尾
Name	标签的名字， …的名字是’p’，格式：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>…中字符串，格式：.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

获取标题标签内容soup.title
获取链接标签soup.a，这样只能获取第一个标签内容
获取标签名字的方法soup.a.name
还可以查看该标签的父亲是soup.a.parent.name
还可以继续往上查看，使用.name的方式获取名字，使用.parent.name查看父类，以字符串类型输出
查看标签的属性信息，标签的属性是在标签中标明标签特点的相关区域，以字典形式组织，给出了属性名和属性的键值对，可以使用字典的方式对每一个属性的提取，soup.a.attrs
查看标签类型，type(soup.a)，看标签类型是如何定义的：。
tag标签可以有0个或多个属性，当没有属性的时候使用.attrs获得的字典是空字典，但是无论有无属性都可以获得字典。
获取Tag标签的NavigableString属性，也就是两个尖括号之间的内容，使用soup.a.string，其类型为
再html中使用来表示注释，输出注释部分可以用.string来输出，查看其类型来确认。

2.3 基于bs4的HTML内容遍历方法

需要对HTML基本格式有了解。
了解了基本格式，就可以了解几种遍历方式：

从根节点到叶子节点的下行遍历方式
从叶子节点到根节点的上行遍历方式
在平级节点之间相互遍历
如图：

2.3.1 下行遍历

标签数的下行遍历一共包含三个属性

属性	说明
.contents	子节点的列表，将所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

对于标签的儿子节点不仅仅包括标签节点，也包括字符串节点，比如'\n'
遍历方式：

for child in soup.body.children:
	print(child)# 遍历儿子节点
for child in soup.body.descendants:
	print(child)# 遍历子孙节点

2.3.2 上行遍历

上行遍历的两个属性

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的上行遍历代码

soup = BeautifulSoup(demo, 'html.parser')
for parent in soup.a.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

在遍历一个标签的所有先辈标签时，会遍历到soup本身，而soup的先辈并不存在.name的信息，所以我们需要做出一个区分，如果先辈是none，我们就不能打印这方面的信息。

2.3.3 平行遍历

beautifulsoup4库一共提供了4个平行遍历属性：

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

标签数的平行遍历是有条件的，所有的平行遍历必须发生在同一个父亲节点下，如果不是同一个父亲节点下的标签之间不构成平行遍历关系。在我们的数据结构中，title和p标签就不是，而body下的两个p标签就是平行标签。
因为存在NavigableString元素中字符串也算为节点，依次标签对应的平行节点不一定是标签。
平行遍历方式：

for sibling in soup.a.next_siblings:
	print(sibling)# 遍历后续节点
for sibling in soup.a.previous_siblings:
	print(sibling)# 遍历前续节点

2.4 基于bs4库的HTML格式化和编码

也就是让html内容更加友好地显示
bs4库提供了prettify方法，能使每一个标签及内容分行显示。能对soup处理，也能对每个标签处理。soup.prettify()或者soup.a.prettify()。
编码问题：bs4库将如何读入的html文件或字符串都转换成了UTF8编码，对python3.x系列默认的编码一致。

2.5 信息组织与提取方法

2.5.1 信息标记的三种形式

信息标记的一般种类：
XML、JSON和YAML

XML是扩展标记语言，与HTML接近；采用以标签为主来构建信息表达信息的方式，...或者内容为空时可采用一对尖括号即可，也可插入注释内容
JSON （JavaScript Objext Notation）即它是JavaScript中对面向对象信息的一种表达形式；是有类型的键值对来构建的信息表达方式，有类型表示字符串用双引号引用，而数字则不用等。键: 值，多值时采用键: [值1, 值2]，键值对可以嵌套使用，此时用{，}的形式来体现。一般用在程序对接口处理的地方，能作为程序代码的一部分，并被程序直接运行，缺陷就是无法体现注释。
YAML (YAML Ain`t Markup Language)，其全称是一种递归的定义，采用的是无类型键值对来构建，也就是无论键还是值都没有双引号，以缩进的形式来描述其所属关系；用减号表达并列关系；一个键可能对应多个值，那么在每个值前就用减号来表示并列；用竖线|来表示整块数据，跨越多行或者信息量较多，用#表示注释，键值对之间可以嵌套。目前主要用于各系统的配置文件中，有注释易读。

2.5.2 信息提取的一般方法

1）完整解析信息的标记形式，再提取关键信息
需要标记解析器，如之前解析html的解析器，使用bs4的标签树来遍历。
2）无视标记形式，直接搜索关键信息（文本查找函数，如find_all()方法）
3）最好当然是结合，结合形式解析和搜索方法，提取关键信息。
例：提取html中所有URL链接
思路：第一步：搜索到所有的标签
第二步，用标签的解析格式，提取href属性，获得链接内容

from bs4 import BeautifulSoup
url1 = 'http://python123.io/ws/demo.html'
try:
    kv = {'user-agent': 'Mozilla/5.0'}
    r = requests.get(url1, headers=kv)
    demo = r.text
    soup = BeautifulSoup(demo, 'html.parser')
    for link in soup.find_all('a'):
        print(link.get('href'))
    r.raise_for_status()
except:
    print('爬取失败')

2.5.3 基于bs4库的HTML内容查找方法

1）
bs4库提供了一个方法来查找<>.find_all(name, attrs, recursive, string, **kwargs)，这个方法可以在soup的遍历中取查找里面的信息，返回一个列表类型，存储查找的结果。

name：指对标签名称的检索字符串。比如soup.find_all('a')，输出一个包含所有a标签的列表；如果查找两个标签，那么可以使用soup.find_all(['a', 'b'])，以列表形式作为第一个参数传递。如果我们给的标签名称是true，将显示当前soup的所有标签信息。
sttrs：是对标签属性值的检索字符串，可标注属性检索，可检索标签的属性中是否包含了某些字符信息，如soup.find_all('p', 'course')来检查p标签中是否包含course字符串，返回一个列表，里边给出了带有course属性值的p标签；也可以直接对属性做相关约定，例：查找ID属性等于link1的值作为查找元素，soup.find_all(id='link1')，如果没有此标签，那么会返回一个空列表。
recursive：是一个布尔型的值，表示是否对子孙全部检索，默认为true，如果只想搜索儿子节点层面的东西，可以改为false。
string：指对标签中间的字符串域进行检索的字符串参数；soup.find_all(string = re.compile('python'))

2）
由于find_all()函数很常见，所以在bs4库中有简写：(...)等价于.find_all(...)，对soup变量也如此，将标签改为soup即可。
3）还有find_all()方法的扩展方法

方法	说明
<>.find()	搜索且只返回一个结果，字符串类型，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同.find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，字符串类型，同.find()参数
<>.find_previous_siblings()	在前续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前续平行节点中返回一个结果，字符串类型，同.find()参数

3 bs4实例-中国大学排名定向爬虫

3.1 实例基本情况

使用上海交大的排名网站查询：https://www.shanghairanking.cn/rankings/bcur/2021
输入：大学排名URL链接
输出：大学排名信息的屏幕输出（排名、大学名称和总分）
技术路线：requests-bs4
定向爬虫：仅对输入URL进行爬取，不扩展爬取。
程序设计：
步骤1：从网络上获取大学排名网页内容，定义函数get_html_text()
步骤2：提取网页内容中信息到合适的数据结构，定义函数text_to_list()
步骤3：利用数据结构展示并输出结果univ_list_print()
观察源代码我们发现，排名信息都存于这个表格标签中，在其中，每一个大学的所有信息又被封装在<\tr>中，每一个信息又被<\td>所包含。所以需要先找到tbody标签，然后再tbody标签中解析tr标签，再把tr标签中的td标签找到，把相关信息找到放入列表中。

3.2 代码编写

#!/usr/bin/python

import requests
from bs4 import BeautifulSoup
import bs4


def get_html_text(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('爬取失败')
        return ''


def text_to_list(univ_info, html):
    soup = BeautifulSoup(html, 'html.parser')

    # 查找tbody标签，并将它的孩子做一个遍历
    for tr in soup.find('tbody').children:

        # 排除掉其他的节点非标签类的其他信息，比如字符串
        if isinstance(tr, bs4.element.Tag):

            # 获取其中td标签内容
            tds = tr('td')
            univ_info.append([tds[0].text.strip(), tds[1].text.strip(), tds[4].text.strip()])


def univ_list_print(univ_info, num):
    print('{:^10}\t{:^16}\t{:^10}'.format('排名', '学校名称', '总分'))
    for i in range(num):
        u = univ_info[i]
        print('{:^10}\t{:^16}\t{:^14}'.format(u[0], u[1][:8], u[2]))


def main():
    univ_info = []
    url = 'https://www.shanghairanking.cn/rankings/bcur/2021'
    html = get_html_text(url)
    text_to_list(univ_info, html)
    univ_list_print(univ_info, 20)  # 20所学校


if __name__ == '__main__':
    main()

1）因为教程内容是多年前的，所以有些东西需要改变，就比如将td标签内容传递入列表中需要改变方法，教程中是使用.string但是因为网址的改变，会将style="display:none"也传入列表，会有报错：TypeError: unsupported format string passed to NoneType.__format__
去网上找了解决方法：问题解决：TypeError: unsupported format string passed to NoneType.format
强哇！CSDN永远滴神！
2）刚开始发现报错是AttributeError: 'NoneType' object has no attribute 'children'，是的，好多错，一个一个来，我看了下网上说的，他们是在第一个函数的时候其实就是运行错误了，但是第一个函数用了try-except来解决异常问题，所以返回空列表，造成后续的问题，没有子孙节点。他们是timeout等关键词写错了，我看了看发现是在最开始自己瞎调试的一些代码没删掉，哈哈哈哈这个问题解决了，我也是看到说传递的是空列表才反应过来，所以我在except异常处理里面加了语句：print('爬取失败')。
3）输出大学名称的时候，我发现输出了很多字符串，有大学名称后边跟着大学英文名和大学标签，后来查看源代码，发现大学名称只是在 <\a>标签中；所以有解决办法一：这个办法看起来正统一些，将a标签的内容单独导出来，传入列表。第二个方法就是，我在看输出的东西的时候，直接截取前边字符串。笑哭，我要为自己的机智折服。
4）输出的表格还是会有参差不齐，主要是因为有些大学名字太长了，对于强迫症来说有点难受，解决办法：来源还是上边的老哥整出来的，这我是真不会。

    tplt = "{0:^10}\t{1:{3}^12}\t{2:^10}"
    # 0、1、2为槽,{3}表示若宽度不够,使用format的3号位置处的chr(12288)(中文空格)进行填充
    print(tplt.format("排名","学校名称","总分",chr(12288)))

3.3 优化实现

1）上边的解决大学名称的输出
def text_to_list(univ_info, html):该函数内容修改如下

afile = tr('a')
tds = tr('td')
univ_info.append([tds[0].text.strip(), afile[0].string, tds[4].text.strip()])

函数def univ_list_print(univ_info, num):修改

def univ_list_print(univ_info, num):
    print('{:^10}\t{:^16}\t{:^10}'.format('排名', '学校名称', '总分'))
    for i in range(num):
        u = univ_info[i]
        print('{:^10}\t{:^16}\t{:^14}'.format(u[0], u[1], u[2]))

2）对齐问题
format方法中相关的约定

：	<填充>	<对齐>	<宽度>	，	<.精度>	<类型>
引导符号	用于填充的单个字符	<左对齐>右对齐^居中对齐	槽的设定输出宽度	数字的千位分隔符适用于整数和浮点数	浮点数小鼠部分的精度或字符串的最大输出长度	整数类型b c d o x X浮点数类型e E f %

输出中文字符，中文字符宽度不够时，采用西文字符填充；中西文字符占用宽度不同。
优化1：
中文字符宽度不够，采用中文字符来填补
嗷！采用中文字符的空格填充chr(12288)(这个就是utf-8编码对应中文字符的空格)
排版下来就很舒服（用左对齐以及字符宽度来调就是下图这样了）

你可能感兴趣的:(爬虫初阶,python初阶,python,爬虫,request)

深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python-modbustcp通信-plc读写张凯的工作室 python python
Python-modbustcp通信-plc读写1，功能码说明读取：%m对应READ_COILS线圈寄存器数值0和1%mw存单字节%mf浮点数%md双字节对应READ_HOLDING_REGISTERS保持寄存器写入单个写入线圈寄存器WRITE_SINGLE_COIL%m单个写入保持寄存器WRITE_SINGLE_REGISTER写入多个保持寄存器WRITE_MULTIPLE_REGISTERS写
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
Python点名器代码及打包教程羽落惊鸿TQ python 开发语言
接下来再写一个功能性齐全稍微复杂一点的Python点名器程序，在原简易版的基础上增加历史记录功能、支持多种名单格式（CSV/Excel）、增加点名统计功能，并详细说明了将该程序打包成exe可执行文件的方法，以下是源代码，仅供学习参考：importtkinterastkfromtkinterimportttk, messagebox, filedialogimportrandomimportcsvi
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
SSRF 攻击与防御：从原理到落地实践花千树-010 架构设计网络安全运维容器网络安全 docker
1.什么是SSRF？SSRF（Server-SideRequestForgery）是一种常见的Web安全漏洞。当服务器提供了某种对外请求的功能，如“URL参数直接转发请求”，攻击者就可以通过精心构造的URL，让服务器“自己”去访问特定的地址，从而达到以下目的：扫描内网：探测企业内网中未暴露在公网的资产，如数据库、私有API等。获取云元数据：例如访问http://169.254.169.254/la
快速入手-基于Django的mysql操作（四）神奇侠2024 django django
1、数据的增删改查defadd(request):UserInfo.objects.create(username="admin",password="1234561",age=18)UserInfo.objects.create(username="admin2",password="1234562",age=19)UserInfo.objects.create(username="admin3
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，