mk12306

超级简单的Python爬虫教程

这是一篇详细介绍 Python 爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30 分钟即可学会编写简单的 Python 爬虫。

这篇 Python 爬虫教程主要讲解以下 5 部分内容：

了解网页；
使用 requests 库抓取网站数据；
使用 Beautiful Soup 解析网页；
清洗和组织数据；
爬虫攻防战；

了解网页

以中国旅游网首页（ http://www.cntour.cn/）为例，抓取中国旅游网首页首条信息（标题和链接），数据以明文的形式出面在源码中。在中国旅游网首页，按快捷键【Ctrl+U】打开源码页面，如图 1 所示。

图 1 中国旅游网首页源码

认识网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。

HTML

HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

常见的标签如下：

.. 表示标记中间的元素是网页
.. 表示用户可见的内容

表示框架

表示段落

表示列表
..表示图片

..

表示标题
..表示超链接

CSS

CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScript

JScript 表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。

如果用人体来比喻，HTML 是人的骨架，并且定义了人的嘴巴、眼睛、耳朵等要长在哪里。CSS 是人的外观细节，如嘴巴长什么样子，眼睛是双眼皮还是单眼皮，是大眼睛还是小眼睛，皮肤是黑色的还是白色的等。JScript 表示人的技能，例如跳舞、唱歌或者演奏乐器等。

写一个简单的 HTML

通过编写和修改 HTML，可以更好地理解 HTML。首先打开一个记事本，然后输入下面的内容：

Python 3 爬虫与数据清洗入门与实战

Python 3爬虫与数据清洗入门与实战

爬虫

数据清洗

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"；

运行该文件后的效果，如图 2 所示。

图 2

这段代码只是用到了 HTML，读者可以自行修改代码中的中文，然后观察其变化。

关于爬虫的合法性

几乎每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

以淘宝网为例，在浏览器中访问 https://www.taobao.com/robots.txt，如图 3 所示。

图 3 淘宝网的robots.txt文件内容

淘宝网允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下：

User-Agent:*
Disallow:/

这一句代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

使用 requests 库请求网站

安装 requests 库

首先在 PyCharm 中安装 requests 库，为此打开 PyCharm，单击“File”（文件）菜单，选择“Setting for New Projects...”命令，如图 4 所示。

图 4

选择“Project Interpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，如图 5 所示。

图 5

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），然后单击左下角的“Install Package”（安装库）按钮。如图 6 所示：

图 6

安装完成后，会在 Install Package 上显示“Package‘requests’ installed successfully”（库的请求已成功安装），如图 7 所示；如果安装不成功将会显示提示信息。

图 7 安装成功

爬虫的基本原理

网页请求的过程分为两个环节：

Request （请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。
Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求，如图 8 所示。

图 8 Response相应

网页请求的方式也分为两种：

GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。
POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

使用 GET 方式抓取数据

复制任意一条首页首条新闻的标题，在源码页面按【Ctrl+F】组合键调出搜索框，将标题粘贴在搜索框中，然后按【Enter】键。

如图 8 所示，标题可以在源码中搜索到，请求对象是www.cntour.cn，请求方式是GET（所有在源码中的数据请求方式都是GET），如图 9 所示。

图 9（点此查看高清大图）

确定好请求对象和方式后，在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        url = 'http://www.cntour.cn/'
        
        
        
        strhtml = requests.get(url)        #Get方式获取网页数据
        
        
        
        print(strhtml.text)

import requests        #导入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式获取网页数据
print(strhtml.text)

运行结果如图 10 所示：

图 10 运行结果效果图（点此查看高清大图）

加载库使用的语句是 import+库的名字。在上述过程中，加载 requests 库的语句是：import requests。

用 GET 方式获取数据需要调用 requests 库中的 get 方法，使用方法是在 requests 后输入英文点号，如下所示：

requests.get

将获取到的数据存到 strhtml 变量中，代码如下：

strhtml = request.get(url)

这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示网页源码：

strhtml.text

使用 POST 方式抓取数据

首先输入有道翻译的网址： http://fanyi.youdao.com/，进入有道翻译页面。

按快捷键 F12，进入开发者模式，单击 Network，此时内容为空，如图 11 所示：

图 11

在有道翻译中输入“我爱中国”，单击“翻译”按钮，如图 12 所示：

图 12

在开发者模式中，依次单击“Network”按钮和“XHR”按钮，找到翻译数据，如图 13 所示：

图 13

单击 Headers，发现请求数据的方式为 POST。如图 14 所示：

图 14

找到数据所在之处并且明确请求方式之后，接下来开始撰写爬虫。

首先，将 Headers 中的 URL 复制出来，并赋值给 url，代码如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的请求获取数据的方式不同于 GET，POST 请求数据必须构建请求头才可以。

Form Data 中的请求参数如图 15 所示：

图 15

将其复制并构建一个新字典：

From_data={'i':'我愛中國','from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}

接下来使用 requests.post 方法请求表单数据，代码如下：

import requests #导入requests包
response = requests.post(url,data=payload)

将字符串格式的数据转换成 JSON 格式数据，并根据数据结构，提取数据，并将翻译结果打印出来，代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import json
        
        
        
        content = json.loads(response.text)
        
        
        
        print(content['translateResult'][0][0]['tgt'])

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻译结果的完整代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        import json
        
        
        
        def get_translate_date(word=None):
        
        
        
            url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
        
        
        
            From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
        
        
        
            #请求表单数据
        
        
        
            response = requests.post(url,data=From_data)
        
        
        
            #将Json格式字符串转字典
        
        
        
            content = json.loads(response.text)
        
        
        
            print(content)
        
        
        
            #打印翻译后的数据
        
        
        
            #print(content['translateResult'][0][0]['tgt'])
        
        
        
        if __name__=='__main__':
        
        
        
            get_translate_date('我爱中国')

import requests        #导入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #请求表单数据
    response = requests.post(url,data=From_data)
    #将Json格式字符串转字典
    content = json.loads(response.text)
    print(content)
    #打印翻译后的数据
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我爱中国')

使用 Beautiful Soup 解析网页

通过 requests 库已经可以抓到网页源码，接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库，其最主要的功能是从网页中抓取数据。Beautiful Soup 目前已经被移植到 bs4 库中，也就是说在导入 Beautiful Soup 时需要先安装 bs4 库。

安装 bs4 库的方式如图 16 所示:

图 16

安装好 bs4 库以后，还需安装 lxml 库。如果我们不安装 lxml 库，就会使用 Python 默认的解析器。尽管 Beautiful Soup 既支持 Python 标准库中的 HTML 解析器又支持一些第三方解析器，但是 lxml 库具有功能更加强大、速度更快的特点，因此笔者推荐安装 lxml 库。

安装 Python 第三方库后，输入下面的代码，即可开启 Beautiful Soup 之旅：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        from bs4 import    BeautifulSoup
        
        
        
        url='http://www.cntour.cn/'
        
        
        
        strhtml=requests.get(url)
        
        
        
        soup=BeautifulSoup(strhtml.text,'lxml')
        
        
        
        data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
        
        
        
        print(data)

import requests        #导入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代码运行结果如图 17 所示。

图 17（点此查看高清大图）

Beautiful Soup 库能够轻松解析网页信息，它被集成在 bs4 库中，需要时可以从 bs4 库中调用。其表达语句如下：

from bs4 import BeautifulSoup

首先，HTML 文档将被转换成 Unicode 编码格式，然后 Beautiful Soup 选择最合适的解析器来解析这段文档，此处指定 lxml 解析器进行解析。解析后便将复杂的 HTML 文档转换成树形结构，并且每个节点都是 Python 对象。这里将解析后的文档存储到新建的变量 soup 中，代码如下：

soup=BeautifulSoup(strhtml.text,'lxml')

接下来用 select（选择器）定位数据，定位数据时需要使用浏览器的开发者模式，将鼠标光标停留在对应的数据位置并右击，然后在快捷菜单中选择“检查”命令，如图 18 所示：

图 18

随后在浏览器右侧会弹出开发者界面，右侧高亮的代码（参见图 19(b)）对应着左侧高亮的数据文本（参见图 19(a)）。右击右侧高亮数据，在弹出的快捷菜单中选择“Copy”➔“Copy Selector”命令，便可以自动复制路径。

图 19 复制路径

将路径粘贴在文档中，代码如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于这条路径是选中的第一条的路径，而我们需要获取所有的头条新闻，因此将 li：nth-child（1）中冒号（包含冒号）后面的部分删掉，代码如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用这个路径，代码如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和组织数据

至此，获得了一段目标的 HTML 代码，但还没有把数据提取出来，接下来在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                'title':item.get_text(),
        
        
        
                'link':item.get('href')
        
        
        
            }
        
        
        
        print(result)

for item in data:
    result={
        'title':item.get_text(),
        'link':item.get('href')
    }
print(result)

代码运行结果如图 20 所示：

图 20（点此查看高清大图）

首先明确要提取的数据是标题和链接，标题在＜a＞标签中，提取标签的正文用 get_text() 方法。链接在＜a＞标签的 href 属性中，提取标签中的 href 属性用 get() 方法，在括号中指定要提取的属性数据，即 get(＇href＇)。

从图 20 中可以发现，文章的链接中有一个数字 ID。下面用正则表达式提取这个 ID。需要使用的正则符号如下:

\d匹配数字
+匹配前一个字符1次或多次

在 Python 中调用正则表达式时使用 re 库，这个库不用安装，可以直接调用。在 PyCharm 中输入以下代码:

复制纯文本复制


       
       
       
       
        
        
        
        import re
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                "title":item.get_text(),
        
        
        
                "link":item.get('href'),
        
        
        
                'ID':re.findall('\d+',item.get('href'))
        
        
        
            }
        
        
        
        print(result)

import re
for item in data:
    result={
        "title":item.get_text(),
        "link":item.get('href'),
        'ID':re.findall('\d+',item.get('href'))
    }
print(result)

运行结果如图 21 所示：

图 21

这里使用 re 库的 findall 方法，第一个参数表示正则表达式，第二个参数表示要提取的文本。

爬虫攻防战

爬虫是模拟人的浏览访问行为，进行数据的批量抓取。当抓取的数据量逐渐增大时，会给被访问的服务器造成很大的压力，甚至有可能崩溃。换句话就是说，服务器是不喜欢有人抓取自己的数据的。那么，网站方面就会针对这些爬虫者，采取一些反爬策略。

服务器第一种识别爬虫的方式就是通过检查连接的 useragent 来识别到底是浏览器访问，还是代码访问的。如果是代码访问的话，访问量增大时，服务器会直接封掉来访 IP。

那么应对这种初级的反爬机制，我们应该采取何种举措？

还是以前面创建好的爬虫为例。在进行访问时，我们在开发者环境下不仅可以找到 URL、Form Data，还可以在 Request headers 中构造浏览器的请求头，封装自己。服务器识别浏览器访问的方法就是判断 keyword 是否为 Request headers 下的 User-Agent，如图 22 所示。

图 22

因此，我们只需要构造这个请求头的参数。创建请求头部信息即可，代码如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

写到这里，很多读者会认为修改 User-Agent 很太简单。确实很简单，但是正常人1秒看一个图，而个爬虫1秒可以抓取好多张图，比如 1 秒抓取上百张图，那么服务器的压力必然会增大。也就是说，如果在一个 IP 下批量访问下载图片，这个行为不符合正常人类的行为，肯定要被封 IP。

其原理也很简单，就是统计每个IP的访问频率，该频率超过阈值，就会返回一个验证码，如果真的是用户访问的话，用户就会填写，然后继续访问，如果是代码访问的话，就会被封 IP。

这个问题的解决方案有两个，第一个就是常用的增设延时，每 3 秒钟抓取一次，代码如下：

import time
time.sleep(3)

但是，我们写爬虫的目的是为了高效批量抓取数据，这里设置 3 秒钟抓取一次，效率未免太低。其实，还有一个更重要的解决办法，那就是从本质上解决问题。

不管如何访问，服务器的目的就是查出哪些为代码访问，然后封锁 IP。解决办法：为避免被封 IP，在数据采集时经常会使用代理。当然，requests 也有相应的 proxies 属性。

首先，构建自己的代理 IP 池，将其以字典的形式赋值给 proxies，然后传输给 requests，代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        proxies={
        
        
        
            "http":"http://10.10.1.10:3128",
        
        
        
            "https":"http://10.10.1.10:1080",
        
        
        
        }
        
        
        
        response = requests.get(url, proxies=proxies)

proxies={
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

扩展阅读

本文仅对 Python 爬虫及实现过程做了简明扼要地介绍，仅能使初学者对 python 爬虫有一个浅显的认识，并不能让你完全掌握 Python 爬虫。

如果你想对 Python 爬虫有更深入的了解，我推荐你阅读：

Python爬虫入门教程
Python3网络爬虫入门教程
Python爬虫教程——慕课网

了解网页；
使用 requests 库抓取网站数据；
使用 Beautiful Soup 解析网页；
清洗和组织数据；
爬虫攻防战；

了解网页

图 1 中国旅游网首页源码

认识网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。

HTML

HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

常见的标签如下：

.. 表示标记中间的元素是网页
.. 表示用户可见的内容

表示框架

表示段落

表示列表
..表示图片

..

表示标题
..表示超链接

CSS

CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScript

写一个简单的 HTML

通过编写和修改 HTML，可以更好地理解 HTML。首先打开一个记事本，然后输入下面的内容：

Python 3 爬虫与数据清洗入门与实战

Python 3爬虫与数据清洗入门与实战

爬虫

数据清洗

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"；

运行该文件后的效果，如图 2 所示。

图 2

这段代码只是用到了 HTML，读者可以自行修改代码中的中文，然后观察其变化。

关于爬虫的合法性

图 3 淘宝网的robots.txt文件内容

淘宝网允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下：

User-Agent:*
Disallow:/

这一句代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

使用 requests 库请求网站

安装 requests 库

首先在 PyCharm 中安装 requests 库，为此打开 PyCharm，单击“File”（文件）菜单，选择“Setting for New Projects...”命令，如图 4 所示。

图 4

选择“Project Interpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，如图 5 所示。

图 5

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），然后单击左下角的“Install Package”（安装库）按钮。如图 6 所示：

图 6

图 7 安装成功

爬虫的基本原理

网页请求的过程分为两个环节：

Request （请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。
Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求，如图 8 所示。

图 8 Response相应

网页请求的方式也分为两种：

GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。
POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

使用 GET 方式抓取数据

图 9（点此查看高清大图）

确定好请求对象和方式后，在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        url = 'http://www.cntour.cn/'
        
        
        
        strhtml = requests.get(url)        #Get方式获取网页数据
        
        
        
        print(strhtml.text)

import requests        #导入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式获取网页数据
print(strhtml.text)

运行结果如图 10 所示：

图 10 运行结果效果图（点此查看高清大图）

requests.get

将获取到的数据存到 strhtml 变量中，代码如下：

strhtml = request.get(url)

这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示网页源码：

strhtml.text

使用 POST 方式抓取数据

首先输入有道翻译的网址： http://fanyi.youdao.com/，进入有道翻译页面。

按快捷键 F12，进入开发者模式，单击 Network，此时内容为空，如图 11 所示：

图 11

在有道翻译中输入“我爱中国”，单击“翻译”按钮，如图 12 所示：

图 12

在开发者模式中，依次单击“Network”按钮和“XHR”按钮，找到翻译数据，如图 13 所示：

图 13

单击 Headers，发现请求数据的方式为 POST。如图 14 所示：

图 14

找到数据所在之处并且明确请求方式之后，接下来开始撰写爬虫。

首先，将 Headers 中的 URL 复制出来，并赋值给 url，代码如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的请求获取数据的方式不同于 GET，POST 请求数据必须构建请求头才可以。

Form Data 中的请求参数如图 15 所示：

图 15

将其复制并构建一个新字典：

接下来使用 requests.post 方法请求表单数据，代码如下：

import requests #导入requests包
response = requests.post(url,data=payload)

将字符串格式的数据转换成 JSON 格式数据，并根据数据结构，提取数据，并将翻译结果打印出来，代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import json
        
        
        
        content = json.loads(response.text)
        
        
        
        print(content['translateResult'][0][0]['tgt'])

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻译结果的完整代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        import json
        
        
        
        def get_translate_date(word=None):
        
        
        
            url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
        
        
        
            From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
        
        
        
            #请求表单数据
        
        
        
            response = requests.post(url,data=From_data)
        
        
        
            #将Json格式字符串转字典
        
        
        
            content = json.loads(response.text)
        
        
        
            print(content)
        
        
        
            #打印翻译后的数据
        
        
        
            #print(content['translateResult'][0][0]['tgt'])
        
        
        
        if __name__=='__main__':
        
        
        
            get_translate_date('我爱中国')

import requests        #导入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #请求表单数据
    response = requests.post(url,data=From_data)
    #将Json格式字符串转字典
    content = json.loads(response.text)
    print(content)
    #打印翻译后的数据
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我爱中国')

使用 Beautiful Soup 解析网页

图 16

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        from bs4 import    BeautifulSoup
        
        
        
        url='http://www.cntour.cn/'
        
        
        
        strhtml=requests.get(url)
        
        
        
        soup=BeautifulSoup(strhtml.text,'lxml')
        
        
        
        data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
        
        
        
        print(data)

import requests        #导入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代码运行结果如图 17 所示。

图 17（点此查看高清大图）

Beautiful Soup 库能够轻松解析网页信息，它被集成在 bs4 库中，需要时可以从 bs4 库中调用。其表达语句如下：

from bs4 import BeautifulSoup

soup=BeautifulSoup(strhtml.text,'lxml')

图 18

图 19 复制路径

将路径粘贴在文档中，代码如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于这条路径是选中的第一条的路径，而我们需要获取所有的头条新闻，因此将 li：nth-child（1）中冒号（包含冒号）后面的部分删掉，代码如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用这个路径，代码如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和组织数据

至此，获得了一段目标的 HTML 代码，但还没有把数据提取出来，接下来在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                'title':item.get_text(),
        
        
        
                'link':item.get('href')
        
        
        
            }
        
        
        
        print(result)

for item in data:
    result={
        'title':item.get_text(),
        'link':item.get('href')
    }
print(result)

代码运行结果如图 20 所示：

图 20（点此查看高清大图）

\d匹配数字
+匹配前一个字符1次或多次

在 Python 中调用正则表达式时使用 re 库，这个库不用安装，可以直接调用。在 PyCharm 中输入以下代码:

复制纯文本复制


       
       
       
       
        
        
        
        import re
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                "title":item.get_text(),
        
        
        
                "link":item.get('href'),
        
        
        
                'ID':re.findall('\d+',item.get('href'))
        
        
        
            }
        
        
        
        print(result)

import re
for item in data:
    result={
        "title":item.get_text(),
        "link":item.get('href'),
        'ID':re.findall('\d+',item.get('href'))
    }
print(result)

运行结果如图 21 所示：

图 21

这里使用 re 库的 findall 方法，第一个参数表示正则表达式，第二个参数表示要提取的文本。

爬虫攻防战

图 22

因此，我们只需要构造这个请求头的参数。创建请求头部信息即可，代码如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

import time
time.sleep(3)

复制纯文本复制


       
       
       
       
        
        
        
        proxies={
        
        
        
            "http":"http://10.10.1.10:3128",
        
        
        
            "https":"http://10.10.1.10:1080",
        
        
        
        }
        
        
        
        response = requests.get(url, proxies=proxies)

proxies={
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

扩展阅读

Python爬虫入门教程
Python3网络爬虫入门教程
Python爬虫教程——慕课网

了解网页；
使用 requests 库抓取网站数据；
使用 Beautiful Soup 解析网页；
清洗和组织数据；
爬虫攻防战；

了解网页

图 1 中国旅游网首页源码

认识网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。

HTML

HTML 是整个网页的结构，相当于整个网站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现的。

常见的标签如下：

.. 表示标记中间的元素是网页
.. 表示用户可见的内容

表示框架

表示段落

表示列表
..表示图片

..

表示标题
..表示超链接

CSS

CSS 表示样式，图 1 中第 13 行＜style type=＂text/css＂＞表示下面引用一个 CSS，在 CSS 中定义了外观。

JScript

写一个简单的 HTML

通过编写和修改 HTML，可以更好地理解 HTML。首先打开一个记事本，然后输入下面的内容：

Python 3 爬虫与数据清洗入门与实战

Python 3爬虫与数据清洗入门与实战

爬虫

数据清洗

输入代码后，保存记事本，然后修改文件名和后缀名为"HTML.html"；

运行该文件后的效果，如图 2 所示。

图 2

这段代码只是用到了 HTML，读者可以自行修改代码中的中文，然后观察其变化。

关于爬虫的合法性

图 3 淘宝网的robots.txt文件内容

淘宝网允许部分爬虫访问它的部分路径，而对于没有得到允许的用户，则全部禁止爬取，代码如下：

User-Agent:*
Disallow:/

这一句代码的意思是除前面指定的爬虫外，不允许其他爬虫爬取任何数据。

使用 requests 库请求网站

安装 requests 库

首先在 PyCharm 中安装 requests 库，为此打开 PyCharm，单击“File”（文件）菜单，选择“Setting for New Projects...”命令，如图 4 所示。

图 4

选择“Project Interpreter”（项目编译器）命令，确认当前选择的编译器，然后单击右上角的加号，如图 5 所示。

图 5

在搜索框输入：requests（注意，一定要输入完整，不然容易出错），然后单击左下角的“Install Package”（安装库）按钮。如图 6 所示：

图 6

图 7 安装成功

爬虫的基本原理

网页请求的过程分为两个环节：

Request （请求）：每一个展示在用户面前的网页都必须经过这一步，也就是向服务器发送访问请求。
Response（响应）：服务器在接收到用户的请求后，会验证请求的有效性，然后向用户（客户端）发送响应的内容，客户端接收服务器响应的内容，将内容展示出来，就是我们所熟悉的网页请求，如图 8 所示。

图 8 Response相应

网页请求的方式也分为两种：

GET：最常见的方式，一般用于获取或者查询资源信息，也是大多数网站使用的方式，响应速度快。
POST：相比 GET 方式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

所以，在写爬虫前要先确定向谁发送请求，用什么方式发送。

使用 GET 方式抓取数据

图 9（点此查看高清大图）

确定好请求对象和方式后，在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        url = 'http://www.cntour.cn/'
        
        
        
        strhtml = requests.get(url)        #Get方式获取网页数据
        
        
        
        print(strhtml.text)

import requests        #导入requests包
url = 'http://www.cntour.cn/'
strhtml = requests.get(url)        #Get方式获取网页数据
print(strhtml.text)

运行结果如图 10 所示：

图 10 运行结果效果图（点此查看高清大图）

requests.get

将获取到的数据存到 strhtml 变量中，代码如下：

strhtml = request.get(url)

这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示网页源码：

strhtml.text

使用 POST 方式抓取数据

首先输入有道翻译的网址： http://fanyi.youdao.com/，进入有道翻译页面。

按快捷键 F12，进入开发者模式，单击 Network，此时内容为空，如图 11 所示：

图 11

在有道翻译中输入“我爱中国”，单击“翻译”按钮，如图 12 所示：

图 12

在开发者模式中，依次单击“Network”按钮和“XHR”按钮，找到翻译数据，如图 13 所示：

图 13

单击 Headers，发现请求数据的方式为 POST。如图 14 所示：

图 14

找到数据所在之处并且明确请求方式之后，接下来开始撰写爬虫。

首先，将 Headers 中的 URL 复制出来，并赋值给 url，代码如下：

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

POST 的请求获取数据的方式不同于 GET，POST 请求数据必须构建请求头才可以。

Form Data 中的请求参数如图 15 所示：

图 15

将其复制并构建一个新字典：

接下来使用 requests.post 方法请求表单数据，代码如下：

import requests #导入requests包
response = requests.post(url,data=payload)

将字符串格式的数据转换成 JSON 格式数据，并根据数据结构，提取数据，并将翻译结果打印出来，代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import json
        
        
        
        content = json.loads(response.text)
        
        
        
        print(content['translateResult'][0][0]['tgt'])

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

使用 requests.post 方法抓取有道翻译结果的完整代码如下：

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        import json
        
        
        
        def get_translate_date(word=None):
        
        
        
            url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
        
        
        
            From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
        
        
        
            #请求表单数据
        
        
        
            response = requests.post(url,data=From_data)
        
        
        
            #将Json格式字符串转字典
        
        
        
            content = json.loads(response.text)
        
        
        
            print(content)
        
        
        
            #打印翻译后的数据
        
        
        
            #print(content['translateResult'][0][0]['tgt'])
        
        
        
        if __name__=='__main__':
        
        
        
            get_translate_date('我爱中国')

import requests        #导入requests包
import json
def get_translate_date(word=None):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    From_data={'i':word,'from':'zh-CHS','to':'en','smartresult':'dict','client':'fanyideskweb','salt':'15477056211258','sign':'b3589f32c38bc9e3876a570b8a992604','ts':'1547705621125','bv':'b33a2f3f9d09bde064c9275bcb33d94e','doctype':'json','version':'2.1','keyfrom':'fanyi.web','action':'FY_BY_REALTIME','typoResult':'false'}
    #请求表单数据
    response = requests.post(url,data=From_data)
    #将Json格式字符串转字典
    content = json.loads(response.text)
    print(content)
    #打印翻译后的数据
    #print(content['translateResult'][0][0]['tgt'])
if __name__=='__main__':
    get_translate_date('我爱中国')

使用 Beautiful Soup 解析网页

图 16

复制纯文本复制


       
       
       
       
        
        
        
        import requests        #导入requests包
        
        
        
        from bs4 import    BeautifulSoup
        
        
        
        url='http://www.cntour.cn/'
        
        
        
        strhtml=requests.get(url)
        
        
        
        soup=BeautifulSoup(strhtml.text,'lxml')
        
        
        
        data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
        
        
        
        print(data)

import requests        #导入requests包
from bs4 import    BeautifulSoup
url='http://www.cntour.cn/'
strhtml=requests.get(url)
soup=BeautifulSoup(strhtml.text,'lxml')
data = soup.select('#main>div>div.mtop.firstMod.clearfix>div.centerBox>ul.newsList>li>a')
print(data)

代码运行结果如图 17 所示。

图 17（点此查看高清大图）

Beautiful Soup 库能够轻松解析网页信息，它被集成在 bs4 库中，需要时可以从 bs4 库中调用。其表达语句如下：

from bs4 import BeautifulSoup

soup=BeautifulSoup(strhtml.text,'lxml')

图 18

图 19 复制路径

将路径粘贴在文档中，代码如下:

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li:nth-child(1) > a

由于这条路径是选中的第一条的路径，而我们需要获取所有的头条新闻，因此将 li：nth-child（1）中冒号（包含冒号）后面的部分删掉，代码如下：

#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a

使用 soup.select 引用这个路径，代码如下：

data = soup.select('#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a')

清洗和组织数据

至此，获得了一段目标的 HTML 代码，但还没有把数据提取出来，接下来在 PyCharm 中输入以下代码：

复制纯文本复制


       
       
       
       
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                'title':item.get_text(),
        
        
        
                'link':item.get('href')
        
        
        
            }
        
        
        
        print(result)

for item in data:
    result={
        'title':item.get_text(),
        'link':item.get('href')
    }
print(result)

代码运行结果如图 20 所示：

图 20（点此查看高清大图）

\d匹配数字
+匹配前一个字符1次或多次

在 Python 中调用正则表达式时使用 re 库，这个库不用安装，可以直接调用。在 PyCharm 中输入以下代码:

复制纯文本复制


       
       
       
       
        
        
        
        import re
        
        
        
        for item in data:
        
        
        
            result={
        
        
        
                "title":item.get_text(),
        
        
        
                "link":item.get('href'),
        
        
        
                'ID':re.findall('\d+',item.get('href'))
        
        
        
            }
        
        
        
        print(result)

import re
for item in data:
    result={
        "title":item.get_text(),
        "link":item.get('href'),
        'ID':re.findall('\d+',item.get('href'))
    }
print(result)

运行结果如图 21 所示：

图 21

这里使用 re 库的 findall 方法，第一个参数表示正则表达式，第二个参数表示要提取的文本。

爬虫攻防战

图 22

因此，我们只需要构造这个请求头的参数。创建请求头部信息即可，代码如下：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
response = request.get(url,headers=headers)

import time
time.sleep(3)

复制纯文本复制


       
       
       
       
        
        
        
        proxies={
        
        
        
            "http":"http://10.10.1.10:3128",
        
        
        
            "https":"http://10.10.1.10:1080",
        
        
        
        }
        
        
        
        response = requests.get(url, proxies=proxies)

proxies={
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080",
}
response = requests.get(url, proxies=proxies)

扩展阅读

Python爬虫入门教程
Python3网络爬虫入门教程
Python爬虫教程——慕课网

你可能感兴趣的:(超级简单的Python爬虫教程)

CSS3学习教程，从入门到精通，CSS3 列表样式语法知识点及案例代码（8）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 css html5 html Java开发
CSS3列表样式语法知识点及案例代码一、列表样式类型1.list-style-type属性用于指定列表项标记的样式类型。语法格式：list-style-type:;取值说明：对于无序列表（），常见的取值有：disc：实心圆（默认值）。circle：空心圆。square：实心方块。none：无标记。对于有序列表（），常见的取值有：decimal：数字（默认值）。lower-roman：小写罗马数字。
CSS3学习教程，从入门到精通，CSS3 选择器权重问题语法知识点及案例代码（5）知识分享小能手网页开发编程语言如门前端开发 css3 学习前端 html5 html java css
CSS3选择器权重问题语法知识点及案例代码一、选择器权重概述在CSS中，当多个选择器同时匹配同一个元素时，浏览器会根据选择器的权重来决定哪个样式生效。权重高的选择器的样式会覆盖权重低的选择器的样式。二、选择器权重计算规则1.内联样式（InlineStyles）内联样式直接写在HTML元素的style属性中，权重为1000。2.ID选择器（IDSelectors）ID选择器以#开头，权重为100。3
CSS3学习教程，从入门到精通， CSS3 样式引入语法知识点及案例代码（2）知识分享小能手前端开发网页开发编程语言如门 css3 学习前端 html5 html 开发语言 css
CSS3样式引入语法知识点及案例代码一、CSS3样式引入方式CSS3样式可以通过以下几种方式引入到HTML文档中：1.内联样式(InlineStyles)语法：直接在HTML元素的style属性中编写CSS代码。优点：优先级最高，方便调试。缺点：不利于维护和复用，代码冗余。案例：这是一个段落。2.内部样式表(InternalStyleSheet)语法：在HTML文档的标签内使用标签定义CSS样式。
深度剖析苹果签名与应用程序的紧密关系 ios
在苹果的生态系统中，应用程序的发布和使用有着一套严格且独特的规则，而苹果签名在其中扮演着举足轻重的角色。对于广大苹果用户和应用开发者来说，深入了解苹果签名与应用程序之间的关系，有助于更好地把握苹果应用市场的运行机制。一、苹果签名的基本概念苹果签名是苹果公司为了确保应用程序来源可靠、内容安全，以及维护整个应用生态的有序性而采用的一种数字认证技术。简单来说，它就像是给应用程序贴上了一个“数字身份证”。
如何从GitHub上克隆项目仿生阿尔泰人 github
1.在本地新建一个文件夹作为本地仓库如demo2.进入demo文件夹右键选择gitbushhere3.进入下面的界面输入gitinit将本地仓库初始化4.使用gitcloneurl的格式将你需要的项目从GitHub上下载下来（url为为项目服务器地址或github地址）注：GitHub中的项目下载地址
s1K 数据集：是一个用于提升语言模型推理能力的高质量数据集。数据集
2025-02-07，由斯坦福大学、华盛顿大学等研究机构创建了s1K数据集，该数据集包含1,000个精心挑选的问题，并配以推理轨迹和答案，为语言模型推理能力的提升提供了重要的数据基础。一、研究背景近年来，语言模型（LMs）在大规模预训练的基础上取得了显著进展，其性能提升主要依赖于训练时计算资源的增加。然而，随着模型规模的不断扩大，训练成本也急剧上升。为了在有限的资源下进一步提升模型性能，研究者们开
HTML 样式与布局初体验：学习进程中的关键节点（一）计算机毕设定制辅导-无忧学长 #HTML html 学习前端
初涉HTML：开启学习之门在当今互联网飞速发展的时代，网页无处不在，它已经成为人们获取信息、交流互动的重要平台。而HTML，作为构建网页的基石，其样式与布局更是决定了网页的呈现效果和用户体验。我最初接触HTML，是源于对网页设计的浓厚兴趣。看着那些设计精美的网页，我不禁好奇，它们背后的代码世界究竟是怎样的？带着这份好奇，我踏上了HTML样式与布局的学习之旅。HTML样式初体验在初步了解HTML后，
HTML 样式与布局初体验：学习进程中的关键节点（二）计算机毕设定制辅导-无忧学长 #HTML html 学习 css
学习中的困难与突破在学习HTML样式与布局的过程中，我也遇到了不少困难，这些困难就像是学习道路上的绊脚石，但也正是在克服它们的过程中，我实现了自我的突破和成长。（一）样式冲突：规则的碰撞样式冲突是我遇到的第一个难题。当使用多个CSS规则来定义同一个元素的样式时，由于选择器的优先级和规则的先后顺序不同，经常会出现样式不符合预期的情况。比如，我在一个项目中，同时使用了外部样式表和内嵌样式来设置按钮的样
存储器与内存的区别：深入理解二者差异在现代计算机系统中的应用 Wx功课师计算机系统存储器内存计算机系统存储器与内存的区别
在计算机技术飞速发展的今天，存储器与内存作为计算机系统的重要组成部分，扮演着至关重要的角色。然而，很多人对存储器与内存的概念混淆不清，误以为它们是同一种东西。事实上，存储器与内存有着本质的区别。本文将详细阐述存储器与内存的差异，并探究它们在现代计算机系统中的应用。目录1、存储器与内存的定义及分类1.1、存储器1.2、内存2、存储器与内存的差异3、存储器与内存在现代计算机系统中的应用4、总结1、存储
解析京东商品详情 API 接口 item_get 服务器深度学习数据挖掘
在电商行业蓬勃发展的当下，数据的获取与分析对于企业和开发者而言至关重要。京东作为国内领先的电商平台，提供了丰富的商品资源。为了能够高效地获取京东商品的详细信息，京东开放平台提供了一系列API接口，其中item_get接口在获取商品详情方面发挥着核心作用。本文将深入探讨item_get接口的技术细节、使用场景以及相关实践经验。一、item_get接口概述item_get接口是京东开放平台提供的用于获
OSPO Summit 2025 正式定档！议题征集同步开启开源
历经二十余年的发展，OSPO已然成为企业数字化转型的战略枢纽、产学研协同创新的关键桥梁、公共领域开放生态建设的核心引擎。作为这一进程的重要见证者和推动者，OSPOSummit也将在2025年6月12日迎来它的第三次进化。会议信息时间：2025年6月12日地点：北京议题征集，期待你的声音现在，我们面向全球开源社区决策者、企业技术管理者、学术机构研究者及一线开发者，发起议题征集！诚邀您分享OSPO如何
（1）【个人使用篇】github代码管理 RoboticsTechLab 开发技术管理 git github ssh
文章目录（1）第一步【下载、新建代码】：clone拉取下载项目/新建自己的项目方法（1）方式一：【clone拉取下载项目到本地目录】步骤一：创建本地版本库（repository）第一步：创建一个目录第二步：把目录进行git初始化步骤二：从远程库拉取项目到本地第1步：创建SSHKey第2步：登陆GitHub，打开“Accountsettings”，“SSHKeys”页面，设置SSH和keys第3步：
ChatGPT智能聊天机器人实现云端源想 chatgpt 机器人
以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT-2/GPT-3.5TurboAPI/LLaMA2）轻量化方案：微软DeepSpeed或MetaFairScale（降低显存占用）训练框架PyTorchLightning+Acceler
Apache Doris 3.0.4 版本正式发布
亲爱的社区小伙伴们，ApacheDoris3.0.4版本已于2025年02月28日正式发布。该版本持续在存算分离、湖仓一体、异步物化视图等方面进行改进提升与问题修复，进一步加强系统的性能和稳定性，欢迎大家下载体验。官网下载：https://doris.apache.org/downloadGitHub下载：https://github.com/apache/doris/releases/tag/3
读取RAMS输出文件(RAMS-ISAN文件)的基本程序 Hardess-god RAMS 人工智能
importnumpyasnpfromnetCDF4importDatasetimportxarrayasxrdefread_rams_data(filename):"""读取RAMS输出文件的基本函数"""try:#使用xarray打开文件ds=xr.open_dataset(filename)#提取基本变量temp=ds['THETA'].values#位温pressure=ds['PI'].
【面试经验】华为 AI软开计算产品线（面经+时间线） litterfinger 面试华为人工智能
一.岗位：AI软开二.时间线：投递08.09，机试08.28，测评08.29；面试均线上，一面09.12，二面09.27，三面09.29（本来是09.19线下二三面，但由于本人有事推迟）三.一面（50min）自我介绍简单介绍一下传统知识图谱建设和大模型对于知识的构建的差异和整体的趋势聊聊实习经历中的提示工程和sft具体的工作AI的一个发展历史流程和相关算法的引进知识图谱建设的总体流程回顾机试：老鼠
【CSS】background-position属性详解 Peter-Lu #CSS css 前端 node.js html javascript
文章目录一、background-position属性概述1.属性介绍2.属性的取值3.属性的默认值二、background-position的基本用法1.使用关键字2.使用百分比3.使用像素值4.混合使用关键字与百分比/像素值三、background-position属性详解1.关键字定位2.百分比定位3.长度值定位四、background-position的实际应用场景1.背景图像居中显示2.
【第十节】windows sdk编程：截获控件消息攻城狮7号 Windows编程(C++)windows windows编程 windows sdk c++
目录一、控件消息的截获概述二、相关函数三、示例代码四、高级技巧与注意事项五、常见问题解答六、总结一、控件消息的截获概述控件的消息处理函数通常由系统定义，开发者无需干预。但在需要实现特殊交互逻辑（如自定义点击效果、消息过滤或增强功能）时，可通过消息处理函数替换技术截获控件消息。此技术通过替换控件的默认消息处理函数（WindowProcedure），在自定义处理完成后，调用原函数确保消息链完整。该技术
纯代码非插件实现wordpress右侧悬浮在线客服咨询台 wodrpress资源分享 wordpress wordpress
为了创建一个悬浮在右侧的在线客服咨询台，您可以使用HTML和CSS。以下是一个简单的示例，包含了QQ咨询和微信咨询的链接。HTML代码：在线客服咨询台QQ咨询微信咨询CSS代码：#right-sidebar{width:200px;height:100vh;position:fixed;right:0;top:0;background-color:#f5f5f5;padding:20px;}#on
wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
CSS 自适应图片根据 div 大小进行均匀填充前端小助手 css tensorflow 前端
目录前言使用object-fit属性示例代码HTMLCSS总结相关阅读1.前言在Web开发中，经常需要图片根据其容器的大小进行自适应填充，使得图片在任何设备和屏幕尺寸下都能保持良好的显示效果。本文将介绍如何使用CSS中的object-fit属性来实现这一需求。2.使用object-fit属性object-fit是一个CSS属性，专门用于控制替换元素（如、等）在其容器内的显示方式。常用的值有：fil
为什么很多人喷 Java 开发者离了 spring 框架就不会写代码了 getapi java spring 开发语言
很多人批评Java开发者离开Spring框架后难以独立开发的原因可从技术特性与开发者习惯两方面分析：Java语言的历史设计局限Java的泛型实现存在缺陷，其原始值包装类（如Integer与int）的自动装拆箱机制出现较晚（Java5引入），且编译器无法彻底解决原始值与包装类的隐式转换问题[[1]][[2]]。这种设计导致开发者在处理基础类型与对象时需要额外关注类型转换，而Spring框架通过封装（
解决 Flutter Device Daemon 启动失败问题的实践记录又吹风_Bassy flutter Flutter Daemon file handles Daemon Crash AndroidStudio
解决FlutterDeviceDaemon启动失败问题的实践记录最近在使用Flutter开发时踩了一个坑。看似是个小问题，但折腾了好久，最终通过日志分析和查阅资料才找到了解决办法。这里记录一下整个问题的排查过程，希望能帮助到遇到类似问题的小伙伴。问题背景事情是这样的，我在启动AndroidStudio时突然弹出了一个错误窗口：提示Flutterdaemon启动失败，过了一会儿之后，又弹出下面的弹窗
Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
使用自定义域名访问github上的pages 六圈儿建站 github 域名
1.什么是pages大家应该知道github提供了pages功能，详细介绍见pages.github.com(英文的，估计很少人仔细看)。其实就是，可以把你的代码仓库作为静态站点的资源文件。对于普通用户来说又分为两种pages：userpages和projectpages。1.userpages的仓库名必须是username.github.io比如我的github账号时zhouchangxun，所
GitHub图床 Thinking_calculus Linux github
GitHub之图床github当图床使用的方法了解了，最简单的、安全的方式是创建一个私有库，通过发起issue的方式把想要保存的图片放在issue区title中可以添加便于记忆的字段，虽然大概率以后不会用到，但如果需要时可以使用爬虫爬取issue保存下来，也便于查找之前还有些照片以仓库的形式同步在这个仓库中，但取url这个过程十分麻烦，不过如果是用于储存大量照片的话，使用仓库同步的方式可能不会差,
2018 Kotlin中的model Shigq-droid Kotlin kotlin model
数据类我们经常创建主要用于保存数据的类。在这样的类中，一些标准功能和效用函数通常可以从数据中机械地导出。在Kotlin中，这称为数据类，标记为data：dataclassUser(valname:String,valage:Int)编译器自动从主构造函数中声明的所有属性派生以下成员：equals()/hashCode()pair;toString()形式”User(name=John,age=42
训练数据重复采样，让正负样本比例1：1 kimi-222 机器学习人工智能深度学习
详细解释resample函数：resample函数来自sklearn.utils，用于从数据集中重新抽样。replace=True表示允许重复抽样，即同一个样本可以被多次选中。n_samples指定抽样的数量。确保训练集数量相同：通过resample函数，你可以确保正训练集和负训练集的数量相同，即使其中一个集的数量小于另一个集的数量。如果n_train_num小于max_train_num，res
组件化/Kotlin Ice_Lemon_dc android kotlin 开发语言
七、组件化组件化原理引入组件化的原因：项目随着需求的增加规模变得越来越大，规模的增大导致了各种业务错中复杂的交织在一起,每个业务模块之间，代码没有约束，带来了代码边界的模糊，代码冲突时有发生,更改一个小问题可能引起一些新的问题,牵一发而动全身，增加一个新需求，需要熟悉相关的代码逻辑，增加开发时间避免重复造轮子，可以节省开发和维护的成本。可以通过组件和模块为业务基准合理地安排人力，提高开发效率。不同
如何在GitHub上Clone项目：一步步指南 Fanstay985 github
GitHub作为全球最大的代码托管平台，汇聚了无数开发者的智慧结晶。对于初学者和资深开发者来说，学会如何从GitHub上克隆（Clone）项目是一项基本且重要的技能。本文将详细介绍如何在GitHub上克隆项目的步骤，帮助你轻松将他人的代码库下载到本地进行学习和开发。一、准备工作在开始之前，请确保你已经安装了Git。Git是一个分布式版本控制系统，用于代码的版本管理。如果你还没有安装Git，可以从G
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb