scrapy1.6中文文档第 1 天

这是一篇什么文章

文章内容概述

该一系列文章将记录我根据scrapy官方文档零基础scrapy学习的过程，其中主要包括了文档的翻译及阅读心得，还可能包含一些常见问题的解决方案。

开发环境

系统	python解释器
manjaro 18.0.4 x64 + DDE	Cpython 3.7.3

什么是scrapy

Scrapy
An open source and collaborative framework for extracting the data you need from websites.
In a fast, simple, yet extensible way.

官网首页的介绍描述scrapy为一个可以快速/简单/可拓展地提取所需web网站数据的开源协作框架。

Start with scrapy

第一个栗子（可忽略）

pip install scrapy
cat > myspider.py <<EOF
import scrapy

class BlogSpider(scrapy.Spider):
    name = 'blogspider'
    start_urls = ['https://blog.scrapinghub.com']

    def parse(self, response):
        for title in response.css('.post-header>h2'):
            yield {'title': title.css('a ::text').get()}

        for next_page in response.css('a.next-posts-link'):
            yield response.follow(next_page, self.parse)
EOF
scrapy runspider myspider.py

创建项目（使用pycharm + pipenv）

文档阅读

文档阅读中的标题与官方文档标题相对应

1. 第一步

一句话简述scrapy（概述scrapy）

Even though Scrapy was originally designed for web scraping, it can also be used to extract data using APIs (such as Amazon Associates Web Services) or as a general purpose web crawler.

尽管scrapy原本是为爬取web页面而设计，但是他也可以用来通过API提取数据或当作一个一般用途的web爬虫。

实践一个简单的爬虫示例

此处文档提供了一个爬取http://quotes.toscrape.com简单的scrapy爬虫示例。

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.xpath('span/small/text()').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将上面的代码放到一个文本文件中，并重命名为xxx.py比如quotes_spider.py然后使用scrapy runspider命令运行这个脚本。

scrapy runspider quotes_spider.py -o quotes.json

当脚本执行完，你就会在quotes.json中得到许多以json形式组织的引用名句（未调整格式的，可以用pycharm打开后按crtl + shift + alt + L重新调整格式以提高可读性）。

刚刚发生了什么呢？

当你运行命令scrapy runspider quotes_spider.py时，Scrapy在该脚本文件中寻找爬虫的定义并且通过Scrapy它自己的爬虫引擎运行爬虫。

爬虫开始时先是向start_urls定属性中定义的地址们发送请求，然后调用默认的回调方法parse，并将请求的response body对象作为一个参数传递给毁掉方法。在parse回调中，我们使用CSS选择器循环选择每一个引用句元素，然后暴露(yield)一个包含这句子文本和作者信息的python dict对象（python中对哈西表的实现），然后寻找下一页的链接并且调度下一个请求（下面的请求使用同样的parse方法作为回调函数）。

现在你应该已经发现了scrapy的一个最主要的优点：请求都是有计划的并且是异步执行的（后面会具体说明）。
这意味着Scrapy不需要阻塞等待一个请求结束并被处理，在等待时它可以发送另一个请求或做一些其他事情。这也意味着即使这个请求失败了或处理时出现了错误，其他请求也会继续。

这可以让你很快速地进行爬取。scrapy也提供了一些配置，让你不仅仅是表面控制，而是完全掌控。
你可以设置很多东西，比如在两次请求之间设置间隔，限制每个域名或每个ip的并发请求量，甚至可以使用一个自动限速拓展来自动完成这些配置。

关于修改导出数据的格式

This is using feed exports to generate the JSON file, you can easily change the export format (XML or CSV, for example) or the storage backend (FTP or Amazon S3, for example). You can also write an item pipeline to store the items in a database.

安装向导

安装scrapy（略）

你最好知道的事

scrapy是直接纯python编写的（但间接依赖其他非python包），依赖几个关键的python库。

lxml,
parsel, an HTML/XML data extraction library written on top of lxml,
w3lib, a multi-purpose helper for dealing with URLs and web page encodings
twisted, an asynchronous networking framework
cryptography and pyOpenSSL, to deal with various network-level security needs

scrapy依赖测试过的最小版本为：

Twisted 14.0
lxml 3.4
pyOpenSSL 0.14

scrapy可能也能与更老版本依赖包配合工作，但是我们不能保证它一直会正常工作，因为没有测试过。

这些依赖包他们本身可能依赖一些需要额外安装步骤的非python包，你可以查看指定平台的安装向导

为了避免这些依赖包产生各种问题，请查看他们各自的安装指导。

lxml 安装指南
cryptography安装指南

各平台安装具体步骤及问题解答略

2. Scrapy教程

在这个教程中，我假设你已经安装好了scrapy。

我们将会去爬quotes.toscrape.com——一个列举了很多名人名言的网站。

这个教程将会带你完成下面几个任务：

创建一个项目
写一个爬虫脚本去爬取网站并提取数据
使用命令行将爬取到的数据导出
将爬虫改写为递归寻找链接
使用爬虫参数

创建一个项目

在你开始爬取之前，你应该先创建好一个Scrapy项目，进入你想要存放你的代码的文件夹，然后运行

scrapy startproject tutorial

这就会创建一个tutorial文件夹，文件夹中包含下述内容：

tutorial/
    scrapy.cfg            # deploy configuration file

    tutorial/             # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items definition file

        middlewares.py    # project middlewares file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py

我们的第一个爬虫

爬虫就是你定义的那些类，也是Scrapy用来从网站（或者是一组网站）爬取数据的东西。他们必须是scrapy.Spider的子类，并且必须定义初始请求，可以选择定义如何寻找下一个链接，也可以选择定义如何解析下载下来的网页内容来提取数据。

下面是我们的第一个爬虫，将它保存在tutorial/spiders目录下一个叫quotes_spider.py的文件中。

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

正如你所见，我们的爬虫子类中定义了一些属性和方法

name爬虫的id，它在一个项目里必须是独一无二的，就意味着你不能给两个爬虫设置相同的名字。
start_request()必须返回一个可迭代请求对象，爬虫将会从此开始爬取。
parse()一个将会在每个请求结束后被调用来处理返回内容的方法。response参数是一个TextResponse的实例，它包含了页面的内容，并且包含一些有用的方法。

如何运行我们的爬虫呢？

为了让我们的爬虫工作，到项目的根目录运行

scrapy crawl quotes

这个命令就爱你工会运行名字叫quotes的爬虫，这个爬虫将会向quotes.toscrape.com域名发送请求，你会获取像下面这样的输出

... (omitted for brevity)
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/> (referer: None)
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-1.html
2016-12-16 21:24:05 [quotes] DEBUG: Saved file quotes-2.html
2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing spider (finished)
...

现在检查当前目录中的文件，你应该发现有两个新文件被创建了，quotes-1.html和quotes-2.html,其内容就是每个请求url的内容。

如果你想知道，为什么我们还不开始解析HTML，别着急，我们马上就会说到。

刚刚究竟发生了什么呢

Scrapy调度爬虫类中定义的start_request方法返回的scrapy.Request，当收到响应(response)时，它会实例化一个Response对象并且调用与请求相关连的回调方法，将response作为一个参数。

`start_request`的一种简写

除了实现一个返回scrapy.Request对象的start_requests()方法，你也可以就仅仅定义一个start_urls类属性，包含一系列的URL。这个列表将会被作为start_requests()的默认实现来为你的爬虫创建初始请求。

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)

提取数据

学习如何使用scrapy提取数据的最好方法是在Scrapy命令行中尝试选择器(网页中所有的内容都是由一个一个元素标签组成，选择器可以通过元素标签的属性如标签名，类名，id等属性选择指定的一类标签)，运行：

scrapy shell 'http://quotes.toscrape.com/page/1/'

记得一定要闭合链接的引号，windows上要把单引号改成双引号

执行命令你将会看到想这样的一些东西

[ ... Scrapy log here ... ]
2016-09-19 12:09:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x7fa91d888c90>
[s]   item       {}
[s]   request    <GET http://quotes.toscrape.com/page/1/>
[s]   response   <200 http://quotes.toscrape.com/page/1/>
[s]   settings   <scrapy.settings.Settings object at 0x7fa91d888c10>
[s]   spider     <DefaultSpider 'default' at 0x7fa91c8af990>
[s] Useful shortcuts:
[s]   shelp()           Shell help (print this help)
[s]   fetch(req_or_url) Fetch request (or URL) and update local objects
[s]   view(response)    View response in a browser
>>>

使用命令行你可以尝试使用CSS选择其选择元素。

>>> response.css('title')
[<Selector xpath='descendant-or-self::title' data='Quotes to Scrape'>]

该命令的运行结果是一个像列表一样的对象SelectorList，它表示一个Selector对象的列表，其中Selector对象被XML/HTML元素包裹，允许你进行更深度的查询来精准获取选项或提取数据。

你可以通过如下操作提取所有的标题title：

>>> response.css('title::text').getall()
['Quotes to Scrape']

有两件事要注意：一个是我们在css查询中添加了::text，意思是我们想仅仅选择元素内的文字部分，如果我们不指定::text我们将会获得完整的标题元素，包含他的标签。

>>> response.css('title').getall()
['Quotes to Scrape']

另一件事是调用.getall()的结果是一个列表，可能会返回不止一个结果，所以我们要提取全部返回结果。但你知道你只要第一个结果的时候，你可以使用.get()

>>> response.css('title::text').get()
'Quotes to Scrape'

或者你也可以这样写

>>> response.css('title::text')[0].get()
'Quotes to Scrape'

然而如果没有匹配到元素的时候第一种写法会返回None可以避免出现IndexError。

有一个教训：对于大多数爬虫代码，你希望它在找不到东西时可以保持高容错性，所以即使一部分爬虫失败了，你还是至少能获取到一些数据的。

除了getall()和get()方法，你可以都使用正则表达式方法来提取

>>> response.css('title::text').re(r'Quotes.*')
['Quotes to Scrape']
>>> response.css('title::text').re(r'Q\w+')
['Quotes']
>>> response.css('title::text').re(r'(\w+) to (\w+)')
['Quotes', 'Scrape']

为了找到合适的css选择器，你可能需要通过view(response)命令把返回的页面在浏览器中打开，你可以使用浏览器的开发者工具来查看html并找到一个选择器。

XPath：一个简短的介绍

除了Css选择器，Scrapy选择器还支持使用XPath拓展。

>>> response.xpath('//title')
[]
>>> response.xpath('//title/text()').get()
'Quotes to Scrape'

XPath不仅能根据结构选择，还可以根据内容欧冠选择，十分强大。
在Scrapy中使用XPath选择器
详细教程

提取名言和作者

现在你已经对选择和提取有一点了解了，让我们来完成我们的爬虫吧。

每一个名言都在HTML元素中被呈现，看起来都像这样：

<div class="quote">
    <span class="text">“The world as we have created it is a process of our
    thinking. It cannot be changed without changing our thinking.”span>
    <span>
        by <small class="author">Albert Einsteinsmall>
        <a href="/author/Albert-Einstein">(about)a>
    span>
    <div class="tags">
        Tags:
        <a class="tag" href="/tag/change/page/1/">changea>
        <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughtsa>
        <a class="tag" href="/tag/thinking/page/1/">thinkinga>
        <a class="tag" href="/tag/world/page/1/">worlda>
    div>
div>

现在让我们打开scrapy的命令行工具来试一下如何提取我们所需的数据吧：

$ scrapy shell 'http://quotes.toscrape.com'

我们可以通过下面这条命令得到一系列的包含引用名言的HTML元素：

>>> response.css("div.quote")

上述查询返回的没一个选项都允许我们在他们的子元素中做更深度的查询
现在让我们吧刚刚的地一个选择复制到一个变量，这样我们就可以在这一个包含引用名言的元素上直接调试css选择器了。

>>> quote = response.css("div.quote")[0]

现在呢，让我们利用quote对象从刚刚这个元素中提取出tittle,author和tags。

>>> title = quote.css("span.text::text").get()
>>> title
'“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'
>>> author = quote.css("small.author::text").get()
>>> author
'Albert Einstein'

假定所有的标签是一个字符串的列表，我们可以使用.getall()方法取出全部标签。

>>> tags = quote.css("div.tags a.tag::text").getall()
>>> tags
['change', 'deep-thoughts', 'thinking', 'world']

搞清楚了如何提取每一位后，我们现在可以便利全部提取出来的元素并且把它们都放进一个python的字典型变量中。

>>> for quote in response.css("div.quote"):
...     text = quote.css("span.text::text").get()
...     author = quote.css("small.author::text").get()
...     tags = quote.css("div.tags a.tag::text").getall()
...     print(dict(text=text, author=author, tags=tags))
{'tags': ['change', 'deep-thoughts', 'thinking', 'world'], 'author': 'Albert Einstein', 'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'}
{'tags': ['abilities', 'choices'], 'author': 'J.K. Rowling', 'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”'}
    ... a few more of these, omitted for brevity
>>>

直接在我们的爬虫中提取数据

让我们回到我们的爬虫，直到现在，我们还没有针对性地提取任何数据，只是将整个HTML页面保存到了本地文件。现在让我们把上面的提取逻辑合并到我们的爬虫里吧！

一个Scrapy 爬虫通常会生成很多包含被提取数据的字典。为了做到这一点，我们在回调函数中使用yield这个python关键字，如你在下面所看到的：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

如果你运行这个爬虫，他就会在日志中输出提取出来的数据。

2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags': ['life', 'love'], 'author': 'André Gide', 'text': '“It is better to be hated for what you are than to be loved for what you are not.”'}
2016-09-19 18:57:19 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/page/1/>
{'tags': ['edison', 'failure', 'inspirational', 'paraphrased'], 'author': 'Thomas A. Edison', 'text': "“I have not failed. I've just found 10,000 ways that won't work.”"}

给爬到的数据排序

保存爬到的数据最简单的方法就是使用Feed exports，你可以通过如下命令实现：

scrapy crawl quotes -o quotes.json

这个命令就会生成一个quotes.json文件，其中包含了所有被爬取到的东西，并且内容已经被序列化为JSON（JavaScript Object Notation, JS 对象简谱）

因为一些历史原因，Scrapy会在制定文件后面追加内容而不会覆盖,如果运行了两遍这个命令并且没有删除之前的文件，你就会得到一个格式不正确的json。

你也可以使用其他格式，就像JSON LINES

scrapy crawl quotes -o quotes.jl

JSON LINES 格式是很有用的，因为它和流很像（每一行都是有效的JSON值），你可以很轻松地在后面追加新的记录。而且如果文件很大你不必一次性全部加载到内存。

在小项目里，比如教程中的这个，json已经够用了。然而你想使用爬到的数据做更复杂的事情，你可以写一个Item Pipeline.你创建项目时已经自动创建了这个空文件tutorial/piplines.py。如果你只是想保存一下爬到的东西你就不用实现了。

跟踪链接(Following links)

可能说你不仅想从前面一两页爬取东西，你想从这个网站的所有页面爬取名言引用。
现在你已经知道如何从页面中提取数据了，那让我们来看看如何跟踪链接。

第一件事就是要提取出我们要跟随（follow）的页面的链接。检查我们的页面，我们可以看到有一个带有下述标志的链接指向下一个页面

<ul class="pager">
    <li class="next">
        <a href="/page/2/">Next <span aria-hidden="true">→span>a>
    li>
ul>

我们可以在shell中尝试提取它

>>> response.css('li.next a').get()
'Next →'

这样我们获取了另一个元素，但是我们想要属性href。为了做到这一点，scrapy支持CSS选择器拓展，这样我们就可以像下面这样选择属性内容：

>>> response.css('li.next a::attr(href)').get()
'/page/2/'

也可以用attribSelecting element attributes

>>> response.css('li.next a').attrib['href']
'/page/2'

现在我们发现我们的爬虫会不停递归跟踪下一个链接并从页面中提取数据。

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            next_page = response.urljoin(next_page)
            yield scrapy.Request(next_page, callback=self.parse)

创建请求的简写

创建请求对象的一种简写是使用response.follow：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

你可能感兴趣的:(scrapy文档学习)

鸿蒙开发进阶（HarmonyOS ）短距离通信的BLE蓝牙扫描实践案例你我皆是牛马星人 OpenHarmony 鸿蒙开发 HarmonyOS 1024程序员节华为 harmonyos 鸿蒙 android 前端 ui
鸿蒙NEXT开发实战往期必看文章：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）HarmonyOSNEXT应用开发案例实践总结合（持续更新......）HarmonyOSNEXT应用开发性能优化实践总结（持续更新......）场景描述蓝牙是一种短距的无线通讯技术，可实现固定设备、移动设备之间的数据交换
【静静日记】第391篇：学时间管理，成为人生赢家Day1 静靖的故事
7月5日郑州晴好书《高能要事》一起读！“高能要事”是时间管理的核心！时间管理能力，是不断精进的过程，从今天开始重新学习叶武滨老师时间管理九段，过线上人生！如何如何实现高能？就是每个人每一天都要利用最优质的时间空间和最旺盛的精力，去选择并首先完成对人生有积极影响的事情，如此就可以创造你想要的人生，实现16倍的效能跃升。生活中的三类人，你中枪了吗？第一类，忙死。忙死的人，白天过不好，晚上睡不好，生活一
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
我的暑假见闻分享记甯甯的花儿
同学们：两个月的暑假，说快不快，说慢也不慢，这两个月的时间里，你们的收获有哪些呢？我先来跟大家说一说，我的暑假见闻吧！众所周知，在期末考试前两天，我被学校临危受命，去参加县里的新课标考试，学校在两百多位教师中，派出语文数学老师各3人，英语一人，一共是七个人参加考试。大家都知道，为了让我们全心备考，我是连监考改卷都没参加，你们放假了，我依然还要来学校学习，最艰难的时候，背了忘忘了背，精神压力特别大，
2019.6.8 crescent_新月
鲇鱼效应充分体现了竞争的重要性。竞争对于人的发展和社会的进步都有促进作用。它给我们以直接现实的追求目标，赋予我们压力和动力，能最大限度地激发我们的潜能，提高我们的学习和工作效率，使我们在竞争、比较中客观地评价自己，发现自己的局限性，提高自己的水平。
DAY4精时力学习日志-【体力】冥想让你更健康更年轻波斯菊
【精时力学习日志】本训练营：2021年100天精时力营·除法今日主题：1-4【体力】冥想让你更健康更年轻学习日期：2021年12月9日1、[我记]我学(客观)+我思(主观)+正反栗子+行动：1.1睡眠限制疗法&睡眠时间计划法1.1.1[我记]睡眠限制疗法的关键点在于不困就不上床睡觉，睡眠时间计划法的关键点在于推迟就寝时间以提升睡眠质量。1.1.2[我思]检视：这个知识点和我之前的认知是一致的吗？回
Shell 脚本编程全面学习指南
前言Shell脚本编程是Linux和Unix系统管理、自动化任务的核心工具之一。通过Shell脚本，你可以自动化重复性操作、简化复杂流程、提高系统管理效率，甚至构建完整的自动化运维工具。本文将带你从基础到进阶，全面学习Shell脚本编程，涵盖语法、结构、调试、最佳实践等内容。一、Shell简介与环境搭建1.1什么是Shell？Shell是命令行解释器，是用户与操作系统内核之间的桥梁。它接收用户输入
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
日精进第140天妈咪宝贝贵族天使莹莹
敬爱的李老师，智慧的班主任，亲爱的跃友们：大家好！我是东平纽约纽约王莹莹今天是我的日精进行动第141天，给大家分享我今天的进步，我们互相勉励，携手前行，每天进步一点点，距离成功便1.比学习:长大成人，绝不是不要依赖他人，一个人活下去，所谓的自立就是同他人，同随着岁月变得不同以往的他人构建起让自己心情舒畅的人际关系。2、比改变:去引导，去争取，去改变。3、比付出:别让自己永远陷入被动的等待，等待他人
信息学奥赛初赛天天练-27-CSP-J2022阅读程序位运算、数据类型范围、进制转换攻略 ya888g 信息学奥赛初赛信息学奥赛位运算数据类型范围进制转换
PDF文档公众号回复关键字:202406122022CSP-J阅读程序1阅读程序(判断题1.5分选择题3分共计40分)01#include0203usingnamespacestd;0405intmain()06{07unsignedshortx,y;08cin>>x>>y;09x=(x|x<<2)&0x33;10x=(x|x<<1)&0x55;11y=(y|y<<2)&0x33;12y=(y|y
【中艺平台】唐浩铭【全球艺术家编码6633】作品雅赏（20201229）大师之道
现为中学生的唐浩铭，从小具有很强的绘画天赋。他对色彩和线条有着异于常人的敏感，对大千世界专注于物象的特征与细节。他从小生活在南国的深圳，城市的环境，动物园的各种鸟兽鱼虫草木都是他描绘的对象。丰富的想象力是他创作的原动力。唐浩铭在观察到自然物的原形时，往往将自己的童真心灵相通，营造一个新的，抽象艺术图形，一个令人新喜的画面。在经过多年的专业学习后，培养起他对绘画的浓厚兴趣，绘画技巧有了很大的提升。他
英雄所见略同石头在海上
今天有幸结识行业里最顶尖的一些人物，深表荣幸。被一群优秀的人包围的感觉真好。不断学习，精进，一直是我前行的动力。正所谓——物以类聚，人以群分。能够简单明了地阐述观点，推进项目，达成共识，共襄盛举。在他们身上，我能不断地吸收到更多的养分。相由心生，气韵非凡。有这样的Leader，实属三生有幸。长风破浪会有时，直挂云帆济沧海。
《翻转课堂与微课程教学法》学习心得 4组11号孙娜 4组11号孙娜
读完《翻转课堂与微课程教学法》这本书让我对为何要进行翻转课堂，以及如何进行有了一些了解，教学观念和思想有了一种新的认识。对翻转课堂和微课程早有耳闻，也或多或少地在网络上进行过一些查阅，但都是一些零碎的、浅尝辄止的了解，现在静下心来读这本系统的著作，使我对翻转课堂和微课程有了更清晰的认识。这本书共分为上、下两部分，上篇主要是翻转课堂的相关理论和目前翻转课堂进行的一些案例，后半部主要介绍如何实施翻转课
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
ZooKeeper学习专栏（三）：ACL权限控制与Zab协议核心原理
文章目录前言一、ACL访问控制列表二、原子广播协议（Zab协议）总结前言在分布式系统中，安全访问控制和一致性保证是两大核心需求。本文将深入探讨Zookeeper的ACL权限控制机制和Zab协议的核心原理，帮助读者理解Zookeeper如何保障数据安全性和系统一致性。一、ACL访问控制列表ACL(AccessControlLists)是Zookeeper保护ZNode数据安全的关键机制，它定义了哪些
【学习分享】日精进打卡0042天～静静的教育成长路静静的教育成长路
来源：好友时长：60分钟“纸上得来终觉浅，绝知此事要躬行”。记得之前分享过这么一句话：任何知识都要转化为一种解决问题的工具，今天，翻看好友的文章，深受启发。这篇文章说的是学生错题本的整理与使用，学生如果合理运用的话，一定能对学生的学习起到很大的帮助作用。这个对于不同年级的学生要求是不一样的。特别适用于高年级或自律的学生。低年级同学可以在家长的指导下使用，也是有好处的。错题本是学生的宝贵财富，孩子们
nextjs学习笔记 ainuo5213 web前端框架学习 next react react服务端渲染 next入门
由于本人最近在学习jocky老师的React16.8+Next.js+Koa2开发Github全栈项目关于react的服务端重构项目，然后跟着老师的视频做笔记，记录下自己的所学知识。目录结构pages(必需)：pages目录是nextjs中最终要的一个目录，这个目录的每一个文件都会对应到每一个页面，可以根据地址栏的路由进行跳转。若pages下的js文件在一个目录下，那么nextjs默认会将这个
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW) Python毕设源码程序高学长 python 课程设计 uni-app
计算机毕业设计Python+uniapp校园兼职系统小程序(小程序+源码+LW)该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+uni+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+UNI等等组成，B/S模式+pychram管理
Python-Django毕业设计养老院老人日常生活管理系统（程序+Lw) Python计算机毕设程序源码_ python django 课程设计
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程项目运行环境配置：Pychram社区版+python3.7.7+Mysql5.7+HBuilderX+listpip+Navicat11+Django+nodejs。项目技术：django+python+Vue等等组成，B/S模式+pychram管理等等。环境需要1.运行环境：最好是python3.7.7，我们在这个版本上开发的。其他版
学习黄爱华老师有感 1e0826452ddb
黄爱华老师“小学数学精英教师四阶课程培养秋季课程在成都举办”，作为四川人的我非常荣幸能来参加。张文质老师的“学生在前，老师在后”，“教学从学生的身体出发，生活出发；”黄爱华老师的“大问题，大空间，大格局”大道至简的道理引发我的沉思和共鸣！黄老师行云流水的教学背后是他对教育的情怀与追求，是对数学的敏锐，是不懈的努力。反观自己的教育教学工作，需要努力的太多，通过学习也有深深感触。希望自己以后从基础做起
理解的证据---追求理解的教学设计9 卌行
达尔文，知道得少，但懂（理解）得多。这真是一句很有意思的话。首先，需要理解“理解得多”是什么意思？书中说我们经常将理解表述为“深入”的或“有深度的”，使之区别于浅层次的认知目标---知道。学习者必须在表面下挖掘，揭示不易发觉的核心观点。所有这些内涵强调的都是要透过表层，挖掘隐藏在内部的精华。我们无法通过灌输概念使其被理解；我们必须揭示它们的价值，事实上，这些概念正是探究和讨论的结果。从这段话的描述
预售工作一周小结小西FineYoga梵音瑜伽
12-13号两天的培训，我清晰了解了梵音的整个发展历程；更清晰预售工作性质以及如何更好的做好预售工作；信息量之大，跨度广，我吸收并不多，希望多跟几次教授的培训，会有不一样的启发！教授是个非常有魅力的天生演讲者，风趣幽默，肢体语言表情丰富，特别有感染力。有着独到的眼光和超强的学习能力，他会从各行各业中取其精华去其糟粕，从每一期预售中不停的去总结，分析，判断，不停优化预售方案14号开始由李白店长带领我
什么是Java？想学习却不知道从哪开始？不熬夜不是好程序员
谈起Java，相信有很多小伙伴们也跟我刚开始一样，对他的了解只有难，学成之后工资高，从入门学到入土，但当你真正开始系统的学习之后才发现其实哪些程序猿们也不过尔尔（刚学习完刚入职那种。。。）什么是Java?Java是一门编程语言，Java是一门掌握了技术就可以拿到高薪的工作岗位。Java这个语言在我国发展的很完善，相当于你掌握了Java技术出来，具备一定的开发经验，既可以在一线城市找到合适的岗位工作
Unreal Engine开发：Unreal Engine基础入门_C++编程基础v1 chenlz2007 游戏开发虚幻 c++java unity 游戏引擎交互 lucene
C++编程基础在开始学习UnrealEngine之前，掌握C++编程基础是非常重要的。C++是一种强大的面向对象编程语言，广泛应用于游戏开发、系统软件开发等领域。本节将介绍C++的基本概念、语法和一些常用的功能，为后续的UnrealEngine开发打下坚实的基础。1.C++简介C++是一种静态类型的、编译式的、通用的、中级到高级的编程语言，它支持多种编程范式，包括面向对象编程、泛型编程和过程化编程
李和我学神百日培养计划学习打卡第14天20210928 玫瑰之梦
今天继续阅读《学习的格局》。今天的小收获:一、有效提升时间观念和学习效率的七个方法1.尽早养成做计划的好习惯。2.用有趣的方式和孩子讨论时间。3.关注点放在时间管理训练上。4.定期整理练习物品归类。5.做好时间规划，利用试、听小工具。6.放手让孩子学习设定目标及优先次序7.学会准确预估时间，制定中长期学习计划。二、克服重度作业拖延症的五大招1.用好生物钟效应，建立有序健康的时间管理观念。2.列出时
名教师罗鹤军写我了蒋坤元
罗鹤军，泰州市小学语文乡村教师培育站主持人，同样热爱学习，认真工作，自觉思考，曾经主持过省级科研课题，有一些教科研经历和心得。兴化城东中心小学副校长。泰州市“阅读导师”、兴化市“名教师”、兴化市“十佳人民满意教师”、兴化市人民政府兼职督学，兴化市小语会副秘书长。名教师罗鹤军写我了，此文发表于《泰州教育》：随风潜入夜，润物细无声。来到苏州半书房认识了几个人，对我的影响很大。蒋坤元老师，亿万富翁，有自
高省是什么平台？加入高省赚钱需要什么条件? 高省APP大九
高省是什么平台高省安全吗？高省app，实现你的赚钱梦想，打拼两年的我为大家详细介绍一下高省到底是什么平台。【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码999999，注册送2皇冠会员，送万元推广大礼包。下面继续跟大家聊聊高省有什么好处？1学习新的赚钱方法。您可以通过下载高省应用程序独立搜索优惠券，也可以通过加入代理商分享和赚钱。用户黏性高，不需要维护
PHP 性能优化全攻略：提升 Web 应用速度的关键来恩1003 PHP 从入门到精通 php 性能优化前端
PHP学习资料PHP学习资料PHP学习资料在Web开发领域，PHP凭借其简单易用、开源免费等特性，成为众多开发者构建网站和应用的首选语言。然而，随着业务的发展和用户量的增加，PHP应用的性能问题逐渐凸显。性能不佳不仅会导致用户体验下降，还可能影响业务的发展。因此，对PHP代码进行性能优化至关重要。本文将深入探讨PHP性能优化的各个方面，包括缓存的使用、代码优化策略以及服务器配置优化等，帮助开发者打
出国的那些事儿詹尼斯317
2017年我出国了，说说出国的那些事吧，刚开始的时候是真的不太适应，无论是生活上还是学习上。一开始住进寄宿家庭，是一对70岁的马来西亚老夫妇。他们会要求洗澡的时间不超过8分钟，因为那边的水费是真的出奇的贵，电费也是贵，刚去的时候是冬天都不能用暖气，最多睡觉前开一张电热毯。因为寄宿家庭一周的费用是$280，折合人民币是1400元，一个月就要5600元，还只是一个房间而已，所以考虑了一下我还是打算在外
在新征程上大力推进中国式现代化等_80c9
日前，学习贯彻党的二十大精神研讨班7日上午在中央党校开班。中共中央总书记、国家主席、中央军委主席习近平在开班式上发表重要讲话强调，概括提出并深入阐述中国式现代化理论，是党的二十大的一个重大理论创新，是科学社会主义的最新重大成果。中国式现代化是我们党领导全国各族人民在长期探索和实践中历经千辛万苦、付出巨大代价取得的重大成果，我们必须倍加珍惜、始终坚持、不断拓展和深化。中国共产党一经诞生，就把为中国人
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

scrapy1.6中文文档第 1 天

scrapy1.6中文文档第 1 天

这是一篇什么文章

文章内容概述

开发环境

什么是scrapy

Start with scrapy

第一个栗子（可忽略）

创建项目（使用pycharm + pipenv）

文档阅读

1. 第一步

一句话简述scrapy（概述scrapy）

实践一个简单的爬虫示例

刚刚发生了什么呢？

安装向导

安装scrapy（略）

你最好知道的事

2. Scrapy教程

创建一个项目

我们的第一个爬虫

如何运行我们的爬虫呢？

刚刚究竟发生了什么呢

start_request的一种简写

提取数据

XPath： 一个简短的介绍

提取名言和作者

直接在我们的爬虫中提取数据

给爬到的数据排序

跟踪链接(Following links)

创建请求的简写

你可能感兴趣的:(scrapy文档学习)

`start_request`的一种简写

XPath：一个简短的介绍