Python人工智能大数据

Python入门实战：网络爬虫实现

1.背景介绍

一、什么是爬虫？

爬虫（英语：Web crawler），也称网络蜘蛛，网络爬虫是一种自动化的程序，它可以访问互联网上的数据并从中提取有用的信息。简单来说，爬虫就是将搜索引擎里的内容复制到自己的网站里，然后再进行修改，形成自己的网页，这样就可以达到快速获取大量信息的目的。

二、为什么要用爬虫？

爬虫能够收集海量数据、深刻洞察大公司运营模式、以及实现自我成为行业第一的可能性。例如，国内知名互联网公司如阿里巴巴、京东、腾讯等都采用了爬虫技术，通过爬虫技术，它们不仅可以收集大量数据，还可以通过爬虫技术获得客户真实意愿、商品销售情况、企业竞争力、产品质量状况等。同时，通过分析爬虫收集的数据，他们也可以找出商机、规划市场策略、提升品牌知名度、制定产品升级策略等。另外，爬虫技术还有助于防范网络安全攻击、分析热点话题、收集大量新闻等。总之，爬虫具有很大的应用价值，是网络时代的信息获取利器。

三、爬虫的分类

根据网络爬虫的任务类型及其数据采集能力不同，通常可分为以下几类：

⒈ 目录型爬虫(Catalog Crawling): 通过检索已知的目录链接或索引页，自动发现其他页面地址并抓取；

⒉ 内容型爬虫(Content Crawling): 从指定URL开始，递归地获取所需页面上的链接，进一步抓取内容；

⒊ 混合型爬虫(Mixed Crawling): 将两种以上爬虫结合起来使用；

⒌ 增量型爬虫(Incremental Crawling): 只对新增或更新的内容进行爬取；

⒍ API 型爬虫(API Crawling): 通过爬取网站提供的 API，获取数据的高级接口形式。

各类爬虫的特点以及适用场景如下图所示：

四、Python的爬虫优势

作为一种高级编程语言，Python 的爬虫库非常丰富。相比于其他语言的库，比如 Java 中的 Apache HttpClient、Python 中的 Requests、Scrapy 等，Python 的爬虫库提供了更加便捷的接口、功能完善的文档、强大的调试工具以及社区活跃的社区支持。

除了提供的众多爬虫框架外，Python 还提供了一些额外的功能特性，包括异步 I/O 支持、Web 服务框架、Web 框架等，这些特性使得 Python 在爬虫领域处于领先地位。

2.核心概念与联系

一、爬虫的作用

在最简单的定义下，爬虫是一个机器人，用来帮助我们快速、有效地获取网页上的数据。它的基本工作流程是：

获取一个初始 URL，这个 URL 是我们的起始页面，也是我们的爬虫需要抓取的网址；
下载这个初始 URL 对应的页面内容；
对页面内容进行解析，提取我们想要的数据，并保存到本地或者数据库中；
遍历当前页面上的链接，并重复以上步骤，直到所有需要的数据都被提取出来。

二、爬虫的组成

爬虫由两大部分构成：引擎和网页解析器。其中引擎负责按照一定的规则向指定的目标服务器发送请求，获取响应数据；而网页解析器则是负责对获取到的原始数据进行解析，从中抽取我们想要的数据。

2.1 引擎

引擎又叫作爬虫控制器，是指程序的主体部分，负责管理整个爬虫的运行过程，比如初始化参数、调度任务、记录日志、存储结果等。常用的引擎有 Scrapy、CrawlSpider 和 BeautifulSoup 等。

2.2 网页解析器

网页解析器就是用来解析网页内容的模块，一般情况下会包含 HTML 解析器、XML 解析器、JSON 解析器、文本解析器等，解析出的结果可以是文本、图片、视频、音频、表格等多种类型。常用的网页解析器有 Beautiful Soup、lxml 等。

三、分布式爬虫与反爬机制

爬虫系统往往需要分布式部署，通过多台服务器同时抓取数据，避免单点故障。对于某些限制爬虫的反爬机制，比如动态验证码识别、IP 封锁等，需要进行相应的处理。

3.核心算法原理和具体操作步骤以及数学模型公式详细讲解

一、爬虫算法简介

爬虫算法就是指用来实现网页爬取功能的一系列规则和方法。以下是常用的爬虫算法：

(1) 广度优先搜索法（BFS）

该算法以起始 URL 为中心，首先将起始 URL 添加到队列中，并标记为“待访问”，然后依次访问队列中的 URL。如果某个 URL 下存在新的 URL 可以继续访问，则添加到队列中，并标记为“待访问”。一直执行到队列为空或没有“待访问”的 URL 时停止。

(2) 深度优先搜索法（DFS）

该算法以起始 URL 为中心，首先将起始 URL 添加到栈中，并标记为“待访问”，然后依次访问栈中的 URL。如果某个 URL 下存在新的 URL 可以继续访问，则添加到栈中，并标记为“待访问”。一直执行到栈为空或没有“待访问”的 URL 时停止。

(3) 聚焦爬虫

聚焦爬虫主要基于关键字来搜索网页，它的工作流程是：先找到关键词所在的页面，然后抓取关键词周围一定范围的页面，经过筛选后将结果输出。当用户输入查询条件时，它就像一个小型的网页搜索引擎一样，查找相关信息。

(4) 模拟登录爬虫

模拟登录爬虫是指爬虫程序可以模拟用户登录网站，进行更多的操作。例如，可以爬取用户私信消息、购物记录等，在做科研工作、应急应变工作时十分有用。

(5) 数据挖掘爬虫

数据挖掘爬虫利用数据挖掘的算法和技术，从网页源代码中自动提取有价值的信息。可以用于网页数据分析、智能产品推荐等方面。

二、爬虫实现方案

(1) 使用 urllib 或 requests 请求页面

首先需要引入 requests 库，然后利用 requests 库的 get() 方法请求页面，并得到返回值 response 对象。通过 response 对象的方法，我们可以获取页面的状态码 status_code、HTTP 头部 headers、cookies、内容 body、编码 charset、超时时间 timeout 等信息。

import requests

response = requests.get('http://www.example.com')
print(response.status_code) # 打印状态码
print(response.headers)    # 打印 HTTP 头部
print(response.cookies)    # 打印 cookies
print(response.content)    # 打印内容 body
print(response.encoding)   # 打印编码 charset
print(response.url)        # 打印请求的 URL
print(response.history)    # 打印重定向历史

(2) 使用正则表达式匹配网页内容

利用 re 库中的 findall() 方法，可以利用正则表达式匹配网页内容。findall() 方法返回的是一个列表，列表元素是匹配成功的字符串。

import re

html = 'Some text here.'
pattern = r'(.*?)'
result = re.findall(pattern, html)
print(result[0]) # Some text here.

(3) 使用 BeautifulSoup 或 lxml 解析网页内容

BeautifulSoup 是一个 Python 库，它提供对 HTML、XML 文件的解析。我们可以使用 BeautifulSoup 来解析网页内容，得到完整的 DOM 树，然后就可以利用 DOM 树进行各种操作。

lxml 是一个快速且轻量级的 XML 解析器，它使用 XPath 表达式来定位节点。我们可以使用 lxml 解析网页内容，得到完整的 XML 树，然后就可以利用 XPath 语法进行各种操作。

from bs4 import BeautifulSoup

html = '''Title
Item 1
Item 2'''
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('h1').text # Title
items = [item.text for item in soup.select('li')] # ['Item 1', 'Item 2']

(4) 使用 scrapy 实现爬虫

scrapy 是一个 Python 库，它提供了一个 Web 抓取框架，让我们可以方便地编写爬虫程序。通过 scrapy 提供的接口和组件，我们可以快速开发爬虫程序。

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"

    start_urls = ["http://www.example.com"]

    def parse(self, response):
        title = response.xpath("//title/text()").extract()[0]
        print("Title:", title)

        items = []
        for item in response.css("li"):
            items.append(item.xpath(".//text()").extract())

        return {"title": title, "items": items}

（5）实现数据存储

爬虫抓取的结果可以保存到文件、数据库、MongoDB 等，方便后续分析。

import json

data = {"title": "Example Page", "items": [{"name": "Item 1"}, {"name": "Item 2"}]}
with open('output.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

4.具体代码实例和详细解释说明

本文将以最常用的那个股票交易数据爬虫为例，阐述爬虫实现的全部细节，希望能够帮助读者更好地理解爬虫的工作原理。

一、爬取网页结构

通过浏览器打开百度股票搜索页面，我们可以看到其网页结构如下图所示：

显然，我们要爬取的网页大致符合这种结构，其中包含以下标签：

标尺标签，该标签用来显示股票的当前价格、涨幅等信息。
名称标签，该标签用来显示股票的中文名。
当前价格标签 ... ，该标签用来显示当前股票的价格。
涨幅标签 ... ，该标签用来显示股票的涨幅。
描述标签 ... ，该标签用来显示股票的简介。
操作标签 买入 ，该标签用来购买股票。

因此，我们可以通过解析网页源码，获取相应的标签内容，进而爬取相应的股票信息。

二、使用 requests 库抓取网页源代码

为了爬取网页，我们首先需要安装 requests 库，我们可以使用 pip 命令安装 requests。命令如下：

pip install requests

导入 requests 库后，我们可以使用 get() 函数来获取网页内容，并得到返回值 response 对象。

import requests

url = 'https://quote.baidu.com/'
r = requests.get(url)
print(r.text) # 查看网页源代码

三、使用 BeautifulSoup 库解析网页内容

requests 返回的 response 对象有一个 text 属性，我们可以直接打印此属性查看网页源码。但是，这只是普通的文本形式，并不能很方便地获取到我们想要的信息。

因此，我们可以借助 BeautifulSoup 库来解析网页内容。首先，我们导入 BeautifulSoup 库：

from bs4 import BeautifulSoup

然后，我们使用 BeautifulSoup() 函数来解析网页内容，并得到 soup 对象。soup 对象是一种树形数据结构，每个对象都是一个节点，包含了标签的名称、内容和子节点等信息。

soup = BeautifulSoup(r.text, 'html.parser')

这里，我们传入的第一个参数是 r.text，表示要解析的网页内容；第二个参数是 'html.parser'，表示解析器类型为 'html.parser'。

接着，我们可以使用 soup 的 find_all() 方法来获取所有的

标签：

divs = soup.find_all('div')
for div in divs:
    if 'class' not in div.attrs or 'fl hgt10 w80' not in div['class']:
        continue

    stock = {}

    price_tag = div.find('span', attrs={'class': 'blue'})
    if price_tag is not None and len(price_tag.string.strip()):
        stock['price'] = float(price_tag.string.replace(',', '').strip().split('$')[1])

    gain_tag = div.find('span', attrs={'class':'red up'})
    if gain_tag is not None and len(gain_tag.string.strip()):
        stock['gain'] = int(float(gain_tag.string.replace('%', '').strip())) / 100 + 1

    img_tag = div.find('img')
    if img_tag is not None and'src' in img_tag.attrs:
        stock['icon'] = img_tag['src']

    a_tag = div.find('a')
    if a_tag is not None and 'href' in a_tag.attrs:
        url = 'https://quote.baidu.com/' + a_tag['href']
        if '/stock/' in url:
            symbol = url.split('/')[4].lower()
            stock['symbol'] = symbol

            info_url = 'https://vip.stock.finance.sina.com.cn/corp/go.php/vCI_StockStructureHistory/stockid/{}/displaytype/default.phtml'.format(symbol)
            info_resp = requests.get(info_url)
            info_soup = BeautifulSoup(info_resp.text, 'html.parser')

            data_tag = info_soup.find('table', attrs={'class':'mkt m_tab2 fx_daohang'})
            rows = data_tag.select('tr > td:nth-of-type(2)')

            items = []
            for row in rows[:-1]:
                value = ''.join([s.strip() for s in row.stripped_strings])
                try:
                    value = float(value)
                except ValueError:
                    pass

                items.append(value)

            stock['history'] = {'date': [], 'open': [], 'close': [], 'high': [], 'low': [], 'volume': []}
            i = 0
            while i <= len(items)-11:
                date = str(rows[i+1].contents[0]).strip()
                if '-' in date:
                    year, month, day = map(int, reversed(date.split('-')))
                    stock['history']['date'].append('{}-{:02}-{:02}'.format(year, month, day))
                else:
                    year, quarter = map(int, date.split('Q'))
                    months = [(quarter-1)*3 + j + 1 for j in range(3)]
                    dates = ['{}-{:02}-{}'.format(year, month, -1) for month in months][::-1]
                    stock['history']['date'].extend(dates)

                o, h, l, c, v = items[i], items[i+1], items[i+2], items[i+3], items[i+4]
                stock['history']['open'].append(o)
                stock['history']['high'].append(h)
                stock['history']['low'].append(l)
                stock['history']['close'].append(c)
                stock['history']['volume'].append(v)

                i += 11

    print(stock)

此段代码的主要逻辑如下：

遍历所有
标签，找到含有 'fl hgt10 w80' 类的标签。由于网页的排版较乱，所以我们只能手工寻找。
如果该标签含有中文名，则创建一个字典 stock，用来存储股票信息。
用 find() 方法查找当前价格、涨幅、股票图标等标签，填充字典 stock 中相应的键值。
找到名称标签，获取其 href 属性的值，拼接为股票详情页的 URL。
- 判断是否为股票详情页，不是则跳过。
- 根据股票代码，构造 Sina Finance 官网的股票详情页 URL，获取股票的历史数据。
- 用 select() 方法选择 tr > td:nth-of-type(2)，即列名标签，读取历史数据日期、开盘价、收盘价、最高价、最低价、成交量。
- 创建字典 history，用来存放股票历史数据。
- 按要求构建股票历史数据。
- 打印股票信息字典 stock。

【Python如何安装geopandas库】破壳的小企鹅 Python笔记 python
问题描述python原生环境安装geopandas报错：pipisbeinginvokedbyanoldscriptwrapper.Thiswillfailinafutureversionofpip原因分析：提示：安装geopandas需要几个依赖库：GDAL、Fiona、shapely等。解决方案：提示：这里填写该问题的具体解决方案：1、安装GDALpipinstallD:\GDAL-3.1.4
mac安装python 一口八宝周 macos
接上集，我们已经安装了Homebrew那么在macOS上安装Python有多种方法，以下是其中两种常用方法：1：使用Homebrew安装PythonHomebrew是macOS上的包管理器，可以方便地安装和管理各种软件包。如果您已经安装了Homebrew，可以使用以下命令安装Python：打开终端（Terminal）应用程序。运行以下命令安装Homebrew/bin/bash-c"$(curl-f
带你从入门到精通——Python（十一. 闭包、装饰器和深浅拷贝）梦想是成为算法高手 Python python 开发语言
建议先阅读我Python专栏中的前置博客，掌握一定的Python前置知识后再阅读本文，链接如下：Python_梦想是成为算法高手的博客-CSDN博客目录十一.闭包、装饰器和深浅拷贝11.1闭包11.1.1作用域11.1.2闭包概述11.1.3global关键字和nonlocal关键字11.2装饰器11.2.1装饰器概述11.2.2装饰器的使用方法11.2.3带参数的语法糖装饰器11.3深浅拷贝11
Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
Python 入门指南：如何在 MacOS 上轻松安装 Python NicoleGus python macos 开发语言
Python作为一门功能强大且易于学习的编程语言，已经成为许多开发者和数据科学家的首选工具。无论是初学者还是经验丰富的程序员，Python都能为他们提供强大的支持。如果你是一名MacOS用户，想要开始学习Python或者在Mac上进行开发，首先需要正确安装Python环境。本文将详细介绍如何在MacOS上安装Python，帮助你快速开始Python编程之旅。1.检查MacOS是否已预装Python
【自学笔记】Web前端的重点知识点-持续更新 Long_poem 笔记前端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Web前端知识点一、HTML基础二、CSS样式三、JavaScript基础四、前端框架与库五、前端工具与构建六、前端性能优化七、响应式设计与适配八、前端安全总结Web前端知识点一、HTML基础常用标签超链接(标签)图片(标签)表格(、、等标签)列表(无序列表、有序列表、定义列表)HTML5新特性语义化标签(、、等)音频视频(、
python qt5 designer 免费安装_PyQt5开发中Qt Designer安装及解决办法 weixin_39865061 python qt5 designer 免费安装
问题PythonGUI开发中PyQt5是最优秀的工具之一，使用源码逐行编写肯定不是好办法，特别是当应用面对大师GUI窗口时，并且窗口中要使用大师GUI控件时。这时，使用类似于VB的GUI拖放式组建GUI界面成为必需。QtDesigner即是PyQt5框架在开发GUI应用时要使用的生成工具，但是从PyQt5开始，这个工具不会自动随同PyQt5框架安装，而需要单独安装。随着PyQt5子版本的不段推进，
一文搞懂SaaS架构建设流程：业务战略设计、架构蓝图设计、领域系统架构设计、架构治理与实施公众号-AI架构师汤师爷后端架构设计 Java SaaS
大家好，我是汤师爷~SaaS架构建设是一项复杂的系统工程，不仅需要技术层面的实现，更要从业务战略、架构设计、治理与实施等多个维度进行全面规划。一个成功的SaaS架构可以帮助企业降低IT成本、提升业务灵活性、加快创新步伐，并为客户带来更优质的服务体验。本章将详细介绍SaaS架构建设的各个关键阶段，从战略规划到具体实施，为读者提供完整的架构建设指南。SaaS架构建设流程SaaS架构建设是一个复杂且系统
SaaS架构设计 frank3G 框架相关 saas 架构设计数据库应用服务器 session 扩展
对于SaaS应用的可伸缩，最理想的情况：随着用户数的增大，系统架构不用做调整，而仅需要增加/增强相应的硬件设备（应用服务器、数据库服务器）即可。而通常强调的应用架构具有可伸缩性，一般指的是可以实现”Scaleout”，即水平扩展或者向外扩展。而”Scaleup”通常为垂直扩展或者向上扩展，也就是增强硬件设备，这种方式几乎是任何应用架构普遍适用的，但是通常都会面临高成本的问题。1、应用服务器层的水平
《SaaS架构设计》试读 DavyYew 11）SaaS与Cloud saas 架构设计云计算 salesforce 互联网数据库
SaaS基础架构—云计算今天的互联网业界对云计算的关注程度，已经不亚于对一次革命。微软、谷歌、Salesforce、Amazon等国外软件巨头纷纷推出了自己的云计算系统，意图领导这一轮的软件新浪潮。国内的阿里巴巴也已经投入大量资源进入云计算这片新的海洋。基于互联网的软件系统需要承担海量的数据、文件、数据库里的数据，等等。这就必然需要可扩充的、廉价的、可靠的和高性能的网络硬盘来提供图片、视频、博客等
Python使用库函数对列表数据进行排序_给定一个包含整数的列表,编写一个函数 is_sorted(list),判断该列表是否按升序 2401_86437117 python list 开发语言
2.sorted()函数sorted()函数也可以对列表进行排序，但它不会改变原始列表的顺序，而是返回一个新的排序后的列表。sorted()函数的使用方法如下：sorted(list,reverse=True/False)其中，list是需要排序的列表，reverse参数同样用于指定排序的方式。例如，如果我们需要对一个列表进行降序排序，可以使用以下代码：list=[3,1,4,1,5,9,2,6,
Python-面向对象编程总结（类、对象、派生、继承、方法 2401_86437117 python 开发语言
name="Girl"print(Girl.name)print(Girl.name)结果：>>Girl>Girl>>>私有变量，即**不可以在外部访问**的变量。名字前使用\_\_classGirl:“”“AClass——Girl”“”name=“Girl”__private_name=“XiuJie”结果：>>Traceback(mostrecentcalllast):> File"learn
Python 中的 with open：文件操作的最佳实践木觞清 python 开发语言
在Python中，文件操作是最常用的一项任务，无论是读取文件内容，还是将数据写入文件。传统的文件操作方式使用open()和close()函数来处理文件，但在实际开发中，我们推荐使用withopen()语句来进行文件操作。本文将详细介绍如何使用withopen()来安全、简洁、高效地进行文件操作。什么是withopen()？withopen()是Python中的上下文管理器（contextmanag
python列表元素提取_python提取list中的元素 weixin_39996096 python列表元素提取
如何在python列表中查找某个元素的索引方法二：利用enumerate函数。python怎么把一个列表中的特定子元素(元组)提取出eg:list1=[(小明,小明),(小红,小红),(小天，小天)]list2=[小list2=[i[0]foriinlist1]Python中怎么快速提取List中的元素个数提取list的元素个数？是什么意思？取list的元素的总个数还是取list里面的特定的一个或
python中如何修改列表中元素_python中修改列表元素的常见方法 weixin_39747049
列表的元素相当于变量，因此程序可以对列表的元素赋值，这样即可修改列表的元素。例如如下代码：a_list=[2,4,-3.4,'crazyit',23]#对第3个元素赋值a_list[2]='fkit'print(a_list)#[2,4,'fkit','crazyit',23]#对倒数第2个元素赋值a_list[-2]=9527print(a_list)#[2,4,'fkit',9527,23]上
React 和 Vue _使用区别 m0_74823490 vue.js react.js javascript
目录一、框架介绍1.Vue2.React?二、框架结构1.创建应用2.框架结构三、使用区别1.单页面组成2.样式3.显示响应式数据4.响应式html标签属性5.控制元素显隐6.条件渲染7.渲染列表react和vue是目前前端比较流行的两大框架，前端程序员应该将两种框架都掌握，本文总结一些基本知识点的使用区别。一、框架介绍1.VueVue是一个框架，也是一个生态。其功能覆盖了大部分前端开发常见的需求
蓝桥杯python基础算法（2-2）——基础算法（C）——递归 X _X Python Lanqiao 算法
四、递归递归出口：这是递归过程中的终止条件，防止函数无限制地调用自身。当前问题如何变成子问题：这是递归函数中最重要的部分，即如何将当前问题逐步简化为更小的子问题。例题-汉诺塔Hanoi塔由n个大小不同的圆盘和三根木柱a,b,c组成。开始时，这n个圆盘由大到小依次套在a柱上，如图所示。要求把a柱上n个圆盘按下述规则移到c柱上：(1)一次只能移一个圆盘；(2)圆盘只能在三个柱上存放；(3)在移动过程中
深度学习：基于MindNLP的RAG应用开发 Landy_Jay 深度学习人工智能
什么是RAG？RAG（Retrieval-AugmentedGeneration，检索增强生成）是一种结合检索（Retrieval）和生成（Generation）的技术，旨在提升大语言模型（LLM）生成内容的准确性、相关性和时效性。基本思想：通过外部知识库动态检索与用户查询相关的信息，并将检索结果作为上下文输入生成模型，辅助生成更可靠的回答。与传统LLM的区别：传统LLM仅依赖预训练参数中的静态知
MyBatis学习：多表映射 Landy_Jay mybatis 学习数据库
目录一、多表映射概念1.1多表查询结果映射思路1.2实体类设计方案1.2.1对一关系设计1.2.2对多关系设计多表映射案例准备二、对一映射三、对多映射四、多表映射总结4.1多表映射优化4.2总结：一、多表映射概念1.1多表查询结果映射思路数据库的表结构具有复杂性，不是所有数据库都达到第三范式或BCNF范式，故数据库查询结果与java对象的属性映射也变得复杂。MyBatis使用ResultMap实现
Java 如何使用 Linux 内存 -《面向技术宅的 JVM 内幕》 jvmjvm-hotspot
为了更高的性能、更高的内存利用率、更可靠的异常溢出保护机制，Java重度重用了Linux的内存区MMap机制。k8s容器环境下，内存使用预估也依赖于对它的理解。本文主讲Java的内存分区机制。本文摘自我在编写的开源互动图书《面向技术宅的JVM内幕》中的MMap-OSMemoryRegion一节。如图片不清，请转回原文。内存分区关于JVM内存分区，可见我之前写的文章：Linux进程内存分区概念。如还
可能是最深入全面的图解 Java Virtual Threads jvmjvm虚拟机
本文尽我所能，用了数月时间，在学习了JavaVirtualTheads的一些设计和实现理念后，用我所能的精炼文字和画图，去记录我的所学。是我现在能找到的最深入全面的图解JavaVirtualThreads文章。本文摘自我在编写的开源互动图书《面向技术宅的JVM内幕》中的VirtualThreads一节。如图片不清，请转回原文。VirtualThreads按这本书作者的德性，和这本书的定位，这里不会
tensrflow+Python TypeError问题及解决方案（后续持续更新） my_chen_smile tensorflow python typeError tensorflow
TypeError:intreturnednon-int(typeNoneType)错误代码yl是tensorflow里的tensor数据类型ifint(yl.shape.dims[1])%2==1andint(yl.shape.dims[2])%2==1:yl=tf.pad(yl,tf.constant([[0,0],[sz,sz+1],[sz,sz+1],[0,0]]),mode='refle
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
Python 异常处理 weixin_33675507 python 操作系统 runtime
python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。异常处理:本站Python教程会具体介绍。断言(Assertions):本站Python教程会具体介绍。python标准异常异常名称描述BaseException所有异常的基类SystemExit解释器请求退出KeyboardInterrupt用户中断执行(通常是输入^C)E
python中typeerror是啥意思-解决Python 写文件报错TypeError的问题 weixin_39569112
处理上传的文件：f1=request.FILES["pic"]fname="%s/%s"%(settings.MEDIA_ROOT,f1.name)withopen(fname,"w")aspic:forcinf1.chunks():pic.write(c)测试报错：TypeErrorat/upload/write()argumentmustbestr,notbytes把之前的打开语句修改为用二进
PyQt和QML 混合编程下出现 unable to convert a Python 'int' to C++ ‘int’ 错误乱乱乱乱步
第一篇博客写在出差路上。最近在调试一套PyQt与QML混合编程的程序，程序出现这个错误unabletoconvertaPython'int'toC++'int',并没有定位到具体哪行代码出错，经过排查，我发现原因如下self.distanceStatus=distanceStatus赋值给self.distanceStatus的数值过大，超出QML里面int类型的取值范围，也就是溢出了。Text{
解决：tf.placeholder(“float“, [None, width]) AttributeError: module ‘tensorflow‘ has no attribute ‘plac 小桥流水---人工智能 Python常见bug 算法 Python程序代码 tensorflow neo4j 人工智能
这个错误表明正在使用TensorFlow2.x，而代码是基于TensorFlow1.x编写的。tf.placeholder是TensorFlow1.x中的特性，在TensorFlow2.x中已经被移除，因为即时执行模式（EagerExecution）取代了静态图的机制。解决方法1.修改代码以兼容TensorFlow2.x在TensorFlow2.x中，可以直接使用普通的Python张量或tf.ke
Python入门书籍推荐常木耀_R python
许多刚入门Python选手，由于缺乏指导，导致往往培养不出爱好最后放弃作为一个自学新手，我想将我要推荐的书籍介绍出来，来帮助类似像我一样的其他新手。希望有用(仅仅是推荐书，不夹带任何私货，如有侵犯您的权益，私信我删除。入门:1.《Abyte-of-python》中文名:简明python教程入门的书很多，但能让新手轻松看懂的就少了，作者写的思路非常清晰，对每一个知识点讲解的很到位，不多不少，对初学者
基于CNN(一维卷积Conv1D)+LSTM+Attention 实现股票多变量时间序列预测(PyTorch版) 矩阵猫咪 cnn lstm pytorch 注意力机制卷积神经网络长短期记忆网络 Attention
前言系列专栏:【深度学习：算法项目实战】✨︎涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对抗网络、门控循环单元、长短期记忆、自然语言处理、深度强化学习、大型语言模型和迁移学习。在深度学习的众多模型中，卷积神经网络（CNN）和长短期记忆网络（LSTM）因其独特的优势
MongoDB从入门到实战：全面掌握核心操作与Python对接技巧！ kdayjj966 windows python 服务器 mongodb 开发语言数据库
MongoDB数据库"NoSQL"⼀词最早于1998年被⽤于⼀个轻量级的关系数据库的名字随着web2.0的快速发展，NoSQL概念在2009年被提了出来NoSQL在2010年⻛⽣⽔起，现在国内外众多⼤⼩⽹站，如facebook、google、淘宝、京东、百度等，都在使⽤nosql开发⾼性能的产品对于⼀名程序员来讲，使⽤nosql已经成为⼀条必备技能NoSQL最常⻅的解释是“non-relation
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源