愿码

使用Python开始Web Scraping

来源 | 愿码(ChainDesk.CN)内容编辑

愿码Slogan | 连接每个程序员的故事

网站 | http://chaindesk.cn

愿码愿景 | 打造全学科IT系统免费课程，助力小白用户、初级工程师0成本免费系统学习、低成本进阶，帮助BAT一线资深工程师成长并利用自身优势创造睡后收入。

官方公众号 | 愿码 | 愿码服务号 | 区块链部落

免费加入愿码全思维工程师社群 | 任一公众号回复“愿码”两个字获取入群二维码

本文阅读时长：15min

在本文中，我们将学习以编程方式执行操作以自动检索和处理信息。Python requests模块使得执行这些操作变得非常容易。
本文知识点：

下载网页
解析HTML
抓取网络
访问受密码保护的页面
加快网络抓取速度

下载网页

下载网页的基本功能包括GET针对URL 发出HTTP 请求。这是任何Web浏览器的基本操作。我们将在此配方中看到如何获取获取网页的简单请求。

安装 requests模块：

$ echo "requests==2.18.3" >> requirements.txt
$ source .venv/bin/activate
(.venv) $ pip install -r requirements.txt

如何下载网页

导入requests模块：

>>> import requests

请求URL，这需要一两秒钟：

>>> url = 'http://www.columbia.edu/~fdc/sample.html'
>>> response = requests.get(url)

检查返回的对象状态代码：

>>> response.status_code
200

检查结果的内容：

>>> response.text
'\n\n\n
...
FULL BODY
...
\n'

检查正在进行的和返回的标题：

>>> response.request.headers
{'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
>>> response.headers
{'Date': 'Fri, 25 May 2018 21:51:47 GMT', 'Server': 'Apache', 'Last-Modified': 'Thu, 22 Apr 2004 15:52:25 GMT', 'Accept-Ranges': 'bytes', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'Content-Length': '8664', 'Keep-Alive': 'timeout=15, max=85', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html', 'Set-Cookie': 'BIGipServer~CUIT~www.columbia.edu-80-pool=1764244352.20480.0000; expires=Sat, 26-May-2018 03:51:47 GMT; path=/; Httponly'}

操作requests非常简单; GET在这种情况下，通过URL 执行操作。这将返回result可以分析的对象。主要元素是status_code身体内容，可以表示为text。

可以在request现场检查完整请求：

>>> response.request

>>> response.request.url
'http://www.columbia.edu/~fdc/sample.html'

解析HTML

我们将使用Beautiful Soup模块将HTML文本解析为可以分析的内存对象。我们需要使用该 beautifulsoup4 包来使用可用的Python 3版本。将软件包添加到您requirements.txt的虚拟环境中并安装依赖项：

$ echo "beautifulsoup4==4.6.0" >> requirements.txt
$ pip install -r requirements.txt

如何执行HTML解析

导入BeautifulSoup和requests：

>>> import requests
>>> from bs4 import BeautifulSoup

设置要下载和检索的页面的URL：

>>> URL = 'http://www.columbia.edu/~fdc/sample.html'
>>> response = requests.get(URL)
>>> response

解析下载的页面：

>>> page = BeautifulSoup(response.text, 'html.parser')

获取页面标题。看到它与浏览器中显示的内容相同：

>>> page.title
Sample Web Page
>>> page.title.string
'Sample Web Page'

查找h3页面中的所有元素，以确定现有部分：

>>> page.find_all('h3') [CONTENTS, 1. Creating a Web Page, 2. HTML Syntax, 3. Special Characters, 4. Converting Plain Text to HTML, 5. Effects, 6. Lists, 7. Links, 8. Tables, 9. Installing Your Web Page on the Internet, 10. Where to go from here]

提取部分链接上的文本。当你到达下一个时停止
标签：

>>> link_section = page.find('a', attrs={'name': 'links'})
>>> section = []
>>> for element in link_section.next_elements:
...     if element.name == 'h3':
...         break
...     section.append(element.string or '')
...
>>> result = ''.join(section)
>>> result
'7. Links\n\nLinks can be internal within a Web page (like to\nthe Table of ContentsTable of Contents at the top), or they\ncan be to external web pages or pictures on the same website, or they\ncan be to websites, pages, or pictures anywhere else in the world.\n\n\n\nHere is a link to the Kermit\nProject home pageKermit\nProject home page.\n\n\n\nHere is a link to Section 5Section 5 of this document.\n\n\n\nHere is a link to\nSection 4.0Section 4.0\nof the C-Kermit\nfor Unix Installation InstructionsC-Kermit\nfor Unix Installation Instructions.\n\n\n\nHere is a link to a picture:\nCLICK HERECLICK HERE to see it.\n\n\n'

请注意，没有HTML标记; 这都是原始文本。

第一步是下载页面。然后，可以解析原始文本，如步骤3所示。结果 page 对象包含解析的信息。BeautifulSoup允许我们搜索HTML元素。它可以搜索第一个.find() 或返回列表 .find_all()。在步骤5中，它搜索具有特定属性的特定标签name=link。之后，它继续迭代，.next_elements直到找到下一个h3标记，标记该部分的结尾。

提取每个元素的文本并最终组成单个文本。请注意or，避免存储None，当元素没有文本时返回。

抓取网络

鉴于超链接页面的性质，从一个已知的地方开始，并在链接到其他页面后，在抓取网络时，这是一个非常重要的工具。

为此，我们抓取一个寻找小短语的页面，并打印包含它的任何段落。我们只会搜索属于同一网站的网页。即只有以www.somesite.com开头的网址。我们不会关注指向外部网站的链接。

我们将使用GitHub仓库中提供的准备示例作为示例。下载整个站点并运行包含的脚本。

$ python simple_delay_server.py

这为URL中的站点提供服务http://localhost:8000。您可以在浏览器上查看它。这是一个有三个条目的简单博客。大部分都是无趣的，但我们添加了几个包含关键字的段落python。

如何抓取网络

完整的脚本crawling_web_step1.py可以在GitHub中找到。这里显示最相关的位：

...
def process_link(source_link, text):
    logging.info(f'Extracting links from {source_link}')
    parsed_source = urlparse(source_link)
    result = requests.get(source_link)
    # Error handling. See GitHub for details
    ...
    page = BeautifulSoup(result.text, 'html.parser')
    search_text(source_link, page, text)
    return get_links(parsed_source, page)

def get_links(parsed_source, page):
    '''Retrieve the links on the page'''
    links = []
    for element in page.find_all('a'):
        link = element.get('href')
        # Validate is a valid link. See GitHub for details
        ...
        links.append(link)
    return links

搜索引用python，以返回包含包含它的URL和段落的列表。请注意，由于链接断开，存在一些错误：

$ python crawling_web_step1.py https://localhost:8000/ -p python
Link http://localhost:8000/: --> A smaller article , that contains a reference to Python
Link http://localhost:8000/files/5eabef23f63024c20389c34b94dee593-1.html: --> A smaller article , that contains a reference to Python
Link http://localhost:8000/files/33714fc865e02aeda2dabb9a42a787b2-0.html: --> This is the actual bit with a python reference that we are interested in.
Link http://localhost:8000/files/archive-september-2018.html: --> A smaller article , that contains a reference to Python
Link http://localhost:8000/index.html: --> A smaller article , that contains a reference to Python

另一个很好的搜索词是crocodile。试试看：

$ python crawling_web_step1.py http://localhost:8000/ -p crocodile

让我们看看脚本的每个组件：

在main函数中遍历所有找到的链接的循环：
在process_link函数中下载和解析链接：

它会下载文件，并检查状态是否正确，以跳过链接断开等错误。它还会检查类型（如上所述 Content-Type）是否为HTML页面以跳过PDF和其他格式。最后，它将原始HTML解析为一个BeautifulSoup对象。

它还使用解析源链接urlparse，因此稍后在步骤4中，它可以跳过对外部源的所有引用。 urlparse将URL划分为其组成元素：

>>> from urllib.parse import urlparse
>>> >>> urlparse('http://localhost:8000/files/b93bec5d9681df87e6e8d5703ed7cd81-2.html')
ParseResult(scheme='http', netloc='localhost:8000', path='/files/b93bec5d9681df87e6e8d5703ed7cd81-2.html', params='', query='', fragment='')

它在search_text函数中找到要搜索的文本：

它在解析的对象中搜索指定的文本。请注意，搜索仅作为a regex并在文本中完成。它打印生成的匹配项，包括source_link引用找到匹配项的URL：

for element in page.find_all(text=re.compile(text)):
    print(f'Link {source_link}: --> {element}')

该get_links 函数检索页面上的所有链接：

它在解析的页面中搜索所有元素，并检索href元素，但仅检索具有此类href元素且是完全限定URL（以…开头http）的元素。这将删除不是URL的’#'链接，例如链接或页面内部的链接。

进行额外检查以检查它们是否与原始链接具有相同的来源，然后将它们注册为有效链接。该netloc属性允许检测链接来自与步骤2中生成的已解析URL相同的URL域。

最后，返回链接，将它们添加到步骤1中描述的循环中。

访问受密码保护的页面

有时网页不向公众开放，但以某种方式受到保护。最基本的方面是使用基本的HTTP身份验证，它几乎集成到每个Web服务器中，它是一个用户/密码架构。

我们可以在https://httpbin.org中测试这种身份验证。它有一个路径，/basic-auth/{user}/{password}强制进行身份验证，并指定用户和密码。这对于理解身份验证的工作原理非常方便。

如何访问受密码保护的页面

进口requests：

>>> import requests

做一个GET与错误的凭据的URL请求。请注意，我们将URL上的凭据设置为：user 和psswd：

>>> requests.get('https://httpbin.org/basic-auth/user/psswd', 
                 auth=('user', 'psswd'))

使用错误的凭据返回401状态代码（未授权）：

>>> requests.get('https://httpbin.org/basic-auth/user/psswd', 
                 auth=('user', 'wrong'))

凭证也可以直接在URL中传递，@在服务器之前用冒号和符号分隔，如下所示：

>>> requests.get('https://user:[email protected]/basic-auth/user/psswd')

>>> requests.get('https://user:[email protected]/basic-auth/user/psswd')

加快网络抓取速度

从网页下载信息所花费的大部分时间通常都在等待。一个请求从我们的计算机发送到任何服务器将处理它，直到响应组成并返回到我们的计算机，我们不能做太多的事情。

在本文中，我们将看到如何并行下载页面列表，并等待它们全部准备好。我们将使用故意慢的服务器来显示这一点。

我们将获取用于抓取和搜索关键字的代码，利用futuresPython 3 的功能同时下载多个页面。A future是表示值的承诺的对象。这意味着您在后台执行代码时会立即收到对象。只有在特别要求其.result()代码块时才能获得它。

要生成a future，您需要一个名为executor的后台引擎。一旦创建，就会 submit有一个函数和参数来检索它future。结果的检索可以根据需要延迟，允许futures连续生成几个，并等待所有结束，并行执行它们，而不是创建一个，等到它完成，创建另一个，依此类推。

有几种方法可以创建执行程序; 我们将使用ThreadPoolExecutor，它将使用线程。

我们将使用GitHub仓库中提供的准备示例作为示例。下载整个站点并运行包含的脚本

$ python simple_delay_server.py -d 2

这为URL中的站点提供服务 http://localhost:8000。您可以在浏览器上查看它。这是一个简单的博客，有三个条目。大部分都是无趣的，但我们添加了几个包含关键字的段落 python。该参数-d 2使服务器故意变慢，模拟连接错误。

如何加快网页抓取速度

编写以下脚本speed_up_step1.py。完整代码可在GitHub中找到。
注意main功能的差异。此外，还添加了一个额外的参数（并发工作者数），该函数process_link 现在返回源链接。
运行 crawling_web_step1.py 脚本以获取时间基准。请注意，为清楚起见，此处已删除输出：

$ time python crawling_web_step1.py http://localhost:8000/
... REMOVED OUTPUT
real 0m12.221s
user 0m0.160s
sys 0m0.034s

使用一个工作程序运行新脚本，该工作程序比原始工作程序慢：

$ time python speed_up_step1.py -w 1
... REMOVED OUTPUT
real 0m16.403s
user 0m0.181s
sys 0m0.068s

增加工人数量：

$ time python speed_up_step1.py -w 2
... REMOVED OUTPUT
real 0m10.353s
user 0m0.199s
sys 0m0.068s

添加更多工作人员会减少时间：

$ time python speed_up_step1.py -w 5
... REMOVED OUTPUT
real 0m6.234s
user 0m0.171s
sys 0m0.040s

创建并发请求的主要引擎是主要功能。请注意，其余代码基本上不受影响（除了返回process_link函数中的源链接）。这是处理并发引擎的代码的相关部分：

with concurrent.futures.ThreadPoolExecutor(max_workers=workers) as executor:
    while to_check:
        futures = [executor.submit(process_link, url, to_search)
                   for url in to_check]
        to_check = []
        for data in concurrent.futures.as_completed(futures):
            link, new_links = data.result()
             checked_links.add(link)
            for link in new_links:
                if link not in checked_links and link not in to_check:
                    to_check.append(link)

             max_checks -= 1
             if not max_checks:
                return

该with背景下产生的工人池，并指定其编号。在内部，创建包含要检索的所有URL的期货列表。该.as_completed()函数返回已完成的期货，然后有一些工作处理获取新找到的链接并检查是否需要添加它们以进行检索。此过程类似于抓取Web 配方中显示的过程。

该过程再次开始，直到检索到足够的链接或没有要检索的链接。

使用 certbot 在centos7 搭建ssl证书自动并且续约 TwoSs110 ssl https
第一步，确定服务器适合安装的certbot版本sudoyuminstallpython27如果上述方法不起作用，你可以尝试编译安装。首先，你需要安装编译Python所需的依赖包。sudoyuminstallgccmakeopenssl-develsqlite-develreadline-develzlib-develbzip2-devel接下来，下载Python2.7.5的源代码，并进行编译安装。
设计空间探索：乘法器设计的面积、延时、功耗优化赛卡人工智能前端算法
复杂压缩器可压缩更多高度,减少层数(外层while循环次数),但延迟较高。使用哪些压缩器以何种方案进行压缩,是一个设计空间探索问题。1.压缩器种类的选择4-2压缩器：由两个全加器（FA）组成，能够将4个输入压缩为2个输出（和与进位）。适用于中等规模的压缩需求，可以有效减少部分积的位宽。6-2压缩器：能够将6个输入压缩为2个输出，适用于较大规模的压缩需求，尤其在多列压缩时可以减少层次数量。9-2压缩
【Gee】项目总结：模仿 GIN 实现简单的 Golang Web 框架 YGGP Golang Project golang
文章目录Gee项目回顾Gee项目总结Golang已经具备基础的web功能，为什么还需要web框架？作为web框架，Gee框架完成了哪些功能？如何用Gee来构建web项目？Gee项目回顾上个月月末我按照Geektutu的教程，实现了Gee这个基于Golang的简单Web框架，但是一直没有进行复盘总结。学习Gee的八篇文章的链接如下：【Gee】7天用Go从零实现Web框架Gee【Gee】Day1：HT
操作符详解知困勉行的Allen c语言学习方法 c++
今天给小伙伴们分享一些关于操作符的知识~文章将会介绍各种操作符以及它们的使用示例。OK，那就让咱们进入正题吧@目录一.操作符分类二.各类操作符介绍1.算数操作符2.移位操作符3.位操作符4.1赋值操作符4.2复合赋值符5.单目操作符6.关系操作符7.逻辑操作符8.条件操作符9.逗号表达式10.下标引用、函数调用和结构成员三.结语一.操作符分类操作符的种类还挺多嘞~可分为：算术操作符移位操作符位操作
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
Scala语言的硬件驱动花韵婷包罗万象 golang 开发语言后端
使用Scala语言进行硬件驱动开发引言随着计算机技术的快速发展，硬件设备的交互和控制在现代应用中显得尤为重要。大多数硬件驱动程序都用C或C++编写，但随着Scala语言的流行及其在数据处理和并发编程中的优势，越来越多的开发者开始探讨利用Scala进行硬件驱动开发的可能性。本文将深入探讨Scala语言在硬件驱动开发中的应用、优势、以及一些实际案例。什么是硬件驱动硬件驱动（DeviceDriver）是
Certbot实现SSL免费证书自动续签（CentOS 7版 + Docker部署的nginx）程序猿S先森丶 ssl centos docker
前置安装，可参考Certbot实现SSL免费证书自动续签（CentOS7+nginx/apache）如果是通过Docker运行Nginx，certbot无法直接检测到本地的Nginx配置。解决方案是使用standalone模式或挂载Webroot方式获取SSL证书，并手动配置Nginx。方案1：Standalone模式（临时关闭Nginx获取证书）如果你的服务器不支持Webroot（或Nginx配
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
PKI及SSL协议分析实验报告只会复制粘贴的 ssl https 服务器
PKI及SSL协议分析实验报告一、实验目的通过该实验了解和掌握证书服务的安装，理解证书的发放过程，掌握在WEB服务器上配置SSL，使用HTTPS协议访问网站以验证结果，最后对HTTPS协议进行分析。二、实验环境WindowServer*2本实验中自己指定CA服务器与申请证书的网站。实验过程中建议使用IE浏览器，如果不使用IE，可能会导致后续实验过程中证书不能下载。三、实验内容与实验要求实验内容、原
云计算、边缘计算与雾计算白小白呀笔记大数据
云计算（数据上传到云端进行处理）云计算(CloudComputing)是一种基于互联网的计算方式，通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。通俗的讲，云是网络、互联网的一种比喻说法，即互联网与建立互联网所需要的底层基础设施的抽象体。“计算”指的是一台足够强大的计算机提供的计算服务（包括各种功能，资源，存储）。“云计算”可以理解为：通过互联网可以使用足够强大的计算机为用户提
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
openssl TLS 单向认证 spring*-* 网络服务器运维
下面是一个简单的C语言程序示例，它展示了如何使用OpenSSL来实现基于TLS的加密TCP通信。这个程序包括一个服务器和一个客户端，它们通过TLS加密的TCP连接进行通信。步骤概览初始化OpenSSL库。创建SSL上下文（SSL_CTX）。在服务器端，加载服务器证书和私钥；在客户端，加载CA证书。使用SSL套接字进行加密通信。服务器端代码c复制代码#include#include#include#
server和client通信双方双向认证，基于openssl，使用TLS加密TCP流量 spring*-* tcp/ip 服务器网络协议
设计一个基于OpenSSL的C语言程序来实现双向认证的TLS加密TCP通信，需要包含服务器和客户端两部分。以下是该程序的核心步骤及示例代码。生成证书和私钥首先，需要为服务器和客户端生成证书和私钥。可以使用OpenSSL命令行工具生成这些文件。bash复制代码生成CA私钥和自签名证书opensslgenrsa-outca.key2048opensslreq-x509-new-nodes-keyca.
SSL 和 TLS 认证百里自来卷 ssl 网络协议网络
SSL（SecureSocketsLayer，安全套接层）认证是一种用于加密网络通信和验证服务器身份的安全技术。它是TLS（TransportLayerSecurity，传输层安全协议）的前身，虽然现在大多数应用使用的是TLS，但仍习惯性地称之为SSL认证。SSL认证SSL认证的核心作用数据加密：防止数据在传输过程中被窃取或篡改，保证机密性。身份验证：验证服务器身份，防止用户连接到伪造的服务器（如
SSL的原理和应用 m0_74092749 ssl 网络协议网络
前言：SSL协议便是Internet上应用最为广泛的网络数据安全传输协议。SSL协议隶属于会话层,处于有连接的会话层之上,它一经产生就在Internet领域发挥了它的巨大作用。目前,国外著名的商用浏览器和Web服务器都支持SSL协议,SSL已成为最流行的WWW安全协议。目前已经有若干国外厂商推出了基于SSL的安全产品,但是协议在核心密码算法上都有出口限制,大多采用一些低安全强度的算法,而且协议代码
黑板模式（Blackboard Design Pattern）。软件求生黑板模式设计模式
意图黑板模式是观察者模式的一个扩展，知名度并不高，但是我们使用的范围却非常广。黑板模式的意图如下：允许消息的读写同时进行，广泛的交互消息。简单的说，黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。黑板模式确实是消息的广播，
IIS网站用myssl评级为B级 bigsea76 windows ssl
不光是IIS网站，包括.net使用HttpListener开发的web程序，在默认情况下都会被评为B级。提示为：降级原因：1.没有使用AEAD系列加密套件,降级为B2.没有优先使用FS系列加密套件，降级为B。我现在知道AEAD系列加密套件指的是那些支持认证加密和关联数据（AuthenticatedEncryptionwithAssociatedData）的套件，比如AES-GCM和ChaCha20
基于Mosquitto和Paho，在C++中使用MQTT 牛魔王的小怪兽 MQTT c++开发语言网络协议
基于Mosquitto和Paho，使用C++进行MQTT相关应用的开发文章目录基于Mosquitto和Paho，使用C++进行MQTT相关应用的开发1.什么是MQTT2.MQTT的应用场景3.基于Paho，在C++中使用MQTT3.1.下载Paho库3.2.发布消息的代码示例3.3.订阅消息的代码示例3.4.综合示例3.4.1.LinuxC++发布端代码3.4.2.LinuxC++订阅端代码4.基
庖丁解java(一篇文章学java) 庖丁解java java 开发语言
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
LabVIEW cRIO中CSV文件的读取 LabVIEW开发 LabVIEW知识 LabVIEW功能 CRIO
在LabVIEWcRIO中读取CSV文件，需通过文件传输、路径配置、数据解析等步骤实现。本文详细说明如何通过代码读取本地存储的CSV文件，并探讨直接通过对话框选择文件的可行性及替代方案。一、CSV文件传输至cRIO本地存储1.使用NIMAX文件管理步骤：打开NIMAX（Measurement&AutomationExplorer）。连接目标cRIO设备，进入“文件”选项卡。选择路径（如/c/），点
【HarmonyOS NEXT 】应用开发：使用@ohos.net.webSocket发送webSocket 纳米小川 HarmonyOS harmonyos .net websocket
@ohos.net.webSocket模块可以建立WebSocket连接，实现与服务器之间的实时双向通信。WebSocket提供了一种低延迟的通信方式，非常适合实时应用，如聊天应用、在线游戏等。下面是使用@ohos.net.webSocket模块建立WebSocket连接的步骤：1、添加权限确保在config.json文件中添加了网络访问权限：{"name":"com.example.myappl
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
android webview 高度随内容改变,android app内置webview，随android版本升级进程关系的变化... 大圣南佳境 android webview 高度随内容改变
Q最近遇到一个问题：多个应用打不开，闪退。A调查发现闪退的应用都在首屏加载了webview，而在androidp上webview的渲染是在另外一个进程上进行的，进程名字类似webview:sandboxed_process0，这个进程是由webview_zygote这样一个进程fork出来的，而webview_zygote由于缺少权限runtime崩溃，从而导致webview加载失败，应用闪退。S
Redis 源码分析-内部数据结构 quicklist 笨手笨脚の #Redis redis 数据结构数据库 quicklist 链表快速链表 ziplist
Redis源码分析-内部数据结构quicklistquicklist是Redis对外暴露的list数据结构的内部实现，经常被当作队列或栈使用，我们可以从常用的一些api上先思考一下它的结构最常用的就是lpush、lpop、rpush、rpop，同时它也支持lindex查询某元素在list中的索引，linsert在指定元素旁边插入新元素。从头、尾节点的push、pop来看，这就是双向链表最优秀的设计
Exception in thread “main“ java.lang.NoSuchMethodError: Awesome Baron java java vscode
在VScode中运行代码调试力扣程序报错：Exceptioninthread“main”java.lang.NoSuchMethodError:‘intSolution.subarraySum(int[],int)’attest_560.main(test_560.java:9)原因是因为在不同的.java程序中使用了同名的Solution类，导致编译器和运行时选择的类不一致。解决方案：只保留一个
基于uniapp使用websocket进行实时通讯不爱说话郭德纲前端 javascript 开发语言 vue.js
前言最近在做一个赛事的需求，需要使用实时通讯实现房间内交换位置，转让房主，踢出房间等操作记录一下基于uniapp中websocket的封装和使用话不投机半句多（少bb），准备动手，准备动手ws方法封装1.类定义类名:WebsocketTask私有属性:#heartbeatInterval:心跳定时器。#callback:回调函数。#websocketStatus:WebSocket连接状态。#is
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
鸿蒙HarmonyOS开发系列：WebSocket消息发送应用示例太空人_喜之郎 HarmonyOS 鸿蒙 OpenHarmony harmonyos 华为前端 linux 鸿蒙移动开发程序员
1.WebSocket简介WebSocket协议最初于2011年通过RFC6455完成了标准定义，后来又通过RFC7936、RFC8307、RFC8441等标准对协议进行了完善。WebSocket位于网络分层模型的应用层，是建立在TCP之上的双向通讯协议，可以在一个TCP连接上进行全双工通信；和HTTP不同的是，WebSocket通讯需要服务端和客户端先通过握手连接，连接成功后才能相互通信。2.W
iptv内容运营系统服务器架构,IPTV系统架构技术的深入解析 Damong.Liu iptv内容运营系统服务器架构
IPTV简单来说就是交互式网络电视，它能为用户提供电信级的服务和使用简便的电视式体验。IPTV业务是伴随着宽带互联网的飞速发展而兴起的一项新兴的互联网增值业务，它利用宽带互联网的基础设施，以家用电视机和电脑作为主要终端，利用网络机顶盒(STB，Set-TopBox)，通过互联网协议来传送电视信号，提供包括电视节目在内的多种数字媒体服务。IPTV系统概述到目前为止，IPTV虽然还没有一个十分明确的定
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一