布布要成为最负责的男人

Beautiful Soup4爬虫速成

做毕业论文需要收集数据集，我的数据集就是文本的格式，而且是静态页面的形式，所以只是一个简单的入门。动态页面的爬虫提取这些比较进阶的内容，我暂时没有这样的需求，所以有这类问题的朋友们请移步。
如果只是简单的静态页面的信息爬取，我这篇文章的结构尽量做的清晰，并且把注释给打好，相信有点语法基础的都是能看懂的。

目录

URL管理器
Beautiful Soup4语法速成
- 创建Beautiful Soup4对象
- 搜索结点
- 访问结点信息
超简单爬虫案例
进阶——爬取所有博客页面
- 知识点掌握
- 实战
实践——爬取豆瓣电影Top250榜单

URL管理器

我们可能会爬取大量的URL，并且还可能对URL进行筛选，同时我们需要避免重复和循环爬取，所以对URL进行管理是重要的，具体的管理方式是这样的：
1、建立两个set数组，一个是new_urls存储未爬取的URL，一个是old_urls存储已爬取的URL；
2、如果一个网站是新的网站，那就存在new_urls中；
3、如果new_urls里的网站被爬取过了，那就在new_urls中删除这个网站，并且添加到old_urls中，利用new_urls与old_urls一起判断一个网站是否是一个新的网站。

在工程下面新建一个utils的包，并且将工具类直接封装在这个包下，代码如下：

# -- coding: utf-8 --
class UrlManager():
    """URL管理器"""
    def __init__(self):  # 初始化函数
        # old_urls的来源就是new_urls，爬取完就把URL从new_urls中删除并添加到old_urls中
        self.new_urls = set()  # 定义未爬取的URL的集合
        self.old_urls = set()  # 定义已经爬取了的URL的集合

    def add_new_url(self, url):  # 增加新的URL
        if url is None or len(url) == 0:  # 判断URL是否合格
            return
        if url in self.new_urls or url in self.old_urls:  # 判断是否出现过，不管是否是已经爬取了的，都不应该重复添加一个URL
            return
        self.new_urls.add(url)  # 如果是新的URL，就增加到未爬取的set数组中去

    def add_new_urls(self, urls):  # 增加批量的URL
        if urls is None or len(urls) == 0:  # 同理，批量的URL不合法就return
            return
        for url in urls:
            self.add_new_url(url)

    def get_url(self):  # 取出URL
        if self.has_new_url():  # 若有未爬取的URL
            url = self.new_urls.pop()  # 将new_urls移除一个元素并且返回
            self.old_urls.add(url)  # 爬取就把这个URL放到old_urls中
            return url
        else:
            return None

    def has_new_url(self):  # 判断是否有还未爬取的URL
        return len(self.new_urls) > 0


if __name__ == "__main__":  # 测试类
    url_manager = UrlManager()

    url_manager.add_new_url("url1")
    url_manager.add_new_urls(["url1", "url2"])
    print(url_manager.new_urls, url_manager.old_urls)

    print("#" * 30)
    new_url = url_manager.get_url()
    print(url_manager.new_urls, url_manager.old_urls)

    print("#" * 30)
    new_url = url_manager.get_url()
    print(url_manager.new_urls, url_manager.old_urls)

    print("#" * 30)
    print(url_manager.has_new_url())

Beautiful Soup4语法速成

Beautiful Soup4是比较便捷的，比起一堆乱七八糟的正则表达式，这里只需要掌握一下语法就能随便做爬虫了，大家可以看官方的帮助文档：
Beautiful Soup4帮助文档
我这边就总结一些常用的：

创建Beautiful Soup4对象

from bs4 import BeautifulSoup
# 根据HTML网页字符串创建BeautifulSoup对象
soup = BeautifulSoup(
					html_doc,           # HTML文档字符串
					'html.parser',		# HTML解析器，平时就用这个就行
					from_encoding='utf8'# HTML文档的编码
					)

搜索结点

# 查找所有标签为a的结点
soup.find_all('a')

# 查找所有标签为a，链接符合/view/123.html形式的结点
soup.find_add('a', href='view/123.html')

# 查找所有标签为div，class为abc，文字为python的结点
soup.find_all('div', class_='abc', string='Python')  # 还可以根据id等信息查找对应标签，注意class后面有下划线，因为class是关键字

访问结点信息

# 假设得到了结点Python

# 标签名称
node.name

# a结点的href属性
node['href']

# a结点的链接文字
node.get_text()

超简单爬虫案例

网页代码右键+检查就能看了，学过web能看懂HTML代码就行。
流程很容易：
1、利用request获取网页内容
2、利用BeautifulSoup来解析内容

接下来我们利用爬虫来爬取静态的博客网站，这里就拿一些非主流网站，那些个主流网站应该都会拦截的，我没学那么复杂。
代码如下：

# -- coding: utf-8 --
import requests
from bs4 import BeautifulSoup

# 指定url为我的博客主页网址
url = "http://www.crazyant.net"

r = requests.get(url)  # 利用requests获取url信息
if r.status_code != 200:  # 状态值不为200则返回异常
    raise Exception()

# 获取url文本内容
html_doc = r.text

# 创建Beautiful Soup4对象
soup = BeautifulSoup(html_doc, "html.parser")

# 找到所有的h2标签，所有的文章链接跳转都放在了h2下面，这一点自行打开网页源代码就能看见了
h2_nodes = soup.find_all("h2", class_="entry-title")

for h2_node in h2_nodes:
    link = h2_node.find("a")  # 查找标签名为a的所有标签
    print(link["href"], link.get_text())  # 打印链接和标签名

运行结果：

进阶——爬取所有博客页面

感觉这个学会了基本就学会了如何爬取一个静态页面了。
还是上个例子的网址：
根域名：http://www.crazyant.net
文章页URL形式：http://www.crazyant.net/2261.html

知识点掌握

首先掌握一些知识点：
1、requests请求时附带cookie字典

import requests
cookies = {...}
r = requests.get(
	"http://url",
	cookies=cookies
)

2、正则表达式实现模糊匹配：

import re  # 正则表达式的包
url1 = "http://www.crazyant.net/123.html"
url2 = "http://www.crazyant.net/123.html#comments"
url3 = "http://www.baidu.com"

# 解析一下这个表达式
# 1、"^...$，那么结尾就必须得是.html的形式"
# 2、“\d”表示是数字，“\d+”表示是多个数字
pattern = r'^http://www.crazyant.net/\d+.html$'
print(re.match(pattern, url1))  # OK
print(re.match(pattern, url2))  # None
print(re.match(pattern, url3))  # None

实战

接下来进行实战

# -- coding: utf-8 --
import re

from utils import url_manager
import requests
from bs4 import BeautifulSoup

root_url = "http://www.crazyant.net"

urls = url_manager.UrlManager()
urls.add_new_url(root_url)

# 初始化文件对象，用于把结果写入文件中去，开启写入模式
fout = open("craw_all_pages.txt", "w", encoding="utf-8")

# 我们把跟URL添加以后，我们就可以进行爬取，并把新网址加入到new_urls中
while urls.has_new_url():  # 有未爬取的URL时为真
    curr_url = urls.get_url()
    # 获取网页内容，可能有很多网页，所以设置3秒反应时间
    r = requests.get(curr_url, timeout=3)
    if r.status_code != 200:
        print("error, return status_code is not 200", curr_url)
        continue
    soup = BeautifulSoup(r.text, "html.parser")  # 创建BeautifulSoup对象
    title = soup.title.string  # 获得title的值

    fout.write("%s\t%s\n" % (curr_url, title))  # 将网址和title写入文件
    fout.flush()  # 将内存数据刷到磁盘里，这样能很快看到数据
    print("success: %s, %s, %d" % (curr_url, title, len(urls.new_urls)))

    links = soup.find_all("a")  # 找到所有标签a内容
    for link in links:
        # 提取网址，并且与正则表达式进行匹配
        href = link.get("href")  # link["href"]有可能会错，因为有些超链接不标准，没有href
        if href is None:
            continue
        pattern = r'^http://www.crazyant.net/\d+.html$'
        if re.match(pattern, href):
            urls.add_new_url(href)  # 匹配那就写入

fout.close()

运行结果正常：

实践——爬取豆瓣电影Top250榜单

观察网站，10页，每页25个电影，我们要爬取10个页面的内容。
自行看一下网站的内容是怎样的，敲代码还是挺容易的。

# -- coding: utf-8 --
# 1、使用requests爬取网页
# 2、使用BeautifulSoup实现数据解析
# 3、借助pandas将数据写出到Excel
import requests
from bs4 import BeautifulSoup
import pprint
import pandas as pd
import json

# 下载共10个页面的HTML
page_indexs = range(0, 250, 25)  # 每个页面都是25个电影，因此间隔25
# print(list(page_indexs)): [0, 25, 50,...,200, 225]


def download_all_htmls():
    """下载所有页面的HTML，用于后续分析"""
    htmls = []
    for idx in page_indexs:
        url = f"https://movie.douban.com/top250?start={idx}&filter="
        print("craw html:", url)
        # 定义headers，绕开反爬机制
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
        r = requests.get(url, headers=headers)
        if r.status_code != 200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls


# 执行爬取
htmls = download_all_htmls()


# 解析HTML得到数据
def parse_single_html(html):
    """解析单个HTML，得到数据，@return list({"link", "title", [label]})"""
    soup = BeautifulSoup(html, 'html.parser')  # 初始化对象
    article_items = (
        # 这里就自行观察一下网页的结构，就能定位到电影的位置
        soup.find("div", class_="article")
        .find("ol", class_="grid_view")
        .find_all("div", class_="item")  # 有多个，要find_all
    )
    datas = []
    for article_item in article_items:
        rank = article_item.find("div", class_="pic").find("em").get_text()
        info = article_item.find("div", class_="info")
        title = info.find("div", class_="hd").find("span", class_="title").get_text()
        stars = (
            info.find("div", class_="bd")
            .find("div", class_="star")
            .find_all("span")  # 有多个，要find_all
        )

        rating_star = stars[0]["class"][0]
        rating_num = stars[1].get_text()
        comments = stars[3].get_text()

        datas.append({
            "rank": rank,
            "title": title,
            "rating_star": rating_star.replace("rating", "").replace("-t", ""),
            "comments": comments.replace("人评价", "")
        })
    return datas


pprint.pprint(parse_single_html(htmls[0]))

# 执行所有的HTML页面的解析
all_datas = []
for html in htmls:
    all_datas.extend(parse_single_html(html))
# print(all_datas)

# 将结果存入Excel
df = pd.DataFrame(all_datas)
df.to_excel("豆瓣电影TOP250.xlsx")

运行结果：

如果我们想要查询电影榜单中每个电影的一些信息，我们可以爬取到网址以后直接爬取每个电影的网址，然后再提取相关的一些信息，掌握上面的一些内容，剩下都是基本功了。

你可能感兴趣的:(爬虫,爬虫,python,beautifulsoup)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
区块链技术概述：从比特币到Web3.0 闲人编程 Python区块链50讲区块链 web3 python 元宇宙比特币安全
目录区块链技术概述：从比特币到Web3.0引言：数字革命的下一篇章1.区块链技术基础1.1区块链定义与核心特征1.2区块链数据结构可视化2.比特币：区块链的开端2.1比特币的核心创新2.2比特币交易生命周期3.以太坊与智能合约革命3.1以太坊的核心创新3.2智能合约执行流程4.Web3.0：互联网的新范式4.1Web3.0的核心特征4.2Web3技术栈5.Python实现简易区块链系统5.1区块类
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
《Python数据分析与挖掘实战》Chapter8中医证型关联规则挖掘笔记茫茫大地真干净机器学习 Python 数据挖掘
最近在学习《Python数据分析与挖掘实战》中的案例，写写自己的心得。代码分为两大部分：1.读取数据并进行聚类分析2.应用Apriori关联规则挖掘规律1.聚类部分函数分析：defprogrammer_1():datafile="C:/Users/longming/Desktop/chapter8/data/data.xls"processedfile="C:/Users/longming/Des
利用chatGPT提取复杂json数据到excel文件中 z日火工具使用 excel chatgpt json
利用chatGPT提取复杂json数据到excel文件中1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构3利用ChatGPT写python代码解析数据4复制代码到vscode运行任务说明：整理一个项目的所有接口，保存到excel文档中。在这里插入图片描述1利用swagger导出json类型的接口数据2使用hiJson工具查看json结构我需要json数据的"pa
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
Python3获取5000个元素的单字符表 DechinPhy
技术背景此前考虑过一个问题，有没有办法获取到python里面所有定义好的单字符的表，比如我们获取5000个不一样的单字符，但是常用的chr(number)的方法里面包含了太多的非字母条目，比如缩进换行符等，也会被识别为长度为1的符号。因此需要在此基础上加一个isalpha()的判断。输出5000个字符示例先解释一下思路，我们还是遍历chr中所包含的字符，此时得到的是所有的长度为1的字符，再用str
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
力扣网C语言编程题：接雨水（双指针法）魏劭逻辑编程题 C语言 c语言 leetcode 算法
一.简介前面文章是以动态规划方法实现的，文章如下：力扣网C语言编程题：接雨水（动态规划实现）-CSDN博客本文继续针对力扣网的接雨水问题，以另一种解题思路（双指针）以C语言实现和Python实现。二.力扣网C语言编程题：接雨水（双指针法）题目：接雨水给定n个非负整数表示每个宽度为1的柱子的高度图，计算按此排列的柱子，下雨之后能接多少雨水。示例2：输入：height=[4,2,0,3,2,5]输出：
Python各版本发布时间和重要特性 mosquito_lover1 python
1.Python1.x:-Python1.0(1994年1月):第一个正式版本。-Python1.6(2000年9月):最后一个1.x版本。2.Python2.x:-Python2.0(2000年10月):引入了列表推导、垃圾回收等特性。-Python2.7(2010年7月):Python2.x系列的最后一个版本，长期支持至2020年1月1日。3.Python3.x:-Python3.0(2008
python中用matplotlib画图解决中文问题！！！！！！！终于ok了 luckylbb python 爬虫
在网上用了很多方法基本一样最后终于解决了，分享一下，前面几步似曾相识，但是依旧我发解决问题，重点在最后一步，亲测有效！！！！1、首先在Windons\Fonts下面找到simhei的字体没有就去下载，其实就是黑体，将它拖到桌面备用2、importmatplotlibprint(matplotlib.matplotlib_fname())输入命令查找到自己下载的matplotlib配置文件的位置我的
Python使用matplotlib绘制图像时，中文图例或标题无法正常显示问题独不懂 Python python matplotlib 开发语言
Python使用matplotlib绘制图像时，中文图例或标题无法显示问题解决方法一、问题描述二、解决方法欢迎学习交流！邮箱：z…@1…6.com网站：https://zephyrhours.github.io/一、问题描述Matplotlib库是Python中经常使用的绘图工具，但是有时候我们在使用plt绘制图像，需要将英文标题或者图例显示为中文样式，总会出现无法显示的问题，具体情况如下：imp
Python 文件操作与 wc 工具的重构：从文件对象到输入重定向的全面指南面朝大海，春不暖，花不开 Python基础 python 重构开发语言
文章大纲引言在编程世界中，文件操作是一项基础且至关重要的技能。无论是读取配置文件、处理日志，还是实现数据持久化，文件操作都扮演着核心角色。Python作为一门简洁而强大的语言，提供了直观的文件处理接口，其中open函数和文件对象是开发者最常使用的工具。通过这些工具，我们可以轻松实现文件的读写操作。本文将深入探讨Python文件操作的各个方面，从open函数的基本用法到文件对象的操作方法，再到资源管
AI助力基因数据分析：用Python玩转生命密码的秘密 Echo_Wish 前沿技术人工智能人工智能数据分析 python
AI助力基因数据分析：用Python玩转生命密码的秘密说到基因数据，听起来是不是感觉有点高大上？其实，基因数据分析正变得越来越“接地气”，而AI正是这条路上的神奇钥匙。今天，咱们就用Python聊聊如何利用AI技术做基因数据分析与建模，帮你破解生命的密码，找到疾病预测、个性化医疗的新路子。一、基因数据为何如此特别？基因组测序技术让我们能够获取人体细胞内数以百万计的DNA序列变异信息。但数据量巨大、
python中使用grpc方法示例_Python中使用grpc与consul weixin_39719077
gRPC客户端和服务端可以在多种环境中运行和交互，并且可以用任何gRPC支持的语言来编写。gRPC支持C++JavaPythonGoRubyC#Node.jsPHPDart等语言gRPC默认使用protocolbuffers，这是Google开源的一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或RPC数据交换格式。安装GoogleProtocolBuf
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
python 实战 grpc Avaricious_Bear python 开发语言
title:grpc|python实战grpcdescription:只要代码可以跑起来,很多难题都会迎刃而解.so,keepcodingandstayhungry.grpc的基础:protobufgrpchelloworld:python实战grpc环境配置grpcbasic:grpc4种通信方式grpc的基础:protobufgrpc使用protobuf进行数据传输.protobuf是一种数据
gRPC技术解析与python示例漫谈网络 NetDevOps 智联空间 python 开发语言 rpc grpc
一、gRPC核心架构1.多语言存根2.HTTP/2传输3.多语言实现生成生成客户端gRPC客户端库gRPC服务端库服务端业务逻辑ProtobufIDL二、成为「多语言RPC标准」的5大支柱1.语言无关的接口定义使用Protobuf作为接口定义语言（IDL）：//服务定义(hello.proto)syntax="proto3";serviceGreeter{rpcSayHello(HelloRequ
Python打卡训练营day31 weixin_70153780 Python打卡训练营 python 开发语言
规范的文件命名目标：将文件夹中的文件按规则重命名（如添加前缀、序号等）。#示例importos#定义文件夹路径folder_path=r'C:\Users\Name\Documents\Project\Files'#遍历文件夹中的文件forindex,filenameinenumerate(os.listdir(folder_path)):#拆分文件名和后缀file_ext=os.path.spl
Python编程核心技能提升指南：从第2版到第3版月末刀戈
本文还有配套的精品资源，点击获取简介：《Python核心编程中文版》详细介绍了Python的基础和高级编程主题，适合不同层次的学习者。覆盖了正则表达式的使用、网络编程基础、互联网客户端协议应用、多线程编程技巧，以及GUI编程等核心模块。本书通过丰富的实例和详细的解析，帮助读者掌握文本处理、网络通信、并发任务处理和桌面应用开发的关键技能，为深入学习和专业实践提供全面支持。1.Python编程基础1.
Python多线程实现FTP密码破解技术指南不胖的羊
本文还有配套的精品资源，点击获取简介：本文主要介绍在Python环境下，使用多线程技术提升FTP密码安全性测试的效率。通过threading模块实现多线程，每个线程尝试一个密码，大幅加快破解过程。详细阐述了ftpbrute.py脚本的关键实现部分，包括导入库、定义密码字典、创建线程类、启动线程、等待线程完成以及添加错误处理和安全措施。需要注意的是，未经授权的密码破解活动是非法的，必须在合法授权的情
Python打卡训练营Day26 宸汐Fish_Heart Python打卡训练 python java 数据库
@浙大疏锦行DAY26函数专题1知识点回顾：1.函数的定义2.变量作用域：局部变量和全局变量3.函数的参数类型：位置参数、默认参数、不定参数4.传递参数的手段：关键词参数5.传递参数的顺序：同时出现三种参数类型时作业：题目1：计算圆的面积●任务：编写一个名为calculate_circle_area的函数，该函数接收圆的半径radius作为参数，并返回圆的面积。圆的面积=π*radius²(可以使
Python打卡训练营Day27 宸汐Fish_Heart Python打卡训练 python 算法开发语言
@浙大疏锦行DAY27函数专题2：装饰器ps：第一期day27对应5月16日知识点回顾：1.装饰器的思想：进一步复用2.函数的装饰器写法3.注意内部函数的返回值作业：编写一个装饰器logger，在函数执行前后打印日志信息（如函数名、参数、返回值）昨天我们接触到了函数大部分的功能，然后在你日常ctrl点进某个复杂的项目，发现函数上方有一个@xxx,它就是装饰器装饰器本质上是一个Python函数，它可
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘tqdm’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip 开发语言 ide django pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘tqdm’问题摘要本文深入剖析在PyCharm控制台中使用pipinstall时，遇到ModuleNotFoundError:Nomodulenamed‘tqdm’异常的产生原因，并提供多种针对性的解决方案。除了常见的包安装、网络源切换等方法外，
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘wordcloud’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip redis 开发语言 ide scipy
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘wordcloud’问题摘要在使用PyCharm控制台或命令行通过pipinstall安装第三方包时，常常会遇到类似ModuleNotFoundError:Nomodulenamed‘wordcloud’的报错。本文将从真实开发场景出发，结合常见
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘jieba’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip AI编程人工智能 ide 开发语言
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘jieba’问题摘要在日常的Python开发中，ModuleNotFoundError:Nomodulenamed'jieba'是一个常见的错误提示。尤其是在使用PyCharm开发环境并在控制台中使用pipinstall命令安装第三方包时，更容易
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他