程一初

用Python爬取数据的实用姿势

众里寻她千百度，蓦然回首，那人依旧对我不屑一顾。

我们每天都需要获取和过滤大量数据和信息。

比如一个产品运营人员，每天都需要了解：

互联网热点，从微博、微信、知乎、头条等平台了解当天的热点内容；
App和小程序榜单，看看有哪些冒出来的热门应用；
从业内常关注的微信号中寻找选题素材，建立自己的素材库；
跟踪媒体数据，阅读率、打开率、转化率、分享裂变率等；
跟踪用户数据，用户新增、留存、活跃等；
拆解和复盘爆款案例，从中学习亮点……

获取和过滤数据的能力，决定了每个人的效率。

日常工作中，我们会用各类软件来处理数据。

其中使用频率最高、数量最多的，就是浏览器。

浏览器

历史上曾发生过3次浏览器大战：

90年代微软的IE用捆绑免费策略打败了网景付费的Netscape。
2004年网景核心团队成立Mozilla开源组织，推出Firefox打破微软IE垄断。
2008年Google以简洁、安全、免费的Chrome向IE发起挑战。

目前Chrome浏览器已占有7成PC端市场，1/3移动端市场，成为行业老大。

互联网诞生之初只能显示文本信息，应用非常有限。

随着技术标准化和商业化推进，浏览器慢慢把图片、音频、视频、动画等元素带入互联网，成了如今的模样。

浏览器，最基本的3大核心模块：

网络模块，处理网络连接和数据传送。
渲染模块，解析数据后展示成图像，即浏览器内核。
JS模块，执行JavaScript程序。

当然，浏览器工作远不止这些，它还得管人机交互、多进程资源分配、数据存储以及插件扩展等等。

但只要具备3大核心模块的功能，我们就能处理互联网上的数据。

处理互联网数据

就像Word软件，可以把一个装着XML和图片等文件的“压缩包”，显示为一篇文档；

浏览器，则是把HTML、CSS、JS、JSON和图像等文件，显示为可浏览的页面。

简单看下浏览器的工作流程：

首先，浏览器根据我们给出的网址，发出网络请求，获取网址背后对应的资源文件。
其次，内核根据文件内容进行渲染，JS模块负责执行脚本，在屏幕上输出可视的页面。
最后，我们通过和页面上元素的交互，“通知”浏览器发出进一步的数据请求。

对于获取数据而言，我们不必太关心浏览器内核渲染页面的过程。

结构化的数据主要包含在HTML和JSON这两类文本文件中。

二进制文件，如图片、音视频等，其访问地址都会包含在以上两类文本文件中。

处理互联网数据的关键，是获取结构化文本，并从中提取所需内容。

通过访问地址从网络端获取HTML或JSON文件
从文件中解析出所需的文本内容，或其他文件访问地址
继续第1步操作。

这也就是“爬虫”的基本工作原理。

网络文件下载

和自动办公系列相比，处理文件多了一步，那就是得先从网上下载文件。

网络分很多层，互联网属于应用层，用HTTP协议规定了客户端和服务器间的通信格式。

浏览器就是一种客户端，服务器就是网页和文件存放的地方。

当我们输入某个网址按下回车：

首先，浏览器会通过网络模块帮我们找到那台服务器。
接着，它会向服务器发出HTTP格式请求，比如GET /index.html。
然后，服务器会按约定的HTTP格式响应，返回数据。
最后，浏览器按内部流程开始渲染，等待我们下一个操作指令。

最常用HTTP请求动作就2个：

GET：用来下载数据，比如页面、各类文件等。
POST：用来上传数据，比如表单、文件等。

Python用于处理HTTP协议的模块中，requests门槛最低，简单易用。

比如用它来获取头条的首页：

import requests
r = requests.get('https://www.toutiao.com/')
print(r.content)

只不过，打印出来的内容没有经过排版，看起来比较乱。

当然，我们也可以用它上传数据，比如上传图片：

import time
import pathlib
import requests
path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
img_path = path.joinpath('tifa.jpg')
url = 'https://zh-cn.imgbb.com/json'
data = {
     
    'type': 'file',
    'action': 'upload',
    'timestamp': int(time.time()*1000),
}
files = [('source', (img_path.stem, open(img_path, 'rb')))]
r = requests.post(url, data=data, files=files)
j = r.json()
url = j['image']['url']
print(url)

POST操作中需要指定提交的数据，那么应该提交哪些数据呢？

在用requests模块自动执行上传操作前，我们可以借助浏览器观察所需要的所有参数。

这里只是用公开的图床服务演示，所以在权限校验等方面比较宽松，正常情况下需要在请求头部中设定使用的账户信息等内容。

解析HTML文件

拿到HTML文件后，想要提取其中的内容，我们就得解析文件。

HTML是一种标签格式的文本文件，属于一种特殊应用的XML文件。

比如：

它本质上还是个文本文件，所以直接用之前打开文本文件的方式也能处理。

但如果想要提取其中的数据，每次都得用字符串匹配标签，再获取数据。

好在，这些基础工作已经有人更好地完成了，我们只需要使用对应的模块即可。

Python中常用语处理HTML的模块主要有2个：

lxml：用于处理XML文档结构，解析成树型数据结构。
beautifulsoup4：提供操作HTML文档的简易Python接口。

两者定位不同，前者侧重文档解析，速度快；后者是数据访问接口接口易用，底层基于其他模块解析文档，如lxml、Python标准库里的HTML解析模块html.parser。

模块安装：

pip install lxml
pip install beautifulsoup4

lxml基本使用

import pathlib
from lxml import etree

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
html_path = path.joinpath('test.html')
# 使用HTML方法从字符串中解析HTML
with open(html_path, 'r') as f:
    root = etree.HTML(f.read())
# 使用parse方法从某个文件中解析HTML
# root = etree.parse(str(html_path))
print(root.xpath('//a/text()')) # 所有a元素文本
print(root.xpath('//a/@href')) # 所有a元素链接
# 根据属性查找元素
print(root.xpath('//div[@class="article"]/a/text()'))
# 模糊匹配
print(root.xpath('//div[contains(@class,"article")]/a/@href'))
print(root.xpath('//div[starts-with(@class, "art")]/a/@href'))

lxml模块支持用xpath语法查找数据：

/表示根节点
//a表示匹配所有a元素
//a/text()表示选取所有a元素的文本数据
@表示选取元素的属性
//div[@class="article"]表示所有class属性为article的div元素

xpath也支持更复杂的匹配方式，刚开始只需掌握最基本的使用，就足够应付80%常见情况。

如果不熟悉xpath语法，也没关系，我们可以借助Chrome浏览器获取。

打开浏览器的调试模式，点击选取元素的小箭头（图中红色圆圈标记）
点击页面上所需内容所在位置，会出现元素对应代码
右击代码，选择“复制”->“复制xpath”，即可获取到元素对应的xpath值。

当然，lxml模块也支持Python语法查询数据，但没有xpath简洁，更适合逐个遍历元素。

import pathlib
from lxml import etree

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
html_path = path.joinpath('test.html')
root = etree.parse(str(html_path)).getroot()
print(root.tag) # 根元素标签名
head, body = root.getchildren() # 获取root之下的元素
for div in body:
    if div.tag == 'div': # 根据tag判断元素标签
        links = div.findall('a') # 获取div元素下所有a子元素
        for link in links:
            # text获取元素内容，attrib获取属性
            print(link.text, link.attrib['href'])
# 纯粹遍历文档所有元素
for ele in root.iter('*'):
    print(ele.tag)

beautifulsoup4基本使用

相比lxml，beautifulsoup4提供的Python接口更丰富，也更易用。

import pathlib
from bs4 import BeautifulSoup

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
html_path = path.joinpath('test.html')

with open(html_path, 'r') as f:
    # 用Python内置标准库解析文档
    soup = BeautifulSoup(f.read(), 'html.parser')
    # 用lxml解析文档
    # soup = BeautifulSoup(f.read(), 'lxml')
# 支持点操作访问元素
print(soup.html.name)
# 等价于
print(soup.find('html').name)
# 也等价于
print(soup.find_all('html')[0].name)
print(soup.title.text)
# 获取所有链接元素
links = soup.find_all('a')
for link in links:
    print(link.text, link.attrs['href'])
    # 也支持get方法获取属性
    # print(link.get('href'))
# 用属性查找元素
div = soup.find('div', class_='article')
# 支持[]获取属性值
print(div.a.text, div.a['href'])
# 遍历子元素
for div in soup.body.children:
    if div.name == 'div':
        print(div.get_text())

可以看到，它通过重写__getattr__方法，提供了点操作符方便元素查找。

同时也提供了支持按属性查找元素的find方法，比lxml中的find方法更易用。

在选择lxml还是beautifulsoup时，可以根据个人习惯，但个人比较推荐用lxml的xpath语法获取元素，这种方式更简洁。

浏览器上的xpath插件

此外，如果是Chrome系浏览器，可以安装xpath_helper插件，可以方便在单个页面中根据xpath语法批量获取数据。

举个例子，如何可以把自动办公系列中所有文章及其链接都保存到Excel中？

找到元素并复制其xpath值，开启xpath_helper插件。
把xpath值贴入其中，并删除li元素后的具体索引值。
复制结果到Excel第一列，在xpath值后增加/@href，获取文章链接。
复制结果到Excel第二列，就获得了所有文章及其链接。

这个方法适用于所有单个网页上批量获取元素的情况，简单实用。

用Python自动获取文章并保存文件

结合requests和lxml模块，我们可以很方便获取页面数据，并保存如csv等文件。

import csv
import pathlib
import requests
from lxml import etree

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
csv_path = path.joinpath('002dataget_csv.csv')
url = 'https://mp.weixin.qq.com/s/JFEASRL17bnr6fRJfezixA'
r = requests.get(url)
root = etree.HTML(r.content)
# 获取所有文章链接
# 根据浏览器中获取xpath修改
link_list = root.xpath('//*[@id="js_content"]/ol[2]//a')
# 获取文章标题和URL
articles = [(link.xpath('.//text()')[0], link.get('href')) for link in link_list]
# 写入csv文件
with open(csv_path, 'w') as f:
    csv_f = csv.writer(f)
    # 添加表头
    csv_f.writerow(('标题', '链接'))
    csv_f.writerows(articles)

这样就完成了从获取页面内容，到抽取所需信息，再保存到本地文件的自动流程。

如果需要从多个页面获取数据，需要先识别页面数据间相同的定位特征，比如微信公众号正文内容都在//*[@id="js_content"]范围之内，然后通过循环方式处理页面即可。

解析JSON文件

目前互联网上有不少应用都通过JSON格式传送数据，尤其是移动端应用。

之前也介绍过用Python的json标准库来解析此类数据。

import pathlib
import json
path = list(pathlib.Path.cwd().parents)[1].joinpath('data/dataproc/002dataget')
json_path = path.joinpath('test.json')
with open(json_path, 'r') as f:
    data = json.loads(f.read())
print(data['data'])

一般JSON格式的数据请求都是异步的，在浏览器调试模式中属于XHR类数据，可以打开预览。

requests模块为返回的数据提供了JSON格式转换的方法。

import requests
HEADERS = {
     
    'User-Agent': 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135'
}
url = 'https://www.toutiao.com/api/pc/feed/'

# 头条会检测浏览器类型
r = requests.get(url, headers=HEADERS)
# 用Response对象的json方法获取JSON数据
j = r.json()
data = j['data']
article_list = [ (d['title'], f'https://www.toutiao.com{d["source_url"]}') for d in data]
print(article_list)

有两个注意点：

不少网站都对数据访问有限制，比如这里是最基本的浏览器特征。
只有当返回的数据是JSON格式时，调用json方法才有效，否则会提示错误。

爬虫工程

爬虫，可以大幅提高数据获取效率；而数据拥有方，会设法拦截爬虫类操作。

爬虫和反爬虫，是一对围绕数据获取的技术较量。

反爬虫措施一般都以限制访问为主，但首先得准确识别出恶意爬虫。

比如，常见的反爬虫措施：

识别浏览器特征，如User-Agent、是否开启窗口等；
分析爬虫行为，如访问频率、访问来源、账号归属等；
跟踪识别账号，如cookie、token、请求签名等；
随机码验证，如要求人工输入随机码，判定真人操作。

比如在上面“获取头条PC推荐数据”案例中，除非指定User-Agent，否则无法获取数据。

原因是对方服务器会检查User-Agent这个头部参数，判断是否用了“正常”浏览器。

在用requests模块发出HTTP请求时，如果不单独指定头部信息，它就会用python-requests/2.24.0作为默认的User-Agent。

可以用下面代码来验证：

import requests
HEADERS = {
     
    'User-Agent': 'Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135'
}
sess = requests.Session()
# 显示requests默认UA
print(sess.headers)
# 不指定UA访问
r = requests.get('https://www.toutiao.com/api/pc/feed/')
print(r.content)
# 指定UA为浏览器所用UA
r = requests.get('https://www.toutiao.com/api/pc/feed/', headers=HEADERS)
print(r.content)

很明显，对方服务器会拦截python-requests/2.24.0这类UA；但当我们把请求“模拟”成浏览器发出时，就可以正常获取到数据了。

HTTP头部信息参数，是服务方权限校验和反爬虫的常用信息，比如User-Agent、cookie、referer等。

我们可以通过浏览器调试模式查看到每个请求对应的头部信息：

实战时，如果浏览器访问正常，而程序无法访问，可以对照浏览器修改头部信息，用排除法去检查各个参数的影响。能做到这一点，就足够应付大部分普通网站。

对于背后有大型技术团队的平台，反爬虫措施会相对复杂；如果涉及到数据上传，检查会更严格。

总结

本文重点介绍了如何用Python从互联网获取数据和解析数据。

实战中，大部分网站数据的自动获取并不复杂，结合Python基本循环和文件读写，能大幅提高效率。

但对于一些大型平台，则需要研究测试，这部分工作量占整体爬虫的90%以上。

关于爬虫，还必须要说明的是：有2条非常明确的红线不能突破！

非法获取个人信息、商业秘密与国家秘密的行为。
大规模使用爬虫，导致网站服务受影响。

扫码加入学习群，前100名免费。

活动报名系统源码:JAVA同城服务系统活动报名同城圈子商家商城城市代理躲猫猫狂团商城小师妹博纳miui52086 java 人工智能大数据微信公众平台微信小程序
JAVA同城服务系统：打造多元化社交与娱乐新体验在数字化时代，同城服务系统已成为连接城市生活的重要桥梁。我们精心打造的JAVA同城服务系统，不仅融合了活动报名、同城圈子、商家商城、城市代理等多重功能，还特别加入了创新的“躲猫猫”游戏模块，旨在为用户提供一个集社交、娱乐、消费于一体的综合性平台。以下是对该系统功能的详细介绍及技术栈分析。功能介绍活动报名用户可以通过系统轻松浏览并参与同城各类精彩活动，
同步&异步日志系统-日志落地模块的实现 2401_82609762 c++git vim
功能：将格式化完成后的日志消息字符串，输出到指定的位置扩展：支持同时将日志落地到不同的位置位置分类：1.标准输出2.指定文件（时候进行日志分析）3.滚动文件（文件按照时间/大小进行滚动切换）扩展：支持落地方向的扩展用户可以自己编写一个新的落地模块，将日志进行其他方向的落地。实现思想1.抽象出一个落地基类2.之后根据落地方向从基类派生出不同落地方向的子类3.使用工厂模式进行创建与表示分离标准输出cl
国内那么多的低代码平台，究竟哪家比较强？有颜有货低代码平台低代码低代码低代码平台
国内低代码平台哪家强？本人摸索低代码5年多，体验过几十家低代码平台，下面通过2张功能对比图，3K字内容详细告诉你：国内低代码到底哪家强。如果你觉得我的分析对你有一定帮助，还请点赞收藏支持一下，争取能让更多人看到并帮助需要的人。话不多说，先上图。国内主流低代码产品功能对比。（图二在回答末尾）一、织信Informat（企业级低代码平台）功能清单驱动方式：模型驱动字段支持：35种字段，同时支持通过js脚
探索A10技术的应用与未来发展潜力智能计算研究中心其他
内容概要A10技术是一项正在逐步成熟并对多个行业产生深远影响的前沿技术。其发展历程可以追溯到早期的研发阶段，至今已经经过了多次技术迭代与升级。以下是对A10技术核心应用和优势的概述，通过这些内容可以帮助读者更好地理解其用途：应用领域具体应用主要优势信息技术数据处理与分析提高数据处理效率制造业自动化与智能生产降低生产成本医疗行业远程监控与智能诊断提升医疗服务质量交通运输智能交通系统优化交通流量环保领
“傻瓜”学计量——主成分分析法PCA（原理+实操） nn坚持学stata+matlab 计量算法机器学习人工智能学习笔记学习方法经验分享
提纲：1.PCA原理2.视频推荐：PCA原理spass操作stata操作+matlab实操1.背景在一些领域中，需要对大量数据进行观测。但是可能会带来变量之间具有相关性、分别对每个指标分析带来的偏误等问题。因此，要寻找一个合理的方法，在减少需要分析的直白的同时，尽量减少原指标包含的信息缺失。通常做法是对有关联性的变量进行合并，这样就可以用较少的综合指标分别代表存在于各个变量中的各类信息。常用的方法
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
基于立创·天空星开发板-GD32F407VET6-青春版，开发一款手持热成像仪。该设备将采集热红外传感器的数据，经过处理后在LCD屏幕上显示热图像，并提供用户交互界面。嵌入式程序员小刘物联网单片机嵌入式硬件开源
本项目基于立创·天空星开发板-GD32F407VET6-青春版，开发一款手持热成像仪。该设备将采集热红外传感器的数据，经过处理后在LCD屏幕上显示热图像，并提供用户交互界面。关注微信公众号，提前获取相关推文一、需求分析核心功能:热图像采集:读取热红外传感器数据。图像处理:将原始传感器数据转换为可显示的彩色或灰度热图像。图像显示:在LCD屏幕上实时显示热图像。温度测量:计算并显示图像中特定点的温度值
OpenMetadata MySQL 数据库使用率提取管道实现解析 10年JAVA大数据技术研究者数据治理数据库 mysql openmetadata 源码分析
目录架构概述核心组件源码分析使用率指标定义数据提取流程图源码类图配置与扩展指南架构概述OpenMetadata通过可插拔的元数据摄取框架实现对MySQL使用率数据的采集，核心流程包含三个阶段：数据采集层：从MySQLperformance_schema和sysschema获取原始指标指标处理层：将原始数据转换为统一的使用率指标模型数据存储层：将处理后的指标持久化到OpenMetadata服务核心组
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
【系统架构设计师】论文：论信息系统的安全体系数据知道系统架构安全系统架构设计师软考高级论文架构
论文：论信息系统的安全体系文章目录摘要正文总结摘要2023年2月，我参加了某水库管理信息系统项目的实施。通过系统的实施和运行，实现防汛、供水、发电、闸门监控、水文等各种数据的采集、分析、存储，并通过网络及时地向有关部门汇报，以便相关领导进行调度指挥，为领导决策提供大力支持，为业务人员办公提供服务。系统的应用将有效提高某市政府水库管理所的工作效率。我作为该项目的项目负责人，主要负责项目管理，同时负责
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
淘宝/天猫店铺订单数据导出、销售报表设计与数据分析指南不会玩技术的技术girl API 数据分析人工智能数据库
在电商运营中，订单数据是店铺运营的核心资产之一。通过对订单数据的导出、整理和分析，商家可以更好地了解销售情况、优化运营策略、提升客户满意度，并制定科学的业务决策。本文将详细介绍淘宝/天猫店铺订单数据的导出方法、销售报表的设计思路以及数据分析的实用技巧，帮助电商从业者高效管理店铺数据。一、订单数据导出（一）手动导出订单数据淘宝和天猫平台提供了手动导出订单的功能，适用于数据量较小或临时性需求的场景。商
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
安心联车辆管理系统在汽车金融领域的应用安心联-车辆监控管理系统汽车金融人工智能
安心联车辆管理系统在汽车金融领域的应用主要体现在通过智能化监控与数据分析技术，提升金融风控能力、优化资产管理和降低运营风险。以下从核心功能、技术赋能和实际场景三个方面展开分析：一、核心功能适配金融场景车辆资产动态监控实时定位与电子围栏：系统基于北斗/GPS双模定位技术，可实时追踪车辆位置，并设置电子围栏限制车辆行驶区域。若车辆驶出授权范围（如贷款合同约定的使用区域），系统立即触发报警并留存轨迹证据
市面上采用多进程架构的游戏或游戏引擎的案例深入分析你一身傲骨怎能输软件架构设计架构游戏游戏引擎
《绝地求生》（PUBG）《绝地求生》（PUBG）是一款采用多进程架构的游戏，这种设计帮助它在处理复杂的游戏逻辑和网络通信时提高了性能和稳定性。以下是一些关于《绝地求生》如何利用多进程架构的具体细节：多进程架构的优势性能优化：多进程架构允许游戏将不同的任务分配到多个处理器核心上运行，这样可以充分利用现代多核CPU的计算能力。例如，游戏的物理计算、AI逻辑、渲染和网络通信可以在不同的进程中并行处理，从
清华大学第四发《DeepSeek+DeepResearch 让科研像聊天一样简单》人工智能
当下科研领域，传统模式急需改变，清华大学第四版《DeepSeek+DeepResearch：让科研像聊天一样简单》全文一共86页，以下是文档的关键内容总结：一、智能组合优势DeepSeek与DeepResearch构建先进技术体系，有强大模型运算、智能数据处理和友好交互界面。模型在数据处理速度、精准度和泛化能力上远超传统模型。数据采集渠道广、处理快，能读取多种格式文件。数据分析深入，可视化直观，还
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
HarmonyOS Next智能家居控制系统的模型转换与数据处理实战 harmonyos
本文旨在深入探讨基于华为鸿蒙HarmonyOSNext系统（截止目前API12）构建智能家居控制系统中模型转换与数据处理技术的实战应用，基于实际开发经验进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、智能家居系统需求与技术选型（一）功能需求分析设备状态监测需求智能家居控制系统需要实时监测各种智能设
2025基金公司私有化部署趋势分析：技术自主权的崛起
标题：基金公司私有化部署：数据主权时代的战略选择与实战指南副标题：从DeepSeek到板栗看板，解密金融巨头如何用私有化部署重塑竞争力【热点引入：一场无声的金融科技革命】2025年2月，、十余家公募基金密集宣布完成DeepSeek大模型的私有化部署，这一现象登上财经热搜榜首。据不完全统计，超60%的头部基金公司已启动私有化部署计划，涉及投研、风控、客户服务等核心场景。这场革命背后的驱动力，正是金融
HarmonyOS Next数据处理与模型训练优化 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中数据处理与模型训练优化相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、数据处理对模型训练的重要性（一）关键作用强调在HarmonyOSNext的模型训练世界里，数据就如同建筑的基石，而数据处
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
管理升级的关键：2024年6大国内项目管理平台实测与选择指南（禅道、钉钉、云效、简道云、Tapd、Teambition）
以下是一篇满足您要求的博客稿件：引言在当今快节奏的商业环境中，项目管理的重要性不言而喻。一款优秀的项目管理工具能够助力团队提高效率、优化流程，从而实现项目的成功交付。2024年，国内有众多项目管理平台可供选择，本文将对禅道、TAPD、云效、简道云、钉钉、Teambition这6大国内项目管理平台进行实测与分析，为您提供选择指南，帮助您找到最适合团队的项目管理工具。项目管理工具介绍禅道：开源且专业，
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
CSS中五种定位方式（position）对比分析七公子77 css css 前端
在CSS中，定位方式（position）决定了元素如何相对于其参照物进行定位，同时影响文档流的布局。以下是五种定位方式的对比、参照物说明及代码示例：1.position:static（默认定位）参照物：无，元素位于默认文档流中。文档流：元素按照HTML顺序自然排列。特点：top、right、bottom、left和z-index属性无效。示例：Box1Box2.box{width:100px;he
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
智能化工作流：探索顶尖工作流管理软件的核心优势团队协作工具
工作流管理软件是一种用于规划、执行和监控业务流程的软件应用程序。以下是关于工作流管理软件的详细介绍：一、定义与功能工作流管理软件旨在帮助团队和企业优化工作流程，提高工作效率。它通常包括任务分配、进度追踪、团队协作、自动化流程、数据分析等功能。通过这类软件，企业可以更好地管理内部流程，确保任务的顺利进行，并实时监控项目的进展情况。二、主要软件推荐板栗看板：可视化管理与团队协作的利器核心功能：板栗看板
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
数据挖掘十大经典算法详解（附原理解析与代码示例） IT程序媛-桃子华为认证数据挖掘算法经验分享华为
1.PageRank（链接分析）应用场景：搜索引擎排名、社交网络分析核心原理PageRank通过网页之间的链接关系计算网页的重要性，影响力大的网页排名更高。网页影响力=所有入链页面的加权影响力之和阻尼因子D（通常设为0.85）用于模拟用户随机访问网页的行为代码示例importnetworkxasnxG=nx.DiGraph()G.add_edges_from([("A","B"),("A","C"
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p