weixin_55502898

【2022】小伙用爬虫整理了自己十年的动态（爬虫保姆级教程）

前言

中学时期，自己就已经是一名合格的网民，有事没事都会发说说，还会拉着同学朋友帮忙点赞。近期寒假，自己点开空间想回忆过往“青春”…

无奈1页只能显示20条数据，自己看完就必须要点击下一页才能继续接着看，太麻烦！嗯？用爬虫能试试吗，咱说干就干。

关于爬虫的那些事

什么是爬虫？
百度百科定义：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
如果百度说的太高大上，大家有看不大明白的地方的话，我按我的理解翻译一下：爬虫可以模拟用户的浏览行为，向对方的服务器发送请求，并接收服务器返回的相应信息（可以简单理解为HTML代码），只是爬虫没有把返回的信息同浏览器一样渲染出来。所以我们可以把浏览器当作成一个高效地、可以按我们想法操作的特殊浏览器来使用。
爬虫违法吗？
技术是不违法的，但使用爬虫技术有如下行为都是违法：
(1)爬虫爬取涉及个人隐私的东西。
例如：如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。
(2)因为爬虫造成对方服务器瘫痪，违法。
(3)爬虫非法获利。
例如：你用爬虫把CSDN里的教程资料爬取一大部分复制到你的网站里边，并把你爬取到的教程打包拿出去售卖，毫无疑问，违法了。

爬虫第一步（分析网页，确定爬取思路）

学会分析网页是做网络爬虫的第一步，自己之前在学习爬虫时看了很多博主说什么有万能的爬取方法，所谓的万能方法都是luan的，因为只有自己学会如何分析网页、了解了其爬虫的方法、原理、解析数据的技术，爬取自己想要的数据时才会如鱼得水。在这里推荐使用谷歌浏览器，原因嘛，很简单，分析网络时谷歌浏览器的开发者工具使用起来简单快捷而且高效。这里自己就用谷歌浏览器做一下示范吧。

进入空间-我的说说
在网页加载完毕之后,打开开发者工具（F12），或者在页面点击鼠标右键-检查。
选择开发者工具里的Network进行抓包。
这个抓包工具是什么呢？为什么要抓包？

我们在浏览空间页面时，有时候会发现自己在向下滑动页面的时候，自己信息会慢慢加载出来，但自己的页面却没有刷新跳转，这个时候就要怀疑网页是不是使用了动态刷新（AJAX），如果使用了网页使用了动态刷新使用普通的get，post方法访问网址（url）时是无法成功爬取的。
抓包工具可以把浏览器发送的所有请求的记录以及把服务器返回的所有信息都截取下来，我们分析浏览器发送的请求和响应数据就可以“对症下药”！
打开抓包工具后再次刷新页面。

241个请求也不能一个一个的点开看，使用搜索功能进行搜索，安排ctrl+F可以打开全局搜索功能，搜索的内容就属入一条自己的页面上能看见的动态文案，例如我这里就输入：“每一段都很温暖，”

令人欣喜的是能够搜索到有记录（有些网站会把信息加密，不会让用户直接搜索出来，这里直接一搜就出结果了少了不少的事情，欣喜）。
我们点击这一条搜索出来的信息，查看详情信息。

**通常我们在详情信息里会查看或者使用前4个功能。
点击第一个：Headers。

点击第二个。

点击第三个。

我们通常在Preview里边查看Json数据。
我看此刻可以找找，看自己的说说文案被“藏”到了什么地方？

Nice！在json数据的mesglist里可以找到文案，但看到信息长度只有20条。为什么是20条呢？

难道是最开始传值传的20影响的吗？还好这个访问的方式是GET我们可以在浏览器里直接访问地址更改我们我的值。

把这里的20改成21,再试试访问。

访问成功，果然我们接收到的数据条数跟之前发送的数量有关，此时我们又观察到Json数据里边有一项数据total：2459，猜一猜有可能是我空间说说的总条数。后来在空间主页面确实也证实了我们这一猜想。
既然我们有能力改变取值的数量，我们直接把num改为2459不就把全部数据截取到了吗？这是一个好的办法，我们再试一试
把num改为2459后：

截取到的信息数目降到了10。
看来后台可能做了判断处理，当这个数值在大于了某个数值以后就默认改为10条返回。不过还好，经过几轮的测试，最终发现这个数值为40，一次性最多可以获取40条数据。那么我们只需要多重复执行几次程序爬取就好啦。

既然要多次获取数据，那总要判断数据获取到哪儿了，获取数据也应该会有一个区间，
再看看传过去的数值，sort和pos都比较可疑，试一试。可以得到结果，pos可以返回包括该数值之后的包括它本身的num条信息。

我们的爬取思路基本确定下来了，我们可以把爬取到的信息放入词云分析，或者生成excel文件查看！

爬虫第二步（爬取数据）

为了更容易成功的获取数据，我们要设置一下爬虫的headers。
我们暂时把获取的数据打印显示出来就可以了。

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
    'Cookie': '复制你的cookie',

}

headers里边只设置U-A和Cookie就好，这两项数据均可以在自己的浏览器里找到。

有些小伙伴就要问啦，为什么要设置headers呢？直接用request.get/post不好吗？
我们根据字面意思，可以把headers理解成为一个头部信息，我们的浏览器在访问目标服务器时会携带头部信息，所携带的信息都在上方的图片中，我们这里只截取了其中的User-Agent和Cookie*两个数据作为头信息。*
User-Agent这个参数会告诉目标服务器我用的是什么浏览器在访问你，比如这里我就告诉它了我使用的是谷歌浏览器，不同浏览器的User-Agent都是不一样的，大家可以使用不同浏览器去访问同一个页面，看看User-Agent有什么不一样。
有些网页有反爬措施，比如它识别到有一个不是浏览器的“东西”在向我发出请求要访问我，我就会把他拒绝掉来达到反爬的目的。那么我在这里给我的爬虫穿上了一件浏览器的“外衣”，服务器就会把我当作成正常的浏览器。这个操作我们可以称为UA伪装，这也是最基础的反反爬措施之一。
Cookie：
先来简单说说这东西是啥？不用cookie行不行？
我们先来想象一下这样一个场景：你开了一家奶茶店，这家奶茶店只为你的会员服务，要想喝到你们家的奶茶就必须注册你家的会员，那么问题来了。顾客在我这里办理了会员我是不是要登记一下呀，如果我的会员越来越多我只凭脑子记也容易忘掉，那我就用本子把顾客的电话号码记一下吧，顾客来消费时先说自己的电话号码，如果我的本子上有它的电话，那就说明是我家的会员；随着我的会员人数越来越多，每次来我都要查号码，那我就再升级一下，我给我的会员定制一张卡片，卡片上的信息跟我本子上的信息基本相同，以后顾客只需要出示我给的卡片，我就知道它是我的会员，可以卖奶茶给它。
一般谈Cookie都会涉及到另一个名词——Session。
session就好像是上个场景中我手中的本子，Cookie就好比我给到顾客手中卡片。session是保存在服务端的数据信息，这些信息大多跟用户有关系，Cookie是服务器返回在浏览器里的信息，可以把它当作成为一把钥匙，session当作成一把锁。当我们的钥匙能打开对应的锁时，才会有访问的权限。当一个我们爬取的网站涉及到有登陆操作才会有访问权限时就要考虑使用cookie。

我们在headers里直接加入Cookie信息就好比如将我们把浏览器的钥匙复制了一把给了爬虫，让爬虫去解锁服务器的锁，而在基础的爬虫里不用加入Cookie信息，例如爬取百度百科信息不用加。因为百度并没有验证我的用户身份，并没有要求我必须登陆账号才能搜索，所以我可以不用加。但这里访问的是自己的空间，TX公司有必须登陆才能访问的验证操作，所以要加Cookie信息。但如果一定要问有没有不加Cookie还能够获取到数据的方法，答案肯定是有的，可以考虑使用selenium(处理动态加载信息一流工具，爬虫的万精油，但缺点就是获取数据的速度较慢)

- 开始爬取

import requests
start=0
url = f'https://user.qzone.xx.com/proxy/domain/taotao.xx.com/cgi-bin/emotion_cgi_msglist_v6?uin=000000000&ftype=0&sort=0&pos={start}&num=40&replynum=100&g_tk=273268310&callback=_preloadCallback&code_version=1&format=jsonp&need_private_comment=1&g_tk=273268310'
res = requests.get(url=url, headers=headers)
res.encoding = 'utf-8'
html = res.text

使用爬虫的基本方式是用request库里的get或者post方法，访问一个页面到底是使用post还是get我们可以参考浏览器访问服务器的方式。因为这里浏览器采用的是Get方式访问的服务器，那我们也使用get方式。
requests.get(url,headers)方法：
url:这里的参数填写要访问的目标网址，建议填写时从浏览器复制，避免输入错误。例如我们要爬取百度的首页，我们的url就可以写成"https://www.baidu.com"
headers:就是设置爬虫的头部信息，上面我们讲了为什么要设置，这里就不再赘述。
在执行了get方法之后会生成一个对象，我们暂且把这个对象赋值命名为res
3.网页编码规则
因为互联网这个“网”非常的大，不同的网页可能会采用不同的编码方式，我们之前看到了浏览器返回的信息中告诉了我们编码方式是‘utf-8’，所以我们这里把编码方式手动设定成为‘utf-8’，保证自己的编码方式跟服务器的相同才能保证拿到“看得懂”的数据。
4.获取网页信息
前面我们已经设置了要访问的地址以及头部信息，也告诉爬虫了我们的编码方式，那么下一步我们就要获取服务器返回的数据了。那么我们应该用什么方式来获取呢？在这里我介绍text和json这两种最常见的方法，这两种方法基本可以获取市面上98%的网页数据。
.text方法
返回页面的原HTML代码，使用率（80%），从前面我们看到服务器响应回来的信息格式是html，那么我们就使用text接收。
.json方法
返回页面的数据类型是json，使用率（20%），json是一种轻量级的数据格式。随着前后端分离技术的发展，json格式越来越受欢迎。当我们提取到的数据类型是Json时，我们就要提高“警惕”,因为返回类型时json格式时往往前端采用了AJAX动态刷新技术，使我们的爬取过程更为复杂。不过也有好处，动态加载出来的网页信息基本上就是我们想要的信息，换而言之，我们想要的数据就是Json数据里，我们只用解析Json数据就可以获取信息。

获取到的页面信息如下：

不方便查看我们可以去浏览器看看格式。

注意：我们此刻爬取到的信息还不能直接解析
为啥不能解析呢？因为我们拿到的字符串格式的数据，python还没有办法像字典那样读取信息。那我拿着一堆字符串干嘛，我要自己一点一点的去里边复制粘贴吗？当然不是，我们一般解析网页数据的方式有三种：1、xpath解析 2、re正则表达式 3.beautifulSoup，但第1和第3种方法是解析html标签时用的方法，对于json格式的字符串玩意还真搞不定。那正则表达式试试？
我又看了一下解析的数据，算了，评论区的大佬用正则试试吧（），我在这里使用另一种方法（字符串转字典格式）。
我们需要引入json库，使用json库中的loads方法，此方法可以把字符串解析为字典格式，使用方式也很简单，只需要把str数据直接传入里边就可以了，赶紧试试。

import json
myjson = json.loads(html)

恩？报错？我们看看原因，原来是我们传入的Json格式错了，我们把html打印出来看看，找找原因。
果然有错，数据的头部和尾部多了点多余的信息，我们要保证传入的字符串格式要和字典的格式是一样的，那么必须要把多余的东西给去掉，最高端的操作往往采用最朴素的方式——切片处理一下。

myjson = json.loads(html[17:-2])

重新执行一下，没有报错，说明转字典成功。那么接下来就更好办了，直接在字典里边取我们想取出来的数据。方便查看数据结构，我们可以在浏览器的开发者工具里查看。

可以看出，所有的说说内容都在“msglist”中，而其中又有20个列表，每个列表中的“”代表内容，“”代表所发布的时间，在这里我只选择内容和时间进行保存，有兴趣的伙伴可以试试把评论信息一块保存下来。直接上解析代码：

mydata=[]
for i in myjson['msglist']:
    mesage=[]
    parrent = "[em](.*?)[/em]"
    content = str(i['content']).replace(' ', '').replace('\n', '')
    qu = re.findall(parrent, content, re.S)
    if qu:
        for j in qu:
            if j != '':
                target = j
                content = content.replace(f'{target}', '').replace('[em]', '').replace('e/em]', '').replace(
                    '[/em]', '').replace(' ', '').replace('\n', '')
    createTime = i['createTime']
    mesage.append(content)
    mesage.append(createTime)
    mydata.append(mesage)
print(mydata)

打印结果：

爬虫第三部（数据存储）

我们目前已经成功拿到了数据，但每次都在控制台里查看信息显然不科学，我们需要把我们爬取到的数据永久化的存储到我们的电脑里，存储的方式也是可以按照用户的方式来选择，比如你可以选择把他存入为.txt文件、word文件、excle文件等等，因为这里的数据涉及到了分类（说说内容、发布时间）显然把他们保存成为excle文件更好查看一点。
我们此次使用csv包，也可以使用pandas生成xls文件，为了方便这里就用csv生成csv格式的文件。

import csv
title=['说说内容','发布时间']
with open('my.csv','w',encoding='utf-8-sig',newline='')as pf:
    writer = csv.writer(pf)
    writer.writerow(title)
    writer.writerows(mydata)

我们在涉及到IO操作的时候推荐使用With open的方式，因为此方式可以自动的申请资源和释放资源，避免了因为忘记释放掉资源而浪费资源。
在open中我们传入了4个参数：
·文件路径：这里我们就把他保存在跟python文件的同一个路径下，我们直接写上文件名即可，注意要加上文件后缀。
·打开方式：这里选择’w‘模式写入。
·编码方式：设置为’utf-8-sig‘
·newline=‘’ 设置此项可以不用换行将数据写入，大家可以试试要这句代码和不要这句代码有何区别。

结果展示

我们可以用词云来分析一下，10多年来自己动态的内容

全文代码

持续更新中。。。。。

在这里插入代码片

Python一次性批量下载网页内所有链接 Zhy_Tech python 前端开发语言
需要下载一个数据集，该数据集每一张图对应网页内一条链接，如下图所示。一开始尝试使用迅雷，但是迅雷一次性只能下载30条链接。采用Python成功实现一次性批量下载。importosimportrequestsfrombs4importBeautifulSoup#目标网页的URLurl="https://"#请将此处替换为实际的网页URL#指定下载文件的文件夹路径#使用原始字符串download_fo
法律 AcheflourLiu
法的概念1.法是一种行为规范【法规定了应为可为模式。】*考法:（1）法调整思想吗？（2）法是调整行为的唯一规范？2.法是由特定物质生活条件（经济基础）决定的。*考法:单选题（1）法由谁决定的？【经济基础】（2）法的最终决定因素是什么？【物质制约性】3.法是统治阶级意志的体现。理解:法是统治阶级实现统治的工具。*考法:单选题，会判断选项的说法是对还是错*（1）法体现（统治阶级）的意志。统治阶级是指（
初探贪心算法 -- 使用最少纸币组成指定金额是小V呀 C++贪心算法算法 c++python
python实现：#对于任意钱数，求最少张数n=int(input("money:"))#输入钱数bills=[100,50,20,10,5,2,1]#纸币面额种类total=0forbinbills:count=n//b#整除面额求用的纸币张数ifcount>0:print(f"{b}纸币张数{count}")n-=count*b#更新剩余金额total+=count#累加纸币数量print(f
Kubernetes 核心命令速查手册：运维与开发必备 liux3528 k8s kubernetes 运维容器
本文整理了Kubernetes集群运维的实用命令集锦，涵盖8大核心场景：1）集群基础信息查看；2）Pod生命周期管理；3）服务与网络配置；4）存储与配置管理；5）故障排查方法；6）性能监控优化；7）高级运维技巧；8）命令行效率工具。重点包括节点状态查询、Pod调试、日志分析、网络连通性测试、资源监控等高频操作，并提供了批量处理、安全审计、集群维护等进阶技巧。每个命令均标注适用场景，可作为K8s运维
荆门10家亲子鉴定机构地址查询（附2024年鉴定办理攻略）国医基因陈主任
荆门亲子鉴定中心地址在哪里？荆门亲子鉴定中心在荆门市象山大道67号（国医基因）。服务范围包含整个荆门及周边地区。正规的亲子鉴定中心实验室必须通过相关部门的认证，具备完整的实验室检验流程系统来确保测验结果的准确性，只有经过实验室认可，出具的鉴定报告才算是有效的。本文小编整理了2024年最新荆门亲子鉴定地址一览供大家参考。荆门国医基因亲子鉴定中心地址：荆门市象山大道67号荆门亲子鉴定中心大全1、国医基
贪心算法（基础算法） breeze_phantom 算法 c++贪心算法
1.引言ok啊，拖更这么长时间也是没有压力（doge）不说啥，直接进入正题。2.概念这个贪心算法呢，看名字就知道，不就是每个步骤都挑最好的嘛，有啥难的。这么说的话......其实确实，你如果真的能很快找出贪心策略那就可以这么说，但还是那句话，策略怎么找是个问题。讲这么多，还没讲一下定义（虽然不讲感觉也能猜出来）：贪心算法就是在特定问题中每一次计算都做出最好的选择，举个例子：本蒟蒻去商店买东西，这商
Day1学习心得||Leetcode704,27,977
Part1数组的一些注意点第一天学习的内容是数组，基础的内容就按下不表，浅记一下补上的漏洞1.数组的元素不能删除，只能覆盖乍一看可能比较奇怪，但是仔细思考一下很简单。关注一下数组的本质其实是内存上开辟的一串连续的内存空间。在程序中，只能将内存空间中存储的内容改写，而不能完全去除（即使动态数组也只是释放）。2.二维数组的空间地址依然是连续的（顺序比较像阅读的顺序）tip:虽然还没学过Java，但是先
零基础数据结构与算法——第五章：高级算法-贪心算法-基础&示例
5.2贪心算法（GreedyAlgorithm）5.2.1贪心算法的基本概念什么是贪心算法？贪心算法是一种在每一步选择中都采取当前状态下最好或最优的选择，从而希望导致结果是最好或最优的算法。生活例子：想象你在超市购物，手里有100元钱，想买尽可能多的零食。如果你采用贪心策略，你会怎么做？你可能会先选择最便宜的零食，然后是第二便宜的，以此类推，直到钱用完。这就是一种贪心策略——每次都选择当前看起来最
【Python】Gym 库：于开发和比较强化学习（Reinforcement Learning, RL）算法彬彬侠 Python基础 python Gym 强化学习 RL Gymnasium
Gym是Python中一个广泛使用的开源库，用于开发和比较强化学习（ReinforcementLearning,RL）算法。它最初由OpenAI开发，提供标准化的环境接口，允许开发者在各种任务（如游戏、机器人控制、模拟物理系统）中测试RL算法。Gym的设计简单且灵活，适合学术研究和工业应用。2022年，Gym被整合到Gymnasium（由FaramaFoundation维护）中，成为主流的强化学习
Python 虚拟环境完全指南 wsj__WSJ python python 开发语言
为何离不开虚拟环境？在Python开发领域，虚拟环境堪称管理项目依赖的不二利器，其重要性体现在多个关键层面：项目隔离独立运行环境构建：为每一个项目量身打造专属的Python运行环境，使各个项目之间相互隔离，互不干扰。化解依赖版本冲突：有效解决不同项目对同一依赖包的版本需求不一致的难题。例如，项目A基于Django3.2进行开发，而项目B需要Django4.0才能正常运作，通过虚拟环境，两者可并行不
一文快速了解.NET项目文件(.csproj) ，基础而重要的文件【代码之美系列】 Microi风闲【开源】NET Core 跨平台 .net c#
代码之美系列目录一、C#命名规则规范二、C#代码约定规范三、C#参数类型约束四、浅析B/S应用程序体系结构原则五、浅析C#Async和Await六、浅析ASP.NETCoreSignalR双工通信七、浅析ASP.NETCore和MongoDB创建WebAPI八、浅析ASP.NETWebUI框架RazorPages/MVC/WebAPI/Blazor九、如何使用MiniProfilerWebAPI分
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
力扣Leetcode热题100-二分查找解题思路分享花卷321 Leetcode 热门100 leetcode 职场和发展 java 开发语言
1.搜索插入位置题目如下：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。思路分析与最基本的二分查找算法类似，但是基础的二分查找在找不到值的时候一般情况下返回-1，找到的值返回索引，下面先展示最基本的二分查找的Java代码：publicstaticintbinarySearch(in
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
靠声音赚钱的六大方式，靠声音赚钱配音就业圈
在当今这个数字化与多媒体蓬勃发展的时代，声音作为一种独特而强大的媒介，正以前所未有的方式创造价值与财富。配音兼职接单推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种的配音任务，新手小白也可以接单。1、配音新手圈这是一个公众号配音新手圈里面每天更新配音任务(只要有手机就可以接单，对经验无要求)，都是适合没有基础的人去做的，每天都会发布新任务。适合新入门
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
【论文蒸馏】Recent Advances in Speech Language Models: A Survey Greener_Pat 论文蒸馏语言模型人工智能 AudioLM
AbstractLLM蓬勃发展，但从交互的自然性上看语音大模型(SpeechLM)有巨大的发展空间。直接的方法是ASR(语音转文字)+LLM+TTS(文字转语音)，但是这样有其固有的限制，而端到端的SpeechLM表现更好，本文及其方法论做了一个概览的综述1.Introduction大语言模型提供了强大的AI基础支架，在其它领域有着广泛应用。但交互上不自然，所以需要声学大模型。一种直接的实现方式是
上清剑道论 Yuner2000 现代哲学剑法养生
引言：剑道基础剑之本义：兵器、法器与载道之器道教剑法之流变：从兵戈之术至修真之途上清剑法之独契：内丹、符箓与剑术之融贯本书著述旨趣：阐明剑道真谛，指引修真路径第一篇剑道溯源：上清剑法之本宗与义理1.1.上清宗脉与剑法渊流考1.1.1.上清派道法体系概述：存思、炼神与内丹1.1.2.弦月剑法之名蕴：天象、易理与道法自然之契合1.1.3.剑法传承谱系：自魏华存夫人以降之隐秘流传1.1.4.剑仙之考辨：
Crawlee高阶用法：无代码配置实现动态网站爬虫程序员威哥爬虫 python scrapy tcp/ip 网络协议
爬虫开发一直以来都需要编写大量的代码，尤其是在抓取动态网站时，往往需要处理JavaScript渲染和分页等复杂的问题。然而，Crawlee（之前叫ApifySDK）作为一个现代化的爬虫框架，提供了更加高效和简便的方式，甚至可以通过无代码配置来快速抓取动态网站数据。在本篇文章中，我们将深入探讨如何使用Crawlee实现动态网站的爬虫，并展示如何通过简单的配置来完成爬虫任务，节省开发时间和精力。1.C
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Crash Course：10分钟心理学速成-【第13集】击倒波波 ado_l
链接：https://open.163.com/newview/movie/courseintro?newurl=%2Fspecial%2Fopencourse%2Fcrashcoursepsychology.html重点1、心理学家阿尔伯特·班杜拉实验：观看了女人殴打小丑“波波”的孩子更容易模仿对方的攻击性行为。挑战了那个年代一度处于统治地位的行为主义的观点，即学习仅仅是条件作用和联结建立，奖励
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
基于SVm和随机森林算法模型的中国黄金价格预测分析与研究 python编程狮支持向量机算法随机森林 python 机器学习人工智能
摘要本研究基于回归模型，运用支持向量机（SVM）、决策树和随机森林算法，对中国黄金价格进行预测分析。通过历史黄金价格数据的分析和特征工程，建立了相应的预测模型，并利用SVM、决策树和随机森林算法进行训练和预测。首先，通过对黄金价格时间序列数据的探索性分析，发现黄金价格存在一定的趋势和季节性变化。随后，进行了数据预处理和特征选择，为建立准确的预测模型奠定了基础。分别使用SVM、决策树和随机森林算法建
Linux日志-message日志 dessler Linux进阶 #Linux日志 linux 服务器 java
作者介绍：简历上没有一个精通的运维工程师。希望大家多多关注作者，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。Linux进阶部分又分了很多小的部分,我们刚讲完了Linux基础软件，下面是Linux日志。Linux系统中的日志是记录系统活动和事件的重要工具，它们可以帮助管理员监视系统状态、调查问题以及了解系统运行状况。主要涉及到系统日志，登录日志，定时任务日志，监控日志，崩溃日志，二进制
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/