残烛0一0照月

python网络爬虫学习笔记

### 爬虫的概念

- 爬虫是模拟浏览器发送请求，获取响应

### 爬虫的流程

- url--->发送请求，获取响应--->提取数据---》保存

- 发送请求，获取响应--->提取url

#### 爬虫要根据当前url地址对应的响应为准，当前url地址的elements的内容和url的响应不一样

### 页面上的数据在哪里

- 当前url地址对应的响应中

- 其他的url地址对应的响应中

- 比如ajax请求中

- js生成的

- 部分数据在响应中

- 全部通过js生成

### requests中解决编解码的方法

- response.content.decode()

- response.content.decode("gbk")

- response.text

### 判断请求否是成功

```python

assert response.status_code==200

```

### url编码

- `https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2`

### 字符串格式化的另一种方式

```python

"传{}智播客".format(1)

```

### 使用代理ip

- 准备一堆的ip地址，组成ip池，随机选择一个ip来时用

- 如何随机选择代理ip，让使用次数较少的ip地址有更大的可能性被用到

- {"ip":ip,"times":0}

- [{},{},{},{},{}],对这个ip的列表进行排序，按照使用次数进行排序

- 选择使用次数较少的10个ip，从中随机选择一个

- 检查ip的可用性

- 可以使用requests添加超时参数，判断ip地址的质量

- 在线代理ip质量检测的网站

### 携带cookie请求

- 携带一堆cookie进行请求，把cookie组成cookie池

### 使用requests提供的session类来请求登陆之后的网站的思路

- 实例化session

- 先使用session发送请求，登录对网站，把cookie保存在session中

- 再使用session请求登陆之后才能访问的网站，session能够自动的携带登录成功时保存在其中的cookie，进行请求

### 不发送post请求，使用cookie获取登录后的页面

- cookie过期时间很长的网站

- 在cookie过期之前能够拿到所有的数据，比较麻烦

- 配合其他程序一起使用，其他程序专门获取cookie，当前程序专门请求页面

### 字典推导式，列表推到是

```python

cookies="anonymid=j3jxk555-nrn0wh;_r01_=1;_ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; [email protected]; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"

cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}

```

```python

[self.url_temp.format(i * 50) for i in range(1000)]

```

### 获取登录后的页面的三种方式

- 实例化session，使用session发送post请求，在使用他获取登陆后的页面

- headers中添加cookie键，值为cookie字符串

- 在请求方法中添加cookies参数，接收字典形式的cookie。字典形式的cookie中的键是cookie的name对应的值，值是cookie的value对应的值

### 寻找登录的post地址

- 在form表单中寻找action对应的url地址

- post的数据是input标签中name的值作为键，真正的用户名密码作为值的字典，post的url地址就是action对应的url地址

- 抓包，寻找登录的url地址

- 勾选perserve log按钮，防止页面跳转找不到url

- 寻找post数据，确定参数

- 参数不会变，直接用，比如密码不是动态加密的时候

- 参数会变

- 参数在当前的响应中

- 通过js生成

### 定位想要的js

- 选择会触发js时间的按钮，点击event listener，找到js的位置

- 通过chrome中的search all file来搜索url中关键字

- 添加断点的方式来查看js的操作，通过python来进行同样的操作

### 安装第三方模块

retry在函数报错的情况下，实现重新执行函数的效果

- pip install retrying

- 下载源码解码，进入解压后的目录，```python setup.py install```

- `***.whl` 安装方法 `pip install ***.whl`

### json使用注意点

- json中的字符串都是双引号引起来的

- 如果不是双引号

- eval：能实现简单的字符串和python类型的转化

- replace：把单引号替换为双引号

- 往一个文件中写入多个json串，不再是一个json串，不能直接读取

- 一行写一个json串，按照行来读取

### 正则使用的注意点

- `re.findall("a(.*?)b","str")`,能够返回括号中的内容,括号前后的内容起到定位和过滤的效果

- 原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来的转义的效果

- 点号默认情况匹配不到`\n`

- `\s`能够匹配空白字符，不仅仅包含空格，还有`\t|\r\n`

### xpath学习重点

- 使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和elements不一样

- 获取文本

- `a/text()` 获取a下的文本

- `a//text()` 获取a下的所有标签的文本

- `//a[text()='下一页']` 选择文本为下一页三个字的a标签

- `@符号`

- `a/@href`

- `//ul[@id="detail-list"]`

- `//`

- 在xpath最前面表示从当前html中任意位置开始选择

- `li//a` 表示的是li下任何一个标签

### lxml使用注意点

- lxml能够修正HTML代码，但是可能会改错了

- 使用etree.tostring观察修改之后的html的样子，根据修改之后的html字符串写xpath

- lxml 能够接受bytes和str的字符串

- 提取页面数据的思路

- 先分组，渠道一个包含分组标签的列表

- 遍历，取其中每一组进行数据的提取，不会造成数据的对应错乱

### xpath的包含

- `//div[contains(@class,'i')]`

### 实现爬虫的套路

- 准备url

- 准备start_url

- url地址规律不明显，总数不确定

- 通过代码提取下一页的url

- xpath

- 寻找url地址，部分参数在当前的响应中（比如，当前页码数和总的页码数在当前的响应中）

- 准备url_list

- 页码总数明确

- url地址规律明显

- 发送请求，获取响应

- 添加随机的User-Agent,反反爬虫

- 添加随机的代理ip，反反爬虫

- 在对方判断出我们是爬虫之后，应该添加更多的headers字段，包括cookie

- cookie的处理可以使用session来解决

- 准备一堆能用的cookie，组成cookie池

- 如果不登录

- 准备刚开始能够成功请求对方网站的cookie，即接收对方网站设置在response的cookie

- 下一次请求的时候，使用之前的列表中的cookie来请求

- 如果登录

- 准备多个账号

- 使用程序获取每个账号的cookie

- 之后请求登录之后才能访问的网站随机的选择cookie

- 提取数据

- 确定数据的位置

- 如果数据在当前的url地址中

- 提取的是列表页的数据

- 直接请求列表页的url地址，不用进入详情页

- 提取的是详情页的数据

- 1. 确定url

- 2. 发送请求

- 3. 提取数据

- 4. 返回

- 如果数据不在当前的url地址中

- 在其他的响应中，寻找数据的位置

- 1. 从network中从上往下找

- 2. 使用chrome中的过滤条件，选择出了js,css,img之外的按钮

- 3. 使用chrome的search all file，搜索数字和英文

- 数据的提取

- xpath,从html中提取整块的数据，先分组，之后每一组再提取

- re，提取max_time,price,html中的json字符串

- json

#### 验证码的识别

- url不变，验证码不变

- 请求验证码的地址，获得相应，识别

- url不变，验证码会变

- 思路：对方服务器返回验证码的时候，会和每个用户的信息和验证码进行一个对应，之后，在用户发送post请求的时候，会对比post请求中法的验证码和当前用户真正的存储在服务器端的验证码是否相同

- 1.实例化session

- 2.使用seesion请求登录页面，获取验证码的地址

- 3.使用session请求验证码，识别

- 4.使用session发送post请求’

- 使用selenium登录，遇到验证码

- url不变，验证码不变，同上

- url不变，验证码会变

- 1.selenium请求登录页面，同时拿到验证码的地址

- 2.获取登录页面中driver中的cookie，交给requests模块发送验证码的请求，识别

- 3.输入验证码，点击登录

### selenium使用的注意点

- 获取文本和获取属性

- 先定位到元素，然后调用`.text`或者`get_attribute`方法来去

- selenium获取的页面数据是浏览器中elements的内容

- find_element和find_elements的区别

- find_element返回一个element，如果没有会报错

- find_elements返回一个列表，没有就是空列表

- 在判断是否有下一页的时候，使用find_elements来根据结果的列表长度来判断

- 如果页面中含有iframe、frame，需要先调用driver.switch_to.frame的方法切换到frame中才能定位元素

- selenium请求第一页的时候回等待页面加载完了之后在获取数据，但是在点击翻页之后，hi直接获取数据，此时可能会报错，因为数据还没有加载出来，需要time.sleep(3)

- selenium中find_element_by_class_name智能接收一个class对应的一个值，不能传入多个

- 保存

- 保存在本地，text,json,csv

- 保存在数据库

### mongodb插入数据

- db.collecion.insert({}) 插入数据，`_id`存在就报错

- db.collection.save({}) 插入数据，`_id`存在会更新

### mongodb的更新操作

- `db.test1000.update({name:"xiaowang"},{name:"xiaozhao"})`

- 把name为xiaowang的数据替换为`{name:"xiaozhao"}`

- `db.test1000.update({name:"xiaohong"},{$set:{name:"xiaozhang"}})`

- 把name为xiaowang的数据name的值更新为xiaozhang

- `db.test1000.update({name:"xiaozhang"},{$set:{name:"xiaohong"}},{multi:true})`

- `{multi:true}`达到更新多条的目的

### mongodb删除

- `db.test1000.remove({name:"xiaohong"},{justOne:true})`

- 默认情况会删除所有满足条件的数据，`{justOne:true}`能达到只删除一条的效果

### mongodb的count方法

- `db.collection.find({条件}).count()`

- `db.collection.count({})`

### mongodb的投影

- 投影:选择返回结果的字段

- `db.collection.find({条件},{name:1,_id:0})`

- 1.`_id`默认会显示，置为0不显示

- 2.出了`_id`之外的其他字段，如果不显示，不写，不能写为0

### $group的注意点

- `$group`对应的字典中有几个键，结果中就有几个键

- 分组依据需要放到`_id`后面

- 取不同的字段的值需要使用$,`$gender`,`$age`

- 取字典嵌套的字典中的值的时候`$_id.country`

- 能够同时按照多个键进行分组`{$group:{_id:{country:"$country",province:"$province"}}}`

- 结果是：`{_id:{country:"",province:""}`

### 编辑器写mongodb语句

```

db.stu.find(

{$or:[{age:{$gte:20}},{hometown:{$in:["桃花岛","华⼭"]}}]}

)

#按照gender进行分组，获取不同组数据的个数和平均年龄

db.stu.aggregate(

{$group:{_id:"$gender",count:{$sum:1},avg_age:{$avg:"$age"}}},

{$project:{gender:"$_id",count:1,avg_age:"$avg_age",_id:0}}

)

# 按照hometown进行分组，获取不同组的平均年龄

db.stu.aggregate(

{$group:{_id:"$hometown",mean_age:{$avg:"$age"}}}

)

#使用$group统计整个文档

db.stu.aggregate(

{$group:{_id:null,count:{$sum:1},mean_age:{$avg:"$age"}}}

)

#选择年龄大于20的学生，观察男性和女性有多少人

db.stu.aggregate(

{$match:{$or:[{age:{$gt:20}},{hometown:{$in:["蒙古","⼤理"]}}]}},

{$group:{_id:"$gender",count:{$sum:1}}},

{$project:{_id:0,gender:"$_id",count:1}}

)

### mongodb mysql redis的区别和使用场景

- mysql是关系型数据库，支持事物

- mongodb，redis非关系型数据库，不支持事物

- mysql，mongodb，redis的使用根据如何方便进行选择

- 希望速度快的时候，选择mongodb或者是redis

- 数据量过大的时候，选择频繁使用的数据存入redis，其他的存入mongodb

- mongodb不用提前建表建数据库，使用方便，字段数量不确定的时候使用mongodb

- 后续需要用到数据之间的关系，此时考虑mysql

### 爬虫数据去重，实现增量式爬虫

- 使用数据库建立关键字段（一个或者多个）建立索引进行去重

- 根据url地址进行去重

- 使用场景：

- url地址对应的数据不会变的情况，url地址能够唯一判别一个条数据的情况

- 思路

- url存在redis中

- 拿到url地址，判断url在redis的url的集合中是够存在

- 存在：说明url已经被请求过，不再请求

- 不存在：url地址没有被请求过，请求，把该url存入redis的集合中

- 布隆过滤器

- 使用多个加密算法加密url地址，得到多个值

- 往对应值的位置把结果设置为1

- 新来一个url地址，一样通过加密算法生成多个值

- 如果对应位置的值全为1，说明这个url地址已经抓过

- 否则没有抓过，就把对应位置的值设置为1

- 根据数据本省进行去重

- 选择特定的字段，使用加密算法（md5，sha1）讲字段进行假面，生成字符串，存入redis的集合中

- 后续新来一条数据，同样的方法进行加密，如果得到的字符串在redis中存在，说明数据存在，对数据进行更新，否则说明数据不存在，直接插入

### page50练习

```

db.tv1.aggregate(

{$project:{title:1,_id:0,count:"$rating.count",rate:"$rating.value",country:"$tv_category"}},

{$match:{rate:{$gt:8}}},

{$group:{_id:"$country",count:{$sum:1}}},

{$project:{_id:0,country:"$_id",count:1}}

)

```

### logging 模块的使用

- scrapy

- settings中设置LOG_LEVEL=“WARNING”

- settings中设置LOG_FILE="./a.log" #设置日志保存的位置，设置会后终端不会显示日志内容

- import logging,实例化logger的方式在任何文件中使用logger输出内容

- 普通项目中

- import logging

- logging.basicConfig(...) #设置日志输出的样式，格式

- 实例化一个`logger=logging.getLogger(__name__)`

- 在任何py文件中调用logger即可

### crawlspider的使用

- 常见爬虫 scrapy genspider -t crawl 爬虫名 allow_domain

- 指定start_url，对应的响应会进过rules提取url地址

- 完善rules，添加Rule ` Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),`

- 注意点:

- url地址不完整，crawlspider会自动补充完整之后在请求

- parse函数不能定义，他有特殊的功能需要实现

- callback：连接提取器提取出来的url地址对应的响应交给他处理

- follow：连接提取器提取出来的url地址对应的响应是否继续被rules来过滤

### request对象什么时候入队

- dont_filter = True ,构造请求的时候，把dont_filter置为True，该url会被反复抓取（url地址对应的内容会更新的情况）

- 一个全新的url地址被抓到的时候，构造request请求

- url地址在start_urls中的时候，会入队，不管之前是否请求过

- 构造start_url地址的请求时候，dont_filter = True

```python

def enqueue_request(self, request):

if not request.dont_filter and self.df.request_seen(request):

# dont_filter=False Ture True request指纹已经存在 #不会入队

# dont_filter=False Ture False request指纹已经存在全新的url #会入队

# dont_filter=Ture False #会入队

self.df.log(request, self.spider)

return False

self.queue.push(request) #入队

return True

```

### scrapy_redis去重方法

- 使用sha1加密request得到指纹

- 把指纹存在redis的集合中

- 下一次新来一个request，同样的方式生成指纹，判断指纹是否存在reids的集合中

### 生成指纹

```python

fp = hashlib.sha1()

fp.update(to_bytes(request.method)) #请求方法

fp.update(to_bytes(canonicalize_url(request.url))) #url

fp.update(request.body or b'') #请求体

return fp.hexdigest()

```

### 判断数据是否存在redis的集合中，不存在插入

```python

added = self.server.sadd(self.key, fp)

return added != 0

```

### 爬虫项目

- 项目名字

- request+selenium爬虫

- 项目周期

- 项目介绍

- 爬了XXXXX，XXX，XXX，等网站，获取网站上的XXX，XXX，XXX，数据，每个月定时抓取XXX数据，使用该数据实现了XXX，XXX，XX，

- 开发环境

- linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+ scarpy + mysql+gevent+celery+threading

- 使用技术

- 使用requests...把数据存储在mongodb中

- 使用crontab实现程序的定时启动抓取

- url地址的去重

- 使用redis的集合，把request对象的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现基于url地址的增量式爬虫

- 布隆过滤

- 对数据的去重

- 把数据的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现增量式爬虫

- 反扒

- 代理ip

- 购买了第三的代理ip，组成代理ip池，其中的ip没两天更新一次，同时使用单独的程序来检查代理ip的可用

- cookie

- 准备了XX个账号，使用requests获取账号的对应的cookie，存储在redis中，后续发送请求的时候随机选择cookie

- 使用selenium来进行模拟登陆，获取cookie，保存在Redis中

- 数据通过js生成

- 分析js，通过chrome浏览器定位js的位置，寻找js生成数据的方式

- 通过selenium来模拟页面的加载内容，获取页面动态加载后的数据

- 提高爬虫效率

- 使用多线，线程池，协程，celery来完成爬虫

- 使用scrapy框架来实现爬虫，

- 不能断点续爬，请求过的url地址不能持久化

- 使用scrapy_redis

- 不能对数据进行去重

- 把数据的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现增量式爬虫

- scrapy_redis

- domz实现增量式，持久化的爬虫

- 实现分布式爬虫

- 项目名字

- scarpy爬虫

- 项目周期

- 项目介绍

- 爬了XXXXX，XXX，XXX，等网站，获取网站上的XXX，XXX，XXX，数据，每个月定时抓取XXX数据，使用该数据实现了XXX，XXX，XX，

- 开发环境

- linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+ scarpy + mysql+gevent+celery+threading

- 使用技术

- 使用requests...把数据存储在mongodb中

- 使用crontab实现程序的定时启动抓取

- url地址的去重

- 使用redis的集合，把request对象的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现基于url地址的增量式爬虫

- 布隆过滤

- 对数据的去重

- 把数据的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现增量式爬虫

- 反扒

- 代理ip

- 购买了第三的代理ip，组成代理ip池，其中的ip没两天更新一次，同时使用单独的程序来检查代理ip的可用

- cookie

- 准备了XX个账号，使用requests获取账号的对应的cookie，存储在redis中，后续发送请求的时候随机选择cookie

- 使用selenium来进行模拟登陆，获取cookie，保存在Redis中

- 数据通过js生成

- 分析js，通过chrome浏览器定位js的位置，寻找js生成数据的方式

- 通过selenium来模拟页面的加载内容，获取页面动态加载后的数据

- 提高爬虫效率

- 使用多线，线程池，协程，celery来完成爬虫

- 使用scrapy框架来实现爬虫，

- 不能断点续爬，请求过的url地址不能持久化

- 使用scrapy_redis

- 不能对数据进行去重

- 把数据的XXX字段通过sha1生成指纹，放入redis的集合中进行去重，实现增量式爬虫

- scrapy_redis

- domz实现增量式，持久化的爬虫

- 实现分布式爬虫

你可能感兴趣的:(爬虫)

从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
解锁豆瓣高清海报(三)从深度爬虫到URL构造，实现极速下载 dreadp 爬虫 python beautifulsoup html 后端
脚本地址:项目地址:GazerPosterBandit_v2.py前瞻之前的PosterBandit.py是按照深度爬虫的思路一步步进入海报界面来爬取,是个值得学习的思路,但缺点是它爬取慢,仍然容易碰到豆瓣的418错误,本文也会指出彻底解决旧版418错误的方法并提高爬取速度.现在我将介绍优化版,这个版本通过直接构造URL来实现获取海报原图,准确识别、更快爬取.本文会重点讲解动态headers及其应
python爬虫之scrapy框架入门，万字教学，从零开始到实战演练，超详细！！！（21）盲敲代码的阿豪 python之爬虫系统教学 python 爬虫 scrapy
文章目录前言1、scrapy的概念和流程1.1学习目标1.2scrapy的概念1.3scrapy框架的作用1.4scrapy的工作流程1.5总结2、scrapy的入门使用2.1学习目标2.2安装scrapy框架2.3scrapy项目开发流程2.4创建项目2.5创建爬虫文件2.6scrapy项目文件说明2.7案例演示2.8实战案例（抓取链家租房信息，存入本地）2.8.1修改items.py文件，在这
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
基于Python爬虫的商业新闻趋势分析：数据抓取与深度分析实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言媒体游戏
在信息化和数字化日益发展的今天，商业新闻成为了行业动向、市场变化、竞争格局等多方面信息的重要来源。对于企业和投资者来说，及时了解商业新闻不仅能帮助做出战略决策，还能洞察市场趋势和风险。在此背景下，商业新闻分析的需求日益增长。通过爬虫技术获取和分析商业新闻数据，不仅可以节省时间和成本，还能高效、精准地进行趋势预测与决策支持。本篇博客将详细介绍如何使用Python爬虫技术抓取商业新闻数据，并进行趋势分
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
使用Java爬虫根据关键词获取Shopee商品列表？小爬虫程序猿 java 爬虫开发语言
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例
Cookies 详解：工作原理、使用方法及安全性才华是浅浅的耐心 python java javascript
1.什么是Cookie？Cookie是存储在用户浏览器中的小型文本数据，通常用于保存用户会话信息、个性化设置以及跨页面的数据共享。它是Web服务器与客户端浏览器之间的一种状态管理机制，常用于爬虫的会话凭证。查看方式：打开网站-登录-打开开发正工具-点击网络-刷新-点击一个包-查看表头（有的需要禁用缓存才能看见）2.Cookie的作用会话管理：如用户登录状态的保持。个性化设置：存储用户偏好，如主题、
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
python 正则表达式的语法及使用主打Python 正则表达式 python 基础语法正则表达式 python
python正则表达式的语法及使用概念：按照程序员的指示，字符串里提取你要的数据。应用：爬虫清洗数据，匹配电话，匹配邮箱，匹配账号……最重要的就是（.*?）正则语法（元字符）1、？：前面的内容出现0-1次2、+：前面的内容出现1-多次3、*：前面的内容出现0-多次‘’’正则(Regular)：记住的点：1、(.？)2、re.findall()结果是一个列表3、用(.?)的是后，一定要复制，而不是手
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
【Go基础】Go入门与实践资源帖小超人冲鸭 golang 开发语言后端
看到好的持续更新……Go系统教程从语法讲起：李文周博客七天快速上手项目Go测试驱动开发博客孔令飞项目开发实战课程，孔令飞图文教程《Go语言高级编程》书籍Go算法刷题模板Go实战项目KV系统crawlab分布式爬虫平台seaweedfs分布式文件系统Cloudreve云盘系统gfast后台管理系统（基于GoFrame）alist多存储文件列表（基于Gin、React）Yearning开源SQL审核平
python：一次简单的爬虫 wstkqzl python 爬虫开发语言
importrequestsimportparselimporttimefromparselimportSelector#第一章链接https://www.qu04.cc/book/45808/2.html#第二章链接https://www.qu04.cc/book/45808/3.html#小说目录：https://www.qu04.cc/book/45808/url="https://www.
用Python抓取网页标题：使用`requests`库的实用指南清水白石008 python Python题库 python 开发语言
用Python抓取网页标题：使用requests库的实用指南在数据获取的时代，网页抓取（WebScraping）成为了一项重要的技能。无论是获取新闻标题、产品价格，还是数据分析，网页抓取都能提供丰富的信息。本文将详细介绍如何使用Python的requests库编写一个简单的爬虫，抓取某个网站的标题。我们将通过实例和代码片段，使整个过程清晰易懂，帮助你快速上手网页抓取。一、了解网页抓取网页抓取是指通
如何运用python爬虫爬取图片素材网站的图片？（附完整代码）大懒猫软件 vue.js python 网络爬虫图像处理 bash
在当今数字化时代，高质量的图片资源对于设计师、开发者以及任何需要视觉素材的用户来说都至关重要。壁纸社作为一个提供丰富壁纸资源的网站，涵盖了从普通高清到4K、5K甚至8K超高清的多种分辨率，满足了不同用户的需求。然而，手动下载这些壁纸不仅耗时，而且效率低下。因此，开发一个自动化爬虫程序，批量下载高质量壁纸，不仅能节省时间，还能提高工作效率。本文将详细介绍如何使用Python爬虫技术从壁纸社爬取并保存
【网络爬虫】(2) requests模块，案例：网络图片爬取，附Python代码立Sir 网络爬虫爬虫 python
1.基本原理1.1requests模块requests是Python中一个非常流行的HTTP客户端库，用于发送所有的HTTP请求类型。它基于urllib，但比urllib更易用。中文文档地址：Requests:让HTTP服务人类—Requests2.18.1文档（1）requests.get(url,**kwargs)requests.get()函数是requests库中用于发送HTTPGET请求
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它