可以叫我才哥

实践应用|快来pick你喜欢的小姐姐吧，Python爬取青春有你2和创造营2020小姐姐数据

文章目录

先看结果

①创造营2020撑腰榜前三甲
②青春有你2当前官方榜前三甲
③Face++男女视角颜值最高

女性视角颜值第一名
男性视角颜值第一名

④小姐姐们籍贯分布（pyecharts作图）

创造营小姐姐都来自哪里呀？
青春有你小姐姐都来自哪里呀？

0、再看下统计分析结果吧

0.1小姐姐出生地分布
0.2小姐姐的出生年份分布
0.3小姐姐星座分布
0.4小姐姐身高分布
0.5小姐姐体重分布
0.5小姐姐颜值分布

0.5.1女性角度颜值评分
0.5.2女性角度颜值评分

1、载入需要的库
2、使用requests+json获取小姐姐列表
3、使用requests+xpath获取小姐姐基础信息
4、使用requests调用api接口获取小姐姐颜值评分

4.1腾讯云人脸识别
4.2Face++人脸识别

本文将对比《青春有你2》和《创造营2020》全体小姐姐，鉴于两个节目的数据采集和处理过程基本相似，在使用Python做数据爬虫采集的章节中将只以《创造营2020》为例做详细介绍。感兴趣的同学可以照猫画虎去实操一下《青春有你2》的数据爬虫采集，我会在章节中放上其数据源地址。

先看结果

①创造营2020撑腰榜前三甲

创造营2020撑腰榜前三名分别是 希林娜依·高、陈卓璇、郑乃馨

>>>df1[df1['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']]
    排名      姓名     身高    体重           生日 出生地
0  1.0  希林娜依·高    NaN   NaN  1998年07月31日  新疆
1  2.0     陈卓璇  168.0  42.0  1997年08月13日  贵州
2  3.0     郑乃馨    NaN   NaN  1997年06月25日  泰国

②青春有你2当前官方榜前三甲

青春有你2官方榜(35进20)前三名分别是 刘雨昕、虞书欣、喻言

>>>df2[df2['排名']<=3 ][['排名','姓名','身高','体重','生日','出生地']]
      排名   姓名     身高    体重           生日 出生地
107  1.0  刘雨昕  168.0  48.0  1997年04月20日  贵阳
117  2.0  虞书欣  169.0  50.0  1995年12月18日  上海
118  3.0   喻言  172.0  50.0  1997年05月26日  北京

③Face++男女视角颜值最高

女性视角颜值第一名

得分95.23，来自《创造营2020》的黄若元（已经告别舞台）

>>>df.sort_values(by = 'face++女性眼中颜值',ascending = False).head(1)[['face++女性眼中颜值','姓名','来源','身高','体重','生日','出生地']]
    face++女性眼中颜值   姓名       来源  身高  体重         生日  出生地
95         95.23  黄若元  创造营2020 NaN NaN 1996-03-01  NaN

男性视角颜值第一名

得分93.773，来自《创造营2020》的孙珍妮（目前位列撑腰榜第19）

>>>df.sort_values(by = 'face++男性眼中颜值',ascending = False).head(1)[['face++男性眼中颜值','姓名','来源','身高','体重','生日','出生地']]
    face++男性眼中颜值   姓名       来源     身高  体重         生日 出生地
18        93.773  孙珍妮  创造营2020  165.0 NaN 2000-05-05  上海

④小姐姐们籍贯分布（pyecharts作图）

创造营小姐姐都来自哪里呀？

创造营2020的小姐姐有籍贯记录的41位中，来自四川的有7位，江西、浙江、湖南和湖北的各3位

青春有你小姐姐都来自哪里呀？

青春有你2小姐姐来自最多的省市分别是北京、台湾各9名，重庆、成都各6名

0、再看下统计分析结果吧

以下是整体数据部分截图（Spyder变量查看器）

因为整合的信息较多，共17个字段，我们在做分数据指标统分的时候只需要用到部分即可。
在做统计分析时，这里核心就是一个分组统计（df.groupby()）。

>>>df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 210 entries, 0 to 209
Data columns (total 17 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   排名            136 non-null    float64
 1   编号            210 non-null    int64  
 2   姓名            210 non-null    object 
 3   照片            210 non-null    object 
 4   状态            210 non-null    object 
 5   粉丝数           101 non-null    object 
 6   星座            168 non-null    object 
 7   身高            137 non-null    float64
 8   体重            120 non-null    float64
 9   出生地           149 non-null    object 
 10  生日            160 non-null    object 
 11  AI预测年龄        210 non-null    int64  
 12  AI颜值评分        210 non-null    int64  
 13  face++AI预测年龄  210 non-null    int64  
 14  face++女性眼中颜值  210 non-null    float64
 15  face++男性眼中颜值  210 non-null    float64
 16  来源            210 non-null    object 
dtypes: float64(5), int64(4), object(8)
memory usage: 28.0+ KB

0.1小姐姐出生地分布

《创造营2020》小姐姐官方信息数据中，出生地只有41/101个，且多以省为标尺，我们统计结果如下：

>>>pro = df1.groupby('出生地')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>pro.head() 
   出生地  count
0   四川   7
1   江西   3
2   浙江   3
3   湖南   3
4   湖北   3

《青春有你2》小姐姐官方数据比较全，出生地有108/109，且多以市为标尺，我们统计结果如下：

>>>city = df2.groupby('出生地')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>city.head()
   出生地  count
0   北京   9
1   台湾   9
2   重庆   6
3   成都   6
4   上海   5

0.2小姐姐的出生年份分布

出生年份我们合并数据做统一处理吧，一共有160/210份数据，我们统计结果如下：

>>>year = df.groupby('year')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>year.head() 
     year  count
0  1997.0     27
1  1995.0     25
2  1996.0     24
3  1998.0     20
4  1999.0     19

0.3小姐姐星座分布

星座分布我们合并数据做统一处理吧，一共有168/210份数据，我们统计结果如下：

>>>conste = df.groupby('星座')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>conste
     星座  count
0   狮子座     23
1   天秤座     19
2   摩羯座     19
3   白羊座     16
4   双子座     14
5   射手座     13
6   金牛座     13
7   双鱼座     11
8   天蝎座     11
9   巨蟹座     11
10  水瓶座     10
11  处女座      8

0.4小姐姐身高分布

身高分布我们合并数据做统一处理吧，一共有137/210份数据，我们统计结果如下：

>>>height = df.groupby('身高')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>height
       身高  count
0   168.0     27
1   170.0     11
2   165.0     11
3   166.0     11
4   163.0     10
5   167.0      9

身高这种属性，咱们还可以做简单的描述统计分析如下：
(可以看到，最高175cm，最低158cm，平均167.12cm，中位数168cm)

>>>df['身高'].describe()
count    137.000000
mean     167.124088
std        4.080883
min      158.000000
25%      165.000000
50%      168.000000
75%      170.000000
max      175.000000
Name: 身高, dtype: float64

0.5小姐姐体重分布

体重分布我们合并数据做统一处理吧，一共有120/210份数据，我们统计结果如下：

>>>weight = df.groupby('体重')['编号'].count().to_frame('count').sort_values(by = 'count',ascending = False).reset_index()
>>>weight.head() 
     体重  count
0  48.0     20
1  46.0     15
2  50.0     13
3  47.0     13
4  49.0     12

身高这种属性，咱们还可以做简单的描述统计分析如下：
(可以看到，最高87kg???，最低40kg，平均48kg，中位数48kg)

>>>df['体重'].describe()
count    120.000000
mean      48.012500
std        5.081877
min       40.000000
25%       46.000000
50%       48.000000
75%       50.000000
max       87.000000
Name: 体重, dtype: float64

赶快查一下这个87KG的妹子是谁，看了下照片，感觉是官网数据填错了吧，应该47kg或者87斤？才对吧，算了不改了~

>>>df[df['体重']==87][['编号','姓名','来源']] 
            编号   姓名     来源
170  540476547  孙美楠  青春有你2

0.5小姐姐颜值分布

因为腾讯云ai评分，过百的就有40来个，咱们还是用Face++吧
颜值评分这个因为是精确到了小数点后3位，所以咱们在做统分的时候，更适合先进行分箱操作

0.5.1女性角度颜值评分

先看描述统计分析结果：
(可以看到，最高95.23，最低65.596，平均83.742，中位数84.837)

>>>df['face++女性眼中颜值'].describe() 
count    210.000000
mean      83.742038
std        5.340208
min       65.596000
25%       81.028000
50%       84.837500
75%       87.449750
max       95.230000
Name: face++女性眼中颜值, dtype: float64

颜值按照60-100每10分一个档位，我们统计结果如下：
90分以上颜值居然高达16位~

>>>beauty_bins = [60,70,80,90,100] 
>>>beauty_labels = ['60-70', '70-80', '80-90', '90-100']
>>>df['face++女-颜值区间'] = pd.cut(df['face++女性眼中颜值'], bins=beauty_bins, labels=beauty_labels)
>>>df['face++女-颜值区间'].value_counts() 
80-90     155
70-80      34
90-100     16
60-70       5
Name: face++女-颜值区间, dtype: int64

0.5.2女性角度颜值评分

先看描述统计分析结果：
(可以看到，最高93.77，最低66.404，平均82.606，中位数83.482)

>>>df['face++男性眼中颜值'].describe() 
count    210.000000
mean      82.605929
std        5.055116
min       66.404000
25%       79.699250
50%       83.482500
75%       86.409000
max       93.773000
Name: face++男性眼中颜值, dtype: float64

颜值按照60-100每10分一个档位，我们统计结果如下：
90分以上颜值居然只有6位~【难道男性对颜值的要求更高？？？】

>>>df['face++男-颜值区间'].value_counts() 
80-90     147
70-80      52
90-100      6
60-70       5
Name: face++男-颜值区间, dtype: int64

1、载入需要的库

import requests
from fake_useragent import UserAgent
import pandas as pd
import json
from lxml import etree

2、使用requests+json获取小姐姐列表

《创造营2020》撑腰榜地址：
https://m.v.qq.com/activity/h5/303_index/index.html?ovscroll=0&autoplay=1&actityId=107015

通过F12在开发者界面Network—>XHR中我们可以发现真实数据请求地址（见Headers里的General），以及请求响应的数据格式是 json。

真实数据请求地址：

https://zbaccess.video.qq.com/fcgi/getVoteActityRankList?（你应该点不开，因为请求的时候需要附带一些参数）

参数可以在Headers里的Query String Parameters 里找到
于是我们可以编写以下代码进行数据爬取

def get_Girllist():    
    url = 'https://zbaccess.video.qq.com/fcgi/getVoteActityRankList?'    
    headers = {"User-Agent": UserAgent(verify_ssl=False).random}    
    params = {'raw': 1,
               'vappid': 51902973,
               'vsecret': '14816bd3d3bb7c03d6fd123b47541a77d0c7ff859fb85f21',
               'actityId': 107015,
               'pageSize': 101,
               'vplatform': 3,
               'listFlag': 0,
               'pageContext':'' ,
               'ver': 1,
               #以下两个时间戳参数可以省略
               '_t': 1590324974706,
               '_': 1590324974708
        }
    #请求数据
    re = requests.get(url,headers = headers,params = params) 
    #用json解析json数据成字典   
    data = json.loads(re.text)
    
    Li_list = data['data']['itemList']
    
    rank = 0
    data_list = []
    
    #获取每个选手的基础信息
    for li in Li_list:
        rank += 1
        item = {}
        #获取基础信息
        item['当前排名'] = rank
        item['选手编号'] = li['itemInfo']['id']
        item['选手姓名'] = li['itemInfo']['name']
        item['选手照片'] = li['itemInfo']['mapData']['poster_pic']
        item['选手状态'] = li['statusInfo']['voteBtnTxt']
        
        #获取选手doki页，需要传递选手编号id信息用于循环请求
        #根据选手编号id到选手doki页面获取粉丝数、星座、身高、生日等基础个人信息
        #简单的静态页面，这里用到xpath做解析
        id_ = item['选手编号']
        #调用获取选手doki页数据的函数，具体见get_Girlinfo函数
        html = get_Girlinfo(id_)
        item['粉丝数'] = html.xpath('.//div[@class="followers_count"]/text()')[0]
        info = html.xpath('.//div[@class="wiki_info_1"]//span[@class="content"]/text()')
        item['星座'] = info[-5]
        item['身高'] = info[-3]
        item['体重'] = info[-2]
        item['出生地'] = info[-1]
        info2 = html.xpath('.//div[@class="wiki_info_2"]//span[@class="content"]/text()')
        item['生日'] = info2[0]

        url_ai = item['选手照片']
        #获取腾讯云AI颜值评分
        age,beauty = txfaceScore(url_ai) 
        item['AI预测年龄'] = age
        item['AI颜值评分'] = beauty
        #获取face++颜值评分
        faceage,beauty_w,beauty_m  = ksfaceScore(url_ai) 
        item['face++AI预测年龄'] = faceage
        item['face++女性眼中颜值'] = beauty_w
        item['face++男性眼中颜值'] = beauty_m   
        data_list.append(item)
        
    return data_list

3、使用requests+xpath获取小姐姐基础信息

《创造营2020》选手详情页地址：
https://v.qq.com/x/star/8262415?tabid=2

以上这个地址是刘些宁同学的个人资料页百科info，我们可以看到这个网页动态变化的是8262415，这个数字是个啥？不难发现，这是选手编号id呀，我们在获取小姐姐列表的时候已经记录了。基于此，我们可以创建获取小姐姐百科info的函数如下：

def get_Girlinfo(id_):
    url_ = f'https://v.qq.com/x/star/{id_}?tabid=2'
    headers = {"User-Agent": UserAgent(verify_ssl=False).random} 
    re_ = requests.get(url_,headers = headers)
    #直接获取的数据中中文是乱码，我们转化一下编码格式即可
    re_.encoding='utf-8'
    #因本次爬虫我们解析网站源码用到的是xpath，所以需要处理一下
    html = etree.HTML(re_.text)
    #返回处理后的网站数据源码，在小姐姐列表中我们再行处理
    return html

4、使用requests调用api接口获取小姐姐颜值评分

一开始我用的是腾讯云的人脸识别，跑完数据发现101个创造营小姐姐里有21个颜值得了满分，而我喜欢的一个小姐姐朱主爱居然得分最低，那怎么行。所以，本次我们新增了旷视的FACE++人脸识别做颜值评分对比。

4.1腾讯云人脸识别

腾讯云人脸识别需要使用到第三方库tencentcloud-sdk-python

pip install tencentcloud-sdk-python

在进行调用的时候，需要先加载有关包

from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException 
from tencentcloud.iai.v20180301 import iai_client, models

#腾讯云人脸检测与分析
#检测给定图片中的人脸（Face）的位置、相应的面部属性和人脸质量信息
#位置包括 (x，y，w，h)
#面部属性包括性别（gender）、年龄（age）、表情（expression）、魅力（beauty）、眼镜（glass）、发型（hair）、口罩（mask）和姿态 (pitch，roll，yaw)
#人脸质量信息包括整体质量分（score）、模糊分（sharpness）、光照分（brightness）和五官遮挡分（completeness）

在第一次使用云 API 之前，用户首先需要在腾讯云控制台上申请安全凭证，安全凭证包括 SecretID 和 SecretKey, SecretID 是用于标识 API 调用者的身份，SecretKey 是用于加密签名字符串和服务器端验证签名字符串的密钥。SecretKey 必须严格保管，避免泄露。
由于我们只需要年龄和颜值评分，因此创建函数时只需要返回age和beauty两个字段即可。

def txfaceScore(url):
    try: 
    	# 实例化一个认证对象，入参需要传入腾讯云账户 secretId，secretKey
        cred = credential.Credential("secretId", "secretKey") 
        httpProfile = HttpProfile()
        httpProfile.endpoint = "iai.tencentcloudapi.com"
    
        clientProfile = ClientProfile()
        clientProfile.httpProfile = httpProfile
        client = iai_client.IaiClient(cred, "ap-beijing", clientProfile) 
    
        req = models.DetectFaceRequest()
        #url即我们需要做颜值评分的小姐姐照片所在网页地址url
        param = {"Url":url,"NeedFaceAttributes":1}
        params = json.dumps(param)
        req.from_json_string(params)
    
        resp = client.DetectFace(req) 
        respstr = resp.to_json_string().replace('false','0').replace('true','1')
        respdic = eval(respstr)
        #返回的数据格式是json，所以在转化为字典后很简单就能找到你需要的数据
        age = respdic['FaceInfos'][0]['FaceAttributesInfo']['Age']
        beauty = respdic['FaceInfos'][0]['FaceAttributesInfo']['Beauty']
        
    except TencentCloudSDKException as err: 
        print(err)
    
    return age,beauty

4.2Face++人脸识别

Face++人工智能开放平台文档中心Detect
API地址：https://console.faceplusplus.com.cn/documents/4888373

接口调用很简单，设置好你需要的请求参数（这里我们选择年龄和颜值：age,beauty），由于Face++颜值评分分为男女视角下的颜值分两种，所以我们需要返回三个值：年龄、男/女视角颜值分。
具体函数见下方：

def ksfaceScore(pic_url):
    url = 'https://api-cn.faceplusplus.com/facepp/v3/detect'
    
    APIKey = '你的key' 
    APISecret = '你的secret'
    
    data = {"api_key":APIKey,
            "api_secret":APISecret,
            "image_url":pic_url,
            "return_attributes":"age,beauty"
            }
    res = requests.post(url,data = data)
    dic_ = eval(res.text)
    #返回的数据格式是json，所以在转化为字典后很简单就能找到你需要的数据
    age = dic_['faces'][0]['attributes']['age']['value']
    beauty_w = dic_['faces'][0]['attributes']['beauty']['female_score']
    beauty_m = dic_['faces'][0]['attributes']['beauty']['male_score']
    
    return age,beauty_w,beauty_m

基于Python爬虫的豆瓣电影影评数据可视化分析 wp_tao Python副业接单实战项目 python 爬虫信息可视化
文章目录前言一、数据抓取二、数据可视化1.绘制词云图2.读入数据总结前言本文以电影《你好，李焕英》在豆瓣上的影评数据为爬取和分析的目标，利用python爬虫技术对影评数据进行了爬取，使用pandas库进行了数据清洗，使用jieba库进行分词，使用collections库进行词频统计，使用wordcloud库绘制词云图，使用matplotlib库绘制了评论人所在城市占比饼状图，并使用matplotl
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
2024年Python最新Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化 2401_84584609 程序员 python 爬虫信息可视化
‘详情页’])csv_writer.writeheader()forpageinrange(1,26):print(f’正在保存第{page}页数据内容===========')url=f’http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2017-0-1-{page}’headers={‘User-Agent’:‘
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
【Python爬虫实战】深入解析 Scrapy 管道：数据清洗、验证与存储的实战指南易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、了解ScrapyShell二、配置文件settings.py（一）为什么需要配置文件（二）配置文件的使用方法（三）常用字段及其含义三、管道的深入使用（一）管道的常用方法（二）管道的实现（三）启用管道四、管道的常见应用场景五、管道使用
【Python爬虫实战】轻量级爬虫利器：DrissionPage之SessionPage与WebPage模块详解易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、SessionPage（一）SessionPage模块的基本功能（二）基本使用（三）常用方法（四）页面元素定位和数据提取（五）Cookie和会话管理（六）SessionPage的优点和局限性（七）SessionPage和Driver
【Python爬虫实战】全面解析 DrissionPage：简化 Python 浏览器自动化的三种模式易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、DrissionPage简介（一）ChromiumPage（二）WebPage（三）SessionPage（四）三大模块总结二、ChromiumPage（一）初始化ChromiumPage（二）基本操作（三）等待元素加载（四）执行J
如何运用Python爬虫快速获得1688商品详情数据小爬虫程序猿 API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是在电商领域。对于企业来说，获取竞争对手的商品信息是分析市场趋势、制定营销策略的重要手段。1688作为中国领先的B2B电商平台，拥有海量的商品数据。本文将介绍如何使用Python编写爬虫程序，以合法合规的方式快速获取1688商品详情，为电商企业提供数据支持。1.环境准备在开始编写代码之前，我们需要准备以下开发环境：Python3.x：确保已安装Python3.
Python爬虫项目 | 二、每日天气预报聪明的墨菲特i Python爬虫项目 python 爬虫开发语言
文章目录1.文章概要1.1实现方法1.2实现代码1.3最终效果1.3.1编辑器内打印显示效果实际应用效果2.具体讲解2.1使用的Python库2.2代码说明2.2.1获取天气预报信息2.2.2获取当天日期信息，格式化输出2.2.3调用函数，输出结果2.3过程展示3总结1.文章概要继续学习Python爬虫知识，实现简单的案例，发送每日天气预报1.1实现方法本文使用Python中常用的requests
python爬虫入门（实践）雁于飞爬虫 python 开发语言
python爬虫入门（实践）一、对目标网站进行分析二、博客爬取获取博客所有h2标题的路由确定目标，查看源码代码实现"""获取博客所有h2标题的路由"""url="http://www.crazyant.net"importrequestsfrombs4importBeautifulSoup#发送请求，获取页面所有内容r=requests.get(url)ifr.status_code!=200:r
详细分析Python爬虫中的xpath（附Demo）码农研究僧 Python python 爬虫 xpath
目录前言1.基本知识2.常用API3.简易Demo前言关于爬虫的基本知识推荐阅读：Python爬虫从入门到应用（超全讲解）该知识点需要提前安装相关依赖：pipinstalllxml1.基本知识XPath（XMLPathLanguage）是一种用于在XML文档中定位和选择节点的语言在XML文档中通过路径表达式（pathexpression）来定位节点，这些路径描述了节点在层次结构中的位置一、节点：在
python爬虫 django搜索修改更新数据_Django+python+BeautifulSoup垂直搜索爬虫 weixin_39897070 python爬虫 django搜索修改更新数据
使用python+BeautifulSoup完成爬虫抓取特定数据的工作，并使用Django搭建一个管理平台，用来协调抓取工作。因为自己很喜欢Djangoadmin后台，所以这次用这个后台对抓取到的链接进行管理，使我的爬虫可以应对各种后期的需求。比如分时段抓取，定期的对已经抓取的地址重新抓取。数据库是用python自带的sqlite3，所以很方便。这几天正好在做一个电影推荐系统，需要些电影数据。本文
使用Python爬虫将抓取的数据保存到Excel文件 Python爬虫项目 2025年爬虫实战项目 python 爬虫 excel 测试工具开发语言信息可视化
在进行Python爬虫开发时，数据的存储是非常重要的一环。随着数据分析需求的不断增长，保存和管理大量的数据变得尤为重要。CSV（Comma-SeparatedValues）格式一直是一个常见的存储格式，但在许多应用场景下，Excel文件作为一种更直观、结构化的方式，具有更多的优势，尤其在数据分析与可视化方面。Excel文件不仅能够承载数据，还能进行复杂的数据操作、图表展示等，使其在数据科学、商业分
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_66323401 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python爬虫爬取1万首音乐代码 EasySoft易软 python
importrequestsbase_url=“http://music.163.com/song/media/outer/url?id=”start_id=200000end_id=210000formusic_idinrange(start_id,end_id+1):song_url=base_url+str(music_id)response=requests.get(song_url,st
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
史上最全！Python爬虫requests库(附案例) 疯狂的超级玛丽 Python Python学习 Python入门 python 爬虫开发语言学习 Python基础 python自学
1.requests库简介如果你正在学习Python并且找不到方向的话可以试试我这一份学习方法+籽料呀！点击领取（不要米米）Requests是一个为人类设计的简单而优雅的HTTP库。requests库是一个原生的HTTP库，比urllib3库更为容易使用。requests库发送原生的HTTP1.1请求，无需手动为URL添加查询串，也不需要对POST数据进行表单编码。相对于urllib3库，requ
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接... 珍妮赵
一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目scrapystartprojectmycwpjt步骤2、分析新浪网站静态代码随便打开一个新浪新闻网，新闻可以看到地址为http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622
Python 正则表达式 weixin_34319640 python 爬虫
最近研究Python爬虫，很多地方用到了正则表达式，但是没好好研究，每次都得现查文档。今天就专门看看Python正则表达式。本文参考了官方文档re模块。模式首先正则表达式的语法我就不说了，这玩意倒是不算难，用的时候现查就行了——正则表达式_百度百科。在很多编程语言中，由于有转义字符这么一种东西的存在，导致正则表达式需要使用两个斜杠来处理。如果编程语言支持原始字符串，那么就不需要两个斜杠了。在Pyt
Python爬虫入门教程：超级简单的Python爬虫教程梦子mengy7762 爬虫 python 数据分析 python 爬虫 html pycharm visualstudio
这是一篇详细介绍[Python]爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30分钟即可学会编写简单的Python爬虫。这篇Python爬虫教程主要讲解以下5部分内容：了解网页；使用requests库抓取网站数据；使用BeautifulSoup解析网页；清洗和组织数据；爬虫攻防战；了解网页以中国旅游网首页为例，抓取中国旅游网首页首条信息（标题和链接）
《Python爬虫入门教程：轻松抓取网页数据》乐茵安全 python_study python
python对网页进行爬虫基于BeautifulSoup的爬虫—源码"""基于BeautifulSoup的爬虫### 一、BeautifulSoup简介1. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。2. Beautiful S
python html解析查找字符串_python爬虫之html解析Beautifulsoup和Xpath 邓凌佳 python html解析查找字符串
BeautiifulsoupBeautifulSoup是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。BeautifulSoup3目前已经停止开发，推荐现在的项目使用BeautifulSoup4。Beautii
python爬虫根据需要查找某个链接并保存快乐小运维 python 爬虫开发语言
importreimportosfromurllib.parseimporturlparse,quoteimportasyncioimportaiohttpfrombs4importBeautifulSoup#所有下载文件file_name=“1.txt”asyncdeffetch_url(session,url):try:#首先尝试HTTPSasyncwithsession.get(url,ti
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
【python爬虫入门教程13--selenium的自动点击 --小小案例分享】重剑无锋1024 python 爬虫 selenium
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档《python爬虫入门教程12--selenium的安装与使用》selenium就是一个可以实现python自动化的模块，上次我们更新了如何安装以及它的语法。同时我也更新了如何用爬虫技术实现cookie免登录12306，再用selenium自动抢票。这个帖子主要是对selenium的一个语法讲解小案例，大家可以多运行试试。[免登录12
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后