dataformydream

【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)

第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据。

申明：本文仅做学习用。

多图警告。

一、常用函数和库

二、网站结构分析

首页 https://www.ximalaya.com/

全部分类 https://www.ximalaya.com/category/

基本分类 https://www.ximalaya.com/youshengshu/reci231/

专辑页面 https://www.ximalaya.com/yinyue/24041806/

音频页面 https://www.ximalaya.com/yinyue/24041806/294025103

xm-sign生成

三、代码架构和实现

一、常用函数和库

re
requests
os
json
random

二、网站结构分析

首页 https://www.ximalaya.com/

首页为一些音乐的推荐，爬取全站只需关注网站的目录索引网址在哪即可。

可发现全部分类的链接为https://www.ximalaya.com/category/，URL地址附加了category字段

全部分类 https://www.ximalaya.com/category/

这个网页列出了喜马拉雅全站的所有音频分类和链接，可看做要爬取的根目录。一共有三层目录结构，例如：娱乐-音乐-纯音乐。加粗的推荐和分类下的小类实际都为一部分，目录结构可做保存到本地的文件结构的参考，最终只要获取到此页最小的分类的URL即可，例如：纯音乐 https://www.ximalaya.com/yinyue/reci310/

开发者工具查看源码逐层分析如下：

第一层

category_plate _AK类一共有5个，分别对应有声小说、娱乐、知识、生活、特色五个大类，需要获取标题名称，创建分类目录用。

标题标签所在：

获取代码：

url_response = ''
# 获取单个
title = re.search('', url_response).group(1)
# 最终获取的是列表
title_list = re.findall('
', url_response)

第二层

subject_wrapper _AK类为第二层，对应五个大类中的下一类，图中对应有声书，需要获取标题名称，创建分类目录用。

有声书的中文标题在subject_wrapper _AK类下的subject _AK类的h2标签中，类型为_AK：

 有声书

获取代码：

url_response = '有声书'
title = re.search('.*?>(.*?)', url_response).group(1)
title_list = re.findall('.*?>(.*?)
', url_response)

第三层

item separator _AK类为第三层，对应最小的一类，需要获取的有URL和标题，URL用来请求分类页面，标题创建分类目录用。

这里的URL为一段，和喜马拉雅首页网址拼接即可，例如：https://www.ximalaya.com + /youshengshu/reci231/

HTML格式为：

言情

获取URL和标题的代码：

url_response = '言情'
result = re.search('(.*?)', url_response)
url = result.group(1)
title = result.group(2)

至此可以通过全部分类https://www.ximalaya.com/category/这个页面获取到所有音频的分类作为本地目录的结构，方便管理和进一步分析，还获取到了最小分类的URL链接字段，用来请求页面，例如：/youshengshu/reci231/

基本分类 https://www.ximalaya.com/youshengshu/reci231/

这类页面需要获取的有音乐专辑的URL（一页大概有三十个，用来获取专辑页面）和页数（用来爬取全部音频，图中共有34页）

暂只爬取免费音频，点此查看喜马拉雅的爬虫规则

勾选免费后，URL地址附加了/mr132t2722/字段，https://www.ximalaya.com/youshengshu/reci231/mr132t2722/

选择页码后，URL地址附加了/p%d/字段,%d为页码数，https://www.ximalaya.com/youshengshu/reci231/mr132t2722/p2/

第一页有两种表示方法，带页码：https://www.ximalaya.com/youshengshu/reci231/mr132t2722/p1/

或者不带页码，默认为第一页：https://www.ximalaya.com/youshengshu/reci231/mr132t2722

至此这部分要做的工作有三：

一、获取此分类的页码数，用来遍历所有页面

二、附加免费或其他筛选条件，进行URL拼接，遍历请求所有页面

三、获取所有页面的所有音频专辑URL，例如 https://www.ximalaya.com/youshengshu/15778372/

开发者工具查看源码分别分析如下：

一、获取此分类的页码数，用来遍历所有页面：

使用选择工具查看下方页码UI位置的源代码，1,2,3,4,5,...,34,> 这八个框对应class page-item _Xo 和class page-item page-omit _Xo等属性的li标签，要准确地找到最后一页可以查看‘请输入页码’部分的源码，标签类型为quick-jump _Xo,其中有max="34",为最大页码。

所在HTML标签如下：

获取代码：

url_response = ''
max_page = re.search('

 
   二、附加免费或其他筛选条件，进行URL拼接，遍历请求所有页面: 
  暂没有找到URL的join函数，遂自己写一个拼接函数 
  输入：任意个有顺序的URL字段，/符号会自动补全和对齐，多余的删去，可为: 
  'https://www.ximalaya.com/', 'https://www.ximalaya.com',
'/youshengshu/', '/youshengshu','youshengshu/','youshengshu'
'/214214/','214214/','/214214','214214' 
  def url_join(*url_list):
    full_url = ''
    for url in url_list:
        url = url.strip('/')
        full_url += url + "/"
    return full_url


if __name__ == '__main__':
    print(url_join('https://www.ximalaya.com/', '/youshengshu/', '/214214/'))
    print(url_join('https://www.ximalaya.com/', '/youshengshu/', '/reci231/', '/mr132t2722/', 'p2')) 
  三、获取页面的所有音频专辑URL： 
  如图：一页中所有的专辑都在content类的div标签下，每一个音频专辑都是一个li标签，一页有三十个 
   
  点开一个li标签，album-wrapper  sm _Ht 属性的div标签下有三个子节点，
(网站结构相关)，两个分别为专辑信息和作者信息, 
   
  Html代码如下： 
  一吻成瘾：总裁撩不起！|爆笑甜宠免费多人小说
半纸鸿鹊 
  这里可获取到专辑名（title）、URL（href）、作者（title）、作者详情页（href）,代码如下： 
  url_response1 = '一吻成瘾：总裁撩不起！|爆笑甜宠免费多人小说'
url_response2 = '半纸鸿鹊'
result = re.search('', url_response1)
result2 = re.search('', url_response2)
print(result2.group(1), result2.group(2))
print(result.group(1), result.group(2))
 
   所有的音频专辑可以用re.findall()来获取，作者和专辑的对应关系，还有之前的类别所属关系可以用代码实现来一一对应。 
   
    专辑页面 https://www.ximalaya.com/yinyue/24041806/
  
   
  这类页面可以看到音频目录了，和之前类似，需要获取的有每个音频的链接和最大页数，并且获取title作为音频名。 
   
  一个
标签对应一个音频链接，获取代码如下：例如  https://www.ximalaya.com/yinyue/24041806/294025103 
  url_response='杜克 - 天赐的礼物'
result=re.search('',url_response)
title=result.group(1)
url=result.group(2)
 
    
  页码获取方式和之前相同，re.search即可： 
  url_response=''
max_page = re.search('
 
   
    音频页面 https://www.ximalaya.com/yinyue/24041806/294025103
  
   
  本页面只关心怎样抓取音频到本地，其实只需要上一步知道音频的ID就可以抓取了，不需要get这个页面，减少运行时间。 
  目前可以总结出https://www.ximalaya.com/yinyue/24041806/294025103 这种类型URL的结构 
  /yinyue/24041806/为本专辑所在类别和专辑的ID   /294025103为专辑中这首歌的ID 
  首先要找到音频在哪里，是什么格式，先不点击播放按钮，Ctrl+R刷新一下，选择network下的media选项，此时没有文件，点击播放。 
   
  点击播放后， 服务器才反馈了一个m4a格式的音频回来，这个m4a音频就是我们最终要爬取到本地的音频。 
   
  点击此音频可以查看是怎么得来的，可以发现https://aod.cos.tx.xmcdn.com/group79/M0A/2C/D7/wKgPEF61_vTQesvyACFUpjNDga8099.m4a  
  就是要获取的音频地址，request headers中也找到了这个音频的ID的URL ，https://www.ximalaya.com/yinyue/24041806/294025103 
    
  这里音频地址和实际的音频ID并没有什么明显的对应关系，并不能通过音频ID直接获取到音频地址，需要找到发送请求的过程。 
  发送请求的代码明显在点击播放按钮之后才发生了一次请求。这里选择network下的all选项，显示出音频网页的所有文件。 
   
  文件条数很多，很难找到点击后那些发生了变化，这里clear一下再点击播放一次。  
   
  可以发现发生变化的文件就这么多，m4a格式的为返回的音频，跳过，和音频ID 294025103相关的只有两个，点击查看即可，选择preview选项。 
   
  其中show?id开头的preview中找不到音频，跳过。 
  audio?id=294025103&ptype=1 这个文件即为要找的。 
   
  看到了m4a音频地址，正是服务器返回的音频文件地址，查看headers了解请求的URL是什么： 
    
  GET方式发送了一个URL，其中带有这个音频的ID，获取到了一个网页。 
  URL的格式为：https://www.ximalaya.com/revision/play/v1/audio?id=294025103&ptype=1  获取到的即为preview中的内容。 
  实际上通过音频ID构造了一个URL，向服务器请求了一次，返回的网页中有音频的地址，再拿来播放。 
  则要爬取音频需要做三件事： 
  1、构造URL请求服务器 
  2、在返回的网页中找到音频地址 
  3、保存音频到本地 
  代码如下： 
  id = '294025103'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
    'xm-sign': '596a655ba451ba8bf2b5541c5b029637(5)1589538181620(70)1589537946332'}
url = f'https://www.ximalaya.com/revision/play/v1/audio?id={id}&ptype=1'
response = requests.get(url, headers=headers)
m4a_url = re.search('"src":"(.*?)"', response.text).group(1)
with open('name.m4a', 'wb') as f:
    f.write(requests.get(m4a_url, headers=headers).content) 
  headers和xm-sign 反爬的问题之后代码会解决，不添加头会被识别出来，只返回一个200的状态码。 
   
    xm-sign生成
  
   
  暂参考这两篇博客，具体分析会放到进阶篇。 
  https://blog.csdn.net/steadyhzc/article/details/99708520 
  https://blog.csdn.net/BigBoy_Coder/article/details/103406332 
  至此网站结构分析结束。 
  三、代码架构和实现 
  编写多个函数模块，添加了代理池（免费的，很容易挂）、请求头、xm-sign校验，单线程爬取，亲测速度较慢，优点是居然还能用吧，很稳定，居然没报错（滑稽）。耗时主要在获取到m4a文件地址后保存到本地的时间较长，一个居然要10秒左右，浏览器保存只要1-2秒，进阶篇再分析一下，可能跟代理网速有关。。。 
  若要稳定使用请多添加可用的代理IP，本文仅做学习交流用，实际效率感人，请勿恶意爬取。 
  已实现功能： 
   
   代理池随即选取代理 
   遍历爬取全站 
   可指定爬取范围，默认全站全类别 
   已经爬取到本地的不会重复爬取，可获取网站更新 
   建立类别为主的多层目录结构，将所有信息保存到json文件中，方便数据处理 
   交互和显示 
   
  #!user/bin/env python
# -*- encoding=utf-8 -*-
import os
import re
import requests
import json
import random
from xm_sign import get_sign

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
                         " AppleWebKit/537.36 (KHTML, like Gecko) "
                         "Chrome/81.0.4044.138 Safari/537.36",
           "xm-sign": get_sign()}
root_url = 'https://www.ximalaya.com'

proxies = ['http://180.124.87.176:4216',
           'http://182.108.45.238:1624',
           'http://180.123.95.218:4216',
           'http://115.219.115.184:3000']


# url拼接函数
def url_join(*url_list):
    full_url = ''
    for url in url_list:
        url = url.strip('/')
        full_url += url + "/"
    return full_url


# 基本的网页请求函数
def get_response(url, referer=None):
    try:
        headers["xm-sign"] = get_sign()
        headers['Referer'] = referer
        response = requests.get(url, headers=headers, proxies={'http': random.choice(proxies)}, timeout=None)
        # response.raise_for_status()
        # print(response.status_code)
        response.encoding = response.apparent_encoding
        return response
    except:
        # 失败则重新更新xm-sign一次
        print('被识别！去掉代理')
        headers["xm-sign"] = get_sign()
        response = requests.get(url, headers=headers, timeout=None)
        response.encoding = response.apparent_encoding
        return response


'''首先爬取全部分类，返回为最小分类的URL字典，外层嵌套列表，以最小分类为列表元素，[{url,板块,大类,小类},{...},...]
例如{'url':'https://www.ximalaya.com/yinyue/reci310/','plate':'娱乐',
'category':'音乐','subcategory':'纯音乐'}代表 纯音乐 这个小类'''


def get_category():
    print('获取目录中...')
    category = list()
    category_url = url_join(root_url, 'category')
    response = get_response(category_url)
    plate_list = response.text.split('')[1:]
    category_number = 0
    for plate_html in plate_list:
        plate_title = re.search('', plate_html).group(1)
        category_list = plate_html.split('')[1:]
        category_number += len(category_list)
        for category_html in category_list:
            category_title = re.search('.*?>(.*?)', category_html).group(1)
            subcategory_list = re.findall('(.*?)', category_html)
            for subcategory in subcategory_list:
                unit = {'url': url_join(root_url, subcategory[0]), 'plate': plate_title,
                        'category': category_title, 'subcategory': subcategory[1]}
                category.append(unit)
    print(f'获取到所有分类!\n{len(plate_list)}个板块，{category_number}个大类，一共有{len(category)}个小类')
    return category


'''接着爬取一个分类所有页面的全部音频专辑，返回为音频专辑的URL字典，外层嵌套列表，[{title,url,author,author_url},{...},...]
例如{'url':'https://www.ximalaya.com/youshengshu/35712959/','title':'一吻成瘾：总裁撩不起！|爆笑甜宠免费多人小说',
'author':'半纸鸿鹊','author_url':'/zhubo/13120911/'}代表一个专辑'''


def get_album(category_url):
    print('获取此分类所有专辑中...')
    album = list()
    free_url = url_join(category_url, 'mr132t2722/')
    response = get_response(free_url, referer=category_url)
    page_number = re.search(r'(.*?)
', response.text, re.S)
        for album_html in album_list:
            album_data = re.search('', album_html)
            author_data = re.search('', album_html)
            unit = {'url': url_join(root_url, album_data.group(2)), 'title': album_data.group(1),
                    'author': author_data.group(1), 'author_url': url_join(root_url, author_data.group(2))}
            album.append(unit)
            print(unit)
    print('此分类所有专辑获取完毕！')
    return album


'''接着爬取一个专辑所有页面的全部音频id，构造URL请求服务器返回数据，找到m4a地址。
返回为此专辑所有音频的URL字典嵌套列表,[{m4a_id,m4a_url,title},{...},...]
例如{'m4a_id':'294025103','title':'杜克 - 天赐的礼物','m4a_url':
'https://aod.cos.tx.xmcdn.com/group79/M0A/2C/D7/wKgPEF61_vTQesvyACFUpjNDga8099.m4a'}
代表一个音频'''


def get_m4a(album_url):
    print('获取此专辑所有音频中...')
    m4a = list()
    response = get_response(album_url, referer=album_url)
    page_number = re.search(r'', response.text, re.S)
        for m4a_data in m4a_list:
            title = m4a_data[0]
            m4a_id = m4a_data[1].split('/')[-1]
            full_url = f'https://www.ximalaya.com/revision/play/v1/audio?id={m4a_id}&ptype=1'
            m4a_url = re.search('"src":"(.*?)"', get_response(full_url, album_url).text).group(1)
            unit = {'m4a_id': m4a_id, 'title': title, 'm4a_url': m4a_url}
            m4a.append(unit)
            print(unit)
    print('此专辑所有音频获取完毕！')
    return m4a


def download_m4a(path, url, referer):
    if not os.path.exists(path):
        print(f'开始下载：{path}')
        with open(path, 'wb') as f:
            f.write(get_response(url, referer=referer).content)
        print(f'下载完毕：{path}')
    else:
        print('此音频已下载。')


# 整合各部分函数实现遍历爬取，跳过已经爬取到本地的，更新网站的新内容，可指定范围爬取，也可全站爬取，同时保存信息到json文件
def main(root_path):
    if not os.path.exists(root_path):
        os.makedirs(root_path)
    flag = False
    limit_list = input('请输入要限制爬取的类，可选目录中的所有大中小类别'
                       '(多个请用空格隔开,若无请按回车键)：\n').strip(' ').split(' ')
    category = get_category()
    if limit_list == ['']:
        flag = True
    with open(os.path.join(root_path, 'category.json'), 'w', encoding='utf-8') as f:
        json.dump(category, f, indent=4, separators=(',', ':'))
    for unit_limit in limit_list:
        for unit_category in category:
            if unit_limit in str(unit_category) or flag:
                print(f'正在爬取的类:{unit_category}')
                current_path = os.path.join(root_path, unit_category['plate'], unit_category['category'],
                                            unit_category['subcategory'])
                if not os.path.exists(current_path):
                    os.makedirs(current_path)
                album = get_album(unit_category['url'])
                with open(os.path.join(current_path, 'album.json'), 'w', encoding='utf-8') as f:
                    json.dump(album, f, indent=4, separators=(',', ':'))
                for unit_album in album:
                    album_name = rename(unit_album['title'])
                    print(f'正在爬取的专辑:{album_name}')
                    album_path = os.path.join(current_path, album_name)
                    if not os.path.exists(album_path):
                        os.makedirs(album_path)
                    m4a_list = get_m4a(unit_album['url'])
                    with open(os.path.join(album_path, 'm4a.json'), 'w', encoding='utf-8') as f:
                        json.dump(m4a_list, f, indent=4, separators=(',', ':'))
                    for m4a in m4a_list:
                        m4a_name = rename(m4a['title'])
                        m4a_path = os.path.join(album_path, f'{m4a_name}.m4a')
                        download_m4a(m4a_path, m4a['m4a_url'], unit_album['url'])


def rename(name):
    new_name = re.sub(r'\s|\?|"|<|>|\*|\||:|', '', name)
    return new_name


if __name__ == "__main__":
    data_path = input('请输入数据存储的根目录：\n')
    if data_path == '':
        data_path = 'G:\喜马拉雅'
    main(data_path)
 
  自己修改后的xm_sign文件 
  import requests
import time
import hashlib
import random

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36"}


def get_server_time():
    # 获取喜马拉雅服务器的时间戳
    # 这个地址就是返回服务器时间戳的接口
    server_lime_url = "https://www.ximalaya.com/revision/time"
    response = requests.get(server_lime_url, headers=headers)
    return response.text


def create_sign(server_time):
    """
    生成 xm-sign
    规则是 md5(ximalaya-服务器时间戳)(100以内随机数)服务器时间戳(100以内随机数)现在时间戳
    """
    now_time = str(round(time.time() * 1000))
    sign = str(hashlib.md5("himalaya-{}".format(server_time).encode()).hexdigest()) + "({})".format(
        str(round(random.random() * 100))) + server_time + "({})".format(str(round(random.random() * 100))) + now_time
    # 将xm-sign添加到请求头中
    headers["xm-sign"] = sign
    return sign


def get_sign():
    server_time = get_server_time()
    sign = create_sign(server_time)
    return sign


    
        你可能感兴趣的:(爬虫修炼和实战,python,数据挖掘,爬虫)
        
            
                
                    情绪觉察日记第37天
                        露露_e800

                        今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
                    
                    芦花鞋一四
                        许叶晗

                        又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
                    
                    关于沟通这件事，项目经理不需要每次都面对面进行
                        流程大师兄

                        很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
                    
                    机器学习与深度学习间关系与区别
                        ℒℴѵℯ心·动ꦿ໊ོ꫞
人工智能学习深度学习python
                        一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
                    
                    【iOS】MVC设计模式
                        Magnetic_h
iosmvc设计模式objective-c学习ui
                        MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
                    
                    一百九十四章. 自相矛盾
                        巨木擎天

                        唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
                    
                    UI学习——cell的复用和自定义cell
                        Magnetic_h
ui学习
                        目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
                    
                    element实现动态路由+面包屑
                        软件技术NINI
vue案例vue.js前端
                        el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
                    
                    地推话术，如何应对地推过程中家长的拒绝
                        校师学

                        相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
                    
                    谢谢你们，爱你们！
                        鹿游儿

                        昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
                    
                    C语言如何定义宏函数？
                        小九格物
c语言
                        在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
                    
                    微服务下功能权限与数据权限的设计与实现
                        nbsaas-boot
微服务java架构
                        在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
                    
                    理解Gunicorn：Python WSGI服务器的基石
                        范范0825
ipythonlinux运维
                        理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
                    
                    小丽成长记（四十三）
                        玲玲54321

                        小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
                    
                    2021年12月19日，春蕾教育集团团建活动感受——黄晓丹
                        黄错错加油

                        感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
                    
                    Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断
                        尐尐呅

                        结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
                    
                    c++ 的iostream 和 c++的stdio的区别和联系
                        黄卷青灯77
c++算法开发语言iostreamstdio
                        在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
                    
                    《投行人生》读书笔记
                        小蘑菇的树洞

                        《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
                    
                    Linux下QT开发的动态库界面弹出操作（SDL2）
                        13jjyao
QT类qt开发语言sdl2linux
                        需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
                    
                    绘本讲师训练营【24期】8/21阅读原创《独生小孩》
                        1784e22615e0

                        24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
                    
                    店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码
                        说私域
人工智能小程序
                        摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
                    
                    消息中间件有哪些常见类型
                        xmh-sxh-1314
java
                        消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
                    
                    ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）
                        研学随笔
arcgis经验分享
                        我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
                    
                    水平垂直居中的几种方法（总结）
                        LJ小番茄
CSS_玄学语言htmljavascript前端csscss3
                        1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
                    
                    本周第二次约练
                        2cfbdfe28a51

                        中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
                    
                    放下是一段成长的修行
                        小莳玥

                        人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
                    
                    回溯 Leetcode 332 重新安排行程
                        mmaerd
Leetcode刷题学习记录leetcode算法职场和发展
                        重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
                    
                    Python数据分析与可视化实战指南
                        William数据分析
pythonpython数据
                        在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
                    
                    每日一题——第八十四题
                        互联网打工人no1
C语言程序设计每日一练c语言
                        题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
                    
                    网易严选官方旗舰店，优质商品，卓越服务
                        高省_飞智666600

                        网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
                    
                                [黑洞与暗粒子]没有光的世界
                                    comsci

                                         无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算 
 
     但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 
 
     那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 
 
&nbs
                                
                                jQuery Lazy Load 图片延迟加载
                                    aijuans
jquery
                                    基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。 
对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。 
 
 版本： 
 

  jQuery v1.4.4+ 
 

  jQuery Lazy Load v1.7.2 
 
 
 注意事项： 
 
 
 需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
                                
                                使用Jodd的优点
                                    Kai_Ge
jodd
                                    1.  简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 
2.  简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 
3.  对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。 
  
使用方法简介
                                
                                jpa Query转hibernate Query
                                    120153216
Hibernate
                                    public List<Map> getMapList(String hql,
			Map map) {
		org.hibernate.Query jpaQuery = entityManager.createQuery(hql);
		if (null != map) {
			for (String parameter : map.keySet()) {
				jp
                                
                                Django_Python3添加MySQL/MariaDB支持
                                    2002wmj
mariaDB
                                    现状 
首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案 
首先据MySQL文档[3]说，自从MySQL
                                
                                在SQLSERVER中查找消耗IO最多的SQL
                                    357029540
SQL Server
                                    返回做IO数目最多的50条语句以及它们的执行计划。 
select top 50   
 
(total_logical_reads/execution_count) as avg_logical_reads,  
 
(total_logical_writes/execution_count) as avg_logical_writes,  
 
(tot
                                
                                spring UnChecked 异常 官方定义！
                                    7454103
spring
                                      如果你接触过spring的 事物管理！那么你必须明白 spring的 非捕获异常！ 即 unchecked 异常！ 因为 spring 默认这类异常事物自动回滚！！ 
 
 
 
 
public static boolean isCheckedException(Throwable ex)
    {
   return !(ex instanceof RuntimeExcep
                                
                                mongoDB 入门指南、示例
                                    adminjun
javamongodb操作
                                    一、准备工作 
1、 下载mongoDB 
下载地址：http://www.mongodb.org/downloads 
选择合适你的版本 
相关文档：http://www.mongodb.org/display/DOCS/Tutorial 
2、 安装mongoDB 
A、 不解压模式： 
将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
                                
                                CUDA 5 Release Candidate Now Available
                                    aijuans
CUDA
                                    The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
                                
                                Essential Studio for WinRT网格控件测评
                                    Axiba
JavaScripthtml5
                                    Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。 
 
 
网格控件功能 
1、
                                
                                java 获取windows系统安装的证书或证书链
                                    bewithme
windows
                                      
    有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库  。 
有关证书链的解释可以查看此处 。 
  
public static void main(String[] args) {
		SunMSCAPI providerMSCAPI = new SunMSCAPI();
		S
                                
                                NoSQL数据库之Redis数据库管理(set类型和zset类型)
                                    bijian1013
redis数据库NoSQL
                                    4.sets类型 
        Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 
        sadd：向名称为key的set中添加元
                                
                                异常捕获何时用Exception，何时用Throwable
                                    bingyingao

                                    用Exception的情况 
 try { 
       //可能发生空指针、数组溢出等异常 
        } catch (Exception e) { 
         
                                
                                【Kafka四】Kakfa伪分布式安装
                                    bit1129
kafka
                                    在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证   1. 安装步骤 
  
Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
                                
                                Project Euler
                                    bookjovi
haskell
                                    Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。 
    看看problem 1吧： 
 Add all the natural num
                                
                                Java-Collections Framework学习与总结-ArrayDeque
                                    BrokenDreams
Collections
                                            表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。 
        这篇要看一下java.util.ArrayDeque。从命名上看
                                
                                读《研磨设计模式》-代码笔记-装饰模式-Decorator
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 



import java.io.BufferedOutputStream;
import java.io.DataOutputStream;
import java.io.FileOutputStream;
import java.io.Fi
                                
                                Maven学习(一)
                                    chenyu19891124
Maven私服
                                        学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
                                
                                [原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充
                                    comsci
算法工作PHP搜索引擎嵌入式
                                    本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点 
 
 节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 
 
 需要解决的问题：已知分支
                                
                                Linux中用shell获取昨天、明天或多天前的日期
                                    daizj
linuxshell上几年昨天获取上几个月
                                    在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 
 
 
# 获取昨天 
date -d 'yesterday'  # 或 date -d 'last day' 
# 获取明天 
date -d 'tomorrow'   # 或 date -d 'next day' 
# 获取上个月 
date -d 'last month' 
# 
                                
                                我所理解的云计算
                                    dongwei_6688
云计算
                                          在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： 
 
        Cloud computing is a phrase used to describe a variety of computing co
                                
                                YII CMenu配置
                                    dcj3sjt126com
yii
                                    Adding id and class names to CMenu 
We use the id and htmlOptions to accomplish this. Watch.   
//in your view
$this->widget('zii.widgets.CMenu', array(
	'id'=>'myMenu',
	'items'=>$this-&g
                                
                                设计模式之静态代理与动态代理
                                    come_for_dream
设计模式
                                    静态代理与动态代理 
        代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
                                
                                【转】理解Javascript 系列
                                    gcc2ge
JavaScript
                                    理解Javascript_13_执行模型详解 
 
  摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
                                
                                Subsets II
                                    hcx2013
set
                                    Given a collection of integers that might contain duplicates, nums, return all possible subsets. 
Note: 
 
 Elements in a subset must be in non-descending order. 
 The solution set must not conta
                                
                                Spring4.1新特性——Spring缓存框架增强
                                    jinnianshilongnian
spring4
                                    目录 
Spring4.1新特性——综述 
Spring4.1新特性——Spring核心部分及其他 
Spring4.1新特性——Spring缓存框架增强 
Spring4.1新特性——异步调用和事件机制的异常处理 
Spring4.1新特性——数据库集成测试脚本初始化 
Spring4.1新特性——Spring MVC增强 
Spring4.1新特性——页面自动化测试框架Spring MVC T
                                
                                shell嵌套expect执行命令
                                    liyonghui160com

                                      
  
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 
  系统:centos 5.x 
  
1.先安装expect 
yum -y install expect 
  
2.脚本内容: 
cat auto_svn.sh 
  
#!/bin/bash

                                
                                Linux实用命令整理
                                    pda158
linux
                                    0. 基本命令   　　linux 基本命令整理   　 
　1. 压缩 解压   　　tar -zcvf a.tar.gz a   #把a压缩成a.tar.gz   　　tar -zxvf a.tar.gz     #把a.tar.gz解压成a   　 
　2. vim小结   　　2.1 vim替换   　　:m,ns/word_1/word_2/gc  
                                
                                独立开发人员通向成功的29个小贴士
                                    shoothao
独立开发
                                      
 概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。  
   
 
 明白你从事独立开发的原因和目的。 
 保持坚持制定计划的好习惯。 
 万事开头难，第一份订单是关键。 
 培养多元化业务技能。 
 提供卓越的服务和品质。 
 谨小慎微。 
 营销是必备技能。 
 学会组织，有条理的工作才是最有效率的。 
 “独立
                                
                                JAVA中堆栈和内存分配原理
                                    uule
java
                                    1、栈、堆  
1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)

一、常用函数和库

二、网站结构分析

首页 https://www.ximalaya.com/

全部分类 https://www.ximalaya.com/category/

有声书

有声书

.?>(.?)

.?>(.?)

基本分类 https://www.ximalaya.com/youshengshu/reci231/

专辑页面 https://www.ximalaya.com/yinyue/24041806/

音频页面 https://www.ximalaya.com/yinyue/24041806/294025103

xm-sign生成

三、代码架构和实现

.?>(.?)

你可能感兴趣的:(爬虫修炼和实战,python,数据挖掘,爬虫)