Bigcrab__

微博数据采集，微博爬虫，微博网页解析，完整代码（主体内容+评论内容）

如果失效了，可以私信我保证及时更新

2023年9月12号更新版
- 完整代码
- - 微博主体内容
  - 微博评论内容
  - - 一级评论内容
    - 二级评论内容
- 微博主体内容获取流程
- 微博评论内容获取流程
- - 一级评论内容
  - 二级评论内容

2023年9月12号更新版

参加新闻比赛，需要获取大众对某一方面的态度信息，因此选择微博作为信息收集的一部分

完整代码

微博主体内容

import time
import requests
import os
from bs4 import BeautifulSoup
import pandas as pd

def get_the_list_response(q='话题', n='1', p='页码'):
    cookies = {
        '_s_tentry': 'weibo.com',
        'Apache': '1278126679099.0298.1694199077980',
        'SINAGLOBAL': '1278126679099.0298.1694199077980',
        'ULV': '1694199078024:1:1:1:1278126679099.0298.1694199077980:',
        'WBtopGlobal_register_version': '2023090902',
        'SUB': '_2A25J_x3DDeRhGeFO61AY8i_NwzyIHXVqjQgLrDV8PUNbmtAGLVCskW9NQYCXlgzxtb2agpoRvT9bg0g36mETgKHx',
        'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KzhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
        'ALF': '1725735187',
        'SSOLoginState': '1694199187',
        'PC_TOKEN': '5a0a002501',
    }

    headers = {
        'authority': 's.weibo.com',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'referer': 'https://s.weibo.com/weibo?q=%23%E6%96%B0%E9%97%BB%E5%AD%A6%E6%95%99%E6%8E%88%E6%80%92%E6%80%BC%E5%BC%A0%E9%9B%AA%E5%B3%B0%23&nodup=1',
        'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
    }
    
    params = {
        'q': q,
        'nodup': n,
        'page': p,
    }
    response = requests.get('https://s.weibo.com/weibo', params=params, cookies=cookies, headers=headers)
    return response

def parse_the_list(text):
    soup = BeautifulSoup(text, 'lxml')
    divs = soup.select('div[action-type="feed_list_item"]')
    lst = []
    for div in divs:
        mid = div.get('mid')
        time = div.select('div.card-feed > div.content > div.from > a:first-of-type')
        if time:
            time = time[0].string.strip()
        else:
            time = None
        p = div.select('div.card-feed > div.content > p:last-of-type')
        if p:
            p = p[0].strings
            content = '\n'.join([para.replace('\u200b', '').strip() for para in list(p)]).strip()
        else:
            content = None
        star = div.select('ul > li > a > button > span.woo-like-count')
        if star:
            star = list(star[0].strings)[0]
        else:
            star = None
        lst.append((mid, content, star, time))
    df = pd.DataFrame(lst, columns=['mid', 'content', 'star', 'time'])
    return df

def get_the_list(q, p):
    df_list = []
    for i in range(1, p+1):
        response = get_the_list_response(q=q, p=i)
        if response.status_code == 200:
            df = parse_the_list(response.text)
            df_list.append(df)
            print(f'第{i}页解析成功！', flush=True)
            
    return df_list
    
if __name__ == '__main__':
	q = '#华为发布会#'
	p = 20
	df_list = get_the_list(q, p)
	pd.concat(df_list).to_excel(f'{q}.xlsx', index=False)

微博评论内容

一级评论内容

import requests
import pandas as pd
import json

page_num = 0

def get_content_1(uid, mid, the_first=True, max_id=None):
   cookies = {
       'SINAGLOBAL': '1278126679099.0298.1694199077980',
       'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
       'XSRF-TOKEN': 'F2EEQZrINBfzB2HPPxqTMQJ_',
       'ALF': '1697089355',
       'SSOLoginState': '1694497354',
       'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm72ymhw36b_mHClr0ewNZN4ShIPpOcL0IcsUXxdc8Hjcc.',
       'SUB': '_2A25J-4obDeRhGeFO61AY8i_NwzyIHXVrcPzTrDV8PUNbmtAGLW7NkW9NQYCXlkwnjDGcFQsKW0YQuGxnZHHUKcwL',
       '_s_tentry': 'weibo.com',
       'Apache': '9940157047236.127.1694497456654',
       'ULV': '1694497456684:5:5:1:9940157047236.127.1694497456654:1694273044323',
       'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynFwkvQws-CZ4L-m6NLVjmDKUuHrZR3UM90hhPWHorFbkpQx1WZuZ2yCA73LeWLQYNA==',
   }

   headers = {
       'authority': 'weibo.com',
       'accept': 'application/json, text/plain, */*',
       'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
       'client-version': 'v2.43.30',
       'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
       'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
       'sec-ch-ua-mobile': '?0',
       'sec-ch-ua-platform': '"Windows"',
       'sec-fetch-dest': 'empty',
       'sec-fetch-mode': 'cors',
       'sec-fetch-site': 'same-origin',
       'server-version': 'v2023.09.08.4',
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
       'x-requested-with': 'XMLHttpRequest',
       'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
   }
   
   params = {
       'is_reload': '1',
       'id': f'{mid}',
       'is_show_bulletin': '2',
       'is_mix': '0',
       'count': '20',
       'uid': f'{uid}',
       'fetch_level': '0',
       'locale': 'zh-CN',
   }

   if not the_first:
       params['flow'] = 0
       params['max_id'] = max_id
   else:
       pass
   response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params, cookies=cookies, headers=headers)
   return response

def get_content_2(get_content_1_url):
   cookies = {
       'SINAGLOBAL': '1278126679099.0298.1694199077980',
       'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
       'XSRF-TOKEN': 'F2EEQZrINBfzB2HPPxqTMQJ_',
       'ALF': '1697089355',
       'SSOLoginState': '1694497354',
       'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm72ymhw36b_mHClr0ewNZN4ShIPpOcL0IcsUXxdc8Hjcc.',
       'SUB': '_2A25J-4obDeRhGeFO61AY8i_NwzyIHXVrcPzTrDV8PUNbmtAGLW7NkW9NQYCXlkwnjDGcFQsKW0YQuGxnZHHUKcwL',
       '_s_tentry': 'weibo.com',
       'Apache': '9940157047236.127.1694497456654',
       'ULV': '1694497456684:5:5:1:9940157047236.127.1694497456654:1694273044323',
       'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynFwkvQws-CZ4L-m6NLVjmDKUuHrZR3UM90hhPWHorFbkpQx1WZuZ2yCA73LeWLQYNA==',
   }

   headers = {
       'authority': 'weibo.com',
       'accept': '*/*',
       'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
       'content-type': 'multipart/form-data; boundary=----WebKitFormBoundaryNs1Toe4Mbr8n1qXm',
       'origin': 'https://weibo.com',
       'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
       'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
       'sec-ch-ua-mobile': '?0',
       'sec-ch-ua-platform': '"Windows"',
       'sec-fetch-dest': 'empty',
       'sec-fetch-mode': 'cors',
       'sec-fetch-site': 'same-origin',
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
       'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
   }

   s = '{"name":"https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4944997453660231&is_show_bulletin=2&is_mix=0&max_id=139282732792325&count=20&uid=1762257041&fetch_level=0&locale=zh-CN","entryType":"resource","startTime":20639.80000001192,"duration":563,"initiatorType":"xmlhttprequest","nextHopProtocol":"h2","renderBlockingStatus":"non-blocking","workerStart":0,"redirectStart":0,"redirectEnd":0,"fetchStart":20639.80000001192,"domainLookupStart":20639.80000001192,"domainLookupEnd":20639.80000001192,"connectStart":20639.80000001192,"secureConnectionStart":20639.80000001192,"connectEnd":20639.80000001192,"requestStart":20641.600000023842,"responseStart":21198.600000023842,"firstInterimResponseStart":0,"responseEnd":21202.80000001192,"transferSize":7374,"encodedBodySize":7074,"decodedBodySize":42581,"responseStatus":200,"serverTiming":[],"dns":0,"tcp":0,"ttfb":557,"pathname":"https://weibo.com/ajax/statuses/buildComments","speed":0}'
   s = json.loads(s)
   s['name'] = get_content_1_url
   s = json.dumps(s)
   data = f'------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="entry"\r\n\r\n{s}\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="request_id"\r\n\r\n\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm--\r\n'
   response = requests.post('https://weibo.com/ajax/log/rum', cookies=cookies, headers=headers, data=data)
   return response.text

def get_once_data(uid, mid, the_first=True, max_id=None):

   respones_1 = get_content_1(uid, mid, the_first, max_id)
   url = respones_1.url
   response_2 = get_content_2(url)
   df = pd.DataFrame(respones_1.json()['data'])
   max_id = respones_1.json()['max_id']
   return max_id, df

# 自定义
uid = '2557129567'
mid = '4945149706373161'
page = 10

# 初始化
df_list = []
max_id = ''

for i in range(page):
   if i == 0:
       max_id, df = get_once_data(uid=uid, mid=mid)
   else:
       max_id, df = get_once_data(uid=uid, mid=mid, the_first=False, max_id=max_id)
   if df.shape[0] == 0:
       break
   else:
       df_list.append(df)
       print(f'第{i}页解析完毕！max_id:{max_id}')

df = pd.concat(df_list).astype(str).drop_duplicates()
df.to_excel(f'{mid}.xlsx', index=False)

二级评论内容

import requests
import pandas as pd
import json
import os

page_num = 0

cookies = {
   'SINAGLOBAL': '1278126679099.0298.1694199077980',
   'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
   'XSRF-TOKEN': '47NC7wE7TMhcqfh1K-4bacK-',
   'ALF': '1697384140',
   'SSOLoginState': '1694792141',
   'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm7IJXuI95RLbWORIsozuK4Ohxs_boeOIedEcczDT3uSAI.',
   'SUB': '_2A25IAAmdDeRhGeFO61AY8i_NwzyIHXVrdHxVrDV8PUNbmtAGLU74kW9NQYCXlmPtQ1DG4kl_wLzqQqkPl_Do1sZu',
   '_s_tentry': 'weibo.com',
   'Apache': '3760261250067.669.1694792155706',
   'ULV': '1694792155740:8:8:4:3760261250067.669.1694792155706:1694767801057',
   'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynKVOM5I_Fsy9GECAYh38R4DQ-gq7M5XOe4y1gOUqvm1hOK60dUKvrA5hLuONCL2ing==',
}


def get_content_1(uid, mid, the_first=True, max_id=None):

  headers = {
   'authority': 'weibo.com',
   'accept': 'application/json, text/plain, */*',
   'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
   'client-version': 'v2.43.32',
   'referer': 'https://weibo.com/1887344341/NhAosFSL4',
   'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
   'sec-ch-ua-mobile': '?0',
   'sec-ch-ua-platform': '"Windows"',
   'sec-fetch-dest': 'empty',
   'sec-fetch-mode': 'cors',
   'sec-fetch-site': 'same-origin',
   'server-version': 'v2023.09.14.1',
   'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
   'x-requested-with': 'XMLHttpRequest',
   'x-xsrf-token': '-UX-uyKz0jmzbTnlkyDEMvSO',
}
  
  
  params = {
   'is_reload': '1',
   'id': f'{mid}',
   'is_show_bulletin': '2',
   'is_mix': '1',
   'fetch_level': '1',
   'max_id': '0',
   'count': '20',
   'uid': f'{uid}',
   'locale': 'zh-CN',
}

  if not the_first:
      params['flow'] = 0
      params['max_id'] = max_id
  else:
      pass
  response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params, cookies=cookies, headers=headers)
  return response

def get_content_2(get_content_1_url):

  headers = {
      'authority': 'weibo.com',
      'accept': '*/*',
      'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
      'content-type': 'multipart/form-data; boundary=----WebKitFormBoundaryNs1Toe4Mbr8n1qXm',
      'origin': 'https://weibo.com',
      'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
      'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
      'sec-ch-ua-mobile': '?0',
      'sec-ch-ua-platform': '"Windows"',
      'sec-fetch-dest': 'empty',
      'sec-fetch-mode': 'cors',
      'sec-fetch-site': 'same-origin',
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
      'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
  }

  s = '{"name":"https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4944997453660231&is_show_bulletin=2&is_mix=0&max_id=139282732792325&count=20&uid=1762257041&fetch_level=0&locale=zh-CN","entryType":"resource","startTime":20639.80000001192,"duration":563,"initiatorType":"xmlhttprequest","nextHopProtocol":"h2","renderBlockingStatus":"non-blocking","workerStart":0,"redirectStart":0,"redirectEnd":0,"fetchStart":20639.80000001192,"domainLookupStart":20639.80000001192,"domainLookupEnd":20639.80000001192,"connectStart":20639.80000001192,"secureConnectionStart":20639.80000001192,"connectEnd":20639.80000001192,"requestStart":20641.600000023842,"responseStart":21198.600000023842,"firstInterimResponseStart":0,"responseEnd":21202.80000001192,"transferSize":7374,"encodedBodySize":7074,"decodedBodySize":42581,"responseStatus":200,"serverTiming":[],"dns":0,"tcp":0,"ttfb":557,"pathname":"https://weibo.com/ajax/statuses/buildComments","speed":0}'
  s = json.loads(s)
  s['name'] = get_content_1_url
  s = json.dumps(s)
  data = f'------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="entry"\r\n\r\n{s}\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="request_id"\r\n\r\n\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm--\r\n'
  response = requests.post('https://weibo.com/ajax/log/rum', cookies=cookies, headers=headers, data=data)
  return response.text

def get_once_data(uid, mid, the_first=True, max_id=None):

  respones_1 = get_content_1(uid, mid, the_first, max_id)
  url = respones_1.url
  response_2 = get_content_2(url)
  df = pd.DataFrame(respones_1.json()['data'])
  max_id = respones_1.json()['max_id']
  return max_id, df

if __name__ == '__main__':
   # 得到的一级评论信息
   df = pd.read_csv('信息汇总.csv')
   df = df[df['评论数']>0]
   
   for i in range(df.shape[0]):
       mid = df.iloc[i].mid
       uid = df.iloc[i].uid
       name = df.iloc[i]['话题']
       page = 100
       
       if not os.path.exists(f'./二级评论数据/{mid}-{uid}.csv'):
           print(f'不存在 ./二级评论数据/{mid}-{uid}.csv')
           df_list = []
           max_id = ''
   
           for j in range(page):
               if j == 0:
                   max_id, df_ = get_once_data(uid=uid, mid=mid)
               else:
                   max_id, df_ = get_once_data(uid=uid, mid=mid, the_first=False, max_id=max_id)
               if df_.shape[0] == 0 or max_id == 0:
                   break
               else:
                   df_list.append(df_)
                   print(f'{mid}第{j}页解析完毕！max_id:{max_id}')
           if df_list:
               outdf = pd.concat(df_list).astype(str).drop_duplicates()
               outdf['话题'] = name
               print(f'文件长度为{outdf.shape[0]}，文件保存为 ./二级评论数据/{mid}-{uid}.csv')
               outdf.to_csv(f'./二级评论数据/{mid}-{uid}.csv', index=False)
           else:
               pass
       else:
           print(f'存在 ./二级评论数据/{mid}-{uid}.csv')

微博主体内容获取流程

以华为发布会这一热搜为例子，我们可以通过开发者模式得到信息基本都包含在下面的 div tag中

我们通过网络这一模块进行解析，发现信息基本都存储在 %23 开头的请求之中，接下来分析一下响应内容



这里可以看出响应内容为 html 格式，因此我们可以用xpath或者css来进行解析，这里我们使用BeautifulSoup来解析，解析代码如下：

soup = BeautifulSoup(response.text, 'lxml')
divs = soup.select('div[action-type="feed_list_item"]')
lst = []
for div in divs:
    mid = div.get('mid')
    uid = div.select('div.card-feed > div.avator > a')
    if uid:
        uid = uid[0].get('href').replace('.com/', '?').split('?')[1]
    else:
        uid = None
    time = div.select('div.card-feed > div.content > div.from > a:first-of-type')
    if time:
        time = time[0].string.strip()
    else:
        time = None
    p = div.select('div.card-feed > div.content > p:last-of-type')
    if p:
        p = p[0].strings
        content = '\n'.join([para.replace('\u200b', '').strip() for para in list(p)]).strip()
    else:
        content = None
    star = div.select('ul > li > a > button > span.woo-like-count')
    if star:
        star = list(star[0].strings)[0]
    else:
        star = None
    lst.append((mid, uid, content, star, time))
pd.DataFrame(lst, columns=['mid', 'uid', 'content', 'star', 'time'])

我们可以获得如下结果：

这里的 mid ， uid 两个参数是为了下一节获取微博评论内容需要用到的参数，这里不多解释，如果不需要删除就好，接下来我们看一下请求内容。在开始之前，为了对请求解析方便，在这里我们点击一下 查看全部搜索结果

可以发现一个以 weibo 开头的新的请求，和 %23 开头的请求内容类似，但是带了参数 q 和nodup ，再翻页之后我们可以得到 page 这一个参数

我的解析如下：

1. q:话题
2. nudup:是否展示完整内容
3. page:页码

然后可以对这个请求进行模拟，写入 python 代码中，结合之前的解析，发现内容获取 成功！

完整代码如下：

import time
import requests
import os
from bs4 import BeautifulSoup
import pandas as pd

def get_the_list_response(q='#华为发布会#', n='1', p='2'):
    cookies = {
        '_s_tentry': 'weibo.com',
        'Apache': '1278126679099.0298.1694199077980',
        'SINAGLOBAL': '1278126679099.0298.1694199077980',
        'ULV': '1694199078024:1:1:1:1278126679099.0298.1694199077980:',
        'WBtopGlobal_register_version': '2023090902',
        'SUB': '_2A25J_x3DDeRhGeFO61AY8i_NwzyIHXVqjQgLrDV8PUNbmtAGLVCskW9NQYCXlgzxtb2agpoRvT9bg0g36mETgKHx',
        'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KzhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
        'ALF': '1725735187',
        'SSOLoginState': '1694199187',
        'PC_TOKEN': '5a0a002501',
    }

    headers = {
        'authority': 's.weibo.com',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'referer': 'https://s.weibo.com/weibo?q=%23%E6%96%B0%E9%97%BB%E5%AD%A6%E6%95%99%E6%8E%88%E6%80%92%E6%80%BC%E5%BC%A0%E9%9B%AA%E5%B3%B0%23&nodup=1',
        'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
    }
    
    params = {
        'q': q,
        'nodup': n,
        'page': p,
    }
    response = requests.get('https://s.weibo.com/weibo', params=params, cookies=cookies, headers=headers)
    return response

def parse_the_list(text):
    soup = BeautifulSoup(text, 'lxml')
    divs = soup.select('div[action-type="feed_list_item"]')
    lst = []
    for div in divs:
        mid = div.get('mid')
        time = div.select('div.card-feed > div.content > div.from > a:first-of-type')
        if time:
            time = time[0].string.strip()
        else:
            time = None
        p = div.select('div.card-feed > div.content > p:last-of-type')
        if p:
            p = p[0].strings
            content = '\n'.join([para.replace('\u200b', '').strip() for para in list(p)]).strip()
        else:
            content = None
        star = div.select('ul > li > a > button > span.woo-like-count')
        if star:
            star = list(star[0].strings)[0]
        else:
            star = None
        lst.append((mid, content, star, time))
    df = pd.DataFrame(lst, columns=['mid', 'content', 'star', 'time'])
    return df

def get_the_list(q, p):
    df_list = []
    for i in range(1, p+1):
        response = get_the_list_response(q=q, p=i)
        if response.status_code == 200:
            df = parse_the_list(response.text)
            df_list.append(df)
            print(f'第{i}页解析成功！', flush=True)
            
    return df_list
    
if __name__ == '__main__':
	q = '#华为发布会#'
	p = 20
	df_list = get_the_list(q, p)
	df_list.to_excel(f'{q}.xlsx', index=False)

微博评论内容获取流程

一级评论内容

上一节内容获取了微博主题内容，可以发现并没有什么难点，本来我以为都结束了，队长偏要评论内容，无奈我只好继续解析评论内容，接下来我们来获取微博评论内容，有一点点绕。

首先我们点开评论数较多的微博，然后点击 后面还有552条评论，点击查看

看到 < div class=“vue-recycle-scroller__item-wrapper” > 这个内容是我们想要的

和上一节一样来查找请求，发现 buildComments?is_reload=1&id= 这个请求包含了我们想要的信息，而且预览内容为 json 格式，省去了解析 html 的步骤，接下来只需要解析请求就ok了。

话不多说，往下滑动，多获得几个请求，对得到的请求，分析如下：

每次往下滑动都会出现两个请求，一个是 buildComments?flow=0&is_reload=1&id=49451497063731… ，一个是 rum 。同时 buildComments?flow=0&is_reload=1&id=49451497063731… 请求的参数发生了变化，第一次请求里面没有 flow 和 max_id 这两个参数，经过我一下午分析可以得到以下结果：

1. flow：判断是否第一次请求，第一次请求不能加
2. id：微博主体内容的id 上一节获取的mid
3. count：评论数
4. uid：微博主体内容的用户id 上一节获取的uid
5. max_id：上一次请求后最后一个评论的mid，第一次请求不能加
6. 其他参数保持不变
7. rum在buildComments之后验证请求是否人为发出，反爬机制
8. rum的参数围绕buildComments展开
9. rum构造完全凑巧，部分参数对结果无效，能用就行！

完整代码如下：

import requests
import pandas as pd
import json

page_num = 0

def get_content_1(uid, mid, the_first=True, max_id=None):
   cookies = {
       'SINAGLOBAL': '1278126679099.0298.1694199077980',
       'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
       'XSRF-TOKEN': 'F2EEQZrINBfzB2HPPxqTMQJ_',
       'ALF': '1697089355',
       'SSOLoginState': '1694497354',
       'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm72ymhw36b_mHClr0ewNZN4ShIPpOcL0IcsUXxdc8Hjcc.',
       'SUB': '_2A25J-4obDeRhGeFO61AY8i_NwzyIHXVrcPzTrDV8PUNbmtAGLW7NkW9NQYCXlkwnjDGcFQsKW0YQuGxnZHHUKcwL',
       '_s_tentry': 'weibo.com',
       'Apache': '9940157047236.127.1694497456654',
       'ULV': '1694497456684:5:5:1:9940157047236.127.1694497456654:1694273044323',
       'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynFwkvQws-CZ4L-m6NLVjmDKUuHrZR3UM90hhPWHorFbkpQx1WZuZ2yCA73LeWLQYNA==',
   }

   headers = {
       'authority': 'weibo.com',
       'accept': 'application/json, text/plain, */*',
       'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
       'client-version': 'v2.43.30',
       'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
       'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
       'sec-ch-ua-mobile': '?0',
       'sec-ch-ua-platform': '"Windows"',
       'sec-fetch-dest': 'empty',
       'sec-fetch-mode': 'cors',
       'sec-fetch-site': 'same-origin',
       'server-version': 'v2023.09.08.4',
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
       'x-requested-with': 'XMLHttpRequest',
       'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
   }
   
   params = {
       'is_reload': '1',
       'id': f'{mid}',
       'is_show_bulletin': '2',
       'is_mix': '0',
       'count': '20',
       'uid': f'{uid}',
       'fetch_level': '0',
       'locale': 'zh-CN',
   }

   if not the_first:
       params['flow'] = 0
       params['max_id'] = max_id
   else:
       pass
   response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params, cookies=cookies, headers=headers)
   return response

def get_content_2(get_content_1_url):
   cookies = {
       'SINAGLOBAL': '1278126679099.0298.1694199077980',
       'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
       'XSRF-TOKEN': 'F2EEQZrINBfzB2HPPxqTMQJ_',
       'ALF': '1697089355',
       'SSOLoginState': '1694497354',
       'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm72ymhw36b_mHClr0ewNZN4ShIPpOcL0IcsUXxdc8Hjcc.',
       'SUB': '_2A25J-4obDeRhGeFO61AY8i_NwzyIHXVrcPzTrDV8PUNbmtAGLW7NkW9NQYCXlkwnjDGcFQsKW0YQuGxnZHHUKcwL',
       '_s_tentry': 'weibo.com',
       'Apache': '9940157047236.127.1694497456654',
       'ULV': '1694497456684:5:5:1:9940157047236.127.1694497456654:1694273044323',
       'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynFwkvQws-CZ4L-m6NLVjmDKUuHrZR3UM90hhPWHorFbkpQx1WZuZ2yCA73LeWLQYNA==',
   }

   headers = {
       'authority': 'weibo.com',
       'accept': '*/*',
       'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
       'content-type': 'multipart/form-data; boundary=----WebKitFormBoundaryNs1Toe4Mbr8n1qXm',
       'origin': 'https://weibo.com',
       'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
       'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
       'sec-ch-ua-mobile': '?0',
       'sec-ch-ua-platform': '"Windows"',
       'sec-fetch-dest': 'empty',
       'sec-fetch-mode': 'cors',
       'sec-fetch-site': 'same-origin',
       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
       'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
   }

   s = '{"name":"https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4944997453660231&is_show_bulletin=2&is_mix=0&max_id=139282732792325&count=20&uid=1762257041&fetch_level=0&locale=zh-CN","entryType":"resource","startTime":20639.80000001192,"duration":563,"initiatorType":"xmlhttprequest","nextHopProtocol":"h2","renderBlockingStatus":"non-blocking","workerStart":0,"redirectStart":0,"redirectEnd":0,"fetchStart":20639.80000001192,"domainLookupStart":20639.80000001192,"domainLookupEnd":20639.80000001192,"connectStart":20639.80000001192,"secureConnectionStart":20639.80000001192,"connectEnd":20639.80000001192,"requestStart":20641.600000023842,"responseStart":21198.600000023842,"firstInterimResponseStart":0,"responseEnd":21202.80000001192,"transferSize":7374,"encodedBodySize":7074,"decodedBodySize":42581,"responseStatus":200,"serverTiming":[],"dns":0,"tcp":0,"ttfb":557,"pathname":"https://weibo.com/ajax/statuses/buildComments","speed":0}'
   s = json.loads(s)
   s['name'] = get_content_1_url
   s = json.dumps(s)
   data = f'------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="entry"\r\n\r\n{s}\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="request_id"\r\n\r\n\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm--\r\n'
   response = requests.post('https://weibo.com/ajax/log/rum', cookies=cookies, headers=headers, data=data)
   return response.text

def get_once_data(uid, mid, the_first=True, max_id=None):

   respones_1 = get_content_1(uid, mid, the_first, max_id)
   url = respones_1.url
   response_2 = get_content_2(url)
   df = pd.DataFrame(respones_1.json()['data'])
   max_id = respones_1.json()['max_id']
   return max_id, df

# 自定义
uid = '2557129567'
mid = '4945149706373161'
page = 10

# 初始化
df_list = []
max_id = ''

for i in range(page):
   if i == 0:
       max_id, df = get_once_data(uid=uid, mid=mid)
   else:
       max_id, df = get_once_data(uid=uid, mid=mid, the_first=False, max_id=max_id)
   if df.shape[0] == 0:
       break
   else:
       df_list.append(df)
       print(f'第{i}页解析完毕！max_id:{max_id}')

df = pd.concat(df_list).astype(str).drop_duplicates()
df.to_excel(f'{mid}.xlsx', index=False)

结束！

二级评论内容

二级评论的流程和一级评论一样，不同的是参数
一级评论的参数

params = {
    'is_reload': '1',
    'id': f'{mid}',
    'is_show_bulletin': '2',
    'is_mix': '0',
    'count': '20',
    'uid': f'{uid}',
    'fetch_level': '0',
    'locale': 'zh-CN',
}

二级评论的参数

params = {
    'is_reload': '1',
    'id': f'{mid}',
    'is_show_bulletin': '2',
    'is_mix': '1',
    'fetch_level': '1',
    'max_id': '0',
    'count': '20',
    'uid': f'{uid}',
    'locale': 'zh-CN',
}

二级评论参数的uid指的是微博主体内容的作者uid，而mid指的是评论者的mid
完整代码如下：

import requests
import pandas as pd
import json
import os

page_num = 0

cookies = {
   'SINAGLOBAL': '1278126679099.0298.1694199077980',
   'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9W5mzQcPEhHvorRG-l7.BSsy5JpX5KMhUgL.FoM7ehz4eo2p1h52dJLoI0qLxK-LBKBLBKMLxKnL1--L1heLxKnL1-qLBo.LxK-L1KeL1KzLxK-L1KeL1KzLxK-L1KeL1Kzt',
   'XSRF-TOKEN': '47NC7wE7TMhcqfh1K-4bacK-',
   'ALF': '1697384140',
   'SSOLoginState': '1694792141',
   'SCF': 'ApDYB6ZQHU_wHU8ItPHSso29Xu0ZRSkOOiFTBeXETNm7IJXuI95RLbWORIsozuK4Ohxs_boeOIedEcczDT3uSAI.',
   'SUB': '_2A25IAAmdDeRhGeFO61AY8i_NwzyIHXVrdHxVrDV8PUNbmtAGLU74kW9NQYCXlmPtQ1DG4kl_wLzqQqkPl_Do1sZu',
   '_s_tentry': 'weibo.com',
   'Apache': '3760261250067.669.1694792155706',
   'ULV': '1694792155740:8:8:4:3760261250067.669.1694792155706:1694767801057',
   'WBPSESS': 'X5DJqu8gKpwqYSp80b4XokKvi4u4_oikBqVmvlBCHvGwXMxtKAFxIPg-LIF7foS715Sa4NttSYqzj5x2Ms5ynKVOM5I_Fsy9GECAYh38R4DQ-gq7M5XOe4y1gOUqvm1hOK60dUKvrA5hLuONCL2ing==',
}


def get_content_1(uid, mid, the_first=True, max_id=None):

  headers = {
   'authority': 'weibo.com',
   'accept': 'application/json, text/plain, */*',
   'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
   'client-version': 'v2.43.32',
   'referer': 'https://weibo.com/1887344341/NhAosFSL4',
   'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
   'sec-ch-ua-mobile': '?0',
   'sec-ch-ua-platform': '"Windows"',
   'sec-fetch-dest': 'empty',
   'sec-fetch-mode': 'cors',
   'sec-fetch-site': 'same-origin',
   'server-version': 'v2023.09.14.1',
   'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
   'x-requested-with': 'XMLHttpRequest',
   'x-xsrf-token': '-UX-uyKz0jmzbTnlkyDEMvSO',
}
  
  
  params = {
   'is_reload': '1',
   'id': f'{mid}',
   'is_show_bulletin': '2',
   'is_mix': '1',
   'fetch_level': '1',
   'max_id': '0',
   'count': '20',
   'uid': f'{uid}',
   'locale': 'zh-CN',
}

  if not the_first:
      params['flow'] = 0
      params['max_id'] = max_id
  else:
      pass
  response = requests.get('https://weibo.com/ajax/statuses/buildComments', params=params, cookies=cookies, headers=headers)
  return response

def get_content_2(get_content_1_url):

  headers = {
      'authority': 'weibo.com',
      'accept': '*/*',
      'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
      'content-type': 'multipart/form-data; boundary=----WebKitFormBoundaryNs1Toe4Mbr8n1qXm',
      'origin': 'https://weibo.com',
      'referer': 'https://weibo.com/1762257041/NiSAxfmbZ',
      'sec-ch-ua': '"Chromium";v="116", "Not)A;Brand";v="24", "Microsoft Edge";v="116"',
      'sec-ch-ua-mobile': '?0',
      'sec-ch-ua-platform': '"Windows"',
      'sec-fetch-dest': 'empty',
      'sec-fetch-mode': 'cors',
      'sec-fetch-site': 'same-origin',
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69',
      'x-xsrf-token': 'F2EEQZrINBfzB2HPPxqTMQJ_',
  }

  s = '{"name":"https://weibo.com/ajax/statuses/buildComments?flow=0&is_reload=1&id=4944997453660231&is_show_bulletin=2&is_mix=0&max_id=139282732792325&count=20&uid=1762257041&fetch_level=0&locale=zh-CN","entryType":"resource","startTime":20639.80000001192,"duration":563,"initiatorType":"xmlhttprequest","nextHopProtocol":"h2","renderBlockingStatus":"non-blocking","workerStart":0,"redirectStart":0,"redirectEnd":0,"fetchStart":20639.80000001192,"domainLookupStart":20639.80000001192,"domainLookupEnd":20639.80000001192,"connectStart":20639.80000001192,"secureConnectionStart":20639.80000001192,"connectEnd":20639.80000001192,"requestStart":20641.600000023842,"responseStart":21198.600000023842,"firstInterimResponseStart":0,"responseEnd":21202.80000001192,"transferSize":7374,"encodedBodySize":7074,"decodedBodySize":42581,"responseStatus":200,"serverTiming":[],"dns":0,"tcp":0,"ttfb":557,"pathname":"https://weibo.com/ajax/statuses/buildComments","speed":0}'
  s = json.loads(s)
  s['name'] = get_content_1_url
  s = json.dumps(s)
  data = f'------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="entry"\r\n\r\n{s}\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm\r\nContent-Disposition: form-data; name="request_id"\r\n\r\n\r\n------WebKitFormBoundaryNs1Toe4Mbr8n1qXm--\r\n'
  response = requests.post('https://weibo.com/ajax/log/rum', cookies=cookies, headers=headers, data=data)
  return response.text

def get_once_data(uid, mid, the_first=True, max_id=None):

  respones_1 = get_content_1(uid, mid, the_first, max_id)
  url = respones_1.url
  response_2 = get_content_2(url)
  df = pd.DataFrame(respones_1.json()['data'])
  max_id = respones_1.json()['max_id']
  return max_id, df

if __name__ == '__main__':
   # 得到的一级评论信息
   df = pd.read_csv('信息汇总.csv')
   df = df[df['评论数']>0]
   
   for i in range(df.shape[0]):
       mid = df.iloc[i].mid
       uid = df.iloc[i].uid
       name = df.iloc[i]['话题']
       page = 100
       
       if not os.path.exists(f'./二级评论数据/{mid}-{uid}.csv'):
           print(f'不存在 ./二级评论数据/{mid}-{uid}.csv')
           df_list = []
           max_id = ''
   
           for j in range(page):
               if j == 0:
                   max_id, df_ = get_once_data(uid=uid, mid=mid)
               else:
                   max_id, df_ = get_once_data(uid=uid, mid=mid, the_first=False, max_id=max_id)
               if df_.shape[0] == 0 or max_id == 0:
                   break
               else:
                   df_list.append(df_)
                   print(f'{mid}第{j}页解析完毕！max_id:{max_id}')
           if df_list:
               outdf = pd.concat(df_list).astype(str).drop_duplicates()
               outdf['话题'] = name
               print(f'文件长度为{outdf.shape[0]}，文件保存为 ./二级评论数据/{mid}-{uid}.csv')
               outdf.to_csv(f'./二级评论数据/{mid}-{uid}.csv', index=False)
           else:
               pass
       else:
           print(f'存在 ./二级评论数据/{mid}-{uid}.csv')

代码运行结果

完成！

你可能感兴趣的:(数据采集,Python爬虫,python,爬虫,新浪微博)

如何用Python将pdf文件转化为高清图片张登杰踩 pdf
最近在整理文档，需要将文档进行OCR识别，然后结构化。直接解析pdf文档，行不通，因为文档里面是图片。于是采取先转图片，然后OCR，然后结构化。下面是pdf文档转图片的方法。importfitz#PyMuPDFdefpdf_to_images(pdf_path,images_folder):#打开PDF文件document=fitz.open(pdf_path)forpage_numinrange
华为OD机试E卷 --选修课--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python js c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述现有两门选修课，每门选修课都有一部分学生选修，每个学生都有选修课的成绩，需要你找出同时选修了两门选修课的学生，先按照班级进行划分，班级编号小的先输出，每个班级按照两门选修课成绩和的降序排序，成绩相同时按照学生的学号升序排序。输入描述第一行为第一门选修课学生的成绩，第二行为第二门选修课学生的
Python调用open ai接口蓝天星空编程人工智能 python
要使用Python调用OpenAI的接口，您需要完成以下几个步骤：1.**注册并获取API密钥**2.**安装OpenAI的Python库**3.**编写Python代码以调用API**以下是详细的步骤说明：---###1.注册并获取API密钥首先，您需要在[OpenAI官方网站](https://beta.openai.com/signup/)注册一个账户。注册完成后，您需要创建一个API密钥：
Linux搭建wordpress 长江空自流 vps linux wordpress 安装
Linux搭建wordpress一、环境vps：Centos6x86minimal512ram小内存xshell5：ssh远程连接主机首先搭建lamp环境（linuxapachemysqlphp或python等）二、apache1安装yuminstallhttpd2启动apacheservicehttpdstart直接在浏览器中输入IP地址，应该就可以访问到Apache的欢迎页面了三、mysql1
python中strip()和split()的使用方法（学习笔记）木子_李轩笔记
1.strip()：用于移除字符串头、尾指定的字符(默认空格)，不能删除中间部分的字符。#未使用strip()path=r"C:\Users\67539\Desktop\22\11.txt"f=open(path,"r")forlineinf:#按行读取print(line)f.close()#结果cat22airplane23dog58mug86#########################
Flask基础和URL映射終不似少年遊* python进阶学习 flask python 后端开发框架
目录1.Flask介绍2.Flask第一个应用程序3.Flask运行方式4.Flask中DEBUG模式5.Flask环境参数的加载6.Flask路径参数的使用7.Flask路径参数类型8.Flask路径参数类型转换底层9.Flask自定义路由转换器自定义步骤：10.自定义转换to_python函数11.Postman的使用功能：使用示例：12.查询参数的使用13.请求体参数的使用14.上传文件的使
python strip() 函数和 split() 函数的详解 xinyuerr java python python java 数据库
本文主要介绍了pythonstrip()函数和split()函数的详解及实例的相关资料,需要的朋友可以参考下pythonstrip()函数和split()函数的详解及实例一直以来都分不清楚strip和split的功能，实际上strip是删除的意思；而split则是分割的意思。因此也表示了这两个功能是完全不一样的，strip可以删除字符串的某些字符，而split则是根据规定的字符将字符串进行分割。下
CH4 - Python开发技术—流程控制之分支结构（头歌） MSY～学习日记分享 python python 开发语言
目录第1关：英制单位英寸与公制单位厘米互换第2关：百分制成绩转换为等级制成绩第3关：约瑟夫环问题第1关：英制单位英寸与公制单位厘米互换"""英制单位英寸和公制单位厘米互换"""defcmin(value,unit):''':paramvalue:长度，:paramunit:单位'''#请在此处添加代码##*************begin************#ifunit=='cm'orun
Python中strip()函数和split()函数用法：半吊子烟酒僧函数
pythonstrip()函数和split()函数：strip是删除的意思；split则是分割的意思。strip可以删除字符串的某些字符，而split则是根据规定的字符将字符串进行分割。1Pythonstrip()函数介绍:声明：s为字符串，x为要删除的字符序列s.strip(x)删除s字符串中开头、结尾处为x的序列字符s.lstrip(x)删除s字符串中开头处为x的序列字符s.rstrip(x)
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
Error in py_run_file_impl(file, local, convert) : ModuleNotFoundError: No module named ‘igraph‘ hyena_7 Python R 服务器配置 python r语言开发语言
在HPC平台上跑我的R语言代码，结果一直报错说：Errorinpy_run_file_impl(file,local,convert):ModuleNotFoundError:Nomodulenamed'igraph'我就知道是我R语言里面导入python包那里出现了问题，对应的python环境没有这个包，我进入了R环境，使用命令如下：library(reticulate)py_module_av
python strip() 详解薇远镖局 Python python 开发语言
strip()是Python字符串方法之一，用于移除字符串开头和结尾的空白字符（包括空格、制表符、换行符等）或指定字符。它不会影响字符串中间的空白字符。语法str.strip([chars])参数chars（可选）：一个字符串，表示要移除的字符集合。如果未指定，默认移除空白字符。返回值返回一个新的字符串，表示移除了开头和结尾指定字符后的结果。示例1、移除空白字符：s="Hello,World!"p
Python--字符串小丁丁_ddxdd 技术层-python
描述Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格）。语法strip()方法语法：str.strip([chars]);参数chars--移除字符串头尾指定的字符。返回值返回移除字符串头尾指定的字符生成的新字符串。实例以下实例展示了strip()函数的使用方法：#!/usr/bin/pythonstr="0000000thisisstringexample....wow!!
使用uWSGI将Flask应用部署到生产环境 liuhongyue flask python 后端
使用uWSGI将Flask应用部署到生产环境：1、安装uWSGIcondainstall-cconda-forgeuwsgi（pipinstalluwsgi会报错）2、配置uWSGI在python程序的同一文件夹下创建uwsgi.ini文件，文件内容如下表。需要按照实际情况修改文件名称地址，log文件保存路径，启动的进程数和线程数等3、启动服务，执行命令：uwsgi--iniuwsgi.ini4、
centos7中报错ModuleNotFoundError: No module named ‘_ctypes‘解决方法丢失想象 centos python
分析:python3中有个内置模块叫ctypes，它是python3的外部函数库模块，提供了兼容C语言的数据类型，并通过它调用Linux系统下的共享库(Sharedlibrary)，此模块需要使用centos7系统中外部函数库(Foreignfunctionlibrary)的开发链接库(头文件和链接库)。由于在centos7系统中没有安装外部函数库(libffi)的开发链接库软件包，所以在安装pi
Python酷库之旅-第三方库Pandas(008) 神奇夜光杯 python pandas 人工智能开发语言 excel 标准库及第三方库学习和成长
目录一、用法精讲16、pandas.DataFrame.to_json函数16-1、语法16-2、参数16-3、功能16-4、返回值16-5、说明16-6、用法16-6-1、数据准备16-6-2、代码示例16-6-3、结果输出17、pandas.read_html函数17-1、语法17-2、参数17-3、功能17-4、返回值17-5、说明17-6、用法17-6-1、数据准备17-6-2、代码示例1
Python 中的 strip() 和 split() 方法详解 Ryann6 python 开发语言
目录一、strip()方法1.什么是strip()？2.基本语法3.基本用法示例1）去除空白字符2）移除指定字符4.lstrip()和rstrip()5.注意事项二、split()方法1.什么是split()？2.基本语法3.基本用法示例1）按空格分割字符串2）指定分隔符3）限制分割次数4.rsplit()方法5.splitlines()方法三、strip()与split()的结合使用1）移除空格
安装auto_gptq解决办法 Ven% 简单说深度学习 Ubuntu 深度学习基础动手人工智能深度学习机器学习 python
这个错误表明在安装auto_gptq包时，生成QiGen内核时失败了。具体来说，setup.py脚本尝试运行一个Python脚本来生成内核，但该脚本不存在或无法访问。以下是一些可能的解决方案：1.确保依赖项已安装首先，确保你已经安装了所有必要的依赖项。你可以尝试以下命令来安装auto_gptq的依赖项：pipinstalltorchtransformers2.使用预编译的二进制文件如果你不需要从源
6. 马科维茨资产组合模型+政策意图AI金融智能体(DeepSeek-V3)增强方案（理论+Python实战） AI量金术师金融资产组合模型进化论人工智能金融 python 机器学习算法大数据数学建模
目录0.承前1.幻方量化&DeepSeek1.1Whatis幻方量化1.2WhatisDeepSeek2.重写AI金融智能体函数3.汇总代码4.反思4.1不足之处4.2提升思路5.启后0.承前本篇博文是对上一篇文章，链接:5.马科维茨资产组合模型+政策意图AI金融智能体(Qwen-Max)增强方案（理论+Python实战）的AI金融智能体更改为幻方量化DeepSeek-V3的尝试。唯一区别之处在于
python使用matplotlib可视化多个分组并排的柱状图（bar plot side by side） Data+Science+Insight 数据科学从0到1 python 机器学习数据挖掘人工智能深度学习
python使用matplotlib可视化多个分组并排的柱状图（barplotsidebyside）目录python使用matplotlib可视化多个分组并排的柱状图（barplotsidebyside）#导入包和库#python使用matplotlib可视化多个分组并排的柱状图（barplotsidebyside）#导入包和库importpandasaspdimportnumpyasnp#不显示
python使用TestLink-API-Python-client库对testLink操作——excel导入 fairytaildhk python python testLink excel
依赖库：TestLink-API-Python-client，xlrd通过pip安装:python3-mpipinstallTestLink-API-Python-client(笔者本地有多个版本python，只有一个版本直接python就可以)url:替换自己的testLink地址http://xx.xx.xx.xx:xxxx/testlink/lib/api/xmlrpc/v1/xmlrpc.
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
Python 绘制柱状图小无忧i
importmatplotlib.pyplotaspltname_list=['1','2','3','4']#num_list1=[184.74,99.84,126.34,68.93]#num_list2=[144.53,75.48,94.26,59.32]#num_list3=[54.72,26.32,32.28,20.83]#num_list4=[55.67,30.42,39.15,27.5
华为OD机试详解：分苹果问题的多语言实现与算法解析 m0_57781768 华为od 算法
华为OD机试详解：分苹果问题的多语言实现与算法解析在华为OD机试中，分苹果问题是典型的算法考题之一，考察了考生对于位运算的理解和应用。这道题的难点在于A和B两人的计算规则差异。A希望根据他的二进制加法规则来等分苹果，而B则希望在满足A的规则下，自己获得最多的苹果。本文将通过详细的解题思路及C++、Java、JavaScript、Python四种语言的实现，帮助你掌握这个问题的解决方法。题目描述A和
参加【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
python绘制柱状图 circle_yy 可视化
首先需要导入包：importpandasaspdpd.set_option('display.max_column',30)importnumpyasnpimportstatsmodels.apiassmimportmatplotlib.pyplotaspltimportseabornassnssns.set()frompylabimportrcParams##matplotlibrcParams
【杂谈】-为什么Python是AI的首选语言视觉与物联智能杂谈 python 人工智能开发语言深度学习机器学习
为什么Python是AI的首选语言文章目录为什么Python是AI的首选语言1、为何Python引领人工智能发展1.1可用性和生态系统1.2用户群和用例1.3效率辅助2、AI项目对Python开发人员的要求3、如何开启你的AI学习之旅人工智能的广泛应用正在软件工程领域引发范式转变。Python凭借其易用性、成熟的生态系统以及满足人工智能和机器学习(ML)工作流数据驱动需求的能力，迅速成为人工智能开
python绘制带有显著性差异的柱状图彭博锐 python 开发语言 AI编程
直观认识有的时候看文献会发现柱状图上标记有不同的字母，这其实是使用字母表示法来代表不同组之间的差异，不同的字母表示具有显著性的差异，相同的字母表示没有显著性差异。图片来自文献（Lietal.,2019）含有大小写字母的两组方差分析参考自文献（马继龙等，2024）。显著性差异的表示方法常见的一般有P值、星号标记和字母标记等。1、P值：当P值小于或等于事先设定的显著性水平（通常是0.05）时，我们认为
PySide6的简单介绍深蓝海拓 pyside6学习笔记 python pyqt qt
PySide6是一个用于创建图形用户界面(GUI)应用程序的软件开发工具包(SDK)，它是Qt框架的Python绑定。Qt是一个跨平台的C++图形用户界面应用程序开发框架，而PySide6允许开发者使用Python语言来实现Qt的功能。简单介绍1.跨平台性PySide6支持多个操作系统，包括Windows、macOS和Linux。这使得开发者可以编写一次代码，然后在不同平台上运行，而无需进行大量的
基于python的音乐推荐系统设计与实现 wu_fei_yu python 开发语言
点我完整下载：基于python的音乐推荐系统设计与实现.docx基于python的音乐推荐系统设计与实现DesignandImplementationofaMusicRecommendationSystembasedonPython目录目录2摘要3关键词3
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

微博数据采集，微博爬虫，微博网页解析，完整代码（主体内容+评论内容）

如果失效了，可以私信我 保证及时更新

2023年9月12号更新版

完整代码

微博主体内容

微博评论内容

一级评论内容

二级评论内容

微博主体内容获取流程

微博评论内容获取流程

一级评论内容

二级评论内容

你可能感兴趣的:(数据采集,Python爬虫,python,爬虫,新浪微博)

如果失效了，可以私信我保证及时更新