tiebanggg

python爬虫之入门级实战实例（东方财富人气top100、汉服荟视频下载）

文章目录

前言
一、东方财富人气top100
- 1.需求说明
- 2.数据爬取
- - ①首页数据
  - ② 实时趋势（排名）
  - ③历史趋势（排名）
二、汉服荟小姐姐主页的视频爬取
- 1.需求说明
- 2. 数据爬取
总结

前言

最近时间排不过来（在和大佬学习研究JS），所以本次更新内容较为简单，有两个站进行讲解示例。文章写的不好，py写的也不好，请大佬们看到的飘过~见笑了见笑了。本项目仅用于交流学习，若侵犯到贵公司权益请联系邮箱[email protected]第一时间删除。读者请切忌用于一切非法途径，否则后果自行承担！

项目一（东方财富人气top100）：https://***/collect/stockranking/pages/ranking/list.html
项目二（汉服荟）：https://www.hanfuhui.com/

一、东方财富人气top100

1.需求说明

需要爬取的字段为排名、股票名称、现价、涨跌幅、排名详情。

其中排名详情需要进入新的页面进行获取，并且需要实时排名以及历史排名两种数据：

数据均在下面的动态条形图中（上图）。

2.数据爬取

①首页数据

先查看网页源代码中是否存在所需要的数据信息：

结果是无，所以接下来考虑是Ajax加载的数据，进行抓包：

总共三条接口地址，先看第一个的响应，看到响应内容并不是我们想要的，再看第二个。
第二个也不是，那大概率就是第三条地址了

看看参数：

鹅…
就这里说一下，遇到参数先不要方，先看看是否为服务器返回的，如果服务器没有返回则再进行参数逆向。
so，先搜索一波ut的值

第一条不是，为什么?（他在url地址中所以不是），果断点击第二个

有了，再试着搜一下fields的值

也有了，看看他的Headers也就是标头（我用的是360浏览器所以是标头）

哦豁~GET请求，参数为空，用python模拟请求一下，使用re模块匹配出来ut和fields即可：

import requests
import re


headers = {
    'Referer': 'https://vipmoney.eastmoney.com/collect/stockranking/pages/ranking/list.html',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}


def getUtandeFields() ->dict:
    ut_fields = {}
    url = "https://vipmoney.eastmoney.com/collect/stockranking/static/script/ranking_list.js?01211021_1.0.2"
    params = {
        '01211021_1.0.2': ''
    }
    response = requests.get(url, headers=headers, params=params).text
    ut_fields['ut'] = re.search(r'ut:"(.*?)"', response).group(1)
    ut_fields['fields'] = re.search(r'fields:"(.*?)"', response).group(1)
    return ut_fields

调用执行结果：

接下来是secids，搜索值发现没求得，所以另想其他办法

细心一点你就可以发现它像很多个 x. 加上很多个股票的代码xxxxxx

并且，细心的人他已经发现了上面第一条接口返回的数据里有股票代码

so，现在先搞定股票代码从哪里获取，并且 x. 中的 x 是啥玩意，有些童鞋已经在想js逆向了，不不不，要学废多观察

股票代码前面的字母字样SH SZ 并且全部的代码中之后这俩字样，而x. 中的 x不是1就是0，那SH会不会就 == 1，SZ==0 ？没错它就是这个亚子的（我说了多观察，不确定你就撸代码测试哈哈哈哈哈我就是这样做的）

所以我们只需要将第一个接口返回的数据稍作处理即可得到secids，先看看第一个接口的标头：
图中标注 7 的地方是一个小细节（Content-Type: application/json）也就是说当你看到Content-Type：application/json 时应该需要知道在提交post参数的时候将他转为json格式的数据，记好了记好了记好了哈

看看他需要提交的参数，其实这里的参数均为固定，所以你可以写死，但是不排除以后会变动，所以说一说globalId参数的获取，没错的，直接先搜索：

就是第一步获取ut的那个接口返回的，所以只需要在第一步获取ut的代码中添加一行代码即可：

ut_fields['globalId'] = re.search(r'globalId:"(.*?)"', response).group(1)

调用运行结果：

接下来编写getSecids方法获取secids参数：

def getSecids(ut_fields: dict) ->str:
    url = "https://emappdata.eastmoney.com/stockrank/getAllCurrentList"
    headers['Host'] = "emappdata.eastmoney.com"
    headers['Origin'] = "https://vipmoney.eastmoney.com"
    data = {
        'appId': 'appId01',
        'globalId': ut_fields['globalId'],
        'pageNo': '1',
        'pageSize': '100',
    }
    response = requests.post(url, json=data, headers=headers).text
    jsData = json.loads(response)['data']
    secids = ""
    gb = 0
    for item in jsData:
        gb += 1
        sc = item['sc']
        if "SH" in sc:
            secids += sc.replace("SH", "1.") + ","
            if gb == len(jsData):
                secids += sc.replace("SH", "1.")
        else:
            secids += sc.replace("SZ", "0.") + ","
            if gb == len(jsData):
                secids += sc.replace("SZ", "0.")
    return secids

调用执行结果：

要得咯，所有参数准备就绪，编写getData方法获取数据并保存至本地
先看看将参数提交后是否有数据：

def getData(ut_fields, secids):
    url = "https://push2.eastmoney.com/api/qt/ulist.np/get?"
    headers['Host'] = "push2.eastmoney.com"
    data = {
        'ut': ut_fields['ut'],
        'fltt': '2',
        'invt': '2',
        'fields': ut_fields['fields'],
        'secids': secids,
    }
    response = requests.post(url, data=data, headers=headers).text
    print(response)

有数据，没问题，接下来继续接着getData函数编写代码清洗数据并保存：

 jsData = json.loads(response)['data']['diff']
 savepath = os.getcwd() + r'\data'
 if not os.path.exists(savepath):
     os.mkdir(savepath)
 fp = open(savepath + r'\ulist.csv', 'w', encoding='utf-8', newline='')
 fw = csv.writer(fp)
 fw.writerow(['排名', '股票名称', '股票代码', '现价', '涨跌幅'])
 i = 0
 for item in jsData:
     i += 1
     paiming = i       # 排名
     name = item['f14']          # 股票名称
     xianjia = item['f2']        # 现价
     daima = item['f12']         # 股票代码
     zdf = item['f3']            # 涨跌幅
     content = [paiming, name, daima, xianjia, zdf]
     print(content)
     fw.writerow(content)

最终结果：

保存的csv文件：

② 实时趋势（排名）

实时排名抓包接口如图
看看标头：

请自行注意蓝色位置~~

然后除了srcSecurityCode参数之外其他的签名已经获取到了，srcSecurityCode就是getSecids方法里我们请求网页可以获取到的，这里也可以在getData方法中稍做处理即可得到：

注意这里的f13，前面我们已经的到对应关系 SH == 1 和 SZ == 0 ，f13的值就是1或0，所以我们做一个映射关系即可，将getData进行改写：

def getData(ut_fields, secids) ->dict:
    url = "https://push2.eastmoney.com/api/qt/ulist.np/get?"
    headers['Host'] = "push2.eastmoney.com"
    data = {
        'ut': ut_fields['ut'],
        'fltt': '2',
        'invt': '2',
        'fields': ut_fields['fields'],
        'secids': secids,
    }
    response = requests.post(url, data=data, headers=headers).text
    jsData = json.loads(response)['data']['diff']
    savepath = os.getcwd() + r'\data'
    if not os.path.exists(savepath):
        os.mkdir(savepath)
    fp = open(savepath + r'\ulist.csv', 'w', encoding='utf-8', newline='')
    fw = csv.writer(fp)
    fw.writerow(['排名', '股票名称', '股票代码', '现价', '涨跌幅'])
    i = 0
    srcSecurityCode_dict = {}
    for item in jsData:
        i += 1
        paiming = i       # 排名
        name = item['f14']          # 股票名称
        xianjia = item['f2']        # 现价
        daima = item['f12']         # 股票代码
        zdf = item['f3']            # 涨跌幅
        content = [paiming, name, daima, xianjia, zdf]
        print(content)
        fw.writerow(content)

        f13 = int(item['f13'])
        if f13 == 1:
            srcSecurityCode_dict[name] = "SH" + str(daima)
        else:
            srcSecurityCode_dict[name] = "SZ" + str(daima)
    return srcSecurityCode_dict

结果：

接下来编写getCurrentList方法获取每个股票的实时排名数据：

def getCurrentList(srcSecurityCode_dict, ut_fields):
    savepath = os.getcwd() + r'\CurrentListData'
    if not os.path.exists(savepath):
        os.mkdir(savepath)
    url = "https://emappdata.eastmoney.com/stockrank/getCurrentList"
    headers['Host'] = 'emappdata.eastmoney.com'
    data = {
        'appId': 'appId01',
        'globalId': ut_fields['globalId'],
        'srcSecurityCode': '',
    }
    for name, srcSecurityCode in srcSecurityCode_dict.items():
        if '*' in name:
            name = name.replace('*', '')
        else:
            name = name
        fp = open(savepath + r'\【{}】实时排名.csv'.format(name), 'w', encoding='utf-8', newline='')
        fw = csv.writer(fp)
        fw.writerow(['股票名称', '股票代码', '时间点', '排名'])

        data['srcSecurityCode'] = srcSecurityCode
        response = requests.post(url, json=data, headers=headers).text
        jsData = json.loads(response)['data']
        print(jsData)
        saveCurrentList(jsData, name, srcSecurityCode, fw)

编写saveCurrentList方法保存数据：

def saveCurrentList(jsData, name, srcSecurityCode, fw):
    for item in jsData:
        fw.writerow([name, srcSecurityCode, str(item['calcTime']), str(item['rank'])])

结果:

③历史趋势（排名）

抓包如下如：

所有参数都有，并且数据返回的格式与实时趋势数据大同小异，编写getHisList方法来获取每个股票的历史趋势（排名）数据即可（这里我就不写了下面还有一个站点，赶时间鸭）贴一下历史趋势最终结果。

二、汉服荟小姐姐主页的视频爬取

1.需求说明

本次爬取为汉服荟首页-视频板块-获取视频板块页面所有视频数据

2. 数据爬取

选择视频板块后，随便点击一条视频进入详情页

可以看到链接地址为：https://www.hanfuhui.com/Details/4067412
当我再点击其他一条进入详情页观察：

链接地址为：https://www.hanfuhui.com/Details/4061991

也就是说每个视频的地址均为https://www.hanfuhui.com/Details/加上一串数字，这串数字从哪里来？

现在反悔视频首页，往下拉滚动条进行抓包：

当触发翻页以后，出现这条接口地址，看看他的响应数据：

展开其中一条json：

有两个可疑值，将他们与https://www.hanfuhui.com/Details/进行组合并访问看看：
ObjectID：

并没有视频信息，接下来使用ID组合访问：

有了，所以这里的ID就是我们需要的字段，编写get_IDList函数获取ID列表并组合成视频详情页地址：

def get_IDList():
    url = 'https://api5.hanfugou.com/Trend/GetTrendListForHot?'
    headers = {
        'origin': 'https://www.hanfuhui.com',
        'referer': 'https://www.hanfuhui.com/',
        'sec-ch-ua': '"Google Chrome";v="87", " Not;A Brand";v="99", "Chromium";v="87"',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    }
    data = {
        'maxid': '0',
        'objecttype': 'video',
        'page': '1',
        'count': '20',
    }
    i = 0
    for page in range(1, 10000000):
        if page != 1:
            data['maxid'] = str(3045525)
        data['page'] = page
        response = requests.get(url, params=data, headers=headers).text
        jsData = json.loads(response)['Data']
        if len(jsData) == 0:
            break
        for item in jsData:
            i += 1
            id = item['ID']
            indexUrl = 'https://www.hanfuhui.com/Details/' + str(id)
            print(indexUrl)

执行结果：

接下来分析视频详情页：
当你想右键进行查看元素的时候会发现点不动

这里使用另一种方法，F12打开开发者工具，操作如图：

依次点击1，2，即可:

src属性值就是视频的链接地址，复制出来打开新页面进行访问看看：

到这里之后有的童鞋就会扒拉扒拉写代码去了，别急，先看看源代码中有无视频连接：

有是有对吧，而且仅有一个，但是你可以看到他的结构与上面我们看到的html结构完全不同，所以使用xpath或者bs4的规则去提取是不可行的。

so~只能上正则表达式了00

没问题，现在编写函数saveVideos来保存视频：

def saveVideos(indexUrl, i):
    headers = {
        'referer': 'https://www.hanfuhui.com/',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    }
    response = requests.get(indexUrl, headers=headers).text
    videoUrl = re.search(r'js_videoplay", ".*?", "(.*?)"', response).group(1)
    print(videoUrl)
    _upt = re.search(r'_upt=(.*?)"', response).group(1)
    with open('videoData/{}.mp4'.format(_upt), 'wb') as f:
        f.write(requests.get(videoUrl, headers=headers).content)
        f.close()
    print('第{}个视频保存成功！'.format(i))

写完saveVideos后我们在get_IDList函数中将其调用并传入参数即可，下面是运行结果：

看看文件夹：

歪哟~成了。本篇文章到此结束。若你遇到了任何问题无法解决可以加我vx，我会抽空进行解答，添加方式见文章结尾。

总结

good good xuexi, day day up, 少掉头发。

码字不易，如果本篇文章对你有帮助请点个赞8，谢谢~
合作及源码获取vx：OneSisxoc 【注明来意】
QQ交流群：735418202
需要源码请关注微信公众号回复【东汉100】获取：

*注：本文为原创文章，转载文章请附上本文链接！否则将追究相关责任，请自重！谢谢！

通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
python使用技巧超超是超超 python
1、耗时装饰器importtimedefdecorate(func):definner():begin=time.time()result=func()end=time.time()print(f'函数{func}耗时{end-begin}')returnresultreturninner2、查看代码运行耗时fromline_profilerimportLineProfilerdefoperati
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
CSE 231 Computer Python program 后端
CSE231Spring2025ComputerProject#4LearningobjectivesThisassignmentfocusesonthedesign,implementationandtestingofaPythonprogramthatusescharacterstringsforlookingattheDNAsequencesforkeyproteinsandseeingho
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
C语言-回调函数的应用 woainizhongguo. C/C++c语言
什么是回调函数回调函数就是一个被作为参数传递的函数。在C语言中，回调函数只能使用函数指针实现，在C++、Python、ECMAScript等更现代的编程语言中还可以使用仿函数或匿名函数。工作机制⑴定义一个回调函数；⑵提供函数实现的一方在初始化的时候，将回调函数的函数指针注册给调用者；⑶当特定的事件或条件发生的时候，调用者使用函数指针调用回调函数对事件进行处理。应用案例（1）应用层：通过调用hal层
Python Union 联合类型注解详解人才程序员杂谈 python 服务器 java linux 后端软件工程开发语言
文章目录PythonUnion联合类型注解详解1.什么是Union联合类型？**语法（Python3.9及之前版本）**：**语法（Python3.10及之后版本）**：2.Union联合类型注解示例**(1)使用Union来表示多个类型的参数****(2)使用`|`来表示联合类型（Python3.10及之后版本）**3.使用Union进行复杂类型注解**(1)使用Union与列表结合****(2
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
ffmpeg-python安装 neverayever 计算机 ffmpeg python linux
centos-ffmpeg-python安装安装ffmpeg一：下载并解压wgethttp://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gztar-zxvfffmpeg-4.2.tar.gz若linux服务器没网，可以在windows上直接访问http://www.ffmpeg.org/releases/ffmpeg-4.2.tar.gz就可下载，然后上传至服
Python的那些事第二十七篇：Python中的“数据魔法师”NumPy 暮雨哀尘 Python的那些事 python numpy 开发语言数据分析算法数组索引
摘要在这篇幽默风趣的论文中，我们将深入探讨NumPy——Python中最强大的数值计算库之一。它不仅提供了高性能的多维数组对象，还让复杂的数学运算变得像吃冰淇淋一样简单。本文将通过生动的代码示例和幽默的比喻，带你领略NumPy的魔法世界，让你在欢笑中掌握这个强大的工具。一、引言：为什么NumPy是程序员的“超级英雄”？1.1NumPy的起源：从“数据苦力”到“数据魔法师”想象一下，你被困在一个全是
Python爬虫TLS dme. Python爬虫零基础入门爬虫 python
TLS指纹校验原理和绕过浏览器可以正常访问，但是用requests发送请求失败。后端是如何监测得呢？为什么浏览器可以返回结果，而requests模块不行呢？https://cn.investing.com/equities/amazon-com-inc-historical-data1.指纹校验案例1.1案例：ascii2dhttps://ascii2d.net/importrequestsres
python爬虫Selenium库详细教程_python爬虫之selenium库的使用详解嘻嘻哈哈学编程程序员 python 爬虫 selenium
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化学习资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！2.2访问页面2.3查找元素2.3.1单个元素下面
排序算法：冒泡排序（Python）娱乐不打烊丶排序算法算法数据结构
思路：大家一定都喝过汽水吧，汽水中常常有许多小小的气泡，往上飘，这是因为组成小气泡的二氧化碳比水要轻，所以小气泡才会一点一点的向上浮。而冒泡排序之所以叫冒泡排序，正是因为这种排序算法的每一个元素都可以向小气泡一样，根据自身大小，一点一点向着数组的一侧移动。一图解百惑，上图！那么，话不多说，上代码！defbubble_sort(input_list):#冒泡排序：每次循环，锁定一个最值，并朝着最大或
supervisord 命令介绍和使用案例 lisanmengmeng linux 命令工具系统运维 shell编程服务器 linux 运维
supervisord命令介绍和使用案例supervisord是一个用Python编写的进程管理工具，用于监控和管理Linux系统中的进程。它可以将普通的命令行进程转变为后台守护进程（daemon），并监控进程状态，在进程异常退出时自动重启。它通过fork/exec的方式把被管理的进程当作自己的子进程来启动。主要功能:进程管理：能够启动、停止、重启和关闭进程.自动重启：监控进程状态，并在进程崩溃时
ptython setup.py install 设置python包编译时的并行数 leo0308 基础知识 Python python pytorch3d
通过源码编译安装pytorch3d的时候，直接执行pythonsetup.pyinstall时，默认开的并行数很多，有10几个，直接导致机器卡死。通过设置下面的环境变量，可以设置较小的并行数，避免占用过多的资源。exportMAX_JOBS=4设置后，同时只有4个编译的进程。
python 自动化数据提取之正则表达式_python 正则提取(2) m0_60607245 程序员 python 学习面试
一、Python所有方向的学习路线Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。二、Python必备开发工具工具都帮大家整理好了，安装就可直接上手！三、最新Python学习笔记当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理
GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

python爬虫之入门级实战实例（东方财富人气top100、汉服荟视频下载）

文章目录

前言

一、东方财富人气top100

1.需求说明

2.数据爬取

①首页数据

② 实时趋势（排名）

③历史趋势（排名）

二、汉服荟小姐姐主页的视频爬取

1.需求说明

2. 数据爬取

总结

你可能感兴趣的:(python爬虫,python,爬虫)