法萌

python多线程爬取ts视频

http://www.xigua66.com/ 视频网站，可能会报病毒，慎点。

1、http过程

由于ts文件是m3u8的传输文件，m3u8是苹果公司推出一种视频播放标准，是m3u的一种，不过编码方式是utf-8，是一种文件检索格式，将视频切割成一小段一小段的ts格式的视频文件，然后存在服务器中（现在为了减少I/o访问次数，一般存在服务器的内存中），通过m3u8解析出来路径，然后去请求。

重点是获取其中的playlist文件

self.palylist_url = re.findall("video: {\n            url: '(.*?)',", ts_data)[0]

2、下载ts文件

直接使用python中的urllib中的方法来调用

urllib.request.urlretrieve(url,target)

有几个难点

2.1长时间无反应

可设置socket超时时间来解决

socket.setdefaulttimeout(20)

2.2 超时重下，且避免进入死循环

设置计数器count，使用while循环

try:
    urllib.request.urlretrieve(url,target)
except socket.timeout:
    count = 1
    while count <= 5:
        try:
            urllib.request.urlretrieve(url,target)                                                
            break
        except socket.timeout:
            err_info = url+' Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count
            print(err_info)
            count += 1
    if count > 5:
        print("downloading fialed!")

2.3 远程主机关闭问题

有时urlopen太频繁，会导致error10054远程主机关闭，可通过重新下载解决。

https://blog.csdn.net/qq_40910788/article/details/84844464

try:
    urllib.request.urlretrieve(url,target)
except socket.timeout:
    count = 1
    while count <= 5:
        try:
            urllib.request.urlretrieve(url,target)                                                
            break
        except socket.timeout:
            err_info = url+' Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count
            print(err_info)
            count += 1
        except:
            #解决远程主机关闭问题
            self.download_file(url, target)
    if count > 5:
        print("downloading fialed!")
except:
    #解决远程主机关闭问题
    self.download_file(url, target)

3、多线程下载

python3.X之后，重新封装了线程池packet，

from concurrent.futures import ThreadPoolExecutor

该类有多种实现方式（submit、map等）。这里使用map

from concurrent.futures import ThreadPoolExecutor

self.pool = ThreadPoolExecutor(max_workers=10)

def download_for_multi_process(self, ts):
    url_header = re.findall('(http.*/)', self.palylist_url)[0]
    if ts[-1].startswith('out'):
        ts_url = url_header + ts[-1]
        #下载
        index = re.findall('out(.*)\.ts',ts[-1])[0]
        self.download_file(ts_url, self.target+'/out'+index.zfill(4)+'.ts')
        print(ts_url+'--->Done')
    elif ts[-1].endswith('.ts'):
        ts_url = ts[-1]
        index = re.findall('out(.*)\.ts',ts[-1])[0]
        self.download_file(ts_url, self.target+'/out'+index.zfill(4)+'.ts')
        print(ts_url+'--->Done')
    else:
        print(ts[-1]+'无效')
    
def download_with_multi_process(self, ts_list):
    print('开始多线程下载')
    print('下载链接及情况：')
    task = self.pool.map(self.download_for_multi_process,ts_list)#此时非阻塞
    for t in task:#此时会变成阻塞
        pass

4、合并ts文件为mp4

Windows的copy /b方法对于ts文件有数量上限，多于某个值，就无法使用copy /b *.ts new.ts来完成。因此使用分步合并的方式。先合并一部分，在将合并后的文件再次合并。

    def merge_ts_file_with_os(self):
        print('开始合并')
        L=[]
        file_dir=self.target
        for root, dirs, files in os.walk(file_dir): 
            for file in files:  
                if os.path.splitext(file)[1] == '.ts':  
                    L.append(file)
        L.sort()
        blocks = [L[i:i+self.max_num] for i in range(0,len(L),self.max_num)]

        os.system('cd '+self.target)
        tmp=[]
        for index, block in enumerate(blocks):
            b='+'.join(block)
            new_name=' out_new_'+str(index).zfill(2)+'.ts'
            tmp.append(new_name)
            os.system('copy /b '+b+new_name)

        cmd='+'.join(tmp)
        num = int(re.findall('player-(.*?).html', self.url)[0].split('-')[-1])+1
        os.system('copy /b '+cmd+' E'+str(num).zfill(2)+'.mp4')
        os.system('del /Q out*.ts')
        print('合并完成')

5、源代码

#coding:utf-8    
import urllib.request    
import http.cookiejar    
import urllib.error  
import urllib.parse
import re
import socket
import os
from concurrent.futures import ThreadPoolExecutor

class Xigua66Downloader:
    
    def __init__(self, url, target='.'):
        self.target = target
        self.url = url
        self.playlist_url = None
        self.max_num=250
        self.header={ "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",    
          "Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",    
          "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0",    
          "Connection": "keep-alive"   
          }
        self.cjar = http.cookiejar.CookieJar()
        self.cookie = urllib.request.HTTPCookieProcessor(self.cjar)  
        self.opener = urllib.request.build_opener(self.cookie)      
        urllib.request.install_opener(self.opener)

        self.pool = ThreadPoolExecutor(max_workers=10)

        #设置超时时间为20s
        #利用socket模块，使得每次重新下载的时间变短
        socket.setdefaulttimeout(20)
    
    def download_file(self, url, target):
        #解决下载不完全问题且避免陷入死循环
        try:
            urllib.request.urlretrieve(url,target)
        except socket.timeout:
            count = 1
            while count <= 5:
                try:
                    urllib.request.urlretrieve(url,target)                                                
                    break
                except socket.timeout:
                    err_info = url+' Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count
                    print(err_info)
                    count += 1
                except:
                    #解决远程主机关闭问题
                    self.download_file(url, target)
            if count > 5:
                print("downloading fialed!")
        except:
            #解决远程主机关闭问题
            self.download_file(url, target)
                
    def open_web(self, url):
        try:
            response = self.opener.open(url, timeout=3)    
        except urllib.error.URLError as e:
            print('open ' + url + ' error')
            if hasattr(e, 'code'):    
                print(e.code)    
            if hasattr(e, 'reason'):    
                print(e.reason)    
        else:            
            return response.read()

    '''第一步、获取真正的url地址'''
    def get_available_IP(self):
        print('开始获取真实的url')
        req = urllib.request.Request(url=self.url,headers=self.header)
        data = self.open_web(req).decode('gbk')
        target_js = re.findall('',data)[0]
        data = self.open_web("http://www.xigua66.com"+target_js).decode('gbk')
        data = urllib.parse.unquote(data)

        find_33uu = re.findall('33uu\$\$(.*)33uu\$\$', data)
        if len(find_33uu) == 0:
            find_zyp = re.findall('zyp\$\$(.*)zyp\$\$', data)
            if len(find_zyp) != 0:
                find = find_zyp[0]
                label = 'zyp'
        else:
            find = find_33uu[0]
            label = '33uu'
        tv_lists = re.findall('%u7B2C(.*?)%u96C6\$https://(.*?)\$', find)#[(集数,url)]
        return tv_lists, label

    '''第二步、获取各个ts文件数量与名称'''
    def get_playlist(self, tv_lists, label):
        num = int(re.findall('player-(.*?).html', self.url)[0].split('-')[-1])
        url = 'https://' + tv_lists[num][-1]
        print('开始下载第'+str(num+1)+'集：\n'+url)
        print('开始获取playlist_url')
        ts_data = self.open_web(url).decode('utf-8')

        if label == '33uu':
            self.palylist_url = re.findall("url: '(.*?\.m3u8)'", ts_data)[-1]
        else:#label='zyp'
            self.palylist_url = re.findall("url: '(.*?\.m3u8)'", ts_data)[-1]

        #url检查
        #/2019/04/03/dkqcLONDC9I26yyG/playlist.m3u8
        #https://www4.yuboyun.com/hls/2019/02/27/9eBF1A0o/playlist.m3u8
        if self.palylist_url.startswith('http'):
            pass
        else:
            self.palylist_url = re.findall('(http.*?\.com)', url)[0] + self.palylist_url
        print(self.palylist_url)
        print('开始获取playlist')
        palylist_data = self.open_web(self.palylist_url).decode('utf-8')
        print('已获得playlist列表')
        ts_list = re.findall('#EXTINF:(.*?),\n(.*?)\n', palylist_data)#[(时间长度，ts文件名)]
        return ts_list

    '''第三步、下载ts文件'''
    def download_with_single_process(self, ts_list):
        url_header = re.findall('(http.*/)', self.palylist_url)[0]
        print('开始单线程下载\n下载链接及情况：')
        for index, ts in enumerate(ts_list):
            if ts[-1].startswith('out'):
                ts_url = url_header + ts[-1]
                #下载
                self.download_file(ts_url, self.target+'/out'+str(index).zfill(4)+'.ts')
                print(ts_url+'--->Done')
            elif ts[-1].endswith('.ts'):
                ts_url = ts[-1]
                self.download_file(ts_url, self.target+'/out'+str(index).zfill(4)+'.ts')
                print(ts_url+'--->Done')
            else:
                print(ts[-1]+'无效')
        print('全部下载完成')

    def download_for_multi_process(self, ts):
        url_header = re.findall('(http.*/)', self.palylist_url)[0]
        if ts[-1].startswith('out'):
            ts_url = url_header + ts[-1]
            #下载
            index = re.findall('out(.*)\.ts',ts[-1])[0]
            self.download_file(ts_url, self.target+'/out'+index.zfill(4)+'.ts')
            print(ts_url+'--->Done')
        elif ts[-1].endswith('.ts'):
            ts_url = ts[-1]
            index = re.findall('out(.*)\.ts',ts[-1])[0]
            self.download_file(ts_url, self.target+'/out'+index.zfill(4)+'.ts')
            print(ts_url+'--->Done')
        else:
            print(ts[-1]+'无效')
    
    def download_with_multi_process(self, ts_list):
        print('开始多线程下载')
        print('下载链接及情况：')
        """"""
        """建议优化代码"""
        """https://blog.csdn.net/qq_40910788/article/details/84844464"""
        task = self.pool.map(self.download_for_multi_process,ts_list)#此时非阻塞
        for t in task:#此时会变成阻塞
            pass
        '''
        from multiprocessing.dummy import Pool
        pool = Pool(10)
        pool.map(self.download_for_multi_process, ts_list)
        pool.close()
        pool.join()
        '''

    '''第四步、合并ts文件'''
    def merge_ts_file_with_os(self):
        print('开始合并')
        L=[]
        file_dir=self.target
        for root, dirs, files in os.walk(file_dir): 
            for file in files:  
                if os.path.splitext(file)[1] == '.ts':  
                    L.append(file)
        L.sort()
        blocks = [L[i:i+self.max_num] for i in range(0,len(L),self.max_num)]

        os.system('cd '+self.target)
        tmp=[]
        for index, block in enumerate(blocks):
            b='+'.join(block)
            new_name=' out_new_'+str(index).zfill(2)+'.ts'
            tmp.append(new_name)
            os.system('copy /b '+b+new_name)

        cmd='+'.join(tmp)
        num = int(re.findall('player-(.*?).html', self.url)[0].split('-')[-1])+1
        os.system('copy /b '+cmd+' E'+str(num).zfill(2)+'.mp4')
        os.system('del /Q out*.ts')
        print('合并完成')

    def merge_ts_file_with_ffmpeg():
        pass
    
    def main_process(self):
        available_IP = self.get_available_IP()
        ts_list = self.get_playlist(available_IP)
        self.download_with_multi_process(ts_list)
        self.merge_ts_file_with_os()
    
if __name__ == '__main__':
    web_url= "http://www.xigua66.com/mainland/yitiantulongji2019/player-0-36.html"
    down = Xigua66Downloader(web_url)
    available_IP, label = down.get_available_IP()
    ts_list = down.get_playlist(available_IP, label)
    down.download_with_multi_process(ts_list)
    down.merge_ts_file_with_os()

6、结果

6.1获得真实地址

>>> available_IP
'https://yuboyun.com/v/9eBF1A0o'

6.2 获得ts列表

[(时间，文件名),()...]

>>> ts_list
[('10.520000', 'out000.ts'), ('5.680000', 'out001.ts'), ('2.280000', 'out002.ts'), ('1.680000', 'out003.ts'), ('5.680000', 'out004.ts'), ('5.440000', 'https://www.78pan.com/api/stats/hls/2019/02/27/9eBF1A0o/out005.ts'), ('3.800000', 'out006.ts'), ('6.240000', 'out007.ts'), ('4.080000', 'out008.ts'), ('5.440000', 'out009.ts'), ('6.040000', 'out010.ts'),  .....]

6.3下载文件

开始多线程下载
下载链接及情况：
https://www4.yuboyun.com/hls/2019/02/27/9eBF1A0o/out003.ts--->Done
https://www4.yuboyun.com/hls/2019/02/27/9eBF1A0o/out002.ts--->Done
https://www4.yuboyun.com/hls/2019/02/27/9eBF1A0o/out007.ts--->Done

6.4合并文件

你可能感兴趣的:(爬虫)

【python实用小脚本-128】基于 Python 的 Hacker News 爬虫工具：自动化抓取新闻数据 Kyln.Wu Python python 爬虫自动化
引言在技术社区中，HackerNews是一个汇聚最新技术文章和讨论的热门平台。许多开发者和技术爱好者依赖它来获取行业动态和前沿资讯。然而，手动浏览和筛选这些文章可能耗时且低效。本文将介绍一个基于Python的HackerNews爬虫工具，它能够自动化地从HackerNews网站抓取最新文章，并将结果保存为CSV文件。该工具主要利用了Python的requests、BeautifulSoup和csv
Python Scrapy的爬虫中间件开发 AI天才研究院 python scrapy 爬虫 ai
PythonScrapy爬虫中间件开发：从原理到实战的深度解析关键词Scrapy中间件、爬虫扩展、请求响应处理、反爬绕过、中间件生命周期、钩子函数、分布式爬取摘要本文系统解析Scrapy爬虫中间件（SpiderMiddleware）的开发方法论，覆盖从基础概念到高级实践的全链路知识。通过第一性原理推导中间件的核心机制，结合层次化架构分析（理论→设计→实现→应用），提供生产级代码示例与可视化流程模型
Python 爬虫入门（九）：Scrapy安装及使用「详细介绍」 blues_C Python爬虫实战 python 爬虫 scrapy
Python爬虫入门（九）：Scrapy安装及使用「详细介绍」前言1.Scrapy简介2.Scrapy的安装2.1环境准备2.2安装Scrapy3.创建Scrapy项目3.1创建项目3.2项目结构简介4.编写爬虫4.1创建爬虫4.2解析数据4.3运行爬虫5.存储数据5.1存储为JSON文件5.2存储到数据库5.2.1MongoDB6.处理请求和响应6.1请求头设置6.2处理响应7.高级功能7.1使
Go与Python爬虫对比及模板实现
go语言和Python语言都可选作用来爬虫项目，因为python经过十几年的累积，各种库是应有尽有，学习也相对比较简单，相比GO起步较晚还是有很大优势的，么有对比就没有伤害，所以我利用一个下午，写个Go爬虫，虽说运行起来没啥问题，但是之间出错的概率太高了，没有完备的模版套用得走很多弯路，这就是为啥go没有python受欢迎的原因。为何Go爬虫远没有Python爬虫流行？1、历史生态差距Python
R语言初学者爬虫简单模板 q56731523 r语言爬虫开发语言 iphone
习惯使用python做爬虫的，反过来使用R语言可能有点不太习惯，正常来说R语言好不好学完全取决于你的学习背景以及任务复杂情况。对于入门学者来说，R语言使用rvest+httr组合，几行代码就能完成简单爬取（比Python的Scrapy简单得多），R语言数据处理优势明显，爬取后可直接用dplyr/tidyr清洗，小打小闹用R语言完全没问题，如果是企业级大型项目还是有限考虑python，综合成本还是p
Python:爬虫基础《爬取红楼梦》
小说爬虫项目说明文档用于爬取诗词名句网上小说内容的Python爬虫项目。本项目以《红楼梦》为例，演示如何爬取完整的小说内容。项目功能爬取小说的所有章节名称获取每个章节的URL链接下载并保存每个章节的内容到独立的文本文件自动创建存储目录包含基本的错误处理和请求延迟环境要求Python3.x依赖包：requestsbeautifulsoup4logging安装依赖pipinstallrequestsb
MediaCrawler：强大的自媒体平台爬虫工具几道之旅人工智能智能体及数字员工 Python杂货铺 AI 自建MCP 学习记录媒体爬虫人工智能
在当今数字化的时代，自媒体平台蕴含着海量的数据，这些数据对于研究、市场分析等方面具有重要的价值。而MediaCrawler正是一款专注于自媒体平台数据采集的强大工具，本文将为大家详细介绍这个开源项目。一、项目简介MediaCrawler是一个功能强大的多平台自媒体数据采集工具，其开源仓库地址为https://github.com/NanmiCoder/MediaCrawler。该工具支持小红书、抖
爬虫-第一个爬虫程序
浏览器里面都是html数据，拿到的都是页面源代码，可以用自己的方式打开测试。打开浏览器decode找charset
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
C#实战分享--爬虫的基础原理及实现
关注我，持续分享逻辑思维&管理思维；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；有意找工作的同学，请参考博主的原创：《面试官心得--面试前应该如何准备》，《面试官心得--面试时如何进行自我介绍》《做好面试准备，迎接2024金三银四》。推荐热榜内容：《架构实战--以海量存储系统讲解热门话题：分布式概念》-------------------------------------正文----
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
【Python爬虫进阶】从网页抓取到数据清洗与存储——完整实战教程 Python爬虫项目 python 爬虫开发语言 javascript 自然语言处理 selenium
1.为什么网页抓取后需要数据清洗？在实际项目中，抓取的原始数据往往是杂乱的、不完整的、格式各异的。如果不清洗，直接用来建模、分析，会导致：脏数据干扰（如乱码、重复数据）异常值影响结果（如薪资异常高）格式不统一（比如地点有中文名和英文名混杂）所以，抓取数据后，必须进行系统清洗与标准化，才能用于后续的：数据分析可视化展示机器学习建模2.项目概览：从抓取到存储的完整流程本项目流程如下：确定抓取目标（某招
构建“城市生活指数”爬虫系统：抓取物价、租金、工资等数据并可视化实战程序员威哥生活爬虫 python 开发语言 selenium beautifulsoup
一、项目背景“城市生活指数”是一种综合反映城市居民生活成本和经济水平的指标。通过抓取不同网站上的物价、租金、工资等数据，结合数据分析和可视化，可以帮助用户直观比较各城市生活压力和经济实力，为工作、生活决策提供数据支持。二、数据来源与选取1.物价数据典型网站：物价类统计网站、超市/电商价格（如淘宝、京东）、地方统计局官网示例网站：国家统计局物价数据、各城市生活成本调查网站2.房租数据典型网站：链家、
验证码破解的可能与不可能：用Python处理图片验证码的原理与限制程序员威哥 python 开发语言
前言验证码（CAPTCHA）是当前互联网防护机制中的重要组成部分，用于区分真人与自动程序。近年来，随着自动化技术发展，验证码破解成为自动化测试、爬虫及安全研究领域的热点。然而，从技术层面来看，验证码破解既有可行之处，也存在根本限制。本文将结合Python图像处理与机器学习技术，深度剖析图片验证码破解的原理、实践与瓶颈。一、验证码的分类及破解难点1.验证码类型字符型验证码纯数字、字母或混合，最常见。
Python 爬虫实战：高效存储与数据清洗技巧，助你轻松处理抓取数据程序员威哥 python 爬虫开发语言
在进行大规模数据抓取时，数据的存储与清洗是爬虫项目中不可或缺的环节。抓取到的数据往往是杂乱无章的，包含了许多无关的内容，需要经过处理才能用于分析和应用。如何高效地存储数据，并对其进行清洗、去重、格式化等操作，是每个爬虫开发者必须掌握的重要技能。本文将介绍如何使用Python实现数据存储与清洗的常见技巧，帮助你提升数据处理效率，为后续的数据分析和应用打下坚实的基础。一、为什么数据存储与清洗如此重要？
Python 爬虫实战：从新闻网站抓取数据并进行情感分析，揭示舆情趋势
随着信息时代的发展，新闻内容的获取和情感分析变得越来越重要。在日常生活中，新闻不仅影响公众的观点和情感，还能反映出社会的舆情变化。如何从大量新闻中获取有价值的信息，并进行情感分析，为舆情监测、品牌管理、市场预测等提供支持，成为了许多企业和个人的需求。本文将以Python爬虫为基础，展示如何从新闻网站抓取数据，并进行情感分析。我们将重点介绍如何使用爬虫抓取新闻数据、如何分析新闻情感，以及如何根据情感
Python 爬虫实战：如何在东方财富网抓取股票行情数据，提升投资决策精准度
前言随着金融市场的快速发展，投资者越来越依赖于实时的股票行情数据来做出决策。在这个过程中，股票数据爬取成为了许多投资者、数据分析师和金融工程师的重要技能。通过编写一个高效的股票数据爬虫，我们可以快速抓取大量股票信息，并进行实时监控与分析，从而帮助做出更加精准的投资决策。本文将展示如何通过Python爬虫从东方财富网（东财网）抓取股票行情数据，并提供一些简单的数据分析手段，帮助用户更好地理解如何利用
如何检测DDoS攻击？西里网西里.中国 ddos
参考资料waf防爬虫简介阻止恶意HTTP/HTTPS流量来保护网站安全推荐一些DDoS攻击防护的工具WAF防护简介waf防ddos简介如何检测DDoS攻击？waf防火墙和web防火墙区别混合DDoS攻击方式结合多种攻击DDoS攻击检测方法1.流量监控与分析网络流量基线：建立正常流量基准，检测异常流量波动（如突发性流量激增）。流量来源分析：检查是否来自单一IP、特定ASN或地理区域的大规模请求。协议
Java简易爬虫：抓取京东图书信息实战指南黃昱儒
本文还有配套的精品资源，点击获取简介：本项目展示如何使用Java语言创建一个网络爬虫来抓取京东网站的图书信息。介绍使用Maven作为构建工具，HTTP客户端库发送请求，以及Jsoup或类似库解析HTML内容。讲解如何处理JavaScript动态加载内容，绕过反爬机制，并讨论数据存储和用户界面设计的策略。1.Java网络爬虫项目概述网络爬虫是一种自动获取网页内容的程序，它按照一定的规则，自动抓取互联
Python 爬虫实战：保险公司产品条款现代技术高效爬取 Python核芯 Python爬虫实战项目 python 爬虫开发语言保险
一、引言在当今数字化时代，保险行业作为金融领域的重要组成部分，其产品条款信息的获取对于消费者、研究人员以及行业从业者都具有重要意义。然而，面对海量的保险产品条款数据，如何高效、准确地爬取这些信息成为了一个亟待解决的问题。本文将详细介绍如何利用现代Python爬虫技术，针对保险公司产品条款进行高效爬取，旨在为相关领域的研究和应用提供有力的技术支持。二、爬取目标与需求分析（一）爬取目标本次爬取的目标是
Python爬虫：Scrapy报错：ModuleNotFoundError: No module named ‘scrapy.contrib‘ 濯一一 #爬虫 bug scrapy python 爬虫
项目场景：今天，又开始自学Python爬虫Scrapy框架辽，爬爬爬于是又导包报错辽，，，问题描述：提示：第一行导入scrapy.contrib时报错了。原因分析：百度：找到类似的问题和解决方式：#bug：fromscrapytest.NewsItemsimportNewsItem#改为#debug：fromscrapytest.scrapytest.itemsimportNewsItem思考：重
基于Xposed的高级数据爬取实战：突破APP反爬机制的企业级解决方案 Python×CATIA工业智造人工智能大数据网络爬虫 pycharm
引言：移动端数据采集的技术困境在App数据价值日益凸显的时代，传统爬取方案面临三大核心挑战：协议加密壁垒：金融类App采用非标准加密方案比例高达92%（来源：2023年移动安全年报）动态防护升级：行为分析技术识别异常请求准确率达85%法律合规风险：违反《数据安全法》最高罚款可达年营收5%行业数据显示：主流电商平台单用户画像价值1.2-5.3传统爬虫方案识别率超过75%数据采集综合成本增长120%X
Python 爬虫实战：DOTA2 比赛数据全量采集（含赛事战报解析与数据库存储西攻城狮北 python 爬虫数据库
一、引言DOTA2作为一款全球知名的多人在线战术竞技游戏，拥有庞大的玩家群体和丰富的比赛数据。这些数据对于电竞分析师、数据研究员、游戏玩家等具有极高的价值。通过爬取DOTA2比赛数据，可以深入了解比赛详情、战队表现、选手数据等信息，为电竞行业提供数据支持。二、开发环境搭建（一）编程语言与工具选择选择Python语言，利用其丰富的库和简洁语法，高效完成爬虫开发任务。搭配PyCharm集成开发环境，享
Python 爬虫实战：淘宝直播间实时数据抓取（弹幕分析 + 流量监控）西攻城狮北 python 爬虫开发语言
一、引言随着电商直播的迅猛发展，淘宝直播已成为品牌推广和商品销售的重要阵地。通过爬取淘宝直播间的实时数据，包括弹幕互动和流量信息，可以帮助商家深入了解用户行为、优化直播策略，同时为市场分析和商业决策提供数据支持。本文将深入探讨如何利用Python爬虫技术实现对淘宝直播间实时数据的抓取，并进行弹幕分析和流量监控。二、项目背景与目标2.1项目背景淘宝直播作为电商领域的重要流量入口，通过实时视频与用户互
脉脉模拟登陆
说明最近弄得最热的就是什么互联网寒冬，裁员等关键字，于是脉脉，领英的平台的热度就上去了，我就做了脉脉，领英的爬虫。操作脉脉模拟登陆难度不大，只是需要验证码处理我用的云打码，数字的加减法1、通过抓包分析，登陆的地址为https://acc.maimai.cn/login，一个post请求。其中包含用户名，密码，验证码。其中验证码是有时候需要，有时候不需要。data={"m":self.usernam
使用 Python 编写一个简单的网页爬虫小张同学的解忧笔记 python 爬虫开发语言
在数据时代，信息是金子。而网络上蕴藏着海量的数据资源，掌握一门自动化获取数据的技术就尤为重要。今天我们将通过Python来编写一个简单的网页爬虫，从一个网页中提取我们想要的数据内容。一、什么是网页爬虫？网页爬虫（WebCrawler）是一种自动访问网站并抓取其页面内容的程序。它模拟浏览器的行为，访问网站并提取页面中的结构化数据，如文本、图片、链接等。二、准备工作我们需要安装以下Python库：pi
基于opencv的疲劳驾驶监测系统
博主介绍：java高级开发，从事互联网行业多年，熟悉各种主流语言，精通java、python、php、爬虫、web开发，已经做了多年的毕业设计程序开发，开发过上千套毕业设计程序，没有什么华丽的语言，只有实实在在的写点程序。文末点击卡片获取联系技术：python+opencv+dlib1、研究背景研究背景随着交通运输业的迅猛发展，汽车保有量持续攀升，道路交通流量大幅增加，疲劳驾驶已成为引发交通事故的
Python 爬虫实战：微博话题讨论数趋势爬取与分析全流程西攻城狮北 python 爬虫开发语言
1.项目背景与目标微博话题（#话题#）是社交媒体舆情监测、品牌营销、热点追踪的重要数据源。本实战要完成以下目标：爬取指定话题在7天内的讨论数、阅读量、热搜排名等关键指标。将数据存入MySQL，并每日增量更新。用Pandas+Matplotlib绘制趋势图，直观呈现热度变化。基于SnowNLP做情感倾向分析，输出正面/负面占比。生成一份可分享的HTML可视化报告。2.环境搭建与依赖2.1安装核心库p
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Web爬虫编程语言选择指南 q56731523 前端爬虫开发语言
刚学爬虫的小伙伴常常为选择那种语言来写爬虫而烦恼，今天我将总结几种语言的优劣势，然后选择适合编写Web爬虫的编程语言。这就需要我们考虑开发效率、生态库支持、并发性能等因素。以下是主流选择及特点跟着一起看看吧：1.Python（推荐首选）优势：丰富库支持：Requests（HTTP请求）、BeautifulSoup/lxml（HTML解析）、Scrapy（全功能框架）、Selenium（模拟浏览器）
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他