Silence4Allen

scrapy爬取酷狗音乐

scrapy爬取酷狗音乐（附源码）

前言
Hello，酷狗！
- 创建一个Scrapy项目
- spider模块
- - 分析前端界面
  - 注意
- items模块
- pipeline模块
- - 处理音频文件自定义下载路径
  - 自定义下载图片路径
  - 异步存入到数据库
- settings.py
- 调试
- 运行
- 源码

前言

文章仅供学习交流使用，切勿他用。如有侵权，请联系本人处理。

scrapy之前了解过，但是过一段时间又忘记，于是打算爬一个网站，顺便记录下，以便后续能够快速回忆。以下是自己的一些理解，如果有不对的地方，还请各位看官指教。本来想爬取echo音乐的（喜欢而已），但是好像echo音乐挂了有一段时间了。无奈，找个酷狗啪啪啪，爬爬爬…

先上成果图

Hello，酷狗！

话不多说，首先看看酷狗首页长啥样。
分类很多，我们没必要全站爬取，hold不住，简单爬一爬。就从热门歌手下手吧。
撸起袖子加油干，奥利给~

创建一个Scrapy项目

#创建一个scrapy项目
scrapy startproject KugouMusicSpider

#创建一个爬虫，我用酷狗首页作为入口，也可以直接从目标网址入手
scrapy genspider kugou_music_spider www.kugou.com/

spider模块

spider模块主要有两个作用：

yield组装Item实体，engine会将item交由pipeline处理
yield新的Request请求，engine会将request交由scheduler处理

由源码可以看出，我们的spider会从start_requests方法中通过start_urls开始爬取，并会将结果交由parse方法处理，当然默认去重dont_filter是为True的。
所以我们可以复写start_requests方法自行处理，也可直接从默认的parse方法中等待start_url的结果response进行处理。

弄清楚spider的作用后，我们鬼刀一开，就可以操作了。

    def start_requests(self):
        for url in self.start_urls:
            yield Request(url, dont_filter=True, callback=self.parse_index)

    def parse_index(self, response):
        """
        根据酷狗首页获取'更多'歌手连接（即歌手首页）
        :param response:
        :return:
        """
        singer_index_url = response.xpath('//div[@id="tabMenu"]//a[@class="more"]/@href').extract_first()
        singer_index_url = parse.urljoin(response.url, singer_index_url)
        yield Request(
            url=singer_index_url,
            callback=self.parse_singer_index,
            dont_filter=True
        )

拿到歌手首页后，我们获取前面18为歌手，主要是html刚好在一个标签内，其他的不想搞了，否则太多了。

    def parse_singer_index(self, response):
        """
        解析歌手首页，只爬取前18位歌手数据
        :param response:
        :return:
        """
        head_singers = response.xpath('//ul[@id="list_head"]/li')
        for singer_info in head_singers:
            singer_url = singer_info.xpath('./a/@href').extract_first()
            match_re = re.match(".*?(\d+).*", singer_url)
            if match_re:
                author_id = match_re.group(1)
                name = singer_info.xpath('./a/@title').extract_first()
                pic_url = singer_info.xpath('./a/img/@_src').extract_first()

                singer_item = SingerItem()
                singer_item.update({
     
                    "name": name,
                    "author_id": author_id,
                    "index_url": singer_url,
                    "pic_url": pic_url
                })
                yield Request(
                    url=singer_url,
                    callback=self.parse_singer_detail,
                    meta={
     "singer_item": singer_item},
                    dont_filter=True
                )

接着我们请求每一个歌手的详情界面，获取音乐列表

    def parse_singer_detail(self, response):
        """
        解析歌手详情页面，提取歌曲
        :param response:
        :return:
        """
        singer_item = response.meta.get('singer_item')

        brief = response.xpath('//div[@class="intro"]/p/text()').extract_first()
        singer_item.update({
     
            "brief": brief
        })
        yield singer_item

        musics = response.xpath('//ul[@id="song_container"]/li')
        for music in musics:
            music_hash = music.xpath('./a/input/@value').extract_first()
            match_re = re.match(".*\|(.*)\|.*", music_hash)
            if match_re:
                music_hash = match_re.group(1)
                if music_hash:
                    url = 'https://wwwapi.kugou.com/yy/index.php?r=play/getdata&hash={}'.format(music_hash)
                    yield Request(
                        url=url,
                        headers=self.headers,
                        cookies=self.cookies,
                        callback=self.parse_music_info,
                        dont_filter=True
                    )

到此，歌手信息我们要这些差不多够了。那如何爬取下载音乐的问题呢？其实，上面代码中可以看到我除了yield出去一个singer_item，还yield出去一个请求，实不相瞒，这个请求就是获取歌曲信息的，我们由前端页面来分析下为何会有如此的骚操作。

分析前端界面

可以看出，当我们在歌手详情界面的时候，比如周董这个界面。
打开F12，我们点击歌曲，它会进行打开一个新标签进行播放。
我们接着在播放页面打开F12，清除缓存刷新（command+R）
不难可以看到这样一个url请求

https://wwwapi.kugou.com/yy/index.php?r=play/getdata&callback=jQuery191016332021391396312_1610098389715&hash=0A62227CAAB66F54D43EC084B4BDD81F&dfid=339APl2z0YhL137NsD3cEyfR&mid=ce2e5886bdbb858e1d6dced7a863772f&platid=4&album_id=960399&_=1610098389716

她的返回是如此的优美，漂亮，落落大方。（哈哈哈哈，皮一下就很开心。）
这不正是我们想找的东西吗？play_url，她是MP3格式的。我们试着打开这个play_url链接

https://webfs.yun.kugou.com/202101081726/d8118a93c70849d1c597affdef32cf61/part/0/960083/G185/M0B/0C/13/-Q0DAF5Nfl-AGwcXADaWAFwMkd8892.mp3

完美的音频文件。
但是，有个问题，不论是上述的url请求还是play_url，都有我们看不懂的参数，目测是加密用的。并且mp3格式的链接应该是有时效性的。
一筹莫展之际，抱着试试看的态度，将上述url留下我们能认识的参数。
hash，这个我们认识，在歌手详情界面每首歌的标签里我们见过

试着请求

https://wwwapi.kugou.com/yy/index.php?r=play/getdata&hash=0A62227CAAB66F54D43EC084B4BDD81F

可以获取到歌曲的部分信息，其中包含album_id

刚刚我们url链接里也看到过这个参数，再加上，试试

https://wwwapi.kugou.com/yy/index.php?r=play/getdata&hash=0A62227CAAB66F54D43EC084B4BDD81F&album_id=960399

大哥，搞定~
此时，音乐的信息我们也基本差不多了。

    def parse_music_info(self, response):
        """
        获取歌曲album_id
        :param response:
        :return:
        """
        res = json.loads(response.text)
        status = res.get('status')
        err_code = res.get('err_code')
        if status == 1 and err_code == 0:
            get_detail = response.meta.get('get_detail')
            data = res.get('data', {
     })
            if data:
                if get_detail:
                    music_item = MusicItem()
                    music_item.update({
     
                        "hash": data.get('hash'),
                        "name": data.get('song_name'),
                        "lyrics": data.get('lyrics'),
                        "play_url": data.get('play_url'),
                        "audio_id": data.get('audio_id'),
                        "author_id": data.get('author_id'),
                        "author_name": data.get('author_name'),
                        "audio_name": data.get('audio_name'),
                        "album_name": data.get('album_name'),
                        "album_id": data.get('album_id'),
                        "img_url": data.get('img'),
                        "have_mv": data.get('have_mv'),
                        "video_id": data.get('video_id')
                    })
                    yield music_item
                else:
                    album_id = data.get('album_id')
                    if album_id is not None:
                        url = '{}&album_id={}'.format(response.url, album_id)
                        yield Request(
                            url=url,
                            headers=self.headers,
                            cookies=self.cookies,
                            callback=self.parse_music_info,
                            meta={
     'get_detail': True},
                            dont_filter=True
                        )

将music信息yield出去交由pipeline处理。

注意

此处yield出去的Request需要带上headers和cookies，并且cookies不能放在headers中，否则拿不到数据
但是，cookies放在headers中，可以通过requests包发送请求，也可以拿到数据
再但是，requests是同步的方式，会阻塞，所以不建议

items模块

我们已经在spider中用过了，主要用来定义待处理的实体。此处有singer和music两个item。

pipeline模块

我们定义的pipeline模块需要对item进行持久化处理，此处是下载音乐到本地以及存储信息到数据库。

pipelines模块大都需要配置settings.py文件，勿忘记。
处理文件和图片可以自己继承FilesPipeline或者ImagesPipeline，自定义下载路径及名称
处理数据库也建议使用异步的方式插入

处理音频文件自定义下载路径

class KugouMusicPipeline(FilesPipeline):
   """
   下载音频文件
   """

   def get_media_requests(self, item, info):
       if isinstance(item, MusicItem):
           url = item['play_url']
           yield Request(url)

   def file_path(self, request, response=None, info=None, *, item=None):
       # media_guid = hashlib.sha1(to_bytes(request.url)).hexdigest()
       author_name = item['author_name']
       media_guid = item['name']
       media_ext = os.path.splitext(request.url)[1]
       if media_ext not in mimetypes.types_map:
           media_ext = ''
           media_type = mimetypes.guess_type(request.url)[0]
           if media_type:
               media_ext = mimetypes.guess_extension(media_type)
       return f'{author_name}/{media_guid}{media_ext}'

   def item_completed(self, results, item, info):
       if isinstance(item, MusicItem):
           file_paths = [x['path'] for ok, x in results if ok]
           if file_paths:
               item['play_path'] = file_paths[0]
       return item

自定义下载图片路径

class KugouImagePipeline(ImagesPipeline):
    """
    处理文件下载路径，并将路径信息存入item
    """

    def get_media_requests(self, item, info):
        if isinstance(item, SingerItem):
            url = item['pic_url']
            yield Request(url)

    def file_path(self, request, response=None, info=None, *, item=None):
        if isinstance(item, SingerItem):
            name = item['name']
            image_guid = hashlib.sha1(to_bytes(request.url)).hexdigest()
            return f'{name}/{image_guid}.jpg'

    def item_completed(self, results, item, info):
        if isinstance(item, SingerItem):
            file_paths = [x['path'] for ok, x in results if ok]
            if file_paths:
                item['pic_path'] = file_paths[0]
        return item

两者差不多，主要是复写三个方法用于不同功能

get_media_requests：用来指明下载的url
file_path：用来指明下载路径
item_completed：用来更新到item中，保存下载的文件路径，跟随item存入数据库

异步存入到数据库


class MysqlTwistedPipeline(object):
    """
    异步方式插入数据库
    """

    def __init__(self, db_pool):
        self.db_pool = db_pool

    @classmethod
    def from_settings(cls, settings):
        from MySQLdb.cursors import DictCursor
        db_params = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWORD'],
            charset='utf8',
            cursorclass=DictCursor,
            use_unicode=True
        )
        db_pool = adbapi.ConnectionPool('MySQLdb', **db_params)
        return cls(db_pool)

    def process_item(self, item, spider):
        query = self.db_pool.runInteraction(self.do_insert, item)
        query.addErrback(self.handle_error, item, spider)

    def handle_error(self, failure, item, spider):
        print(failure)

    def do_insert(self, cursor, item):
        params = list()
        cur_time = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        if isinstance(item, SingerItem):
            insert_sql = """
                insert into singer
                (name,author_id,index_url,pic_url,pic_path,brief,first_create_time,update_time)
                values 
                (%s,%s,%s,%s,%s,%s,%s,%s)
                ON DUPLICATE KEY UPDATE 
                author_id=VALUES(author_id),
                index_url=VALUES(index_url),
                pic_url=VALUES(pic_url),
                brief=VALUES(brief),
                update_time=VALUES(update_time);
            """
            params.append(item.get('name', ''))
            params.append(item.get('author_id', ''))
            params.append(item.get('index_url', ''))
            params.append(item.get('pic_url', ''))
            params.append(item.get('pic_path', ''))
            params.append(item.get('brief', ''))
            params.append(cur_time)
            params.append(cur_time)

            cursor.execute(insert_sql, tuple(params))

        elif isinstance(item, MusicItem):
            pass
            insert_sql = """
                        insert into music
                        (hash,name,lyrics,play_url,play_path,audio_id,author_id,author_name,audio_name,album_name,album_id,img_url,have_mv,video_id,first_create_time,update_time)
                        values 
                        (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
                        ON DUPLICATE KEY UPDATE 
                        hash=VALUES(hash),
                        play_url=VALUES(play_url),
                        img_url=VALUES(img_url),
                        update_time=VALUES(update_time);
                    """

            params.append(item.get('hash', ''))
            params.append(item.get('name', ''))
            params.append(item.get('lyrics', ''))
            params.append(item.get('play_url', ''))
            params.append(item.get('play_path', ''))
            params.append(item.get('audio_id', ''))
            params.append(item.get('author_id', ''))
            params.append(item.get('author_name', ''))
            params.append(item.get('audio_name', ''))
            params.append(item.get('album_name', ''))
            params.append(item.get('album_id', ''))
            params.append(item.get('img_url', ''))
            params.append(item.get('have_mv', ''))
            params.append(item.get('video_id', ''))
            params.append(cur_time)
            params.append(cur_time)

            cursor.execute(insert_sql, tuple(params))

在setting.py中配置pipelines注意先后顺序，数字越小，越先处理

settings.py

配置数据库参数和图片、文件的下载路径

调试

项目下可以新建main.py文件，使用execute(["scrapy", "crawl", "kugou_music_spider"])避免命令开启爬虫无法debug的问题
调试的时候先一位歌手一首歌曲的调试，避免啥你懂的

运行

奥利给~

scrapy crawl kugou_music_spider

测试了下，运行结果如下

源码

代码托管于github，传送门，截止发文，有效。
部分资料可参考
scrapy官方文档

下一篇：scrapy_redis分布式爬取酷狗音乐

还不会构建MindIE镜像？一篇文章搞定 Zain Lau vim 编辑器 linux MindIE 昇腾
MindIE镜像构建工程项目简介用于构建多平台/架构的MindiE镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。前提条件网络连接在整个构建过程中，必须保持稳定的网络连接。此构建工程依赖于在线下载多个资源，包括但不限于Python源码、编译工具以及各种依赖，无法离线构建。Docker推荐版本：Docker20.10.x及以上最低版本要求：Docker19.03.x安装方式：
使用 certbot 在centos7 搭建ssl证书自动并且续约 TwoSs110 ssl https
第一步，确定服务器适合安装的certbot版本sudoyuminstallpython27如果上述方法不起作用，你可以尝试编译安装。首先，你需要安装编译Python所需的依赖包。sudoyuminstallgccmakeopenssl-develsqlite-develreadline-develzlib-develbzip2-devel接下来，下载Python2.7.5的源代码，并进行编译安装。
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
Conda报错解决：ProxyError: Conda cannot proceed due to an error in your proxy configuration. 三采 Linux Conda 代理
目录原因一：源配置有误原因二：代理配置有误原因三：路由配置有误在需要使用代理的服务器下，创建新conda环境时报错：condacreate-nopencompasspython=3.8/usr/lib/python3/dist-packages/requests/__init__.py:89:RequestsDependencyWarning:urllib3(1.26.9)orchardet(3.
基于asp.NET的病历管理系统 (源码+net+vue+部署文档+讲解等) qq_1406299528 计算机毕业设计 asp asp.net vue.js 后端
收藏关注不迷路！！文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录前言程序资料获取一、项目技术二、项目内容和功能介绍三、核心代码数据库参考四、效果图五、资料获取前言博主介绍：✨全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师，专注于Java/Python/小程序app/深度学
爬取电影标题、评论、评分（21-11-4）穆桥 Python爬虫 XPath解析 MySQL数据库电影信息疾病数据
功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过Python的lxml库，利用XPath进行HTML的解析。scrapy封装了lxml也可以导入scrapy任务
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
使用yolo训练自己的模型数据遇到的问题次次皮 YOLO 深度学习人工智能
1、报错：NolabelsfoundinD:\xxx\valid\labels.cache查找网上的文章大多都是说文件目录没按规定创建，但我检查了我的目录没问题，后来发现是labels文件夹里的txt文件和images文件夹的图片没有一一对应，对应好之后问题解决2、解决完上个问题之后还是不报上面的错了但还是FatalPythonerror:Aborted；Restartingkernel...检查
Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
轻松管理CSV数据，Python csv库全解析嘎啦AGI实验室 Python python android 数据库 Python csv
文章目录轻松管理CSV数据，Pythoncsv库全解析背景介绍csv库是什么？如何安装csv库？五个简单的库函数使用方法1.读取CSV文件2.写入CSV文件3.使用DictReader读取CSV4.使用DictWriter写入CSV5.指定分隔符五个场景使用代码说明场景1：读取CSV并统计数据场景2：将查询结果写入CSV场景3：读取CSV并过滤数据场景4：读取CSV并排序数据场景5：读取CSV并合
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
python中三元运算符使用总结上趣工作室 python python 开发语言
在Python中，三元运算符通常被称为条件表达式，它的语法为：value_if_trueifconditionelsevalue_if_false这个条件表达式的含义是：如果condition为True，则返回value_if_true，否则返回value_if_false。示例以下是一些使用三元运算符的示例：1、基本使用:x=10result="Greaterthan5"ifx>5else"5o
python中将字符串转换成数字，并且保留两位小数上趣工作室 python python 后端
在Python中，你可以使用float()函数将字符串转换为数字，并使用字符串格式化来保留小数点后两位。下面是一个示例代码：defconvert_to_float(string):try:number=float(string)formatted_number="{:.2f}".format(number)returnformatted_numberexceptValueError:return"
使用 Python 编写网络爬虫：从入门到实战 Manaaaaaaa python 爬虫开发语言
网络爬虫是一种自动化获取网页信息的程序，通常用于数据采集、信息监控等领域。Python是一种广泛应用于网络爬虫开发的编程语言，具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用Python编写网络爬虫，包括基本原理、常用库和实战案例。一、原理介绍网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送HTTP请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集
列表推导式_Python教程曹操贪慕小乔 python基础 python numpy 算法
内容摘要Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、文章正文Python中存在一种特殊的表达式，名为推导式，它的作用是将一种数据结构作为输入，再经过过滤计算等处理，最后输出另一种数据结构。根据数据结构的不同会被分为列表推导式、集合推导式和字典推导式。我们先着重来介绍最常使用的列
【数字IC验证】博客内容全览 MoorePlus 数字IC验证百宝箱经验分享面试数字IC 芯片验证 SV
【导读】：数字IC验证百宝箱涵盖博主在实际工作中常用的技能与工具，包括但不限于SV、UVM、Formal、脚本(perl/python/shell)及EDA工具快速上手使用等。无论你是刚踏入职场的验证小白，还是希望回顾基础寻找跳槽机会的从业者，本专栏都能为你提供实用的技术支持，在达成目标的路上，助你一臂之力。“凡是能用钱买来的时间就是便宜的；凡是能用时间换来的注意力持续就是有价值的。”（附上超链接
[LeetCode]46.全排列（python） xyhaaab leetcode python 算法
1.代码fromtypingimportListclassSolution:defpermute(self,nums:List[int])->List[List[int]]:result:List[List[int]]=[]length=len(nums)deffill(n:int,nums:List[int]):ifn==length:result.append(nums[:])returnfo
rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用原野AI 大模型部署 pdf ocr 深度学习 open-webui
背景rapidocr-onnxruntime是一个跨平台的OCR库，基于ONNXRuntime推理框架。目前已知运行速度最快、支持最广，完全开源免费并支持离线快速部署的多平台多语言OCR。缘起：百度paddle工程化不是太好，为了方便大家在各种端上进行ocr推理，我们将它转换为onnx格式，使用Python/C++/Java/Swift/C#将它移植到各个平台。名称来源：轻快好省并智能。基于深度学
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">