hzp666

Python爬虫(6):煎蛋网全站妹子图爬虫

上一篇文章中我们抓取了豆瓣图书的数据，如果大家运行成功，并且看到文件夹下的 txt 文件了。是不是有一种刚接触编程，第一次输出Hello world!时的欣喜。和上一篇实践不同，我们这一次来爬取煎蛋网全站妹子图，并且保存到指定文件夹下。

爬取流程

从煎蛋网妹子图第一页开始抓取；
爬取分页标签获得最后一页数字；
根据最后一页页数，获得所有页URL；
迭代所有页，对页面所有妹子图片url进行抓取；访问图片URL并且保存图片到文件夹。

开始

通过上一篇文章的爬取过程，我们基本上理解了抓取一个网站的大致流程。因为一个网站虽然有很多页，但是大部分网站每一页的HTML标签内容都是相同的。我们只要获取到一页的内容，就可以获得所有页的内容了。那么开始之前，我们来分析一下煎蛋网妹子图页面的URL。

第一页的 url：http://jandan.net/ooxx/page-1

第二页：http://jandan.net/ooxx/page-2

最后一页：http://jandan.net/ooxx/page-93

不难发现，煎蛋网的 url 的规律是比较简单的，每一页后面 page 的数字就是几。那么我们可以通过一个循环就可以获得所有的页面 URL 了。但是大家应该想到，这个网站每天都会更新，今天是 93 页，明天就会增加到94页了。如果每一都要爬一次的话，那么每次都要改一下代码页数信息了。这样实现起来虽然可以，但是不免有些愚蠢。

所以我们需要通过页面的标签信息让程序自己获得页数，我们访问http://jandan.net/ooxx/这个页面时，就相当于我们直接访问了最后一页。大家可以自己试试看。

图中我们可以明确的看到最后一页的数字是94.只要通过这个页面的URL进行抓取就可以得到。我们先获得源码：

 
            import 
            requests 
           
            from 
            bs4  
            import 
            BeautifulSoup 
           
            url  
            = 
            'http://jandan.net/ooxx/' 
           
            headers  
            = 
            { 
            'User-Agent' 
            : 
            'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' 
            } 
           
            resp  
            = 
            requests.get(url, headers 
            = 
            headers) 
           
            soup  
            = 
            BeautifulSoup(resp.text,  
            'lxml' 
            )

我们按下f12，从页面源码中找到最后一页 94 所在的标签：

原来 94 就在这个span标签啊。接下来是不是很简单了：

 
            # 获得最高页码数 
           
            allpage  
            = 
            soup.find( 
            'span' 
            ,  
            class_ 
            = 
            "current-comment-page" 
            ).get_text()[ 
            1 
            : 
            - 
            1 
            ]

由于标签内的 94 边包含一个[]，大家不要以为只是一个list，只要[0]就可以获得的。我们完全可以使用type(),看一下他的属性，就知道它是一个字符串，我们利用切片去掉第一个和最后一个字符，就得到了页数了。
得到页数后，我们利用循环就可以得到所有页的url了：

 
            urllist  
            = 
            [] 
           
            # for循环迭代出所有页面，得到url 
           
            for 
            page  
            in 
            range 
            ( 
            1 
            ,  
            int 
            (allpage) 
            + 
            1 
            ): 
           
            allurl  
            = 
            base_url  
            + 
            'page-' 
            + 
            str 
            (page) 
           
            urllist.append(allurl)

我们把它保存到一个list中。
那么现在，我们得到所有页面的 url，就可以来获取每一页的内容了。我们以最后一页为例来进行抓取。

我们仍然使用审查元素，找到图片 url 所在的标签。仍然是老方法，获取到页面所有包含图片的img标签：

 
            # css选择器 
           
            allimgs  
            = 
            soup.select( 
            'div.text > p > img' 
            )

只要一行代码，我们就成功获得所有标签了。这里使用了 CSS选择器，大家是否还记得这个方法呢。可以查看之前的文章或者BeautifulSoup的官方文档了解哦。如果大家对 CSS 不是很熟悉，或者根本不知道。也没关系，反正find_all()和find()方法也是可以实现的。不过这里我教大家一个简单的CSS选择器方法。

我们只要按f12打开浏览器的开发者工具，找到标签的位置，右击标签。就可以看到这个情况：

没错，我们直接Copy selector的内容，粘贴出来就是这样的字符串：#comment-3468457 > div > div > div.text > p > img

我们稍微去掉前面的一些标签，大多数情况下保留到父标签后面的内容就可以了。就是这样：div.text > p > img

我们放到代码中，运行一下就知道是不是成功了。

结果只一个列表：

 
            [ 
            = 
            "add_img_loading_mask(this, load_sina_gif);" 
            org_src 
            = 
            "//wx4.sinaimg.cn/mw690/6adc108fly1fg90v6vzipg20ak05xqv5.gif" 
            src 
            = 
            "//wx4.sinaimg.cn/thumb180/6adc108fly1fg90v6vzipg20ak05xqv5.gif" 
            / 
            >,  
            = 
            "add_img_loading_mask(this, load_sina_gif);" 
            org_src 
            = 
            "//wx4.sinaimg.cn/mw690/6adc108fly1fg90qymd8pg20dc0dcnph.gif" 
            src 
            = 
            "//wx4.sinaimg.cn/thumb180/6adc108fly1fg90qymd8pg20dc0dcnph.gif" 
            / 
            >,  
            = 
            "add_img_loading_mask(this, load_sina_gif);" 
            org_src 
            = 
            "//wx4.sinaimg.cn/mw690/6adc108fly1fg90s98qsbg207e08mu10.gif" 
            src 
            = 
            "//wx4.sinaimg.cn/thumb180/6adc108fly1fg90s98qsbg207e08mu10.gif" 
            / 
            >,  
            = 
            "add_img_loading_mask(this, load_sina_gif);" 
            org_src 
            = 
            "//wx3.sinaimg.cn/mw690/6adc108fly1fg90v51p5eg20a00dchdv.gif" 
            src 
            = 
            "//wx3.sinaimg.cn/thumb180/6adc108fly1fg90v51p5eg20a00dchdv.gif" 
            / 
            >,  
            = 
            "//wx4.sinaimg.cn/mw600/a1b56627gy1fdb7851js0j20ku4xcx6q.jpg" 
            / 
            >,  
            = 
            "//wx4.sinaimg.cn/mw600/a1b56627gy1fdb78fw14yj20dc46pb2a.jpg" 
            / 
            >,  
            = 
            "//wx3.sinaimg.cn/mw600/a1b56627gy1fdb78hqr1kj20dc1i0x02.jpg" 
            / 
            >,  
            = 
            "//wx4.sinaimg.cn/mw600/a1b56627gy1fdb78ldnwbj20ku3ei4qq.jpg" 
            / 
            >,  
            = 
            "//wx4.sinaimg.cn/mw600/a82b014bly1fg8gkj95toj21kw1kwh3s.jpg" 
            / 
            >,  
            = 
            "//wx4.sinaimg.cn/mw600/a82b014bly1fg8gkhmfraj21kw11xgth.jpg" 
            / 
            >,  
            = 
            "//wx2.sinaimg.cn/mw600/a82b014bly1fg8gklclivj21kw2dc1dg.jpg" 
            / 
            >,  
            = 
            "//wx2.sinaimg.cn/mw600/a82b014bly1fg8eohjekwj21421jkah5.jpg" 
            / 
            >] 
           

很显然，这一页的图片URL都在这里。
接下来就是提取img标签的src属性了。

 
            for 
            img  
            in 
            list 
            : 
           
            urls  
            = 
            img[ 
            'src' 
            ] 
           
            # 判断url是否完整 
           
            if 
            urls[ 
            0 
            : 
            5 
            ]  
            = 
            = 
            'http:' 
            : 
           
            img_url  
            = 
            urls 
           
            else 
            : 
           
            img_url  
            = 
            'http:' 
            + 
            urls

由于有的标签内url并不完整，所以这里我们进行一次判断。如果不完整就给他补全。

好了，图片的 url 都获得了，接下来就是保存图片了。大家还记得之前我们介绍Requests模块的时候，有过保存图片的演示。
因为万维网中每个图片，每个视频都有唯一的 url 指向它们。所以我们只要访问这个 url，并且获得图片的二进制数据，保存到本地就可以了。

 
            imgs  
            = 
            requests.get(img_url，headers 
            = 
            headers) 
           
            filename  
            = 
            img_url.split( 
            '/' 
            )[ 
            - 
            1 
            ] 
           
            # 保存图片 
           
            with  
            open 
            (filename,  
            'wb' 
            ) as f: 
           
            # 直接过滤掉保存失败的图片，不终止程序 
           
            try 
            : 
           
            f.write(imgs.content) 
           
            print 
            ( 
            'Sucessful image:' 
            ,filename) 
           
            except 
            : 
           
            print 
            ( 
            'Failed:' 
            ,filename)

大家注意，获取图片二进制数据是.content方法，而不是.text。这里我们有一个错误过滤，因为保存的过程中会有一些文件保存错误的情况，我们直接过滤掉，不终止程序的运行。

好了，爬虫程序到这里基本上已经全部实现了。但是我们如果把所有的图片存放在一个文件夹中，而且还是代码所在文件夹，不免有些难看。我们可以自己指定他们存放的位置。这里需要用的Python内置的os库了，不清楚的伙伴可以自己查看资料哈。

 
            # 创建文件夹的函数，保存到D盘 
           
            def 
            mkdir(path): 
           
            # os.path.exists(name)判断是否存在路径 
           
            # os.path.join(path, name)连接目录与文件名 
           
            isExists  
            = 
            os.path.exists(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            # 如果不存在 
           
            if 
            not 
            isExists: 
           
            print 
            ( 
            'makedir' 
            , path) 
           
            # 创建文件夹 
           
            os.makedirs(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            # 切换到创建的文件夹 
           
            os.chdir(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            return 
            True 
           
            # 如果存在了就返回False 
           
            else 
            : 
           
            print 
            (path,  
            'already exists' 
            ) 
           
            return 
            False

我们只要传给这个函数一个路径参数就可以创建文件夹了。全部的功能都已经实现了，如果不出现以外的话，大家就可以在 d 盘看到这个文件夹了。

如果程序出现错误，可能是我们的程序访问过于频繁，网站封禁了我们的ip。这时，我们就要使用一个代理了。网上免费的代理很多，大家可以自己找，这里简单做一个使用代理的演示。由于是免费ip，不会存活太久就会不能使用，大家不要直接使用代码中的ip。后续可以带着大家一起代建一个自己的代理池。

 
            proxies  
            = 
            { 
            'http' 
            :  
            '111.23.10.27:8080' 
            } 
           
            try 
            : 
           
            # Requests库的get请求 
           
            resp  
            = 
            requests.get(url, headers 
            = 
            headers) 
           
            except 
            : 
           
            # 如果请求被阻，就使用代理 
           
            resp  
            = 
            requests.get(url, headers 
            = 
            headers, proxies 
            = 
            proxies)

代码

好了，最后上一下完整代码：

 
            # -*- coding:utf-8 -*- 
           
            #  author: yukun 
           
            import 
            requests 
           
            import 
            os 
           
            import 
            time 
           
            from 
            bs4  
            import 
            BeautifulSoup 
           
            # 发出请求获得HTML源码 
           
            def 
            get_html(url): 
           
            # 指定一个浏览器头 
           
            headers  
            = 
            { 
            'User-Agent' 
            : 
            'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' 
            } 
           
            # 代理，免费的代理只能维持一会可能就没用了，自行更换 
           
            proxies  
            = 
            { 
            'http' 
            :  
            '111.23.10.27:8080' 
            } 
           
            try 
            : 
           
            # Requests库的get请求 
           
            resp  
            = 
            requests.get(url, headers 
            = 
            headers) 
           
            except 
            : 
           
            # 如果请求被阻，就使用代理 
           
            resp  
            = 
            requests.get(url, headers 
            = 
            headers, proxies 
            = 
            proxies) 
           
            return 
            resp 
           
            # 创建文件夹的函数，保存到D盘 
           
            def 
            mkdir(path): 
           
            # os.path.exists(name)判断是否存在路径 
           
            # os.path.join(path, name)连接目录与文件名 
           
            isExists  
            = 
            os.path.exists(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            # 如果不存在 
           
            if 
            not 
            isExists: 
           
            print 
            ( 
            'makedir' 
            , path) 
           
            # 创建文件夹 
           
            os.makedirs(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            # 切换到创建的文件夹 
           
            os.chdir(os.path.join( 
            "D:\jiandan" 
            , path)) 
           
            return 
            True 
           
            # 如果存在了就返回False 
           
            else 
            : 
           
            print 
            (path,  
            'already exists' 
            ) 
           
            return 
            False 
           
            # 获得图片地址调用download函数进行下载 
           
            def 
            get_imgs(): 
           
            # 调用函数获得所有页面 
           
            for 
            url  
            in 
            all_page(): 
           
            path  
            = 
            url.split( 
            '-' 
            )[ 
            - 
            1 
            ] 
           
            # 创建文件夹的函数 
           
            mkdir(path) 
           
            # 调用请求函数获得HTML源码 
           
            html  
            = 
            get_html(url).text 
           
            # 使用lxml解析器，也可以使用html.parser 
           
            soup  
            = 
            BeautifulSoup(html,  
            'lxml' 
            ) 
           
            # css选择器 
           
            allimgs  
            = 
            soup.select( 
            'div.text > p > img' 
            ) 
           
            # 调用download函数下载保存 
           
            download(allimgs) 
           
            # 执行完毕打出ok 
           
            print 
            ( 
            'ok' 
            ) 
           
            # 获得所有页面 
           
            def 
            all_page(): 
           
            base_url  
            = 
            'http://jandan.net/ooxx/' 
           
            # BeautifulSoup解析页面得到最高页码数 
           
            soup  
            = 
            BeautifulSoup(get_html(base_url).text,  
            'lxml' 
            ) 
           
            # 获得最高页码数 
           
            allpage  
            = 
            soup.find( 
            'span' 
            ,  
            class_ 
            = 
            "current-comment-page" 
            ).get_text()[ 
            1 
            : 
            - 
            1 
            ] 
           
            urllist  
            = 
            [] 
           
            # for循环迭代出所有页面，得到url 
           
            for 
            page  
            in 
            range 
            ( 
            1 
            ,  
            int 
            (allpage) 
            + 
            1 
            ): 
           
            allurl  
            = 
            base_url  
            + 
            'page-' 
            + 
            str 
            (page) 
           
            urllist.append(allurl) 
           
            return 
            urllist 
           
            # 保存图片函数，传入的参数是一页所有图片url集合 
           
            def 
            download( 
            list 
            ): 
           
            for 
            img  
            in 
            list 
            : 
           
            urls  
            = 
            img[ 
            'src' 
            ] 
           
            # 判断url是否完整 
           
            if 
            urls[ 
            0 
            : 
            5 
            ]  
            = 
            = 
            'http:' 
            : 
           
            img_url  
            = 
            urls 
           
            else 
            : 
           
            img_url  
            = 
            'http:' 
            + 
            urls 
           
            filename  
            = 
            img_url.split( 
            '/' 
            )[ 
            - 
            1 
            ] 
           
            # 保存图片 
           
            with  
            open 
            (filename,  
            'wb' 
            ) as f: 
           
            # 直接过滤掉保存失败的图片，不终止程序 
           
            try 
            : 
           
            f.write(get_html(img_url).content) 
           
            print 
            ( 
            'Sucessful image:' 
            ,filename) 
           
            except 
            : 
           
            print 
            ( 
            'Failed:' 
            ,filename) 
           
            if 
            __name__  
            = 
            = 
            '__main__' 
            : 
           
            # 计时 
           
            t1  
            = 
            time.time() 
           
            # 调用函数 
           
            get_imgs() 
           
            print 
            (time.time()  
            - 
            t1)

经过计时，我们只需要146秒就爬取了全站的妹子图片了，大家注意身体。

谢谢阅读

你可能感兴趣的:(python)

leetcode_双指针 125.验证回文串 MiyamiKK57 leetcode 算法职场和发展
125.验证回文串如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后，短语正着读和反着读都一样。则可以认为该短语是一个回文串。字母和数字都属于字母数字字符。给你一个字符串s，如果它是回文串，返回true；否则，返回false。法1:re.subre.sub()是Pythonre（正则表达式）模块中的一个函数，用于替换字符串中匹配指定正则表达式的部分基本语法:re.sub(patter
python pandas中apply()方法用法汇总 whale fall python进阶 python pandas 数据分析
apply函数是pandas中用于对DataFrame或Series中的每一行或每一列应用一个函数的强大工具。在apply()方法中，通常会传入一个函数作为参数，这个函数会应用到DataFrame的每一行或每一列上，或Series的每个元素上。下面是一些常见的用法示例：1.对Series使用apply()，传入一个函数如果你想对某一列（Series）应用函数，可以直接调用apply方法。impor
从负数绝对值的计算来看Ruby的一个“奇葩”行为
计算一个数的绝对值是非常基础的操作，几乎所有主流的编程语言都内置了相应的函数或方法。在PHP、Python、SQL等语言中，直接调用abs()函数即可，例如abs(-1)。到了Java、C#这类面向对象的语言中，abs()通常是Math类的静态方法，调用时要加上前缀Math.，即Math.abs(-1)。Go语言就要稍微麻烦一点了，因为math包中的Abs()函数仅支持float64类型的参数，如
Python Playwright 打包报错 Please run the following command to download new browsers 卡尔特斯 Python python
想做一个浏览器自动化的小插件，本地安装了Playwright，测试可以正常打开浏览器自动化。但是在使用PyInstaller将Python代码打包成app/exe后，打开应用程序报错：playwright._impl._api_types.Error:Executabledoesn'texistat/Users/dengzemiao/Desktop/Project/python/dist/main
机器翻译技术的演进与未来趋势：从规则到神经网络的革新 Echo_Wish 人工智能前沿技术机器翻译神经网络人工智能
随着全球化的不断推进和多语言交流的日益频繁，机器翻译（MachineTranslation,MT）技术的需求日益增长。机器翻译技术经历了从基于规则的方法到统计方法，再到如今的神经网络方法的发展历程。本文将探讨机器翻译技术的演进过程及其未来趋势，并结合Python代码示例，展示现代机器翻译技术的应用。一、机器翻译技术的发展历程1.基于规则的机器翻译（RBMT）早期的机器翻译技术主要基于规则（Rule
python同花顺交易接口_开启量化第一步！同花顺iFinD数据接口免费版简易操作教程... weixin_39564527 python同花顺交易接口
金融市场波动频繁，投资往往会夹杂非理性的情绪。而量化交易，旨在以先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略，辅助投资者进行理性投资。不过计算机分析存在一定的技术门槛，有没有简单易学的量化交易方式，能够快速获取有价值的投资策略方案呢？同花顺iFinD数据接口免费版提供简易的操作与丰富的实操案例，将作为引路者，带你迈入量化世界！P
python同花顺股票实时数据_如何获取实时的股票数据？ weixin_39575648 python同花顺股票实时数据
Ref===>tushare系统：Ubuntu15.04Python:2.7环境包：Anaconda,仅供娱乐...最近在学习Python语言，刚好也想学学炒股，因此学习了一些基础知识后，打算做一些股票相关的demo练手，第一个要解决的问题当然是数据采集。翻遍了网络，看了一些朋友的代码片段(尤其感谢tushare的作者)，知道了向API请求数据的格式大概是这样的：http://api.financ
量化交易软件排名有哪些？如何评判其优劣？各软件有何独特之处？财云量化 python炒股自动化量化交易程序化交易量化交易软件排名优劣评判独特之处股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
Python基础入门----Python的编码规范：PEP 8介绍及基本遵循原则 redrose2100 Python从入门到进阶 python 开发语言
文章目录PEP8简介基本遵循原则1.缩进2.行宽3.空行4.导入5.空格6.命名约定7.表达式和语句中的空格8.注释9.编码声明10.文档字符串PEP8简介PEP8，或PythonEnhancementProposal8，是一个官方文档，发布于2001年。它由GuidovanRossum，Python语言的创始人，以及BarryWarsaw和NickCoghlan等社区成员共同编写。该文档提供了编
13、Python面试题解析：字符串的乘法是如何工作的？千层冷面 python python java 开发语言
1.字符串乘法的基本概念在Python中，字符串支持与整数的乘法操作。字符串乘法的作用是将字符串重复指定的次数。语法如下：字符串*整数字符串：可以是任意字符串。整数：必须是非负整数，表示字符串重复的次数。示例result="hello"*3print(result)#输出:hellohellohello2.字符串乘法的工作原理字符串乘法的实现原理可以理解为以下步骤：检查整数是否为非负数：如果整数为
Django视图与URLs路由详解 m0_74824802 面试学习路线阿里巴巴 django 数据库 sqlite
在DjangoWeb框架中，视图（Views）和URLs路由（URLrouting）是Web应用开发的核心概念。它们共同负责将用户的请求映射到相应的Python函数，并返回适当的响应。本篇博客将深入探讨Django的视图和URLs路由系统，提供实际的代码示例和操作指导，确保读者能够具体而实际地了解如何使用这些功能来构建健壮的Web应用。目录Django视图与URLs路由详解一、理解Django视图
Django学习笔记（第一天：Django基本知识简介与启动） S1901 python Django django 学习笔记
博主毕业已经工作一年多了，最基本的测试工作已经完全掌握。一方面为了解决当前公司没有自动化测试平台的痛点，另一方面为了向更高级的测试架构师转型，于是重温Django的知识，用于后期搭建测试自动化平台。为什么不选择Java：Python语法简洁易读，适合快速开发。Selenium、Appium、pytest、Requests等工具对Python支持极好，且有丰富的文档和社区资源。Django简介Dja
Calculate Correlation Matrix 六月五日 Deep-ML
CalculateCorrelationMatrixWriteaPythonfunctiontocalculatethecorrelationmatrixforagivendataset.Thefunctionshouldtakeina2DnumpyarrayXandanoptional2DnumpyarrayY.IfYisnotprovided,thefunctionshouldcalculat
IPython使用技巧整理 AI普惠行者 IT基础 ipython
以下是一些常见且有用的IPython使用技巧，整理如下：一、基本功能1.启动IPython：在终端输入`ipython`命令即可启动IPython环境。2.自动补全：使用`Tab`键进行变量和函数名的自动补全。例如，输入`pri`后按`Tab`键，会自动补全为`print`。二、魔法命令（MagicCommands）1.%timeit：用来计时小段代码的执行时间。```python%timeits
python版halcon 转numpy 虚假程序设计 python numpy opencv
新版Halcon支持python接口,Python函数和halcon函数名几乎完全相同,用python写一些对性能要求不高的插件还是很舒服的.(halcon-python环境配置可以看我之前的文章)众所周知python中图像是用numpy表示的,python常用的图像处理库matplotlib,pillow,opencv-python,Scipy,pgmagick....等等...所以图像转成nu
halcon opencv C++环境配置 | halcon opencv |C++互转opencv和Halcon图像变量(非常详细)|(msvc2015/17)(143) 虚假程序设计 opencv c++人工智能
这是本人第一次正儿八经非调侃的态度写C相关的东西;VS的C++每次环境不好配置就让人望而却步;而python的优势在于环境几乎只需要pipinstallxxx;C#多数情况下nuget点点点在添加引用就能愉快的玩耍;而pyC#背后竟然是xxx;有一被分层包养的感觉;而C/CPP头文件程序链接文件(动态|静态)动态链接库这都啥??掌握pythonnetctypes咯咯咯嘎嘎嘎%$#@#$%&^*(&
Python库房管理系统开发指南 Tech Synapse python 开发语言
在现代仓储管理中，高效、准确的信息系统是提高运营效率的关键。Python作为一种强大且易于学习的编程语言，非常适合用来开发简易而功能齐全的库房管理系统。本文将详细介绍如何使用Python编写一个基本的库房管理系统，包括商品入库、出库、查询库存及生成报表等功能。通过本文，读者不仅能学习到Python编程技巧，还能理解库房管理系统的基本架构和逻辑。一、系统需求分析在开发库房管理系统之前，我们需要明确系
使用Python爬虫获取淘宝item_search_tmall API接口数据 API快乐传递者 python 淘宝API python 爬虫开发语言
一、引言在电商运营和市场分析中，获取商品搜索数据是了解市场动态、用户需求和竞争对手的重要手段。淘宝作为国内最大的电商平台之一，提供了丰富的API接口，其中item_search_tmall接口允许开发者通过关键字搜索天猫平台上的商品信息。本文将详细介绍如何使用Python编写爬虫程序，调用淘宝的item_search_tmall接口获取商品搜索数据。二、淘宝item_search_tmall接口简
Python的pickle库的简单使用 _Ocean__ python 开发语言
pickle是Python中用于序列化和反序列化对象的标准库。它可以将对象转换为字节流，以便在存储或传输过程中使用，也可以将字节流重新转换回原始对象。基本使用方法如下：序列化对象：将对象转换为字节流的过程称为序列化。可以使用pickle.dump()函数将对象序列化并写入文件，或使用pickle.dumps()函数将对象序列化为字节流。pickle.dump(obj,file)：将对象 obj 序
Tenserflow学习笔记【一：Python入门】邪魔小屁屁神经网络与深度学习 python 数据结构机器学习
Python序列数据结构初习一.前言Python的两种主要的序列数据类型二.关于序列的相关操作1.索引2.切片[开始位置：结束位置]3.获取长度len()4.添加元素①append()②insert(a,b)5.合并列表①extend()②‘+’6.删除元素del6.排序7.遍历序列8.字典①遍历②添加、修改指定元素的取值③合并字典update()④删除字典中的元素9.集合（略）总结一.前言Pyt
*python中的字符串菜鸡且菜鸡计算机基础 #python python
什么是字符串,字符串的格式多个字符就是字符串.格式:变量名='字符串'或者:变量名="字符串"#例如:name='张三'des='张三是个万能的名字'password='123456'#......都需要用字符串来存储字符串格式化详见里面的格式化输出字符串的下标索引下标==索引字符串:我喜欢你下标索引:0123str='我喜欢你'print(str[0]) #根据下标将字符取出:我print(s
python 类属性实例属性_类属性和实例属性 weixin_39747615 python 类属性实例属性
类属性和实例属性下表列出了4个常见的明星人物：姓名年龄周润发58成龙55刘德华53周星驰54进行归纳总结：这些人物具有较高的知名度，把这些人物归类为明星。每个明星两个属性：姓名和年龄。明星这个群体具有一个属性：数量，在这张表格中，明星的数量是4。姓名和年龄等属性是用于描述具体的一个对象(例如：周润发)，而人物的数量是用于描述明星这个类别。如果使用面向对象技术对以上实体进行描述，周润发、成龙、刘德华
Python环境搭建与量化交易开发入门指南量化投资技术量化科普 Python 量化 miniQMT QMT 量化交易量化投资
Python环境搭建与量化交易开发入门指南在量化交易领域，Python因其强大的数据处理能力和丰富的库支持而成为首选编程语言。本文将指导您如何在本地搭建一个适合量化交易的Python环境，并介绍一些常用的代码编辑器和工具。《QMT开通规则分享》更多内容，知识星球搜索：数据与交易Python安装方式一：官网安装（推荐）首先，访问Python官网下载适合的版本。由于xtquant库目前最高支持到Pyt
DataWhale 数学建模导论学习笔记（第一章） ryanYu_127 学习笔记
要点：利用Python作为计算工具帮助解决数学模型。一、前期准备工作1.AnacondaNavigator帮助安装了NumPy所需的功能包。2.通过Jupyter_Lab,可以直接测试代码运行的结果。3.通过vscode可以修改文本并即时看到预览结果，解决一些符号、公式、表格显示不正常的问题。4.这也是我第一次使用CSDN记录自己的学习笔记。二、进入第一章正题解析方法与几何建模：1.前面的向量和矩
python 读写Plist篇（Plist） JensenZhong python 基础 python 开发语言
python读写Plist篇（Plist）文章目录python读写Plist篇（Plist）一、Plist应用环境二、python环境（plistlib库）三、plist文件打开方式四、plist文件示例（config.plist）五、文件读取六、文件写入七、文件内容删除八、代码示例一、Plist应用环境‌Plist文件主要在macOS和iOS开发环境中使用‌。Plist文件通常用于存储应用程序的
【pickle】详解python中的pickle模块（常用函数、示例）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程中，数据的存储和传输是常见的操作需求。有时，我们需要将复杂的数据对象保存到文件中以便后续使用，或者在不同的程序之间传递对象。Python的pickle模块提供了一种方便的解决方案，它能够实现对象的序列化和反序列化，使得数据的持久化和共享变得更加容易。1、序列化、反序列化介绍序列化：把对象转换为字节序列的过程称为对象的序列化。反序列化：把字节序列恢复为对象的过程称为对象的反序列化。
玩转序列化，用这个库就对了：Python的pickle库正东AI Python python java android Python pickle
文章目录玩转序列化，用这个库就对了：Python的pickle库背景什么是pickle库？如何安装这个库？5个简单的库函数使用方法dump函数load函数dumps函数loads函数高级用法：使用协议5个场景使用代码说明场景1：保存和加载自定义类实例场景2：保存和加载复杂数据结构场景3：跨网络传输Python对象场景4：多进程中使用pickle场景5：使用pickle进行深拷贝常见3个bug以及解
第1关：查找第一个匹配的字符串 -阿呆- #正则表达式入门 python
任务描述本关任务：学会导入python的正则表达式库，使用该库方法的search方法编写一个匹配小程序。该方法能查看某个学生名字是否在此学生信息中。相关知识为了完成本关任务，你需要掌握：如何在python中引入正则表达式库；re库中search方法的使用。1、在Python中使用正则表达式正可谓人生苦短，我用Python。Python有个特点就是库非常多，自然拥有正则匹配这种常见的库，并且此库已经
作业练习（python) Justice link 算法
第一题：cel=eval(input())fah=9/5*cel+32print("%.1f"%fah)第二题：radius,length=eval(input())area=radius*radius*3.14159267volume=area*lengthprint("%.2f"%area)print("%.2f"%volume)第三题：num=eval(input())result=num*
python 学习路线 Coding Happily python 学习 windows
学习顺序《python编程：从入门到实践》《Head-FirstPython》《“笨方法”学python3》《PythonCookbook》《Python机器学习基础教程》《FluentPython》《Python编程》《Python编程：从入门到实践》变量变量命名：仅用小写和下划线。变量本质:指向特定的值。字符串在字符串中使用变量：f’{varies1}{varies2}’更早版本:‘{}{}’
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v hdfs@192.168.18.133 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l