pythoncxy

Python爬虫新手教程：Python分析了 7 万款 App，万万没想到！

摘要：使用 Scrapy 爬取豌豆荚全网 70,000+ App，并进行探索性分析。

写在前面：若对数据抓取部分不感兴趣，可以直接下拉到数据分析部分。

1 分析背景

之前我们使用了 Scrapy 爬取并分析了酷安网 6000+ App，为什么这篇文章又在讲抓 App 呢？

Python资源共享群：484031800

因为我喜欢折腾 App，哈哈。当然，主要是因为下面这几点：

第一、之前抓取的网页很简单

在抓取酷安网时，我们使用 for 循环，遍历了几百页就完成了所有内容的抓取，非常简单，但现实往往不会这么 easy，有时我们要抓的内容会比较庞大，比如抓取整个网站的数据，为了增强爬虫技能，所以本文选择了「豌豆荚」这个网站。

目标是： 爬取该网站所有分类下的 App 信息并下载 App 图标 ，数量在 70,000 左右，比酷安升了一个数量级。

第二、再次练习使用强大的 Scrapy 框架

之前只是初步地使用了 Scrapy 进行抓取，还没有充分领会到 Scrapy 有多么牛逼，所以本文尝试深入使用 Scrapy，增加随机 UserAgent、代理 IP 和图片下载等设置。

第三、对比一下酷安和豌豆荚两个网站

相信很多人都在使用豌豆荚下载 App，我则使用酷安较多，所以也想比较一下这两个网站有什么异同点。

话不多说，下面开始抓取流程。

▌分析目标

首先，我们来了解一下要抓取的目标网页是什么样的。

可以看到该网站上的 App 分成了很多类，包括：「应用播放」、「系统工具」等，一共有 14 个大类别，每个大类下又细分了多个小类，例如，影音播放下包括：「视频」、「直播」等。

点击「视频」进入第二级子类页面，可以看到每款 App 的部分信息，包括：图标、名称、安装数量、体积、评论等。

接着，我们可以再进入第三级页面，也就是每款 App 的详情页，可以看到多了下载数、好评率、评论数这几样参数，抓取思路和第二级页面大同小异，同时为了减小网站压力，所以 App 详情页就不抓取了。

image

所以，这是一个分类多级页面的抓取问题，依次抓取每一个大类下的全部子类数据。

学会了这种抓取思路，很多网站我们都可以去抓，比如很多人爱爬的「豆瓣电影」也是这样的结构。

▌分析内容

数据抓取完成后，本文主要是对分类型数据的进行简单的探索性分析，包括这么几个方面：

下载量最多 / 最少的 App 总排名
下载量最多 / 最少的 App 分类 / 子分类排名
App 下载量区间分布
App 名称重名的有多少
和酷安 App 进行对比

▌分析工具

Python
Scrapy
MongoDB
Pyecharts
Matplotlib

2 数据抓取

▌网站分析

我们刚才已经初步对网站进行了分析，大致思路可以分为两步，首先是提取所有子类的 URL 链接，然后分别抓取每个 URL 下的 App 信息就行了。

可以看到，子类的 URL 是由两个数字构成，前面的数字表示分类编号，后面的数字表示子分类编号，得到了这两个编号，就可以抓取该分类下的所有 App 信息，那么怎么获取这两个数值代码呢？

回到分类页面，定位查看信息，可以看到分类信息都包裹在每个 li 节点中，子分类 URL 则又在子节点 a 的 href 属性中， 大分类一共有 14 个，子分类一共有 88 个 。

到这儿，思路就很清晰了，我们可以用 CSS 提取出全部子分类的 URL，然后分别抓取所需信息即可。

另外还需注意一点，该网站的首页信息是静态加载的，从第 2 页开始是采用了 Ajax 动态加载，URL 不同，需要分别进行解析提取。

▌Scrapy抓取

我们要爬取两部分内容，一是 APP 的数据信息，包括前面所说的：名称、安装数量、体积、评论等，二是下载每款 App 的图标，分文件夹进行存放。

由于该网站有一定的反爬措施，所以我们需要添加随机 UA 和代理 IP

这里随机 UA 使用 **scrapy-fake-useragent **库，一行代码就能搞定，代理 IP 直接上阿布云付费代理，几块钱搞定简单省事。

下面，就直接上代码了。

items.py

1import scrapy 2 3class WandoujiaItem(scrapy.Item): 4    cate_name = scrapy.Field() #分类名 5    child_cate_name = scrapy.Field() #分类编号 6    app_name = scrapy.Field()   # 子分类名 7    install = scrapy.Field()    # 子分类编号 8    volume = scrapy.Field()     # 体积 9    comment = scrapy.Field()    # 评论10    icon_url = scrapy.Field()   # 图标url
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

middles.py

中间件主要用于设置代理 IP。

1import base64 2proxyServer = "http://http-dyn.abuyun.com:9020" 3proxyUser = "你的信息" 4proxyPass = "你的信息" 5 6proxyAuth = "Basic " + base64.urlsafe_b64encode(bytes((proxyUser + ":" + proxyPass), "ascii")).decode("utf8") 7class AbuyunProxyMiddleware(object): 8    def process_request(self, request, spider): 9        request.meta["proxy"] = proxyServer10        request.headers["Proxy-Authorization"] = proxyAuth11        logging.debug('Using Proxy:%s'%proxyServer)

pipelines.py

该文件用于存储数据到 MongoDB 和下载图标到分类文件夹中。

存储到 MongoDB：

1MongoDB 存储 2class MongoPipeline(object): 3    def __init__(self,mongo_url,mongo_db): 4        self.mongo_url = mongo_url 5        self.mongo_db = mongo_db 6 7    @classmethod 8    def from_crawler(cls,crawler): 9        return cls(10            mongo_url = crawler.settings.get('MONGO_URL'),11            mongo_db = crawler.settings.get('MONGO_DB')12        )1314    def open_spider(self,spider):15        self.client = pymongo.MongoClient(self.mongo_url)16        self.db = self.client[self.mongo_db]1718    def process_item(self,item,spider):19        name = item.__class__.__name__20        # self.db[name].insert(dict(item))21        self.db[name].update_one(item, {'$set': item}, upsert=True)22        return item2324    def close_spider(self,spider):25        self.client.close()

按文件夹下载图标：

1# 分文件夹下载 2class ImagedownloadPipeline(ImagesPipeline): 3    def get_media_requests(self,item,info): 4        if item['icon_url']: 5            yield scrapy.Request(item['icon_url'],meta={'item':item}) 6 7    def file_path(self, request, response=None, info=None): 8        name = request.meta['item']['app_name'] 9        cate_name = request.meta['item']['cate_name']10        child_cate_name = request.meta['item']['child_cate_name']1112        path1 = r'/wandoujia/%s/%s' %(cate_name,child_cate_name)13        path = r'{}\{}.{}'.format(path1, name, 'jpg')14        return path1516    def item_completed(self,results,item,info):17        image_path = [x['path'] for ok,x in results if ok]18        if not image_path:19            raise DropItem('Item contains no images')20        return item

settings.py

1BOT_NAME = 'wandoujia' 2SPIDER_MODULES = ['wandoujia.spiders'] 3NEWSPIDER_MODULE = 'wandoujia.spiders' 4 5MONGO_URL = 'localhost' 6MONGO_DB = 'wandoujia' 7 8# 是否遵循机器人规则 9ROBOTSTXT_OBEY = False10# 下载设置延迟 由于买的阿布云一秒只能请求5次，所以每个请求设置了 0.2s延迟11DOWNLOAD_DELAY = 0.21213DOWNLOADER_MIDDLEWARES = {14    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,15    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 100, # 随机UA16    'wandoujia.middlewares.AbuyunProxyMiddleware': 200 # 阿布云代理17    ）1819ITEM_PIPELINES = {20   'wandoujia.pipelines.MongoPipeline': 300,21   'wandoujia.pipelines.ImagedownloadPipeline': 400,22}2324# URL不去重25DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

wandou.py

主程序这里列出关键的部分：

1def __init__(self): 2        self.cate_url = 'https://www.wandoujia.com/category/app' 3        # 子分类首页url 4        self.url = 'https://www.wandoujia.com/category/' 5        # 子分类 ajax请求页url 6        self.ajax_url = 'https://www.wandoujia.com/wdjweb/api/category/more?' 7        # 实例化分类标签 8        self.wandou_category = Get_category() 9def start_requests(self):10        yield scrapy.Request(self.cate_url,callback=self.get_category)1112def get_category(self,response):    13        cate_content = self.wandou_category.parse_category(response)14        # ...

这里，首先定义几个 URL，包括：分类页面、子分类首页、子分类 AJAX 页，也就是第 2 页开始的 URL，然后又定义了一个类 Get_category() 专门用于提取全部的子分类 URL，稍后我们将展开该类的代码。

程序从 start_requests 开始运行，解析首页获得响应，调用 get_category() 方法，然后使用 Get_category() 类中的 parse_category() 方法提取出所有 URL，具体代码如下：

1class Get_category(): 2    def parse_category(self, response): 3        category = response.css('.parent-cate') 4        data = [{ 5            'cate_name': item.css('.cate-link::text').extract_first(), 6            'cate_code': self.get_category_code(item), 7            'child_cate_codes': self.get_child_category(item), 8        } for item in category] 9        return data1011    # 获取所有主分类标签数值代码12    def get_category_code(self, item):13        cate_url = item.css('.cate-link::attr("href")').extract_first()14        pattern = re.compile(r'.*/(\d+)')  # 提取主类标签代码15        cate_code = re.search(pattern, cate_url)16        return cate_code.group(1)1718    # 获取所有子分类名称和编码19    def get_child_category(self, item):20        child_cate = item.css('.child-cate a')21        child_cate_url = [{22            'child_cate_name': child.css('::text').extract_first(),23            'child_cate_code': self.get_child_category_code(child)24        } for child in child_cate]25        return child_cate_url2627    # 正则提取子分类编码28    def get_child_category_code(self, child):29        child_cate_url = child.css('::attr("href")').extract_first()30        pattern = re.compile(r'.*_(\d+)')  # 提取小类标签编号31        child_cate_code = re.search(pattern, child_cate_url)32        return child_cate_code.group(1)
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

这里，除了分类名称 cate_name 可以很方便地直接提取出来，分类编码和子分类的子分类的名称和编码，我们使用了 get_category_code() 等三个方法进行提取。提取方法使用了 CSS 和正则表达式，比较简单。

最终提取的分类名称和编码结果如下，利用这些编码，我们就可以构造 URL 请求开始提取每个子分类下的 App 信息了。

1{'cate_name': '影音播放', 'cate_code': '5029', 'child_cate_codes': [ 2    {'child_cate_name': '视频', 'child_cate_code': '716'},  3    {'child_cate_name': '直播', 'child_cate_code': '1006'},  4    ... 5    ]},  6{'cate_name': '系统工具', 'cate_code': '5018', 'child_cate_codes': [ 7    {'child_cate_name': 'WiFi', 'child_cate_code': '895'},  8    {'child_cate_name': '浏览器', 'child_cate_code': '599'},  9    ...10    ]}, 11...

接着前面的 get_category() 继续往下写，提取 App 的信息：

1def get_category(self,response):     2        cate_content = self.wandou_category.parse_category(response) 3        # ... 4        for item in cate_content: 5            child_cate = item['child_cate_codes'] 6            for cate in child_cate: 7                cate_code = item['cate_code'] 8                cate_name = item['cate_name'] 9                child_cate_code = cate['child_cate_code']10                child_cate_name = cate['child_cate_name']1112                page = 1 # 设置爬取起始页数13                if page == 1:14                    # 构造首页url15                    category_url = '{}{}_{}' .format(self.url, cate_code, child_cate_code)16                else:17                    params = {18                        'catId': cate_code,  # 类别19                        'subCatId': child_cate_code,  # 子类别20                        'page': page,21                        }22                    category_url = self.ajax_url + urlencode(params)23                dict = {'page':page,'cate_name':cate_name,'cate_code':cate_code,'child_cate_name':child_cate_name,'child_cate_code':child_cate_code}24                yield scrapy.Request(category_url,callback=self.parse,meta=dict)

这里，依次提取出全部的分类名称和编码，用于构造请求的 URL。

由于首页的 URL 和第 2 页开始的 URL 形式不同，所以使用了 if 语句分别进行构造。接下来，请求该 URL 然后调用 self.parse() 方法进行解析，这里使用了 meta 参数用于传递相关参数。

1def parse(self, response): 2        if len(response.body) >= 100:  # 判断该页是否爬完，数值定为100是因为无内容时长度是87 3            page = response.meta['page'] 4            cate_name = response.meta['cate_name'] 5            cate_code = response.meta['cate_code'] 6            child_cate_name = response.meta['child_cate_name'] 7            child_cate_code = response.meta['child_cate_code'] 8 9            if page == 1:10                contents = response11            else:12                jsonresponse = json.loads(response.body_as_unicode())13                contents = jsonresponse['data']['content']14                # response 是json,json内容是html，html 为文本不能直接使用.css 提取，要先转换15                contents = scrapy.Selector(text=contents, type="html")1617            contents = contents.css('.card')18            for content in contents:19                # num += 120                item = WandoujiaItem()21                item['cate_name'] = cate_name22                item['child_cate_name'] = child_cate_name23                item['app_name'] = self.clean_name(content.css('.name::text').extract_first())  24                item['install'] = content.css('.install-count::text').extract_first()25                item['volume'] = content.css('.meta span:last-child::text').extract_first()26                item['comment'] = content.css('.comment::text').extract_first().strip()27                item['icon_url'] = self.get_icon_url(content.css('.icon-wrap a img'),page)28                yield item2930            # 递归爬下一页31            page += 132            params = {33                    'catId': cate_code,  # 大类别34                    'subCatId': child_cate_code,  # 小类别35                    'page': page,36                    }37            ajax_url = self.ajax_url + urlencode(params)38            dict = {'page':page,'cate_name':cate_name,'cate_code':cate_code,'child_cate_name':child_cate_name,'child_cate_code':child_cate_code}39            yield scrapy.Request(ajax_url,callback=self.parse,meta=dict)

最后，parse() 方法用来解析提取最终我们需要的 App 名称、安装量等信息，解析完成一页后，page 进行递增，然后重复调用 parse() 方法循环解析，直到解析完全部分类的最后一页。

最终，几个小时后，我们就可以完成全部 App 信息的抓取，我这里得到 73,755 条信息和 72,150 个图标，两个数值不一样是因为有些 App 只有信息没有图标。

图标下载：

下面将对提取的信息，进行简单的探索性分析。

3 数据分析

▌总体情况

首先来看一下 App 的安装量情况，毕竟 70000 多款 App，自然很感兴趣 哪些 App 使用地最多，哪些又使用地最少 。

代码实现如下：

1plt.style.use('ggplot') 2colors = '#6D6D6D' #字体颜色 3colorline = '#63AB47'  #红色CC2824  #豌豆荚绿 4fontsize_title = 20 5fontsize_text = 10 6 7# 下载量总排名 8def analysis_maxmin(data): 9    data_max = (data[:10]).sort_values(by='install_count')10    data_max['install_count'] = (data_max['install_count'] / 100000000).round(1)11    data_max.plot.barh(x='app_name',y='install_count',color=colorline)12    for y, x in enumerate(list((data_max['install_count']))):13        plt.text(x + 0.1, y - 0.08, '%s' %14                 round(x, 1), ha='center', color=colors)1516    plt.title('安装量最多的 10 款 App ?',color=colors)17    plt.xlabel('下载量(亿次)')18    plt.ylabel('App')19    plt.tight_layout()20    # plt.savefig('安装量最多的App.png',dpi=200)21    plt.show()

看了上图，有两个「 没想到 」：

排名第一的居然是一款手机管理软件
对豌豆荚网上的这个第一名感到意外，一是、好奇大家都那么爱手机清理或者怕中毒么？毕竟，我自己的手机都「裸奔」了好些年；二是、第一名居然不是鹅厂的其他产品，比如：微信或者QQ。
榜单放眼望去，以为会出现的没有出现，没有想到的却出现了
前十名中，居然出现了书旗小说、印客这些比较少听过的名字，而国民 App 微信、支付宝等甚至都没有出现在这个榜单中。

带着疑问和好奇，分别找到了「腾讯手机管家」和「微信」两款 App 的主页：

腾讯手机管家下载和安装量：

微信下载和安装量：

这是什么情况？？？

腾讯管家 3 亿多的下载量等同于安装量，而微信 20 多亿的下载量，只有区区一千多万的安装量，两组数据对比，大致反映了两个问题：

要么是腾讯管家的下载量实际并没有那么多
要么是微信的下载量写少了

不管是哪个问题，都反映了一个问题： 该网站做得不够走心啊 。

为了证明这个观点，将前十名的安装量和下载量都作了对比，发现很多 App 的安装量和下载量是一样的，也就是说： 这些 App 的实际安装量并没有那么多 ，而如果这样的话，那么这份榜单就有很大水分了。

难道，辛辛苦苦爬了那么久，就得到这样的结果？

不死心，接着再看看安装量最少的 App 是什么情况，这里找出了其中最少的 10 款：

扫了一眼，更加没想到了：

「QQ 音乐」竟然是倒数第一，只有 3 次安装量！

这和刚刚上市、市值千亿的 QQ 音乐是同一款产品?

再次核实了一下：

没有看错，是写着 3人安装!

这是已经不走心到什么程度了？ 这个安装量，鹅厂还能「用心做好音乐」?

说实话，到这儿已经不想再往下分析下去了，担心爬扒出更多没想到的东西，不过辛苦爬了这么久，还是再往下看看吧。

看了首尾，我们再看看整体，了解一下全部 App 的安装数量分布，这里去除了有很大水分的前十名 App。

很惊讶地发现，竟然有多达 67,195 款，占总数的 94% 的 App 的安装量不足 1万!

如果这个网站的所有数据都是真的话，那么上面排名第一的手机管家，它 一款就差不多抵得上这 6 万多款 App 的安装量!

对于多数 App 开发者，只能说：现实很残酷，辛辛苦苦开发出来的 App，用户不超过 1万人的可能性高达近 95% 。

代码实现如下：

1def analysis_distribution(data): 2    data = data.loc[10:,:] 3    data['install_count'] = data['install_count'].apply(lambda x:x/10000) 4    bins = [0,1,10,100,1000,10000] 5    group_names = ['1万以下','1-10万','10-100万','100-1000万','1000万-1亿'] 6    cats = pd.cut(data['install_count'],bins,labels=group_names) 7    cats = pd.value_counts(cats) 8    bar = Bar('App 下载数量分布','高达 94% 的 App 下载量低于1万') 9    bar.use_theme('macarons')10    bar.add(11        'App 数量',12        list(cats.index),13        list(cats.values),14        is_label_show = True,15        xaxis_interval = 0,16        is_splitline_show = 0,17        )18    bar.render(path='App下载数量分布.png',pixel_ration=1)

▌分类情况

下面，我们来看看各分类下的 App 情况，不再看安装量，而看数量，以排出干扰。

可以看到 14 个大分类中， 每个分类的 App 数量差距都不大 ，数量最多的「生活休闲」是「摄影图像」的两倍多一点。

接着，我们进一步看看 88 个子分类的 App 数量情况，筛选出数量最多和最少的 10 个子类：

可以发现两点有意思的现象：

「收音机」类别 App 数量最多，达到 1,300 多款
这个很意外，当下收音机完全可以说是个老古董了，居然还有那么人去开发。
App 子类数量差距较大
最多的「收音机」是最少的「动态壁纸」近 20 倍，如果我是一个 App 开发者， 那我更愿意去尝试开发些小众类的 App，竞争小一点 ，比如：「背单词」、「小儿百科」这些。

看完了总体和分类情况，突然想到一个问题： 这么多 App，有没有重名的呢？

惊奇地发现，叫「一键锁屏」的 App 多达 40 款，这个功能 App 很难再想出别的名字了么？现在很多手机都支持触控锁屏了，比一键锁屏操作更加方便。

接下来，我们简单对比下豌豆荚和酷安两个网站的 App 情况。

▌对比酷安

二者最直观的一个区别是在 App 数量上，豌豆荚拥有绝对的优势，达到了酷安的十倍之多，那么我们自然感兴趣：

豌豆荚是否包括了酷安上所有的 App ?

如果是，「你有的我都有，你没有的我也有」，那么酷安就没什么优势了。统计之后，发现豌豆荚 仅包括了 3,018 款，也就是一半左右 ，剩下的另一半则没有包括。

这里面固然存在两个平台上 App 名称不一致的现象，但更有理由相信 酷安很多小众的精品 App 是独有的，豌豆荚里并没有。

代码实现如下：

1include = data3.shape[0] 2notinclude = data2.shape[0] - data3.shape[0] 3sizes= [include,notinclude] 4labels = [u'包含',u'不包含'] 5explode = [0,0.05] 6plt.pie( 7    sizes, 8    autopct = '%.1f%%', 9    labels = labels,10    colors = [colorline,'#7FC161'], # 豌豆荚绿11    shadow = False,12    startangle = 90,13    explode = explode,14    textprops = {'fontsize':14,'color':colors}15)16plt.title('豌豆荚仅包括酷安上一半的 App 数量',color=colorline,fontsize=16)17plt.axis('equal')18plt.axis('off')19plt.tight_layout()20plt.savefig('包含不保包含对比.png',dpi=200)21plt.show()
Python资源分享qun 784758214 ,内有安装包，PDF，学习视频，这里是Python学习者的聚集地，零基础，进阶，都欢迎

接下来，我们看看所包含的 App 当中，在两个平台上的下载量是怎么样的：

可以看到，两个平台上 App 下载数量差距还是很明显。

最后，我面再看看豌豆荚上没有包括哪些APP：

发现很多神器都没有包括，比如：RE、绿色守护、一个木函等等。豌豆荚和酷安的对比就到这里，如果用一句话来总结，我可能会说：

豌豆荚太牛逼了， App 数量是酷安的十倍，所以我选酷安。

你可能感兴趣的:(Python)

python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
python批量替换word内容_python win32com 库批量替换word文件内容 weixin_39657300
前言win32com模块主要为Python提供调用windows底层组件对word、Excel、PPT等进行操作的功能，只能在Windows环境下使用，并且需要安装office相关软件才行(WPS也行)。实例代码下方代码实现批量替换当前路径下word文档的指定文本内容。importwin32com.clientimportosimporttimedefupdate_replace(file):wo
python strip() 编号1993 python python
参考：http://www.jb51.net/article/37287.htm###############################s.strip(del)：在字符串s的开头结尾处，删除del中存在的字符s.lstrip(del)：在字符串s的开头处，删除del中存在的字符s.rstrip(del)：在字符串s的结尾处，删除del中存在的字符s='asdf'#前后均有空格s.strip(
Python调用WPS进行文档转换PDF及PDF转图片 IT孔乙己 python 开发语言后端
这里是利用WPS进行转换，要先安装WPS。安装依赖pipinstallpypiwin32代码#!/usr/bin/python#-*-coding:UTF-8-*-importosimportwin32com.clientdefConvertByWps(sourceFile,targetFile):ifnotos.path.exists(sourceFile):print(sourceFile+"
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python strip() 方法详解：用途、应用场景及示例解析（中英双语）阿正的梦工坊 Python python 开发语言
Pythonstrip()方法详解：用途、应用场景及示例解析在Python处理字符串时，经常会遇到字符串前后存在多余的空格或特殊字符的问题。strip()方法就是Python提供的一个强大工具，专门用于去除字符串两端的指定字符。本文将详细介绍strip()的用法、适用场景，并通过多个示例解析其应用。1.strip()方法简介strip()方法用于去除字符串两端的指定字符（默认为空格和换行符）。它的
使用Python连接SqlServer 带带琪宝工作日记 python sqlserver 开发语言
目录cursor()execute('sqlstr')fetchall()、fetchone()cursor.description属性close()转化为dataframe进行分析使用的是pymssql库，这个库的详细用法参照博客（博客里也有官方文档，英语好的可以直接看）：pythonpymssql—pymssql模块使用指南_夏日白云的博客-CSDN博客我目前的需求只是使用Python连接数据
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
力扣 160 - Intersection of Two Linked Lists. (相交链表) Python双指针小杨快没头发了 Leetcode 刷题
力扣160-IntersectionofTwoLinkedLists.(相交链表)Python双指针原题地址：https://leetcode.com/problems/intersection-of-two-linked-lists/Giventheheadsoftwosinglylinked-listsheadAandheadB,returnthenodeatwhichthetwolistsi
Opencv之计算机视觉一闭月之泪舞计算机视觉计算机视觉 opencv python
一、环境准备使用opencv库来实现简单的计算机视觉。需要安装两个库：opencv-python和opencv-contrib-python，版本可以自行选择，注意不同版本的opencv中的某些函数名和用法可能不同pipinstallopencv-python==3.4.18.65-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-
VSCode python 遇到的问题：vscode can't open file '': [Errno 2] No such file or dire... weixin_33984032 python 开发工具 json
代码很简单，就两行：importpandasaspdimportnetCDF4asncdataset=nc.Dataset('20150101.nc')环境：在VSCode中左下角把原环境的Python3.6.532-bit切换为Anaconda中的Python3.6.564-bit('base':conda)过程中有两种错误：（忘记截图了，都是历史记录中的google网页搜索栏找到的搜索记录）1
【测试工程师必备！】VS Code好用插件FastPytestRunner 花小田 pytest vscode
你是否还在为PythonTestExplorerforVisualStudioCode以下痛点焦头烂额？•测试扫描慢到怀疑人生，每次启动都要等待5分钟•调试时总是找不到断点入口，配置项复杂到崩溃•传统测试工具无法满足大规模测试需求•每次切换项目都要重新配置测试环境FastPytestRunner——专为测试工程师量身打造的极速测试利器来了！️实战进阶技巧：✅配置黄金法则：{"pytestRunne
如何用 Python 实现树结构不辉放弃 python 开发语言
一、树结构基础认知1.1树的四大特征层级关系：父子节点的从属关系唯一根节点：访问起点无循环：从根到叶的路径不形成环N叉分支：每个节点可有多个子节点1.2核心组件解析classTreeNode:def__init__(self,data):self.data=data#节点存储的数据self.children=[]#子节点容器（多叉树特性）defadd_child(self,node):self.c
Python 用户账户(让用户拥有自己的数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
Python 用户账户(让用户能够输入数据) 钢铁男儿 Python 从入门到精通 python 数据库 sqlite
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
安卓编译安装python_一文了解如何在安卓系统上安装Pydroid 3并进行编码 weixin_39916681 安卓编译安装python
由于Pydroid3集成开发环境(IDE)，因此可以用Python进行可移植的编码。Pydroid是Python3的极简解释器，可让您执行较小的项目并在Android设备上进行最少的编码。如果您还想在没有PC的任何地方学习Python编程，同时在Android上为Python复制PC平台，那么Pydroid3是一个不错的应用程序。无论您是Python编程的新手还是专家，让我们看看使用Pydroid
python为什么需要文本编辑器-推荐几款高效的Python文本编辑器| 高效的文本编辑器的特点是什么... weixin_39991305
我们都知道程序员花费大量的时间在编写、阅读和编辑代码上，因此一定要使用高效的文本编辑器才能够提高并很好的完成工作的效率和保证工作的质量。什么是高效的文本编辑器呢？除了自己用的得心应手外，小编认为还应该包含以下几个特点：·突出代码的结构，让你在编写代码时就能够发现常见的bug；·包含自动缩进功能；·显示代码长度的标志；·用于执行常见操作的快捷键；如果你是编程新手小白，小u非常建议你使用具备上述功能而
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
一文读懂Python异常（16）跟着杰哥学Python python
Python程序执行期间发生的错误叫做异常，如果你编写了处理异常的代码，程序将继续执行；如果未编写处理异常的代码，程序将停止，并返回一条traceback，其中包含异常的报告。通常使用try-except代码块来处理异常。一、try-except代码块1、如果try代码块的代码运行起来没问题，则跳过except代码块；如果try代码块的代码导致了错误，则运行except代码块。2、举例二、try-
一文读懂Python之random模块（31）跟着杰哥学Python python
random模块是Python的内置标准库，用于生成各类随机数，可以用作生成网站初始登录密码和随机验证码。一、random模块简介random模块可以生成随机数，包括随机整数、浮点数、随机元素等。二、random模块相关概念随机数：是指在一定范围内随机产生的数，每个数被选中的概率相等。随机数最重要的特性是其后产生的数与前面的数毫无关系，即随机性、不可预测性和不可重现性。三、random模块常用方法
应用-构建并优化 Python 的 Rust 扩展李星星BruceL 自动化测试 python rust 开发语言
目录构建并优化Python的Rust扩展如果你的Python代码运行速度不够快，你可以选择使用编译语言来编写更快的扩展。本文将重点介绍Rust，它具有以下优势：现代工具链，包括名为crates.io的包仓库和内置的构建工具（cargo）。出色的Python集成和工具支持。Rust的Python支持包是PyO3。对于打包，你可以使用setuptools-rust来与现有的setuptools项目集成
超详细Python教程——初识Python 月流霜 python 数据库服务器
初识Python温馨提示：2018年创建这个仓库的时候，关于Python语言基础这个部分的内容写得相对是比较粗糙，对粗学者可能不是那么友好。如果你正好是一名初学者，建议你移步到我的另一个仓库Python-for-Freshmen-2023，这个仓库对初学者更加友好，对应的内容，大家也可以在我的知乎专栏“从零开始学Python”中找到，点击进入传送门。Python简介Python的历史1989年圣诞
Python自制文本编辑器 Xiaoqing461 python 开发语言
Python自制文本编辑器。随便写的半成品fromtkinterimport*fromtkinterimportfiledialog,messageboxclassFindWindow:def__init__(self,parent):self.parent=parentself.find_window=Toplevel(parent)self.find_window.title("Find")s
【地图 Map3d】——2 花花 Show Python pyecharts—从0到精通信息可视化数据分析 python
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl