weixin_30319153

【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例

本文利用Python3爬虫抓取豆瓣图书Top250，并利用xlwt模块将其存储至excel文件，图片下载到相应目录。旨在进行更多的爬虫实践练习以及模块学习。

工具

1.Python 3.5

2.BeautifulSoup、xlwt模块

开始动手

首先查看目标网页的url： https://book.douban.com/top250?start=0，然后我尝试了在代码里直接通过字符串连接仅改变”start=“后面的数字的方法来遍历所有的250/25 = 10页内容，但是后来发现不行，那样的话出来的永远是第一页，于是通过浏览器的F12开发者工具检查，发现start是要post上去的，如下图：

（图1）

所以建立一个postData的dict：

postData = {"start": i}    #i为0,25,...225

每次将其post上去即可解决返回都是第一页的问题。

分析网页可知，一本书的罗列信息以及要爬取的点如下图：

（图2）

从上到下需要爬取的信息有：

1.图书链接地址

2.封面图片链接我到时候会将此链接打开，下载图片到本地（download_img函数）

3.书名要注意的是这里书名取title的内容而不去a标签中的string信息，因为string信息可能包含诸如空格、换行符之类的字符，给处理造成麻烦，直接取title格式正确且无需额外处理。

4.别名这里主要是副标题或者是外文名，有的书没有这项，那么我们就写入一个“无”，千万不可以写入一个空串，否则的话会出现故障，我下面会提到。

5.出版信息如作者、译者、出版社、出版年份、价格，这也是重要信息之一，否则有多本书名字一致可能会无法分辨

6.评分

7.评价人数

除此之外，我还爬取一个“标签”信息，它在图书链接打开之后的网页中，找到它的位置如下：

（图3）

爬到标签以后将它们用逗号连接起来作为标签值。

好了，既然明确了要爬的指标，以及了解了网页结构以及指标所在的html中的位置，那么就可以写出如下代码：

    geturl = url + "/start=" + str(i)                     #要获取的页面地址
    print("Now to get " + geturl)
    postData = {"start":i}                                #post数据
    res = s.post(url,data = postData,headers = header)    #post
    soup = BeautifulSoup(res.content,"html.parser")       #BeautifulSoup解析
    table = soup.findAll('table',{"width":"100%"})        #找到所有图书信息的table
    sz = len(table)                                       #sz = 25,每页列出25篇文章
    for j in range(1,sz+1):                               #j = 1~25
        sp = BeautifulSoup(str(table[j-1]),"html.parser") #解析每本图书的信息
        #print(sp.div)
        imageurl = sp.img['src']                          #找图片链接
        bookurl = sp.a['href']                            #找图书链接
        bookName = sp.div.a['title']
        nickname = sp.div.span                            #找别名
        if(nickname):                                     #如果有别名则存储别名否则存’无‘
            nickname = nickname.string.strip() 
        else:
            nickname = "None"
        
        #print(type(imageurl),imageurl)
        #print(type(bookurl),bookurl)
        #print(type(bookName),bookName)
        #print(type(nickname),nickname)
        
        notion = str(sp.find('p',{"class":"pl"}).string)   #抓取出版信息,注意里面的.string还不是真的str类型
        #print(type(notion),notion)
        rating = str(sp.find('span',{"class":"rating_nums"}).string)    #抓取平分数据
        nums = sp.find('span',{"class":"pl"}).string                    #抓取评分人数
        nums = nums.replace('(','').replace(')','').replace('\n','').strip()
        nums = re.findall('(\d+)人评价',nums)[0]
        #print(type(rating),rating)
        #print(type(nums),nums)
        download_img(imageurl,bookName)                     #下载图片
        book = requests.get(bookurl)                        #打开该图书的网页
        sp3 = BeautifulSoup(book.content,"html.parser")     #解析
        taglist = sp3.find_all('a',{"class":"  tag"})       #找标签信息
        tag = ""
        lis = []
        for tagurl in taglist:
            sp4 = BeautifulSoup(str(tagurl),"html.parser")  #解析每个标签
            lis.append(str(sp4.a.string))
        
        tag = ','.join(lis)        #加逗号
        if tag == "":              #如果标签为空，置"无"
            tag = "None"

通过xlwt模块存入xls文件及其问题

爬取下来了以后当然要考虑存储，这时我想试试把它存到Excel文件(.xls)中，于是搜得python操作excel可以使用xlwt,xlrd模块，虽然他们暂时只支持到excel2003,但是足够了。xlwt为Python生成.xls文件的模块，而xlrd为读取的。由于我想的是直接生成xls文件，不需用到xlrd，所以先安装xlwt。

直接进入Python目录使用如下命令即可安装xlwt：

pip3 install xlwt

安装完后写出操作代码，这里同时也写入txt文件，方便比较：

#建立Excel
workbook = xlwt.Workbook(encoding='utf-8')
sheet = workbook.add_sheet('book_top250',cell_overwrite_ok=True)
item = ['书名','别称','评分','评价人数','封面','图书链接','出版信息','标签']
for i in range(1,9):
    sheet.write(0,i,item[i-1])

...
    for j in range(1,sz+1):
        ...
        writelist = [i+j,bookName,nickname,float(rating),int(nums),"I:\\douban\\image\\"+bookName+".jpg",bookurl,notion,tag]
        for k in range(0,9):
            sheet.write(i+j,k,writelist[k])
            txtfile.write(str(writelist[k]))
            txtfile.write('\t')
        txtfile.write(u'\r\n')
        
    workbook.save("I:\\douban\\booktop250.xls")
...

满以为这样就可以了，但是还是出现了一些错误。

比如曾经出现了写着写着就写不下去了的情况（以下并非以上代码产生的结果）：

（图4）

这时我把不是str的都改成str了，不该str的尽量用数字(int,float)，然后又遇到了下面的情况：

（图5）

写到第64项又写不下去了，但是那些int,float都写完了，‘无’也是断断续续显示几个，我想，既然找不到问题，那么慢慢套吧。首先极大可能是中文编码的问题，因为我把一些可以不为str类型的都赋成非str类型以后都正确地显示了，而且上图中的显示在图片路径名那里断了，所以我让那一列都不显示，居然，成功了！

（图6）

如图，除了不显示的那一列，其它完全正常，可以断定就是下面这里出现的错误：

writelist=[i+j,bookName,nickname,float(rating),int(nums),"I:\\douban\\image\\"+bookName+".jpg",bookurl,notion,tag]

我的图片路径那里是直接字符串拼接而成的，所以可能会有编码的错误。那么稍微改一下试试：

imgpath = str("I:\\douban\\image\\"+bookName+".jpg");
writelist=[i+j,bookName,nickname,float(rating),int(nums),imgpath,bookurl,notion,tag]

好吧，还是不行，还是出现图5的问题，但是打印在Python IDLE里面又都是正确的。

既然如此，把图片链接全部改成一样的英文试一下：

imgpath = str("I:\\douban\\image\\"+"a"+".jpg")
writelist=[i+j,bookName,nickname,float(rating),int(nums),imgpath,bookurl,notion,tag]

又是正确的：（'无'已改为'None'）

（图7）

所以说，还是图片路径的问题，那我们索性将图片路径那列换成图片链接，采取消极应对方法，反正这项是图片链接还是图片路径无关紧要，反正图片路径里面有图片就可以了。此外我还加了一个计时的代码，计算总爬取时间，因为我觉得这样干爬太慢了，没有个将近10分钟完不成，考虑利用多线程去爬，这里先记录一下时间以观后效。然后发现还是不行！现在成了只要imageurl固定（中文也行），就能够顺利输出到xls中，否则就不行。很诡异。于是我又尝试了缩短imageurl，实验得知，当取imageurl[:-6]时是可以的，但imageurl[:-5]就不行了。后面又干脆不写入imageurl这一列，可以，不写入别名或者不写入图书链接都是正常的，但是不写入标号就不行。至今仍不得解。初步猜测莫非是写入的字符数受限制了？还得靠更多的实验才能确定。而且也说不定就是Windows下的编码问题，这又得靠在Linux下进行实验判断。所以要做的事情还很多，这里先把正确的绝大部分工作做了再说。

于是干脆不要图书地址一列，最后得出如下最终代码：

# -*- coding:utf-8 -*-
import requests
import re
import xlwt
from bs4 import BeautifulSoup
from datetime import datetime
import codecs

now = datetime.now()             #开始计时
print(now)

txtfile = codecs.open("top250.txt",'w','utf-8')
url = "http://book.douban.com/top250?"

header = { "User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.13 Safari/537.36",
           "Referer": "http://book.douban.com/"
           }

image_dir = "I:\\douban\\image\\"
#下载图片
def download_img(imageurl,imageName = "xxx.jpg"):
    rsp = requests.get(imageurl, stream=True)
    image = rsp.content
    path = image_dir + imageName +'.jpg'
    #print(path)
    with open(path,'wb') as file:
        file.write(image)

#建立Excel
workbook = xlwt.Workbook(encoding='utf-8')
sheet = workbook.add_sheet('book_top250',cell_overwrite_ok=True)

item = ['书名','别称','评分','评价人数','封面','图书链接','出版信息','标签']
for i in range(1,9):
    sheet.write(0,i,item[i-1])
        
s = requests.Session()      #建立会话
s.get(url,headers=header)

for i in range(0,250,25):  
    geturl = url + "/start=" + str(i)                     #要获取的页面地址
    print("Now to get " + geturl)
    postData = {"start":i}                                #post数据
    res = s.post(url,data = postData,headers = header)    #post
    soup = BeautifulSoup(res.content.decode(),"html.parser")       #BeautifulSoup解析
    table = soup.findAll('table',{"width":"100%"})        #找到所有图书信息的table
    sz = len(table)                                       #sz = 25,每页列出25篇文章
    for j in range(1,sz+1):                               #j = 1~25
        sp = BeautifulSoup(str(table[j-1]),"html.parser") #解析每本图书的信息
        #print(sp.div)
        imageurl = sp.img['src']                          #找图片链接
        bookurl = sp.a['href']                            #找图书链接
        bookName = sp.div.a['title']
        nickname = sp.div.span                            #找别名
        if(nickname):                                     #如果有别名则存储别名否则存’无‘
            nickname = nickname.string.strip() 
        else:
            nickname = "None"
        
        #print(type(imageurl),imageurl)
        #print(type(bookurl),bookurl)
        #print(type(bookName),bookName)
        #print(type(nickname),nickname)
        
        notion = str(sp.find('p',{"class":"pl"}).string)   #抓取出版信息,注意里面的.string还不是真的str类型
        #print(type(notion),notion)
        rating = str(sp.find('span',{"class":"rating_nums"}).string)    #抓取平分数据
        nums = sp.find('span',{"class":"pl"}).string                    #抓取评分人数
        nums = nums.replace('(','').replace(')','').replace('\n','').strip()
        nums = re.findall('(\d+)人评价',nums)[0]
        #print(type(rating),rating)
        #print(type(nums),nums)
        download_img(imageurl,bookName)                     #下载图片
        book = requests.get(bookurl)                        #打开该图书的网页
        sp3 = BeautifulSoup(book.content,"html.parser")     #解析
        taglist = sp3.find_all('a',{"class":"  tag"})       #找标签信息
        tag = ""
        lis = []
        for tagurl in taglist:
            sp4 = BeautifulSoup(str(tagurl),"html.parser")  #解析每个标签
            lis.append(str(sp4.a.string))
        
        tag = ','.join(lis)        #加逗号
        if tag == "":              #如果标签为空，置"无"
            tag = "None"
        
        writelist=[i+j,bookName,nickname,float(rating),int(nums),imageurl,bookurl,notion,tag]
        for k in range(0,9):
            if(k == 5):
                continue
            sheet.write(i+j,k,writelist[k])
            txtfile.write(str(writelist[k]))
            txtfile.write('\t')
        txtfile.write(u'\r\n')
        
    workbook.save("I:\\douban\\booktop250.xls")

end = datetime.now()    #结束计时
print(end)
print("程序耗时： " + str(end-now))
txtfile.close()

View Code

运行（7分多钟）：

（图8）

还是断了，那就真不知道怎么办才好了。再改变方法，先写到TXT文本文件再导入到xls中，就先不管本文标题了。

运行：

2016-03-27 21:47:17.914149
Now to get http://book.douban.com/top250?/start=0
Now to get http://book.douban.com/top250?/start=25
Now to get http://book.douban.com/top250?/start=50
Now to get http://book.douban.com/top250?/start=75
Now to get http://book.douban.com/top250?/start=100
Now to get http://book.douban.com/top250?/start=125
Now to get http://book.douban.com/top250?/start=150
Now to get http://book.douban.com/top250?/start=175
Now to get http://book.douban.com/top250?/start=200
Now to get http://book.douban.com/top250?/start=225
2016-03-27 21:56:16.046792
程序耗时： 0:08:58.132643

在.txt中是正确的：

（图9）

然后在xls文件中选择数据->导入数据即可得到最终结果：

（图10）

封面图片：

（图11）

问题先解决到这，后面的问题有待深入研究。

后期可改进

1.采用多进程/多线程加快爬取速度

2.可考虑采用xlutis模块分多步写入到excel中

3.可考虑改换excel处理模块

3.考虑在Linux环境下进行试验

------------------------------------------------------------------------------------------------------

听人说数据分析绝大部分时间都花在数据采集与清洗，以前不怎么觉得，现在终于有一点感受了，任重道远啊..

如果您对我的方法有什么看法，欢迎留下您的评论:-)

转载于:https://www.cnblogs.com/whatbeg/p/5325529.html

『 C++ 』线程与原子操作：高效并发编程的利器锐策 C++多线程 c++开发语言
文章目录为什么使用C++线程一、`C++11`std::thread`类的简单介绍1.1函数名与功能1.2`std::thread`类的简单介绍1.3线程函数参数二、线程同步与锁2.1线程同步与锁2.2死锁演示三、原子操作3.1原子操作与线程安全3.2原子操作的优势3.3CAS操作与自旋锁3.4原子操作与普通操作的汇编对比四、共享资源的线程安全问题4.1`std::shared_ptr`的线程安全
分布式中间件：Redisson 入门和分布式锁顾北辰20 分布式中间件分布式中间件 redisson
分布式中间件：Redisson入门和分布式锁在分布式系统的开发中，处理并发问题是一个常见且具有挑战性的任务。为了确保数据的一致性和完整性，我们常常需要使用分布式锁。Redisson作为一个强大的分布式Java驻内存数据网格（In-MemoryDataGrid）中间件，为我们提供了简单且高效的分布式锁解决方案。本文将带你入门Redisson，并介绍如何使用它实现分布式锁。1.引入Redisson依赖
【43】单片机编程核心技巧：指针基础与应用详解智木芯语【编程技巧】单片机嵌入式硬件 #STM32 #STC8 嵌入式
【43】单片机编程核心技巧：指针基础与应用详解七律·指针寻址指针寻址变量间，间接操作更灵活。数组处理显优势，常量绑定守规则。绑定卸装需谨慎，地址自增效率高。C语言魂在指针，编程精髓需掌握。摘要本文系统阐述C语言指针的基础概念、操作方法及应用场景，涵盖指针与普通变量的对比、数组处理、常量指针特性等内容。通过代码示例与流程图解析，阐明指针的间接操作优势及内存寻址机制。文档遵循模块化设计规范，结合嵌入式
JS获取URL中参数值的4种方法夕阳_醉了 javascript 前端 html
方法1：现代浏览器都支持URL和URLSearchParams对象，可以很方便地从URL中提取参数//假设当前URL为"https://example.com/?name=John&age=30"consturl=newURL(window.location.href);//或者你可以直接传入一个URL字符串constname=url.searchParams.get('name');//"Joh
uniapp 微信小程序手机号快速验证组件解密 encryptedData 获取手机号睡不着的可乐 uni-app 微信小程序
uniapp微信小程序手机号快速验证组件解密encryptedData获取手机号手机号快速验证组件该能力旨在帮助开发者向用户发起手机号申请，并且必须经过用户同意后，开发者才可获得由平台验证后的手机号，进而为用户提供相应服务。以下是旧版本组件使用指南，注意使用旧版本组件时，需先调用wx.login接口。建议开发者使用新版本组件，以增强小程序安全性。详情新版组件使用指南。因为需要用户主动触发才能发起手
《Oracle常见错误解析》 AAEllisonPang Oracle oracle 数据库
引言在Oracle数据库的日常管理和开发中，错误是不可避免的。无论是数据库管理员（DBA）还是开发人员，都可能在操作过程中遇到各种问题。Oracle数据库的复杂性使得错误的种类繁多，但幸运的是，大多数常见错误都有相对固定的解决方法。本文将为您详细解析20个Oracle常见错误，并提供针对性的解决方案，帮助您快速定位问题并高效解决，确保系统的稳定运行。背景Oracle数据库作为全球最广泛使用的关系型
Java高并发容器的内核解析：从无锁算法到分段锁的架构演进猿享天开开发语言 java
《Java高并发容器的内核解析：从无锁算法到分段锁的架构演进》本文将以JUC包核心容器为切入点，深入剖析ConcurrentHashMap在Java8中的64位Hash分段技术，解密LinkedBlockingQueue双锁队列设计的吞吐量秘密，并给出各容器在亿级流量场景下的性能压测对比与选型决策矩阵。一、BlockingQueue体系：生产者-消费者模式的工业级实现1.阻塞队列的四大行为矩阵行为
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Java常用集合与映射的线程安全问题深度解析 QQ828929QQ java 安全开发语言
Java常用集合与映射的线程安全问题深度解析一、线程安全基础认知在并发编程环境下，当多个线程同时操作同一集合对象时，若未采取同步措施，可能导致以下典型问题：数据竞争：多个线程同时修改数据导致结果不可预测状态不一致：部分线程看到集合的中间状态内存可见性：线程本地缓存与主内存数据不同步死循环风险：特定操作引发无限循环（如JDK7的HashMap扩容）二、典型非线程安全集合问题分析1.ArrayList
【大模型书籍PDF】从零开始大模型开发与微调：基于PyTorch与ChatGLM （推荐）_从零开始大模型开发与微调 pdf 喝不喝奶茶丫 pytorch 人工智能语言模型大模型转行大模型 AI大模型微调
今天又来给大家推荐一本大模型方面的书籍。本书使用PyTorch2.0作为学习大模型的基本框架，以ChatGLM为例详细讲解大模型的基本理论、算法、程序实现、应用实战以及微调技术，为读者揭示大模型开发技术。本书配套示例源代码、PPT课件。（书籍分享）
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
笔记-LeetCode 787: K 站中转内最便宜的航班我只是什么都不会而已算法
题目描述有n个城市通过一些航班连接。给你一个数组flights，其中flights[i]=[fromi,toi,pricei]，表示该航班都从城市fromi开始，以价格pricei抵达toi。现在给定所有的城市和航班，以及出发城市src和目的地dst，你的任务是找到出一条最多经过k站中转的路线，使得从src到dst的价格最便宜，并返回该价格。如果不存在这样的路线，则输出-1。代码模板（BFS+最短
Java 中 final 与 effectively final yaoxin521123 【原来如此】java 开发语言
Java中final与effectivelyfinal一、为什么我们需要final和effectivelyfinal？为什么这些关键字重要？在Java中，一些变量需要在初始化后不再变化，以确保程序的安全性和可读性。为什么你需要关心final和effectivelyfinal？防止变量进一步修改导致的不可控度问题。提高代码可读性和维护性。对于区别final和effectivelyfinal来说，懂得
css+html应用实例1：滑动门技术的简单实现 weixin_30639719
关于滑动门，现在的页面中好多地方都会用到滑动门，一般用作于导航背景，它的官方解释如下：滑动门：根据文本自适应大小，根据背景的层叠性制作，并允许他们在彼此之上进行滑动，以创造出一些特殊的效果。为什么很多人喜欢用滑动门呢，因为有些时候导航的字体长度不一致，长长短短实在不好弄背景图片之类啥的，如果单独根据不同的长度调用不同的背景图片太麻烦不说服务器压力也太大，所以滑动门技术应运而生，它可以根据元素本身的
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
Java基础面试题学习 PowerCloud java 学习开发语言
转换成自已的语言来回答，来源小林coding、沉默王二以及其它资源和自已改编。1、概念1、说一下Java的特点我认为Java有很多特点首先是平台无关性：Java可以实现一次编译到处运行，因为Java的编译器将源代码编译成字节码，使得该字节码可以在任意装有JVM的操作系统上运行。其次是面向对象的性质：Java是面向对象编程语言，这种OOP的特性使得代码易于维护和重用。主要源于封装继承多态这三大特性。
软考系统架构设计师考试学习和考试的知识点大纲，覆盖所有考试考点 DKPT #系统架构设计师系统架构学习
以下是软考系统架构设计师考试的知识点大纲，覆盖所有官方考点，分为基础知识、核心技术、系统设计、案例分析、论文写作五大模块，帮助系统性学习和备考：一、基础知识模块计算机组成与体系结构计算机硬件组成（CPU、内存、I/O设备）存储系统（Cache、RAID、虚拟内存）指令系统与流水线技术操作系统进程与线程管理（调度算法、死锁）内存管理（分页、分段、虚拟内存）文件系统与磁盘管理数据库系统关系数据库（SQ
LabVIEW发电平台数据采集系统 LabVIEW开发 LabVIEW开发案例 LabVIEW开发案例
本文详细介绍了基于LabVIEW的摇臂式波浪发电平台数据采集系统的设计与实现。通过整合LabVIEW软件与多种传感器技术，本系统能够有效提升数据采集的准确性和效率，为波浪能的利用和发电设备的优化提供科学依据。项目背景随着全球能源需求增长和环境保护意识的提升，波浪能作为一种清洁、可再生的能源被越来越多地关注。本项目旨在开发一套高效的波浪发电数据采集系统，以优化设备性能和提高能源转换效率，特别是在复杂
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
优先队列 priority_queue详解ん贤算法数据结构算法优先队列 c++java
说到，priority_queue优先队列。必须先要了解啥是堆与运算符重载(我在下方有解释)。否则只知皮毛，极易忘记==寸步难行。但在开头，还是简单的说下怎么用首先，你需要调用#include在main函数中，声明格式为：priority_queue队列名;priority_queuei;priority_queued;常用操作priority_queuep;p.size();//获取长度p.em
基于LangChain-Chatchat实现智能问答系统 2301_79125431 java
题解|#统计输入正数个数#5.6importjava.util.*;publicclassMain{publics广汽丰田发动机薪酬福利待遇1、工作时间：基本上为5天8小时工作制；2、薪资结构：基本工资+加班工资+各类补贴津贴+各类慰问金+小红书24届春招和25届实习，内部推荐小红书24届春招和25届实习，推荐码为:0T019BWYNARK，内推码仅适用于校招内推及微信小程序题解|#试卷发布当天作
24远景能源-动力，10月最后一周面试！【NTAKYsW】 2301_79125642 java
大模型公司收实习啦，入局好机会，全是大佬不卷后端研发实习生简历投递请联系我，牛客会屏蔽邮箱日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。公司介绍下午移动笔试，晚上联通笔试我看到好多投移动都去面试了，但是我没有面试也没有任何消息，而且智联校园上面hr也没有查看，这是怎么回事，难道是随便发的笔试吗...应该投的是什么AI研究中心联通许愿美团商分octl:一面-10.
AR眼镜——软件技术栈的必经之路 Julian.zhou 人机交互未来思考人工智能 ar 人工智能交互空间计算语言模型
AR眼镜软件技术栈的必经之路：从操作系统到生态构建的深度解析摘要AR眼镜作为下一代人机交互入口，其软件技术栈的成熟度直接决定了用户体验与市场渗透率。本文基于行业最新技术动态与头部企业布局，深度剖析AR眼镜软件行业必须突破的七大技术方向，揭示从底层框架到应用生态的全栈技术储备路径。一、操作系统与底层框架：实时性与轻量化的双重革命AR眼镜软件生态的根基在于操作系统的定制化与优化，需满足三大核心需求：实
nginx助力打包部署潜意识Java Java知识 java nginx 开发语言
目录一、打包部署基础入门（一）为什n么要打包部署（二）打包部署的基本流程二、Java项目打包（一）使用Maven进行打包（二）使用Gradle进行打包三、服务器环境准备（一）选择合适的服务器（二）安装Java运行环境四、Nginx初相识（一）Nginx是什么（二）Nginx的安装五、Nginx配置Java项目反向代理（一）反向代理的概念（二）Nginx反向代理配置示例六、Nginx实现负载均衡（一
鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
安卓NAS，众乐影音APP，低成本打造全能家庭存储中心 DeepSeek+NAS 安卓nas winnas AINAS nas 家用nas 小米nas 飞牛nas
在数字化时代，数据存储和共享需求日益增长，NAS设备成为家庭和办公场景中的重要工具。然而，传统NAS设备价格高昂，操作复杂，让许多用户望而却步。如今，耘想公司推出的众乐影音APP，以其创新的理念和强大的功能，彻底改变了这一局面。它不仅是一款安卓影音播放器，更是一款低成本、全功能的安卓NAS解决方案，让普通用户也能轻松享受NAS的便利。一、众乐影音APP的核心功能1.低成本NAS解决方案众乐影音AP
稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
【Golang学习】第十章 goroutine和channel Entin_7 Golang学习 golang 开发语言
目录一、goroutine1.创建goroutine（1）格式（2）示例2.协程管理二、channel1.channel的创建2.channel的类型3.channel的读写操作4.channel的关闭5.channel的遍历6.channel与select配合使用7.通过channel实现goroutine的通信一、goroutinegoroutine是Go语言中的轻量级线程实现，由Go运行时（
鸿蒙系统架构解析：深入理解分层设计与功能实现斯陀含 harmonyos 架构华为
鸿蒙系统架构解析：深入理解分层设计与功能实现鸿蒙操作系统(HarmonyOS)是华为推出的全新分布式操作系统，其独特的架构设计是其核心竞争力之一。本文将深入探讨鸿蒙系统的分层架构，从内核层到应用层，逐层剖析其功能和作用，并结合实例帮助读者更好地理解鸿蒙系统的设计理念。一、鸿蒙系统架构概览鸿蒙系统采用分层架构设计，将系统划分为四个层次：内核层、系统服务层、框架层和应用层。这种分层架构具有以下优势：模
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例

工具

开始动手

通过xlwt模块存入xls文件及其问题

后期可改进

你可能感兴趣的:(【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例)