sandorn

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)

1. 多进程爬虫

　　对于数据量较大的爬虫，对数据的处理要求较高时，可以采用python多进程或多线程的机制完成，多进程是指分配多个CPU处理程序，同一时刻只有一个CPU在工作，多线程是指进程内部有多个类似"子进程"同时在协同工作。python中有多种多个模块可完成多进程和多线程的工作，此处此用multiprocessing模块完成多线程爬虫，测试过程中发现，由于站点具有反爬虫机制，当url地址和进程数目较多时，爬虫会报错。

2. 代码内容

#!/usr/bin/python

#_*_ coding:utf _*_

import re

import time

import requests

from multiprocessing import Pool

duanzi_list = []

def get_web_html(url):

'''

@params:获取url地址web站点的html数据

'''

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}

try:

req = requests.get(url,headers=headers)

if req.status_code == 200:

response = req.text.encode('utf8')

except Exception as e:

print e

return response

def scrap_qiushi_info(url):

'''

@params:url,获取段子数据信息

'''

html = get_web_html(url)

usernames = re.findall(r'

`(.*?)`

',html,re.S|re.M)

levels = re.findall('

(\d+)

',html,re.S|re.M)

laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)

comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)

contents = re.findall('

.*?(.*?)',html,re.S|re.M)

for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):

information = {

"username": username.strip(),

"level": level.strip(),

"laugh_count": laugh_count.strip(),

"comment_count": comment_count.strip(),

"content": content.strip()

}

duanzi_list.append(information)

time.sleep(1)

return duanzi_list

def normal_scapper(url_lists):

'''

定义调用函数，使用普通的爬虫函数爬取数据

'''

begin_time = time.time()

for url in url_lists:

scrap_qiushi_info(url)

end_time = time.time()

print "普通爬虫一共耗费时长:%f" % (end_time - begin_time)

def muti_process_scapper(url_lists,process_num=2):

'''

定义多进程爬虫调用函数，使用mutiprocessing模块爬取web数据

'''

begin_time = time.time()

pool = Pool(processes=process_num)

pool.map(scrap_qiushi_info,url_lists)

end_time = time.time()

print "%d个进程爬虫爬取所耗费时长为:%s" % (process_num,(end_time - begin_time))

def main():

'''

定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数

'''

url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]

normal_scapper(url_lists)

muti_process_scapper(url_lists,process_num=2)

if __name__ == "__main__":

main()

3. 爬取的数据存入到MongoDB数据库

#!/usr/bin/python

#_*_ coding:utf _*_

import re

import time

import json

import requests

import pymongo

from multiprocessing import Pool

duanzi_list = []

def get_web_html(url):

'''

@params:获取url地址web站点的html数据

'''

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}

try:

req = requests.get(url,headers=headers)

if req.status_code == 200:

response = req.text.encode('utf8')

except Exception as e:

print e

return response

def scrap_qiushi_info(url):

'''

@params:url,获取段子数据信息

'''

html = get_web_html(url)

usernames = re.findall(r'

`(.*?)`

',html,re.S|re.M)

levels = re.findall('

(\d+)

',html,re.S|re.M)

laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)

comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)

contents = re.findall('

.*?(.*?)',html,re.S|re.M)

for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):

information = {

"username": username.strip(),

"level": level.strip(),

"laugh_count": laugh_count.strip(),

"comment_count": comment_count.strip(),

"content": content.strip()

}

duanzi_list.append(information)

return duanzi_list

def write_into_mongo(datas):

'''

@datas: 需要插入到mongoDB的数据，封装为字典,通过遍历的方式将数据插入到mongoDB中，insert_one()表示一次插入一条数据

'''

client = pymongo.MongoClient('localhost',27017)

duanzi = client['duanzi_db']

duanzi_info = duanzi['duanzi_info']

for data in datas:

duanzi_info.insert_one(data)

def query_data_from_mongo():

'''

查询mongoDB中的数据

'''

client = pymongo.MongoClient('localhost',27017)['duanzi_db']['duanzi_info']

for data in client.find():

print data

print "一共查询到%d条数据" % (client.find().count())

def main():

'''

定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数

'''

url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]

for url in url_lists:

scrap_qiushi_info(url)

time.sleep(1)

write_into_mongo(duanzi_list)

if __name__ == "__main__":

main()

#query_data_from_mongo()

4. 插入至MySQL数据库

　　将爬虫获取的数据插入到关系性数据库MySQL数据库中作为永久数据存储，首先需要在MySQL数据库中创建库和表，如下：

1. 创建库

MariaDB [(none)]> create database qiushi;

Query OK, 1 row affected (0.00 sec)

2. 使用库

MariaDB [(none)]> use qiushi;

Database changed

3. 创建表格

MariaDB [qiushi]> create table qiushi_info(id int(32) unsigned primary key auto_increment,username varchar(64) not null,level int default 0,laugh_count int default 0,comment_count int default 0,content text default '')engine=InnoDB charset='UTF8';

Query OK, 0 rows affected, 1 warning (0.06 sec)

MariaDB [qiushi]> show create table qiushi_info;

+-------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

| Table | Create Table |

| qiushi_info | CREATE TABLE `qiushi_info` (

`id` int(32) unsigned NOT NULL AUTO_INCREMENT,

`username` varchar(64) NOT NULL,

`level` int(11) DEFAULT '0',

`laugh_count` int(11) DEFAULT '0',

`comment_count` int(11) DEFAULT '0',

`content` text,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 |

1 row in set (0.00 sec)

写入到MySQL数据库中的代码如下：

#!/usr/bin/python

#_*_ coding:utf _*_

#blog:http://www.cnblogs.com/cloudlab/

import re

import time

import pymysql

import requests

duanzi_list = []

def get_web_html(url):

'''

@params:获取url地址web站点的html数据

'''

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}

try:

req = requests.get(url,headers=headers)

if req.status_code == 200:

response = req.text.encode('utf8')

except Exception as e:

print e

return response

def scrap_qiushi_info(url):

'''

@params:url,获取段子数据信息

'''

html = get_web_html(url)

usernames = re.findall(r'

`(.*?)`

',html,re.S|re.M)

levels = re.findall('

(\d+)

',html,re.S|re.M)

laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)

comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)

contents = re.findall('

.*?(.*?)',html,re.S|re.M)

for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):

information = {

"username": username.strip(),

"level": level.strip(),

"laugh_count": laugh_count.strip(),

"comment_count": comment_count.strip(),

"content": content.strip()

}

duanzi_list.append(information)

return duanzi_list

def write_into_mysql(datas):

'''

@params: datas，将爬虫获取的数据写入到MySQL数据库中

'''

try:

conn = pymysql.connect(host='localhost',port=3306,user='root',password='',db='qiushi',charset='utf8')

cursor = conn.cursor(pymysql.cursors.DictCursor)

for data in datas:

data_list = (data['username'],int(data['level']),int(data['laugh_count']),int(data['comment_count']),data['content'])

sql = "INSERT INTO qiushi_info(username,level,laugh_count,comment_count,content) VALUES('%s',%s,%s,%s,'%s')" %(data_list)

cursor.execute(sql)

conn.commit()

except Exception as e:

print e

cursor.close()

conn.close()

def main():

'''

定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数

'''

url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]

for url in url_lists:

scrap_qiushi_info(url)

time.sleep(1)

write_into_mysql(duanzi_list)

if __name__ == "__main__":

main()

5. 将爬虫数据写入到CSV文件

　　CSV文件是以逗号,形式分割的文本读写方式，能够通过纯文本或者Excel方式读取，是一种常见的数据存储方式，此处将爬取的数据存入到CSV文件内。

将数据存入到CSV文件代码内容如下：

#!/usr/bin/python

#_*_ coding:utf _*_

#blog:http://www.cnblogs.com/cloudlab/

import re

import csv

import time

import requests

duanzi_list = []

def get_web_html(url):

'''

@params:获取url地址web站点的html数据

'''

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}

try:

req = requests.get(url,headers=headers)

if req.status_code == 200:

response = req.text.encode('utf8')

except Exception as e:

print e

return response

def scrap_qiushi_info(url):

'''

@params:url,获取段子数据信息

'''

html = get_web_html(url)

usernames = re.findall(r'

`(.*?)`

',html,re.S|re.M)

levels = re.findall('

(\d+)

',html,re.S|re.M)

laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)

comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)

contents = re.findall('

.*?(.*?)',html,re.S|re.M)

for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):

information = {

"username": username.strip(),

"level": level.strip(),

"laugh_count": laugh_count.strip(),

"comment_count": comment_count.strip(),

"content": content.strip()

}

duanzi_list.append(information)

return duanzi_list

def write_into_csv(datas,filename):

'''

@datas: 需要写入csv文件的数据内容，是一个列表

@params:filename,需要写入到目标文件的csv文件名

'''

with file(filename,'w+') as f:

writer = csv.writer(f)

writer.writerow(('username','level','laugh_count','comment_count','content'))

for data in datas:

writer.writerow((data['username'],data['level'],data['laugh_count'],data['comment_count'],data['content']))

def main():

'''

定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数

'''

url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]

for url in url_lists:

scrap_qiushi_info(url)

time.sleep(1)

write_into_csv(duanzi_list,'/root/duanzi_info.csv')

if __name__ == "__main__":

main()

6. 将爬取数据写入到文本文件中

#!/usr/bin/python

#_*_ coding:utf _*_

#blog:http://www.cnblogs.com/cloudlab/

import re

import csv

import time

import requests

duanzi_list = []

def get_web_html(url):

'''

@params:获取url地址web站点的html数据

'''

headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"}

try:

req = requests.get(url,headers=headers)

if req.status_code == 200:

response = req.text.encode('utf8')

except Exception as e:

print e

return response

def scrap_qiushi_info(url):

'''

@params:url,获取段子数据信息

'''

html = get_web_html(url)

usernames = re.findall(r'

`(.*?)`

',html,re.S|re.M)

levels = re.findall('

(\d+)

',html,re.S|re.M)

laugh_counts = re.findall('.*?(\d+)',html,re.S|re.M)

comment_counts = re.findall('(\d+) 评论',html,re.S|re.M)

contents = re.findall('

.*?(.*?)',html,re.S|re.M)

for username,level,laugh_count,comment_count,content in zip(usernames,levels,laugh_counts,comment_counts,contents):

information = {

"username": username.strip(),

"level": level.strip(),

"laugh_count": laugh_count.strip(),

"comment_count": comment_count.strip(),

"content": content.strip()

}

duanzi_list.append(information)

return duanzi_list

def write_into_files(datas,filename):

'''

定义数据存入写文件的函数

@params:datas需要写入的数据

@filename:将数据写入到指定的文件名

'''

print "开始写入文件.."

with file(filename,'w+') as f:

f.write("用户名" + "\t" + "用户等级" + "\t" + "笑话数" + "\t" + "评论数" + "\t" + "段子内容" + "\n")

for data in datas:

f.write(data['username'] + "\t" + \

data['level'] + "\t" + \

data['laugh_count'] + "\t" + \

data['comment_count'] + "\t" + \

data['content'] + "\n" + "\n"

)

def main():

'''

定义main()函数，程序入口，通过列表推倒式获取url地址，调用爬虫函数

'''

url_lists = ['https://www.qiushibaike.com/text/page/{}'.format(i) for i in range(1,11)]

for url in url_lists:

scrap_qiushi_info(url)

time.sleep(1)

write_into_files(duanzi_list,'/root/duanzi.txt')

if __name__ == "__main__":

main()

你可能感兴趣的:(python)

6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
Python3包开发的高效Cookiecutter模板：python-package-template 一只爪子
本文还有配套的精品资源，点击获取简介：本文介绍了一个名为python-package-template的Cookiecutter模板，用于简化Python包的开发过程。该模板遵循Python的最佳实践，并自动创建项目结构，包括setup.py、MANIFEST.in、LICENSE、README.md、.gitignore、requirements.txt、测试配置文件、CI配置文件、测试目录和文
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
Python项目自动化模板构建：深入理解Cookiecutter TEDDYYW
本文还有配套的精品资源，点击获取简介：Python项目的标准化构建过程对于代码的整洁和可维护性至关重要。本文将深入探讨如何利用"cookiecutter"这一Python命令行工具自动化项目的初始化过程。Cookiecutter通过读取预定义模板并根据用户输入自动生成项目结构，简化了项目设置。我们将详细了解"cookiecutter-python-master"模板的组成，包括标准项目结构、初始化
多阶段构建实现 Docker 加速与体积减小：含文件查看、上传及拷贝功能的 FastAPI 应用镜像构建九不多 Docker docker fastapi python YOLO
本文围绕使用Docker构建FastAPI应用镜像展开，着重介绍了多阶段构建的Dockerfile编写及相关操作。借助多阶段构建，不仅实现了Docker构建的加速，还有效减小了镜像体积。1.Dockerfile内容以下是我们要使用的Dockerfile内容：#第一个阶段-构建应用FROMdocker.1ms.run/python:3.9ASbuilder#设置工作目录WORKDIR/app#复制依
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
Python最佳实践项目Cookiecutter常见问题解决方案柯茵沙
Python最佳实践项目Cookiecutter常见问题解决方案python-best-practices-cookiecutterPythonbestpracticesprojectcookiecutter项目地址:https://gitcode.com/gh_mirrors/py/python-best-practices-cookiecutter项目基础介绍本项目是一个Python最佳实践的
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
探秘 Cookiecutter：一个高效项目模板生成器尤琦珺Bess
探秘Cookiecutter：一个高效项目模板生成器cookiecutter项目地址:https://gitcode.com/gh_mirrors/coo/cookiecutter如果你是一位热衷于Python开发的程序员，或者你经常需要初始化新的项目，那么你可能会对感兴趣。这是一个强大的工具，它能够根据预定义的模板快速生成项目结构，极大地提高了开发效率。项目简介Cookiecutter是一个命令
Mac【卸载 Python】 - 3.12.2 Stongtang Python macos python
一、若使用官方安装包安装1.删除Python框架Python官方安装包会将Python安装到/Library/Frameworks/Python.framework/Versions/3.12目录下。你可以在终端中使用以下命令删除该目录：sudorm-rf/Library/Frameworks/Python.framework/Versions/3.12执行此命令时，系统会要求你输入管理员密码，输
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
怎样才能把网页数据保存到网络上？ 2301_79698214 html javascript java 前端 html5
要将网页数据存放到网络中，一般可以通过以下几种常见的方式：1.使用后端服务器自建服务器：你可以搭建自己的服务器，例如使用Node.js的Express框架或者Python的Flask、Django框架。以下是一个使用Flask框架存储数据到服务器的简单示例：pythonApplyfromflaskimportFlask,requestapp=Flask(__name__)@app.route('/
Python列表2 cfjybgkmf Python python 开发语言
print("——————————列表的相关操作————————————")'''lst.append('x')在列表lst最后增加一个元素lst.insert(index,'x')在列表中第index位置增加一个元素lst.clear()清除列表lst中所有元素lst.pop(index)将列表lst中第index位置的元素取出，并从列表中将其删除lst.remove('x')将列表lst中出现
深入了解 Cookiecutter：Python 项目模板的强大工具 boringhex.top python 开源 python 开发语言
在软件开发过程中，创建新的项目往往需要重复执行一系列繁琐的步骤，尤其是在设置项目结构、配置文件和依赖方面。Cookiecutter是一个开源的命令行工具，旨在帮助开发者快速生成项目模板，从而提高开发效率。本文将深入探讨Cookiecutter的功能、工作原理、常见用法以及一些最佳实践。什么是Cookiecutter？Cookiecutter是一个用于创建项目模板的工具，支持多种语言和框架。它允许开
pyqt5报错：qt.qpa.plugin: Could not find the Qt platform plugin “xcb“（已解决）一问三不知_ 计算机知识 qt 开发语言 ubuntu bug conda python
我在使用pyqt库的时候报错：qt.qpa.plugin:CouldnotloadtheQtplatformplugin"xcb"in\"/mnt/private_disk/anaconda3/envs/aot-manip/lib/python3.8/site-packages/PyQt5/Qt5/plugins/platforms"eventhoughitwasfound.Thisapplica
Python程序设计（入门） xyyykx python 开发语言
目录一丶Python概述二丶Python数据类型三丶常用的进制四丶字符串型五丶程序控制结构六丶组合数据类型一丶Python概述Python是一种高级编程语言，由GuidovanRossum于1991年开发并发布。它具有简洁、易读、易学的语法特点，被广泛应用于多个领域，包括软件开发、数据科学、人工智能、网络编程等。以下是Python的一些主要特点和优势：简单易学：Python的语法简洁明了，易于理解
Python模块化设计 ——函数调用不解风情的老妖怪哎 Python程序设计题库 python windows 开发语言
1.以下代码的输出结果是()。defyoung(age):if25=60:print(“作为一个老师,你可以退休了”)else:print(“作为一个老师,你很有爱心”)young(42)A、作为一个老师,你很年轻B、作为一个老师,你太年轻了C、作为一个老师,你可以退休了D、作为一个老师,你很有爱心答案：D。将实参42传递给函数形参变量age,之后进入多分支结构,依次判断,因为30<42<60,故
Bug:eventlet ImportError cannot import name ‘ALREADY HANDLED uncle_ll Bug合集
问题测试gunicorn不同work下的性能时候，在eventlet方式下报错误Error:classuri'eventlet'invalidornotfound:[Traceback(mostrecentcalllast):File"/app/venv/lib64/python3.6/site-packages/gunicorn/util.py",line99,inload_classmod=i
Python语言程序设计 1 摸你就像摸自己 python
目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的编写与运行例1：计算圆面积例2：绘制同切圆例3：绘制五角星1.3实例一：温度转换1.3.1问题分析：实例编写：1.4Python程序语法元素分析1.4.1格
华为OD机试 - 最佳对手（ Python） AsiaFT. Py 华为OD机试AB卷 python od
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
2023华为OD机试真题-最佳对手(JAVA、Python、C++) huaweiod123 华为OD机试真题2023 java c++算法华为 python
题目描述：游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实例相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下，匹配出的各组实力差距的总和最小。输入描述：第一行，n，d。队伍个数n。允许的最大实力差距d。(2<=n<=50,0<=d<=100)。第二行，n个队伍的实力值，空
使用PyInstaller打包Python程序时，如何避免生成的可执行文件（exe）过大的解决方法 ta叫我小白 python python 开发语言 pyinstaller 可执行文件
使用PyInstaller打包出来的exe等可执行文件过大（比如我的一个小项目，打包之后超过了600M），大概率是使用的python解释器（PythonInterpreter）中安装了许多当前项目没有使用的库。解决方法：打包时，最好为这个项目创建一个独立的虚拟解释器环境，如下图：指定了新的虚拟环境之后，你需要在新环境中安装你所需要的依赖库。在py文件中选择安装即可，此时依赖库会安装到新的环境中。切
华为OD机试E卷 - 最佳对手 / 实力差距最小总和（Java & Python& JS & C++ & C ）算法大师 java python javascript c++
题目描述游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。输入描述第一行，n，d。队伍个数n。允许的最大实力差距d。2<=n<=500<=d<=100第二行，n个队伍的实力值空格分割。0<=各
python语言程序设计基础,python编程代码大全 Rtee1 python 开发语言服务器
大家好，小编为大家解答python语言程序设计基础第二版课后答案的问题。很多人还不知道PYTHON语言程序设计实践教程(陈东)答案，现在让我们一起来看看吧！目录1Python基本语法元素￲1.1程序设计基本方法1.1.1计算机与程序设计1.1.2编译与解释1.1.3程序的基本编写方法—IPO1.1.4计算机编程1.2Python开发环境配置1.2.1Python语言概述1.2.2Python程序的
python字符级差异分析并生成 Word 报告 myzzb word python 文字识别算法文本差异
importdifflibfromdocximportDocumentfromdocx.sharedimportRGBColordefanalyze_char_differences(text_a,text_b):"""分析两个文本的字符级差异:paramtext_a:第一个文本:paramtext_b:第二个文本"""matcher=difflib.SequenceMatcher(None,te
力扣刷题-热题100题-第20题（c++、python） weixin_44505472 c++python leetcode
48.旋转图像-力扣（LeetCode）https://leetcode.cn/problems/rotate-image/?envType=study-plan-v2&envId=top-100-liked使用辅助矩阵直接创建一个新矩阵来装旋转好的矩阵，不过需要注意的是要将新矩阵的值赋值回原矩阵，在c++中是可以直接=，但python中要注意matrix[:]=matrix1才是赋值，直接=是改
python中如何组织项目工程文件晓风残月淡 python爬虫 python 开发语言项目工程文件
一、项目工程文件目录一个典型的Python项目工程目录结构可以帮助你更好地组织代码、资源和测试，从而使得项目更加清晰和易于维护。my_project/│├──my_project/#项目的主代码包│├──__init__.py#包初始化文件│├──module_1.py#示例模块1│└──module_2.py#示例模块2│├──tests/#测试代码目录│├──__init__.py#测试包初始
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他