htsait4113

【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析

–转自《1900-高级农民工》http://www.makcyun.top

安装并运行pyspider

安装pyspider

pip3 install pyspider

运行pyspider并创建爬虫项目huxiu

pyspider all

成功后，如下图所示：

在浏览器中输入：http://localhost:5000或者http://127.0.0.1:5000

点击Create，输入项目名称，此处不输入Start URLs

爬取数据

爬取代码如下：

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2018-11-22 10:57:04
# Project: huxiu

from pyspider.libs.base_handler import *
import json
from pyquery import PyQuery as pq
import pandas as pd
import pymongo
import time
import numpy as np

client = pymongo.MongoClient('localhost', 27017)
db = client.Huxiu
mongo_collection = db.huxiu_news


class Handler(BaseHandler):
    crawl_config = {
        "headers":{
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
            'X-Requested-With': 'XMLHttpRequest'
        }
    }
    
    def get_taskid(self, task):
        return md5string(task['url'] + json.dumps(task['fetch'].get('data', '')))

    def on_start(self):
        for page in range(2, 50):
            print('正在爬取第 %s 页' % page)
            self.crawl('https://www.huxiu.com/v2_action/article_list', method='POST', data={'page':page}, callback=self.index_page)

    def index_page(self, response):
        content = response.json['data']
        doc = pq(content)
        lis = doc('.mod-art').items()
        data = [{
            'title':item('.msubstr-row2').text(),
            'url':'https://www.huxiu.com'+str(item('.msubstr-row2').attr('href')),
            'name':item('.author-name').text(),
            'write_time':item('.time').text(),
            'comment':item('.icon-cmt+em').text(),
            'favorites':item('.icon-fvr+em').text(),
            'abstract':item('.mob-sub').text()
        }for item in lis]
        print(data)
        return data
    
    def on_result(self, result):
        if result:
            self.save_to_mongo(result)
    
    def save_to_mongo(self, result):
        df = pd.DataFrame(result)
        content = json.loads(df.T.to_json()).values()
        if mongo_collection.insert_many(content):
            print('存储到mongodb成功')
            sleep = np.random.randint(1,5)
            time.sleep(sleep)

查看数据

由于只用于学习，此处只爬取50页数据。
打开Studio 3T，查看爬取到的数据。

爬取数据分析

# -*- encoding: utf-8 -*-

import pymongo
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import jieba
import os
from PIL import Image
from os import path

plt.style.use('ggplot')
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
fig = plt.figure(figsize=(8,5))
axl = fig.add_subplot(1,1,1)
colors = '#6D6D6D' # 设置标题颜色为灰色
color_line = '#CC2824'
fontsize_title = 20
fontsize_text = 10

# 数据清洗处理
def parse_huxiu():
	client = pymongo.MongoClient(host='localhost', port=27017)
	db = client['Huxiu']
	collection = db['huxiu_news']

	# 将数据库数据转为dataFrame
	data = pd.DataFrame(list(collection.find()))

	# 删除无用的_id列
	data.drop(['_id'], axis=1, inplace=True)
	# 删除特殊符号©
	data['name'].replace('©','',inplace=True,regex=True)
	data_duplicated = data.duplicated().value_counts()
	# 删除重复值
	data = data.drop_duplicates(keep='first')

	# 将数据列改为数值列
	data = data.apply(pd.to_numeric, errors='ignore')

	# 修改时间，并转换为datetime格式
	data['write_time'] = data['write_time'].replace('.*前', '2018-10-31', regex=True)
	data['write_time'] = pd.to_datetime(data['write_time'])

	data = data.reset_index(drop=True)

	# 增加标题长度列
	data['title_length'] = data['title'].apply(len)
	# 年份列
	data['year'] = data['write_time'].dt.year

	return data

# 数据分析部分
def analysis1(data):

	data.set_index(data['write_time'], inplace=True)
	data = data.resample('Q').count()['name'] # 以季度汇总
	data = data.to_period('Q')

	# 创建x,y轴标签
	x = np.arange(0, len(data), 1)
	axl.plot(x, data.values,
		color = color_line,
		marker = 'o', markersize = 4
		)
	axl.set_xticks(x) # 设置x轴标签为自然数序列
	axl.set_xticklabels(data.index) # 更改x轴标签值为年份
	plt.xticks(rotation=90) # 旋转90度，不至于太拥挤

	for x,y in zip(x,data.values):
		plt.text(x,y + 10, '%.0f' %y,ha = 'center', color = colors, fontsize=fontsize_text)
	# 设置标题及横纵坐标轴标题
	plt.title('虎嗅网文章数量发布变化(2012-2018)', color = colors, fontsize=fontsize_title)
	plt.xlabel('时期')
	plt.ylabel('文章（篇）')
	plt.tight_layout() # 自动控制空白边缘
	plt.savefig('虎嗅网文章数量发布变化.png', dip=200)
	plt.show()

data = parse_huxiu()
# analysis1(data)

# 2 文章收藏量分析
def analysis2(data):
	def topn(data):
		top = data.sort_values('favorites', ascending=False)
		return top[:3]

	data = data.groupby(by=['year']).apply(topn)
	print(data[['title', 'favorites']])

	# 增加每年top123列，列依次值为1、2、3
	data['add'] = 1 # 辅助
	data['top'] = data.groupby(by='year')['add'].cumsum()

	data_reshape = data.pivot_table(index='year', columns='top', values='favorites').reset_index()
	print(data_reshape)
	data_reshape.plot(
		y = [1,2,3],
		kind = 'bar',
		width = 0.3,
		color = ['#1362A3', '#3297EA', '#8EC6F5']
		)
	# 添加x轴标签
	years = data['year'].unique()
	plt.xticks(list(range(7)), years)
	plt.xlabel('Year')
	plt.ylabel('文章收藏数量')
	plt.title('历年TOP3文章收藏比较', color = colors, fontsize = fontsize_title)
	plt.tight_layout()
	plt.savefig('历年TOP3文章收藏比较.png', dpi=200)
	plt.show()

# analysis2(data)

# 3 发文最多的媒体 top20
def analysis3(data):
	data = data.groupby(data['name'])['title'].count()
	data = data.sort_values(ascending=False)
	print(data)

	# pandas 直接绘制，invert_yaxis()颠倒顺序
	data[1:21].plot(kind='barh',color=color_line).invert_yaxis()

	for y,x in enumerate(list(data[1:21].values)):
		plt.text(x+12,y+0.2,'%s' %round(x,1),ha='center',color=colors)
	plt.xlabel('文章数量')
	plt.ylabel('作者')
	plt.title('发文数量最多的TOP20作者', color = colors, fontsize=fontsize_title)
	
	plt.tight_layout()
	plt.savefig('发文数量最多的TOP20作者.png',dpi=200)
	plt.show()

# analysis3(data)

# 发文超过至少5篇以上的作者的文章平均收藏数排名
def analysis4(data):
	data = pd.pivot_table(data,values=['favorites'],index='name',aggfunc=[np.sum,np.size])
	data['avg'] = data[('sum','favorites')]/data[('size','favorites')]

	# 平均收藏数取整
	# data['avg'] = data['avg'].round(decimals=1)
	data['avg'] = data['avg'].astype('int')

	# flatten 平铺列
	data.columns = data.columns.get_level_values(0)
	data.columns = ['total_favorites','ariticls_num','avg_favorites']

	# 筛选出文章数至少5篇的
	data=data.query('ariticls_num > 4')
	data = data.sort_values(by=['avg_favorites'],ascending=False)

	print(data[:10])
	print(data[-10:])

# analysis4(data)
# print(data.dtypes)

# 5 收藏和评论的分布直方图
def analysis5(data):
	sns.distplot(data['favorites'])
	plt.tight_layout()
	# plt.title('收藏和评论的分布直方图', color = colors, fontsize=fontsize_title)
	# plt.savefig('收藏和评论的分布直方图.png',dpi=200)
	plt.show()

# analysis5(data)

# 6 散点图查看收藏和评论数的关系，发现个别异常
def analysis6(data):
	plt.scatter(data['favorites'], data['comment'], s=8, color='#1362A3')
	plt.xlabel('文章收藏量')
	plt.ylabel('文章评论数')
	plt.title('文章评论数与收藏量关系', color = colors, fontsize=fontsize_title)
	plt.tight_layout()
	plt.savefig('文章评论数与收藏量关系.png', dpi=200)
	plt.show()

# analysis6(data)

# 7 查看标题长度与收藏量的关系
def analysis7(data):
	plt.scatter(
		x=data['favorites'],
		y=data['title_length'],
		s=8,
		)
	plt.xlabel('文章收藏量')
	plt.ylabel('文章标题长度')
	plt.title('文章收藏量和标题长度关系', color = colors, fontsize=fontsize_title)
	plt.tight_layout()
	plt.savefig('文章收藏量和标题长度关系.png', dpi=200)
	plt.show()

# analysis7(data)

# 8 查看标题长度与收藏量和评论数之间的关系
def analysis8(data):
	plt.scatter(
		x=data['favorites'],
		y=data['comment'],
		s=data['title_length']/2,
		)
	plt.xlabel('文章收藏量')
	plt.ylabel('文章评论数')
	plt.title('文章标题长度与收藏量和评论数之间的关系', color = colors, fontsize=fontsize_title)
	plt.tight_layout()
	plt.savefig('文章标题长度与收藏量和评论数之间的关系.png', dpi=200)
	plt.show()

# analysis8(data)

# 9 词云
def analysis9(data):
	jieba.load_userdict("userdict.txt")
	jieba.add_word('区块链')

	text=''
	for i in data['title'].values:
	# for i in data[data.year == 2018]['title'].values:
		# 替换无用字符
		symbol_to_replace = '[!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'
		# data['name'].str.replace(symbol_to_replace,'',inplace=True,regex=True)
		i = re.sub(symbol_to_replace,'',i)
		# print(i)
		text+=' '.join(jieba.cut(i,cut_all=False))

	# text = jieba.del_word('如何')
	d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()

	background_Image = np.array(Image.open(path.join(d, "tiger.jpg")))
	# background_Image = plt.imread('./tiger.jpg')

	font_path = 'C:\Windows\Fonts\simhei.ttf'  # 思源黑,黑体simhei.ttf
	# 添加stopswords
	stopwords = set()
	# 先运行对text进行词频统计再排序，再选择要增加的停用词
	stopwords.update(['如何','怎么','一个','什么','为什么','还是','我们','为何','可能','不是','没有','哪些','成为','可以','背后','到底','就是','这么','不要','怎样','为了','能否','你们','还有','这样','这个','真的','那些'])

	wc = WordCloud(
		# background_color = '#3F3F3F',
		# background_color = 'white',
		background_color = 'black',
		font_path = font_path,
		mask = background_Image,
		stopwords = stopwords,
		max_words = 200,
		# width = 1000,height=600,
		margin =2,
		max_font_size = 100,
		random_state = 42,
		scale = 2,
		# colormap = 'viridis'
	)
	wc.generate_from_text(text)

	process_word = WordCloud.process_text(wc, text)
	# 下面是字典排序
	sort = sorted(process_word.items(),key=lambda e:e[1],reverse=True) # sort为list
	print(sort[:50])  # 输出前词频最高的前50个，然后筛选出不需要的stopwords，添加到前面的stopwords.update()方法中
	img_colors = ImageColorGenerator(background_Image)
	wc.recolor(color_func=img_colors)  # 颜色跟随图片颜色

	plt.imshow(wc,interpolation='bilinear')
	plt.axis('off')
	plt.tight_layout()  # 自动控制空白边缘，以全部显示x轴名称
	plt.savefig('huxiu5.png',dpi=200)
	plt.show()
analysis9(data)

# 10 绘制标题形式饼图
def analysis10(data):
	data1 = data[data['title'].str.contains("(.*\？.*)|(.*\?.*)")]
	data2 = data[data['title'].str.contains("(.*\！.*)|(.*\!.*)")]

	# 带有问号的标题数量
	quantity1 = data1.shape[0]
	# 带有叹号的标题数量
	quantity2 = data2.shape[0]
	# 剩余数量
	quantity = data.shape[0] - data1.shape[0] - data2.shape[0]

	sizes = [quantity2,quantity1,quantity]
	labels = [u'叹号标题',u'问号标题',u'陈述性标题']
	colors_pie = ['#1362A3','#3297EA','#8EC6F5'] #每块颜色定义
	explode = [0,0.05,0]
	plt.pie(
		sizes,
		autopct='%.1f%%',
		labels= labels,
		colors =colors_pie,
		shadow = False, #无阴影设置
		startangle =90, #逆时针起始角度设置
		explode = explode,
		# textprops={'fontsize': 14, 'color': 'w'} # 设置文字颜色
		textprops={'fontsize': 12, 'color': 'w'} # 设置文字颜色
		)
	plt.title('三分之一文章的标题喜欢用问号',color=colors,fontsize=fontsize_title)

	plt.axis('equal')

	plt.axis('off')
	plt.legend(loc = 'upper right')
	plt.tight_layout()  # 自动控制空白边缘，以全部显示x轴名称
	plt.savefig('title问号.png',dpi=200)
	plt.show()

# analysis10(data)

tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
Python3.7出现“ModuleNotFoundError: No module named ‘Tkinter‘”错误的解决方法可爱的小红猪 python
Python3.7出现“ModuleNotFoundError:Nomodulenamed‘Tkinter’”错误的解决方法在网上看到很多针对这个问题的解决方法都是重新安装或配置Tkinter库，但Tkinter是python内置的标准GUI库，安装Python时就已经内置在了库中，不需要另外下载。针对于Tkinter，你的代码很可能是这样的：importTkinter或者是这样fromTkint
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
ubuntu22.04环境中安装pylint 歪歪的酒壶 python linux 开发语言
ubuntu22.04环境中安装pylintsudoapt-getinstallpython3-pipsudoaptitudeinstallpython3-pipsudopipinstallpylintsudoapt-getinstallpython3-pip在安装pylint的时候，需要使用pip命令，在ubuntu22.04环境中命令如下：$sudoapt-getinstallpython3-
使用selenium调用firefox提示Profile Missing的问题解决歪歪的酒壶 selenium 测试工具 python
在Ubuntu22.04环境中，使用python3运行selenium提示ProfileMissing，具体信息为：YourFirefoxprofilecannotbeloaded.Itmaybemissingorinaccessible在这个问题的环境中firefox浏览器工作正常。排查中，手动在命令行执行firefox可以打开浏览器，但是出现如下提示Gtk-Message:15:32:09.9
Windows安装ciphey编码工具，附一道ciscn编码题例 im-Miclelson CTF工具网络安全
TA是什么一款智能化的编码分析解码工具，对于CTF中复杂性编码类题目可以快速攻破。编码自动分析解码的神器。如何安装Windows环境Python3.864位（最新的版本不兼容，32位的也不行）PIP直接安装pipinstallciphey-ihttps://pypi.mirrors.ustc.edu.cn/simple/安装后若是出现报错请根据错误代码行数找到对应文件，r修改成rb即可。使用标准语
Python程序打包指南：手把手教你一步步完成 Python_P叔 python 数据库开发语言
最近感兴趣想将开发的项目转成Package，研究了一下相关文章，并且自己跑通了，走了一下弯路，这里记录一下如何打包一个简单的Python项目，展示如何添加必要的文件和结构来创建包，如何构建包，以及如何将其上传到Python包索引（PyPI）。首先要确保安装最新版本：#Unix/macOSpython3-mpipinstall--upgradepip#windowspy-mpipinstall--u
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
ODOO不同版本与平台选择 chouchengyin2080 c#操作系统运维
1.10.0vs11.0vs8.0截至2017年底，最新的ODOO发布版为ODOO11.0，但功能上有一定精简（去除财务模块，去除工作流支持），技术上变动较大（代码逐步迁移至Python3，前端框架改写得抽象）。所以如果是从生产使用的角度来讲，ODOO10.0是当前最好选择，因为其更稳定，第三方模块也更多更全面。而如果是ODOO技术爱好从业者，则逐步迁移至ODOO11.0也有必要，因为其底层技术架
华为开源镜像站体验：美好终将不期而遇 cuishuogai2817 操作系统 java python
电脑因为前段时间有问题，昨天刚刚重装好系统，之前一大堆运行环境全部要重新弄……T_T今天碰上华为开源镜像站体验，那就测试和体验一把吧！先说说测试环境：网络：广东电信20M企业光纤系统：Windows764-bit&CentOS7.6(VMWare)华为开源镜像站地址：http://t.cn/EcBQJO4测试一：python3.6.6(win)首先是windows下的python3.6.6打开说明
python工程打包成whl文件机灵巢穴_WitNest python python 开发语言
资料：PackagingPythonProjects—PythonPackagingUserGuide6.Modules—Python3.11.4documentation步骤1.安装打包工具python3-mpipinstallsetuptoolswheeltwine2.更新pip工具python3-mpipinstall--upgradepip3.创建工程结构python_test_packa
利用Python3爬取下载bookset网站的kindle电子书 nobodyyang
突然间发现这个网站，可以下载很多kindle电子书。观摩了下，和前段时间刚写的爬取头条有点类似。该网站链接首页：https://bookset.me/，这次爬取排行榜链接：https://bookset.me/?rating=douban，打开观察发现排行榜其实真正分页规则是https://bookset.me/page/num?rating=douban，其中num代表页数。具体代码如下
python离线安装一个第三方库 Lhj0616 python相关 python 第三方库
文章目录实例步骤下载`xlwt`库将文件转移到目标机器在目标机器上安装`xlwt`验证安装总结步骤可能的问题解决方法检查库的兼容性使用`pip`下载适配特定Python版本的库创建虚拟环境创建虚拟环境（Python3.6）创建虚拟环境（Python3.11）检查和验证库的安装下载多个版本的`.whl`文件总结更新：下载的第三方库有依赖库解决方案实例想离线安装一个第三方库xlwt，python版本分
win10配置python_Win 10安装Python及环境变量配置 weixin_39663933 win10配置python
一、Windows系统很多童鞋问之前的教程怎么没有介绍安装python3.5的，现予以补充更新一下。（一）安装python3.51、下载进入Python官网www.python.org，在“Downloads”下拉菜单中的右半部分直接点击python3.5.2版本即可下载，它会自动下载32位的。如果需要64位，点击左半部分“Windows”，选择第二项“LatestPython3Release-P
【Python小知识 - 3】：在cmd中切换不同版本的Python解释器街三仔 PyQt小知识 python 开发语言
文章目录在cmd中切换不同版本的Python解释器在cmd中切换不同版本的Python解释器当电脑中有多个版本的Python解释器时，通过重命名python.exe进行区分。电脑分别下载了3.6.8和3.8.8版本的Python解释器，但是在cmd中输入python命令或pip下载模块时总是使用Python3.6.8版本的解释器。若想在cmd中使用Python3.8.8的解释器，如何进行切换？方法
Python3.8 特性介绍刷漆猫咪
简介海象表达式:=仅位置参数/f-strings说明符=启动异步REPLunittest支持异步简介Python3.8已经发布了,官方文档看这里What’sNewInPython3.8.介绍一些Python3.8中的新特性.海象表达式:=新的语法:=将给变量赋值,这个变量是更大的表达式的一部分.if(n:=len(a))>10:print(f"Lististoolong({n}elements,e
虚拟环境的创建和修改，删除撩本子高手 python pip conda
电脑有关环境的配置电脑版本为window10python==3.9.0Pip安装requirement.txt里面的第三方库pip安装requirement.txt的文件里面的第三方库，格式大概为如图所示。pipinstall-rrequirement.txtpip的虚拟环境的创建（使用方法为python3.x自带的venv）创建虚拟环境python-mvenvven_test#这里的话我是运用了
centos下安装python3 i0208 centos python
Centos7默认自带了Python2.7版本,但是因为项目需要使用Python3.x你可以按照此文的三个方法进行安装.注：本文示例安装版本为Python3.5，一、Python源代码编译安装安装必要工具yum-utils，它的功能是管理repository及扩展包的工具(主要是针对repository)$sudoyuminstallyum-utils使用yum-builddep为Python3构
使用vllIm部署大语言模型添砖JAVA的小墨机器学习
使用vllm部署大语言模型一般需要以下步骤：一、准备工作1.系统要求-操作系统：常见的Linux发行版（如Ubuntu、CentOS）或Windows（通过WSL）。-GPU支持：NVIDIAGPU并安装了适当的驱动程序。-足够的内存和存储空间。2.安装依赖-Python3.8及以上版本。-CUDA工具包（根据GPU型号选择合适的版本）。二、安装vllm1.创建虚拟环境（推荐）-使用Conda：c
python--排错--AttributeError: 'str' object has no attribute 'decode'，关于python3的字符串我不是庸医 python 排错记录
AttributeError:'str'objecthasnoattribute'decode'一般是因为str的类型本身不是bytes，所以不能解码两个概念:普通str：可理解的语义字节流str（bytes）（0101010101，可视化显示）两个语法Encode:把普通字符串转为机器可识别的bytesDecode:把bytes转为字符串两个差异Python3的str默认不是bytes，所以不能
Django 安装指南 lly202406 开发语言
Django安装指南Django是一个高级的PythonWeb框架，它鼓励快速开发和干净、实用的设计。本指南将详细介绍如何在不同的操作系统上安装Django，包括Windows、macOS和Linux。在Windows上安装Django先决条件Python:Django要求Python3.8或更高版本。可以从Python官网下载适用于Windows的Python安装程序。pip:Python的包管
Cuda 程序编译报错: fatal error: cusparse.h: No such file or directory 原野寻踪实践经验 cuda
编译cuda程序时发现下列报错：/mnt/xxx/miniconda3/envs/xxx/lib/python3.8/site-packages/torch/include/ATen/cuda/CUDAContext.h:6:10:fatalerror:cusparse.h:Nosuchfileordirectory#include^~~~~~~~~~~~检查发现是选择了错误的Cuda版本。ls/
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
关于python版本与TensorFlow安装的版本问题 iiimharrygGc. python tensorflow 开发语言
实测在conda环境下，python3.12的版本无法安装TensorFlow2.14.0（截至2024.5.21）最新版本在python3.7版本下正常安装ps：上述安装均在anacondanavigator软件内安装
【CTF】MISC常用工具集锦/使用方法简介不会代码的小徐 misc 网络安全测试工具
前言#MISC题型多变而且工具繁杂，因此自己花时间整理了一份工具列表，以便日后参考用流畅地阅读这篇博客，你可能需要：Python2.7.18+Python3.8+任何一个更高版本的Python，使用conda管理Linux虚拟机，kali即可流畅访问Google/GitHub等站点的网络通用工具#PuzzleSolver#专为misc手打造的瑞士军刀(?)，整合了多种脚本（base，字频分析，pn
python用递归方式实现最大公约数_Python - 最大公约数算法 weixin_39765325
#Python3.6#最大公约数，最大公因子#GreatestCommonDivisor#辗转相除法defgcd(num1:object,num2:object)->object:print('num1={},num2={},r={}'.format(num1,num2,num1%num2))ifnum1%num2==0:returnnum2returngcd(num2,num1%num2)#更相
【Conda 更换python版本】 weixin_44377636 python python conda 开发语言
1、创建python环境并安装自己需要的版本condacreate--namepython39python=3.92、激活新版本python环境condaactivatepython393、查看当前python版本python-V显示版本，就说明已经安装好了！
centos7-安装docker-compose 报错/lib64/libc.so.6: version `GLIBC_2.28‘ not found wangying202 docker docker centos
新增安装的centos7虚拟机，按要求需要安装docker-compose，遇到了使用docker-compose命令时报错“[11798]ErrorloadingPythonlib‘/tmp/_MEIztwHzf/libpython3.9.so.1.0’:dlopen:/lib64/libc.so.6:version‘GLIBC_2.28’notfound(requiredby/tmp/_MEI
linux(CentOS、Ubuntu)安装python3.12.2环境 weixin_41934979 linux 运维服务器 python
1.下载官网Python安装包wgethttps://www.python.org/ftp/python/3.12.2/Python-3.12.2.tar.xz1.1解压tar-xfPython-3.12.2.tar.xz解压完后切换到Python-3.12.2文件夹(这里根据自己解压的文件夹路径)cd/usr/packages/Python-3.12.2/1.2升级软件包管理器CentOS系统：
python - pip安装及使用详解闫小甲 Python python pip
pip是Python的一个包管理器，它使安装和管理额外的库变得非常方便。通过pip，你可以轻松地安装、升级、卸载Python包。下面将详细介绍如何在Python中使用pip进行安装及基本使用。安装pip对于Windows用户：较新版本的Python（3.4及之后）：自Python3.4版本开始，pip已经默认包含在安装程序中。安装Python时，确保勾选了“AddPythontoPATH”选项，这
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

【Python3 爬虫学习笔记】用PySpider爬取虎嗅网并进行文章分析

安装并运行pyspider

安装pyspider

运行pyspider并创建爬虫项目huxiu

爬取数据

查看数据

爬取数据分析

你可能感兴趣的:(Python3爬虫学习笔记)