Fo*(Bi)

Python爬虫笔记——存储数据的基础知识(Csv、Excel)

存储成csv格式文件和存储成Excel文件，这两种不同的存储方式需要引用的模块也是不同的。操作csv文件我们需要借助csv模块；操作Excel文件则需要借助openpyxl模块。

一、CSV

import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#创建csv文件，我们要先调用open()函数，传入参数：文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。

我们得创建一个新的csv文件，命名为“demo.csv”。
“w”就是writer，即文件写入模式，它会以覆盖原内容的形式写入新添加的内容。
加newline=’ '参数的原因是，可以避免csv文件出现两倍的行距（就是能避免表格的行与行之间出现空白行）。
加encoding=‘utf-8’，可以避免编码问题导致的报错或乱码。
CSV写入：

import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件，传入参数：文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。
writer.writerow(['电影','豆瓣评分'])
#调用writer对象的writerow()方法，可以在csv文件里写入一行文字 “电影”和“豆瓣评分”。
writer.writerow(['银河护卫队','8.0'])
#在csv文件里写入一行文字 “银河护卫队”和“8.0”。
writer.writerow(['复仇者联盟','8.1'])
#在csv文件里写入一行文字 “复仇者联盟”和“8.1”。
csv_file.close()
#写入完成后，关闭文件就大功告成啦！

【提醒】：writerow()函数里，需要放入列表参数，所以我们得把要写入的内容写成列表。就像[‘电影’,‘豆瓣评分’]。

CSV读取：

import csv
csv_file = open('demo.csv','r',newline='',encoding='utf-8')
reader = csv.reader(csv_file)
for row in reader:
    print(row)

第1、2行代码：导入csv模块。用open()打开“demo.csv”文件，‘r’是reader读取模式，newline=’'是避免出现两倍行距。encoding='utf-8’能避免编码问题导致的报错或乱码。
第3行代码：用csv.reader()函数创建一个reader对象。
第4、5行代码：用for循环遍历reader对象的每一行。打印row，就能读取出“demo.csv”文件里的内容。

二、Excel（openpyxl）

一个Excel文档也称为一个工作薄（workbook），每个工作薄里可以有多个工作表（wordsheet），当前打开的工作表又叫活动表。
每个工作表里有行和列，特定的行与列相交的方格称为单元格（cell）。比如上图第A列和第1行相交的方格我们可以直接表示为A1单元格。
安装方法：window电脑：在终端输入命令：pip install openpyxl，按下enter键。

import openpyxl 
#写入的代码：
wb = openpyxl.Workbook()  #利用openpyxl.Workbook()函数创建新的workbook（工作薄）对象，就是创建新的空的Excel文件。
sheet = wb.active   #wb.active就是获取这个工作薄的活动表，通常就是第一个工作表。
sheet.title = 'new title'   #可以用.title给工作表重命名。现在第一个工作表的名称就会由原来默认的“sheet1”改为"new title"。
sheet['A1'] = '漫威宇宙'   #把'漫威宇宙'赋值给第一个工作表的A1单元格，就是往A1的单元格中写入了'漫威宇宙'。
rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]   #先把要写入的多行内容写成列表，再放进大列表里，赋值给rows。
for i in rows:  #遍历rows，同时把遍历的内容添加到表格里，这样就实现了多行写入。
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')   #保存新建的Excel文件，并命名为“Marvel.xlsx”

#读取的代码：
wb = openpyxl.load_workbook('Marvel.xlsx')   #调用openpyxl.load_workbook()函数，打开“Marvel.xlsx”文件。
sheet = wb['new title']   #获取“Marvel.xlsx”工作薄中名为“new title”的工作表。
sheetname = wb.sheetnames   #sheetnames是用来获取工作薄所有工作表的名字的。如果你不知道工作薄到底有几个工作表，就可以把工作表的名字都打印出来。
print(sheetname)   
A1_cell = sheet['A1']
A1_value = A1_cell.value
print(A1_value)   #把“new title”工作表中A1单元格赋值给A1_cell，再利用单元格value属性，就能打印出A1单元格的值

总结

import requests,openpyxl
wb=openpyxl.Workbook()  
#创建工作薄
sheet=wb.active 
#获取工作薄的活动表
sheet.title='Jay_song' 
#工作表重命名

sheet['A1'] ='歌曲名'     #加表头，给A1单元格赋值
sheet['B1'] ='所属专辑'   #加表头，给B1单元格赋值
sheet['C1'] ='播放时长'   #加表头，给C1单元格赋值
sheet['D1'] ='播放链接'   #加表头，给D1单元格赋值

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(2):
    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'sizer.yqq.song_next',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '周杰伦',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }

    res_music = requests.get(url, params=params)
    json_music = res_music.json()
    list_music = json_music['data']['song']['list']
    for music in list_music:
        name = music['name']
        # 以name为键，查找歌曲名，把歌曲名赋值给name
        album = music['album']['name']
        # 查找专辑名，把专辑名赋给album
        time = music['interval']
        # 查找播放时长，把时长赋值给time
        link = 'https://y.qq.com/n/yqq/song/' + str(music['file']['media_mid']) + '.html\n'
        # 查找播放链接，把链接赋值给link
        sheet.append([name, album, time,url])
        # 把name、album、time和link写成列表，用append函数多行写入Excel
        print('歌曲名：' + name + '\n' + '所属专辑:' + album +'\n' + '播放时长:' + str(time) + '\n' + '播放链接:'+ url)
        
wb.save('Jay.xlsx')            
#最后保存并命名这个Excel文件,保存在编译文件所在目录位置
print('文件已完成')

三、Excel（xlrd和xlwt）

3.1 xlrd和xlwt的安装
xlrd和xlwt是python的第三方库，所以是需要自己安装的，可以在python的官网https://pypi.python.org/pypi下载该模块来安装，也可以通过其他手段，比如easy_install或者pip，我在Win7环境下已经安装好pip，所以就在命令符窗口中用如下命令来安装xlrd和xlwt。
pip install xlrd
pip install xlwt

3.2 xlrd使用介绍
1、导入模块
import xlrd
2、打开Excel文件读取数据
data = xlrd.open_workbook(‘excelFile.xls’)
3、使用技巧
获取一个工作表
table = data.sheets()[0] #通过索引顺序获取
table = data.sheet_by_index(0) #通过索引顺序获取
table = data.sheet_by_name(u’Sheet1’) #通过名称获取

    获取整行和整列的值（数组）　　
    table.row_values(i)
    table.col_values(i)

    获取行数和列数　　
    nrows = table.nrows 
    ncols = table.ncols
   
    循环行列表数据
    for i in range(nrows):
           print table.row_values(i)

    单元格
    cell_A1 = table.cell(0,0).value
    cell_C4 = table.cell(2,3).value

    使用行列索引
    cell_A1 = table.row(0)[0].value
    cell_A2 = table.col(1)[0].value

    简单的写入
    row = 0
    col = 0

    # 类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
    ctype = 1 value = '单元格的值'
    xf = 0 # 扩展的格式化
    table.put_cell(row, col, ctype, value, xf)
    table.cell(0,0)  #单元格的值'
    table.cell(0,0).value #单元格的值'

eg:

import os
import xlrd
from datetime import date,datetime
 
#打开Excel文件
workbook = xlrd.open_workbook('09-10.11-38-12-HTTP-GOOD-1-Lte1sDataStat_Charts.xlsx')
 
#输出Excel文件中所有sheet的名字
print workbook.sheet_names()
 
#根据sheet索引或者名称获取sheet内容
Data_sheet    = workbook.sheets()[0]
CdfData_sheet = workbook.sheet_by_index(1)
Charts_sheet  = workbook.sheet_by_name(u'Charts')
 
#获取sheet名称、行数和列数
print Data_sheet.name,    Data_sheet.nrows,    Data_sheet.ncols,\
	  CdfData_sheet.name, CdfData_sheet.nrows, CdfData_sheet.ncols,\
	  Charts_sheet.name,  Charts_sheet.nrows,  Charts_sheet.ncols
 
#获取整行和整列的值（列表）	  
rows = Data_sheet.row_values(0) #获取第一行内容
cols = Data_sheet.col_values(1) #获取第二列内容
#print rows
#print cols
 
#获取单元格内容
cell_A1 = Data_sheet.cell(0,0).value
cell_C1 = Data_sheet.cell(0,2).value
cell_B1 = Data_sheet.row(0)[1].value
cell_D2 = Data_sheet.col(3)[1].value
print cell_A1, cell_B1, cell_C1, cell_D2
 
#获取单元格内容的数据类型
#ctype:0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
print 'cell(0,0)数据类型:', Data_sheet.cell(0,0).ctype
print 'cell(1,0)数据类型:', Data_sheet.cell(1,0).ctype
print 'cell(1,1)数据类型:', Data_sheet.cell(1,1).ctype
print 'cell(1,2)数据类型:', Data_sheet.cell(1,2).ctype
 
#获取单元格内容为日期的数据
date_value = xlrd.xldate_as_tuple(Data_sheet.cell_value(1,0),workbook.datemode)
print date_value
print '%d:%d:%d' %(date_value[3:])
 
d = {'11:25:59':[1, 2, 3], '11:26:00':[2, 3, 4], '11:26:01':[3, 4, 5]}
print d['11:25:59']
print d['11:26:00']
print d['11:26:01']
 
print d['11:25:59'][0]
print d['11:26:00'][0]
print d['11:26:01'][0]

3.3 相关模块
相关模块：
csv python标准模块。推荐。
xlrd 读取 .xls, .xlsx 文件。
xlutils xlrd和xlwt的集合。
openpyxl 读写 Excel 2007 xlsx/xlsm文件。纯python，效率不高。
Matplotlib 2D作图模块，适用于基于excel作图。
Pywin32 python windows扩展，不跨平台，通过COM口连接excel。
Pyxll 在excel中使用python替代vbs。http://www.pyxll.com/。类似模块有pyinex。Python For Excel http://www.opentradingsystem.com/PythonForExcel/main.html
XlsxWriter 写xlsx文件。纯python。

3.4 快速入门
下面例子，创建一个名为mini.xls的文件，它有一个空sheet：‘xlwt was here’。代码见mini.py。
fromxlwt import *
w =Workbook()
ws = w.add_sheet(‘xlwtwas here’)
w.save(‘mini.xls’)

Workbook类初始化时有encoding和style_compression参数。

encoding，设置字符编码，一般要这样设置：w = Workbook(encoding=‘utf-8’)，就可以在excel中输出中文了。默认是ascii。当然要记得在文件头部添加：

-- coding: utf-8--

style_compression 表示是否压缩，不常用。
Workbook 还有一些属性：
Owner 设置文档所有者。
country_code：国家码
wnd_protect：窗口保护
obj_protect：对象保护
Protect：保护
backup_on_save：保存时备份
Hpos：横坐标
Vpos：纵坐标
Width：宽度
Height：高度
active_sheet：活动sheet
tab_width： tab宽度
wnd_visible：窗口是否可见
wnd_mini：窗口最小化
hscroll_visible：横向滚动条是否可见。
vscroll_visible：纵向滚动条是否可见。
tabs_visible： tab是否可见。
dates_1904：是否使用1904日期系统
use_cell_values：单元格的值
default_style：默认样式
colour_RGB：颜色

方法有：add_style，add_font，add_str，del_str，str_index，add_rt，rt_index，add_sheet，get_sheet，raise_bad_sheetname，convert_sheetindex，setup_xcall，add_sheet_reference。

eg:

import os
import xlwt			
 
 
def set_style(name, height, bold = False):
	style = xlwt.XFStyle()   #初始化样式
	
	font = xlwt.Font()       #为样式创建字体
	font.name = name
	font.bold = bold
	font.color_index = 4
	font.height = height
	
	style.font = font
	return style
 
	
def write_excel():
	#创建工作簿
	workbook = xlwt.Workbook(encoding='utf-8')  
	#创建sheet
	data_sheet = workbook.add_sheet('demo')  
	row0 = [u'字段名称', u'大致时段', 'CRNTI', 'CELL-ID']
	row1 = [u'测试', '15:50:33-15:52:14', 22706, 4190202]
	
	#生成第一行和第二行
	for i in range(len(row0)):
		data_sheet.write(0, i, row0[i], set_style('Times New Roman', 220, True))
		data_sheet.write(1, i, row1[i], set_style('Times New Roman', 220, True))
	
	#保存文件
	workbook.save('demo.xls')	
	
	
if __name__ == '__main__': 
	write_excel()
	print u'创建demo.xlsx文件成功'

【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
python colorama_Python colorama 模块使用说明 weixin_39682697 python colorama
1Colorama模块说明在上篇博客我们了解了prettytable的使用,如下：https://www.cndba.cn/cndba/dave/article/3564使用prettytable模块之后，输出的内容格式看上去会非常整齐，但如果我们想要对部分内容重点显示，那么可以使用两种方法：1)直接使用Python控制输出颜色2)使用colorama模块Colorama是一个python专门用来
python colorama模块失效怎么办_python – 由于模块colorama,无法使用aws CLI 金牛远望号 python colorama模块失效怎么办
我已经安装了AWSCLI,并尝试在MacOSSierra上使用它.它抱怨没有模块colorama：$awsTraceback(mostrecentcalllast):File"/usr/local/bin/aws",line19,inimportawscli.clidriverFile"/Library/Python/2.7/site-packages/awscli/clidriver.py",l
数据可视化：python画散点图scatter 西红柿爱吃小番茄 python python 数据可视化 matplotlib
数据可视化：python画散点图scatter我想遍历一幅图的所有像素的h分量的值，然后用散点图表示出来。观察这幅图的h分量的值得变化范围。scatter函数的原型matplotlib.pyplot.scatter(x,y,s=20,c='b',marker='o',cmap=None,norm=None,vmin=None,vmax=None,linewidths=None,vert=None,
Python Colorama 库详解：终端输出美化的神器萧鼎 python基础到进阶教程 python
PythonColorama库详解：终端输出美化的神器在开发命令行工具或调试程序时，我们可能会希望通过颜色来区分重要信息，比如警告、错误、提示等。而Colorama是一个简单易用的Python库，可以帮助我们轻松地为终端输出添加颜色，提升用户体验。1.Colorama是什么？Colorama是一个Python库，用于在终端中实现跨平台的彩色文本输出。它主要提供以下功能：为文本添加前景色、背景色。控
Python之colorama PlutoZuo Python python 开发语言
Python之colorama文章目录Python之colorama1.安装Colorama库2.导入Colorama库3.初始化Colorama4.设置文本颜色和样式5.自定义颜色和样式Colorama是一个Python库，用于在控制台（终端）上输出彩色文本。它提供了一些方便的函数和类，用于在命令行界面中添加颜色和样式。以下是一些使用Colorama库的详细示例：1.安装Colorama库首先，
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
python进阶语法，函数的基本使用胡萝卜糊了 python java 服务器
#函数定义：#格式：def函数标识符（参数列表）：#定义无参函数defsay_hello():print("helloworld!")print("helloeveryone!")#定义有参函数defmymax(a,b):ifa>b:print("最大值是",a)else:print("最大值是",b)#函数调用#格式：函数名（实际参数列表）#函数调用时需要注意实参要和形参数量一致say_hell
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Python软件和搭建运行环境办公小百知软件技术 python 开发语言
目录一、Python安装全流程（Windows/Mac/Linux）1.下载官方安装包2.详细安装步骤（以Windows为例）3.环境变量配置（Mac/Linux）二、虚拟环境管理（关键！）为什么需要虚拟环境？1.使用venv（Python内置）2.使用conda（推荐数据科学方向）三、开发工具推荐与配置1.IDE选择2.VSCode配置指南四、常见问题解决方案1.python命令无效？2.pip
python读取海康RGBD感知相机并解析图像数据我认为可以！ python 开发语言相机
python读取海康RGBD感知相机情景：相机：MV-EB435i海康提供的C++SDK比较完善，但是python的比较粗糙，给的demo只能得到他自己定义的数据帧需求：基于海康提供的pythonSDK，进一步开发读取RGB和Depth图，并转换成后续任务需要的numpy数组形式相机分析：可以使用HiViewer先调试相机，确认相机读取RGBD没问题：下载地址这些参数可以跟着相机的指南挑一挑，调到
使用 Supervisor 管理 Gunicorn 实现高可用 Python Web 应用莫忘初心丶 gunicorn python
前言在生产环境中，部署PythonWeb应用时，我们通常使用Gunicorn（GreenUnicorn）作为WSGI服务器。为了确保应用能够稳定运行，能够在崩溃后自动重启，Supervisor是一个常用的进程管理工具，它可以很好地与Gunicorn配合使用，实现进程监控、自动重启等功能。本文将详细介绍如何使用Supervisor来管理Gunicorn，确保PythonWeb应用在生产环境中的高可用
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
架构设计与模式之：容器化与云原生架构设计模式 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.简介当今，企业越来越依赖云计算服务来获得快速、经济和弹性伸缩的能力。云原生架构正逐渐成为主流，而容器技术也已经在为企业提供更灵活、更高效的开发环境。本文将从云原生架构和容器技术的角度出发，结合实际应用场景，系统全面剖析容器化及云原生架构的设计模式及优缺点，并为读者提供参考指导。2.背景介绍什么是云原生？云原生（CloudNative）的概念源于Google在Kube
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
Python在股票数据分析中的应用有哪些？如何用Python获取股票数据并进行可视化财云量化 python炒股自动化量化交易程序化交易 python python股票数据分析数据获取可视化股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
蓝桥杯网络安全春秋赛 Crypto RSA 叁Three 蓝桥杯密码学
蓝桥杯网络安全春秋赛CryptoRSA题目某公司为了保护其重要数据，使用了RSA加密算法。该公司以同一个N为模数，为Alice和Bob分别生成了不同的公钥和与之相应的私钥。Alice和Bob都使用自己的公钥对同一条明文m进行加密，分别得到密文c1和c2。假设你是一名密码安全研究者，你已获取了N值、两个密文和公钥，能否使用RSA的相关知识还原出明文m呢？#!python3.9fromCrypto.U
Python 数据分析实战：电商平台用户行为洞察与营销策略优化萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集与导入2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1用户行为随时间的变化2.4.2商品关联分析2.4.3用户购买转化率分析2.4.4用户价值分析（RFM模型）三、主要的代码难点解析3.1数据收集与导入3.2数据清洗-时间戳处理3.3数据分析-商品关联分析3.4数据分析-用户购买转化率分析3.5数据分析-用户价值分析（RFM模型）四、可能改进的代
AIGC从入门到实战：可能消失的职业和新出现的机会 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIGC从入门到实战：可能消失的职业和新出现的机会作者：禅与计算机程序设计艺术1.背景介绍人工智能生成内容（AIGC）正在迅速改变我们的世界。从文本、代码到图像和音乐，AIGC正在各个领域展示其强大的能力，并开始挑战传统的创意产业。本篇文章将深入探讨AIGC的概念、技术原理、应用场景以及其对未来职业的影响，并为读者提供入门AIGC的实用指南。1.1AIGC的兴起AIGC的兴起得益于近年来人工智能技
open-webui使用searXNG插件连接自定义的联网搜索服务程序 chinayeren 教程 python ai llama chatgpt
项目背景因为国内无法访问内置的一些免费搜索插件，安装完searXNG本地服务端后根据教程中连接始终无法连接，docker方案国内也无法使用的情况下，本地使用python写一个Flask服务程序使用爬虫技术提供联网搜索数据。下面是实现代码V1#!/usr/bin/python3#_*_coding:utf-8_*_##Copyright(C)2025-2025#@Title:这是一个模拟searXN
MarkDown常用命令 Leo来编程常用学习
markdown以md文件结尾的文件常用于说明，记录常用说明优先级格式语法示例说明1标题#一级标题##二级标题###三级标题用于定义文档的结构，优先级最高。2代码块pythonprint("Hello")用于显示多行代码，优先级高于普通文本。3行内代码`行内代码`用于在行内显示代码片段。4强调（粗体/斜体）**粗体**或__粗体__*斜体*或_斜体_用于强调文本，优先级高于普通文本。5链接和图片[
厘清把 github 当图床的思路 weixin_34335458 python json git
利用github和python3以及MWeb打造自己的博文图床这两天一直在纠结图床的问题，因为用自己的服务器来做图床这个事情我考虑再三，觉得比较不靠谱-_-|||，因为我的服务器只是一个小小的低配服务器，用来当自己的博客图床本来这个问题不大，但是我的博文基本都是在csdn上，流量还是颇为可观的。把自己的服务器给搞垮了，那可是吃不消的一件事情。虽然之前考虑过用github来做自己的图床，但是考虑两个
Python学习日记-第二十九天-tcp（客户端）差点长成吴彦祖 python pandas tcp/ip 网络
系列文章目录tcp介绍tcp特点tcp客户端一、tcp介绍Tcp协议，传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议，由IETF的RFC793定义TCP通信需要经过创建连接、传输数据、终止连接三个步骤TCP通信模型中，在通信开始之前，一定要先建立相关的链接，才能发送数据，类似于生活中的“打电话”（注：之前学习的udp，在通信前，不需要建立相关的链接，只需要发送数据即可，类似于“写
【step by step】Easyi3C Host I3C/I2C adapter (8) Scott.W 嵌入式硬件 python 功能测试
Easyi3C是一家领先的嵌入式系统工具供应商，可简化各种通信协议的开发和调试。公司提供一系列产品，旨在帮助工程师和开发人员更高效地使用I3C/I2C、USB和MIPI、JEDEC、MCTP等协议。Easyi3C提供PythonAPI。用户可以使用Python脚本对Easyi3C进行编程和控制，通过I2C或I3C协议访问从设备。API的使用，适合用户搭建更加复杂的测试环境，对提高自动化测试程度会有
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
【Repos系列】Bandersnatch同步原理 yunqi1215 Basic 网络
Bandersnatch是PyPI（PythonPackageIndex）的官方镜像工具，旨在高效同步和维护PyPI的完整本地副本。其核心原理围绕元数据抓取、增量同步、文件校验和并发下载，以下为详细工作流程：1.元数据抓取与包列表生成PyPI接口：Bandersnatch通过PyPI的JSONAPI（如https://pypi.org/pypi/{package}/json）获取所有包的元数据。主
Python入门到精通（三）：数据结构第一部分 love9599 Python入门到精通 python 开发语言
python的常用数据结构类型字符型字典列表元组、集合一、序列序列：是python中的一类数据类型，比如字符串、列表序列类型的对象是可以进行循环变例的1.1序列特性索引：指的是在序列中找到指定元素的索引编号切片：指的是从序列中提取一部分内容加法：序列对象可以将多个序列合并成一个乘法：可以将序列通过乘法输出多个相同的1.2序列操作索引操作格式：序列名[索引值]#案例1：str1="hello"#定义
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

Python爬虫笔记——存储数据的基础知识(Csv、Excel)

一、CSV

二、Excel（openpyxl）

总结

三、Excel（xlrd和xlwt）

-- coding: utf-8--

你可能感兴趣的:(爬虫笔记,Python程序设计小技巧,python)