python实际应用场景代码 yzx991013 python 前端服务器
1.自动化文件整理importosimportshutildeforganize_downloads_folder():download_path="/Users/YourName/Downloads"#修改为你的下载路径file_types={"Images":[".jpg",".png",".gif"],"Documents":[".pdf",".docx",".txt"],"Videos":
python大赛对名_用100行Python爬虫代码抓取公开的足球数据玩（一）司马各 python大赛对名
在《用Python模拟2018世界杯夺冠之路》一文中，我选择从公开的足球网站用爬虫抓取数据，从而建模并模拟比赛，但是略过了爬虫的实施细节。虽然爬虫并不难做，但希望可以让更多感兴趣的朋友自己动手抓数据下来玩，提供便利，今天就把我抓取球探网的方法和Python源码拿出来分享给大家，不超过100行代码。希望球友们能快速get爬虫的技能。#-*-coding:utf-8-*-from__future__i
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界大语言模型（LLM）的“幻觉”问题，即模型生成与事实不符或脱离上下文的内容，是限制其广泛应用的关键挑战之一。本文深入探讨了幻觉问题的成因，包括训练数据的偏差、推理过程中的过度泛化以及缺乏外部验证机制。以DeepSeek系列模型为研究对象，我们分析了其在解
wooyun知识库爬虫（自动整理保存为pdf）大囚长编程人生黑客帝国 spider python
#!C:\Python27\python.exe#coding=utf8importosimportpdfkitimporturllib2frombs4importBeautifulSoupfrommultiprocessingimportPoolimportsocketsocket.setdefaulttimeout(60)importsysreload(sys)sys.setdefaulten
HCIA-AI人工智能笔记3：数据预处理噗老师华为认证人工智能笔记 wpf 数据处理 AI 华为认证
统讲解数据预处理的核心技术体系，通过Python/Pandas与华为MindSpore双视角代码演示，结合特征工程优化实验，深入解析数据清洗、标准化、增强等关键环节。一、数据预处理技术全景图graphTDA[原始数据]-->B{数据清洗}B-->B1[缺失值处理]B-->B2[异常值检测]B-->B3[重复值删除]A-->C{特征工程}C-->C1[标准化/归一化]C-->C2[离散化分箱]C--
python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,
matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体
六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下
Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc
CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py
Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou
Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(
DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire
MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne
基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(
Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种
Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页
Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA
交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema
31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗
定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言
python科学绘图-matplotlib绘制三维函数图像，并且在函数底部绘制等值线 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库绘制三维函数图像，并且在底部绘制等值线。三维图像函数surface=ax.plot_surface(X,Y,zss,camp=色带)等值线函数contour=ax.contour(xs,ys,zss,zdir=在哪个轴绘制,offset=在该轴什么位置绘制,camp=色带,zorder=图层位置)颜色条函数plt.colorbar(surface,shrink
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s
python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，
Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理
Python classmethod函数晓之以理的喵~~ Python python 开发语言
在Python编程中，classmethod()函数是一个内置函数，用于定义类方法。类方法是绑定到类而不是实例的方法，可以通过类名直接调用，并且可以访问类的属性和方法。本文将深入探讨Python中的classmethod()函数，包括基本用法、与实例方法的区别、应用场景，并提供丰富的示例代码来帮助更好地理解和使用classmethod()函数。什么是classmethod()函数？classmet
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

捣蛋深

Python爬虫解析+实战（适合初学者）

前言：本人很菜，学习很泛。
个人博客文章原地址，阅读更加美观

由于参加数学建模的需要，在这个寒假期间小学了一下爬虫（Python学习），想着我记性这么差，还是得对这段时间的学习进行整理，以防忘记。

一、爬虫介绍

网络爬虫又称网络蜘蛛、网络机器人，是指按照某种规则在网络上爬取所需内容的脚本程序。每个网页通常包含其他网页的入口和大量信息，网络爬虫则是进入网页，定位获取所需内容。

爬虫可以划分为以下三步：

爬取网页
解析数据
保存数据

其中最重要的应该是解析数据这部分，因为这部分html来编写对应的代码，从而获取我们想要的数据。爬取部分可以通过urllib模块进行获取网页html代码。保持数据，主要有两种方法，一种是直接保存进Excel，另一种是更面向系统，保存进数据库。我学习的过程使用的是SQLite数据库引擎，小型，方便。特别是在Pycharm中dataset工具包，使得数据库运用起来是十分的方便。

二、爬取网页

平常登入浏览器上网，最频繁使用的两种请求是get请求和post请求。get请求输入的数据是直接显示在url上，安全性不够。post请求数据是不显示在url上，安全性比较高。（就比如输入密码，是直接在网页上输入，而不是写入url中）

下面代码是get和post请求和返回响应

httpbin.org是一个专门用于爬虫测试的网站

get请求

import urllib.request
response = urllib.request.urlopen('http://httpbin.org/get')
print(response.read().decode('utf-8'))

#响应内容
{
  "args": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.9", 
    "X-Amzn-Trace-Id": "Root=1-61f3ef09-6616eeab295d5103700d9757"
  }, 
  "origin": "112.50.41.143", 
  "url": "http://httpbin.org/get"
}

post请求

data = bytes(urllib.parse.urlencode({"hellow":"world"}), encoding='utf-8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read().decode('utf-8'))

#响应内容
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "hellow": "world"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "12", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.9", 
    "X-Amzn-Trace-Id": "Root=1-61f3f1af-3c727e890ee174572c7b86fd"
  }, 
  "json": null, 
  "origin": "112.50.41.143", 
  "url": "http://httpbin.org/post"
}

从上面的响应headers中，可以发现User-Agent的内容是Python-urllib/3.9，说明服务器端知道我们访问的环境，也就是说服务器知道我们是爬虫，对于一些设有安全性的网页会拒绝我们访问。

假如我们通过上述方式正常访问豆瓣网页，会发现出现了如下418警告。

response = urllib.request.urlopen(r'https://movie.douban.com')
print(response.read().decode('utf-8'))

#警告
urllib.error.HTTPError: HTTP Error 418:

那么是不是说明设有安全性的网页就没法访问了，显然，肯定是有办法解决的。

伪装浏览器访问头，成功爬取。

url = r'https://movie.douban.com'
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.9 Safari/537.36',
    'Cookie': 'bid=7mM480uOFCo; dbcl2="252912187:UtqLjbzdBdY"; ck=6DJI; _pk_ref.100001.4cf6=["","",1642433569,"https://accounts.douban.com/"]; _pk_ses.100001.4cf6=*; __utma=30149280.116081932.1642433569.1642433569.1642433569.1; __utmc=30149280; __utmz=30149280.1642433569.1.1.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmz=223695111.1642433569.1.1.utmcsr=accounts.douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmc=223695111; __utmb=223695111.0.10.1642433569; __utma=223695111.1563560722.1642433569.1642433569.1642433569.1; __gads=ID=c847fa157ddd2521-2202472700d0001e:T=1642433572:RT=1642433572:S=ALNI_Ma_fS0aJS2enPjG0sgam_fOP8ZAfA; push_doumail_num=0; push_noty_num=0; __utmt=1; __utmv=30149280.25291; __utmb=30149280.2.10.1642433569; _pk_id.100001.4cf6=b998428814f5d240.1642433569.1.1642434417.1642433569.; Hm_lvt_eaa57ca47dacb4ad4f5a257001a3457c=1642433569,1642433596,1642434417; Hm_lpvt_eaa57ca47dacb4ad4f5a257001a3457c=1642434417'
}

req = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode('utf-8'))

三、解析数据

主要使用python的bs4库和正则表达式re库，bs4中的BeautifulSoup类定义html，方便定位到对应标签。

BeautifulSoup中最常用的.find_all()，可用于字符串、正则表达式、函数匹配。

BeatifulSoup

from bs4 import BeautifulSoup

file = open('./baidu.html', 'rb')
html = file.read()

bs = BeautifulSoup(html, 'html.parser')
# print(bs)

# print(bs.title)
# print(bs.a)
# print(bs.head)
# print(type(bs.head))
# print(bs.title.string)
# print(bs.a.attrs)

#1.Tab 标签及其内容，第一个
#2.NavigableString 标签里的内容
#3.BeautifulSoup 整个文档
#4.Comment 是一个特殊的NavigableString 输出内容不包括注释
# print(type(bs))
# print(bs.name)
# print(bs.attrs)
# print(bs)


#-----------------------------------------

#文档的遍历
# print(bs.head.contents[1])

#文档的搜索
#(1)find_all
#字符串过滤: 查找与字符串完全匹配的内容
# t_list = bs.find_all('a')
# print(t_list)

#正则表达式搜素: 使用search()方法匹配内容
# t_list = bs.find_all(re.compile('a'))
# print(t_list)

#方法: 传入一个函数，根据函数要求搜索 (了解)
# def name_is_exists(tag):
#     return tag.has_attr('name')
#
# t_list = bs.find_all(name_is_exists)
# print(t_list)

#(2)kwargs 参数

# t_list = bs.find_all(id = "head")
# t_list = bs.find_all(class_=True)


# (3)text参数
# t_list = bs.find_all(text='hao123')
# t_list = bs.find_all(text=['hao123', '地图', '贴吧'])
# t_list = bs.find_all(text=re.compile('\d')) #正则

#(4)limit参数
# t_list = bs.find_all('a', limit=3)

#css选择器
# t_list = bs.select('title') #标签
# t_list = bs.select('.mnav')   #类名
# t_list = bs.select('#u1')   #id
# t_list = bs.select("a[class='bri']")   #属性
# t_list = bs.select("head > title")   #子标签
# t_list = bs.select(".mnav ~ .bri") #

# print(t_list[0].get_text())

baidu.html

DOCTYPE html>
<html>
<head>
    <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
    <meta content="always" name="referrer"/>
    <link href="https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css"rel="stylesheet" type ="text/css" />

    <title>百度一下，你就知道啦title>
head>
<body link="#0000cc">
    <div id="wrapper">
      <div id="head">
        <div class="head_wrapper">
          <div id="u1">
            <a class="mnav" href="http://news.baidu.com" name="tj_trnews">!--新闻-a>
            <a class="mnav" href="http://news.baidu.com" name="tj_trnews">新闻a>
            <a class="mnav" href="https://www.hao123.com" name="tj_trhao123">hao123a>
            <a class="mnav" href="http:/ /map.baidu.com" name="tj_trmap">地图a>
            <a class="mnav" href="http://v.baidu.com" name="tj_trvideo">视频a>
            <a class="mnav" href="http://tieba.baidu.com" name="tj_trtieba">贴吧a>
            <a class="bri" href="//www.baidu.com/more/" name="tj_briicon" style="....">更多产品a>
          div>
        div>
      div>
  div>
body>
html>

正则表达式用于定位到所需内容，非常实用。

字符	描述	实例
.	匹配除换行符 \n 之外的任何单字符
( )	分组标记，内部只能使用	操作符
*	前一个字符0次或无限次扩展	abc*表示ab、abc、abcc、abccc等
+	前一个字符一次或无限次扩展	abc+表示abc、abcc、abccc等
?	前一个字符0次或者1次扩展	abc？表示ab、abc
[ ]	字符集，对单个字符给出取值范围	[abc]表示a、b、c，[a-z]表示a到z单个字符
		表达式左右任意一个
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符m至n次	ab{1,2}c表示abc，abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
\d	数字，等价于[0-9]
\w	单词字符，等价于[A-Za-z0-9_]

import re

pat = re.compile('AA') #此时的AA是正则表达式
m = pat.search('AACDBAA') #search字符串被校验的内容
print(m)

m = re.search('asd','Aasd')
m = re.findall('a', 'ASDdadaSJJAa')
m = re.findall('[A-Z]+', 'ASDdaAdaSJJAa')
m = re.sub('a', 'A', 'adadfafs') #第一个被替换，第二个替换后，第三个对象
a = r'dafa\fafa/faf\fafaf\fasd\d\fx'
# print(m)

将正则表达式应用于html解析
如前面的baidu.html，假如我们需要类为mnav的href内容，只需要如下代码，十分便利

import re
from bs4 import BeautifulSoup

file = open('./baidu.html', 'rb')
html = file.read()
bs = BeautifulSoup(html, 'html.parser')
findhref = re.compile(r')
result = re.findall(findhref, str(bs))
print(result)

四、保存数据

主要用到xlwt(excel)和sqlite3(database)库，下面只介绍sqlite3。

sqlite是一个轻型的数据库，创建十分方便，只需要几行代码。适用于数据量不多的项目，对于爬虫是足够了。

#数据库的创建和初始化
def init_db(dbpath):
    sql = '''
        create table headImages(
            标题 varchar(20),
            日期 datatime,
            图片链接 text
        )

    '''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()

其实对于数据库的各个sql语句的执行，都是直接通过游标cursor()执行，一行代码解决，没有什么困难。难的就是需要把所有的各个方方面面整合在一起，对于大多数项目其实都是这样，对于学习单个内容其实都蛮简单。

#insert into将数据插入table即可
def saveData2DB(dataList, dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in dataList:
        for index in range(len(data)):
            data[index] = '"'+data[index]+'"'
        sql = '''
            insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)
            values(%s)
        '''%','.join(data)
        # print(sql)
        cur.execute(sql)

    conn.commit()
    cur.close()
    conn.close()

实战

写了爬取头像的代码，并且根据自己喜好去爬。还没有做web可视化，做好就可以直接在网站上实时更新并选择自己喜欢的头像，有时间再做。

代码可执行

# -- coding: utf-8 --
# @Author: zrs
# @Time: 2022-02-07 14:53
# @File: main.py

import re
import xlwt
import sqlite3
import numpy as np
import urllib.request
from bs4 import BeautifulSoup

url = r'https://www.woyaogexing.com/touxiang/qinglv/'

def askURL(url):
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0',
    'Cookie': 'BAIDU_SSP_lcr=https://www.baidu.com/link?url=pCdSJIVWq3oRa2SQ63p2b2G6MhUGFLwmqAr4tM9pP-HMoNZVYwtunks5FpRiI6X7&wd=&eqid=bc47740e0007c8de000000056200c13b; Hm_lvt_a077b6b44aeefe3829d03416d9cb4ec3=1643031884,1644216664,1644216690; __gads=ID=03cc11a055dcdbab-2294c11433d00095:T=1643031885:RT=1643031885:S=ALNI_MYbVQjpAjO2k9fH36n0Lkm_6gkiYA; Hm_lpvt_a077b6b44aeefe3829d03416d9cb4ec3=1644216740'
    }

    request = urllib.request.Request(url, headers=headers)
    html = ''

    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
    except urllib.error.URLError as e:
        if hasattr(e, 'code'):
            print(e.code)
        if hasattr(e, 'reason'):
            print(e.reason)

    return html

def getData(base_html):


    soup = BeautifulSoup(base_html, 'html.parser')
    # print(soup)
    findHref = re.compile(r')
    findTime = re.compile(r'(.*?)
')

    features = ['可爱', '动漫', '手绘', '搞怪']
    dataList = []
    for txList in soup.find_all('div', class_='txList'):
        title = txList.find_all('a')[1].string
        data = []
        for feature in features:
            if feature in title:
                data.append(title)
                #解析时间
                html = str(txList)
                childURL = 'https://www.woyaogexing.com'+''.join(re.findall(findHref, html))
                child_html = askURL(childURL)
                childSoup = BeautifulSoup(child_html, 'html.parser')
                time = re.findall(findTime, str(childSoup))
                data.append(time)
                #解析图片链接
                lazy = childSoup.find_all('img', class_='lazy')
                imgURL = re.findall(r'src="(.*?)"', str(lazy))
                data.append(imgURL)
                # data = data + imgURL
                dataList.append(data)
                break
    return dataList

#excel保存
# def saveData(dataList, savePath):
#     wordbook = xlwt.Workbook(encoding='utf-8')
#     wordsheet = wordbook.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True)
#     columns = ['title', 'time', 'imgURL']
#     for i in range(3):
#         wordsheet.write(0, i, columns[i])
#     for i in range(len(dataList)):
#         data = dataList[i]
#         for j in range(len(dataList[0])):
#             wordsheet.write(i+1, j, '\n'.join(data[j]))
#     wordbook.save(savePath)

def init_db(dbpath):
    sql = '''
        create table headImages(
            标题 varchar(20),
            日期 datatime,
            图片链接 text
        )

    '''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    conn.close()

#数据库保存
def saveData(dataList, dbpath):
    init_db(savaDB)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in dataList:
        data[0] = "'" + data[0] + "'"
        data[1] = "'" + '\n'.join(data[1]) + "'"
        data[2] = "'" + '\n'.join(data[2]) + "'"
        # data[index] = list(data[index])
        sql = """
                insert into headImages(标题,日期,图片链接)
                values(%s)
        """%','.join(data)
        # print(sql)
        cur.execute(sql)

    conn.commit()
    cur.close()
    conn.close()



if __name__ == '__main__':
    savePath = r'./头像.xls'
    savaDB = r'./头像.db'
    html = askURL(url)
    dataList = getData(html)
    # print(dataList)
    # saveData(dataList, savePath)
    saveData(dataList, savaDB)

Python爬虫解析+实战（适合初学者）

一、爬虫介绍

二、爬取网页

三、解析数据

四、保存数据

实战

你可能感兴趣的:(Python,python,爬虫)