charilyLL

Python爬虫笔记

Python IDE
1 Eclipse + PyDev : 扩展PyDev插件
install new software --> add --> name: Pydev Location: http://pydev.org/updates
配置插件后需要pydev解析器：
windows-->preferences -->点击 pydev-->interpreter-Python --> new-->python.exe（python安装目录）
以上完成就可用eclipse开发python代码
创建项目：
File-->new-->projects... -->PyDev-->PyDevProject-->输入项目名即可完成项目的创建
2 PyCharm 跨平台下载地址：http://www.jetbrains.com/pycharm/download/#

IO编程：
Input/Output 凡涉及数据交换都会涉及IO编程，Stream(流)是其中重要的概念，分为Input Stream/Output Stream
数据相当于水只能单向流动，流相当于水管，所以传输过程种要架设两只水管，一个负责输入一个负责输出实现同步。

文件读写：
1 打开文件：python内置读写文件的函数，但读写之前要打开，以确定文件的读写模式。open函数用于打开文件
   open(name[.mode[.buffering]])   / open(r'C:\Users\ASUS\Desktop\note.txt')
   mode: r / w / a(追加) / b(二进制：可添加到其他模式使用) /+(读/写模式：可添加到其他模式使用)
   buffering：控制文件缓冲 0 就无缓冲‘直接写在硬盘’ 1 有缓冲‘先写入内存使用flush/close函数写到硬盘’
       大于1 就代表缓冲字节，为负数代表使用默认缓冲大小
2 文件读取：分按‘字节’或‘行’读取常用方法：read()，readlines()，close()
   try:f=open(r'c:\text\qiye.txt','r') print f.read() finally:if f: f.close()
   简化上面：with open(r'c:\text\qiye.txt','r') as fileReader: print fileReader.read()
   对于大文件读取：直接read()不合适，可能会出现内存不足的问题，一般会使用readline()
   优化：with open(r'c:\text\qiyi.txt','r') as fileReader: for line in fileReader.readlines(): print line.strip()
3 文件写入：open时传入标识符‘w’or 'wb' 表示写入文本或二进制，可反复调用write()写入，最后close()关闭
   f = open(r'c:\text\qiyi.txt','w') f.write('qiyi') f.close()
   优化：with open(r'c:\text\qiyi.txt','w') as fileWriter: fileWriter.write('qiyi')

操作文件目录：用到 os 模块和shutil模块
   os.getcwd()   当前脚本工作目录路径
   os.listdir()       返回指定目录下所有文件和目录名
   os.remove(filepath)   删除一个文件
   os.removedirs(r"d:\python")   删除多个空目录
   os.path.isfile(filepath)   是否文件
   os.path.isdir(filepath)       是否目录
   os.path.isabs(filepath)   是否绝对路径
   os.path.exists(filepath)   是否存在
   os.path.split(filepath)       分离目录和文件名返回数组
   os.path.splitext()       分离扩展名
   os.path.dirname(filepath)   获取路径名
   os.path.basename(filepath)   获取文件名
   os.getenv()/os.putenv()   读取和设置环境变量
   os.linesep           读取平台行终止符
   os.name           指示正在使用的平台
   os.rename(old,new)       重命名文件或目录
   os.makedir(r"c:\python\test")   创建多级目录
   os.mkdir("test")       创建单个目录
   os.stat(file)       获取文件属性
   os.chmod(file)       修改文件权限和时间戳
   os.path.getsize(filename)   获取文件大小
   shutil.copytree("olddir","newdir")复制文件夹
   shutil.copyfile("oldfile","newfile")复制文件
   shutil.move("oldpos","newpos")   移动文件/目录
   os.rmdir("dir")       只能删除空目录
   shutil.rmtree("dir")       有内容目录也能删除

序列化操作：程序运行时变量都在内存中，程序中断内存被回收，程序再运行时变量会被初始化，所以内存变量变可存储
   或可传输的过程就是序列化。序列化后可把内容写入磁盘，或网络传输到别的辑器，实现状态的保存和共享，反
   过来，将内容从序列化对象从小读取到内存中称之为‘反序列化’
   python中使用 cPickle and pickle 来实现序列化，两种功能一样，前者是由c语言编写，效率高很多
   导入：try:import cPickle as pickle except ImportError: import pickle
   序列化方法：dumps or dump , dumps方法将任意对象序列化成一个str 然后保存str
   import cPickle as pickle
   d = dict(url='index.html',title='首页'，content='首页')
   pickle.dumps(d)
   而使用dump可将序列化后的对象直接写入文件中：pickle.dump(d,file)
   反序列化的方法：loads and load

进程和线程：很重要可提高爬虫的工作效率，会提到：多进程，多线程，协程，分布式进程等四个方面
1 os 模块的 fork 方式实现多进程：fork方法会复制当前进程，两个进程几乎完全相同，父进程返回子进程ID,子进程返回0
   os模块中 getpid()用于获取当前进程ID，getppid() 用于获取父进程的ID
2 multiprocessing 模块创建多进程：模块提供Process类描述进程对象，只需要传入一个执行函数和函数的参数就可完成
   一个Process实例的创建，用start()方法启动进程，join()方法实现进程间的同步。
3 multiprocessing 模块提供Pool类代表进程池对象(代码：P30)
   这里会出现一个在windows底下运行时无法创建进程的问题：原因一：缺乏linux中 fork机制，可执行freeze_support支持
   原因二：multiprocessing模块不支持交互模式，在cmd中执行py文件就可以创建进程了
4 进程间通讯：Queue,Pipe,Value+Array等方式
   Queue: put，Get方法进行操作，多个进程可以往Queue中写数据，也可以在Queue中读取数据(代码：P32)
   Pipe：方法返回（conn1，conn2）代表管道的两个端口，duplex为True代表全双工，两个端口均可收发消息，
       duplex为false时 conn1接收消息，conn2发送消息。send() and recv() 为发送和接收消息的方法

线程同步：多线程共同对某个数据修改，为保证数据的正确性，需要对多个线程进行同步。使用Thread对象的Lock和RLock
   可实现线程的简单同步。两个对象都有acquire方法和release方法，对于只允许一个线程操作的代码可放在两个
   方法之间。对Lock而言若两次连续使用acquire会导致死锁，对于RLock允许连续acquire操作，对象内部会维护
   (代码：P36)

全局解释器锁（GIL）：python原始解析器CPython中存在GIL，解释执行python代码时会产生互斥锁来限制线程对共享资源
   的访问，直到解释器遇到I/O操作或者操作次数达到一定数目时才会释放GIL。由于GIL存在进行多线程操作时不能
   调用多个CPU内核，所以CPU密集操作时不推荐使用多线程，倾向多进程。然而对于IO密集型操作，多线程可以明
   显提高效率，如Python爬虫开发。

协程coroutine：又叫微线程，纤程，是一种用户级的轻量级线程。协程拥有自己的寄存器和上下文栈，切换时会寄存器上下
   文和栈保存到其他地方，切回来时恢复。并发编程中，协程和线程类似每个协程表示一个执行单元，有自己本地数
   据，与其他协程共享全局数据和其他资源
   协程其实算单线程，需要用户自己写调度逻辑，CPU不用去考虑切换调度等，在一定程度上优于多线程。
   python通过yield提供对协程的基本支持，gevent是一个基于协程的Python网络函数库，
   使用greenlet在libev事件循环顶部提供了一个有高级别并发性的API,主要特点:
       基于libev的快速事件循环，基于greenlet的轻量执行单元，API复用了Python标准库里内容
       支持SSL协作式sockets，通过线程池或c-ares实现DNS查询，通过monkey patching让第三方模块
       变成协作式
   greenlet对协程的支持本质上是在事项切换工作，是一种合理安排串行方式。（代码：P38）
   gevent提供了对池的支持，当拥有动态数量的greenlet需要进行并发管理时，就可以用池。（代码：P39）

分布式进程：将Process进程分布在多台机器上，充分利用机器性能完成复杂任务，可以运用在分布式爬虫开发中
multiprocessing模块不但支持多进程，managers子模块还支持把多进程分部到多台机器上，可以写一个服务进
程作为调度者，将任务分布到其他多进程中，依靠网络通讯进行管理。（代码：P40）

网络编程：Socket(套接字)是网络编程的一个抽象概念，用一个Socket表示打开一个网络连接。而打开一个Socket需要知道
   目标计算机个IP地址和端口号，再指定协议类型即可。
   python有两个基本Socket模块：Socket，SocketServer
   1 套接字类型：Socket(family,type[,protocal]) 地址族，套接字类型，协议编号(默认为0)
   2 Socket函数

TCP编程：网络编程通常分两部分：服务端，客户端
   服务端：创建和运行需要五个步骤：创建Socket绑定IP和端口，开始监听连接，进入循环接收客户端请求，
       接收传来的数据并发送给对方数据，传输完成关闭Socket（代码：P46）
   客户端：三个步骤：创建Socket连接远端地址，连接后发送数据和接收数据，传输完毕后关闭Socket

UDP编程：TCP通常需要以流的形式发送数据并且需要建立可靠的连接过程。UDP则是面向无连接的协议，只需要知道IP和
   端口就可以直接发送数据包，但不关心是否能达到目的端，所以UDP不可靠，由于不连接所以速度比TCP快
   服务端：创建Socket绑定指定的IP和端口，直接发送数据和接收数据，关闭Socket (代码：P48)
   客户端：创建Socket就可以直接和服务端进行数据交换

爬虫的架构及运行流程：
   基础爬虫架构包括五大模块：爬虫调度器，URL管理器，HTML下载器，HTML解析器，数据存储器

爬虫数据存储（无数据库版本）：一部分HTML文本内容存储，另一部分是多媒体文件存储
   存储为JSON：（代码：P140）Python对JSON文件操作是编码和解码，通过JSON模块来实现。‘编码’是把
   Python对象转换程JSON对象的一个过程，常用函数是：dumps，dump。dump转换对象并写入文件，dumps
   只生成了一个字符串。将json对象转换成python的一个过程，常用的函数是load和loads函数（代码：P144）
   1 存储为CSV：import csv with open('qiye.csv','w') as f: f_csv=csv.writer(f) f_csv.writerow(header)
   2 读取CSV:f_csv=csv.reader(f) headers=next(f_csv) for row in f_csv: print(row)
   3 多媒体文件抽取：存储媒体文件有两种方式：获取文件的URL连接，直接将媒体文件下载到本地。
   主要用到urllib模块提供的urlretrieve()函数，直接将远程数据下载到本地：
   urlretrieve(url,filename=None,reporthook=None,data=None)
   4 Email提醒：Email主要起到提醒作用（代码：P150）

基础爬虫：
URL管理器：两个变量：已经爬取的URL集合，未爬取的URL集合。采用Python的set类型用于去重
   连接去重有三种，一内存去重，二关系数据库去重，三缓存数据库去重。大型成熟爬虫采取第三种方式去重，以避免
   内存大小的限制，且比关系数据库去重效率高很多。基于我们爬取量小可以使用内存set方式去重
   除了两个URL集合，还需要提供以下接口，配合其他模块使用：
       判断代取URL:has_new_url()，添加新的URL到未爬取：add_new_url(url) add_new_urls(urls)，获取未爬取
       URL：get_new_url()，获取未爬取URL集合大小：new_url_size()，获取以爬取URL大小：old_url_size()
   管理器(代码：P153)
HTML下载器：用来下载网页，需要注意网页的编码，以保证不会乱码，需要用到Requests模块，只需要实现一个接口：download(url)
   下载器（代码：P154）
HTML解析器：使用BeautifulSoup4进行HTML解析，需要的部分主要分为提取相关词条页面的URL和提取当前词条的标题和摘要
   解析器（代码：P156）
数据存储器：主要包括两个方法：store_data(data)用于解析出来的数据存储到内存中，output_html()用于将存储数据输出为指定
   文件格式。（代码：P157）
爬取调度器：爬虫调度器来协调管理这些模块。先初始化各模块，然后通过crawl(root_url)方法传入入口URL。方法内部按照运行
   流程控制各个模块的工作。（代码：P158）

分布式爬虫：下面的实现采用比较简单的‘主从模式’，涉及到‘分布式进程’和‘进程通信’的内容。
主从模式：一台主机作为‘控制节点’负责管理所有运行网络爬虫的主机，爬虫只需要从控制系欸但那里接收任务
   并把新生成的任务提交各控制节点就行。这个过程爬虫不需要和其他爬虫通信，这样实现简单，利于管理。而控制
   节点需要与所有爬虫进行通信，所以主从模式有缺陷，控制节点会成为整个系统的瓶颈，导致整个分布式爬虫性能
   下降。
控制节点：（ControlNode）主要分为URL管理器，数据存储器，控制调度器。控制调度器通过三个进程来协调URL管理器
   和数据存储器的工作：一个是‘URL管理进程’负责URL管理和将URL传递给爬虫节点，一个是‘数据提取进程’将
   返回内容数据交给数据存储进程和将返回数据中的URL交给URL管理进程，最后一个是‘数据存储进程’，负责提取
   进程中提交的数据进行本地存储。（详解：P161)
URL管理器：优化了基础爬虫代码，采用‘内存set去重’若url过多，容易导致内存溢出，所以将爬取过的url经过MD5处理
   控制长度，将MD5内存摘要存储到set能减少几倍内存消耗。但python的MD5算法生成的是256位取其中128位即可
   同时添加save_progress和load_progress方法进行序列化操作，将未爬取和已爬取的URL集合序列化到本地保存当前
   的进度以便下次恢复状态。（代码：P162）
数据存储器：代码同基础爬虫（代码：P163）
控制调度器：产生并启动URL管理进程，数据提取进程和数据存储进程，同时维护4个队列保持进程间通讯：
   url_q：url管理进程将url传递给爬虫节点的通道
   result_q：爬虫节点将数据返回给数据提取进程的通道
   conn_q：数据提取进程将新的url数据提交给URL管理进程的通道
   store_q：数据提取进程将获取到的数据交给数据存储进程的通道
   同时还需要一个分布式管理器方法：start_manager()
   控制调度器（代码：P165）
爬虫节点：（SpiderNode）比较简单，主要包括HTML下载器，HTML解析器，爬虫调度器
   爬虫调度器获取控制节点的URL，爬虫调度器调用HTML解析器，HTML下载器获取网页内容，爬虫调度器将新的URL
   传入控制节点
   1 HTML下载器：和基础爬虫内容一致（代码：P167）
   2 HTML解析器：和基础爬虫内容一致（代码：P168）
   3 爬虫调度器：需要用到分布式进程中工作进程的代码。调度器需要先连接控制节点，然后从url_q队列中获取URL下载
   并解析，然后将获取的数据交给request_q队列并返回给控制节点。（代码：P169）
运维（环境搭建）：可以在一台机器上测试代码的正确性，也可以使用三台VPS服务器，两台运行爬虫的节点程序（IP改为控制节点主机公网IP），
   一台运行控制节点程序，进行分布式爬取，这样更贴近真实的爬取环境。

中级篇
数据库存储：SQLite，MySQL，MongoDB主要介绍这三种数据库使用
SQLite：是一个开源的嵌入式关系数据库，实现自包容，零配置，支持事务的SQL数据库引擎。特点：高度便捷，结构紧凑高效可靠
   安装运行简洁，并发性能不太高。单文件数据库引擎，一个文件就是一个数据库，方便储存和转移。
   下载：http://www.sqlite.org/download.html ; 下载 sqlite-dll-*.zip 和 sqlite-tools-win32-*.zip 两个压缩包
   安装：硬盘上创建一个文件夹放置两个压缩文件并解压缩，将目录添加到环境变量PATH中，cmd输入sqlite3验证安装
   SQL：SQL语言有很多版本，每个数据库都有自己独特的SQL语法，但为了和ANSI标准兼容他们必须以相似的方式共同
       支持一些主要的关键词比如：SELECT。SQL主要分为两部分：数据库定义语言（DDL）和数据库操作语言：
       （DML）SQL语法对大小写不敏感。
   SQLite增删查改：cmd中输入：sqlite3 D:\test.db 就可创建数据库。
       创建表：create table person(id integer primary key,name varchar(20),age integer);
       增加：insert into person(name,age) values('qiye',20);
       修改：update person set age=17 where name='qiye';
       查询：select * from person;
       删除：delete from person where name='qiye';
   常用SQLite命令：显示表结构： sqlite>.schema [table] 获取所有表和视图: .tables 获取指定表的索引列表：.indices [table]
       导出数据库到SQL文件：.output [filename] .dump .output stdout
       从SQL文件导入到数据库：.read [filename]
       格式化输出数据库到CSV格式：.output [filename.csv] .separator, select * from test; .output stdout
       从CSV文件导入到数据库：create table newtable (id integer primary key,name varchar(20),age integer);
           .import [filename.csv] newtable
       备份数据库：sqlite3 test.db .dump > backup.sql
       恢复数据库：sqlite3 test.db < backup.sql
   SQLite事务：事务指的是单个逻辑单元执行的一系列操作。SQLite控制事务命令：BEGIN TRANSACTION : 启动事务处理
       COMMIT : 保存更改/END TRANSACTION ROLLBACK：回滚所作的更改
Python3操作SQLite：
   导入sqlite数据库模块（python3内置模块）：import sqlite3
   创建打开数据库：connect方法（创建/打开数据库）：con=sqlite3.connect('D:\test.db')
       内存中创建：con=sqlite3.connect(':memory:')
   数据库连接对象：con就是数据库连接对象。方法：cursor()创建游标对象，commit()提交事务，rollback()回滚，close()关闭
   游标对象使用: cur=con.cursor() 拥有方法：execute()执行sql，executemany()执行多条sql，close()关闭游标，fetchone()
       获取一条记录，并将游标指向下一条记录。fetchmany()取多条记录。fetchall()取所有记录。scroll()游标滚动
   建表：使用游标对象创建一个person表：cur.execute('...')
   插入数据：两种方法：直接构建SQL执行（容易造成SQL注入）替代方法：使用占位符，也可用excutemany()执行多条sql
       cur.execute(' insert into person values (%s)' %data)
       cur.execute(' insert into person values(?,?,?)' ,(0,'qiye',20))
       cur.executemany('insert into person values (?,?,?)',[(3,'marry',20),(4,'jack',20)])
       con.commit() 提交后数据会生效
   查询数据/修改/删除数据库：cur.execute('select * from person')
   执行完所有操作后需要关闭数据库，插入或者修改中文数据时，要在中文字符前加上‘u’
MySQL:关系型数据库管理系统：cmd : 启动：net start MySQL 停止：net stop MySQL 卸载：sc delete MySQL
   登录MySQL：mysql -u root -p
   登录时执行SQL文件：mysql -u root -p    登录后输入：source D:\create_student.sql 或 \. D:\create_student.sql
   修改密码：mysqladmin -u 用户名 -p oldPassword newPassword
   新增用户：grant 权限1，权限2，... on databaseName.tableName to 用户名@用户地址 identified by '密码'；
   备份数据库：mysqldump -h 主机名 -P 端口 -u 用户名 -p 密码 -database 数据库表命>文件名.sql
Python操作MySQL:
   导入MySQLdb数据库模块：先安装：pip install MySQL-python 导入：import MySQLdb
   打开数据库：con=MySQLdb.connect(host='localhost',user='root',passwd='',db='test',port=3306,charset='utf-8')
   数据库连接对象：con；方法：cursor()创建游标对象，commit()事务提交，rollback()事务回滚，close()关闭
   游标使用：execute()执行SQL，executemany()，close()关闭游标，fetchone()，fetchmany(),fetchall()，scroll()回滚
   数据库操作同SQLite
MongoDB：更适合爬虫
   MongoDB是一个基于分布式文件存储的数据库，介于关系型和非关系型之间的产品，属于非关系数据库。非常适合在
   爬虫开发中用作大规模数据的存稿
   安装MongoDB：下载安装包安装。下载地址：http://www.mongodb.org/downloads
   可以将mongod --dbpath D:\mongodb\data\db 做成批处理文件方便使用
   还可以将mongoDB注册成一个服务，在系统启动时自动运行：mongod --bind_ip yourIPadress --logpath
   --logappend --dbpath --port yourPortNumber --serviceName "yourServiceName" --serviceDisplayName
   "YourServiceName" --install (详情：P198)
   注册：mongod--logpath "D:\mongodb\log.txt" --dbpath "D:\mongodb\data\db" --install
   然后输入：net start mongodb就可以启动服务了。输入mongo 就可进入shell操作界面
MongoDB基础：属于NoSQL数据库，MongoDB基本概念是：集合，文档，数据库。普通数据库：表单，数据行，数据库
   文档：MongoDB数据的基本单元（BSON）类似库中的行。文档有唯一标识：_id ,数据库可自动生成。
       文档以key/value方式，类比数据库中列名和值。文档特性：一，键值对有序顺序不同文档不同。二
       文档值可以是字符串，数组，整数以及文档等类型。三，键用双引号标识（个别例外），可用任务
       UTF-8字符，键不能含有‘\0’(空字符：这个字符用来标识结尾)；‘.’'$'有特别含义，‘_’开头最
       好不用，文档区分大小写以及值类型
   集合：在MongoDB中是一组文档。类似于数据表，集合存在于数据库中没有固定结构可以插入不同格式类型数据
       合法集合名：不能是空字符，不能含有‘\0’,不能以’system.‘开头，不能含有保留字符
   数据库：一个MongoDB可以建立多个数据库，默认数据库为‘db’在data目录中（安装时创建）MongoDB单
       个实例可以容纳多个独立数据库，每一个都有自己的集合和权限。不同数据库放在不同的文件中。在
       MongoDB的shell窗口中使用show dbs命令可以查看所有的数据库，使用db命令可以查看当前的数
       据库
       创建数据库：use DATABASE_NAME (不存在创建，存在就切换)，查看所有数据库：show dbs
       删除数据库：db.dropDatabase() (删除当前数据库) db命令可以查看所有数据库
       集合文档的增删改查：所有存储在集合中的数据都是BSON格式（是类JSON的一种二进制形式）
       插入文档：insert() 或 save() 语法：db.COLLECTION_NAME.insert(document)
       查询文档：find() 查询语法：db.COLLECTION_NAME.find()，以易读方式查询可用：pretty()
           语法：db.COLLECTION_NAME.find().pretty() 相当于 select * from table
           查询条件和操作符：...find({"likes":100}) 等于：{:} 小于：{:
           {$lt:}} 小于等于：{:{$lte:}} 大于：{：{$gt:}}
           大于或等于：{:{$gte:}} 不等于：{:{$ne:}}
           多个key以逗号隔开代替 AND：db.COLLECTION_NAME.find({key1:value,key2:value2})
           OR条件：db.COLLECTION_NAME.find({ $or:[{key1:value1},{key2:value2}] }).pretty()
           AND和OR条件可以联合使用。
       更新文档：update() 和 save() 更新集合中的文档。update()用于更新已存在的文档：db.collection.
           update(query,update,{upsert:boolean multi:boolean writeConcern:document})
           query:查询条件，update:update对象和更新操作符类似set后面内容，upsert:可选，不
           存在update记录，是否插入新的文档。multi：可选默认false,只更新找到的第一条记录
           若为true,多条记录全部更新。writeConcern：抛出异常的级别
           db.python.update({'title':'python'},{$set:{'title':'python爬虫'}}，{multi:true})
           save()：通过传入的文档来代替已有的文档：db.collection.save(document,{writeCon
           cern:document}) 参数：document：文档数据，writeConcern：可选抛出异常的级别
       删除文档：remove() 删除文档：
           db.collection.remove(query,{juseOne:boolean,writeConcern:document})
           query：可选删除文档的条件，justOne:可选，true或1只删除一个文档
           writeConcern：抛出异常的级别
Python操作MongoDB：
导入pymongo数据库模块：安装pymongo模块：pip install pymongo 导入：import pymongo
建立连接：pymongo模块使用MongoClient对象来描述一个数据库客户端：创建对象需要参数是：host,port，方式：
   client=pymongo.MongoClient() client=pymongo.MongoClient('localhost',27017) client=pymongo.
   MongoClient('moongodb://localhost:27017/')
获取数据库：一个MongoDB实例可以支持多个独立的数据库，使用时可以通过访问MongoClient的属性方式来访问
   数据库：db=client.parpers 若数据库名导致属性方式访问不能用可以通过字典的方式访问数据库：db=client
   ['pa-pers']
获取一个集合：一个collection 指一组存在于MongoDB中的文档，获取collection方法和获取数据库的方法一致：
   collection=db.books 或字典方式：collection=db['books'] collection和数据库都有惰性，上面所有命令实际
   都没执行，直到第一个文档插入后，才会创建这就是为什么不插入文档，使用show dbs 查看不到之前创建的库
插入文档：数据在MongoDB中是以JSON类文件的形式保存起来的，在PyMongo中用字典来代表文档，使用insert()
   方法来插入文档。文件被插入后若文件没有_id这个值，系统会自动添加一个到文件里（唯一）。insert()返回这个
   文件的_id值。除了单个插入，也可以在insert()传入可迭代对象
查询文档：最常用：find_one()，返回一个查询文件，没有就返回None，支持对特定元素的匹配查询（给条件）。
   collection.find_one({'_id':ObjectId('........')})，find()返回一个游标（Cursor）实例可便利
   查询符合条件的数据条数：count()，collection.find().count()
修改文档：使用update()和save()来更新文档，collection.update({'author':"qiye"},{"$set":{"text","python book"}})
删除文档：remove() 语法：collection.remove({"author":"qiye"})

动态网站抓取：
Ajax：Ajax定义是异步的JavaScript和XML，是JavaScript异步加载技术。使用Ajax不必刷新整个页面。
DHTML：是Dynamic HTML简称，动态HTML，所谓动态只是HTML与CSS和客户端脚本语言的一种集合。
怎么抽取动态HTML有效的数据：一种直接从JavaScript中采集加载的数据，另一种是直接采集浏览器中已经加载好的数据
电影网站爬取（实例代码：P210)
PhantomJS：直接从浏览器中提取渲染好的HTML文档（在Ajax过多，请求参数还进行加密情况可以考虑：PhantomJS宣布暂停开发）
替换方案：
   对于Firefox：Selenium+Headless Firefox：本地要有geckdriver，最好再配以下环境变量避免网页实例化webdriver就close()
   对于Chrome：需要安装chromedriver
Selenium：官网：http://www.seleniumhq.org/ 下载：pip install Selenium==3.0.1 或者 http://pypi.python.org/pypi/selenium
   下载源码，然后运行python setup.py install。selenium2.x调用高版本浏览器会出现兼容问题，3.x需要下载补丁
   firefox：geckodriver，Chrome：chromedriver ：补丁下载地址：http://www.seleniumhq.org/download/
   下载之后解压到指定目录，然后配置环境变量
页面操作：页面交互与填充表单：第一步：初始化Firefox驱动，打开html文件。第二步：获取用户名和密码输入框等
   第三步：使用send_keys方法输入用户名和密码，使用click方法模拟点击登录。若想清除输入框内容可以用click()
   下拉框选择select元素：一种方式：轮流设置select选项卡内容。第二种方式：WebDriver中提供Select方法
   (代码：P235)。
   元素拖拽：先要找到源元素，和目的元素，然后使用ActionChains类可以实现
   窗口和页面frame的切换：窗口可以switch_to_window方法：driver.switch_to_window('windowName')
       页面：driver.switch_to_frame("frameName")
   弹框处理：跳出了弹框可以使用：switch_to_alert获取弹框对象，从而进行关闭弹框，获取弹框信息等操作
   历史记录：driver.forward() driver.back()
   Cookie处理：get_cookies() 获取cookie，也可使用add_cookie()添加cookie信息
   设置phantomJS请求头中User-Agent
等待：利用Ajax需要等待加载，Selenium有两种等待方式：一种显示等待，一种隐式等待
   显示等待：条件触发式的等待方式：直到这个条件成立才会继续执行，可以设置超时时间。（代码：P238）
   隐式等待：尝试发现某个元素时没能立即发现就等待固定长度的时间，设置隐式等待作用范围就是Webdriver
       对象实例的整个生命周期。若时间过长可以修改代码：P239）
   线程休眠：time.sleep(time)：线程休眠延时的方法。
爬取去哪网：（实例代码：P239）

Web端协议分析：主要解决两个问题：一是网页登录POST分析，二是验证码问题
POST分析：登录才能爬取的网站属于深层次网页爬取。主要任务是完成登录获取Cookie，基本上是使用表单
   提交POST请求。
隐藏表单：找到隐藏表单的位置，通过BeautifulSoup提取值，也可以直接使用正则表达式提取然后Requests
   提交POST请求
加密数据分析：百度云登录为例（代码：P247）
   第一部分：实际登录比较不同次登录时请求参数的变化情况（多次比较）
   第二部分：比较变化参数产生的时间以确定是在哪块发生的变化。（代码：P249）
   第三部分：找到所有可变参数出处后，然后模拟登录其中使用到了‘pyv8引擎’可以直接运行JavaScript代码
       这样生成gid和callback的Javascript函数可以直接使用不用转换成Python语言（代码：P254）
       源码下载地址：http://github.com/qiyeboy/baidulogin.git
验证码问题：对于爬虫验证码是天敌。
IP代理：当你使用同一个IP频繁访问网页时，网站服务器就极有可能将你判定为爬虫，此时会在网页中出现验证码，输入
   正确才能正常访问。
   一种解决方法：加大爬虫的延时，做到和人访问速率一样，不过这样效率会稍微低一些
   另一解决方法：切换IP进行访问。
   要解决的首先是用urllib2和Requests配置代理IP。其次是如何获取更多的代理IP：有以下几种方式：
       VPN：VPN服务可以分配不同的网络线路，并可以自动更换IP，但需要钱适合商用。
       IP代理池：厂商会将很多IP做成代理池提供API接口，很贵的。
       ADSL宽带拨号：ADSL有一个特点，断开重新连接时分配的IP会有变换，由于要断开重连所以效率不高
           可以使用Python实现拨号和断开，Windows提供了一个用于操作拨号的命令rasdial。(代码：P260)
       IPProxyPool：（适合个人使用）开源项目代码地址：http://github.com/qiyeboy/IPProxyPool
           原理：通过爬取各大IP代理网站的免费IP,将这些IP进行去重，检测代理有效性等操作，最后
           存储到SQLite数据库种，并提供一个API接口，方便大家调用。（代码：P261）
       开源项目使用：下载并解压缩，进入IPProxyPool目录运行：Python IPProxys.py
Cookie登录：每次登录都需要手动输入验证码，很繁琐不可取，但大部分网站登录后Cookie都会保持较长一段时间避免
   用户繁琐输入账号和密码造成的不便。可以利用这个特性，再登录成功一次后可以将Cookie信息保存到本地，下
   次直接使用Cookie登录（代码：P262）
传统验证码识别：上面Cookie登录失效后需要重复登录这个过程，同样很繁琐。若Python能自动识别验证码会省很多力
   传统验证码不涉及含义的分析，只是识别内容识别相对简单。进行识别需要使用到tesseract-ocr。
   python使用tesseract-oct识别验证码：需要模块：tesseract-oct，pytesseract 和 Pillow   (安装P262)
   Windows:tesseract-ocr：http://digi.bib.uni-mannheim.de/tesseract/
       pytesseract：pip install pytesseract   Pillow：pip install pillow
人工打码：当识别难度提高，程序很难保证较高的准确率，这时候就需要人工打码了。采用自动识别和人工识别的组合
   有人工打码的平台，‘打码兔’，‘QQ超人打码’有提供各种语言的接入方式。是需要收费的。
滑动验证码：是一种基于行为的验证方式，很特别但也能突破。一种通用方法是使用selenium来进行处理。需要解决：
   浏览器模拟鼠标拖动，计算图片缺口偏移量，模拟人类拖动轨迹。涉及到很多图像拼接方面的知识。还可以采
   取多账号登录，保存cookie信息，组建cookie池的方法绕过。
   滑动验证码识别参考：http://www.w2bc.com/article/170660
www>m>wap：www是PC网站，m和wap是移动端，智能手机一般用的是m站。因为wap站点简单可以优先爬取，伪装
   不同平台需要修改User-Agent头信息，网站服务器会根据这个判断是从哪个平台发送的请求

终端协议分析：只要爬虫伪装成PC客户端或者移动客户，模拟请求方式就能爬取数据。这是终端协议分析的意义。
PC客户端抓包分析：PC抓包软件：Wireshark，Http Analyzer等。Wireshark比较重型，Http Analyzer专注HTTP/HTTPS
HTTP Analyzer简介：实时捕捉HTTP/HTTPS协议数据的工具，可以显示许多信息，也是分析诊断调试的开发工具。
下载连接：http://www.ieinspector.com/httpanalyzer/download.html 安装后启动，然后打开网页会抓取信息

爬取虾米音乐PC端：（实例代码：P269）
一些客户端的链接都是进行加密的，这样分析就会很困难，没有逆向PC客户端软件和分析算法的能力最好放弃。
APP抓包分析：策略是在电脑上安装一个Android模拟器，将应用安装到模拟器中，这时可以用Wireshark了。
Wireshark：最流行的网络分析工具，提供了网络和上层协议的各种信息。下载：https://www.wireshark.org/downloa
   d.html
Android模拟器：天天模拟器，Bluestacks模拟器和Windroye模拟器

Scrapy爬虫框架：Scrapy使用Twisted这个异步网络库来处理网络通信，包含各种接口可以灵活完成各种需求
Scrapy引擎（Engine）：引擎负责控制数据流在系统的所有组件中流动
调度器（Scheduler）:调度器从引擎接收Request并将它们入队，以便之后提供
下载器（Downloader）: 负责获取页面数据并提供给引擎，而后提供给Spider
Spider：Scrapy用户编写用于分析Response并提取Item或额外更进的URL类，每个Spider负责处理一个特定的网站
Item Pipeline：负责处理被Spider提取出来的Item
下载中间件（Downloader middlewares）：引擎和下载器之间的特定钩子，处理Downloader传递给引擎的Response
Spider中间件（Spider middlewares）: 引擎和Spider之间的特定钩子，处理Spider的输入和输出
详细过程（解释：P286）

安装Scrapy：
Windows：安装pywin32：地址：http://sourceforge.net/projects/pywin32/ 检验成功：import win32com
安装pyOpenSSL：地址：https://github.com/pyca/pyopenssl 下载后：python setup.py install 安装就好
安装lxml：pip install lxml 若提示Microsoft Visual C++ 库没装，可以http://www.microsoft.com/en-us/down
load/details.aspx?id=44266
安装Scrapy：pip install Scrapy

创建cnblogs项目：（实例开发：P288）
创建新项目：命令中切换到要存储的位置，运行命令：scrapy startproject cnblogSpider 即可创建
生成目录文件：scrapy.cfg：项目部署文件 cnblogSpider/: 项目的Python模块，可在此加入代码 cnblogSpider/ite
   ms.py：项目中的Item文件 cnblogSpider/pipelines.py：项目中的Pipelines文件 cnlogSpider/setting.py
   项目的配置文件 cnblogSpider/spiders/:放置Spider代码的目录
创建爬虫模块：爬虫模块放置在spiders文件夹中，爬虫模块时用于从单个网站或者多个网站爬取数据的类，其应包含
   初始页面的URL，以及更进网页链接，分析页面内容和提取数据函数，创建一个Spider类需要继承scrapy.Spider
   类并定义属性：name，start_url，parse()
启动spider：切换到根目录：执行：scrapy crawl cnblogs

选择器：爬虫模板完成后，仅仅拥有网页下载功能，后面需要进行网页数据提取。Scrapy有一套自己的提取机制，称为选择器
（selector）他们通过特定的XPath或者CSS表达式来选择HTML文件中的某个部分。Scrapy选择器构建于lxml库之上，也
   可以脱离这套机制，使用BeautifulSoup包进行解析。
Selector的用法：有四个基本的方法：
   xpath(query)：传入XPath表达式query,返回表达式对应的所有节点
   css(query)：传入CSS表达式query,返回对应所有节点
   extract()：序列化该节点为Unicode字符串，并返回list列表
   re(regex)：根据传入的正则表达式对数据进行提取，返回Unicode字符串列表
HTML解析器的实现：（代码：P293）
命令行工具：Scrapy命令行功能：提供了两种类型的命令：一种必须在项目中运行，一种属于全局命令。（命令行：P296）
定义Item：从非结构性的数据源提取结构性数据。Scrapy中的Item来完成这部分功能。

翻页功能实现：提取当前页后提取下一页，这就需要翻页功能，本质上是构造Request并提交给Scrapy引擎的过程。(代码：P298)
构建Item Pipeline：数据持久化，Item Pipeline完成，Item被收集后会传递到Item Pipeline 会执行对Item的处理
功能：清理HTML数据，验证爬取的数据合法性，查重并丢弃，爬取结果保存到文件或者数据库。
定制Item Pipeline：（代码：P299）
激活Item Pipeline：目前是无法工作的，需要进行激活，启动一个Item Pipeline组建，必须将它的类添加到settings.py
中的ITEM_PIPELINES 变量中：ITEM_PIPELINES={‘cnblogSpider.pipelines.CnblogspiderPipeline’: 300}
激活完成后，将命令切换到项目目录下，执行scrap'y crawl cnblogs 命令就可以将数据存储到papers.json文件中

内置数据存储：除了使用Item Pipeline 实现存储功能，Scrapy内置了一些简单的存储方式，生成一个带有爬取数据的输出
文件通常叫做输出（feed）支持多种序列化格式（介绍：P301）。
内置图片和文件下载方式：
Scrapy为下载Item中包含的文件提供了一个可以重用的Item Pipeline，有共同的方法和结构，称为MediePipeline 一般
会使用FilesPipeline 或者 ImagesPipeline

强化爬虫：Scrapy中调试方法，异常和控制运行状态等内容，可以帮我门更好的使用Scrapy编写爬虫
调试方法：有三种技术比较常用：Parse 命令，Scrapy shell 和 logging
Parse命令：可以在函数层上检查spider各个部分的效果(介绍：P309)
异常：Scrapy提供的异常及其用法：（代码：P311）
控制运行状态：Scrapy提供了内置的telnet终端以供检查控制Scrapy的运行进程。可以启用和关闭（代码:P313）

你可能感兴趣的:(Python爬虫笔记)

涛哥聊Python | borb，一个好用的 Python 库，处理 PDF 文件好帮手！双木的木 python拓展学习 python库 python 开发语言机器学习 pdf 人工智能深度学习
本文来源公众号“涛哥聊Python”，仅用于学术分享，侵权删，干货满满。原文链接：borb，一个好用的Python库！大家好，今天为大家分享一个好用的Python库-borb。Github地址：https://github.com/jorisschellekens/borbPythonBorb是一个用于处理PDF文件的Python库，它提供了丰富的功能和工具，使得PDF文件的创建、修改和解析变得更
python—计算学生成绩等级 2111339 彭传月 python
一、打开软件新建窗口输入代码#计算学生成绩等级is_continue='y'whileis_continue=='Y'oris_continue=='y':score=eval(input('请输入学生的成绩：'))ifscore>=90:print('A')elifscore>=80:print('B')elifscore>=70:print('C')elifscore>=60:print('D
CPU占用率飙升至100%：是攻击还是正常现象？群联云防护小杜安全问题汇总 ddos 安全 waf 服务器 cpu 占用被攻击
在运维和开发的日常工作中，CPU占用率突然飙升至100%往往是一个令人紧张的信号。这可能意味着服务器正在遭受攻击，但也可能是由于某些正常的、但资源密集型的任务或进程造成的。本文将探讨如何识别和应对服务器的异常CPU占用情况，并通过Python脚本示例，提供一种监控和诊断CPU占用率的方法。一、CPU占用率100%：攻击or正常？1.1攻击迹象持续性高占用：如果CPU占用率长时间保持在100%，且没
Python 成绩等级判定 Camellia 泡泡 python 笔记
score=int(input("请输入学生成绩:"))if90<=score<=100:grade="A"elif75<=score<=90:grade="B"elif60<=score<=75:grade="C"elifscore<60:grade="D"print("本次考试，等级为:",grade)运行结果：
【Python】PDFMiner.six：高效处理PDF文档的Python工具技术无疆 Python python pdf 开发语言 python3.11 人工智能数据挖掘机器学习
PDF是一种广泛使用的文件格式，特别适用于呈现固定布局的文档。然而，提取PDF文件中的文本和信息并不总是那么简单。幸好有许多Python库可以帮助我们，其中，PDFMiner.six是一个功能强大、专门用于PDF文档解析的库。⭕️宇宙起点什么是PDFMiner.six？主要功能安装PDFMiner.six♨️核心功能和代码示例1.提取PDF文档的纯文本2.从多个页面提取文本3.提取PDF中的表格内
25道Python练手题（附详细答案），赶紧收藏！_python题库字节全栈_rJF python 开发语言
importrandomasrdnumber=rd.randint(0,100)foriinrange(10):choice=int(input("请输入你要猜测的数字："))ifchoice>number:print("你猜大了")elifchoice0and5*x+3*y+z/3==100:count+=1print("="*60)print(f'第{count}种买法，公鸡买了{x}只，母鸡
python爱心代码高级 youyouxiong python 开发语言
在Python中，我们可以使用各种方法来绘制一个“爱心”形状。以下是一个使用turtle模块绘制爱心的高级示例。这个示例将使用更复杂的数学公式和图形操作来绘制一个更精致的爱心形状。importturtleimportmath#设置初始状态window=turtle.Screen()window.bgcolor("black")#设置背景色为黑色love=turtle.Turtle()love.sp
python画一个爱心戴子雯 python绘画 python
大家好这是我的地一篇博客，我要写一个关于python的文章我要用python写一个爱心。不说别的，先看效果效果如下：话不多说，上代码，在这之前要下载python下载这事咱们放在最后现在上代码！！！！！！！！！！！！！！importturtleastt.pensize(2)#笔大小2像素t.pencolor("red")#颜色为红色t.left
brew 安装pip_pip brew wget 安装 weixin_32612253 brew 安装pip
终端播放器安装教程从简书上看到一篇,终端实现网易云音乐的文章,并给出了一个github链接.心里有些痒痒,想看看是什么样子,于是尝试安装.安装过程中有些坎坷,记录以便以后查阅.程序实现是用Python写的.安装使用方式仅仅给了三行命令.安装$pipinstallnetease-musicbox$brewinstallmpg123使用$musicbox下载了源码后,不知道该如何安装.三行命令也是莫名
python实现绘制爱心函数（绘制过程） halo0416 python 开发语言
首先，确保已经安装了matplotlib库和numpy库。如果没有安装，可以通过pip来安装：pipinstallmatplotlibpipinstallnumpy了解心形函数公式：x(t)=y(t)=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)定义函数：defheart_shape(t):x=16*np.sin(t)**3y=13*np.cos(t)-5*np.c
python 绘图（爱心） @小H python 开发语言
#-*-coding:utf-8-*-fromturtleimport*defcurvemove():foriinrange(200):right(1)forward(1)color('red','pink')begin_fill()left(140)forward(111.65)curvemove()left(120)curvemove()forward(111.65)end_fill()don
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
使用 Python 绘制爱心图形（高级版）徐浪老师徐浪老师大讲堂 python 开发语言
以下是一段使用Python绘制高级“爱心”图案的代码，结合数学公式生成精美的爱心形状，并附加一些交互式的效果，比如渐变颜色或动态展示：动态渐变爱心importnumpyasnpimportmatplotlib.pyplotaspltimportmatplotlib.animationasanimation#设置爱心的数学公式defheart_shape(t):x=16*np.sin(t)**3y=
2025计算机毕设全流程实战指南：Java/Python+协同过滤+小程序开发避坑手册启点毕设课程设计 java python 大四论文指南查重降重技巧毕业设计 spring
技术框架的选择是项目开发的关键起点，直接影响开发效率和最终成果质量。然而，许多开发者在选择技术框架时面临困难：现有知识储备不足以支撑复杂项目需求，团队经验有限，框架选择缺乏前瞻性常导致后期问题。尽管技术框架的选择过程充满挑战，但合适的框架能为项目开发和维护奠定基础，而不当的选择则可能带来持续的技术债务和开发困扰。所以，建议对项目技术框架把握不好的同学，最好是找自己的研究生学长或者老师详细的把关机技
pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发