weixin_ry5219775

html,xml_网页开发_爬虫_笔记

20220720

scrapy:二级跳转的两个url需要不一样

20220719

scrapy，如果不牵扯到登陆的话，解析的第一步，直接获取网页内容就可以了

2022507

user_agent是由浏览器的版本决定

20220427

OPTIONS：这个方法很有趣，但极少使用。它用于获取当前URL所支持的方法。若请求成功，则它会在HTTP头中包含一个名为“Allow”的头，值是所支持的方法，如“GET, POST”。

20220425

https://www.csdn.net/tags/Mtjagg5sNTkzNzEtYmxvZwO0O0OO0O0O.html
http状态码

getpost,options,header请求都属于http请求

https://blog.csdn.net/weixin_45832482/article/details/113844082
post,options区别

爬虫可以直接通过请求接口连接
通过post传递参数来请求数据，
而不是请求网页连接，
通过网页源码数据来获取目前数据

20220420

scrapy.Request提交参数
meta传递参数给下一个函数
body:传递的post参数

https://wenku.baidu.com/view/9ba141850329bd64783e0912a216147917117ecb.html
浏览器user-agent就是浏览器标识

20220418

https://zhidao.baidu.com/question/2121871171469939307.html
200和304的区别
304文件是否被修改过？

Percentage of HEAD requests: HTTP GET requests are
used to retrieve web-page content whereas HTTP HEAD
requests retrieve web-page metadata. It is expected that
“polite” crawlers would use the HEAD method, when possible,
in order to detect and download only recently
updated pages, so as to minimize the consumption of
Web-server resources.

header请求和get请求的区别

https://blog.csdn.net/qq_41658123/article/details/113994979
分布式爬虫

20220402

笔记本走手机热点,重连之后又是另一个ip

20220331

https://mp.weixin.qq.com/s/znXuCB0Fl32TbP_0UaO6SQ
爬虫相关知识快速复习

20220329

'$remote_addr | $time_iso8601 | $request | ''$status | $body_bytes_sent | $http_referer | ''$http_user_agent | $upstream_addr | $upstream_response_time | $request_time |'
客户端地址    访问日期时间    请求接口明细（请求方式  接口 协议）    请求状态码    请求头大小    前端访问主页地址（调用我们接口的来源地址）     浏览器agent     内部接口负载服务器
 后端响应时间  总请求响应时间
125.69.60.179 | 2022-03-24T00:00:14+08:00 | POST /search/search/suggest HTTP/1.1 | 200 | 78 | - | okhttp/3.2.0 | 172.28.131.32:10020 | 0.012 | 0.013 | 
125.69.60.179 | 2022-03-24T00:00:14+08:00 | POST /search/search/suggest HTTP/1.1 | 200 | 78 | - | okhttp/3.2.0 | 172.28.131.25:10020 | 0.011 | 0.013 | 

nginx日志

https://github.com/xiaoyang611/crawler-denfender

https://zhuanlan.zhihu.com/p/103009591
机器学习反爬虫

20220215

Pyppeteer 比 selenium更高效？

20211220

查看chrome版本

解决:selenium.common.exceptions.WebDriverException: Message: 'chromedriver' execu

    browser = webdriver.Chrome(options=chrome_options)
    path参数默认
    D:\Python37\Scripts
    chromedriver放在这个文件夹下面

20211204

https://blog.csdn.net/m0_62298204/article/details/120802053

Executable path has been deprecated please pass in a Service object in Selenium Python

20211014

https://bjjdkp.github.io/post/concurrent_requests-and-download_delay/
请求并发数和下载延迟不一样
下载延迟是对每次请求的下载的等待时间

20210928

Python-3反爬虫原理与绕过实战
全面系统了解索引重点

HTTP响应是指服务器端根据客户端的请求返回的信息。HTTP响应由状态码、响应头和响应正文组成。状态码是一个3位数字（如200），它的第一位代表了不同的响应状态。响应状态共有5种，含义如下。
1代表信息响应类，表示接收到请求并且继续处理，这类响应是临时响应。2代表处理成功响应类，表示动作被成功接收、理解和接受
3代表重定向响应类，为了完成指定的动作，必须接受进一步处理。
4代表客户端错误，表示客户请求包含语法错误或者是不能正确执行的请求。
5代表服务器端错误，服务器不能正确执行一个正确的请求
状态码
错误码

20210928

seleniumIDE把网页操作变成代码

https://www.cnblogs.com/lhTest/p/14703892.html
selenium运行出现闪退需要把其运行文件作为入口加上
if name=‘main’

https://www.cnblogs.com/thomasbc/p/6650119.html
xhr ajax和javascript区别

postman可以测试影响登陆的原因

https://blog.csdn.net/qq_42348937/article/details/85065104
selenium 获取登录cookies，并添加cookies自动登录
https://npm.taobao.org/mirrors/chromedriver/94.0.4606.61/
webdriver下载地址

20210922

聚创爬虫遇到的问题
1.必须先post登陆,输入账号和密码
2.后续要连续访问网页进行爬取就必须通过get登陆和带cookies 请求
3.但是get登陆需要请求的cookies里面带有一串随机数字串,这个数字串
是在浏览器输入login页面的时候由服务器生成返回的
且这个数字串通过普通的get方法请求response里面是没有这个数字串的
且这个数字串并不是在本地由javascript生成的
4.怎么办？

网页调试这些网页的打开也是从上到下按时间顺序的

https://www.runoob.com/js/js-validation.html
看到这里

语句标识符

DOM (Document Object Model)（文档对象模型）是用于访问 HTML 元素的正式 W3C 标准

JavaScript 是 web 开发人员必须学习的 3 门语言中的一门：
HTML 定义了网页的内容
CSS 描述了网页的布局
JavaScript 控制了网页的行为

https://www.runoob.com/css3/css3-borders.html
看到这里

https://www.runoob.com/css/css-display-visibility.html
块级和内连元素的区别

20210916

元素:header,h1,p 等标签

https://www.runoob.com/css/css-border.html
css边框定义

border-style属性用来定义边框的样式

CSS盒模型本质上是一个盒子，封装周围的HTML元素，它包括：边距，边框，填充，和实际内容。
盒模型允许我们在其它元素和周围元素边框之间的空间放置元素。
盒子模型(Box Model)

Margin(外边距) - 清除边框外的区域，外边距是透明的。
Border(边框) - 围绕在内边距和内容外的边框。
Padding(内边距) - 清除内容周围的区域，内边距是透明的。
Content(内容) - 盒子的内容，显示文本和图像。

a:hover - 当用户鼠标放在链接上时
链接

因此，1em的默认大小是16px。可以通过下面这个公式将像素转换为em：px/16=em

当text-align设置为"justify"，每一行被展开为宽度相等，左，右外边距是对齐（如杂志和报纸）。

一般情况下，样式表优先级如下：
（内联样式）Inline style > （内部样式）Internal style sheet >（外部样式）External style sheet > 浏览器默认样式

<head>
<link rel="stylesheet" type="text/css" href="mystyle.css">
</head>

浏览器会从文件 mystyle.css 中读到样式声明，并根据它来格式文档。

https://c.runoob.com/front-end/61/
HTML/CSS/JS 在线工具

html5没看

https://www.runoob.com/html/html-tag-name.html
HTML 标签简写及全称重点

https://www.runoob.com/html/html-quicklist.html
html标签速查手册重点

https://www.runoob.com/tags/html-urlencode.html
url编码手册重点

HTML 标签原本被设计为用于定义文档内容，如下实例：
样式表定义如何显示 HTML 元素，就像 HTML 中的字体标签和颜色属性所起的作用那样。样式通常保存在外部的 .css 文件中。我们只需要编辑一个简单的 CSS 文档就可以改变所有页面的布局和外观。

html和css的区别

xmlns 在那个范围内起作用

一些变音符号, 如尖音符 ( ̀) 和抑音符 ( ́) 。

如果希望正确地显示预留字符，我们必须在 HTML 源代码中使用字符实体（character entities

https://www.runoob.com/try/try.php?filename=tryjs_intro_style
javascript 运行案例

你需要使用源属性（src）。src 指 “source”。源属性的值是图像的 URL 地址。
alt 属性用来为图像定义一串预备的可替换的文本。

frameborder 属性用于定义iframe表示是否显示边框。
设置属性值为 “0” 移除iframe的边框:


表格由 <table> 标签来定义。每个表格均有若干行（由 <tr> 标签定义），每行被分割为若干单元格（由 <td> 标签定义）。字母 td 指表格数据（table data），即数据单元格的内容。数据单元格可以包含文本、图片、列表、段落、表单、水平线、表格等等。
<table border="1">
表格边框宽度
表格的表头使用 <th> 标签进行定义。
无序列表使用 <ul> 标签
同样，有序列表也是一列项目，列表项目使用数字进行标记。 有序列表始于 <ol> 标签。每个列表项始于 <li> 标签。
自定义列表不仅仅是一列项目，而是项目及其注释的组合。
自定义列表以 <dl> 标签开始。每个自定义列表项以 <dt> 开始。每个自定义列表项的定义以 <dd> 开始。

文本域(textarea)、下拉列表、单选框(radio-buttons)、复选框(checkboxes)

预选下拉列表:提前选好了
legend 图例标题

VS Code 安装教程参考：https://www.runoob.com/w3cnote/vscode-tutorial.html

20210902

RANDOMIZE_DOWNLOAD_DELAY 设置
https://www.cnblogs.com/nuochengze/p/13152156.html

反扒同一个页面每次请求都会生成一个随机的id放在 cookies 里面
此id 通过javascript 生成

在源代码里面找 static 静态的 javacript 代码其不在网页源代码里面
找到生成此随机id的js代码

可以打断点一步一步调试找到生成此id 的代码行然后用 javascript ide 先调试然后用
pycharm 来执行

展开代码

20210827

scrapy TypeError: No adapter found for objects of type: (None)
如果要你本地保存的话返回return 为空不允许的

20210816

框架，通俗来说，就是把相似过程的相同特征提取出来。
https://mp.weixin.qq.com/s/QxWE99BFwxz7ptNzhbn-8g
手把手教你用scrapy制作一个小程序 !（附代码）

20210813

获取当前py模块的进程号


获取父进程的pid pycharm的pid

https://blog.csdn.net/weixin_39965184/article/details/88090876
https://blog.csdn.net/qq_43295136/article/details/86239700

scrapy中item和pipeline和yield和callback用法

https://www.cnblogs.com/vawter/p/5923369.html
user_agent_list

zidbc 是 cookie的字典形式 里面是 键值对
 yield scrapy.FormRequest(
              method='get',
              url='https://www.scjuchuang.com/goods?attr=3&page=1',
              # cookies=cookie_jar,
              cookies=zidbc,
              # meta={ 'cookiejar':zidbc},
              callback=self.duqnr)
scrapy.Request  和  scrapy.FormRequest的区别
前者只能request请求
或者可以get 也可以post
cookies=xxx  这种形式  右边只能是字典形式
meta={'cookiejar':xxxx}  post 形式的时候用  其右边需要是 cookiejar的形式

cookies里面可能包含多个分量可以看成是多个键值对
要成功请求最好是全部分量都包含

第一次post登陆的时候返回的response的标头里面cookies不一定
含有值,其值可能保存在response.text具体内容里面

20210812

https://www.cnblogs.com/lijunlin-py/p/14922279.html
http://tools.bugscaner.com/cookietocookiejar/
https://blog.csdn.net/tsfy2003/article/details/106247895
https://www.jianshu.com/p/34ec8317f6af

字典和cookiejar的转换

https://www.jianshu.com/p/15278c331434
https://blog.csdn.net/levon2018/article/details/80558108
cookies字符串转字典

https://zhuanlan.zhihu.com/p/68149801
scrapy写入mysql数据库

https://www.cnblogs.com/mzct123/p/5663311.html
get-pip.py的使用

https://pan.baidu.com/s/13rIiIcpaQpO7iKexhxKoRA
get-pip.py 下载
Python get-pip.py文件

做项目时发现get-pip.py这个文件比较难下载,将此文件分享给各位需要的人!
文件来源:https://bootstrap.pypa.io/get-pip.py
如果链接打不开请至网盘自行下载:链接: https://pan.baidu.com/s/13rIiIcpaQpO7iKexhxKoRA 提取码: r2mb

模拟请求 cookies数据要完整

post请求不仅仅用于登录
其他页面请求也可以用post

20210810

多账号爬取cookies的存储和读取

https://www.cnblogs.com/thunderLL/p/7992040.html
cookies 保存

https://www.cnblogs.com/xmwd/p/scrapy_cookies_save_to_file_and_load_from_file.html
https://cloud.tencent.com/developer/article/1562088
https://mp.weixin.qq.com/s/Yvh2_V-BWkKIO5mv35Btlg
scrap cookies登陆

https://www.cnblogs.com/rwxwsblog/p/4572367.html
scrapy写入数据库

20210809

D:\合纵文件\【Python全系列】Python全系列之爬虫scrapy框架及案例\18-20爬虫课件V3.1\爬虫课件V3.1\爬虫课件\file\part04

爬虫简单流程

20210807

https://blog.csdn.net/hihell/article/details/119137580?utm_medium=distribute.pc_feed_v2.none-task-blog-yuanlijihua_tag_v1-2.pc_personrecdepth_1-utm_source=distribute.pc_feed_v2.none-task-blog-yuanlijihua_tag_v1-2.pc_personrec
免费代理ip

20210805

https://blog.csdn.net/kyle1314608/article/details/119422947
Python使用cookie 免密登录了解一下

https://github.com.cnpmjs.org/hhuayuan/process-monitor
进程监控

https://blog.csdn.net/zhaomengszu/article/details/100146408
定时执行爬虫

20210804

https://www.bilibili.com/video/av286623724/?p=5&spm_id_from=pageDriver
https://blog.csdn.net/weixin_37719937/article/details/97417842
cookies免登录

https://www.cnblogs.com/Python-XiaCaiP/p/10268524.html
貌似不起作用

https://natapp.cn/register_2
natapp 免费隧道

https://my.oschina.net/u/4264553/blog/4041192
https://blog.csdn.net/weixin_30834783/article/details/97388084
scrapy爬虫之断点续爬和多个spider同时爬取

scrapy crawl juchuangyy -s JOBDIR=crawls/juchuangyy
https://doc.scrapy.org/en/latest/topics/jobs.html?highlight=jobdir

增量爬取

lxml 合 etree的解析方式

https://zhuanlan.zhihu.com/p/34300202
多级链接跳转

反爬措施
先登陆所有账号,只要cookies不过期就可以直接爬取数据
cookies里面就包含了token用户登陆信息直接使用

同一个账号的header和cookies 要对应且是同一个页面的
params也要对应同一个页面

cookies 要使用登陆页面的cookies而不是其他页面的

账户频繁登陆会被封

https://www.jianshu.com/p/7911f90ec693
https://blog.csdn.net/sinat_41701878/article/details/80295600 重点
Scrapy随机切换用户代理User-Agent

爬虫如何先同时登陆多个账号
然后每个账号间隔着爬一页

https://www.cnblogs.com/rwxwsblog/p/4578764.html
scrapy同时运行多个实例

可用的爬虫解决方法
阿布云

查询自己的公网ip
myip.top
whoer.net/zh

20210803

ipidea\Trusted Proxies
这两个是商用的可以试用

400是一种HTTP状态码，告诉客户端它发送了一条异常请求。400页面是当用户在打开网页时，返回给用户界面带有400提示符的页面。其含义是你访问的页面域名不存在或者请求错误。主要分为两种。
1、语义有误，当前请求无法被服务器理解。除非进行修改，否则客户端不应该重复提交这个请求。
2、请求参数有误。
400的主要有两种形式：
1、bad request意思是“错误的请求"；
2、invalid hostname意思是"不存在的域名”。

https://ip.jiangxianli.com/?page=1
高可用全球免费代理IP库

https://www.scjuchuang.com/goods?attr=3&page=1
所需要的东西的明文可能没有但是其对应的英文可能有

response.json()
response.xpath()
两种方式都可以解析
https://m.imooc.com/wenda/detail/578141
javascript中 $(f u n c t i o n () 的$ 代表什么意思哈？

20210802

当找不到post请求的时候 post页面出现之后会消失的
可以把加载速度调慢,

出现需要的页面的时候点上面的红点停止

显示method

第一种方法
import scrapy 
 post_data = {
            "username": "18113225168",
            "password": "a123456",
            "vildCode": ""}
        yield scrapy.FormRequest(
            url='https://www.scjuchuang.com/api/login',
            method='post',
            meta={
                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36",
                "Cookie": "anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; [email protected]; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"
            },
            callback=self.login,
            formdata=post_data)

scrapy 利用FormRequest 实现post 模拟登陆

##############################
第二种需要数据更少的post请求登陆
import scrapy
 def parse(self, response):
        #构造post数据
        post_data = {
            "username":"18030535053",
            "userpass": "123456",
            "do": "login"
        }
        yield scrapy.FormRequest.from_response(
            response=response,
            callback=self.login,
            formdata=post_data
        )
##########################################
第二种post请求方法
import requests
import json
# 简单爬虫post请求   首先先用这种简单的方式  测试一下是否能够成功

data = {
    "username": "18113225168",
    "password": "a123456",
    "vildCode": ""}

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"}
cookies={ "Cookie":"anonymid=j3jxk555-nrn0wh; _r01_=1; _ga=GA1.2.1274811859.1497951251; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; [email protected]; depovince=BJ; jebecookies=54f5d0fd-9299-4bb4-801c-eefa4fd3012b|||||; JSESSIONID=abcI6TfWH4N4t_aWJnvdw; ick_login=4be198ce-1f9c-4eab-971d-48abfda70a50; p=0cbee3304bce1ede82a56e901916d0949; first_login_flag=1; ln_hurl=http://hdn.xnimg.cn/photos/hdn421/20171230/1635/main_JQzq_ae7b0000a8791986.jpg; t=79bdd322e760beae79c0b511b8c92a6b9; societyguester=79bdd322e760beae79c0b511b8c92a6b9; id=327550029; xnsid=2ac9a5d8; loginfrom=syshome; ch_id=10016; wp_fold=0"
}
response=requests.post('https://www.scjuchuang.com/api/login',headers=headers,cookies=cookies,data=data)
print(response.text)

https://blog.csdn.net/qq_43546676/article/details/89043445
网络爬虫—对于scrapy框架中的Request()、FormRequest()、FormRequest.from_response()做一个小结

错Missing scheme in request url: h（翻译为：请求URL中的丢失整体链接：在h开始的位置）所以需要我们将整个链接放在只有一个元素的list中，使用修改后list.append（）将一个链接完整的放置在list[0]中。

post 跳转网址

Yc:
可以登录
Yc:
代码没有写好吧
wang shi yang:
啊难道是我没设cookies 和headers
wang shi yang:
恩恩
Yc:
headers 是必须条件，不管网站有没有检查headers 都建议带上
wang shi yang:
好的

先用最简单的request方式先测试是否可以用

https://blog.csdn.net/weixin_42081389/article/details/102455273
python爬虫之scrapy 框架学习复习整理二–scrapy.Request（自己提取url再发送请求）

Yc:
看情况，网站爬多少数据会封号，还有封几天
wang shi yang:
大部分情况下  你是怎么配置的   因为你说的这个问题 我们也不清楚
Yc:
测试阶段2-3个就行了 ，具体还要根据实际情况，先用1-2个账号试试多久封一次，封一次是永久封还是封几天，还是不封账号
wang shi yang:
好的   ip地址呢
wang shi yang:
也要先测试吗
Yc:
也要测试
wang shi yang:
如果不测试的话  大部分情况下 你配置的多少
Yc:
1个账号
Yc:
最多两个
wang shi yang:
ip 呢

https://www.abuyun.com/http-proxy/products.html
ip代理厂家

Yc:
https://www.abuyun.com/http-proxy/products.html
Yc:
我一直用的都是这个ip
wang shi yang:
嗯嗯 ip 数量呢
wang shi yang:
你一般配置的多少
Yc:
没有数量限制，这个是转发请求
Yc:
就是你的http请求发送到阿布云的服务器上 阿布云的服务器再去帮你请求目标网站
wang shi yang:
这个网站相当于是代理ip的功能 对吧
wang shi yang:
明白
Yc:
是的
wang shi yang:
可以直接嵌入到scrapy里面吧
wang shi yang:
我的意思是可以直接写在scrapy里面对吧
Yc:
可以

Yc:
接入参考这里
Yc:
https://www.abuyun.com/http-proxy/dyn-manual.html

反扒策略

https://blog.csdn.net/qq_33472765/article/details/80953078
scrapy 保存

https://blog.csdn.net/weixin_30312563/article/details/95904496
https://www.cnblogs.com/dahuag/p/8902043.html
设置代理ip池

设置多用户账号很简单

随机选择用户账号密码就行了

20210730

D:\合纵文件\【Python全系列】Python全系列之爬虫scrapy框架及案例\18-20爬虫课件V3.1\爬虫课件V3.1\爬虫课件/file/part04/4.2.html
scrapy基本步骤路径

工程步骤

所有的cookies

可以用selenium更简单的实现

20210729

出现502的原因是：对用户访问请求的响应超时造成的
把timeout时间设置长一些

https://blog.csdn.net/qq_33472765/article/details/80953078
scrapy json 保存

https://blog.csdn.net/xudailong_blog/article/details/83545991
scrapy 日志保存

run_scrapy.py: error: Unrecognized output format 'txt'. Set a supported one (('json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle')) after a colon at the end of the output URI (i.e. -o/-O :) or as a file extension.

scrapy支持的文件保存方式

20210728
scrapy爬虫框架步骤
1.环境配置尤其是时间
1.post登陆
2.所爬元素xpath的获取
3.下载
4.保存

https://www.cnblogs.com/chengxuyuanaa/p/12981212.html
selector的方法
pip_lx=re.findall(r’“pa”>.*<',qt_leixi[1].extract())
selector的extract() 方法

20210727

https://blog.csdn.net/weixin_45112822/article/details/91910480
python爬虫自动登录github时获取authenticity_token，如果直接调用BeautifulSoup来找到name=authenticity_token的值是行不通的，此时会得到一个不一样的authenticity_token。所以解决办法是直接用xpath来采集路径得到authenticity_token

https://www.cnblogs.com/moyand/p/9047978.html
彻底理解cookie,session,token的使用及原理

爬虫可能遇到的问题

1.cookies需要更换的问题
2.ip地址的更换

20210726

最新scrapy官方文档
https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

Python Scrapy中文教程，Scrapy框架快速入门！
重点跑起来了
http://c.biancheng.net/view/2027.html

scrapy 官方

https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Python Scrapy中文教程，Scrapy框架快速入门！
http://c.biancheng.net/view/2027.html

Python3网络爬虫快速入门实战解析
https://blog.csdn.net/c406495762/article/details/78123502

python3爬虫入门实例_循序渐进Python3（十二）–0–爬虫框架入门实例
https://blog.csdn.net/weixin_36277530/article/details/113646722

python3爬虫重点

https://cuijiahua.com/?s=%E7%88%AC%E8%99%AB&cat=4

https://so.csdn.net/so/search?q=python3%E7%88%AC%E8%99%AB&t=blog&u=c406495762

https://blog.csdn.net/c406495762/article/details/78123502

Python3 爬虫实战教程_w3cschool
https://www.w3cschool.cn/python3/python3-sktl2pwq.html

RUI.Z
AttributeError: module 'urllib' has no attribute 'urlencode'

https://www.cnblogs.com/RUI-Z/p/8617409.html

python3关于urllib中urlopen报错问题的解决
pip3 install urllib2 ERROR: Could not find a version that satisfies the requirement urllib2 (from versions: none)

AttributeError: 'module' object has no attribute 'urlopen'

https://blog.csdn.net/pythonniu/article/details/51855035

https://www.runoob.com/html/html-examples.html html 实例
https://www.runoob.com/tags/html-reference.html
HTML 参考手册- (HTML5 标准) 各种标签
https://www.runoob.com/html/html-basic.html
这是一个链接
尖括号 href 是属性


相当于注释？

复合标签

属性和对应的值

css class 相当于别名

html 整个网页布局以及一些网页静态属性的设置
css 动态属性的设置，更加灵活
javascript 实现更高级或者说是任何功能

XML 被设计用来传输和存储数据，其焦点是数据的内容。
HTML 被设计用来显示数据，其焦点是数据的外观。

自我描述性:整个文件就是一篇文章

xml中的属性和文本

XML 属性值必须加引号

与 HTML 类似，XML 元素也可拥有属性（名称/值的对）。
在 XML 中，XML 的属性值必须加引号。
请研究下面的两个 XML 文档。第一个是错误的，第二个是正确的：

Tove
Jani

date 是名称 12/11/2007是属性值

实体引用

元素名
XML 命名规则
XML 元素必须遵循以下命名规则：

名称可以包含字母、数字以及其他的字符
名称不能以数字或者标点符号开始
名称不能以字母 xml（或者 XML、Xml 等等）开始
名称不能包含空格
可使用任何名称，没有保留的字词。

元素和属性

针对元数据的 XML 属性
有时候会向元素分配 ID 引用。这些 ID 索引可用于标识 XML 元素，它起作用的方式与 HTML 中 id 属性是一样的。这个实例向我们演示了这种情况：

Tove Jani Reminder Don't forget me this weekend! Jani Tove Re: Reminder I will not 上面的 id 属性仅仅是一个标识符，用于标识不同的便签。它并不是便签数据的组成部分。

在此我们极力向您传递的理念是：元数据（有关数据的数据）应当存储为属性，而数据本身应当存储为元素。

元数据和属性
ID索引

由于DOM“一切都是节点（everything-is-a-node）”，XML树的每个 Document、Element、Text 、Attr和Comment都是 DOM Node。

由上面例子可知， DOM 实质上是一些节点的集合。由于文档中可能包含有不同类型的信息，所以定义了几种不同类型的节点，如：Document、Element、Text、Attr 、CDATASection、ProcessingInstruction、Notation 、EntityReference、Entity、DocumentType、DocumentFragment等。

你可能感兴趣的:(xml,爬虫,python)

使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python（二）——设置文件路径：反斜杠 \ 、双反斜杠 \\和正斜杠 /的区别八年。。 python 开发语言学习
在Python中设置文件路径时，不清楚是用双反斜杠\\、反斜杠\还是正斜杠/时，一句话，使用正斜杠/！！！！下面对这三者进行详细介绍及区分：1.双反斜杠\\含义：在编程语言（如Python、C++等）中，反斜杠\是转义字符，用来表示特殊字符（如\n表示换行，\t表示制表符）。为了表示真正的反斜杠，必须使用双反斜杠\\。其实在Python中，第一个\用于转义，告诉Python后面的\是普通的反斜杠字
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
python中常用排序操作——sort方法和sorted函数的使用，超详细，内置模板代码！！! 盲敲代码的阿豪 python实用知识点 python sorted sort 排序
文章目录前言1、sort()方法的使用1.1基础操作1.2操作进阶（自定义排序的对象）2、sorted()函数的使用2.1基础操作2.2操作进行（自定义排序的对象）3、扩展：排序案例模板代码前言在Python中，排序的方法有多种，其中最常用的是使用内置的sort()方法和sorted()函数，接下来我将通过各种案例带领大家轻松学会这两种方法，同时还会扩展一些实用的排序案例模板代码。1、sort()
C++: Dtrees:load(constg String& filepath, const String& nodeName)中nodeName参数含义湫兮之风 c++c++开发语言算法
1.nodeName的作用当你保存模型时，整个决策树会被序列化到一个XML或YAML文件中。nodeName是加载时指定的一个逻辑路径，用于从文件中找到某个节点或子结构，而不是存储在文件中的字段。如果你不指定nodeName，OpenCV默认会尝试加载文件中根节点对应的模型。2.默认的行为如果你不指定nodeName，通常会加载文件的根节点：Ptrtree=cv::ml::DTrees::load
成功解决error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No su 哎呦，帅小伙哦安装
安装了python2.7，第一次执行时报错：errorwhileloadingsharedlibraries:libpython2.7.so.1.0:cannotopensharedobjectfile:Nosuchfileordirectory解决方法如下：1.编辑vi/etc/ld.so.conf如果是非root权限帐号登录，使用sudovi/etc/ld.so.conf添加上python2.
python爬虫——pandas的简单使用张謹礧 python爬虫+可视化 python网络爬虫 python pandas 爬虫
pandas作为爬虫中最重要的包之一，我们要想学好爬虫，就必须要深入了解pandas直接上代码importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],#如果不写列索引默认为0，1，2，3columns=['a','b','c','d'])print(d
Redis实战之Jedis使用技巧详解小马不敲代码实战 redis 缓存
一、前言基于redis开放的通信协议，大神们纷纷开发了各种语言的redis客户端，有c、c++、java、python、php、nodeJs等等开发语言的客户端，准确来说其实这些客户端都是基于redis命令做了一层封装，然后打包成工具以便大家更佳方便的操作redis，以Java项目为例，使用最广的就是以下三种客户端：JedisLettuceRedisson二、JedisJedis是老牌的Redis
python venv文件夹_Python虚拟环境Venv weixin_39640911 python venv文件夹
当你的项目比较复杂，对模块版本要求不一时，不需要安装多个Python，只需要配置虚拟环境即可。提起虚拟环境，很多人都会想到Virtualenv，实际上从Python3.3版本开始内置了Venv模块用以建立轻量级的虚拟环境。Venv的用法和机制和Virtualenv非常相似，当你的项目只需要Python3.4或以上版本时，Venv完全可以替代Virtualenv。我这里的演示环境为Win10，使用的
python selenium安装步骤_Python：Selenium+Webdriver安装 weixin_39619893 python selenium安装步骤
本人小白一枚，今天在使用selenium+webdriver的时候遇到了一个小问题：WebDriverException:'chromedriver'executableneedstobeinPATH.Pleaseseehttps://sites.google.com/a/chromium.org/chromedriver/home在debug过程中，也去baidu上查询了，很多说法，但是有些是行
python selenium canvas_selenium webdriver 实现Canvas画布自动化测试我不勇敢 python selenium canvas
https://blog.csdn.net/xiaoguanyusb/article/details/80324210由借鉴意义,转过来canvas是一个画布，定位元素时只能定位到画布上，如下乳所示，网页上有一张类似于下图的eChart报表图片。selenium的基本定位方式只能定位到该画布上，画布上的子元素通过selenium的基础定位方式是定位不到的，此时就需要使用selenium的js注入的
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
使用VUE的axios解决调用百度地图api的跨域访问问题知忆_IS vue html npm javascript chrome
在构建一个vue前后端分离的项目时候，需要用到百度地图提供的web服务，但是在使用axios方式发送get请求的时候，web页面不显示相应结果，在Google中按F12进入开发者模式之后，发现提示如下：XMLHttpRequestcannotloadOriginhttp://localhost:8080isnotallowedbyAccess-Control-Allow-Origin.根据网上的搜
Windows下使用venv创建python虚拟环境 Mr.Justice(JYZN) 深度学习 Python基础
Windows下使用venv创建python虚拟环境(这里使用的是win10进行，其他Windows版本创建方法相同)必须是python3.x以上版本才有自带的venv包，本方法均是使用venv包下面的相关命令进行创建，这里的虚拟环境名称为“test”，所以都可以修改为自己的环境名称创建文件夹，切换当前目录mkdirtest#创建存放虚拟环境的文件夹cdtest#切换到创建的文件夹内创建虚拟环境p
embed版Python如何安装第三方包 peanutwang python 开发语言
embed版本相当于一个纯Python运行环境，解压之后在命令行就可以Python.exexxx.py。但是涉及到使用第三方包的情况，还是需要安装的。以下是安装方法（整个过程无需配置环境变量）：1.解压python-3.8.10-embed-amd642.配置包导入搜索路径默认的包导入搜索路径由根目录内pythonXX._pth，打开它把它前面的#注释去掉#importsite3.配置pip国内源
用Python实现概率语言模型（2-元语法模型） peanutwang python 语言模型
首先构造一个语料库，由6句话组成，每句话3个字。corpus='她很香她很菜她很好他很菜他很好菜很好'.split()构造一个字典，存储一元的字数Count1={}遍历语料库，把每个字出现的次数存储在字典中。forsentenceincorpus:forwordinsentence:ifwordinCount1:Count1[word]+=1#如果word在字典中存在else:Count1[wor
轻松检测麦克风功能：使用Python的sounddevice和soundfile库 dongab_9 #脚本工具 1024程序员节 python
轻松检测麦克风功能在进行音频处理或开发需要使用麦克风的应用程序时，确保麦克风功能正常是非常重要的。本文将介绍一个简单的Python脚本，它能够帮助我们检测本地麦克风的功能，确保我们的设备能够正常录音。文章目录轻松检测麦克风功能脚本介绍一、Python环境准备二、代码解析三、使用方法脚本介绍下面是一个名为sound_check.py的Python脚本，它使用sounddevice库来检测和测试麦克风
在VS-Code配置Anaconda环境 m0_47563195 配置 python conda 编辑器
准备工作：一台没有安装Python，Anaconda及VS-Code的window10系统的电脑第一步：安装Anaconda由于在官网下载安装包比较慢，所以可以选择在清华大学开源软件镜像站进行下载（Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror），具体安装过程及环境配置可参考文章Anaconda环境与Python的配置方
mac环境下安装webdriver/selenium/python hp15 mac python mac webdriver selenium
1、安装python3.9https://www.python.org/downloads/2、添加环境变量cd~vim.bash_profile3、.bash_profile添加如下内容：PATH="/Library/Frameworks/Python.framework/Versions/3.9/bin:${PATH}"exportPATHaliaspython="/Library/Frame
chatgpt赋能python：Python创建虚拟环境venv-环境隔离的必备工具 a058046 ChatGpt python chatgpt 人工智能计算机
Python创建虚拟环境venv-环境隔离的必备工具Python是一种非常流行的编程语言，拥有丰富的第三方库和工具。当我们在开发一个项目时，我们可能需要使用多个Python版本或多个第三方库版本来满足项目的需求。这时候，我们就需要一个工具来管理Python的环境隔离。venv就是Python自带的虚拟环境工具，它可以让我们轻松地创建一个Python环境隔离，以便于我们管理我们的Python环境。什
创建 Python 虚拟环境venv bdawn python python 开发语言虚拟环境 venv pip activate 3.3
创建Python虚拟环境是一个很好的实践，可以帮助我们管理项目的依赖项，避免不同项目之间的冲突。以下是使用venv模块创建Python虚拟环境的详细步骤：使用venv模块创建虚拟环境venv是Python自带的模块，从Python3.3开始可用。以下是具体步骤：1.创建虚拟环境假设你要在当前目录下创建一个名为myenv的虚拟环境，可以使用以下命令：python-mvenvmyenvpython：确
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
【Python】深入探讨Python中的单例模式：元类与装饰器实现方式分析与代码示例蒙娜丽宁 Python杂谈 python 单例模式开发语言
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界单例模式（SingletonPattern）是一种常见的设计模式，它确保一个类只有一个实例，并提供一个全局访问点。在Python中，实现单例模式的方式多种多样，包括基于装饰器、元类和模块级别的单例实现。本文将详细探讨这些实现方式，并通过大量代码示例进行演
Python的Tkinter模块 Cc_zhH GUI开发 python
大纲Tkinte组件在Python的Tkinter模块中，有许多组件可用于构建图形用户界面。下面是一些常用的Tkinter组件，并将它们以表格形式展示，同时提供简要的说明。组件名称描述用途Tk主窗口类，用于创建应用程序的主窗口。创建应用程序的主界面。Frame容器组件，用于组织其他组件。组织界面布局，将相关组件组合在一起。Button按钮组件，用于触发事件。创建用户交互的按钮。Label标签组件，
Python编程练习题及解析（49题） Selina .a python教程 python 开发语言算法
1.打印Hello,World!题目：打印字符串"Hello,World!"。解析：print("Hello,World!")2.计算两个数的和题目：计算两个数a和b的和。解析：a=5b=3print(a+b)3.判断奇偶性题目：判断一个数是否为偶数。解析：num=4ifnum%2==0:print(f"{num}是偶数")else:print(f"{num}是奇数")4.列表反转题目：反转一个列
lxml.etree模式使用(一) 卫生纸不够用 python爬虫 python 前端 javascript
fromlxmlimportetreefromcopyimportdeepcopydefprettyprint(element,**kwargs):print("/")xml=etree.tostring(element,pretty_print=True,**kwargs)print(xml.decode(),end='')#1.创建元素root=etree.Element("root")#2.
python etree模块所有函数详解_09.XML处理之etree模块 weixin_39878401 python etree模块所有函数详解
本主题主要说明python的xml处理标准模块xml.etree的使用。xml.etree模块包含4个子模块，其中cElementTree是ElementTree的别名，已经不推荐使用。本主题主要包含内容：1.ElementInclude模块使用2.ElementPath模块使用3.ElementTree模块使用一、etree模块帮助importxml.etreehelp(xml.etree)He
自动化办公python脚本_Python自动化办公 weixin_39834281 自动化办公python脚本
在公司购买的OA系统上，很多功能都是软件商开发好的，如果有什么自定义的需求，也很难实现。现实情况下需要将一个工单的各类信息汇总整理为一份Excel，看似简单的需求，却需要在OA系统上反复点击多次，人工汇总。本章我们看看如何使用Python爬虫帮同事解决这个问题的。点击工单号之后才可以看到更多信息一、技术路线requests_html二、环境准备fromrequests_htmlimportHTML
mybatis架构原理章绍龙 java基础
1、mybatis配置SqlMapConfig.xml，此文件作为mybatis的全局配置文件，配置了mybatis的运行环境等信息。mapper.xml文件即sql映射文件，文件中配置了操作数据库的sql语句。此文件需要在SqlMapConfig.xml中加载。SqlMapConfig.xml是mybatis的核心文件。mybatis将dao层与sql语句分离开来，虽然写的时候分离开来了，但是执
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio