- Python学习之路-爬虫提高:scrapy基础
geobuins
python学习爬虫
Python学习之路-爬虫提高:scrapy基础为什么要学习scrapy通过前面的学习,我们已经能够解决90%的爬虫问题了,那么scrapy是为了解决剩下的10%的问题么,不是,scrapy框架能够让我们的爬虫效率更高什么是scrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取。Scrapy使用了Twisted['twɪstɪd]
- Python学习之路-爬虫提高:scrapy使用
geobuins
python学习爬虫
Python学习之路-爬虫提高:scrapy使用scrapy项目实现流程创建一个scrapy项目:scrapystartprojectmySpider生成一个爬虫:scrapygenspideritcast"itcast.cn提取数据:完善spider,使用xpath等方法保存数据:pipeline中保存数据创建scrapy项目下面以抓取传智师资库来学习scrapy的入门使用:http://www
- Python学习之路-爬虫提高:常见的反爬手段和解决思路
geobuins
python学习爬虫
Python学习之路-爬虫提高:常见的反爬手段和解决思路常见的反爬手段和解决思路明确反反爬的主要思路反反爬的主要思路就是:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。很多时候,爬虫中携带的headers字段,cookie字段,url参数,post的参数很多,
- Python学习之路-爬虫提高:selenium
geobuins
python学习爬虫
Python学习之路-爬虫提高:selenium什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏PhantomJS的介绍PhantomJS是一个基于Webkit的“无界面”(h
- Python学习之路-初识爬虫:基础知识
geobuins
jmeter
Python学习之路-初识爬虫:基础知识什么是爬虫网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做用途如今,人工智能,大数据离我们越来越近,很多公司在开展相关的业务,但是人工智能和大数据中有一个东西非常重要,那就是数据,但是数据从哪里来呢?这时候爬虫的用途就凸显出
- Python学习之路-初识爬虫:数据提取
geobuins
python学习爬虫
Python学习之路-初识爬虫:数据提取什么是数据提取简单的来说,数据提取就是从响应中获取我们想要的数据的过程爬虫中数据的分类结构化数据:json,xml等处理方式:直接转化为python类型非结构化数据:HTML处理方式:正则表达式、xpath数据提取之json为什么要复习json由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽
- Python学习之路-初识爬虫:requests
geobuins
python学习爬虫
Python学习之路-初识爬虫:requestsrequests的作用作用:发送网络请求,返回响应数据中文文档:http://docs.python-requests.org/zh_CN/latest/index.html为什么学requests而不是urllibrequests的底层实现就是urllibrequests在python2和python3中通用,方法完全一样requests简单易用R
- Python学习之路-Tornado基础:部署
geobuins
python学习tornado
Python学习之路-Tornado基础:部署部署Tornado简介为了充分利用多核CPU,并且为了减少同步代码中的阻塞影响,在部署Tornado的时候需要开启多个进程(最好为每个CPU核心开启一个进程)因为Tornado自带的服务器性能很高,所以我们只需开启多个Tornado进程。为了对外有统一的接口,并且可以分发用户的请求到不同的Tornado进程上,我们用Nginx来进行代理。supervi
- Python学习之路-Tornado基础:异步与WebSocket
geobuins
python学习tornado
Python学习之路-Tornado基础:异步与WebSocket认识异步同步我们用两个函数来模拟两个客户端请求,并依次进行处理:#coding:utf-8defreq_a():"""模拟请求a"""print('开始处理请求req_a')print('完成处理请求req_a')defreq_b():"""模拟请求b"""print('开始处理请求req_b')print('完成处理请求req_b
- Python学习之路-Flask项目:博客后台
geobuins
python学习flask
Python学习之路-Flask项目:博客后台前言上一篇完成了博客前台的相关内容,接下来进行博客后台的相关开发。管理员登录需求分析管理员用户进行登录,并且根据不同的情况报出不同的错误信息,如果当前已登录用户是管理员,在访问登录页面时直接跳转到后台管理主页。登录界面可以直接使用Form表单提交(也可以采用ajax的方式)代码准备在templates目录下创建admin文件夹,将static/admi
- Python学习之路-Flask项目:项目部署
geobuins
python学习flask
Python学习之路-Flask项目:项目部署部署环境基于MacOS10.15.4系统,使用Gunicorn+Nginx进行布署,云服务器为阿里云服务器选择阿里云服务器地址个人免费试用进入控制台,查看实例创建情况给安全组配置规则,添加5000端口(一并加上5001端口)利用命令行进行远程服务器登录ssh用户名@ip地址相关环境安装以下操作都在远程服务器上进行操作先更新apt相关源sudoapt-g
- Python学习之路-Django基础:工程搭建
geobuins
python学习django
Python学习之路-Django基础:工程搭建环境安装创建虚拟环境mkvirtualenvdjango_1.11.10-ppython3安装Django使用Django1.11.10版本pipinstalldjango==1.11.10创建工程在使用Flask框架时,项目工程目录的组织与创建是需要我们自己手动创建完成的。在django中,项目工程目录可以借助django提供的命令帮助我们创建。创
- Python学习之路-Tornado基础:数据库
geobuins
python学习tornado
Python学习之路-Tornado基础:数据库简介与Django框架相比,Tornado没有自带ORM,对于数据库需要自己去适配。我们使用MySQL数据库。在Tornado3.0版本以前提供tornado.database模块用来操作MySQL数据库,而从3.0版本开始,此模块就被独立出来,作为torndb包单独提供。torndb只是对MySQLdb的简单封装,不支持Python3。连接初始化我
- Python学习之路-Tornado基础:安全应用
geobuins
python学习tornado
Python学习之路-Tornado基础:安全应用Cookie对于RequestHandler,除了在初始Tornado中讲到的之外,还提供了操作cookie的方法。设置set_cookie(name,value,domain=None,expires=None,path=‘/’,expires_days=None)参数说明:参数名说明namecookie名valuecookie值domain提交
- Python学习之路002-小插曲之变量和字符串
阿花去哪里啦
注:内容源于学习小甲鱼《零基础入门学Python》,这些都是我自己写的作业,学习地址:https://www.bilibili.com/video/BV1Fs411A7HZ?p=20.以下哪个变量的命名不正确?为什么?(A)MM_520(B)_MM520_(C)520_MM(D)_520_MMA:C不正确,变量不能以数字开头1.在不上机的情况下,以下代码你能猜到屏幕会打印什么内容吗?>>>myte
- Python学习之路-Django基础:类视图与中间件
geobuins
python学习django
Python学习之路-Django基础:类视图与中间件类视图引入以函数的方式定义的视图称为函数视图,函数视图便于理解。但是遇到一个视图对应的路径提供了多种不同HTTP请求方式的支持时,便需要在一个函数中编写不同的业务逻辑,代码可读性与复用性都不佳。defregister(request):"""处理注册"""#获取请求方法,判断是GET/POST请求ifrequest.method=='GET':
- Python学习之路-Django基础:请求与响应
geobuins
python学习django
Python学习之路-Django基础:请求与响应请求简介回想一下,利用HTTP协议向服务器传参有几种途径?提取URL的特定部分,如/weather/beijing/2018,可以在服务器端的路由中用正则表达式截取;查询字符串(querystring),形如key1=value1&key2=value2;请求体(body)中发送的数据,比如表单数据、json、xml;在http报文的头(heade
- Python学习之路-数据库入门
geobuins
python学习数据库
Python学习之路-数据库入门简介数据库就是一种特殊的文件,其中存储着需要的数据。类型当前主要使用两种类型的数据库:关系型数据库、非关系型数据库,本篇主要讨论关系型数据库,对于非关系型数据库会在后面学习。所谓的关系型数据库RDBMS,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。关系型数据库的主要产品:oracle:在以前的大型项目中使用,银行,电信等项目m
- Python学习之路-Python操作MySQL
geobuins
python学习mysql
Python学习之路-Python操作MySQL简介PyMySQLPyMySQL是在Python3.x版本中用于连接MySQL服务器的一个库,PyMySQL遵循Python数据库APIv2.0规范,并包含了pure-PythonMySQL客户端库。安装pipinstallpymsql连接通过Connection对象与数据库建立连接frompymysqlimportconnectconn=conne
- Python学习之路-MySQL进阶
geobuins
python学习mysql
Python学习之路-MySQL进阶视图前言对于复杂的查询,往往是有多个数据表进行关联查询而得到,如果数据库因为需求等原因发生了改变,为了保证查询出来的数据与之前相同,则需要在多个地方进行修改,维护起来非常麻烦。可以通过定义视图来解决简介通俗的讲,视图就是一条SELECT语句执行后返回的结果集。所以我们在创建视图的时候,主要的工作就落在创建这条SQL查询语句上。视图是对若干张基本表的引用,一张虚表
- Python学习之路-正则表达式
geobuins
python学习正则表达式
Python学习之路-正则表达式简介正则表达式是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。RE模块在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用一个模块:re语法#导入re模块importre#使用match方法进行匹配操作result=re.match("
- Python学习之路——异常捕获
墨白001
Python零基础学习之路学习python开发语言
一、什么是异常当检测到一个错误时,Python解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的“异常”,也就是bug二、异常的捕获方法当我们的程序遇到bug,那么就下来有两种情况①整个程序因为一个bug停止运行②对bug进行提示,整个程序继续运行捕获异常的作用在于:提前假设某处会出现异常,做好提前准备,当真的出现异常的时候,可以有后续手段。1、捕获常规异常(一)基本语法try:可能发
- Python学习之路-注释
geobuins
学习
Python学习之路-注释将注释放在Python语法前面足以提现它的重要性。注释的作用一个好的程序中注释是不可缺失的一环。在程序中对某些代码进行标注说明,可以增强程序的可读性。在团队协同开发中,良好的注释可以提高开发效率。什么时候需要使用注释?注释不是越多越好,对于一目了然的代码,不需要添加注释对于复杂的操作,应该在操作开始前写上思路的注释对于不是一目了然的代码,应在其行尾添加注释(为了提高可读性
- Python学习之路-语法
geobuins
python学习开发语言
Python学习之路-语法简介Python的设计目标之一是让代码具备高度的可阅读性。在设计时尽量使用经常使用的标点符号和英文单字,让代码看起来整洁美观。缩进在Python中缩进表示语句块的开始和结束,作用等同于Java、Go中的大括号。增加缩进表示语句块的开始,而减少缩进则表示语句块的结束。缩进成为了语法的一部分,违反了“缩进规则”的程序不能通过解释器解释。{{}}根据PEP8的规定,使用4个空格
- Python学习之路-常量与变量
geobuins
python学习开发语言
Python学习之路-常量与变量程序就是用来处理数据的,而常量和变量就是最简单用来存储数据的常量定义声明在文件的顶部命名规范全部大写单词间用下划线分隔变量定义变量在使用前都必须要要进行赋值,只有被赋值后变量才会被创建命名规范一般情况当变量名需要由二个或多个单词组成时,每个单词都使用小写字母单词与单词之间使用_下划线连接驼峰命名法当变量名是由二个或多个单词组成时,还可以利用驼峰命名法来命名小驼峰式命
- Python学习之路-运算符
geobuins
学习
Python学习之路-运算符简介上一篇讲到Python中的语句提到很多运算符,本篇来总结一下各类运算符的作用与用法。算数运算符运算符描述实例+加1+1=2-减1-1=0*乘1*1=1**幂次方2**3=8/除2/1=2//取整5//2=2%取余5%2=1{{}}在Python中*运算符还可以用于字符串,计算结果就是字符串重复指定次数的结果{{}}比较运算符运算符描述==比较两个数据的值是否相等,如
- Python学习之路——文件部分【书接上回】
墨白001
Python零基础学习之路学习python开发语言
一、书接上回上个博客我说过,为什么最开始的时候一定要将文件内的中文的逗号替换为英文的逗号,接下来,请看(其实想一想,感觉没必要,不过也是好的,总要练练手的嘛)deffunc03(str):#先拿到文件的内容fr=open(str,'r',encoding='utf-8')fr_content=fr.read()print(fr_content)fr_now_content=fr_content.r
- Python学习之路——文件操作【综合案例】
墨白001
Python零基础学习之路学习python开发语言
创建employeeData文件,文件内容包含现要求如下:对正式工以及实习生的信息分别创建文件和intern进行备份具体操作如下:由于文档内存在中文的逗号,先将其替换为英文的逗号deffunc01(str):fr=open(str,'r',encoding='utf-8')file_str=fr.read()print(file_str)new_file_str=file_str.replace(
- Python学习之路——数据容器部分【列表(list)】
墨白001
Python零基础学习之路学习python开发语言
一、什么是数据容器呢(一)分类二、列表(一)定义(二)嵌套列表的定义(三)列表的下表索引(四)反向列表(五)嵌套列表(六)列表的常用操作1、方法总览(七)遍历列表1、while循环和for循环的区别2、练习案例三、总的来说一、什么是数据容器呢一种可以容纳多份数据的数据容器,容纳的每一份数据称之为一个元素,每一个元素,可以是任意类型的数据,如:字符串,数字,布尔等等。(一)分类数据容器根据特点的不同
- Python学习之路——数据容器部分【字典(dict)】
墨白001
Python零基础学习之路python学习开发语言
目录一、定义(一)代码示例二、字典数据的获取三、嵌套字典的定义(一)需求(二)框架(三)代码四、字典的常用操作(一)功能总览(二)代码示例(三)练习案例1、创建商品信息字典2、遍历判断是否符合条件3、整体代码五、总的来说(一)字典的创建:(二)字典的访问:(三)字典的修改:(四)字典的遍历:一、定义Python字典是一种键值对集合,用于存储和检索数据。他是一个无序的键值对集合,其中键是唯一的,值可
- java杨辉三角
3213213333332132
java基础
package com.algorithm;
/**
* @Description 杨辉三角
* @author FuJianyong
* 2015-1-22上午10:10:59
*/
public class YangHui {
public static void main(String[] args) {
//初始化二维数组长度
int[][] y
- 《大话重构》之大布局的辛酸历史
白糖_
重构
《大话重构》中提到“大布局你伤不起”,如果企图重构一个陈旧的大型系统是有非常大的风险,重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”,下面我就分享这个“大布局”项目经验给大家。
背景
公司专注于企业级管理产品软件,企业有大中小之分,在2000年初公司用JSP/Servlet开发了一套针对中
- 电驴链接在线视频播放源码
dubinwei
源码电驴播放器视频ed2k
本项目是个搜索电驴(ed2k)链接的应用,借助于磁力视频播放器(官网:
http://loveandroid.duapp.com/ 开放平台),可以实现在线播放视频,也可以用迅雷或者其他下载工具下载。
项目源码:
http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。
项目源码依赖于两个库项目,库项目一链接:
http://git.oschina.
- Javascript中函数的toString()方法
周凡杨
JavaScriptjstoStringfunctionobject
简述
The toString() method returns a string representing the source code of the function.
简译之,Javascript的toString()方法返回一个代表函数源代码的字符串。
句法
function.
- struts处理自定义异常
g21121
struts
很多时候我们会用到自定义异常来表示特定的错误情况,自定义异常比较简单,只要分清是运行时异常还是非运行时异常即可,运行时异常不需要捕获,继承自RuntimeException,是由容器自己抛出,例如空指针异常。
非运行时异常继承自Exception,在抛出后需要捕获,例如文件未找到异常。
此处我们用的是非运行时异常,首先定义一个异常LoginException:
/**
* 类描述:登录相
- Linux中find常见用法示例
510888780
linux
Linux中find常见用法示例
·find path -option [ -print ] [ -exec -ok command ] {} \;
find命令的参数;
- SpringMVC的各种参数绑定方式
Harry642
springMVC绑定表单
1. 基本数据类型(以int为例,其他类似):
Controller代码:
@RequestMapping("saysth.do")
public void test(int count) {
}
表单代码:
<form action="saysth.do" method="post&q
- Java 获取Oracle ROWID
aijuans
javaoracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row.
The oracle.sql.ROWID class i
- java获取方法的参数名
antlove
javajdkparametermethodreflect
reflect.ClassInformationUtil.java
package reflect;
import javassist.ClassPool;
import javassist.CtClass;
import javassist.CtMethod;
import javassist.Modifier;
import javassist.bytecode.CodeAtt
- JAVA正则表达式匹配 查找 替换 提取操作
百合不是茶
java正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split();
String str;
str.split();方法中传入按照什么规则截取,返回一个String数组
常见的截取规则:
str.split("\\.")按照.来截取
str.
- Java中equals()与hashCode()方法详解
bijian1013
javasetequals()hashCode()
一.equals()方法详解
equals()方法在object类中定义如下:
public boolean equals(Object obj) {
return (this == obj);
}
很明显是对两个对象的地址值进行的比较(即比较引用是否相同)。但是我们知道,String 、Math、I
- 精通Oracle10编程SQL(4)使用SQL语句
bijian1013
oracle数据库plsql
--工资级别表
create table SALGRADE
(
GRADE NUMBER(10),
LOSAL NUMBER(10,2),
HISAL NUMBER(10,2)
)
insert into SALGRADE values(1,0,100);
insert into SALGRADE values(2,100,200);
inser
- 【Nginx二】Nginx作为静态文件HTTP服务器
bit1129
HTTP服务器
Nginx作为静态文件HTTP服务器
在本地系统中创建/data/www目录,存放html文件(包括index.html)
创建/data/images目录,存放imags图片
在主配置文件中添加http指令
http {
server {
listen 80;
server_name
- kafka获得最新partition offset
blackproof
kafkapartitionoffset最新
kafka获得partition下标,需要用到kafka的simpleconsumer
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.
- centos 7安装docker两种方式
ronin47
第一种是采用yum 方式
yum install -y docker
 
- java-60-在O(1)时间删除链表结点
bylijinnan
java
public class DeleteNode_O1_Time {
/**
* Q 60 在O(1)时间删除链表结点
* 给定链表的头指针和一个结点指针(!!),在O(1)时间删除该结点
*
* Assume the list is:
* head->...->nodeToDelete->mNode->nNode->..
- nginx利用proxy_cache来缓存文件
cfyme
cache
user zhangy users;
worker_processes 10;
error_log /var/vlogs/nginx_error.log crit;
pid /var/vlogs/nginx.pid;
#Specifies the value for ma
- [JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题
comsci
嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式,直接在方程式之前添加负号是不正确的,而必须这样做:
string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))"
定义一个0整数c,然后用这个整数c去
- 如何集成支付宝官方文档
dai_lm
android
官方文档下载地址
https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash
集成的必要条件
1. 需要有自己的Server接收支付宝的消息
2. 需要先制作app,然后提交支付宝审核,通过后才能集成
调试的时候估计会真的扣款,请注意
- 应该在什么时候使用Hadoop
datamachine
hadoop
原帖地址:http://blog.chinaunix.net/uid-301743-id-3925358.html
存档,某些观点与我不谋而合,过度技术化不可取,且hadoop并非万能。
--------------------------------------------万能的分割线--------------------------------
有人问我,“你在大数据和Hado
- 在GridView中对于有外键的字段使用关联模型进行搜索和排序
dcj3sjt126com
yii
在GridView中使用关联模型进行搜索和排序
首先我们有两个模型它们直接有关联:
class Author extends CActiveRecord {
...
}
class Post extends CActiveRecord {
...
function relations() {
return array(
'
- 使用NSString 的格式化大全
dcj3sjt126com
Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
- 使用activeX插件对象object滚动有重影
蕃薯耀
activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
- SpringMVC4零配置
hanqunfeng
springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式,实现零xml配置,弄了个小demo,供交流讨论。
项目说明如下:
1.db.sql是项目中用到的表,数据库使用的是oracle11g
2.该项目使用mvn进行管理,私服为自搭建nexus,项目只用到一个第三方 jar,就是oracle的驱动;
3.默认项目为零配置启动,如果需要更改启动方式,请
- 《开源框架那点事儿16》:缓存相关代码的演变
j2eetop
开源框架
问题引入
上次我参与某个大型项目的优化工作,由于系统要求有比较高的TPS,因此就免不了要使用缓冲。
该项目中用的缓冲比较多,有MemCache,有Redis,有的还需要提供二级缓冲,也就是说应用服务器这层也可以设置一些缓冲。
当然去看相关实现代代码的时候,大致是下面的样子。
[java]
view plain
copy
print
?
public vo
- AngularJS浅析
kvhur
JavaScript
概念
AngularJS is a structural framework for dynamic web apps.
了解更多详情请见原文链接:http://www.gbtags.com/gb/share/5726.htm
Directive
扩展html,给html添加声明语句,以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称,ng是angular的命名空间
- 架构师之jdk的bug排查(一)---------------split的点号陷阱
nannan408
split
1.前言.
jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug.
2.代码
String[] paths = "object.object2.prop11".split("'");
System.ou
- 如何对10亿数据量级的mongoDB作高效的全表扫描
quentinXXZ
mongodb
本文链接:
http://quentinXXZ.iteye.com/blog/2149440
一、正常情况下,不应该有这种需求
首先,大家应该有个概念,标题中的这个问题,在大多情况下是一个伪命题,不应该被提出来。要知道,对于一般较大数据量的数据库,全表查询,这种操作一般情况下是不应该出现的,在做正常查询的时候,如果是范围查询,你至少应该要加上limit。
说一下,
- C语言算法之水仙花数
qiufeihu
c算法
/**
* 水仙花数
*/
#include <stdio.h>
#define N 10
int main()
{
int x,y,z;
for(x=1;x<=N;x++)
for(y=0;y<=N;y++)
for(z=0;z<=N;z++)
if(x*100+y*10+z == x*x*x
- JSP指令
wyzuomumu
jsp
jsp指令的一般语法格式: <%@ 指令名 属性 =”值 ” %>
常用的三种指令: page,include,taglib
page指令语法形式: <%@ page 属性 1=”值 1” 属性 2=”值 2”%>
include指令语法形式: <%@include file=”relative url”%> (jsp可以通过 include