importurllib.request#python3中用urllib.request代替urllib2importreresponse=urllib.request.urlopen("http://jandan.net/ooxx")html=response.read().decode('utf-8')#decode:解码,转换成Unicode编码p=r'
python项目之 爬虫爬取煎蛋jandan的妹子图-下
小六工作室
python项目爬虫项目
python项目之爬虫爬取煎蛋jandan的妹子图-下函数如下读取全部单个txt组合成一个TXT文件,并把网址保存在all_imag_urls中read_write_txt_to_main()读取单个TXT件的网址get_url()每一个图片保存在本地get_imags(all_imag_urls)最终结果如下源码如下#coding:utf-8###########################
Python爬取煎蛋网图片
草原内片绿
Python
看到网上一篇很有意思的文章说爬虫与反爬虫就是套路与反套路,初学爬虫,好像确实有这么点体会。因个人工作需要,想从网上爬一些美女图片当配图,于是搜到了煎蛋网。最早煎蛋网url采用页数命名,类似于http://jandan.net/ooxx/page-9#comments,能够直接进行推测,后来改成了某种规则生成的随机码,类似于http://jandan.net/ooxx/MjAyMDA0MjAtMTk
爬取某网站图片
hello_world!
自动化测试
这里爬取的目标为jiandan网上的用户分享的随手拍的图片,链接为:http://jandan.net/ooxx首先,经分析后发现该板块的图片是异步加载的,通过requests库难以获取。因此,利用selenium动态获取目标内容的源代码,再用BeautifulSoup库解析保存即可。1、首先打开目标链接,煎蛋分析下网站,然后决定用什么方式去获取内容禁止加载JavaScript后,图片则无法显示,
python项目之 爬虫爬取煎蛋jandan的妹子图-上
小六工作室
python项目爬虫项目
python项目之爬虫爬取煎蛋jandan的妹子图-上抓取妹子图练练手。网页url格式http://jandan.net/ooxx/page-1777#comment只需改变页码1777即可分析页面源码发现妹子图有两个一个是缩略图另一个是原图[查看原图]这里我们抓取原图,使用class和target这个属性查找。最终得到每一页的TXT文件,下篇是文件合并与图片存取。源码如下代理ip文件请自行查找:
细菌硬盘:永久将数据储存在活体细胞中
kxmhwc
姓名:韩文畅学号:14020199001转载自:http://jandan.net/2016/06/12/bacteria-store-data.html,有删节。【嵌牛导读】:哈佛大学的科学家们利用CRISPR基因编辑工具,已研发出一种能永久将数据储存在活体细胞中的技术。更令人难以置信的是,被刻在这些微生物中的信息能够传递给微生物的下一代。【嵌牛鼻子】:细菌、基因、数据储存【嵌牛提问】:将数据储
python学习笔记之模块爬虫实战-爬取网站图片(十四)
达摩院扫地僧
python
背景说明爬取煎蛋网中随手拍栏目中的某页的所有图片实战分析先打开煎蛋网站中的“随手拍”,链接为:http://jandan.net/ooxx/MjAyMDA1MTctMTc1#comments按F12打开开发者工具,然后在图片上点击“检查”,可看到图片的链接找到这些图片的链接,然后保存即可代码实现download_images方法创建保存图片的文件夹,再调用find_images找到图片的地址,再用
scrapy 爬取图片并保存
破法者之终结
scrapy学习笔记
爬取煎蛋网(http://jandan.net)的图片jiandanSpider.pyimportscrapyfromjiandan.itemsimportJiandanItemfromscrapy.crawlerimportCrawlerProcessclassjiandanSpider(scrapy.Spider):name='jiandan'allowed_domains=[]start_u
爬虫实战系列(一):爬取某网站图片
weixin_30675247
这里爬取的目标为jiandan网上的用户分享的随手拍的图片,链接为:http://jandan.net/ooxx首先,经分析后发现该板块的图片是异步加载的,通过requests库难以获取。因此,利用selenium动态获取目标内容的源代码,再用BeautifulSoup库解析保存即可。1、首先打开目标链接,煎蛋分析下网站,然后决定用什么方式去获取内容禁止加载JavaScript后,图片则无法显示,
网络爬虫 -- 批量下载网站图片
weixin_30266885
1.准备python2.xpython库requests和BeautifulSoup网址:少儿不宜--煎蛋和不知名网站2.开始工作importrequestsfrombs4importBeautifulSoupres=requests.get('http://jandan.net/ooxx')html=BeautifulSoup(res.text,"html.parser")forindex,ea
python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索
vansl
爬虫
本次爬虫网址:http://jandan.net/ooxx前言:前段时间一直在折腾基于qqbot的QQ机器人,昨天用itchat在微信上也写了一个机器人,相比webqq,微信的web端功能比较丰富,图片、文件等都可以传输。今天闲来无事准备给写个爬虫丰富微信机器人的功能,就想到了爬煎蛋网上面的图片。说做就做,打开浏览器一看,渲染前的源码里是没有图片地址的。这个很正常,首先想到的就是异步请求去获取例如
相遇篇
君子不言
作为在上的第一篇文章,很有必要记录下从哪里开始认识的可能是煎蛋网,对,网址是:www.jandan.net这个网站教会了人们无节操和没下限,也偶尔透露出点高大上,科技范。也可能是36氪,这个就好玩多了,科技前沿的信息,赶脚很厉害的样子。当时被的宣传词打动:重新拾回文字的力量,是这样说的么,记不清了,大概就这个意思。然后就直接点连接进来看了看,发现确实蛮好玩的,不过从来也没打算过自己写东西扔上面。不
有些领域,人脑甩电脑好几条街
mentat
人工智能攻壳机动队
http://jandan.net/2013/10/25/beat-the-robots.html人类对机器智慧的依赖愈加放纵。近到对各项日常工作的督促提醒,远到对伟大运动员场上表现的微观解读,我们难以离开各种程序和设备的陪伴。但这并不意味着,人类智慧在逐渐褪色。相反,麻省理工的计算机学教授罗勃·米勒(RobMiller)相信,在共同发展的道路上,人类认知总会领先计算机智慧一段距离。他提到下面的例
关于 reCAPTCHA 验证码
broze
Web系统安全
原帖地址:http://jandan.net/2013/02/17/recaptcha.html国外很多下载站用到下面这种验证码,它其实是Google提供的reCAPTCHA服务(link),可以免费申请和使用。#JimmyLiye同学翻译了GooglereCAPTCHA的部分说明(原文:放了这只验证码吧):验证码大家每天都会见到,可是你会想到当你每次不耐烦的输入一个单词的时候都为人类做出了一点贡
Python 批量爬取美女图片
杨灏
爬取妹子图目标网址:http://jandan.net/ooxx#!/usr/bin/envpython#-*-coding:utf-8-*-importrequestsimportosfromconcurrent.futuresimportThreadPoolExecutorfrombs4importBeautifulSoupclassMeiZi:def__init__(self):self.u
jdk tomcat 环境变量配置
Array_06
javajdktomcat
Win7 下如何配置java环境变量
1。准备jdk包,win7系统,tomcat安装包(均上网下载即可)
2。进行对jdk的安装,尽量为默认路径(但要记住啊!!以防以后配置用。。。)
3。分别配置高级环境变量。
电脑-->右击属性-->高级环境变量-->环境变量。
分别配置 :
path
&nbs
Spring调SDK包报java.lang.NoSuchFieldError错误
bijian1013
javaspring
在工作中调另一个系统的SDK包,出现如下java.lang.NoSuchFieldError错误。
org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数
Cwind
java题解位运算LeetCodeAlgorithm
原题链接:#136 Single Number
要求:
给定一个整型数组,其中除了一个元素之外,每个元素都出现两次。找出这个元素
注意:算法的时间复杂度应为O(n),最好不使用额外的内存空间
难度:中等
分析:
题目限定了线性的时间复杂度,同时不使用额外的空间,即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n,故将数组中的每个元素进
qq登陆界面开发
15700786134
qq
今天我们来开发一个qq登陆界面,首先写一个界面程序,一个界面首先是一个Frame对象,即是一个窗体。然后在这个窗体上放置其他组件。代码如下:
public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM
被触发
linux
在早期我们使用源代码的方式来安装软件时,都需要先把源程序代码编译成可执行的二进制安装程序,然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装,这个复杂而艰辛的过程。为简化安装步骤,便于广大用户的安装部署程序,程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包,提供给大家下载,我们只需要根据自己的
socket通信遇到EOFException
肆无忌惮_
EOFException
java.io.EOFException
at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281)
at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作
知了ing
javaWeb
废话不多说,直接上代码,很简单 配置一下项目启动就行
1,web.xml
<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns="h
树形结构的数据库表Schema设计
矮蛋蛋
schema
原文地址:
http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488
程序设计过程中,我们常常用树形结构来表征某些数据的关联关系,如企业上下级部门、栏目结构、商品分类等等,通常而言,这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库,都是以二维表的形式记录存储数据信息,
maven将jar包和源码一起打包到本地仓库
alleni123
maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository
<project>
...
<build>
<plugins>
<plugin>
<groupI
java IO操作 与 File 获取文件或文件夹的大小,可读,等属性!!!
百合不是茶
类 File
File是指文件和目录路径名的抽象表示形式。
1,何为文件:
标准文件(txt doc mp3...)
目录文件(文件夹)
虚拟内存文件
2,File类中有可以创建文件的 createNewFile()方法,在创建新文件的时候需要try{} catch(){}因为可能会抛出异常;也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类(2)
bijian1013
javaspring
被注入类的父类有相应的属性,Spring可以直接注入相应的属性,如下所例:1.AClass类
package com.bijian.spring.test4;
public class AClass {
private String a;
private String b;
public String getA() {
retu
30岁转型期你能否成为成功人士
bijian1013
成长励志
很多人由于年轻时走了弯路,到了30岁一事无成,这样的例子大有人在。但同样也有一些人,整个职业生涯都发展得很优秀,到了30岁已经成为职场的精英阶层。由于做猎头的原因,我们接触很多30岁左右的经理人,发现他们在职业发展道路上往往有很多致命的问题。在30岁之前,他们的职业生涯表现很优秀,但从30岁到40岁这一段,很多人
【Velocity四】Velocity与Java互操作
bit1129
velocity
Velocity出现的目的用于简化基于MVC的web应用开发,用于替代JSP标签技术,那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础,
POJO
package com.tom.servlets;
public
【Hive十一】Hive数据倾斜优化
bit1129
hive
什么是Hive数据倾斜问题
操作:join,group by,count distinct
现象:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成;查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。
原因:key分布不均匀
倾斜度衡量:平均记录数超过50w且
在nginx中集成lua脚本:添加自定义Http头,封IP等
ronin47
nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言,从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器,但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。 强制搜索引擎只索引mixlr.com
Google把子域名当作完全独立的网站,我们不希望爬虫抓取子域名的页面,降低我们的Page rank。
location /{
java-3.求子数组的最大和
bylijinnan
java
package beautyOfCoding;
public class MaxSubArraySum {
/**
* 3.求子数组的最大和
题目描述:
输入一个整形数组,数组里有正数也有负数。
数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。
求所有子数组的和的最大值。要求时间复杂度为O(n)。
例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion
bylijinnan
javanetty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java
可以直接往channel里面写入一个FileRegion对象,而不需要相应的encoder:
//pipeline(没有诸如“FileRegionEncoder”的handler):
public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题
cngolon
跨浏览器复制到粘贴板Zero Clipboard
Zero Clipboard的实现原理
Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上,这样其实点击的不是按钮而是 Flash ,这样将需要的内容传入Flash,再通过Flash的复制功能把传入的内容复制到剪贴板。
Zero Clipboard的安装方法
首先需要下载 Zero Clipboard的压缩包,解压后把文件夹中两个文件:ZeroClipboard.js
单例模式
cuishikuan
单例模式
第一种(懒汉,线程不安全):
public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用
dalan_123
一、spring配置文件
<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题:ZEROFILL的用法范围。
dcj3sjt126com
mysql
1、zerofill把月份中的一位数字比如1,2,3等加前导0
mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值
dcj3sjt126com
Android开发
Activity跳转与传值,主要是通过Intent类,Intent的作用是激活组件和附带数据。
一、Activity跳转
方法一Intent intent = new Intent(A.this, B.class); startActivity(intent)
方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键
eksliang
jdbc 得到表结构、主键
转自博客:http://blog.csdn.net/ocean1010/article/details/7266042
假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS
gqdy365
android
要在应用程序中操作GPS开关需要权限:
<uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" />
但在配置文件中添加此权限之后会报错,无法再eclipse里面正常编译,怎么办?
1、方法一:将项目放到Android源码中编译;
2、方法二:网上有人说cl
Windows上调试MapReduce
zhiquanliu
mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为?
justjavac
博客
本文来自我在知乎上的一个回答:http://www.zhihu.com/question/23431810/answer/24588621
互联网上的两种典型心态:
当初求种像条狗,如今撸完嫌人丑
当初搜贴像条犬,如今读完嫌人软
你为啥感觉不舒服呢?
难道非得要作者把自己的劳动成果免费给你用,你才舒服?
就如同 Google 关闭了 Gooled Reader,那是
sql优化总结
macroli
sql
为了是自己对sql优化有更好的原则性,在这里做一下总结,个人原则如有不对请多多指教。谢谢!
要知道一个简单的sql语句执行效率,就要有查看方式,一遍更好的进行优化。
一、简单的统计语句执行时间
declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结
超声波
oraclelinux
1.linux更改主机名
(1)#hostname oracledb 临时修改主机名
(2) vi /etc/sysconfig/network 修改hostname
(3) vi /etc/hosts 修改IP对应的主机名
2.linux重启oracle实例及监听的各种方法
(注意操作的顺序应该是先监听,后数据库实例)
&nbs
hive函数大全及使用示例
superlxw1234
hadoophive函数
具体说明及示例参 见附件文档。
文档目录:
目录
一、关系运算: 4
1. 等值比较: = 4
2. 不等值比较: <> 4
3. 小于比较: < 4
4. 小于等于比较: <= 4
5. 大于比较: > 5
6. 大于等于比较: >= 5
7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序
wiselyman
spring 4
4.1 @Order
Spring 4.2 利用@Order控制配置类的加载顺序
4.2 演示
两个演示bean
package com.wisely.spring4_2.order;
public class Demo1Service {
}
package com.wisely.spring4_2.order;
public class