SkyeyesXY

Python爬虫学习笔记(2)-单线程爬虫

Python爬虫学习笔记(2)-单线程爬虫

标签（空格分隔）： python 爬虫单线程

概要

Requests介绍

网页爬虫

向网页提交数据

实战–极客学院课程爬虫

1.Requests介绍

[x] Requests：HTTP for Humans（第三方库，实现python的网络连接）
[x] 完美的替代Python的urllib2模块
[x] 更多的自动化
[x] 更友好的用户体验
[x] 更完善的功能

1)urllib2模块

目标网址：’https://api.github.com’

import urllib2

gh_url = 'http://api.github.com'

req = urllib2.Request(gh_url)

password_manager = urllib2.HTTPPasswordMgrWithDefaultRealm()
password_manager.add_password(None, gh_url, 'user', 'pass')

auth_manager = urllib2.AbstractBasicAuthHandler(password_manager)
opener = urllib2.build_opener(auth_manager)

urllib2.install_opener(opener)

handler = urllib2.urlopen(req)

print handler.getcode()
print handler.headers.getheader('content-type')

2)使用requests模块

# -*- coding: utf-8 -*-

import requests

r = requests.get('https://api.github.com', auth=('user', 'pass'))

print r.status_code
print r.headers['content-type']

2.第一个网页爬虫

用requests提取网页源代码

用正则表达式匹配内容

1)提取源代码

在一些情况下直接获取

修改http头获取源代码

a.直接获取

import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print html.text

requests.get()获取网页源代码
.text输出内容

b.修改http头

有些情况下网站对访问进行检查，阻止爬虫requests的访问，所以需要更改http头，作用是让爬虫伪装成浏览器从让网站通过访问。

语法：

添加语句：（变量名） = {‘User-Agent’:”}

User-Agent的内容通过：右键->审核元素->NetWork->刷新网页->任意选择一项->Headers->在Request Headers中找到User-Agent

在requests.get()中添加headers = 变量名

eg.

headers = {'User-Agent':'...'}
html = requests.get('...', headers = headers)

2)提取内容

找到自己所需的内容的规律用正则表达式匹配。

3.向网页提交数据

Get和Post介绍

分析目标网站

Requests的表单提交

1)Get和Post介绍

Get是从服务器上获取数据

Post是从服务器传送数据，并返回所传送的值

Get通过构造url中的参数来实现功能

Post将数据放在header提交数据

2)分析目标网站

目标：https://www.crowdfunder.com/browse/deals
使用：Chrome-审核元素-Network

import requests
import re
url = 'http://www.crowdfunder.com/browse/deals'

html = requests.get(url).text
print html

发现在点击异步加载项后，提取不了新增内容

3)Requests表单提交

核心方法：requests.post
核心步骤：构造表单-提交表单-获取返回信息

对于使用异步加载技巧的网站，get只能获取部分信息,所以使用Post

import requests
import re
url = 'http://www.crowdfunder.com/browse/deals&template=false'

data = {
    'entitles_only':'true',
    'page':'1'
}

html_post = requests.post(url, data=data)
title = re.findall('"card-title">(.*?)</div>', html_post.text, re.S)
for each in title:
    print each

page所对应的值为异步页数，初始页为1

3.实战–极客学院课程爬虫

目标网站：http://www.jikexueyuan.com/course/

目标内容：前20页的课程名称，课程介绍，课程时间，课程等级，学习人数

涉及知识：Requests获取网页，re.sub换页，正则表达式匹配内容

爬虫只能获取到我们能看到的东西

# -*- coding: utf-8 -*-
import requests, re, sys
reload(sys)
sys.setdefaultencoding("utf-8")

class spider(object):
    def __init__(self):
        print u'开始爬取内容。。。'

    def getsource(self, url):
        html = requests.get(url)
        return html.text

    def changepage(self, url, total_page):
        now_page = int(re.search('pageNum=(\d+)', url, re.S).group(1))
        page_group = []
        for i in range(now_page, total_page+1):
            link = re.sub('pageNum=\d+','pageNum=%s'%i, url, re.S)
            page_group.append(link)
        return page_group

    def geteveryclass(self, sourse):
        everyclass = re.findall('(<li deg="".*?</li>)', sourse, re.S)
        return everyclass

    def getinfo(self, eachclass):
        info = {}
        info['title'] = re.search('target="_blank">(.*?)</a>', eachclass, re.S).group(1)
        info['content'] = re.search('</h2><p>(.*?)</p>', eachclass, re.S).group(1)
        timeandlevel = re.findall('<em>(.*?)</em>', eachclass, re.S)
        info['classtime'] = timeandlevel[0]
        info['classlevel'] = timeandlevel[1]
        info['learnnum'] = re.search('learn-number">(.*?)</em>', eachclass, re.S).group(1)
        return info

    def saveinfo(self, classinfo):
        f = open('info.txt', 'a')
        for each in classinfo:
            f.writelines('title:' + each['title'] + '\n')
            f.writelines('content:' + each['content'] + '\n')
            f.writelines('classtime:' + each['classtime'] + '\n')
            f.writelines('classlevel:' + each['classlevel'] + '\n')
            f.writelines('learnnum:' + each['learnnum'] + '\n\n')
        f.close()


if __name__ == '__main__':

    classinfo = []
    url = 'http://www.jikexueyuan.com/course/?pageNum=1'
    jikespider = spider()
    all_links = jikespider.changepage(url,20)
    for link in all_links:
        print u'正在处理页面：' + link
        html = jikespider.getsource(link)
        everyclass = jikespider.geteveryclass(html)
        for each in everyclass:
            info = jikespider.getinfo(each)
            classinfo.append(info)
    jikespider.saveinfo(classinfo)

作者：Skyeyes
日期：2015.11.19
说明：本文根据极客学院Python定向爬虫入门整理总结

你可能感兴趣的:(线程,python,爬虫,自动化)

Python基础知识第二天：从格式化到流程控制程序员
Python基础知识第二天：从格式化到流程控制大家好！今天我们来梳理Python的一些重要基础知识，包括格式化输出、输入函数、运算符以及流程控制语句。1.格式化输出Python提供了多种格式化输出的方式：#%d,%f,%s格式化name="Python"age=30print("我叫%s，今年%d岁"%(name,age))#F-string方式（推荐）print(f"我叫{name}，今年{ag
Python之离线安装第三方库（依赖包）格格巫 MMQ!! python 开发语言
在某些情况下，我们需要在无法直接联网的服务器上安装Python的依赖包。这种情况下，我们需要在可以正常上网的服务器上下载好所需的依赖包文件，然后拷贝到目标服务器，通过pip命令在目标服务器上进行安装。以下是详细的步骤：准备requirements.txt文件requirements.txt文件罗列的是依赖包列表，表示你要下载的依赖包以及对应的版本。该文件可以通过两种方式创建：（1）通过pip命令创
线程池 JDK1.5 ExecutorService threadPool = Executors.newFixedThreadPool(3) 飞腾创客 java
packagecn.itcast.heima2;importjava.util.concurrent.ExecutorService;importjava.util.concurrent.Executors;importjava.util.concurrent.TimeUnit;publicclassThreadPoolTest{/***@paramargs*/publicstaticvoidma
python 手动对齐d435相机的rgb与depth，非官方align_processing()函数求索小沈 python pyrealsense2 opencv 深度相机对齐点云 d435
（代码制作不易，免费提供大家使用，希望换一个关注，和点赞）废话不多说，代码如下（参考了很多资料，最终凑出了代码QAQ）。获取相机参数，也可以手动输入相机参数（若相机无法标定可以尝试）importcv2importnumpyasnpimportpyrealsense2asrspipe=rs.pipeline()cfg=rs.config()cfg.enable_stream(rs.stream.de
16、Python继承与多态机制深度解析 wolf犭良 python python 开发语言
Python继承与多态机制深度解析文章导言本文深入探讨Python面向对象编程中继承与多态的核心机制，涵盖从基础语法到高级用法的完整知识体系。通过理论解析、代码实战和典型场景案例，助您掌握继承体系的构建方法、MRO算法的底层逻辑、多态特性的工程实践，以及抽象基类在接口设计中的妙用。文末提供10个阶梯式练习题及完整答案代码。一、继承机制深度剖析1.1单继承体系classAnimal:def__ini
python 打印九九乘法表問華 Python基础 Python 矩阵乘法循环编程算法
j=1 #行whilej<10:i=1#列whilei<=j:print(f'{i}*{j}={i*j}',end='\t')i+=1print() #一行结束，打印换行符j+=1
Python 文件处理 open()函数 Python-派大星 Python编程 python 开发语言编程语言前端后端
文件处理是任何Web应用程序的重要组成部分。Python有几个用于创建、读取、更新和删除文件的函数。文件处理在Python中使用文件的关键函数是open()函数。有四种打开文件的不同方法（模式）："r"-读取-默认值。打开文件进行读取，如果文件不存在则报错。"a"-追加-打开供追加的文件，如果不存在则创建该文件。"w"-写入-打开文件进行写入，如果文件不存在则创建该文件。"x"-创建-创建指定的文
并发编程高频八股——线程池钢板兽高频八股 java 开发语言后端面试
大家好，我是钢板兽！今天继续更新并发编程的第二篇高频八股——线程池，包括线程池的作用、创建线程池的方式、线程池的参数以及核心参数的设置。本文的八股在对线程池的理解上比较浅显，创建线程池的方式和核心参数的设置，建议大家可以去实现一个动态线程池的demo或者复现开源项目，这样会加深对线程池的理解。文章目录1.为什么要用线程池2.创建线程池的方式3.线程池参数4.如何设置核心线程池参数？1.为什么要用线
python：打印99乘法表贩剑小僧 python
forjinrange(1,10):外循环foriinrange(1,j+1):内循环print("%d*%d=%-2d"%(i,j,i*j),end="")内循环print()外循环
python中open函数为什么打不开文件_Python中open函数怎么操作文件含元东
在Python中，如果想要操作文件，首先需要创建或者打开指定的文件，并创建一个文件对象，而这些工作可以通过内置的open()函数实现。open()函数用于创建或打开指定文件，该函数的常用语法格式如下：file=open(file_name[,mode='r'[,buffering=-1[,encoding=None]]])此格式中，用[]括起来的部分为可选参数，即可以使用也可以省略。其中，各个参数
打印九九乘法表(Python) 'hello_world'529 python 开发语言
目录1.思路2.while嵌套循环实现3.for嵌套循环实现1.思路1*1=11*2=22*2=41*3=32*3=63*3=9......1*9=92*9=183*9=274*9=36.....9*9=81规律：(1)列*行=乘积(2)行的取值范围：1~9(3)列的取值范围：1~当前行数(4)使用嵌套循环，外层循环控制的是行，内层循环控制的是列
python: 函数定义的参数 Change is good python python 开发语言前端
函数定义支持可变数量的参数。这里列出三种可以组合使用的形式1.默认值参数¶为参数指定默认值是非常有用的方式。调用函数时，可以使用比定义时更少的参数，例如：defask_ok(prompt,retries=4,reminder='Pleasetryagain!'):whileTrue:reply=input(prompt)ifreplyin{'y','ye','yes'}:returnTrueifr
JAVA-批量异步任务实现黑大帅-------- java 开发语言异步 springboot 后端
1.批量异步1.CompletableFuture技术详细描述什么是CompletableFuture？定义：CompletableFuture是Java8引入的异步编程工具，用于表示一个可能在未来完成的异步计算的结果。它支持链式操作、组合多个异步任务、异常处理和回调机制。核心机制：异步执行：通过supplyAsync或runAsync启动异步任务（默认使用ForkJoinPool的公共线程池）。
Python中的内置函数open：文件操作详解夜色恬静一人 python 前端 linux Python
Python中的内置函数open：文件操作详解Python是一种功能强大的编程语言，它提供了许多内置函数来处理各种任务。其中一个非常重要的函数是open()，它用于在Python中进行文件操作。在本文中，我们将详细介绍open()函数的用法和相关的文件操作。在Python中，open()函数用于打开文件，并返回一个文件对象。它的基本语法如下所示：file_object=open(file_name
python操作文件open() 笔下的木水 python Python 文件操作读写模式二进制字符串编码
python操作文件f=open(filename,mode)#打开文件'''filename:操作文件的路径操作模式(mode)：r只读模式w创建模式，若文件已存在，则覆盖所在文件，文件不存在，则创建文件，执行写入模式a追加模式，新数据会写到文件的末尾，文件不存在新建注：后面加b，以二进制形式（字节）读取，加+读写都可'''f=open("python.txt","w")f.write("hel
Python文件操作之open函数详解 UIEdit python 数学建模开发语言
Python文件操作之open函数详解Python作为一门优秀的编程语言，其强大的文件处理能力是备受开发者欢迎的。Python中用于打开文件的函数是open()，本文将为您详细介绍如何使用open()函数进行文件的读写操作。一、open()函数的语法open()函数的基本语法如下：open(file,mode='r',buffering=-1,encoding=None,errors=None,n
新手问题解决：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x84 in position 35: invalid start byte 2301_77474473 python 开发语言
作为一名python新手，运行程序真是如履薄冰，各种问题搞的头大。我只希望程序能够出图出误差结果，整好论文。dataset=pd.read_csv("zhuanzhihoudeshujv.csv",index_col=0)运行程序一直出现UnicodeDecodeError:'utf-8'codeccan'tdecodebyte0x84inposition35:invalidstartbyte意思
【Python】open() 函数：打开文件进行操作彬彬侠 Python基础 open 文件处理 readline write python
在Python中，文件操作非常常见，可以通过内建的open()函数和其他文件处理函数对文件进行读取、写入、删除、重命名等操作。下面是Python中常见的文件操作方法和技巧。1.打开文件使用open()函数打开文件，它会返回一个文件对象，可以用来读取或写入文件内容。#打开文件，'r'表示读取模式file=open('file.txt','r')open()函数常见模式：'r'：只读模式（默认模式）。
python：打印九九乘法表（分别用while 和 for 循环实现） Change is good python python
在python中，\t是指制表符，代表着四个空格，也就是一个tab；它的作用是对齐表格数据的各列，可以在不使用表格的情况下，将数据上下对齐。使print输出不含行的方法end='空格‘：print("balabala",end='')1.1使用while循环：i=1whilei<10:j=1whilej<10:ifj<=i:print(f"{j}*{i}={j*i}\t",end='')j=j+1
Python的那些事第四十八篇：Python生成器理论、性能与应用暮雨哀尘 Python的那些事 python 开发语言生成器算法性能斐波那契数列迭代器
Python生成器：理论、性能与应用摘要：在Python编程中，生成器是一种特殊的迭代器，它允许在需要时动态生成值，而不是一次性生成所有值。这种特性使得生成器在处理大型数据集或无限序列时具有显著优势。本文将深入探讨Python生成器的理论基础、性能分析以及实际应用案例，旨在为研究学者提供一份全面的参考。一、引言在数据处理和计算密集型任务中，内存和计算资源的高效利用一直是编程领域的重要课题。传统的迭
线程的同步与互斥 vae.cn Linux 系统开发线程同步线程互斥互斥锁读写锁信号量条件变量系统开发
目录一、相关概念1.互斥的定义2.同步的定义二、互斥问题及解决方案1.互斥锁（mutex）（独占锁）（1）互斥锁机制（2）互斥锁的操作a.申请互斥锁---->b.上锁---->pthread_mutex_lockc.解锁---->pthread_mutex_unlockd.回收互斥锁---->pthread_mutex_destroy（3）互斥锁具体使用2.读写锁（rwlock）（1）读写锁机制（
Xshell连接kali veronica-nika kali ssh xshell
提示：需xshell软件下载，打开kali中ssh服务文章目录前言一、kali打开ssh1.打开配置文件2.修改配置文件3.测试连接二、Xshell连接1.新建连接2.新建会话属性总结前言用户界面友好：Xshell提供了简洁直观的界面设计，无论是初学者还是资深用户都能快速上手。多会话管理：支持同时打开多个会话窗口，便于用户同时管理多台服务器。脚本自动化：内置脚本功能，支持批处理命令执行，极大提高了
容器神器Docker的入门篇章悟能不能悟容器 docker
Docker就是个“打包神器”，专门用来把你的代码、环境配置、依赖库一股脑儿装进一个轻量级的“集装箱”里，扔到任何地方都能直接跑起来，完全不用操心“水土不服”的问题！举个栗子：假设你写了个Python网站，本地用Python3.10+MySQL8.0跑得好好的，但同事电脑上装的是Python2.7+MySQL5.7，结果代码一拷贝就报错。这时候Docker就能救场——你把整个环境打包成一个镜像（I
Python模块化设计——继承不解风情的老妖怪哎 Python程序设计题库 python
1.在Python中，关于继承与多态描述正确的是()。A、类的继承可以从现有的类派生出新类。B、可以使用isinstance函数测试一个对象是否是一个类的实例。C、多态意味着一个子类对象可以传递给一个需要父类类型的参数。D、类之间常见的关系是关联、聚合、组合和继承。答案：ABCD。2.在Python中，关于继承描述正确的是()。A、Python类不支持多继承。B、在设计派生类时，基类的私有成员默认
python中，判断文件是否存在的几种方法 saber_sss python
python中，判断文件是否存在的几种方法python语句如何判断文件是否存在某个目录下，我介绍下面几种方法吧：1.使用python自带的OS模块2.使用if加else判断3.使用try异常处理方法4.使用pathlib模块1.使用OS模块：os.path.exists(path)方法可直接用于检验文件夹/文件是否存在，如果路径path存在，返回True；如果路径path不存在，返回False。判
python判断文件存在方式李木子木子笔记 python 开发语言
前言判断文件是否存在在实际应用中用的非常多，下面我们来归纳一下检查文件、文件夹是否存在的各种操作目录标题前言一.检查文件夹/文件是否存在1.os.path.exists()2.os.path.isfile()和os.path.isdir()3.os.access()4.异常判断5.lambda匿名函数（扩展）总结一.检查文件夹/文件是否存在1.os.path.exists()文件夹，文件均可，文件
Python 判断文件是否存在的三种方法 yolosliu Python python 文件存在
这里将介绍三种判断文件或文件夹是否存在的方法，分别使用os模块、Try语句、pathlib模块。1.使用os模块os模块中的os.path.exists()方法用于检验文件是否存在。判断文件是否存在importosos.path.exists(test_file.txt)#Trueos.path.exists(no_exist_file.txt)#False判断文件夹是否存在importosos.
stm32f1系列单片机基于HAL库实现Modbus RTU协议的485通信，单片机做从站，串口软件或者维纶屏做主站 deng_01_ 单片机 stm32 Modbus rtu
本文主要为自己复习485通信的实现使用。一、RS-485通信概述**RS-485**是一种广泛应用于工业自动化、楼宇自动化、数据采集等领域的串行通信标准。它以差分信号传输为基础，具有抗干扰能力强、传输距离远、支持多点通信等特点。二、RS-485的特点1.**差分信号传输**-使用两根信号线（A和B）进行差分传输。-差分信号可以有效抵抗电磁干扰，适合长距离通信。2.**多点通信**-支持多点通信（M
python 判断文件存不存在,python 判断文件夹存在 chatgpt001 python 数据库 linux
本篇文章给大家谈谈python判断文件存不存在，以及python判断文件夹存在，希望对各位有所帮助，不要忘了收藏本站喔。目录1、使用os模块2、判断文件读写属性3、使用Try语句4、使用pathlib模块正文通常在读写文件之前，需要判断文件或目录是否存在，不然某些处理方法可能会使程序出错。所以最好在做任何操作之前，先判断文件是否存在高中信息技术python怎么学。这里将介绍三种判断文件或文件夹是否
python 判断文件是否存在三希 python java linux
在Python中，可以使用多种方法来判断文件是否存在。以下是常用的几种方式：1.使用os.path.exists()这是最常用的方法，适合检查文件或目录是否存在。importosfile_path="example.txt"ifos.path.exists(file_path):print("文件存在")else:print("文件不存在")2.使用os.path.isfile()如果要检查路径是
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他