昏鸦

抓取微博

import os

from os import path

import sys

working_dir = os.path.abspath(os.path.realpath(__file__)+ '/../../')

sys.path.append(working_dir)

import requests

import common.constants as CT

import common.utils as CU

import json

import simplejson as SJ

from Queue import Queue

import threading

from socialplatform import SocialPlatform

import common.errorcodes as ERROR

from pool.ippool import IPPool

import traceback

import threading

import re

#import grequests

class Sina(SocialPlatform):

TIMELINE_BASE_URL = 'https://api.weibo.com/2/statuses/user_timeline.json?'

TAG_BASE_URL = 'https://api.weibo.com/2/tags.json'

BASEINFO_BASE_URL = 'https://api.weibo.com/2/users/show.json'

WEIBO_BASE_URL = 'https://api.weibo.com/2/statuses/show.json'

REPOST_WEIBO_LIST_BASE_URL = 'https://api.weibo.com/2/statuses/repost_timeline.json'

REPOST_WEIBOID_LIST_BASE_URL = 'https://api.weibo.com/2/statuses/repost_timeline/ids.json'

FWDCN_BASE_URL = 'https://api.weibo.com/2/statuses/count.json'

save_queue = Queue()

sina = None

def __init__(self):

super(Sina, self).__init__()

#th = threading.Thread(target = self.store)

#th.start()

@classmethod

def get_instance(cls):

if cls.sina is None:

cls.sina = Sina()

print 'new sina instance'

else:

print 'sina obj existed'

return cls.sina

#get trimmed origin weibo by default

def get_timeline(self, access_token, uid, feature='1', trim_user='1', since_id='0', count=20, proxy = None):

res = None

params = {

#'source':'1917566200',

'access_token':access_token,

'uid':uid,

'feature':str(feature),

'trim_user':str(trim_user),

'since_id':str(since_id),

'count':str(count)}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

res = requests.get(url = Sina.TIMELINE_BASE_URL, params=params, timeout=CT.TIMEOUT, proxies=proxies)

#res = grequests.request('GET', Sina.TIMELINE_BASE_URL, params=params, timeout=CT.TIMEOUT, proxies=proxies)

except Exception as E:

print 'sina get timeline exception:', E

#self.request_timeout(proxy)

print res.text

#if res is not None:

# res = grequests.map([res])[0]

# self.check_response(res.text)

# #self.save_queue.put({'type':'origin','content':res.text+'\n'})

# since_id = self.parse_weibo_json(res.text)

# return since_id

def check_response(self, text):

data = SJ.loads(text)

if data is None:

error_msg = {'msg':'',

'error_code':ERROR.NO_RETURN_VALUE,

'caller':''}

raise Exception(str(error_msg))

elif type(data) == dict:

if data.get('error_code') is not None:

error_msg = {'msg':data.get('error'),

'error_code':data.get('error_code'),

'caller':data.get('request')}

raise Exception(str(error_msg))

def request_timeout(self, proxy):

error_msg = {'msg':'%s request time out'%proxy,

'error_code':ERROR.REQUEST_TIMEOUT,

'proxy':proxy}

raise Exception(str(error_msg))

def get_tags(self, access_token, uid, count = 20, proxy=None):

res = None

tags = []

params = {'access_token':access_token,

'uid':uid,

'count':count}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

#res = grequests.request('GET', url = Sina.TAG_BASE_URL, params=params, timeout=CT.TIMEOUT, proxies=proxies)

res = requests.get (url = Sina.TAG_BASE_URL, params=params, timeout=CT.TIMEOUT, proxies=proxies)

except Exception as E:

#self.request_timeout(proxy)

pass

print res.text

#if res is not None:

# res = grequests.map([res])[0]

# self.check_response(res.text)

# tags = self.parse_tag_json(res.text)

#return tags

def get_basicinfo(self, access_token, uid, proxy):

res = None

params = {'access_token':access_token,

'uid':uid}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

#res = grequests.request('GET', url = Sina.BASEINFO_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

res = requests.get (url = Sina.BASEINFO_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

except Exception as E:

print 'sina get basicinfo exception:', E

#self.request_timeout(proxy)

print res.text

#if res is not None:

# res = grequests.map([res])[0]

# self.check_response(res.text)

# basicinfo = self.parse_basicinfo_json(res.text)

#return basicinfo

def get_weibo_by_id(self, access_token, weiboid, proxy):

res = None

params = {'access_token':access_token,

'id':weiboid}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

#res = grequests.request('GET', url = Sina.WEIBO_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

res = requests.get (url = Sina.WEIBO_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

except Exception as E:

print 'sina get weibo by id exception:', E

#self.request_timeout(proxy)

print res.text

#if res is not None:

# res = grequests.map([res])[0]

# self.check_response(res.text)

# tmp_data = SJ.loads(res.text)

# userdata = SJ.dumps(tmp_data.get('user'))

# userdata = self.parse_basicinfo_json(userdata)

# weibodata = self.parse_single_weibo(res.text)

# return {'userdata':userdata, 'weibodata':weibodata}

def get_fwdcn_by_ids(self, access_token, weiboids, proxy):

res = None

weiboids = ','.join(weiboids)

params = {'access_token':access_token,

'ids':weiboids}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

res = grequests.request('GET', url = Sina.FWDCN_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

res = grequests.map([res])[0]

print res.text

except Exception as E:

print E

self.request_timeout(proxy)

def get_repost_weibo_list(self, access_token, weiboid, proxy):

res = None

params = {'access_token':access_token,

'id':weiboid}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

res = grequests.request('GET', url = Sina.REPOST_WEIBO_LIST_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

res = grequests.map([res])[0]

print res.text

except Exception as E:

print 'sina repost weibo exception:', E

self.request_timeout(proxy)

def get_repost_weiboid_list(self, access_token, weiboid, proxy):

res = None

params = {'access_token':access_token,

'id':weiboid}

if proxy is not None:

proxies = {'http':"http://%s"%proxy}

else:

proxies = None

try:

res = grequests.request('GET', url = Sina.REPOST_WEIBOID_LIST_BASE_URL, params=params, timeout = CT.TIMEOUT, proxies=proxies)

res = grequests.map([res])[0]

print res.text

except Exception as E:

print E

self.request_timeout(proxy)

def parse_tag_json(self, text):

data = SJ.loads(text)

tags = []

try:

for item in data:

for k, v in item.iteritems():

if k != 'weight':

tags.append(v)

return tags

except Exception as E:

print E

traceback.print_stack()

print data

def parse_weibo_json(self, text):

save_content = ''

since_id = '0'

try:

data = SJ.loads(text)

timeline = data.get('statuses',[])

for l in timeline:

uid = str(l.get('uid'))

text = l.get('text')

weiboid = str(l.get('id'))

save_content = '%s\t%s\t%s\n'%(uid, text, weiboid)

#self.save_queue.put({'type':'trimmed', 'content':save_content, 'usid':uid})

if timeline not in [None,[]]:

l = timeline[0]

since_id = str(l.get('id'))

except Exception as E:

print E

traceback.print_stack()

finally:

return since_id

def parse_basicinfo_json(self, text):

try:

PROFILE_HEADER = 'http://weibo.com/'

data = SJ.loads(text)

location = CU.convert_utf8(data.get('location',''))

gender = data.get('gender','')

isverified = data.get('verified','')

username = CU.convert_utf8(data.get('screen_name',''))

icon = data.get('avatar_large','')

usid = data.get('idstr','')

city_code = data.get('city','')

province_code = data.get('province','')

followers_ct = data.get('followers_count', 0)

if usid not in['',None]:

profile_url = PROFILE_HEADER + usid

if isverified:

isverified = 1

description = data.get('verified_reason')

else:

isverified = 0

description = data.get('description')

if description is not None:

description = CU.convert_utf8(description)

return {'location':location,

'gender':gender,

'isverified':isverified,

'username':username,

'icon':icon,

'description':description,

'profile_url':profile_url,

'city_code':city_code,

'province_code':province_code,

'followers_ct':followers_ct}

except Exception as E:

print E

traceback.print_stack()

def parse_single_weibo(self, text):

try:

data = SJ.loads(text)

time = data.get('created_at')

tp_time = ''.join(re.findall(r'(\+)(\d+?)( )',time)[0])

time = time.replace(tp_time,'')

time = CU.formatted_str_to_millis(time, '%a %b %d %H:%M:%S %Y')

text = data.get('text')

source = data.get('source')

image = data.get('bmiddle_pic','')

return {'date':time, 'content':text, 'image':image}

except Exception as E:

print E

def check(self):

dead_crawl_thread_count = 0

crawl_thread_over = False

dead_save_thread_count = 0

save_thread_over = False

while(True):

for thread in self.crawl_thread_pool:

if not thread.isAlive():

dead_crawl_thread_count += 1

if dead_crawl_thread_count == len(self.crawl_thread_pool):

crawl_thread_over = True

for thread in self.save_thread_pool:

if not thread.isAlive():

dead_save_thread_count += 1

if dead_save_thread_count == len(self.save_thread_pool):

save_thread_over = True

if save_thread_over and crawl_thread_over:

break

def run_crawler(self):

for i in range(self.crawl_thread_amount):

crawl_thread = threading.Thread(target=self.get_timeline())

def test_usage_limit(self, access_token, proxy):

url = 'https://api.weibo.com/2/account/rate_limit_status.json'

params = {'access_token':access_token,

'source':'1917566200'}

proxies = {'http':"http://%s"%proxy}

res = requests.get(url = url, params=params, timeout = CT.TIMEOUT, proxies=proxies)

print res.text

def test_unit(self):

jobs = []

import gevent

for i in range(100):

jobs.append(gevent.spawn(self.test_ip_limit))

gevent.joinall(jobs)

def test_loop(self):

while(True):

self.test_unit()

def test_ip_limit(self):

plat = 'sina'

#ip_port = '223.4.241.244:3128'

#ip_port = '80.18.170.245:3128'

ip_port = '218.57.136.202:80'

proxy = {'http': "http://%s/" % ip_port}

self.get_timeline('2.008kKrVCGZulFC85b3b9496f0iMsYD','1816963684', count=1, proxy = proxy)

IPPool.inc_ip_used_count(key={'proxy':ip_port}, plat=plat, step = 1)

print IPPool.get_ip_used_count(key={'proxy':ip_port}, plat = plat)

if __name__ == '__main__':

sina = Sina.get_instance()

#ip_port = '42.62.5.100:5978'

#ip_port = '183.60.97.98:80'

#ip_port = '222.178.37.42:1337'

##acs_token = '2.008kKrVCS5lgJB773f46691cvRBfDD'

acs_token = '2.008kKrVCGZulFC85b3b9496f0iMsYD'

#th = threading.Thread(target = sina.test_loop)

#th.start()

sina.get_timeline(acs_token,'2958598935', count=100, since_id = '3497205966678321')

#sina.get_tags (acs_token, '2958598935')

#sina.get_basicinfo (acs_token, '2958598935', None)

#sina.get_weibo_by_id (acs_token,'3592778635816523', None)

#res = sina.get_basicinfo('2.008kKrVCGZulFC5bab580682RGYueB','1881428463',ip_port)

#res = sina.get_weibo_by_id(acs_token, '3562960347780645', None)

#sina.test_ip_limit()

#wids = ['354464853658119', '354316072507065', '354285872621913']

#sina.get_fwdcn_by_ids(acs_token, wids, None)

#sina.get_repost_weibo_list('2.008kKrVCGZulFC5bab580682RGYueB', '3557946866271328', None)

#sina.get_timeline(acs_token,'1881428463', count=3, proxy = None)

#sina.get_tags('2.008kKrVCGZulFCdacfff9787oYTfeE','1881428463')

#sina.get_timeline('2.0','1881428463', count=100, since_id = '3497205966678321', proxy = proxy)

#sina.test_usage_limit('2.00khtAoBGZulFC3b30a5e1bepMslNB', '223.4.241.244:3128')

#sina.test_usage_limit('2.00khtAoBGZulFC3b30a5e1bepMslNB', '183.60.97.98:80')

#proxy = '222.197.214.91:808'

#requests.get('http://211.151.139.231:8031', proxies = {'http':"http://%s"%proxy})

你可能感兴趣的:(抓取微博)

Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
杨丽萍被diss上热搜：是谁在胡乱定义中国女性？果沐妈咪
最近，舞蹈大师杨丽萍因为60岁还没结婚没孩子，被某音网友diss上热搜，评论还被点赞1万多次，一度占据了热评第一名（目前已删）。很难想象在2020年，还有人揪着女性的衣领质问：你怎么不结婚呢？你怎么不生孩子呢？很快，这种言论引发了微博上的大讨论。几位女明星也站出来为杨丽萍发声，声援她。戚薇“一个人最大的失败是：时至今日还在给我们“女人”下定义，还把儿孙满堂当作女人唯一的成就。。。生育工具？！呵呵，
爸妈：你可以成为别人家的爸妈吗长也长不高的面包树
图片发自App爸爸妈妈，请你看看别人家的父母无论什么时候，家长总喜欢在我们耳边说，你看看别人家的孩子怎么样。是啊，别人家的孩子什么都优秀，那别人家的爸爸妈妈还优秀呢。先讲三个微博上面的故事吧。有一个妈妈陪着八岁的孩子完成了一份报纸，报纸全是妈妈和孩子亲手做的，写的是整个寒假的生活。网友们纷纷说，我也想有个这样的妈妈。还有一位妈妈晒出了自己给女儿包的书皮，每一本书上面都有多彩的图案，简直美翻了，精致
如何在电商平台上使用API接口数据优化商品价格 weixin_43841111 api 数据挖掘人工智能 python java 大数据前端爬虫
利用API接口数据来优化电商商品价格是一个涉及数据收集、分析、策略制定以及实时调整价格的过程。这不仅能提高市场竞争力，还能通过精准定价最大化利润。以下是一些关键步骤和策略，用于通过API接口数据优化电商商品价格：1.数据收集竞争对手价格监控：使用API接口（如Scrapy、BeautifulSoup等工具结合Python进行网页数据抓取，或使用专门的API服务如PriceIntelligence、
学会这招！用python爬取微博评论（无重复数据） Python白白白白
python爬取微博评论（无重复数据）前言一、整体思路二、获取微博地址1、获取ajax地址2、解析页面中的微博地址3、获取指定用户微博地址三、获取主评论四、获取子评论1、解析子评论2、获取子评论五、主函数调用1、导入相关库2、主函数执行3、结果写在最后Tip:本文仅供学习与交流，切勿用于非法用途！！！前言前段时间微博上关于某日记的评论出现了严重的两极分化，出于好奇的我想对其中的评论以及相关用户做一
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
程序员单身单身总动员
如何判断一个男人会不会出轨?容易知足的男人，相对靠谱。他们不会想要通过征服很多异性来证明自己的魅力，他觉得有你一个就够了，多了他也没精力去讨好；他们也特别踏实，只会用行动来向你证明自己。专注于某项兴趣的男人，相对靠谱。比如小编的朋友，是个程序员，世人眼中的闷骚男，他专注于编程，每天24小时除了吃饭睡觉，脑子里想的都是代码，空间、微博也全是代码，最大的业余爱好就是打打游戏，他对老婆就特别专一。综上所
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
小米和蛋壳第七节和三三吃饭斜晲众生
李南还是老样子，笔直，严谨，脸上线条硬度极佳，总是一副不苟言笑的样子。身上除了黑色就是深色的搭配，把自己平添了许多收敛的气息。和旁边像精灵一样的三三真真是反差萌。“我已经点好了菜。我在微博微信上已经盯了好久了，这次点菜集各家吃货推荐所长，应该不会踩雷。点了有焖鸡，牛肉饵丝，油爆猪皮，香茅烤鸡，稀豆粉，炒小瓜，蒜香鸡脚，小锅米线，黄金虾饼，喝的除了自酿米酒、苹果芒果汁和酸角汁。三碗米饭，一份菠萝饭。
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
爬虫和代理IP的关系 xiaoxiongip666 爬虫 tcp/ip 服务器
爬虫和代理IP之间的关系是相互依存的。代理IP为爬虫提供了绕过IP限制、隐藏真实IP、提高访问速度等能力，使得爬虫能够更有效地进行数据抓取。然而，在使用时也需要注意合法性、稳定性、成本以及隐私保护等问题。
tushare库获取金融股票数据罔闻_spider python进阶 python
定义：Tushare是一个为金融量化分析师和数据爱好者设计的开源工具，提供从数据采集、清洗加工到数据存储的全流程服务。它能够实时抓取沪深两市的股票和期货市场数据，包括交易价格、成交量、市值、市盈率等关键指标，同时也提供历史数据的采集。Tushare的数据采集功能是其核心优势之一，它支持多种数据类型，包括日K线数据和分钟级数据，满足不同分析需求。Tushare的数据清洗与加工功能提供了强大的工具集，
火箭少女Yamy出道最大敌意来自老板？遭遇职场PUA，该如何应对柔力量
01从Yamy发的微博中我们可以知道，她虽然在网上总被人说“丑”、“年纪大”，但是她都会用作品说话来肯定自己却没想到这两年来公司老板徐明朝对她的态度忽冷忽热，两极分化十分严重甚至在员工大会上背着她和其他员工对她进行人身攻击。会议内容被好心的同事偷偷录下来给Yamy后，她忍受不了提出了解约却被老板以“情况了解，不要作死”回绝了这件事持续发酵，昨日19点，老板徐明朝也在公众平台发声信中态度相当诚恳，言
我与新媒体小富yyd
1.我对新媒体的认识我对新媒体的认识就是比如传统媒体、网络媒体、移动端媒体、数字电视、数字报刊。新媒体则是通过现代化移动互联网手段，通过微信、微博等新兴媒体平台进行营销、宣传、推广等的一系列运营活动。新媒体可分为广义和狭义两个方面来理解。广义：新媒体可以看作在各种数字技术和网络技术支持下，以互联网、宽带局域网和无线通信网等为渠道，利用计算机、手机和数字电视等各种网络终端，向用户提供信息和娱乐服务的
Python爬虫代理池极客李华 python授课 python 爬虫开发语言
Python爬虫代理池网络爬虫在数据采集和信息抓取方面起到了关键作用。然而，为了应对网站的反爬虫机制和保护爬虫的真实身份，使用代理池变得至关重要。1.代理池的基本概念：代理池是一组包含多个代理IP地址的集合。通过在爬虫中使用代理池，我们能够隐藏爬虫的真实IP地址，实现一定程度的匿名性。这有助于防止被目标网站封锁或限制访问频率。2.为何使用代理池：匿名性：代理池允许爬虫在请求目标网站时使用不同的IP
如何搭建一个ip池用来做数据抓取用 KookeeyLena4 tcp/ip 网络服务器
在当今的数据驱动时代，数据抓取成为了获取网络信息的重要手段。然而，频繁的数据抓取活动可能会触发网站的安全机制，导致IP被封禁。为了维持数据抓取的持续性和稳定性，构建一个有效的IP池变得至关重要。本文将详细介绍如何搭建一个用于数据抓取的IP池，以及相关的策略和最佳实践。一、IP池的概念IP池是一个包含多个IP地址的集合，这些IP地址可以是动态的，也可以是静态的，用于在数据抓取过程中轮换使用，以避免因
从今天开始，每天爱自己多一点拿铁星人
文/妫1996我已经数不清这是第几次熬夜了。好像现在已经形成一种习惯了，明明到了该休息的时间，可是大脑却异常地兴奋，有时候要到凌晨一点多才睡得着。我也没做什么，无非就是刷刷微博，看看视频。偶尔看到有人因为熬夜而猝死的新闻，吓得我慌忙地丢下手机，老老实实地躺在床上。6月份开始，我们的工作需要排班了，但是都是做五休二，朝九晚六，问题不大。好不容易可以两天连休了，第一天睡得死死的，然后第二天早早就去了西
10个高效的Python爬虫框架，你用过几个？进击的C语言 python
小型爬虫需求，requests库+bs4库就能解决；大型爬虫数据，尤其涉及异步抓取、内容管理及后续扩展等功能时，就需要用到爬虫框架了。下面介绍了10个爬虫框架，大家可以学习使用！1.Scrapyscrapy官网：https://scrapy.org/scrapy中文文档：https://www.osgeo.cn/scrapy/intro/oScrapy是一个为了爬取网站数据，提取结构性数据而编写的
python 多线程抓取xunlei磁力下载链接 weixin_53748624 python pycharm
importurllib.requestimportreimporttimeimportthreadingclassSpider(object):def__init__(self):#定义字典，用于保存影片信息self.films_dict={}self.i=1self.lock1=threading.Lock()defstart(self):#调用下载函数，获取下载连接forpageinrang
基于Prometheus和Grafana的现代服务器监控体系构建 golove666 运维 prometheus grafana 服务器
构建一个基于Prometheus和Grafana的现代服务器监控体系涉及多个步骤。以下是大体的流程和步骤说明：1.Prometheus监控系统Prometheus是一个开源的系统监控和报警工具，专门设计用于抓取时间序列数据。1.1Prometheus的安装Docker安装Prometheusdockerrun-d--name=prometheus-p9090:9090prom/prometheus
整理微博草稿箱。（一） Miss_Orange
1在乐松的KFC｜旁边是一对正在相亲的男女；女孩子是90年的。每次看到这样的情景，我都有点感慨：感觉自己和老公到现在挺不容易的。————————————就是那种两个人从陌生到相识、到相知、到熟络，到恋爱，最后能走进婚姻，其实是需要莫大的姻缘的；每每想到这里，我都觉得应该好好珍惜。晚上跟老公谈了我的感慨；他却不以为意。这就是男女思维的差异吧……2现在每一次周末会面，更像是一种治愈。让我看到自己曾经的
文章马伊琍离婚：破镜终究难重圆慕斯姑娘
28日下午，娱乐圈最劲爆的新闻莫过于文章马伊琍在微博宣布离婚，至此两人以相对和平的方式结束了11年的婚姻，这场曾被全国上下熟知的出轨原谅婚姻，终究在5年之后宣布结束，其中滋味，恐怕只有当事人自己最清楚。01此情有憾，好聚好散在此次双方对外宣布分开时，文章发文称“吾爱伊琍，同行半路，一别两宽，余生漫漫，依然亲情守候”。马伊琍发文则为“你我深爱过，努力过，彼此成就过。此情有憾，然无对错。往后，各生欢喜
hhhh 贫穷吊轩
HE素材：微博正文：“嘿！”“你干嘛！”睡到一半被叫起来让我有点生气同桌似乎被我吓了吓，瘪瘪嘴有些委屈我揉了揉头，坐正身子向她道歉“课间晒的太久，有点头疼”“嘘，小声点，老师看你呢”讲台上的班主任正看着我，对我上课睡觉又讲话的行为有点无奈我朝他歉意的笑了笑，揉了揉头表示头疼同桌跟他请求带我去医务室哎，女人真麻烦头疼这种老毛病睡一觉就好了啊还是没有说服这个顽固的女人，只好被她拎着去医务室坐下看见我皱
读书笔记|碎片化写作听雨Jack
在现代职场，总的趋势就是工作时间越来越碎片化，即使在没有微博微信的时代，我们的工作时间也早就被电话、邮件、QQ、会议打断成了碎片，而微博、微信这样的移动媒体只是加剧了这一趋势。这就需要我们利用碎片时间完成系统化工作。对于写作这件事，可以使用碎片化写作法：一份完整的文章=1分钟灵感+5分钟构思+5分钟提纲+5分钟素材+…+3分钟素材+半小时高效写作+5分钟排版+5分钟配图+1分钟推送+1分钟回复评论
《地震有感》 L林溪
宜宾的冬天阴阴沉沉了好久，终于迎来了今天的艳阳天，整个人因为天气的晴朗变得都很舒畅。中午午饭的时间，室友妈妈焦急打来了一个电话，是询问我们这边地震的情况，那个时候我们才知道原来发生了地震。图片发自App赶紧打开微博搜索一下，才知道在隔得不远处的县发生了5.7级地震。就在我和男朋友互发消息我觉得网咋突然变得不好的那个时候。我们都笑着说丝毫没有震感，朋友圈倒是地震的消息炸开了，于是嘻嘻哈哈各自去干自己
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe