zekizz

python +selenium+phantomjs 登录爬取新浪微博动态js页面

登录新浪微博

最近新浪微博好烦，都取消不了验证码这个难搞得东西，而且跳来跳去，一改版以前的代码就都不能用了。目前整理的资料有三种方法：

 1. 设Cookie：简单粗暴，免去了模拟登录的好多麻烦，只是要定期更新
 2. 模拟登录：验证码是个大麻烦，有把验证码图片截下来，本地识别控制台输入验证
 3. 扫码登录 ：用app的扫码登录

其实除了设cookie ，在有验证码下，后两种方法差不多，都要人工干预。设cookie就不再说了。下面给出后两种方法的代码，代码来自GitHub - xchaoinfo/fuck-login: 模拟登录一些知名的网站，为了方便爬取需要登录的网站

模拟登录

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'''
Required
- requests (必须)
- rsa (必须)
- pillow (可选)
Info
- author : "xchaoinfo"
- email  : "[email protected]"
- date   : "2016.3.7"
'''
import time
import base64
import rsa
import binascii
import requests
import re
import random
try:
    from PIL import Image
except:
    pass
try:
    from urllib.parse import quote_plus
except:
    from urllib import quote_plus

'''
如果没有开启登录保护，不用输入验证码就可以登录
如果开启登录保护，需要输入验证码

'''


# 构造 Request headers
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'
headers = {
    'User-Agent': agent
}

session = requests.session()

# 访问 初始页面带上 cookie
index_url = "http://weibo.com/login.php"
try:
    session.get(index_url, headers=headers, timeout=2)
except:
    session.get(index_url, headers=headers)
try:
    input = raw_input
except:
    pass


def get_su(username):
    """
    对 email 地址和手机号码 先 javascript 中 encodeURIComponent
    对应 Python 3 中的是 urllib.parse.quote_plus
    然后在 base64 加密后decode
    """
    username_quote = quote_plus(username)
    username_base64 = base64.b64encode(username_quote.encode("utf-8"))
    return username_base64.decode("utf-8")


# 预登陆获得 servertime, nonce, pubkey, rsakv
def get_server_data(su):
    pre_url = "http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su="
    pre_url = pre_url + su + "&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.18)&_="
    pre_url = pre_url + str(int(time.time() * 1000))
    pre_data_res = session.get(pre_url, headers=headers)

    sever_data = eval(pre_data_res.content.decode("utf-8").replace("sinaSSOController.preloginCallBack", ''))

    return sever_data


# print(sever_data)


def get_password(password, servertime, nonce, pubkey):
    rsaPublickey = int(pubkey, 16)
    key = rsa.PublicKey(rsaPublickey, 65537)  # 创建公钥
    message = str(servertime) + '\t' + str(nonce) + '\n' + str(password)  # 拼接明文js加密文件中得到
    message = message.encode("utf-8")
    passwd = rsa.encrypt(message, key)  # 加密
    passwd = binascii.b2a_hex(passwd)  # 将加密信息转换为16进制。
    return passwd


def get_cha(pcid):
    cha_url = "http://login.sina.com.cn/cgi/pin.php?r="
    cha_url = cha_url + str(int(random.random() * 100000000)) + "&s=0&p="
    cha_url = cha_url + pcid
    cha_page = session.get(cha_url, headers=headers)
    with open("cha.jpg", 'wb') as f:
        f.write(cha_page.content)
        f.close()
    try:
        im = Image.open("cha.jpg")
        im.show()
        im.close()
    except:
        print(u"请到当前目录下，找到验证码后输入")


def login(username, password):
    # su 是加密后的用户名
    su = get_su(username)
    sever_data = get_server_data(su)
    servertime = sever_data["servertime"]
    nonce = sever_data['nonce']
    rsakv = sever_data["rsakv"]
    pubkey = sever_data["pubkey"]
    showpin = sever_data["showpin"]
    password_secret = get_password(password, servertime, nonce, pubkey)

    postdata = {
        'entry': 'weibo',
        'gateway': '1',
        'from': '',
        'savestate': '7',
        'useticket': '1',
        'pagerefer': "http://login.sina.com.cn/sso/logout.php?entry=miniblog&r=http%3A%2F%2Fweibo.com%2Flogout.php%3Fbackurl",
        'vsnf': '1',
        'su': su,
        'service': 'miniblog',
        'servertime': servertime,
        'nonce': nonce,
        'pwencode': 'rsa2',
        'rsakv': rsakv,
        'sp': password_secret,
        'sr': '1366*768',
        'encoding': 'UTF-8',
        'prelt': '115',
        'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
        'returntype': 'META'
        }
    login_url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)'
    if showpin == 0:
        login_page = session.post(login_url, data=postdata, headers=headers)
    else:
        pcid = sever_data["pcid"]
        get_cha(pcid)
        postdata['door'] = input(u"请输入验证码")
        login_page = session.post(login_url, data=postdata, headers=headers)
    login_loop = (login_page.content.decode("GBK"))
    # print(login_loop)
    pa = r'location\.replace\([\'"](.*?)[\'"]\)'
    loop_url = re.findall(pa, login_loop)[0]
    # print(loop_url)
    # 此出还可以加上一个是否登录成功的判断，下次改进的时候写上
    login_index = session.get(loop_url, headers=headers)
    uuid = login_index.text
    uuid_pa = r'"uniqueid":"(.*?)"'
    print uuid
    uuid_res = re.findall(uuid_pa, uuid, re.S)[0]
    web_weibo_url = "http://weibo.com/%s/profile?topnav=1&wvr=6&is_all=1" % uuid_res
    weibo_page = session.get(web_weibo_url, headers=headers)
    weibo_pa = r'(.*?)'
    # print(weibo_page.content.decode("utf-8"))
    userID = re.findall(weibo_pa, weibo_page.content.decode("utf-8", 'ignore'), re.S)[0]
    print(u"欢迎你 %s, 你在正在使用 xchaoinfo 写的模拟登录微博" % userID)


if __name__ == "__main__":
    # username = input(u'用户名：')
    # password = input(u'密码：')
    username = "*****"
    password = "*****"
    login(username, password)

扫码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
'''
在python2.7中测试通过
Required
- requests (必须)
- pillow (可选)
Info
- author : "fangc"
- email  : "[email protected]"
- date   : "2016.3.16"
'''
import requests
import cookielib
import time
import re
import sys

try:
    from PIL import Image
except:
    pass
import threading

# 构造 Request headers
agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0'
headers = {
    'User-Agent': agent
}

session = requests.session()
session.cookies = cookielib.LWPCookieJar('weibo_cookies.txt')

# 访问 初始页面带上 cookie
index_url = "http://weibo.com/"
try:
    session.get(index_url, headers=headers, timeout=2)
except:
    session.get(index_url, headers=headers)


def open_img(image_name):
    """打开图片
    :param image_name: 图片的路径
    :return:
    """
    im = Image.open(image_name)
    im.show()
    im.close()


def login():
    """登录主函数
    :return:
    """
    image_name, qrcode_qrid = get_qrcode()
    try:
        # TODO(@fangc):用此方法打开图片不会退出，可以直接命令行用open打开，粗暴简单.
        thread = threading.Thread(target=open_img, name="open", args=(image_name,))
        thread.start()
        print(u"请用手机微博扫描二维码"
              u"微博二维码扫描在主页右上角!")
    except:
        print(u"请到当前目录下，打开二维码后用手机微博扫描二维码"
              u"微博二维码扫描在主页右上角!")
    # 下面判断是否已经扫描了二维码
    statu = 0
    while not statu:
        qrcode_check_page = scan_qrcode(qrcode_qrid, str(long(time.time() * 10000)))
        if "50114002" in qrcode_check_page:
            statu = 1
            print(u"---成功扫描，请在手机点击确认以登录---")
        time.sleep(2)

    # 下面判断是否已经点击登录,并获取alt的内容
    while statu:
        qrcode_click_page = scan_qrcode(qrcode_qrid, str(long(time.time() * 100000)))
        if "succ" in qrcode_click_page:
            # 登录成功后显示的是如下内容,需要获取到alt的内容
            # {"retcode":20000000,"msg":"succ","data":{"alt":"ALT-MTgxODQ3MTYyMQ==-sdfsfsdfsdfsfsdf-39A12129240435A0D"}}
            statu = 0
            alt = re.search(r'"alt":"(?P[\w\-\=]*)"', qrcode_click_page).group("alt")
            print(u"---登录成功---")
        time.sleep(2)

    # 下面是登录请求获取登录的跨域请求
    params = {
        "entry": "weibo",
        "returntype": "TEXT",
        "crossdomain": 1,
        "cdult": 3,
        "domain": "weibo.com",
        "alt": alt,
        "savestate": 30,
        "callback": "STK_" + str(long(time.time() * 100000))
    }
    login_url_list = "http://login.sina.com.cn/sso/login.php"
    login_list_page = session.get(login_url_list, params=params, headers=headers)
    # 返回的数据如下所示，需要提取出4个url
    # STK_145809336258600({"retcode":"0","uid":"1111111","nick":"*****@sina.cn","crossDomainUrlList":
    # ["http:***************","http:\/\***************","http:\/\/***************","http:\/\/***************"]});
    url_list = [i.replace("\/", "/") for i in login_list_page.content.split('"') if "http" in i]
    for i in url_list:
        session.get(i, headers=headers)
        time.sleep(0.5)
    session.cookies.save(ignore_discard=True, ignore_expires=True)
    print(u"欢迎你, 你在正在使用 fangc 写的模拟登录微博")
    is_login()


def get_qrcode():
    """获取二维码图片以及二维码编号
    :return: qrcode_image, qrcode_qrid
    """
    qrcode_before = "http://login.sina.com.cn/sso/qrcode/image?entry=weibo&size=180&callback=STK_" + str(
        long(time.time() * 10000))
    qrcode_before_page = session.get(qrcode_before, headers=headers)
    if qrcode_before_page.status_code != 200:
        sys.exit(u"可能微博改了接口!请联系作者修改")
    qrcode_before_data = qrcode_before_page.content
    qrcode_image = re.search(r'"image":"(?P.*?)"', qrcode_before_data).group("image").replace("\/", "/")
    qrcode_qrid = re.search(r'"qrid":"(?P[\w\-]*)"', qrcode_before_data).group("qrid")
    cha_page = session.get(qrcode_image, headers=headers)
    image_name = u"cha." + cha_page.headers['content-type'].split("/")[1]
    with open(image_name, 'wb') as f:
        f.write(cha_page.content)
        f.close()
    return image_name, qrcode_qrid


def scan_qrcode(qrcode_qrid, _time):
    """判断是否扫码等需要
    :param qrcode_qrid:
    :return: html
    """
    params = {
        "entry": "weibo",
        "qrid": qrcode_qrid,
        "callback": "STK_" + _time
    }
    qrcode_check = "http://login.sina.com.cn/sso/qrcode/check"
    return session.get(qrcode_check, params=params, headers=headers).content


def is_login():
    """判断是否登录成功
    :return: 登录成功返回True，失败返回False
    """
    try:
        session.cookies.load(ignore_discard=True, ignore_expires=True)
    except:
        print(u"没有检测到cookie文件")
        return False
    url = "http://weibo.com/"
    my_page = session.get(url, headers=headers)
    if "我的首页" in my_page.content:
        return True
    else:
        return False


if __name__ == '__main__':
    login()
    url = "http://weibo.com/zhangfeng0729?from=friends_dynamic&refer_flag=0000011002_&is_hot=1"
    page = session.get(url, headers=headers)
    # print session.cookies
    print page.content

完成了上述工作只是能访问页面而已，但是获取的页面是js动态生成的，什么都搞不到！好伤！
比如 http://weibo.com/zhangfeng0729?from=friends_dynamic&refer_flag=0000011002_&is_hot=1
请求会得到

什么鬼，关键部分什么都没有，再看看浏览器解析的

PhantomJS

基础的爬虫只能爬取单纯的html代码，但是有很多页面是js渲染的，html源码里面神马都没有。这是就需要借助于像浏览器一样渲染js页面的工具了。

PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准：DOM 操作，CSS选择器，JSON，Canvas 以及SVG。

下载地址：http://phantomjs.org/download.html

该部分参考
1. 网易新闻评论爬虫python+selenium+PhantomJS
2. Setting timeout on selenium webdriver.PhantomJS

默认方式会加载整个页面，包括css ,js，图片，链接等，上面参考2 设置等待时间，不加载图片，启用缓存等，会让加载速度加快

不说了，直接上代码

# coding=utf-8

import requests
from selenium import webdriver
import time

url = "http://weibo.com/zhangfeng0729?from=friends_dynamic&refer_flag=0000011002_&is_hot=1"


# webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.Cookie'] = 'SINAGLOBAL=3955422793326.2764.1451802953297; wb_publish_vip_1888964862=2; YF-Page-G0=9a31b867b34a0b4839fa27a4ab6ec79f; _s_tentry=123.sogou.com; Apache=3233757158741.355.1460597853009; ULV=1460597853022:23:7:4:3233757158741.355.1460597853009:1460533608651; YF-V5-G0=24e0459613d3bbdec61239bc81c89e13; YF-Ugrow-G0=3a02f95fa8b3c9dc73c74bc9f2ca4fc6; login_sid_t=9c9ff740ffffbdf23415b871aa319ec0; TC-Ugrow-G0=e66b2e50a7e7f417f6cc12eec600f517; TC-V5-G0=7e5b74ea4beaaa98b5f592db11c2eeb9; myuid=5898063885; TC-Page-G0=1e758cd0025b6b0d876f76c087f85f2c; wvr=6; SSOLoginState=1460604791; [email protected]; user_active=201604141220; user_unver=b37741d33507619aa07b6d512be0dd67; SUS=SID-5898063885-1460616073-XD-a0vlz-c7f218016d290c52b4297371d3942ce7; SUE=es%3D5ec8e6a39470b9d75e4cf930977a7449%26ev%3Dv1%26es2%3D2b500477fcc5dc1560b4aee4d5ca9be5%26rs0%3Daeb6LPcKR9mfwMB31yJquO6NSXgRd9BpSLAcKEdCQjtUOM7pIzDblRVIOOItI22Uc6pLjTxUc6k7s0zIgIxar9JlVdPjOiHEGijE2ucUP6GjFv%252BJWntWR7szF3qcWknPBJzemeHiThBGRF0bAcNFHcH%252BY9VfrTaIVjXCUsO93B8%253D%26rv%3D0; SUP=cv%3D1%26bt%3D1460616073%26et%3D1460702473%26d%3Dc909%26i%3D2ce7%26us%3D1%26vf%3D0%26vt%3D0%26ac%3D27%26st%3D0%26uid%3D5898063885%26name%3D1654916845%2540qq.com%26nick%3Dforfun2016%26fmp%3D%26lcp%3D; SUB=_2A256C0vZDeTxGeNG4loR9i3EwzmIHXVZYToRrDV8PUJbvNAPLXX2kW9LHet_3CJqcXTqa57ddP1X0MxCpd6bSA..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WhFdfTB9.lOPTcSpGQskYri5JpX5K-t; SUHB=0z1QUpglvHBm_i; ALF=1492143611; UOR=far.tooold.cn,widget.weibo.com,login.sina.com.cn; WBtopGlobal_register_version=ab9111fb56d70a2b'

#这个地方可以设置 header, 代理等一些参数
cap = webdriver.DesiredCapabilities.PHANTOMJS
cap["phantomjs.page.settings.resourceTimeout"] = 1000
cap["phantomjs.page.settings.loadImages"] = False
cap["phantomjs.page.settings.disk-cache"] = True
cap["phantomjs.page.customHeaders.Cookie"] = 'SINAGLOBAL=3955422793326.2764.1451802953297; ' #我删掉了一大部分

# browser = webdriver.PhantomJS(desired_capabilities=cap)

driver = webdriver.PhantomJS(executable_path="G:\\code\\python\\phantomjs-2.1.1\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe", desired_capabilities=cap)
driver.set_window_size(1120, 1000000)
driver.get(url)

# if diver.find_element_by_link_text("下一页"):
#    pass
# else:
#     time.sleep(1)


contents = driver.find_elements_by_class_name("WB_cardwrap")
for content in contents:
    print content.text

输出结果为

691
关注
37193
粉丝
3305
微博
添加粉丝群
微关系
共同关注(1)
微博客服
查看更多 a
文章 [9]

十大银行员工薪酬调查：平均年薪最低22万也算寒冬？

据说看过这篇文章的同学都考上了银行
查看更多 a
相册
查看更多a
银行校园招聘张峰的粉丝也关注
银行招聘网官博
银行招聘网(yinhangzhaopin.com)官方微博
+关注
银行招聘资讯...
微信公众账号：yinhangqiuzhi 汇集银行招聘信息，全方位解读银行招聘笔试面试历年真题、考查知识点、复习重点，为你敲开银行大门。
+关注
应届生求职网
应届生求职网YingJieSheng.COM官方微博，网址：http://www.yingjiesheng.com
+关注
更多 a
微盘文件分享
2014年银行校园招聘答疑
分享者：银行校园招聘张峰
浏览量:715
分享
银行面试到底是什么？
分享者：银行校园招聘张峰
浏览量:1201
分享
2013年中国农业银行校园招聘备考专用
分享者：银行校园招聘张峰
浏览量:6274
分享
更多 a
赞
##后面的省略
...

解析是解析出来了，但是还是存在一个大问题

新浪微博在浏览器中也是，他不会一次性给你加载完一页，等到你将页面滑到第才给你加载完，好烦啊！这样模拟点下一页也搞不成！！

废了好长时间，还没找到解决方法，麻烦知道的给我留言通知声，万分感谢！！！

先这样吧，之后再慢慢了解phantomjs 的详情，搞一些高级的用法

C动态库的生成与在Python和QT中的调用方法琳琳简单点 python 开发语言 qt c++c语言
目录一、动态库生成1）C语言生成动态库2）c++类生成动态库二、动态库调用1）Python调用DLL2）QT调用DLL三、存在的一些问题1）python调用封装了类的DLL可能调用不成功2）DLL格式不匹配的问题四、总结动态库文件在程序开发中运用很常见，但C和C++代码生成动态库文件，以及在使用时均存在一些差异，本文对两者的差异进行了讲解，并通过具体的实例加以说明。实例均在Windows系统下进行
python链接hbase模块_Python连接Hbase weixin_40001395 python链接hbase模块
1、安装Hbase库pipinstallhappybase2、连接Hbase2.1、查看Hbase配置image.png2.2、使用happyhase连接hbaseimporthappybase#注意protocol和transport这两个参数，需要和hbase启动命令中的相同，否则会报错connection=happybase.Connection('qa-cdh-001',port=9090
python的应用领域主要有_Python的应用领域有哪些？ weixin_39658966 python的应用领域主要有
Python的应用领域有哪些？Python是一门简单、易学并且很有前途的编程语言，很多人都对Python感兴趣，但是当学完Python基础用法之后，又会产生迷茫，尤其是自学的人员，不知道接下来的Python学习方向，以及学完之后能干些什么？以下是Python十大应用领域！1.WEB开发Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库，可以实现web开发，搭
安卓python安装库_安卓termux折腾手记：安装python库+tasker调用 weixin_39628380 安卓python安装库
1.termux简介1.1简介termux是安卓手机上的一款软件，相当于在安卓上搭建了一个Linux平台，所以在Linux上能干的事情很多在手机上也都办得到，比如本文就是介绍与python相关的内容。实际上，得益于安卓平台的开放性，类似termux的手机神器着实不少。不说各类强大的编程IDE，单是termux这样的Linux平台类软件就很多，如GnuRoot系列，LinuxDisplay系列等。这
termux使用教程python-Termux折腾记--进阶之python库使用 weixin_37988176
sshdTermux超级终端折腾记Termux超级终端的牛x之处我就不在这里描述了。这次讲的是如何在android手机上安装python的各种科学库和图形库。Jupyter是这次介绍的重点对象，先卖个关子，不忙介绍它。1.Termux超级终端下载Termux的下载链接极其介绍见我的其他博文2.安装python这一步只是作为一个提示，因为现在你不管是装Linux终端还是linux完整发行版，pyth
python packge index 的使用 weixin_34199335 python 开发工具
pythonpackgeindex（PyPI）是Python编程语言的软件存储库。可用下载各种常用库，以及自己制作并上传库官方网站https://pypi.python.org安装pip3installpymysql安装完的库在python根目录下的lib\sitepackgs\目录下如果需要在命令行窗口直接运行pip3需要配置python根目录下的script目录为环境变量转载于:https:/
精通Python (21) 码商行者人工智能 python 人工智能
Python语言进阶之并发编程Python中实现并发编程的三种方案：多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验；坏处在于并发的程序不容易开发和调试，同时对其他程序来说它并不友好。一，多线程Python中提供了Thread类并辅以Lock、Condition、Event、Semaphore和Barrier。Python中有GIL来防止多个线程同时执行本地字节
搭建本地Python Package Index(pypi)源 tmpbook python
准备一台有外网的机器：nginxpython>=2.7（needreadline-devel,sqlite-devel）1.安装pip2pipipinstallpip2pi2.创建存放软件包的仓库mkdir-d/opt/python/soft/pypi.kevingao.net/3.下载某个包和某些包并建立索引单独下载pip2tgz/opt/python/soft/pypi.kevingao.ne
python 语音识别柚梓sir 神经网络语音识别人工智能
在python中训练一个语音识别系统主要需要以下几个步骤：-语料库准备-数据预处理-特征提取-训练模型第一部分：语料库的准备什么是语料库？语料库长什么样？语料库由两部分组成，第一部分是语音，第二部分是玉莹的标注，通常为字符形式。本次项目中，我们选用的语料库是THCHS-30，这个语料库是在安静的办公室环境下，由录音人员用普通话朗读新闻的语音作为数据，总时长超过30个小时。我们利用语料库，构造转换字
python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
字符串 5. 实现 strStr() （KMP算法初探） Mophead_Zarathustra Mophead的小白刷题笔记 leetcode python 代码随想录字符串 KMP算法
字符串5.实现strStr()（KMP算法初探）28.找出字符串中第一个匹配项的下标-力扣（LeetCode）代码随想录难度3-简单（但是个人觉得用KMP算法解决并不简单）（可以直接拉到最后看KMP算法的python实现，已做好详细注释，可结合注释进行理解）看题目感觉用python不难实现，因此直接给出代码如下：代码v1，利用python的字符串比较：classSolution:defstrStr
PyPi 是什么 HoneyMoose CS
pypi是PythonPackageIndex的首字母简写，其实表示的是Python的Packag索引，这个也是Python的官方索引。你需要的包（Package）基本上都可以从这里面找到。作为开源软件，你也希望能够贡献你的Package到这里供其他用户使用。我们举个栗子，如果你希望你的Python程序能够下载金融数据，目前比较好用的金融数据来源是Yahoo和Google。你可能需要读取这2个平台
华为OD机试E卷 --字符串化繁为简 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c++算法源码题目描述给定一个输入字符串，字符串只可能由英文字母(az、AZ)和左右小括号(、)组成当字符里存在小括号时，小括号是成对的，可以有一个或多个小括号对，小括号对不会嵌套，小括号对内可以包含1个或多个英文字母也可以不包含英文字母。当小括号对内包含多个英文字母时，这些字母之间是相互等效的关系，而且等
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
python中!ls -r_光学现象的Python实现 weixin_39838798 python中!ls -r
“Youwillseelightinthedarkness。Youwillmakesomesenseofthis.”“你终将于黑暗中触摸白昼，它将如影般随行。”如果说20世纪是电子的世界，那么21世纪就是光学的舞台。光学和光子学无处不在：智能手机和计算设备上的显示方式，互联网中承载信息的光纤，先进的精密制造，大量的生物医学应用终端，全光衍射神经网络等。对光学的深入理解为每一个学习物理和工程的同学带
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
python实战项目27：boss直聘招聘数据可视化分析 wp_tao Python副业接单实战项目信息可视化 python 数据分析
boss直聘招聘数据可视化分析一、数据预处理二、数据可视化三、完整代码一、数据预处理在上一篇博客中，笔者已经详细介绍了使用selenium爬取南昌市web前端工程师的招聘岗位数据，数据格式如下：这里主要对薪水列进行处理，为方便处理，将日薪和周薪的数据删除，将带有13薪和14薪的数据也删除，计算出最低薪资、最高薪资和平均薪资三列。数据预处理代码如下：importpandasaspddf=pd.rea
Python 3 中使用 SMTP 发送邮件：高级技巧与应用三带俩王 python 网络服务器
在现代的软件开发和自动化流程中，发送电子邮件是一项常见的任务。Python3提供了强大的工具来实现这一功能，特别是通过使用SMTP（SimpleMailTransferProtocol）协议。本文将深入探讨Python3中使用SMTP发送邮件的高级用法，展示其在不同场景下的灵活性和强大功能。一、SMTP简介SMTP是一种用于发送电子邮件的协议。它允许客户端（如Python程序）与邮件服务器进行通信
Python 在股票分析中的高级应用：挖掘金融数据的深度洞察三带俩王 python 金融开发语言
在当今的金融世界中，股票分析是投资者和金融从业者必备的技能。Python作为一种强大且灵活的编程语言，为股票分析提供了丰富的工具和技术。本文将深入探讨使用Python进行股票分析的高级用法，涵盖从数据获取与清洗、高级分析指标计算到机器学习和深度学习在股票分析中的应用等多个方面。一、数据获取与预处理：构建坚实的分析基础1.数据来源与获取直接从证券交易所获取数据：许多证券交易所提供了数据接口，例如，上
Python 中的complex(real[, imag])函数：高级用法与强大功能三带俩王 python 开发语言算法
在Python中，complex(real[,imag])函数是一个用于创建复数的强大工具。复数在数学、物理学、工程学等领域中有着广泛的应用，而Python的complex类型为我们提供了便捷的方式来处理复数。本文将深入探讨complex(real[,imag])函数的高级用法，展示其在不同场景下的强大功能。一、复数的基本概念复数是由实数和虚数组成的数，通常表示为a+bj的形式，其中a和b是实数，
python 利用 ddddocr包 ocr识别图片码风_流沙 python工具备忘录 python ocr 开发语言
ddddocr是一个轻量级的OCR（光学字符识别）库，适用于识别图片中的文字，包括验证码等图像文本。要使用ddddocr进行图片验证码的识别，可以按照以下步骤进行：1.安装ddddocr包首先，你需要安装ddddocr包。你可以使用pip安装：pipinstallddddocr2.使用ddddocr进行OCR识别importddddocr#创建OCR对象ocr=ddddocr.DdddOcr()#
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
Python 中的异常处理：try except Exception as e 三带俩王 python
在Python编程中，异常处理是一项至关重要的技能，它可以帮助我们提高程序的稳定性和可靠性。其中，tryexceptExceptionase语句是一种常见的异常处理方式。在这篇博客中，我们将深入探讨这个语句的要点和高级用法。一、异常处理的重要性在编程过程中，错误是不可避免的。这些错误可能是由于用户输入错误、文件不存在、网络连接问题等原因引起的。如果我们不处理这些错误，程序可能会崩溃，导致数据丢失或
python中的CSV模块一粒微尘_1 Python基础 python 开发语言后端
1、查询CSV模块中都有哪些函数和功能？①通过dir()函数查询CSV模块都有哪些函数importcsvforiindir(csv):print(i)②搜索CSV模块的官方教程’https://docs.python.org/3.6/library/csv.html‘③搜索中文教材’https://yiyibooks.cn/xx/python_352/library/csv.html#module
python爱心代码高级 youyouxiong python 开发语言
在Python中，绘制爱心图案可以通过多种方式实现，包括使用turtle模块、matplotlib库或者PIL库。以下是一些使用这些库绘制爱心的高级方法：使用turtle模块绘制动画爱心importturtleimportmathdefdraw_heart(t,size):""“绘制爱心的函数”""t.begin_fill()a=2*math.pit.circle(size,a/2)t.circl
Python李峋同款跳动的爱心代码（可写字版）雪碧没气阿 python 数据库开发语言 ide webstorm 爬虫
一年前小编曾用python编写过跳动的爱心代码，不知道有多少小伙伴们已经学会了呢，最近小编在用c语言和java编写跳动的爱心的时候，发现之前用python编写跳动的爱心时没有添加文字，这不，小编立马翻出之前的代码一顿操作，给大家带来了更新后的爱心，快来看看趴~（附详细分析哦）环境PythonPyCharm跳动的爱心运行结果完整程序importtkinterastkimporttkinter.mes
Apache Airflow 2.1.2：开源工作流管理系统的全面指南銀河鐵道的企鵝
本文还有配套的精品资源，点击获取简介：ApacheAirflow2.1.2是一个开源的工作流管理系统，用于编排、调度和监控复杂的业务逻辑。它基于DAG（有向无环图）概念，通过Python代码定义任务的Operator，定义任务的执行顺序和条件。该版本提供了任务调度、监控、错误处理、插件扩展和多环境管理等核心功能。解压后包含许可证文件、文档和源代码目录等，且介绍了安装和运行步骤。Airflow适用于
python无法启动此程序因为_(python shell怎么用)为啥我按照python安装教程，总说无法启动此程序，因为计算机中丢失？... weixin_39540023 python无法启动此程序因为
python3.8遍历整个列表？你打印的是colorprint(color)不对应该是magician为啥我按照python安装教程，总说无法启动此程序，因为计算机中丢失？这是你windows操作文件丢失的，和python无关。首先去网上搜索下载api-ms-win-crt-process-l1-1-0.dll文件载完毕后，把dll文件放到C:\Windows\System32下即可。如果下载的d
举例说明Python的CSV模块 weixin_30556161 python
举例说明Python的CSV模块byGaryJia—上次修改时间:2007-11-3017:28文章标签pythonzope举几个例子来介绍一下，Python的CSV模块的使用方法，包括，reader,writer,DictReader,DictWriter.register_dialect一直非常喜欢python的csv模块，简单易用，经常在项目中使用，现在举几个例子说明一下。reader(cs
Python爬虫实战：解析京东商品信息（附部分源码）是有头发的程序猿 API API接口 python 爬虫开发语言
在信息爆炸的今天，网络爬虫（WebScraping）作为一种自动获取网页内容的技术，已经成为数据采集的重要手段。Python，因其简洁的语法和强大的库支持，成为编写爬虫的首选语言之一。本文将通过一个实战案例，展示如何使用Python编写爬虫，以京东商品页面为例，解析商品信息。环境准备在开始编写爬虫之前，需要准备以下环境和工具：Python3.x网络请求库：requestsHTML解析库：Beaut
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

python +selenium+phantomjs 登录爬取新浪微博动态js页面

登录新浪微博

模拟登录

扫码

PhantomJS

你可能感兴趣的:(python)