Python之简

Scrapy爬取猫眼电影评论

Scrapy爬取猫眼电影评论

文章目录

Scrapy爬取猫眼电影评论

1、寻找评论接口
2、分析接口URL

接口URL规律
构造URL接口
分析JSON参数

3、Scrapy代码

spiders文件
Item文件
piplines
settings文件

4、爬取结果
5、Scrapy-Redis

修改爬虫文件
修改setting文件
进行分布式部署

目标：地址

1、寻找评论接口

将浏览器模式从PC切换为手机

2、分析接口URL

第一个URL：http://m.maoyan.com/mmdb/comments/movie/1216446.json?_v_=yes&offset=0&startTime=0
第二个URL：http://m.maoyan.com/mmdb/comments/movie/1216446.json?_v_=yes&offset=15&startTime=2018-10-11%2015%3A19%3A05
第三个URL：http://m.maoyan.com/mmdb/comments/movie/1216446.json?_v_=yes&offset=30&startTime=2018-10-11%2015%3A19%3A05

接口URL规律

在offset=0时，startTime也为0，之后就是offest每次增加15，startTime也变为固定时间。

我们来看第一条评论（非热评）时间3分钟前，startTime时间是2018-10-11 15:19:05，我电脑的时间是15:22:04所以，这个startTime时间就是最新一条评论时间。

构造URL接口

1216446：表示电影id
offset：表示偏移量
startTime：最新一条评论的时间

我们获取最新一条评论的时间，设为固定值，然后将offset每次便宜量增加15就成功构造该请求了。

分析JSON参数

cmts：普通评论，每次获取15条，因为便宜量offset为15。
hcmts：热门评论10条
total：评论总数

{
"approve": 3913,
"approved": false,
"assistAwardInfo": {
"avatar": "",
"celebrityId": 0,
"celebrityName": "",
"rank": 0,
"title": ""
},
"authInfo": "",
"avatarurl": "https://img.meituan.net/avatar/7e9e9348115c451276afffda986929b311657.jpg",
"cityName": "深圳",
"content": "脑洞很大，有创意，笑点十足又有泪点，十分感动，十分推荐。怀着看喜剧电影去看的，最后哭了个稀里哗。确实值得一看，很多场景让我回忆青春，片尾的旧照片更是让我想起了小时候。",
"filmView": false,
"gender": 1,
"id": 1035829945,
"isMajor": false,
"juryLevel": 0,
"majorType": 0,
"movieId": 1216446,
"nick": "lxz367738371",
"nickName": "发白的牛仔裤",
"oppose": 0,
"pro": false,
"reply": 94,
"score": 5,
"spoiler": 0,
"startTime": "2018-08-17 03:30:37",
"supportComment": true,
"supportLike": true,
"sureViewed": 0,
"tagList": {},
"time": "2018-08-17 03:30",
"userId": 1326662323,
"userLevel": 2,
"videoDuration": 0,
"vipInfo": "",
"vipType": 0
},

cityname：所在城市
content：评论内容
gender：性别
id：评论者的id
nickname：评论者昵称
userlevel：评论者猫眼等级
score：评分（满分5）
time：评论时间

3、Scrapy代码

spiders文件

构造起始请求URL

class Movie1Spider(scrapy.Spider):
    name = 'movie1'
    allowed_domains = ['m.maoyan.com']
    base_url = 'http://m.maoyan.com/mmdb/comments/movie/{}.json?_v_=yes&offset={}&startTime={}'

    def start_requests(self):
        time_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
        url = self.base_url.format(MOVIE_ID, 0, quote(time_now))
        yield Request(url=url)

从JSON数据中获取，参数信息。
在进行爬取的时候当固定一个时间并不能一直爬取，当一个固定时间只能爬取到offset=1005，再往后面就没数据了，当爬取到第一条评论的时候后，再往前爬取，会得到电影上映时间的评论。
所以代码终止的条件就是，当评论中的时候大于URL中的请求时间。

    def parse(self, response):
        last_time = re.search(r'startTime=(.*)', response.url).group(1)  # url中的时间
        response = json.loads(response.text)
        cmts = response.get('cmts')
        for cmt in cmts:
            global time
            maoyan_item = MaoyanItem()
            maoyan_item['id'] = cmt.get('id')
            maoyan_item['nickname'] = cmt.get('nickName')
            maoyan_item['gender'] = cmt.get('gender')
            maoyan_item['cityname'] = cmt.get('cityName')
            maoyan_item['content'] = cmt.get('content')
            maoyan_item['score'] = cmt.get('score')
            time = cmt.get('startTime')
            maoyan_item['time'] = time
            maoyan_item['userlevel'] = cmt.get('userLevel')
            if quote(time) > last_time:  # 当评论的时间大于url中的时间
                break
            yield maoyan_item
        if quote(time) < last_time:  # 最后一条评论小于url中的时间
            url = self.base_url.format(MOVIE_ID, 15, quote(time))   # 使用评论最后一条的时间
            yield Request(url=url, meta={'next_time': time})

Item文件

class MaoyanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    table = 'movie'
    id = Field()  # ID
    nickname = Field()  # 名称
    gender = Field()  # 性别
    cityname = Field()  # 城市名称
    content = Field()  # 评论内容
    score = Field()  # 评分
    time = Field()  # 评论时间
    userlevel = Field()  # 评论者等级

piplines

保存信息到Mysql数据库

class MaoyanPipeline(object):
    def __init__(self, host, databases, user, password, port):
        self.host = host
        self.databases = databases
        self.user = user
        self.password = password
        self.port = port

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            databases=crawler.settings.get('MYSQL_DATABASES'),
            user=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD'),
            port=crawler.settings.get('MYSQL_PORT'),
        )

    def open_spider(self, spider):
        try:
            self.db = pymysql.connect(self.host, self.user, self.password, self.databases, charset='utf8',
                                      port=self.port)
            self.db.ping()
        except:
            self.db = pymysql.connect(self.host, self.user, self.password, self.databases, charset='utf8',
                                      port=self.port)
        self.curosr = self.db.cursor()

    def process_item(self, item, spider):
        data = dict(item)
        keys = ','.join(data.keys())
        values = ','.join(['%s'] * len(data))
        sql = 'insert into %s (%s) values (%s)' % (item.table, keys, values)
        self.curosr.execute(sql, tuple(data.values()))
        self.db.commit()
        return item

    def close_spider(self, spider):
        self.db.close()

settings文件

适当降低爬取的延迟，以及添加Headers，配置Mysql的信息，开启piplines。

BOT_NAME = 'maoyan'
SPIDER_MODULES = ['maoyan.spiders']
NEWSPIDER_MODULE = 'maoyan.spiders'
DEFAULT_REQUEST_HEADERS = {
    'Referer': 'http://m.maoyan.com/movie/1216446/comments?_v_=yes',
    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) '
                  'Version/11.0 Mobile/15A372 Safari/604.1'
}
ITEM_PIPELINES = {
    'maoyan.pipelines.MaoyanPipeline': 300,
}
MYSQL_HOST = ''
MYSQL_DATABASES = 'movie'
MYSQL_PORT =
MYSQL_USER = 'root'
MYSQL_PASSWORD = ''

DOWNLOAD_DELAY = 0.1  # 每次下载请求的延迟
MOVIE_ID = '1216446'  # 电影ID

4、爬取结果

5、Scrapy-Redis

由于评论过多，我们用分布式爬取的话会更快。

修改爬虫文件

首先需要引入RedisSpiderfrom scrapy_redis.spiders import RedisSpider
将父类继承中的Spider修改为RedisSpider
因为要从redis数据库中爬取链接信息，所以去掉start_urls，并添加redis_key。

class Movie1Spider(RedisSpider):
    name = 'movie1'
    allowed_domains = ['m.maoyan.com']
    base_url = 'http://m.maoyan.com/mmdb/comments/movie/{}.json?_v_=yes&offset={}&startTime={}'
    redis_key = 'movie1:start_urls'

    # def start_requests(self):
    #     time_now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
    #     url = self.base_url.format(MOVIE_ID, 0, quote(time_now))
    #     yield Request(url=url)

修改setting文件

指定redis数据库链接参数：REDIS_URL
指定scrapy-redis的调度器：SCHEDULER
指定scrapy-redis的去重：DUPEFILTER_CLASS
设置断点续传，不清理redis queue：SCHEDULER_PERSIST

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://:密码@IP:6379'
SCHEDULER_PERSIST = True
MYSQL_HOST = '地址'
MYSQL_DATABASES = 'movie'
MYSQL_PORT = 62782
MYSQL_USER = 'root'
MYSQL_PASSWORD = ''
DOWNLOAD_DELAY = 0.1  # 每次下载请求的延迟
MOVIE_ID = '1216446'  # 电影ID

启动程序后，我们链接Redis数据库，进行单机测试是否可以。

127.0.0.1:6379> lpush dytt:start_urls http://m.maoyan.com/mmdb/comments/movie/1216446.json?_v_=yes&offset=0&startTime=2018-10-11%2018%3A14%3A17

进行分布式部署

使用Gerapy批量部署

你可能感兴趣的:(Python爬虫,Python,Scrapy)

Alipay SDK for Python 常见问题解决方案丁璟耀Optimistic
AlipaySDKforPython常见问题解决方案alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目基础介绍和主要编程语言AlipaySDKforPython是支付宝官方提供的Python语言版本的SDK，用于帮助开发者快速接入
支付宝Python SDK官方教程滕妙奇
支付宝PythonSDK官方教程alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目介绍alipay-sdk-python-all是支付宝提供的Python版本SDK，用于帮助开发者方便地集成到自己的应用程序中，实现与支付宝开放平台
一览无遗 python 自定义装饰器使用及原理详解 1_bit python flask python flask 开发语言装饰器
注意：先行知识python，本篇文章所有代码均为实际运行，为原理和逻辑讲解一、装饰器装饰器是python中的一种语法糖，虽然我不想用语法糖这个词来表达，但这句话写在了开头，我也不到用别的更准确的词来形容他了。如果你刚接触编程不久，不理解语法糖，也没关系；在这里我说语法糖并不会影响到你接下来的理解，我只是用它在赘述，作为了一种形容词。首先我们要搞懂装饰器是什么东西，其次搞懂装饰器的基础知识点，最后逐
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
Python Lambda 表达式简介咱家阿星 python python 开发语言
PythonLambda表达式Python的lambda表达式目录什么是Lambda表达式？Lambda的语法规则常见示范例子高阶函数中的Lambda应用Lambda与其他Python特性的结合使用Lambda的优势与限制1.什么是Lambda表达式？Lambda表达式是一种匿名函数，即没有函数名的函数。它通常用于临时场景，不需要像普通函数那样定义多行代码。常规函数与Lambda函数的对比#常规函
代码质量的基石：Python 单元测试实战 (unittest vs pytest) 清水白石008 python Python题库 python 单元测试 pytest
代码质量的基石：Python单元测试实战(unittestvspytest)引言在软件开发的浩瀚征程中，代码质量是决定项目成败的关键因素。如同建筑物的地基，稳固的代码质量能够支撑起复杂而庞大的系统，反之则可能导致系统崩溃、维护困难，甚至安全漏洞。单元测试，作为保障代码质量的第一道防线，扮演着至关重要的角色。Python，作为一门以简洁优雅著称的编程语言，拥有丰富的测试框架，其中unittest和p
Python 文件操作基础咱家阿星 python python
Python文件操作基础在这篇将详细介绍如何打开文件、读写文件，以及如何处理文件操作中的异常。1.打开文件：open()open()函数用于打开文件，并返回一个文件对象，你可以通过这个对象操作文件内容。打开文件时，需要指定文件路径和操作模式。语法：file_object=open(file_path,mode)常见操作模式：模式描述'r'读取文件（默认模式），文件必须存在。'w'写入文件，如果文件
ubuntu部署ssl证书 QC七哥建站技能 ubuntu ssl linux https
证书安装在进行证书安装前，需要将域名的DNS指定到你的ubuntu服务器节点上，ubuntu安装Let’sEncrypt证书步骤如下安装certbot工具aptupdateaptinstallcertbotpython3-certbot-nginx运行certbot命令进行证书安装对于nginxcertbot--nginx-dmydomain.com-dwww.mydomain.com对于apac
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
数据结构Python版---生成螺旋矩阵(Day5) 圆嘟嘟2019 数据结构Python版 python 算法开发语言 leetcode 数据结构
文章目录1.1⭐算法原理：1.2连续数组长度1.1⭐算法原理：生成螺旋矩阵原理：通过模拟矩阵填充来解决，像蜗牛的螺旋一样，从外往里旋。1.2连续数组长度给定一个正整数n，生成一个包含1到n^2所有元素，且元素按顺时针顺序螺旋排列的正方形矩阵。示例1：输入:3输出:[[1,2,3],[8,9,4],[7,6,5]]通过模拟矩阵填充的过程来解决，使用四个变量top、bottom、left、right来
Ubuntu 24 常用命令&方法 achi010 Linux ubuntu Ubuntu 24 常用命令 Ubuntu 24 Ubuntu Ubuntu vi 异常处理 linux 服务器
文章目录环境说明1、账号管理1.1、启用root2、包管理工具apt&dpkg2.1、apt简介&阿里源配置2.2、dpkg简介2.3、apt和dpkg两者之间的关系2.4、常用命令3、启用ssh服务4、防火墙5、开启远程登录6、关闭交换分区7、build-essential（编译和开发软件的工具和库）7.1、异常处理8、网络8.1、静态IP9、Python10、vi10.1、异常处理：方向键出现
Python基础学习（四）：字典代码死 python 学习 windows
1.字典简介字典是一种可变的容器，用于存储键值对。字典中的数据是无序的，键必须是唯一的且不可变。特点：使用大括号{}定义，键值对用冒号:分隔。数据是无序的。键必须是不可变类型（如字符串、数字、元组），值可以是任意类型。2.字典创建2.1使用字面值创建#创建空字典d1={}#创建包含键值对的字典d2={"name":"Alice","age":25,"city":"NewYork"}#键可以是数字d
Python基础学习（七）：运算符代码死 python 学习开发语言
Python提供了丰富的运算符，用于执行各种操作，包括算术运算、比较运算、逻辑运算、位运算等。本文将详细介绍Python中的各类运算符及其用法，并通过示例帮助你更好地理解和掌握。1.算术运算符算术运算符用于执行基本的数学运算。1.1常见运算符运算符描述示例+加法3+2→5-减法5-3→2*乘法2*3→6/除法10/2→5%取模（取余数）10%3→1**幂运算2**3→8//整除（取整数部分）10/
Python：项目相对路径一头大学牲程序--编程记录 python
项目层级结构：my_project/├──main.py├──module1/│├──__init__.py│└──my_module.py├──module2/│├──__init__.py│└──another_module.py1.包结构和__init__.py文件：Python将包含__init__.py文件的目录视为包，这允许文件夹内部的模块互相导入。无论包或模块位于项目结构的哪个级别，
Python--读取mat文件一头大学牲程序--编程记录 python 开发语言深度学习机器学习
最近在进行学习深度学习过程中，遇到了以MATLAB的.mat格式存储的数据，需要用python读取出来处理，于是就找到了以下比较方便的三种python读取mat文件的方法：使用hdf5库来读取mat文件1.使用scipy.io来读取1.5知识小插曲2.使用hdf5来读取3.使用mat73来读取1.使用scipy.io来读取-如果你的matlab的版本比较旧，保存的.mat格式为‘-v7.3’以前的
利用 OpenCV 库进行实时目标物体检测欣然～ opencv 人工智能计算机视觉
一、代码概述此代码利用OpenCV库实现了基于特征匹配的实时物体检测系统。通过摄像头捕获实时视频帧，将其与预先加载的参考图像进行特征匹配，从而识别出视频帧中是否存在与参考图像匹配的物体。二、环境依赖OpenCV：用于图像处理、特征提取和匹配等操作。NumPy：用于数值计算，OpenCV依赖于NumPy进行数组操作。可以使用以下命令安装所需库：bashpipinstallopencv-pythonn
使用python制作网站欣然～ python sqlite 数据库
新建一个名为pizzeria的项目，并在其中添加一个名为pizzas的应用程序。定义一个名为Pizza的模型，它包含字段name，用于存储比萨名称，如Hawaiian和MeatLovers。定义一个名为Topping的模型，它包含字段pizza和name，其中字段pizza是一个关联到Pizza的外键，而字段name用于存储配料，如pineapple、Canadianbacon和sausage。使
访问指定网站获取页面标题信息欣然～ python
一、代码功能概述bid_search.py是一个使用Selenium库的Python脚本，其主要功能是自动化访问特定的招投标信息网站（浙江招标投标公共服务平台-首页），点击页面上的“查看更多”按钮，获取页面上所有元素的内容，并将这些内容保存到save.txt文件中。二、代码结构与详细说明1.导入必要的库收起pythonfromseleniumimportwebdriverfromselenium.
python-提示词对大模型推理有多重要？给自己做加法 python python 语言模型
文章目录前言测试一个失败的提示词提示词内容knowledge内容提问的内容得到的回答说点啥能引导的提示词提示词内容knowledge内容提问的内容得到的回答说点啥结束语前言神级提示词一度成为AI圈的热搜，那么提示词对大模型推理到底有多重要？测试一个失败的提示词提示词内容基础知识：{knowledge}；问题：{question}；根据已知知识和基础知识回答问题knowledge内容{"商品名称":
【开源所有代码-全在线智能音箱】树莓派智能音箱，自定义唤醒词，大模型LLM GPT对话南七小僧服务器开发人工智能 AI技术产品经理智能音箱 gpt
安装sounddevicepipinstallsounddevice安装portAudiosudoapt-getinstalllibportaudio2sudoapt-getinstalllibasound-devsudoapt-getinstallportaudio.devsudoapt-getinstallpython3-pyaudiopipinstallpyaudio安装wavepipins
Miniconda 安装及使用 achi010 Python Miniconda 安装及使用 Miniconda Miniconda 安装 Miniconda 常用命令 Linux Miniconda Python 环境管理 UbuntuMiniconda
文章目录前言1、Miniconda简介2、Linux环境说明2.1、安装2.2、配置2.3、常用命令2.4、常见问题及解决方案前言在Python中，“环境管理”是一个非常重要的概念，它主要是指对Python解释器及其相关依赖库进行管理和隔离，以确保开发环境的稳定性和项目的可移植性。什么是Python环境Python解释器：Python是一种解释型语言，代码的运行需要通过Python解释器来执行。不
华为OD机试 - 最长回文字符串（C++ Java JavaScript Python） YOLO大师华为 c++java 算法华为od
题目描述如果一个字符串正读和反渎都一样（大小写敏感），则称它为一个「[回文串]，例如：leVel是一个「回文串」，因为它的正读和反读都是leVel；同理a也是「回文串」art不是一个「回文串」，因为它的反读tra与正读不同Level不是一个「回文串」，因为它的反读leveL与正读不同（因大小写敏感）给你一个仅包含大小写字母的字符串，请用这些字母构造出一个最长的回文串，若有多个最长的，返回其中字典序
自用力扣刷题记录（Python，数组、字符串） qq_40283123
文章目录一.数组69744844241274453最小操作次数使数组元素相等665非递减数列283移动的零118杨辉三角形119杨辉三角形2661图片平滑器598范围求和II419夹板上的战舰189旋转数组396旋转函数54螺旋矩阵59螺旋矩阵II498对角线遍历566重塑矩阵48旋转图像73矩阵置零289生命游戏303区域和检索-数组不可变304二维区域和检索-矩阵不可变238除自身以外数组的乘
Python 进程和线程-进程 vs. 线程赔罪 Python 系统学习 python 开发语言
目录ThreadLocal小结进程vs.线程线程切换计算密集型vs.IO密集型异步IOThreadLocal在多线程环境下，每个线程都有自己的数据。一个线程使用自己的局部变量比使用全局变量好，因为局部变量只有线程自己能看见，不会影响其他线程，而全局变量的修改必须加锁。但是局部变量也有问题，就是在函数调用的时候，传递起来很麻烦：defprocess_student(name):std=Student
一个数如果恰好等于它的因子之和，这个数就称为“完数“。例如6=1＋2＋3.编程找出1000以内的所有完数。-多语言赔罪 Practice questions 算法 java c语言 javascript python
目录C语言实现Python实现Java实现Js实现题目：一个数如果恰好等于它的因子之和，这个数就称为"完数"。例如6=1＋2＋3.编程找出1000以内的所有完数。完数（PerfectNumber）是一个正整数，它等于其所有正因子（不包括自身）的和。换句话说，如果一个数n的所有正因子（除了n本身）相加的结果等于n，那么n就是一个完数。完数的性质完数是稀有的，已知的完数都是偶数。根据欧几里得的定理，完
Python中的代码测试小白的高手之路 python学习 python 开发语言
编写函数或类时，可以为其编写测试。通过测试，可以确定代码面对各种输入都能正确按要求工作。在程序中添加新代码时，依然可以对其进行测试，确认它们不会影响原有的代码。1、测试函数先编写一个简单的函数：name_fun.pydefget_name(first,last):"""生成全名"""name=first+''+lastreturnname.title()name.pyfromname_funimp
Python----数据分析（Pandas四：一维数组Series的统计计算，分组和聚合）蹦蹦跳跳真可爱589 数据分析 Python pandas python 数据分析
一、统计计算1.1、count用于计算Series中非NaN（非空）值的数量。importpandasaspds=pd.Series([1,2,None,4,None])count_non_na=s.count()print(count_non_na)1.2、sumsum()函数会计算所有值的总和。Series.sum(axis=None,skipna=True,numeric_only=None
Python----数据分析（Pandas三：一维数组Series的数据操作：数据清洗，数据转换，数据排序，数据筛选，数据拼接）蹦蹦跳跳真可爱589 数据分析 Python python 数据分析 pandas
一、数据清洗1.1、dropna()删除包含NaN值的行。series.dropna(axis=0,inplace=False)描述说明axis可选参数，用于指定按哪个轴删除缺失值。对于Series对象，因为它是一维数据结构，只有一个轴，所以此参数默认值为0，且一般不需要修改这个参数（在处理DataFrame时该参数才有更多实际意义，如除，axis=1表示按列删除）。inplace可选参数，用于指
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他