liuxian_2004

python+scrapy 爬取成都链家二手房和成交信息

爬虫设计方案

爬取目标

成都链家的二手房和成交数据。
由于web版看不到最新的成交金额数据，因此需要用手机版的数据。
成交数据应该去重，可以做成每天增量爬取。
需要做成每天爬取一次，定时执行

参考文章

技术方案

使用Scrapy框架，实现spider部分和pipeline部分。
拦截手机版网络请求，获取Cookie信息，模拟手机请求拿到未隐藏的成交数据。

GET /cd/chengjiao/ HTTP/1.1
Host: m.lianjia.com
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Connection: keep-alive
Cookie: _staticData=%7B%0A%20%20%22deviceId%22%20%3A%20%22156E5777-0F30-402D-88B9-D62EB3B9233D%22%2C%0A%20%20%22appVersion%22%20%3A%20%228.3.2%22%2C%0A%20%20%22scheme%22%20%3A%20%22lianjia%22%2C%0A%20%20%22appName%22%20%3A%20%22%E9%93%BE%E5%AE%B6%22%2C%0A%20%20%22extraData%22%20%3A%20%7B%0A%20%20%20%20%22cityId%22%20%3A%20%22510100%22%2C%0A%20%20%20%20%22cityName%22%20%3A%20%22%E6%88%90%E9%83%BD%22%0A%20%20%7D%2C%0A%20%20%22sysModel%22%20%3A%20%22iPhone%22%2C%0A%20%20%22deviceInfo%22%20%3A%20%7B%0A%20%20%20%20%22uuid%22%20%3A%20%2235F36686-461C-4BD1-A904-DA63EC64E6EC%22%2C%0A%20%20%20%20%22udid%22%20%3A%20%22156E5777-0F30-402D-88B9-D62EB3B9233D%22%2C%0A%20%20%20%20%22ssid%22%20%3A%20%223C2F87B9-CC71-4769-A766-7EDC2582802D%22%0A%20%20%7D%2C%0A%20%20%22sysVersion%22%20%3A%20%229.2%22%2C%0A%20%20%22network%22%20%3A%20%22WIFI%22%2C%0A%20%20%22userInfo%22%20%3A%20%7B%0A%0A%20%20%7D%0A%7D; lianjia_ssid=3C2F87B9-CC71-4769-A766-7EDC2582802D; lianjia_token=; lianjia_udid=156E5777-0F30-402D-88B9-D62EB3B9233D; lianjia_uuid=35F36686-461C-4BD1-A904-DA63EC64E6EC; CNZZDATA1253491255=481059203-1514046308-%7C1514046308; CNZZDATA1254525948=972699380-1514042713-%7C1514042713; lj-ss=9fc6cee08e4d99ced4584517044e1242; Hm_lpvt_9152f8221cb6243a53c83b956842be8a=1514046865; Hm_lvt_9152f8221cb6243a53c83b956842be8a=1514046657,1514046865; UM_distinctid=160843690e4f6-091b6dfa-d313861-2c600-160843690e56d; _ga=GA1.2.12607153.1514046656; _gat=1; _gat_global=1; _gat_new=1; _gat_new_global=1; _gat_past=1; _gid=GA1.2.1980141963.1514046656; gr_session_id_a1a50f141657a94e=00c98fea-0a57-4701-bfc6-4593a17a8509; gr_user_id=8e2fc122-9c57-4ee4-9ad5-a972aed85d48; lianjia_ssid=3C2F87B9-CC71-4769-A766-7EDC2582802D; lianjia_token=; lianjia_udid=156E5777-0F30-402D-88B9-D62EB3B9233D; lianjia_uuid=35F36686-461C-4BD1-A904-DA63EC64E6EC; select_city=510100; select_nation=1
User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS 9_2 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Mobile/13C75 GrowingIO/lianjia_0.1-20170215211354 shlianjia/shlianjia Lianjia/8.3.2.5
Accept-Language: zh-cn
Referer: https://m.lianjia.com/cd/fangjia
Accept-Encoding: gzip, deflate

使用lxml结合xpath解析网页内容。

# 二手房详情
    def detail_parse(self,response):
        #'http://cd.lianjia.com/ershoufang/dongcheng/pg2/'
        try:
            content = response.body
            #self.logger.info("contents: "+ content)
            contents = etree.HTML(content)

            houselist = contents.xpath('/html/body/div[4]/div[1]/ul/li')
            self.logger.info(houselist)
            for house in houselist:
                try:
                    item = CdlianjiaspiderItem()
                    item['title'] = house.xpath('div[1]/div[1]/a/text()').pop()
                    item['community'] = house.xpath('div[1]/div[2]/div/a/text()').pop()
                    item['model'] = house.xpath('div[1]/div[2]/div/text()').pop().split('|')[1]
                    item['area'] = house.xpath('div[1]/div[2]/div/text()').pop().split('|')[2]
                    item['focus_num'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[0]
                    item['watch_num'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[1]
                    item['time'] = house.xpath('div[1]/div[4]/text()').pop().split('/')[2]
                    item['price'] = house.xpath('div[1]/div[6]/div[1]/span/text()').pop()
                    item['average_price'] = house.xpath('div[1]/div[6]/div[2]/span/text()').pop()
                    item['link'] = house.xpath('div[1]/div[1]/a/@href').pop()
                    item['city'] = response.meta["id1"]
                    self.url_detail = house.xpath('div[1]/div[1]/a/@href').pop()
                    #item['Latitude'] = self.get_latitude(self.url_detail)
                    self.logger.info("CdlianjiaspiderItem:" + item)
                except Exception:
                    pass
                yield item
        except Exception,e:
            self.logger.info(e)
            pass

通过pipeline每天写入爬取结果json文件中，分别保存ershoufang_yyyymmdd.json和chengjiao_yyyymmdd.json，注意中文的处理。

lass CdlianjiaspiderPipeline(object):

    def __init__(self):
        fileName =  "ershoufang_" + time.strftime("%Y-%m-%d") + ".json"
        chengjiaoFileName = "chengjiao_" + time.strftime("%Y-%m-%d") + ".json"
        self.file = codecs.open(fileName,'ab', encoding='utf-8')
        self.chengjiaoFile = codecs.open(chengjiaoFileName,'ab', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item),encoding='utf-8') + '\n'
        line = line.decode('unicode_escape')
        if isinstance(item, CdlianjiaspiderItem):
            self.file.write(line)
        elif isinstance(item, ChengjiaoItem):
            self.chengjiaoFile.write(line)
        return item

爬虫结果目前还未考虑如何去重，有增量爬取和Mongodb或redis去重两种方案，准备下期实现。
使用crond做成每日定时爬取。

crontab -e

#编辑内容，每天晚上8点运行
0 20 * * * nohup python2.7 /home/nodejs/python/CDLianjiaSpider/run.py &

上面的写法会报错找不到python2.7，还是得把命令写成sh脚本调用，记得要赋执行权限。
cron中命令都需要用绝对路径。
必须在spider工程的根目录下执行scrapy crawl，否则会报crawl命令不存在,因此要先cd到spider目录。

$ vim run.sh

cd /home/nodejs/python/CDLianjiaSpider
nohup /usr/local/bin/python2.7 /home/nodejs/python/CDLianjiaSpider/run.py &

$ crontab -e

#编辑内容，每天晚上8点运行
0 20 * * * /home/nodejs/python/CDLianjiaSpider/run.sh

mac安装python2.7+scrapy总结

背景

macos其实自带python2.7的，但是不带pip, iphython等必备工具，正常情况下是可以直接安装的，但是升级10.12以后，由于SIP(System Integrity Protection)保护,无权限直接安装组件了。因为python是默认装在系统目录下的。所以需要一些手段来解决。

解决方案

有两种解决方案，
1. 重装python，让它装到/user/local/bin目录下，就有权限操作了，避免后续所有权限问题
2. 关闭SIP, 强烈不建议这样做，给系统带来很大风险。

重装python到/user/local/bin

安装python

homebrew install python

This formula installs a python2 executable to /usr/local/bin.
If you wish to have this formula's python executable in your PATH then add
the following to ~/.zshrc:
  export PATH="/usr/local/opt/python/libexec/bin:$PATH"

Pip and setuptools have been installed. To update them
  pip2 install --upgrade pip setuptools

You can install Python packages with
  pip2 install <package>

They will install into the site-package directory
  /usr/local/lib/python2.7/site-packages

修改配置，根据上面的提示，需要在环境变量中修改使用的默认python为/usr/local/bin目录下的，否则还会继续用以前的python，
以后pip安装组件，要用pip2，才能安装到/usr/local/lib/python2.7 的目录下，而不是pip，
安装scrapy

pip2 install scrapy

centOS6安装python2.7+scrapy总结

背景

因为我的爬虫是在本机开发，然后部署到阿里云运行的，阿里云安装的centos6.x

参考文章

CentOs 6安装python2.7.13及异常解决
CENTOS 6.5 安装 Python 2.7 总结 ,这篇文章中的setuptools+pip安装，地址已经找不到了，所以用的上一篇文章的安装方法。
安装python爬虫scrapy踩过的那些坑和编程外的思考如果安装scrapy遇到报错可以根据这篇文章，我没遇到这里面的所有问题，但是有一两个遇到了。

安装步骤

1.安装python依赖包, 我自己安装没执行这一步

yum groupinstall "Development tools"
yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

2.下载Python2.7.13的源码包并编译

wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz
tar xf Python-2.7.13.tgz
cd Python-2.7.13
./configure --prefix=/usr/local
make
make install

安装成功之后，你可以在 /usr/local/bin/python2.7 找到 Python 2.7

3.安装sqllite3，没这个运行python会报错

sudo yum install sqlite-devel

4.安装 setuptools + pip

# 安装Pip
wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-1.4.2.tar.gz
tar -vxf setuptools-1.4.2.tar.gz 
cd setuptools-1.4.2
python2.7 setup.py install
easy_install-2.7 pip

5.安装scrapy

pip2 install scrapy

爬虫代码下载

github源码

你可能感兴趣的:(大数据入门)

大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
No.2大数据入门 | 环境搭建：jdk1.8安装及环境配置滚滚红尘_8133
上一篇文章我们安装了虚拟机以及linux操作系统，接下来就要安装在操作系统上运作的大数据核心hadoop分布式系统基础架构！Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS，Hadoop的框架最核心的设计就是:HDFS和MapReduce：HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算，因此安装完hadoop以
大数据入门-大数据技术概述(二) 水坚石青大数据理论大数据 spark kafka
目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务：Zookeeper2.分布式资源管理器：Yarn3.计算引擎：Spark4.查询引擎：Impala5.分布式消息系统：Kafka6.日志收集系统：Flume大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)最近在收集整理大数据入门文章，各位盆
大数据入门--zookeeper（一）--集群搭建与常用指令许中宝大数据 zookeeper 大数据 zookeeper
Zookeeper单机搭建下载官方安装包#解压tar-zxvfzookeeper-3.4.5.tar.gz-C/opt/module/#配置zoo.conf，只需要将conf/zoo_sample.conf重命名为zoo.conf即可mvconf/zoo_sample.cfgconf/zoo.cfg#启动bin/zkServer.shstart#查询状态bin/zkServer.shstatus#
【大数据入门核心技术-Tez】（三）Tez与Hive整合 forest_long 大数据技术入门到21天通关 hive 大数据 hadoop hbase mapreduce
一、准备工作1、Hadoop和Hive安装【大数据入门核心技术-Hadoop】（五）Hadoop3.2.1非高可用集群搭建【大数据入门核心技术-Hadoop】（六）Hadoop3.2.1高可用集群搭建【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、Tez与Hive整合hive有三种引擎：mapredu
大数据就业方向-（工作）ETL开发王哪跑nn 面试大数据 etl 数据仓库面试
上一篇文章：大数据-大数据入门第一篇|关于大数据你了解多少？-CSDN博客目录1.ETL概念2.ETL的用处3.ETL实现方式4.ETL体系结构5.什么是ETL技术？6.ETL工作流程7.ETL工程师的岗位价值8.ETL工程师进阶指南1.ETL概念ETL是英文Extract-Transform-Load的缩写，用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(loa
「干货」2018你最应该学习的硬技能（零基础大数据入门） data_ting
2017可谓是人工智能元年，在各类人工智能公司如雨后春笋般成立的今天，我们来聊一聊什么是人工智能？大数据与人工智能究竟有何关联？什么是大数据？如何赶上这个新风口？如何入门大数据呢？1.什么是人工智能？大数据与人工智能究竟有何关联？人工智能是它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学(定义来源：百度百科）归根到底人工智能是让机器去学习人类的思维方式，机器
大数据入门 Dazer007 javaweb
好记星不如烂笔头，这里记录平时工作中用到的东西，不喜可以留言。大数据大数据最早我是16年左右听到的被吹嘘的很火，但具体是什么自己很模糊。目前自己的理解是，大数据是在传统的IT项目中增加了一个部门（大数据部门），主要是处理海量的一些非结构形数据，进行分析提取有用的一点数据放回到结构性数据库中，供决策者进行决策。大数据80%的使用场景都是让没有完成交易，促使客户完成，完成变现。大数据最早是谷歌Goog
大数据 - 大数据入门第一篇 | 关于大数据你了解多少？王哪跑nn 大数据大数据
1.1概述大数据（BigData):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决、海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位：bit,Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=1024By
【大数据入门核心技术-Hadoop】（六）Hadoop3.2.1高可用集群搭建 forest_long 大数据技术入门到21天通关 hadoop 大数据 hdfs zookeeper hive
目录一、Hadoop部署的三种方式1、Standalonemode（独立模式）2、Pseudo-Distributedmode（伪分布式模式）3、Clustermode（集群模式）二、准备工作1、先完成zk高可用搭建2、/etc/hosts增加内容3、各台服务器分别创建目录4、关闭防火墙和禁用swap交换分区5、三台机器间免密6、安装jdk7、下载好hadoop安装包三、高可用配置1、配置core
大数据入门二（YARN部署）倾白首
1.入门HDFS存储MapReduce计算SparkFlinkYarn资源作业调度伪分布式部署要求环境配置文件参数文件ssh无密码启动jps命令[hadoop@hadoop002~]$jps28288NameNodeNN27120Jps28410DataNodeDN28575SecondaryNameNodeSNN1.MapReducejobonYarn[hadoop@hadoop002hadoo
【大数据入门二——yarn和mapreduce】墨卿风竹
连续几天夜里加餐，让我想起了新兵连的夜训，在你成为合格战士之前，你必须经历新兵连的过程，，，，其实每个行业都有一个属于它自己的新兵连，不经历此处的磨练，你难以在这个行业立足，我承认先天的资本，但我更相信后天的努力，也许有的人奋斗一生都没有达到他人的起点，我为他人荒废人生而感到可耻，为此人奋斗一生而感到幸福，我们即使渺小，我也要努力绽放，苔花如米小，也学牡丹开！————————————————前言：
Window10下安装ClickHouse详解爱游泳的老白数据库 clickhouse windows linux
随着互联网技术的发展，海量数据已经成为公司决策分析的重要来源，ClickHouse有着大数据入门和低学习成本(支持SQL)的优势，但基本上都是在Linux环境下安装.如果想在Windows下安装一个来学习和测试该如何操作?本文就帮你详细讲解如何在Windows10下安装和配置.在Windows10下有2中安装方式:在虚拟机里安装Linux,然后在安装ClickHouse通过Windows10的Li
大数据入门学习必读好书推荐，请收藏！腾讯云开发者
身处于一个大数据时代，大数据无疑是近期最时髦的词汇了。不管是云计算、社交网络，还是物联网、移动互联网和智慧城市，都要与大数据搭上联系。随着云计算、移动互联网和物联网等新一代信息技术的创新和应用普及。学习大数据，除了网课，一些经典的技术书籍是非常实用且有帮助的。为了跟上技术更迭的节奏，不落人后，最好的方式是继续刷新自己的知识，同时保持上手的经验。在这行业中要取得成功，需要完美的项目经验和技能组合。尽
大数据流处理框架：Spark Streaming与Storm 成都加米谷大数据
大数据计算的第一代框架Hadoop，是致力于解决离线计算的问题而产生的，在离线批处理上性能优异，但是在实时流处理上，一直被诟病。Hadoop之后，Spark和Storm在流处理上成为对手。今天的大数据入门分享，我们就主要来讲讲，流处理框架SparkStreaming与Storm。ApacheSpark流处理Spark框架的出现，是在HadoopMapReduce基础上继承研发而来，本质上来说，还是
大数据入门---1.大数据介绍学无止境的大象 #大数据 hadoop spark hdfs mapreduce kafka
大数据的介绍无处不在的大数据大数据的爆炸式增长大数据的特征大数据与我们的生活息息相关思考：那么我们如何对这些数据进项存储与分析呢？我们的hadoop就是在这样的场景下应运而生的1.HADOOP背景介绍1.1什么是HADOOP(1)HADOOP是apache旗下的一套开源软件平台(2)HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理1.HADOOP的核心组件
【大数据入门核心技术-Doris】（三）Doris基础使用 forest_long 大数据技术入门到21天通关大数据 bigdata hadoop doris hive hbase mpp
一、安装部署参考：【大数据入门核心技术-Doris】（二）Doris安装部署二、用户相关使用1、用户登录启动完Doris程序之后，可以通过root或admin用户连接到Doris集群。使用下面命令即可登录Doris，登录后进入到Doris对应的Mysql命令行操作界面mysql-hFE_HOST-P9030-urootFE_HOST是任一FE节点的IP地址，9030是fe.conf中的query_
大数据入门：Hadoop HDFS存储原理成都加米谷大数据
在大数据处理当中，最核心要解决的其实就是两个问题，大数据存储和大数据计算。在Hadoop生态当中，解决大数据存储，主要依靠就是HDFS，再配合数据库去完成。今天的大数据入门分享，我们就来讲讲HadoopHDFS存储原理。1、什么是HDFS？HDFS即Hadoopdistributedfilesystem（hadoop分布式文件系统），在Hadoop当中负责分布式存储阶段的任务，它是一个分布式的文件
大数据入门之hadoop集群搭建（CentOS 7） Charon.（卡隆）大数据 hadoop
hadoop集群搭建安装系统在VMware下创建新的虚拟机这里需要和自己电脑匹配可以从资源监视器中看到自己的cpu数量，由于需要4台虚拟机，所以这里用4个处理器内核用于一台虚拟机中这里的内存也与自己电脑的实际情况匹配由于桥接网络麻烦，因此这里用网络地址转换这里的磁盘大小是在使用时具体用多少是多少，并不是从自己电脑的实际磁盘大小取出2.运行此虚拟机3.进行配置这里涉及的linux磁盘分区的知识，想要
25款大数据入门与实战电子书+视频教程（全程干货）菜鸟窝
本资源由菜鸟窝大数据教研团队整理的，共有1.3GB学习资源（电子书）含Hadoop大数据与挖掘实战、Hbase实战、Spark大数据处理技术、Spark高级数据分析、大数据存储MongoDB实战、大数据架构师指南、数据算法、大数据挖掘等25本必读电子书~以及10个入门到实战的视频教程，勾搭助教weixin:BT474849免费领取哦~image.png
-大数据入门-2-Hadoo-MapReduce详解吾..二..二若泽大数据=拓展
mapreduce是hadoop的计算框架，既然是做计算的框架，那么表现形式就是有个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是我们所需要的结果。计算模型的运行规则。在运行一个mapreduce计算任务时候，任务过程被分为两个阶段：map阶段和reduce阶段，每个阶段都是用键值对（key/value）作为输
不会真的有人看不懂 Linux 小白都能看懂的大数据入门（一）图文热忱 ㅤ ㅤ 大数据笔记
一、概述1.1Linux的历史操作系统，英语OperatingSystem简称为OS。说道操作系统就需要先讲一讲Unix，UNIX操作系统，是一个强大的多用户、多任务操作系统，支持多种处理器架构，按照操作系统的分类，属于分时操作系统，最早由KenThompson、DennisRitchie和DouglasMcIlroy于1969年在AT&T的贝尔实验室开发。而linux就是一款类Unix系统。通常
大数据Hadoop环境安装不倒翁_z 大数据学习 big data hadoop hdfs 大数据 mapreduce
前言工作场景的需要，最近开始学习起了大数据相关的东西。对于我这个初学者，大数据入门就是首先得学会Hadoop环境的安装，按照步骤如遇相关问题，请指正。Hadoop环境的安装，我是用自己电脑借助VMwareworkstation构建了三个虚拟机节点，进行安装的。准备阶段准备三个虚拟机节点，我分配的资源是2核2G内存50G硬盘资源每个虚拟机节点，保证1.关闭三台虚拟机防火墙三台虚拟机必须保证内网互通（
大数据入门：Hadoop Yarn组件基础解析成都加米谷大数据
在Hadoop框架当中，Yarn组件是在Hadoop2.0之后的版本开始引入，主要是为了解决资源管理和调度的相关问题，是在大数据平台的实际运用当中，根据实际需求而引入的解决方案。今天的大数据入门分享，我们就来对HadoopYarn组件做个简单的基础解析。Yarn简介Yarn是YetAnotherResourceNegotiator的缩写，在Hadoop生态当中，作为通用的资源管理系统与调度平台，去
大数据入门之zookeeper的功能及工作原理，未完待续…… 尚学先生
如果大家对大数据开发感兴趣，可以点击文章“了解更多”，了解和报名大数据免费学习交流课程！！！1.Zookeeper是什么？ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户。2.Zookeeper提
大数据入门：Hadoop Yarn组件基础解析加米谷大数据张老师大数据 hadoop 大数据分布式计算 yarn mapreduce
在Hadoop框架当中，Yarn组件是在Hadoop2.0之后的版本开始引入，主要是为了解决资源管理和调度的相关问题，是在大数据平台的实际运用当中，根据实际需求而引入的解决方案。今天的大数据入门分享，我们就来对HadoopYarn组件做个简单的基础解析。Yarn简介Yarn是YetAnotherResourceNegotiator的缩写，在Hadoop生态当中，作为通用的资源管理系统与调度平台，去
【免费分享淘宝视频教程】pyhton大数据人工智能神经网络爬虫零基础视频教程从入门到精通-百度云 weixin_41341299 Python Python视频教程 Python爬虫
00、Python安装包开发工具、注册01、Python入门到项目实战篇02、Python大数据入门到实战篇03、Python数据分析与数据挖掘篇04、Python高等数学与程序算法篇05、Python人工智能机器学习篇06、Python人工智能神经网络量化交易篇07、Python机器人与自然语言处理篇百度云下载地址：回复关键词Python教程获取下载地址
大数据入门：各种大数据技术介绍编程小世界
大数据我们都知道hadoop，可是还会各种各样的技术进入我们的视野：Spark，Storm，impala，让我们都反映不过来。为了能够更好的架构大数据项目，这里整理一下，供技术人员，项目经理，架构师选择合适的技术，了解大数据各种技术之间的关系，选择合适的语言。我们可以带着下面问题来阅读本文章：1.hadoop都包含什么技术2.Cloudera公司与hadoop的关系是什么，都有什么产品，产品有什么
python 大数据入门教程 RedPintings Python python numpy pandas
Python在大数据行业非常火爆近两年，asapythonic，所以也得涉足下大数据分析，下面就聊聊它们。Python数据分析与挖掘技术概述所谓数据分析，即对已知的数据进行分析，然后提取出一些有价值的信息，比如统计平均数，标准差等信息，数据分析的数据量可能不会太大，而数据挖掘，是指对大量的数据进行分析与挖倔，得到一些未知的，有价值的信息等，比如从网站的用户和用户行为中挖掘出用户的潜在需求信息，从而
python 大数据入门之pandas kfyzjd2008 Python pandas
作为一名全栈程序员，广种薄收，我也很苦恼，但是又没有办法，自己是块砖，哪里需要哪里搬。常用的pandas命令和技巧：1、读取CSV文件：data=pd.read_csv("{路径.csv}")2、读取部分CSV文件：data=pd.read_csv("E:/豪总导出数据/hw_register_user_20220317.csv",nrows=500)3、查看某一列数据：data['首次充值时间'
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他