VisionaryX

day068 多任务爬虫&Selenium+PhantomJS&Tesseract-OCR

对于具有大量数据的爬虫任务，单进程/线程就会显得捉襟见肘，爬取速度会比较慢，如果需要加快速度，就需要选择多线程/协程进行处理；如果反爬虫中有对js代码进行加密的时候，一般的爬虫手段都会失效，那么解决的办法有一种就是，直接调用Selenium测试框架控制浏览器进行代码自动发送请求，对返回的真实页面的数据进行解析；在爬虫过程中，如果有验证码图片的时候，对于一般的黑白清晰字码，可以使用tesseract模块进行识别。

多任务进行爬虫

多任务爬虫的目标就是更快的将数据爬下来，对比单线程爬取和多任务(多线程，协程爬取的时间)

示例对比：爬取豆瓣电影top250

单线程爬虫

代码：

# -*- coding:utf-8 -*-
import requests
import json, time
from lxml import etree


class Spider_Douban(object):
    def __init__(self):
        self.base_url = 'https://movie.douban.com/top250?filter=&start='
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
        self.data_list = []

    # 发送请求
    def send_request(self, url):
        data = requests.get(url, headers=self.headers).content
        return data

    # 数据解析
    def parse_data(self, data):
        html = etree.HTML(data)
        data_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')
        for data in data_list:
            self.data_list.append(data)

    # 保存数据到本地
    def save_data(self):
        data_json = json.dumps(self.data_list)
        with open('03_spider_douban.json', 'w') as f:
            f.write(data_json)

    # 主逻辑
    def main(self):
        import time
        start_time = time.time()
        for page in range(0, 225 + 1, 25):
            url = self.base_url + str(page)
            # 发送数据
            data = self.send_request(url)
            # 数据解析
            self.parse_data(data)
            print '正在爬第--%d--页' % ((page / 25) + 1)
        # 保存数据
        self.save_data()
        end_time = time.time()
        time = end_time - start_time
        print '单线程所需时间为：%s' % time
        # 单线程所需时间为：2.55781912804

if __name__ == '__main__':
    spider_douban = Spider_Douban()
    spider_douban.main()

多线程

步骤

导入模块：import threading
将任务加入到异步线程中：threading.Thread(target=self.change_value)
开始线程：t1.start()
注意点：将子线程加入到主线程中：t1.join()

代码

# -*- coding:utf-8 -*-
import threading
import time


class Test_Threads(object):

    def change_value(self):
        global a
        a = 200
        time.sleep(5)
        print '这是修改a的子线程1，a = %d'%a

    def read_value(self):
        print '这是读取a的子线程2，a = %d'%a

    def run(self,):
        t1 = threading.Thread(target=self.change_value)
        t1.start()
        t1.join()
        threading.Thread(target=self.read_value).start()

        print '这是主线程'




if __name__ == '__main__':
    a = 100
    test_thread= Test_Threads()
    test_thread.run()

线程池thread_pool的使用

使用线程池可以固定线程的个数，在加快任务处理速度的同时，避免过度消耗系统资源

步骤

导入： from multiprocessing.dummy import Pool
创建线程池：thread_pool = Pool(len(url_list))
给线程池添加任务：thread_pool.map(self.send_request, url_list)
关闭线程池任务的添加：thread_pool.close()
将线程池中的任务队列加入到主线程中，等待所有队列任务执行结束后，再继续执行下面代码：thread_pool.join()

代码：

# -*- coding:utf-8 -*-
import requests
import json
from multiprocessing.dummy import Pool
from lxml import etree


class Spider_Douban(object):
    def __init__(self):
        self.base_url = 'https://movie.douban.com/top250?filter=&start='
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
        }
        self.data_list = []

    # 发送请求,解析数据
    def send_request(self, url):
        data = requests.get(url, headers=self.headers).content
        self.parse_data(data)

    def parse_data(self, data):
        html = etree.HTML(data)
        data_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')
        for data in data_list:
            self.data_list.append(data)

    # 保存数据到本地
    def save_data(self):
        data_json = json.dumps(self.data_list)
        with open('03_spider_douban.json', 'w') as f:
            f.write(data_json)

    # 主逻辑
    def main(self):
        import time
        start_time = time.time()
        url_list = []
        for page in range(0, 225 + 1, 25):
            url = self.base_url + str(page)
            url_list.append(url)
        # 使用线程池处理
        # 1.创建线程池
        thread_pool = Pool(len(url_list))
        # 2.给线程池添加任务
        thread_pool.map(self.send_request, url_list)
        # 3.关闭线程池
        thread_pool.close()
        # 4.将所有线程join到主线程中
        thread_pool.join()

        # 保存数据
        self.save_data()
        end_time = time.time()
        time = end_time - start_time
        print '线程池所需时间为：%s' % time
        # 线程池所需时间为：2.41724801064


if __name__ == '__main__':
    spider_douban = Spider_Douban()
    spider_douban.main()

协程

步骤

导入模块：import gevent
导入设置自动跳转的monkey模块并且使用：from gevent import monkey; monkey.patch_all()
添加任务到协程中:gevent = gevent.spawn(self.send_request, url)
让主线程等待所有协程执行完毕（join）:gevent.joinall(gevent_list)

代码

# !/usr/bin/env python
# _*_ coding:utf-8 _*_


import requests
from lxml import etree
import time
import gevent
from gevent import monkey

monkey.patch_all()


class Douban_Spider(object):
    def __init__(self):
        self.base_url = 'https://movie.douban.com/top250?filter=&start='
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.count = 0

    # 请求数据
    def send_request(self, url):
        time.sleep(1)
        try:
            data = requests.get(url, headers=self.headers).content
            self.analysis_data(data)
        except Exception, err:
            print err

    # 解析数据
    def analysis_data(self, data):

        # 1.转换类型
        html_data = etree.HTML(data)

        # 2.解析 -->list
        data_list = html_data.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

        for name in data_list:
            print name
            self.count += 1

    # 调度的方法
    def start_work(self):

        # 开始时间
        start_time = time.time()

        gevent_list = []
        for page in range(0, 225 + 1, 25):
            url = self.base_url + str(page)
            print url
            # 1.创建协程
            gevent = gevent.spawn(self.send_request, url)

            gevent_list.append(gevent)

        # 2. 让主线程等待, 协程执行完毕
        gevent.joinall(gevent_list)

        end_time = time.time()

        print end_time - start_time
        print self.count


if __name__ == '__main__':
    tool = Douban_Spider()
    tool.start_work()

Selenium + PhantomJS

对于那些使用了ajax请求和DHTML技术的网页，传统的直接请求url方式就行不通了，因为那样只能请求到没有被执行js代码前的页面，即不完整的页面，解决这个问题的办法，有两个：
1. 直接从js代码里采集内容，这种方式，费时费力，不好搞
2. 使用第三方的库，采集执行过js代码之后的，直接在浏览器里看到的页面内容
Selenium就是这样一个库，它是一个自动化测试工具，也可以用于爬虫开发，它可以自动化控制浏览器（常规浏览器，谷歌，火狐，甚至无界面浏览器，PhantomJS），利用selenium控制浏览器请求网页，返回响应，然后抓取响应的网页内容进行解析，就能解决，使用了ajax,DHTML技术，不能直接请求url提取信息的问题。
Phantoms是一种无界面的浏览器，因为不需要加载界面信息，所以请求加载页面，返回结果速度比有界面的浏览器要快速的多。

使用步骤：

导入模块：from selenium import webdriver
创建浏览器对象：driver = webdriver.PhantomJS() # 这里使用的是无界面的PhantomJS浏览器
使用浏览器对象driver进行像正常用户一样的操作：
1. 请求数据：driver.get(url)
2. 获取页面数据：driver.page_source
3. 获取页面按钮对象：button = driver.find_element_by_xpath()(也可以使用by_class, by_id等方式)
4. 点击按钮 :button.click()
5. 在输入框输入内容：element.send_keys(u’…’)(注意输入的内容要是Unicode的编码，所以要加上u”)
6. 获取当前页面：driver.window_handles
7. 切换页面：driver.switch_to_window(driver.window_handles[1])
8. 获取cookies: driver.get_cookies()
9. 获取当前页面的url：driver.current_url
10. 保存快照：driver.save_screenshot(‘文件名’)
11. 关闭浏览器:driver.quit()
12. 关闭页面：driver.close()

完整使用步骤代码：

# -*- coding:utf-8 -*-
from selenium import webdriver
import time


def base_use_selenium():
    url = 'https://www.so.com/'

    # 1.创建浏览器对象
    driver = webdriver.PhantomJS()

    # 2.请求数据
    driver.get(url)

    # 4.获取数据
    data = driver.page_source # 格式为unicode,如需保存需要：data.encode('utf-8')

    # 5.点击新闻按钮
    # 获取按钮对象
    button = driver.find_element_by_xpath('//*[@id="bd_tabnav"]/nav/a[2]')
    # 点击按钮
    button.click()

    # 6.在输入框中输入内容
    # 获取输入框对象
    element =  driver.find_element_by_id('haosou-input')
    # 输入内容
    element.send_keys(u'中兴')

    # 7.点击搜索按钮(放大镜)进行
    driver.find_element_by_xpath('//*[@id="search-form"]//div/button').click()

    # 8.获取当前的页面
    print driver.window_handles

    # 9.切换页面
    driver.switch_to_window(driver.window_handles[1])

    # 10.获取cookies
    cookies = driver.get_cookies()

    # 11.获取当前页面的url
    current_url = driver.current_url

    # 3.保存快照
    driver.save_screenshot('so.png')

    # 12.关闭浏览器
    driver.quit()


if __name__ == '__main__':
    base_use_selenium()

示例：使用selenium-PhantomJS登录到豆瓣首页

代码：

 -*- coding:utf-8 -*-
from selenium import webdriver
import time


def login_douban():
    # 1.登录的网址
    url = 'http://www.douban.com/accounts/login?source=movie'

    # 2.创建浏览器对象
    driver = webdriver.PhantomJS()

    # 3.请求url
    driver.get(url)

    # 4.输入用户名
    driver.find_element_by_id('email').send_keys(u'[email protected]')

    # 5.输入密码
    driver.find_element_by_id('password').send_keys(u'ALARMCHIME')

    # 6.点击登录按钮，看是否出现验证码
    driver.find_element_by_name('login').click()
    time.sleep(2)  # 等待页面加载完成

    # 保存快照，查看验证码，手动输入，此处若使用第三方SDK（某云，极验）可以将验证码图片当参数传给第三方接口
    # 第三方平台处理好后，返回结果，直接输入结果即可，这里不调用，所以要手动输入
    driver.save_screenshot('veri_code.png')
    code = raw_input('请输入验证码')

    # 7.输入验证码
    driver.find_element_by_id('captcha_field').send_keys(code)

    # 8.点击登录按钮
    driver.find_element_by_name('login').click()

    driver.save_screenshot('douban.png')


if __name__ == '__main__':
    login_douban()

Tesseract-OCR

在爬虫过程中，难免会遇到验证码卡住爬虫进程的情况。在这种情况下怎么处理呢？
1. 直接使用第三方平台的验证码识别sdk，如极验，某云，要钱
2. 对于简单的验证码，可以使用成熟的工具包，如Tesseract

使用步骤;

先把验证码图片下载下来，清理干净
然后使用Tesseract处理图片，处理完的结果使用selenium创建的driver，使用send_keys()方法输入，获取确认按钮，然后button.click()进入，主页

示例：识别豆瓣验证码

# -*- coding:utf-8 -*-
from selenium import webdriver
import time


def login_douban():
    # 1.登录的网址
    url = 'http://www.douban.com/accounts/login?source=movie'

    # 2.创建浏览器对象
    driver = webdriver.PhantomJS()

    # 3.请求url
    driver.get(url)

    # 4.输入用户名
    driver.find_element_by_id('email').send_keys(u'[email protected]')

    # 5.输入密码
    driver.find_element_by_id('password').send_keys(u'ALARMCHIME')

    # 6.点击登录按钮，看是否出现验证码
    driver.find_element_by_name('login').click()
    time.sleep(2)  # 等待页面加载完成

    # 保存快照，查看验证码，手动输入，此处若使用第三方SDK（某云，极验）可以将验证码图片当参数传给第三方接口
    # 第三方平台处理好后，返回结果，直接输入结果即可，这里不调用，所以要手动输入
    driver.save_screenshot('veri_code.png')
    code = raw_input('请输入验证码')

    # 7.输入验证码
    driver.find_element_by_id('captcha_field').send_keys(code)

    # 8.点击登录按钮
    driver.find_element_by_name('login').click()

    driver.save_screenshot('douban.png')


if __name__ == '__main__':
    login_douban()

【崔律100天精时力训练营·学习日志·DAY93】迷猴桃sally
#崔律100天精时力训练营14.5#这是2019年12月13日之的学习日志。1.【知识】我在课程中的收获：◤学霸回顾◢@优美分享，自己对于每天进步一点点，一年下来，积累下来的效果是巨大的，这点再孩子学习和自己的人生规划上都很有效。——确实，这一年自己跟着崔律学习精时力，最大的变化之一就是自己可以跳出自己曾经的小圈子，看到未来自己想要的样子，然后再每天一点点的改变着，累了就休息一下，抬头看看远处的梦
学习日志7.21 小白程序员成长日记学习
报表复现聚合：多个数值汇总成一个数值展现常见的聚合方式有：SUM总和、AVG平均、MAX极大值、MIN极小值聚合函数数组元素函数运用运行结果5求和sum()483计数count()67去重计数countd()57最小值min()11最大值max()2525平均值average()8筛选快捷键：ctrl+shift+L分屏：视图->窗口->新建窗口->拖拽至一边MAX函数说明：返回一组值中的最大值语
DAY4精时力学习日志-【体力】冥想让你更健康更年轻波斯菊
【精时力学习日志】本训练营：2021年100天精时力营·除法今日主题：1-4【体力】冥想让你更健康更年轻学习日期：2021年12月9日1、[我记]我学(客观)+我思(主观)+正反栗子+行动：1.1睡眠限制疗法&睡眠时间计划法1.1.1[我记]睡眠限制疗法的关键点在于不困就不上床睡觉，睡眠时间计划法的关键点在于推迟就寝时间以提升睡眠质量。1.1.2[我思]检视：这个知识点和我之前的认知是一致的吗？回
Day 38: 2019-05-30【100天崔律阅读营·Day38-6.4 日志】迷猴桃sally
【100天崔律阅读营·Day38-6.4日志】这是2019年5月30日“100天崔律阅读营”之“关系力·《关系力》6.4交流三层面”的学习日志。1.【收获】我今日的收获：自己阅读的时候，对于三个层面打造人脉，我的理解是从三个不同的层面逐级对应着三类人，但是今天在听完课反思的过程中，忽然觉得这三个层面是反应人与人交流的过程，三个层面与对应的三类人不时“=”，不是一一匹配的，同一类人可能在不同的场合出
学习日志15 python im_AMBER 学习 python
1filter()函数filter(function,iterable)filter函数是python中的高阶函数,第一个参数是一个筛选函数,第二个参数是一个可迭代对象,返回的是一个生成器类型,可以通过next获取值。filter()函数是Python内置的高阶函数，其主要功能是对可迭代对象中的每个元素运用筛选函数进行判断，然后把符合条件的元素以生成器的形式返回。下面为你详细介绍它的用法和特性：基
学习日志14 python im_AMBER 学习 python 开发语言
1divmod(a,b)divmod(a,b)是Python内置函数,用于返回两个数相除的商和余数,返回值是一个元组(tuple)。divmod(a,b)是Python的内置函数，用于同时计算两个数值的商和余数，返回一个包含这两个结果的元组(商,余数)。该函数在处理需要同时获取整除结果和余数的场景（如时间单位转换、分页计算）时非常高效。基本用法python运行result=divmod(a,b)#
嵌入式学习日志（八）
8学习函数1函数核心知识1.1函数基础与设计价值1.本质与入口：程序从main函数启动，函数是构建程序功能的基本单元，实现“从无到有”的功能拆分。2.设计意义：降低耦合性（功能模块独立，关联少）、提升复用性（代码可重复调用）。voidprtchar();是声明（告知编译器存在此函数，未定义实现），区别于函数定义（含具体逻辑）。1.2函数定义规则1.定义限制：函数不可嵌套定义（函数内部不能再定义新函
学习日志03 python im_AMBER 学习
继续加油，计算器小项目还没学会！1num1=float(input("请输入第一个数字:"))//其实我觉得python里面这种句子很奇怪，因为java里面要先printf这个中文，然后再读取输入的在Python中，input()函数确实会直接显示提示信息并等待用户输入，这与Java的处理方式有所不同。Java通常需要先使用System.out.print()输出提示，再用Scanner读取输入。
嵌入式开发学习日志Day14（ARM体系架构——RTC及ADC)
一、RTCRTC（实时时钟）：非易失性在IMX6ULL内部SNVS（安全的非易失性存储器）提供RTC功能；原理图：二、ADC2.1基本概念ADC(模拟数字转换器)：用于将连续变化的模拟信号转换为离散的数字信号以便数字系统对它进行处理；模拟信号：一般指连续变化的电压信号，其值在一定范围内变化；数字信号：由一系列离散数字表示仅取有限值，通常以二进制表示；2.2工作原理将模拟信号分割成一系列离散的取样，
C#学习日志 future1412 c#学习 java
构造函数和析构函数知识点一构造函数基本概念在实例化对象时会调用的用于初始化的函数如果不写默认存在一个无参构造函数构造函数的写法1.没有返回值2.函数名和类名必须相同3.没有特殊需求时一般都是public的classPerson{publicstringname;publicintage;类中是允许自己申明无参构造函数的结构体是不允许publicPerson(){name="怪盗基德";age=18
学习日志02 ETF 基础数据可视化分析与简易管理系统 im_AMBER 学习数据分析
从头开始了，现在有数据的变动还有要用jupyter，这个文学编程的确很好，虽然我们老师有点push有点严格，但觉得好好学确实能收获不少知识的！！！是的！已经搭建了miniconda关联的jupyternotebook1我发现jupyter是不可以关闭conda终端运行的对哒，JupyterNotebook是依赖终端（或AnacondaPrompt）启动的本地服务，终端窗口不能直接关闭，否则Jupy
Golang学习日志 ━━ 单向链表暂时先用这个名字 Golang go golang
因为转载必须指明原文网址，而本文内容整合了网上多篇技术文章，无法明确其中一条，所以选择了原创。已在最后的参考目录里列出本文所有涉及的文章。定义单向链表（单链表）是链表的一种，是一种链式存取的数据结构，用一组地址任意的存储单元存放线性表中的数据元素。其特点是链表的链接方向是单向的，对链表的访问要通过顺序读取从头部开始；链表是由结点构成，head指针指向第一个成为表头结点，而终止于最后一个指向nuLL
FPGA verliog语言学习日志藏进云的褶皱 FPGA fpga开发学习
1.什么是verilog语言VerilogHDL（HardwareDescriptionLanguage）是一种用于电子系统设计和建模的硬件描述语言。它广泛应用于数字电路的设计和验证，特别是在FPGA（现场可编程门阵列）和ASIC（应用特定集成电路）的开发中。VerilogHDL允许设计师通过编写代码来描述电路的行为和结构，这些代码可以被合成工具转换成实际的硬件电路。以下是VerilogHDL的一
嵌入式开发学习日志（linux系统编程--网络编程）Day33 水水沝淼㵘嵌入式开发学习网络学习服务器
网络编程用于不同主机间的通信；一、OSI模型（1）应用层：（2）表示层：加密解密（3）会话层：网络断开，连接状态（4）传输层：tcp：传输控制协议可靠通信；udp：用户数据报协议，不可靠通信（5）网络层：ip地址（6）链路层：网络设备、交换机（7）物理层：硬件设备应用层：为网络用户提供各种服务，例如电子邮件、文件传输等。表示层：为不同主机间的通信提供统一的数据表示形式。会话层：负责信息传输的组织和
学习日志09 java im_AMBER 学习
我要(ง•_•)ง！！1面向对象里面的编程的属性，其实就是变量啦在面向对象编程里，“属性”（Attribute）也被叫做“成员变量”或者“字段”（Field），指的是类中用来存储对象状态数据的变量。在这个题目里，Student类和Undergraduate类的属性分别如下：Student类的属性name：类型为String，用来存储学生的姓名。age：类型为int，用来存储学生的年龄。Underg
学习日志07 java im_AMBER java 学习算法
1Integer.parseIntInteger.parseInt()是Java中的一个静态方法，它属于java.lang.Integer类。这个方法的主要作用是将字符串类型的数据转换为int类型的整数。下面为你详细介绍：方法定义Integer.parseInt()方法有两个重载形式：publicstaticintparseInt(Strings)：将字符串参数解析为有符号的十进制整数。字符串中的
学习日志08 java im_AMBER java 学习开发语言
1对比代码哪个更好？publicvoidsetName(Stringname){this.name=name;}或者写publicvoidsetname(Strings){name=s;}哪个更好？第一个好。在Java中，通常推荐使用第一种方式，即遵循标准的JavaBean命名规范，使用setName方法。以下是详细对比和建议：1.第一种方式：setName(Stringname)javapubl
学习日志03 c im_AMBER 学习
C语言学习日志，拜托让我真的学会吧，现在还是没有码力，一定要坚持写博客：1绝望的我，好好看看解引用ok??!!s+=*p;这是复合赋值语句，等价于s=s+*p;。其中*p是指针解引用操作，获取指针p所指向内存单元的值，然后将这个值加到变量s上。假设s是一个数值型变量（如int类型），它会不断累加指针p所指向数组元素的值。2用指针变量定义一个求和函数的好处这个只是我比较好奇为什么要放弃原来的那些o(
学习日志01 java im_AMBER 学习 java 开发语言
java要多多练习！：1JVM是什么JVM内存即Java虚拟机内存，是Java程序运行时用于存储数据的区域。Java程序在运行时，JVM会在计算机物理内存上划分出不同的内存区域来管理数据，主要分为以下几部分：堆内存（HeapMemory）作用：是线程共享区域，用于存放对象实例（使用new关键字创建的对象）和数组，几乎所有对象实例都在此分配内存。类加载器读取类文件后，类的元数据（如类、方法和常量等信
学习日志05 java im_AMBER 学习 java 开发语言
1java里面的类型转换怎么做？int转double为例在Java里，把int转换为double有自动类型转换和强制类型转换两种方式。下面为你详细介绍：自动类型转换（隐式转换）由于double的取值范围比int大，Java能够自动将int类型转换为double类型，无需编写额外的代码。javaintnumInt=10;doublenumDouble=numInt;//自动转换System.out.
嵌入式学习日志（一）——全志H3之开发环境准备 Three_Sheep 嵌入式 linux uboot 嵌入式
小目标：让自己编译的uboot跑起来参考：wiki.friendlyarm.com/wiki/index.php/NanoPi_NEO首先熟悉一下板子NanoPiNEO和开发流程。维基主要参考《使用全志原厂BSP》这一节。概要步骤：1.获得BSP源码包：gitclonehttps://github.com/friendlyarm/h3_lichee.gitlichee2.下载交叉编译器gcc-li
分布式系统基础/学习日志相关知识首尔的初雪是眼泪大数据学习
目录1.分布式系统基础1.1学习建议与资源1.2核心知识点1.3实践建议2.学习日志相关知识2.1日志类型与特点2.2日志级别2.3日志的作用与应用场景2.4学习与实践建议2.5后续日志处理基础1.分布式系统基础分布式系统是一组通过网络协作的独立计算机，旨在提供高可用性、可扩展性和可靠性。以下是基于您提到的学习路径的详细展开。1.1学习建议与资源书籍：《分布式系统概念与设计》（Distribute
嵌入式开发学习日志Day1 水水沝淼㵘嵌入式开发学习学习
一、Linux系统的发展史由丹尼斯·里奇创造出Unix（前身）。Unix的推广：从学校走进企业。GUN组织推出GCC和emacs供使用者免费使用，并要求使用这两个软件发行的程序免费供使用者使用。通过GCC和emacs开发出Linux系统。二、Linux系统的基本命令1、【ls】-------列出某个目录下的内容；2、【pwd】-------显示当前所在目录的全部路径；3、【cd】------修改当
TMS320F28377D学习日志：day2点亮LED 天野英晴 DSP学习日志学习单片机 dsp开发嵌入式硬件
文章目录一、28377开发板的led电路分析二、28377的GPIO相关寄存器介绍2.1前言2.2GPySET寄存器介绍2.3GPyCLEAR寄存器介绍三、程序介绍3.1引入库3.2配置GPIO引脚功能3.2.1GPIO_SetupPinMux函数3.2.1GPIO_SetupPinOptions函数3.3系统初始化3.4循环程序参考文献一、28377开发板的led电路分析led电路图：LED串联
C++八股--6--mysql 日志与并发控制 wjm041006 oracle 数据库
这里向大家介绍一下数据库基础：共分为以下章节10前序.日志系统这是数据库的核心。我放到首页来介绍，给大家一个前置概念，方便进行更好的学习日志文件我们用来记录事务对数据库更新操作的文件，分为以记录为单位的文件和数据块为单位的文件1.以记录为单位：每条记录包含事务标识，操作类型，操作对象，更新前的值，更新后的值。2.以数据块为单位：包含事务标识，被更新的数据块。note：必须先写日志文件，再写数据库：
【C++入门学习日志】lesson1：第一篇C++程序“hello world” Gyro_Zeppeliiii C++学习日志 c++学习开发语言
说明：本人也是C++入门的小白，也是从头开始学的。文章用来记录自己的学习历程和自己总结的结论，如果有错，请在评论去指点一下。一、C++：从基础到人工智能的桥梁在计算机科学的浩瀚宇宙中，C++无疑是一颗璀璨的恒星，以其卓越的性能、强大的功能和广泛的适用性，在各个领域散发着独特的光芒。C++是一种静态类型、编译式的高级程序设计语言，它在C语言的基础上发展而来，既保留了C语言高效、接近硬件的特性，又引入
Git学习日志 merrily01 Git git 命令指令 git指令
---Git常用基本指令------lscdmkdirlearnGitcdlearnGitpwdls-ahgitinitgitaddreadme.txtgitcommit-m"说明"gitstatusgitdiffgitloggitlog--statgitlog--pretty=onelinegitreset--hardHead^gitreset--hardHead~100gitreset--ha
git学习日志学渣67656 git 学习
你看到的是Vim文本编辑器的界面，并非git的窗口。这是你通过vimhello.txt命令打开的新文件。以下是分步操作指南：1.进入编辑模式按下键盘上的i键（进入“INSERT”模式），此时左下角会显示--INSERT--。现在可以输入文本，例如：Hello,world!2.保存并退出按下Esc键退出编辑模式（回到“NORMAL”模式）。输入:wq并按回车（保存文件并退出Vim）：:w表示保存（w
嵌入式开发学习日志Day4 水水沝淼㵘学习
一、逗号运算符和逗号表达式1、逗号运算是自左向右进行运算的；2、逗号表达式的运算的结果为最后一个表达式的值；3、函数调用时的逗号和逗号表达式中的逗号表示的意义不一样；eg:【printf("%d\n",1+2,2+3,3+4);】在这个语句中，输出的最终结果就为3+4的值为7；二、数据输入和输出的概念在C语言中的实现一个c程序包含若干源程序文件，每个源程序文件包括预处理指令、数据声明和若干函数，每
学习日志37—基于变分量子电路的量子机器学习算法综述 Simon#0209 学习机器学习算法量子计算
基于变分量子电路的量子机器学习算法综述论文原链接参考：https://crad.ict.ac.cn/article/cstr/32373.14.issn1000-1239.202330979这篇综述的核心内容是基于变分量子电路（VQCs）的量子机器学习算法的研究现状、应用进展以及面临的挑战和未来研究方向。文章从量子计算的基础理论出发，详细介绍了变分量子算法（VQAs）的框架及其在量子机器学习中的应
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/