Mr.Bean-Pig

通过分析Ajax请求抓取【今日头条】“街拍”美图

20119.3.25更新：今日头条的“图集”模块已经改为“视频”了，可能是被人爬多了?
———————————分割线——————————
有一些网页直接请求得到的HTML代码并没有在网页中看到的内容，因为一些信息是通过Ajax加载，并通过js渲染生成的，这时就需要通过分析网页的请求来获取想要爬取的内容。本文通过抓取今日头条街拍美图讲解一下具体操作步骤。

网络库：Requests
解析库：BeautifulSoup+正则表达式
存储数据库：MongoDB
其他库：PyMongo
请确保以上库已经正确安装。

目标站点分析

打开今日头条的网页并搜索“街拍”。

我们想要抓取的是这些图集里面的内容。

右击空白处->审查->Network->勾选Preserve log->刷新网页

查看URL返回的都是一些js，并没有我们想要获取的内容。

点击XHR，再选中一个URL，查看请求的方法，发现是用get方法，所以使用requests库。

再看Preview，里面有许多data。我们展开来核对一下。

核对一下第一个data的title是不是和当前页面的第一个标题相同呢？如果是，那么说明当前网页的展示和对应的代码是没有问题的。并且URL的对应也没有问题。
现在下拉页面，可以看到左下方不断出现了新的URL请求：

重点在于都是通过offset这个参数的改变来实现的——变化范围为0，20，40···！那么我们通过循环就可以拿到这个“街拍”下组图形式的所有数据了！通过右边的数据可以看到这些都是一些json的数据，我们拿到后台数据后只需要调用json的包进行解析就可以了。
接下来就是分析查找图集详细页的代码，来找到图片的url，这个图片url隐藏的比较深，都在JS代码中：

通过比对发现确实如此。

由于这个url是藏在gallery这个变量里的，然而这个变量并不是在html代码里的，所以不能使用BeautifulSoup和PyQuery来解析了，只能通过正则表达式来解析。

流程框架

1.获取索引页内容
利用requests请求目标站点，得到索引网页HTML代码，返回结果。
2.抓取详情页信息
解析返回结果，得到详情页的链接，并进一步抓取详情页的信息。
3.下载图片与保存数据库
将图片下载到本地，并把页面信息及图片URL保存至MongoDB。
4.开启循环及多线程
对多页内容遍历，开启多线程提高抓取速度。

爬虫实战

1.获取索引页

再看一下索引页的请求方式：

我们只需要按照这个格式构建一个Ajax请求。
注意！cur_tab为3时，搜索到的才是图集（一共有4个标签：综合、视频、图集、用户）。

from urllib.parse import urlencode
import requests
from requests.exceptions import RequestException
headers = {'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'}#这个信息是自定义的，根据自身需求来改变

#请求索引页（索引页中包含着许多图集的url）
def get_page_index():
    data = {#定义一个data字典，用于Ajax请求
        'offset': 0,
        'format': 'json',
        'keyword': '街拍',
        'autoload': 'true',
        'count': '20',
        'cur_tab': '3',
        'from': 'gallery'#这一行一定不能少
    }
    url = 'https://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print("请求索引页错误")
        return None

def main():
    html=get_page_index()
    print(html)

if __name__ == '__main__':
    main()

注意！由于不同浏览器请求时的headers信息是不同的，所以在定义headers时可以到你的常用浏览器中去获取，随意打开一个网页右键审查，点击一个元素network然后查看Headers：

可以把下图红框中的信息复制到代码中作为headers（注意格式是个字典）。
运行一下：

如上，成功获得了索引页的html，里面包含着许多图集的url。

2.解析索引页

由于上文返回的html是json格式的字符串对象——我们调用type方法就可以看出来：

print(type(html))

因此我们需要调用json.loads（）方法对字符串进行解析。
json.loads()用于将str类型的数据转成字典。
再仔细分析下图，这是索引页的html（json格式）。可以看到，data对应还有许多值。

将这些值（0,1,2…）展开，可以看到每一个值又是一个字典（abstract,article_url…），我们要提取的就是这些子层字典中“article_url”对应的值。

#注意引入相关的包
import json
from json.decoder import JSONDecodeError


#传入索引页的html，解析出每个图集的url
def parse_page_index(html):
    try:#加入异常处理
        data = json.loads(html)#对html进行解析，转换为字典。
        if data and 'data' in data.keys():
        #data.keys()返回的是这个字典中的所有的键名，并判断：'data'这个键名是否其中，若在的话执行下面的for循环
            for item in data.get('data'):#data这个键对应着许多值，遍历这些值，并依次赋值给item
                yield item.get('article_url')#构造一个生成器，取出每一个item中的article_url对应的url
    except JSONDecodeError:#如果出现了JSON解析异常，则跳过
        pass

然后在main函数中调用以上的函数，解析出图集的url，这些url就是每个图集的入口。

def main():
    html=get_page_index()
    for url in parse_page_index(html):#通过生成器提取所有的url
        print(url)

很好，当前索引页中，所有的图集url都被我们提取到了。

3.获取详情页

若尝试进入上面提取到的url，那么则会进入详情页（也就是进入了某个图集）。现在我们要获取详情页的代码（因为我们最终要抓取的图片就隐藏在这些代码之中）。这部分很好理解，和1.获取索引页的代码是相同的。

#请求每个图集的详情页
def get_page_detail(url):
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求详情页出错',url)
        return None

再次在main函数中改动一下，把上面获取到的详情页的text打印一下，以此来检查到此为止一切是否顺利：

def main():
    html=get_page_index()
    for url in parse_page_index(html):#通过生成器提取所有的url
        print(get_page_detail(url))#依次请求（上面提取到的url）并打印返回的text

好，成功请求了url，并且得到了它们的text。通过type()可以知道，这些text都是str类型的。

4.解析详情页数据

关键的一步到了。我们先研究一下详情页的源代码。

要在“Doc”中才能看到比较原始的代码。我们再找找图片的url隐藏在哪里。

发现图片的url都在gallery键的值中（并且值里面还有许多的“\”符号）
现在定义一个函数来解析详情页的数据，目标是把这个图集下的所有图片url提取出来。
首先，获取每个图片集的标题title，用BeautifulSoup下的select方法选择title标签下的文本。（因为文本直接能用，所以这时候就可以使用特别方便的BeautifulSoup了，而下面的图片url就不是这样，还掺杂着别的信息）

from bs4 import BeautifulSoup#记得导入


#解析详情页，获取图集中每张图片的url
def parse_page_detail(html):
    soup = BeautifulSoup(html,'lxml')#传入解析器：lxml和解析对象：html
    title = soup.select('title')[0].get_text()
    #因为select返回的结果是一个list，所以要用[0]来指定元素（也就是第一个元素），这个元素的类型是bs4.element.Tag
    #get_text（）方法是定义在bs4.element.Tag这个类上面的，而不是list上
    #get_text（）方法获取“title”对应的内容
    print(title)

在main函数中判断html是否正确，并打印结果：

main():
    html = get_page_index()
    for url in parse_page_index(html):
        html = get_page_detail(url)
        if html:
            parse_page_detail(html)

接下来获取每个图片集中的图片信息，所有图片信息都在gallery键的值中，通过re.comlile构建一个正则表达式pattern，再search得到结果，因为此时得到的结果中信息不正确，有很多多余的反斜杠’\’，于是利用replace去掉斜杠。
这一步的关键是正则表达式的写法。
注意，由于不同的浏览器返回的代码有可能不同，所以根据自己在浏览器（这个浏览器的headers应该与代码中的相对应，否则可能出错）中看到的代码来写正则表达式。

我们要匹配的是上图蓝色框中的内容（夹在括号内）。


import re
 
 #下面提取json串，串中包含了图片信息
    images_pattern = re.compile('JSON.parse\("(.*?)"\),', re.S)#注意对括号进行转义
    result=re.search(images_pattern,html)
    if result:
        result = result.group(1).replace('\\', '')#替换反斜杠为空格

结果是json字符串的格式，需要用loads解析，提取其中的每张照片的url，最后返回的是图集的标题、链接和每张图片的url。
以上一步的思路进一步完善：

def parse_page_detail(html,url):#多传入一个当前详情页的url参数
    soup = BeautifulSoup(html,'lxml')#传入解析器：lxml和解析对象：html
    title = soup.select('title')[0].get_text()
    #get_text（）方法获取“title”对应的内容
    print(title)
    # 下面提取json串，串中包含了图片信息
    images_pattern = re.compile('JSON.parse\("(.*?)"\),', re.S)  # 注意对括号进行转义
    result = re.search(images_pattern, html)
    if result:
        result = result.group(1).replace('\\', '')
        data = json.loads(result)  # 转换成json对象
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            # 每个sub_images都是一个字典，需要遍历它来提取url元素
            # 用一句话来构造一个list，把item赋值为sub_images的每一个子元素
            # 再取得sub_images的每一个item对象的url属性，完成列表的构建，这个列表名为images，里面是sub_images下所有的url
            images = [item.get('url') for item in sub_images]
            return {  # 以一个字典形式返回
                'title': title,
                'url': url,  # 这是当前详情页的url
                'images': images
            }

此时，所有的信息已经提取完毕，开始存储数据到MongoDB数据库。

存储到数据库

要把数据存储到mongodb数据库中，首先在同一目录下，建立配置文件config.py。

这个配置文件需要写入以下内容：

MONGO_URL='localhost' #链接地址
MONGO_DB='toutiao'    #数据库
MONGO_TABLE='toutiao'    #数据集即“表”

通过from config import *调用该文件：

from config import *

import  pymongo
#声明mongodb数据库对象
client=pymongo.MongoClient(MONGO_URL)
db=client[MONGO_DB]

然后定义函数存储到数据库中，并判断如果存储成功输出相应信息

#把url存储到数据库
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('存储到MongoDB成功',result)
        return  True
    return False

这个函数将在主函数中调用：

def main(offset):
    html=get_page_index(offset, KEYWORD)
    for url in parse_page_index(html):#获得每个图集的url
         html=get_page_detail(url)#用某个图集的url来请求详情页
         if html:
            result=parse_page_detail(html,url)#解析详情页的信息
            if result:save_to_mongo(result)#保存到数据库

6.下载图片

首先定义一个函数，利用pathlib库，根据传入的目录名创建一个文件目录，这是为了将图片分类：

from pathlib import Path
def create_dir(name):
    #根据传入的目录名创建一个目录，这里用到了 python3.4 引入的 pathlib 。
    directory = Path(name)
    if not directory.exists():
        directory.mkdir()
    return directory

然后定义下载图片函数，要求返回的是content，是二进制文件：

def download_image(save_dir,url):
    print("正在下载：",url)
    try:
        response = requests.get(url，headers=headers)#还是熟悉的请求方式
        if response.status_code == 200:
            #调用存储图片函数，返回二进制
            save_image(save_dir,response.content)#调用存储图片的函数
        return None
    except RequestException:
        print("请求图片出错",url)
        return None

定义存储图片函数

import os
from hashlib import md5

def save_image(save_dir,content):
    '''把文件保存到本地，文件有三部分内容(路径)/（文件名）.（后缀）
    用format构造字符串(项目路径，文件名，格式),md5文件名可以避免重复'''
    #os.getcwd()程序同目录，但是现在我们要自定义目录
    #file_path='{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')
    file_path = '{0}/{1}.{2}'.format(save_dir, md5(content).hexdigest(), 'jpg')
    #如果文件不存在，开始存入
    if not os.path.exists(file_path):
        with open(file_path,'wb') as f:
            f.write(content)
            f.close()

在parse_page_detail函数中，调用download_image：

root_dir=create_dir('E:\spider\\'+KEYWORD)  # 保存图片的根目录，这个是自定义的，E:\spider这个文件夹需要提前在本地建好。此后程序会根据KEYWORD建一个子文件夹。create_dir函数是上面我们定义过的。
download_dir = create_dir(root_dir / title)  # 根据每组图片的title标题名创建目录
for image in images:
    download_image(download_dir, image)    #下载所有的图片

为了方便代码的复用，还可以把offset、搜索关键词等参数放到配置文件中：

MONGO_URL='localhost' #链接地址
MONGO_DB='toutiao'    #数据库
MONGO_TABLE='toutiao'    #数据集即表

GROUP_START = 1
GROUP_END = 20

KEYWORD = '街拍'#若想爬取其他内容，在此替换关键词即可

7.开启循环及多线程

开启多线程可以提高抓取效率：同时下载多个页面的图片
循环可以抓取更多页面的信息

from multiprocessing import Pool

if __name__ == '__main__':

    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]
    #把offset做成一个列表20,40,60...
    #GROUP_START,GROUP_END用来限制起始和结束时的offset，也就是想要爬取的页面范围，这已在配置文件中定义过了
    pool=Pool()
    pool.map(main,groups)#将列表传入主函数，并且开启多线程

还需要修改：
将请求索引页时的offset和keyword改为由调用方（主函数）传入

修改主函数：
offset是由上面的groups列表传入, KEYWORD是在配置文件中定义的。

def main(offset):
    html=get_page_index(offset, KEYWORD)

完整代码：

import  requests
from urllib.parse import urlencode
from requests.exceptions import RequestException
import json
from bs4 import BeautifulSoup
import re
from config import *
import  pymongo
import os
from hashlib import md5
from multiprocessing import Pool
from json.decoder import JSONDecodeError
from pathlib import Path

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}
#声明mongodb数据库对象
client = pymongo.MongoClient(MONGO_URL,connect=False)
db = client[MONGO_DB]

#请求索引页（索引页中包含着许多图集的url）
def get_page_index(offset,keyword):
    data = {#定义一个data字典，用于Ajax请求
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': '20',
        'cur_tab': '3',
        'from': 'gallery'
    }
    url='http://www.toutiao.com/search_content/?'+urlencode(data)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求索引页出错')
        return None


#传入索引页的html，解析出每个图集的url
def parse_page_index(html):
    try:#加入异常处理
        data = json.loads(html)#对html进行解析，转换为字典。
        if data and 'data' in data.keys():#data.keys()返回的是这个json的所有的键名，这里判断'data'在这些键名中
            for item in data.get('data'):#data对应还有许多值，遍历这些值
                yield item.get('article_url')#构造一个生成器，取出data中的每一个article_url对应的url
    except JSONDecodeError:
        pass

#请求每个图集的详情页
def get_page_detail(url):
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('请求详情页出错',url)
        return None

#解析详情页，获取图集中每张图片的url
def parse_page_detail(html,url):
    soup = BeautifulSoup(html, 'lxml')
    # 用BeautifulSoup来提取title信息
    title = soup.select('title')[0].get_text()
    print(title)
    #下面提取json串，串中包含了图片信息
    images_pattern = re.compile('JSON.parse\("(.*?)"\),', re.S)#注意对括号进行转义
    result=re.search(images_pattern,html)
    if result:
        result = result.group(1).replace('\\', '')
        data = json.loads(result)#转换成json对象
        if data and 'sub_images' in data.keys():
            sub_images = data.get('sub_images')
            #每个sub_images都是一个字典，需要遍历它来提取url元素
            # 用一句话来构造一个list，把item赋值为sub_images的每一个子元素
            # 再取得sub_images的每一个item对象的url属性，完成列表的构建，这个列表名为images，里面是sub_images下所有的url
            images = [item.get('url') for item in sub_images]
            root_dir=create_dir('E:\spider\jiepai')
            download_dir = create_dir(root_dir/title)
            for image in images: download_image(download_dir,image)#通过循环把图片下载下来
            return {#以一个字典形式返回
                'title':title,
                'url':url,#这是当前详情页的url
                'images':images
            }

#把url存储到数据库
def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('存储到MongoDB成功',result)
        return  True
    return False

#通过url来请求图片
def download_image(save_dir,url):
    print('正在下载',url)
    try:
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            save_image(save_dir,response.content)#content返回的是二进制内容，一般处理图片都用二进制流
            return response.text
        return None
    except RequestException:
        print('请求图片出错',url)
        return None

def create_dir(name):
    #根据传入的目录名创建一个目录，这里用到了 python3.4 引入的 pathlib 。
    directory = Path(name)
    if not directory.exists():
         directory.mkdir()
    return directory

def save_image(save_dir,content):
    file_path = '{0}/{1}.{2}'.format(save_dir,md5(content).hexdigest(),'jpg')
    if not os.path.exists(file_path):#如果文件不存在
        with open(file_path,'wb') as f :
            f.write(content)
            f.close()

def main(offset):
    html=get_page_index(offset, KEYWORD)
    for url in parse_page_index(html):#获得每个图集的url
         html=get_page_detail(url)#用某个图集的url来请求详情页
         if html:
            result=parse_page_detail(html,url)#解析详情页的信息
            if result:save_to_mongo(result)





if __name__ == '__main__':

    groups = [x*20 for x in range(GROUP_START,GROUP_END+1)]#20,40,60...
    pool=Pool()
    pool.map(main,groups)

实战结果

最后结果了解一下：

上图是保存在本地目录下的按标题分类好的图片。

上图是使用Studio 3T所查看到的、保存在MongoDB数据库中的信息。

实战总结

这一次的实战需要掌握以下知识：

有关网页的一些基础知识
对Ajax格式的请求的分析与构造
requests、urllib、BeautifulSoup中一些常用方法的使用
用json库来对json格式的字符串进行解析
用正则表达式来提取信息
如何把数据存储到MongoDB
保存图片到本地、动态创建目录的方法

总的来说，对一个网页的结构进行正确地分析，确定好提取信息的方案（例如由索引到详情页的请求方法、根据相应网页代码选择正确的库、正则表达式的写法等等），是成功完成类似抓取任务的关键。
ps：直接换个关键词，就可以抓取到别的图片啦！

【新生必会】30个较难Python脚本，建议收藏。 .Boss. 信息可视化 python 人工智能算法开发语言机器学习
本篇较难，建议优先学习上篇；20个硬核Python脚本-CSDN博客接上篇文章，对于Pyhon的学习，上篇学习的结束相信大家对于Pyhon有了一定的理解和经验，学习完上篇文章之后再研究研究剩下的30个脚本你将会有所成就！加油！目录21、数据库连接-SQLite22、图像处理-Pillow23、图形界面-Tkinter24、文本生成-Faker25、加密和解密-cryptography26、Sock
python import 另一个文件夹下的类 zhousenshan python新赛道 python django
在Python开发中，有时我们需要将不同文件夹中的模块或类相互导入，以实现代码的复用和组织。对于刚入行的小白来说，这可能会让人感到有些困惑。本文将帮助你了解如何在Python中导入另一个文件夹下的类，并为你提供详细的步骤与代码示例。python类与对象的详细用法_python撖寡情-CSDN博客导入类的流程为了解决这个问题，我们可以将导入的过程分为以下几个步骤：步骤描述1确认项目结构，了解不同文件
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
Python文件中动态导入多个.py文件 _长风_ Python脚本方法大合集 python
Python文件中动态导入多个.py文件一、背景在一些自动化脚本中，我们需要一些中间文件作为引用文件来处理一些自动化的工作，但是中间文件数量可能根据需求的变更发生不规律的变化，所以就需要一些读文件夹来自动获取这些需要引用的中间文件，下面就是我整理的一个能够实现动态导入的方法。二、实现思路及步骤生成文件：a.py脚本会生成b.py和c.py文件，并在其中定义一个简单的函数。执行生成文件脚本：在m
基于python+django+vue.js开发的社区养老管理系统源码+运行步骤冷琴1996 Python系统设计 python django vue.js
业余时间开发的社区养老系统，基于python/vue技术开发。学习过程问题可以留言。功能介绍平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。功能包括：老人管理、护工管理、亲属管理、病史管理、房间管理、活动管理、用户管理、日志管理、系统信息模块。源码地址https://github.com/geeeeeeeek/python_yanglao演示地址ht
Python从一个文件导入另一个文件的方法 _苏歌 Python python
从一个文件中导入另一个文件需要的函数#导入所需要的文件importChrome_HandLessimporttimebrowser=Chrome_HandLess.share_browser()url='https://www.baidu.com/'browser.get(url)#获取输入框对象input_button=browser.find_element(by='id',value='kw
LeetCode 第6题：Z字形变换（Python3解法） little student LeetCode leetcode 算法职场和发展
文章目录1：问题描述2：问题分析2.1时间复杂度和空间复杂度2.2二维矩阵2.2.1构建矩阵2.2.2判断位置2.2.3边界2.2.4代码2.3改进的二维矩阵2.3.1代码2.4构造法2.4.1代码1：问题描述来源：LeetCode难度：中等问题详情：将一个给定字符串s根据给定的行数numRows，以从上往下、从左到右进行Z字形排列。比如输入字符串为“PAYPALISHIRING”行数为3时，排列
python requests库详解_Python Requests库详解 momo呀耶 python requests库详解
Requests是用Python语言编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库安装Requestspip3isntallrequestsrequest实例引入importrequestsresponse=requests.get('htt
python文件导入另外个文件 LedMetallica python 开发语言
我整理的一些关于【Python】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/Hpqqk2如何在Python中导入文件在Python编程中，文件的导入是一个常见而重要的操作。通过导入其他Python文件的功能，我们可以重用代码、组织项目结构、提升代码的可读性和可维护性。本文将带你逐步了解如何实现Python文件的导入，并提供必要的代码示例和详细解释。
python之requests库 qq_44659804 python python 开发语言
python之requests库requests库请求方法示例get方法get方法访问百度的输出指定方法发送请求简单的requests请求例子response响应对象的text和content之间的区别发送带header的请求发送带参数的请求在headers参数中携带Cookie两种使用cookie的形式：1.2.超时参数（timeout）使用代理IP（proxies）使用verify参数忽略CA
python导入不同目录下的py文件孙二羔 python python
文章已迁移至https://www.yuque.com/sunergao-koyun/pamxml/wx38h5
python使用importlib进行动态导入py文件 *Major* python 开发语言 opencv
python动态导入py文件importimportlibdefdynamic_import(module):returnimportlib.import_module(module)实例importimportlibimportcv2defdynamic_import(module):returnimportlib.import_module(module)classOpenCVAlgo:def
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
python 如何引入同一个文件夹下py方法 m0_68335176 eclipse
前言毕业快三年了，前后也待过几家公司，碰到各种各样的同事。见识过各种各样的代码，优秀的、垃圾的、不堪入目的、看了想跑路的等等，所以这篇文章记录一下一个优秀的后端Java开发应该有哪些好的开发习惯。拆分合理的目录结构受传统的MVC模式影响，传统做法大多是几个固定的文件夹controller、service、mapper、entity，然后无限制添加，到最后你就会发现一个service文件夹下面有几十
【Python】如何在Python中导入其他Python文件？ civilpy python 开发语言
基本原理在Python编程中，我们经常需要将代码组织成模块，以便于重用和维护。模块是包含Python定义和语句的文件。导入模块可以让你访问其他文件中定义的函数、类和变量等。Python提供了几种不同的方法来导入模块。代码示例示例1：导入整个模块假设我们有一个名为math_functions.py的文件，它定义了一些数学函数。我们可以在另一个Python文件中导入这个模块，如下所示：#math_fu
QT：文件读取 Yanjun2i qt 开发语言
问题：在文件读取，判断md5值时，遇到py文件读取转String后，再转byte，md5前后不一致问题。解决方法：python文件读取要使用QTextStream，避免\t、\r、\n的换行符跨平台问题（window系统换行符和linux换行符不一致）。QTextStream默认帮你处理了换行符跨平台问题。\r：回到开头\n：换行一般读取文件的方式是：boolxxxxClass::readFile
Python中Requests库的用法 R3eE9y2OeFcU40
前面讲了Python的urllib库的使用和方法，Python网络数据采集Urllib库的基本使用，Python的urllib高级用法。今天我们来学习下Python中Requests库的用法。Requests库的安装利用pip安装，如果你安装了pip包（一款Python包管理工具，不知道可以百度哟），或者集成环境，比如Python（x,y）或者anaconda的话，就可以直接使用pip安装Pyth
ruby分割字符串_Ruby字符串的一些方法狄息桐 ruby分割字符串
最近因为公司需求开始看ruby，先从ruby的基本数据类型开始看看到ruby的字符串类型string，发现ruby中的字符串单双引号是不一样的，这点和Python有那么点不一样主要是我们对字符串进行变量引用的时候要使用双引号如下：可支持全部的转义字符及用#{exp}将Ruby中的值插入字符串中例：i=5str=“abab#{i}cjd”#->abab5cjd“#{‘ho‘*3}happynewye
正式开启Django之旅 __淡墨青衫__ Django django python 后端
1、回顾创建django项目（1）、使用创建django指令：django-adminstartproject项目名称（2）、在settings.py文件，修改配置文件LANGUAGE_CODE='zh-hans'#需要设置为中文TIME_ZONE='Asia/Shanghai'#时区设置为亚洲/上海（3）、启动django项目指令为pythonmanage.py端口***如需外部访问需要在修改s
《Python程序设计基础》课堂笔记整理金土火 Python python
1数据1.1基本数据类型1.1.2数字类型x//yx与y整数商，即不大于x与y之商的最大整数x的y次幂，即(x+yj).real复数的实部;(x+yj).imag复数的虚部1.1.3优先级等于,顺序从右向左1.2组合数据类型1.2.1序列类型列表类型字符串使用双引号或单引号括起来的零个或多个字符，字符串是字符的序。1.正向递增序号：正向递增以最左侧字符序号为0，向右依次递增，最右侧字符序号为L-1
python中collections_python中的collections weixin_39892481
python中有大量的内置模块，很多是属于特定开发的功能性模块，但collections是属于对基础数据的类型的补充模块，因此，在日常代码中使用频率更高一些，值得做个笔记，本文只做主要关键字介绍，详细的功能仍然要翻阅官方文档，地址如下：英文站：https://docs.python.org/3.5/library/collections.html中文站：http://python.usyiyi.c
python中的 collections 模块(用法、详解、底层原理，示例等) 还是那个同伟伟 Python进阶 python collections 字典集合
1、collections模块中的defaultdict1.1defaultdict功能可以设置一个默认值作为字典中新key的默认值。该默认值可以是任何对象，包括函数、列表、元组、集合等。默认值不需要像dict那样事先定义，因为它在需要的时候会自动创建使用defaultdict，可以简化代码并提高代码的可读性，而且可以防止KeyError异常的出现。同时，defaultdict的性能与普通字典相当
Python中的collections模块木心 #Python python 开发语言
Python中的collections模块文章目录Python中的collections模块1.Counter对象2.deque对象3.defaultdict对象4.namedtuple5.OrderedDictReferencePython中的collections提供许多容器数据类型，这个模块实现了一些专门化的容器，提供了对Python的通用内建容器dict、list、set和tuple的补充
第十五届蓝桥杯省赛PythonB组题解汇总信奥郭老师蓝桥杯职场和发展
A-穿越时空之门B-数字串个数C-连连看D-神奇闹钟E-蓝桥村的真相F-魔法巡游G-缴纳过路费H-纯职业小组
Python项目--外星人入侵--武装飞船 PRCORANGE python
武装飞船开始游戏项目创建Pygame窗口以及响应用户输入首先，我们创建一个空的Pygame窗口。使用Pygame编写的游戏的基本结构如下：#alien_invasion.pyimportsysimportpygamedefrun_game():#初始化游戏并创建一个屏幕对象pygame.init()screen=pygame.display.set_mode((1200,800))#注意这里是元组
nginx中忽略已.开头的文件 LeonNo11 nginx nginx 运维
这个Nginx配置规则表示禁止访问以点（.）开头的文件或目录，并返回404错误。具体解释如下：location~/\.{denyall;return404;}解释location~/\.{...}~：表示正则表达式匹配。\.：表示匹配文件或目录路径中的“.”（点），例如.git、.env、.htaccess等隐藏文件或目录。这意味着该规则会匹配任何路径中包含以点（.）开头的文件或目录，例如.git
Python--外星人入侵--记分 PRCORANGE python
记分添加Play按钮当前，这个游戏在玩家运行alien_invasion.py时就开始了。下面让游戏一开始处于非活动状态，并提示玩家单击Play按钮来开始游戏。#game_stats.pydef__init__(self,ai_settings):"""初始化统计信息"""self.ai_settings=ai_settingsself.reset_stats()#游戏刚启动时处于活动状态self
蓝桥杯 Python组-神奇闹钟（datetime库） Aurora_th 蓝桥杯蓝桥杯算法职场和发展 python datetime
神奇闹钟传送门：0神奇闹钟-蓝桥云课问题描述小蓝发现了一个神奇的闹钟，从纪元时间（1970年11日00：00：00）开始，每经过x分钟，这个闹钟便会触发一次闹铃(纪元时间也会响铃)。这引起了小蓝的兴趣，他想要好好研究下这个闹钟。对于给出的任意一个格式为уууу-MM-ddHH:mm:ss的时间，小蓝想要知道在这个时间点之前(包含这个时间点)的最近的一次闹铃时间是哪个时间?注意，你不必考虑时区问题。
Python 基础知识整理笔记 chuanauc 笔记
闹麻了，因为各种原因，现在需要重新回顾一下Python，话不多说，开始吧1.Python是解释型语言&&Python与C++代码执行过程的区别：（1）C++源码（Source）：C++的源码文件是.cpp文件预处理（PreProcess）：生成.i文件预处理的操作有处理#include、#define等宏指令，编译（Compile）：将.cpp文件编译为.s文件，此时的.s文件是汇编文件，无法被C
Python游戏开发自学指南：从入门到实践（第四天） Small踢倒coffee_氕氘氚 python自学经验分享笔记
Python不仅适用于数据分析、Web开发和自动化脚本，还可以用于游戏开发！虽然Python不是传统意义上的游戏开发语言，但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南，帮助你从入门到实践，掌握用Python开发游戏的技能。##一、为什么选择Python开发游戏？1.**简单易学**：Python语法简洁，适合初学者快速上手。2.
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交