正在写代码的阿东

京东手机爬虫

拖延症晚期的我终于于于于于于于又来更新博客了。国庆自己写了个京东手机的爬虫，爬取了京东商城所有手机的名称，价格，配置，属性等信息，算是实现了预期的功能。这里mark一下，以后遇到类似的项目都可以借鉴。

这次的京东手机爬虫和以往的都不太相同，之前爬取的都是静态网页，所有需要的内容都可以在一个页面中找到，比较基础。这次的爬虫涉及到动态加载的网页，具体的话参加后面的详细说明。

在开始具体的爬虫之前，我想先总结一下编写简单爬虫的思路。首先，秉承“万物皆可爬”的理念，我们能找到的URL都是可以爬取的（如果是某些大型的网站可能会有反爬措施，相应的会有特殊的手段进行爬取。当然，爬和反爬就像矛与盾的关系，身为菜鸟的我在爬京东时总是战战兢兢，生怕什么时候就把我的IP封了=.=）。带着这种舍我其谁的勇气，我们来试试吧~

简单梳理一下之前做过的小爬虫，大概分为以下几个步骤：

1. 俗话说，“巧妇难为无米之炊”，我们先要找到需要爬取的网页地址，这是我们一切工作的前提。（URL可能有多个哦）

2. 对于URL，通过解析将其转换为网页文本。这里我用的是Python3中的requests库，提交一个包含URL的request请求，会返回一个包含网页内容的response响应。在这个response对象中就可以获取网页文本。

3. 得到网页文本后通过一定的工具对其进行解析，得到我们感兴趣的内容（“弱水三千，我只取一瓢”那么多内容都爬下来也理解不了啊。）这里我用过的工具主要有三种，适用于不同的网页。

（1）对于简单一点的网页（内容不多，格式也不是标准的html格式），使用正则表达式库re，将网页视为一个超级长的字符串，匹配得到相应的内容。

（2）大型网站的网页，有时候用正则就会显得力不从心。另一方面，这些网页通常都是标准的html格式，而Python第三方库BeautifulSoup非常适合解决这类的问题。BeautifulSoup将整个html文档解析为以标签为节点的树形结构，并提供访问这些节点的API，这对于爬取我们关心的网页内容来讲是非常便利的。

（3） JSON或者类JSON类型的网页，这些网页的数据全部或者大部分是以JSON格式保存的，而json库可以方便地从这些类型的网页中获取键值对等信息。

（4）未完待续….

有了思路后，马上进行京东手机爬取的内容吧~

1. 进入京东的首页，选择手机后的界面是这样式儿的：

得到这些URL后，先选择某一页查看源代码找到我们关心的内容：

好，170页，这就是我们的目标。而我们更关心每页的URL，这就有点像找规律了…

第1页：

https://list.jd.com/list.html?cat=9987,653,655&page=1&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main

第2页：

https://list.jd.com/list.html?cat=9987,653,655&page=2&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main

第3页：

https://list.jd.com/list.html?cat=9987,653,655&page=3&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main

…

第170页：

https://list.jd.com/list.html?cat=9987,653,655&page=170&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main

看到这么有规律的URL对于程序的循环抓取来讲可是太开心了，所以京东手机预览界面的URL格式为：

https://list.jd.com/list.html?cat=9987,653,655&page=?&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main

其中?代表页码，这里就是1-170。

这对应的代码为：

def getAllPages():
    allPagesUrlList = []
    singlePageUrl = ''
    for page in range(1, 171):
        if page == 2:
            singlePageUrl = 'https://list.jd.com/list.html?cat=9987,653,655&page=' \
                            + str(page) + '&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0&ms=6#J_main'
        singlePageUrl = 'https://list.jd.com/list.html?cat=9987,653,655&page=' \
                        + str(page) + '&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main'
        allPagesUrlList.append(singlePageUrl)
    return allPagesUrlList

在实际爬取时，发现有时候第二页的URL比其他页的多了&ms=6（经验证是系统随机生成的，应该是隔几天会出现一次）。这里就按照当时爬取的URL进行处理。

得到这些URL后，先选择某一页查看源代码找到我们关心的内容：

这里每一页都有N多个手机，我们在人工点击一个手机时会跳转到手机详情界面，而这个链接在上图的href标签内。这里采用BeautifulSoup库获取该标签的内容。代码如下：

def getPhonesUrl(pageUrl):
    phonesUrlList = []
    html = getHtmlText(pageUrl)
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div',attrs={'class':'p-name'})
    for item in items:
        phonesUrlList.append('https:' + item.a.get('href'))
    return phonesUrlList

查看手机详情界面的源文件可以看到，我们关心的手机名称，价格，配置，评论分别在哪呢？

手机名称的位置：

可以看到手机名称在

标签下，以下是获取手机名称的代码：

手机配置的位置：

在浏览器显示界面看到的内容：

为了在爬取时顺序不会乱，这里用字典类型保存这些配置信息，代码如下：

def getPhoneName(phoneurl):
    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    name = soup.find('div', attrs={'class': 'sku-name'}).get_text().strip()
    return name

def getPhoneProperties(phoneurl):
    phoneProperties = {}
    list_value = []
    list_name = []

    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    proSection = soup.findAll('div', attrs={'class': 'Ptable-item'})

    for pro in proSection:
        # 既然找不到直接去除有属性标签的方法就取个差集吧
        list_all = pro.find_all('dd')
        list_extracted = pro.find_all('dd', {'class': 'Ptable-tips'})
        list_chosen = [i for i in list_all if i not in list_extracted]

        for dd in list_chosen:
            list_value.append(dd.string)

        for dt in pro.find_all('dt'):
            list_name.append(dt.string)

    for i in range(0, len(list_name)):
        phoneProperties.update({list_name[i]: list_value[i]})

    return phoneProperties

爬取图片：

首先查看网页源代码：

这些蓝色的链接就是图片下载地址，只需保存在列表中，再进行下载即可。代码如下：

def getPhoneImages(phoneurl):
    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    imgDiv = soup.find('div', attrs={'class': 'spec-items'})
    phoneImageLink = []
    for img in imgDiv.findAll('img'):
        phoneImageLink.append('https:' + img.get('src'))
    return phoneImageLink

这时候，开始提到的那个问题出现了，这个界面没有价格信息，只有一小部分评论信息。经过查询了解到价格信息和评论信息是通过JS动态加载的，初始静态页面不显示或者显示不全。解决方法是使用浏览器的开发者模式打开页面（之前一直用的360浏览器，找了半天没找到开发者工具，坑啊……后来用了搜狗还挺方便的~）在Network里搜索price会出现获取价格的JS响应，但是拿出来的响应链接是这样的：

https://p.3.cn/prices/mgets?callback=jQuery768325&type=1&area=1_2800_2849_0.138043016&pdtk=

&pduid=933088261&pdpin=%25E4%25BD%25A0%25E6%2598%25AFsunshine%25E4%25B9%2588

&pin=%E4%BD%A0%E6%98%AFsunshine%E4%B9%88&pdbp=0&skuIds=J_3846673%2CJ_3882469

%2CJ_5005731%2CJ_3458011%2CJ_3893499%2CJ_5114365%2CJ_3728945%2CJ_4241985

%2CJ_3479621%2CJ_3882469%2CJ_5005731%2CJ_2967927%2CJ_3882453%2CJ_3355143

%2CJ_3907423%2CJ_4241985%2CJ_3479621%2CJ_3846673%2CJ_4460283%2CJ_3882469

%2CJ_4095237&ext=11000000&source=item-pc

有一点点…夸张？通过网上查询找到了个更简洁的API入口：

https://p.3.cn/prices/mgets?skuIds=J_?

其中?表示的就是京东手机的itemId。任意找个价格网址打开，内容是这样的：

这么…….简单直白的网页还是少见哈哈。这种的话用正则表达式匹配就最合适了，p标签里面的值”999.00”就是我们关心的价格啦~用正则表达式把它揪出来吧：

pattern =re.compile('"p":"(.*?)"')

price = re.findall(pattern, priceText)[0]

（这里简单说明一下：由于re.findall()方法返回的是由所有匹配的字符串组成的列表，这里只有第一个元素，故取索引[0]得到目标字符串，否则将得到只有一个字符串的列表。）

到这里剩下商品的评论列表的爬取了。同样的，所有评论信息也是动态加载的，同样在开发者模式下，Network里搜索price，下拉到评论页面，会出现一个productPageComments.action…的响应，点击进去进入评论网页：

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv43344&productId=2888224&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

评论网页分为：1.评论摘要（好评数，就、好评率等等）2.用户的详细评论信息。这是个类json格式展现的网页（剔除前面和后面的文字），因此用json库进行信息提取是最合适的。这里的思路是：首先提取评论摘要信息，保存在字典中；其次，爬取所有具体的评论信息，每个用户的评论（包括用户昵称，评论时间，评论内容等等）保存在字典中，所有用户的评论保存在列表中。以下是代码：

def getPhoneComments(phoneurl):
    phoneId = phoneurl[20:-5]
    commentStartUrl = 'https://club.jd.com/comment/productPageComments.action?callback=' \
                      'fetchJSON_comment98vv10636&productId=' + phoneId + '&score=0&sortType=5&page=0&pageSize=10'
    htmlText = getHtmlText(commentStartUrl)
    jsonText = json.loads(htmlText[27:-2])
    # 获取最大页面数便于爬取
    maxPage = jsonText['maxPage']
    # 手机评价信息概览
    commentSummaryDict = {}
    commentSummary = jsonText['productCommentSummary']
    commentSummaryDict.update({'好评率': str(commentSummary['goodRateShow']) + '%'})
    commentSummaryDict.update({'评论数': commentSummary['commentCountStr']})
    commentSummaryDict.update({'晒图': jsonText['imageListCount']})
    commentSummaryDict.update({'追评数': commentSummary['afterCountStr']})
    commentSummaryDict.update({'好评数': commentSummary['goodCountStr']})
    commentSummaryDict.update({'中评数': commentSummary['generalCountStr']})
    commentSummaryDict.update({'差评数': commentSummary['poorCountStr']})

    # 获取全部的评价内容
    userCommentList = []
    for commentPage in range(0, maxPage):
        commentPageUrl = 'https://club.jd.com/comment/productPageComments.action?callback=' \
                         'fetchJSON_comment98vv10636&productId=' + phoneId + '&score=0&sortType=5&' \
                         'page=' + str(commentPage) + '&pageSize=10'
        commentHtmlText = getHtmlText(commentPageUrl)
        # 评论可多可少，出错就直接跳过
        try:
            commentJsonText = json.loads(commentHtmlText[27:-2])
            comments = commentJsonText['comments']

            for comment in comments:
                commentsInfo = {}
                commentsInfo.update({'昵称': comment['nickname']})
                commentsInfo.update({'用户等级': comment['userLevelName']})
                commentsInfo.update({'评论星级': str(comment['score']) + '星'})
                commentsInfo.update({'内容': comment['content']})
                commentsInfo.update({'机型': comment['productColor'] + ',' + comment['productSize']})
                commentsInfo.update({'发表时间': comment['creationTime']})
                commentsInfo.update({'点赞数': comment['usefulVoteCount']})
                commentsInfo.update({'评论回复次数': comment['replyCount']})
                commentsInfo.update({'是否推荐': changeRecommnedType(comment['recommend'])})
                commentsInfo.update({'客户端': comment['userClientShow']})

                userCommentList.append(commentsInfo)
        except:
            continue
        print('******正在爬取第'+str(commentPage)+'页评论')

    return commentSummaryDict, userCommentList

我们需要的内容都已经获取完毕，接下来就是保存到文件里面，为将来数据分析做准备：

创建一个根目录，一级子目录生成以手机名称命名的文件夹，所有手机信息爬取完毕后再生成包含所有手机信息的csv文件。每个手机文件夹下的二级子目录保存评论信息和配置信息的csv文件，以及存放图片的文件夹，该文件夹下的三级子目录存放下载的手机图片。以下是结构图：

讲了这么多，再用一张图理一下思路：

最后附上所有代码：

import requests
from bs4 import BeautifulSoup
import re
import json
import csv
import os
import sys
import io
import time
from collections import OrderedDict

# 通过URL获取网页文本
def getHtmlText(url):
    proxies = {'http': '114.217.129.128	8998'}
    # 使用伪装浏览器和代理IP（被封了就惨了）
    r = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)'}, proxies = proxies)
    r.encoding = r.apparent_encoding
    return r.text

# 将网页原生的是否推荐的True和False替换为是和否
def changeRecommnedType(inputBool):
    if inputBool == True:
        return '是'
    else:
        return '否'

# 生成手机1-170页的url列表(最初调用一次，全局使用)
def getAllPages():
    allPagesUrlList = []
    singlePageUrl = ''
    for page in range(1, 171):
        if page == 2:
            singlePageUrl = 'https://list.jd.com/list.html?cat=9987,653,655&page=' \
                            + str(page) + '&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0&ms=6#J_main'
        singlePageUrl = 'https://list.jd.com/list.html?cat=9987,653,655&page=' \
                        + str(page) + '&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main'
        allPagesUrlList.append(singlePageUrl)
    return allPagesUrlList


# 在手机概览界面网页获取手机详细信息链接
def getPhonesUrl(pageUrl):
    phonesUrlList = []
    html = getHtmlText(pageUrl)
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div',attrs={'class':'p-name'})
    for item in items:
        phonesUrlList.append('https:' + item.a.get('href'))
    return phonesUrlList

# 获取手机价格
def getPhonePrice(phoneurl):
    # 由于价格不在主页面显示，通过抓包找到显示价格的网址，以物品编号为区别特征
    priceUrl = 'https://p.3.cn/prices/mgets?skuIds=J_' + phoneurl[20:-5]
    priceText = getHtmlText(priceUrl)
    pattern = re.compile('"p":"(.*?)"')
    price = re.findall(pattern, priceText)[0]
    return price

# 获取手机名称
def getPhoneName(phoneurl):
    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    name = soup.find('div', attrs={'class': 'sku-name'}).get_text().strip()
    return name

# 获取手机图片链接(-----还要加下载的方法-----)
def getPhoneImages(phoneurl):
    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    imgDiv = soup.find('div', attrs={'class': 'spec-items'})
    phoneImageLink = []
    for img in imgDiv.findAll('img'):
        phoneImageLink.append('https:' + img.get('src'))
    return phoneImageLink

# 获取手机的属性信息
def getPhoneProperties(phoneurl):
    phoneProperties = {}
    list_value = []
    list_name = []

    infoText = getHtmlText(phoneurl)
    soup = BeautifulSoup(infoText, 'html.parser')
    proSection = soup.findAll('div', attrs={'class': 'Ptable-item'})

    for pro in proSection:
        # 既然找不到直接去除有属性标签的方法就取个差集吧
        list_all = pro.find_all('dd')
        list_extracted = pro.find_all('dd', {'class': 'Ptable-tips'})
        list_chosen = [i for i in list_all if i not in list_extracted]

        for dd in list_chosen:
            list_value.append(dd.string)

        for dt in pro.find_all('dt'):
            list_name.append(dt.string)

    for i in range(0, len(list_name)):
        phoneProperties.update({list_name[i]: list_value[i]})

    return phoneProperties

# 获取该买该手机的评论信息
def getPhoneComments(phoneurl):
    phoneId = phoneurl[20:-5]
    commentStartUrl = 'https://club.jd.com/comment/productPageComments.action?callback=' \
                      'fetchJSON_comment98vv10636&productId=' + phoneId + '&score=0&sortType=5&page=0&pageSize=10'
    htmlText = getHtmlText(commentStartUrl)
    jsonText = json.loads(htmlText[27:-2])
    # 获取最大页面数便于爬取
    maxPage = jsonText['maxPage']
    # 手机评价信息概览
    commentSummaryDict = {}
    commentSummary = jsonText['productCommentSummary']
    commentSummaryDict.update({'好评率': str(commentSummary['goodRateShow']) + '%'})
    commentSummaryDict.update({'评论数': commentSummary['commentCountStr']})
    commentSummaryDict.update({'晒图': jsonText['imageListCount']})
    commentSummaryDict.update({'追评数': commentSummary['afterCountStr']})
    commentSummaryDict.update({'好评数': commentSummary['goodCountStr']})
    commentSummaryDict.update({'中评数': commentSummary['generalCountStr']})
    commentSummaryDict.update({'差评数': commentSummary['poorCountStr']})

    # 获取全部的评价内容
    userCommentList = []
    for commentPage in range(0, maxPage):
        commentPageUrl = 'https://club.jd.com/comment/productPageComments.action?callback=' \
                         'fetchJSON_comment98vv10636&productId=' + phoneId + '&score=0&sortType=5&' \
                         'page=' + str(commentPage) + '&pageSize=10'
        commentHtmlText = getHtmlText(commentPageUrl)
        # 评论可多可少，出错就直接跳过
        try:
            commentJsonText = json.loads(commentHtmlText[27:-2])
            comments = commentJsonText['comments']

            for comment in comments:
                commentsInfo = {}
                commentsInfo.update({'昵称': comment['nickname']})
                commentsInfo.update({'用户等级': comment['userLevelName']})
                commentsInfo.update({'评论星级': str(comment['score']) + '星'})
                commentsInfo.update({'内容': comment['content']})
                commentsInfo.update({'机型': comment['productColor'] + ',' + comment['productSize']})
                commentsInfo.update({'发表时间': comment['creationTime']})
                commentsInfo.update({'点赞数': comment['usefulVoteCount']})
                commentsInfo.update({'评论回复次数': comment['replyCount']})
                commentsInfo.update({'是否推荐': changeRecommnedType(comment['recommend'])})
                commentsInfo.update({'客户端': comment['userClientShow']})

                userCommentList.append(commentsInfo)
        except:
            continue
        print('******正在爬取第'+str(commentPage)+'页评论')

    return commentSummaryDict, userCommentList

# 将手机的特征添加到一起
def getPhoneInfo(phoneurl):
    phoneInfo = {}
    price = getPhonePrice(phoneurl)
    phoneInfo.update({'价格':price})  # 字符串
    name = getPhoneName(phoneurl)
    phoneInfo.update({'名称': name})  # 字符串
    phoneImageLink = getPhoneImages(phoneurl)
    phoneInfo.update({'图片链接':phoneImageLink})   # 字符串列表
    phoneProperties = getPhoneProperties(phoneurl)
    phoneInfo.update({'手机配置':phoneProperties})  #  字典
    commentSummaryDict, userCommentList = getPhoneComments(phoneurl)
    phoneInfo.update({'手机整体评价':commentSummaryDict})    # 字典
    phoneInfo.update({'手机全部评价内容':userCommentList})    # 元素是字典的列表

    return phoneInfo

if __name__ == '__main__':
    url = 'https://list.jd.com/list.html?cat=9987,653,655&page=1&sort=sort%5Frank%5Fasc&trans=1&JL=6_0_0#J_main'
    rootPath = 'E:/JDPhones/'
    phoneInfoAll = []

    phoneUrls = getPhonesUrl(url)
    # 程序开始时间
    startTime = time.clock()

    for phoneurl in phoneUrls:
        print('正在爬取第', str(phoneUrls.index(phoneurl) + 1), '部手机......')

        info = getPhoneInfo(phoneurl)
        phoneInfoAll.append(info)

        phoneName = info['名称']
        phoneImaLink = info['图片链接']

        # 创建文件夹(先判断是否存在，因为有重复的手机)
        dirPathToMake = rootPath + phoneName + '/' + 'images/'
        if os.path.exists(dirPathToMake):
            continue
        else:
            os.makedirs(dirPathToMake)
        # 将图片下载到本地
        for link in phoneImaLink:
            imgHtml = requests.get(link, stream=True, headers={
                'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) '
                              'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari'
                              '/537.36 SE 2.X MetaSr 1.0'}, proxies={'http': '114.217.129.128 8998'})
            imgHtml.encoding = imgHtml.apparent_encoding

            with open(rootPath + phoneName + '/' + 'images/'+ str(phoneImaLink.index(link)) + '.jpg', 'wb') as wimg:
                wimg.write(imgHtml.content)
        # 写入配置信息
        phoneProperties = info['手机配置']
        with open(rootPath + phoneName + '/' + 'properties.csv', 'w', newline='', encoding='gb18030') as wpro:
            writer = csv.writer(wpro)
            for key in phoneProperties.keys():
                writer.writerow([key, phoneProperties[key]])
        # 写入评论
        commentsHeader = ['昵称', '用户等级', '评论星级', '内容', '机型', '发表时间', '点赞数', '评论回复次数',
                          '是否推荐', '客户端']
        userCommentList = info['手机全部评价内容']
        with open(rootPath + phoneName + '/' + 'comments.csv', 'w', newline='', encoding='gb18030') as wcom:
            writer = csv.writer(wcom)
            writer.writerow(commentsHeader)
            for comment in userCommentList:
                    tempList = []
                    for commentInfo in commentsHeader:
                        tempList.append(comment[commentInfo])
                    writer.writerow(tempList)

    #  去除列表中的重复元素（不保持顺序）
    #  保持顺序的做法：phoneInfoAll = list(OrderedDict.fromkeys(phoneInfoAll))
    phoneInfoAll = list(set(phoneInfoAll))

    # 爬取所有手机信息后，做一个整体的统计分析
    headers = ['名称', '价格', '好评率', '评论数', '晒图', '追评数', '好评数', '中评数', '差评数']
    with open('E:/JDPhones/AllPhonesInfo.csv', 'a', newline='', encoding='gb18030') as file:
        fwriter = csv.writer(file)
        fwriter.writerow(headers)
        for phone in phoneInfoAll:
            # print(phone)
            phoneInfoList = [phone['名称'], phone['价格'], phone['手机整体评价']['好评率'], phone['手机整体评价']['评论数'],
                             phone['手机整体评价']['晒图'], phone['手机整体评价']['追评数'], phone['手机整体评价']['好评数'],
                             phone['手机整体评价']['中评数'], phone['手机整体评价']['差评数']]
            fwriter.writerow(phoneInfoList)
    # 程序结束时间
    endTime = time.clock()
    print('所有手机爬取完毕,程序耗费的时间为：', endTime-startTime)

（PS:这样的内容爬取起来太慢了，170页，每页63个手机，每个手机100条评论.......亲测爬取一页手机要将近40Mins,在最后阶段研究多线程并行爬取没有好的效果，暂时先这样，有好的批处理的方法后再来更新。另外，价格的URL在爬完100页后出现错误无法访问，出去几天回来又好了，不是大问题，简单mark一下就好。）

基于Python的豆瓣电影爬虫数据分析可视化设计与实现计算机软件程序设计 Python爬虫 Python程序设计数据分析 python 爬虫
【1】系统介绍1.研究背景随着互联网的快速发展，电影产业已经成为全球文化产业的重要组成部分。观众对电影的需求和兴趣日益增长，而在线电影平台如豆瓣电影（DoubanMovie）成为了用户获取电影信息、发表评论和评分的主要渠道之一。豆瓣电影不仅提供了丰富的电影资料，还拥有庞大的用户群体，这些用户生成的内容（UGC）为电影市场分析提供了宝贵的数据资源。然而，尽管豆瓣电影平台提供了大量的公开数据，但这些数
如何运用python爬虫获取大型资讯类网站文章，并同时导出pdf或word格式文本？大懒猫软件深度学习 python 网络爬虫自然语言处理
这里，我们以比较知名的商业新知网站https://www.shangyexinzhi.com/为例进行代码编写，下面进行代码应用思路。第一部分，分析网站结构首先，我们来分析，要使用Python技术分析一个网站的结构，通常可以通过以下步骤实现：获取网站的HTML内容：使用requests库来获取网站的HTML源代码。解析HTML内容：使用BeautifulSoup库来解析HTML，提取网站的结构信息
基于Python的天气数据可视化平台 q.q 1102255374 python 信息可视化开发语言
摘要：随着社会多元化的不断发展，天气数据问题不可被简单的理解为是科学问题，更多的是环境问题，可以直接影响到人民的日常生活，甚至对一个国家的政治经济带来影响，由此可见，天气预测是一项非常重要的行业。基于此，我们就需要开发一个可视化的、综合的、方便人们查看的项目。基于Python的天气数据可视化设计与实现，通过使用基于Python的网络爬虫技术,能在短时内提取有价值的信息数据。然后根据数据的形式进行整
一文带你走进车联网安全一泽re. 车联网安全安全网络服务器汽车 iot
免责声明：该⽂章仅供安全学习和技术分享，请勿将该⽂章和⽂章中提到的技术⽤于违法活动上，切勿在⾮授权状态下对其他站点进⾏测试，如产⽣任何后果皆由读者本⼈承担，与作者无关！如有侵权，联系删除，转载请注明出处，感谢！0x00什么是车联网安全车联网安全主要指的是车联网系统的安全，该系统主要分为四个部分，主机、车载T-BOX、手机APP及后台系统。主机主要用于车内的影音娱乐，以及车辆信息显示也就是IVI或者
通过ChatGPT使用Mermaid.js生成时间序列图、组织结构图等百态老人生成式AI 经验分享前端人工智能
1、用mermaid.js生成京东网站改版时间序列图以下是使用Mermaid.js生成的京东网站改版时间序列图：gantttitle京东网站改版时间序列图dateFormatYYYY-MM-DDsection基础功能改版登录注册界面:done,2018-01-15,10d购物车页面优化:done,2018-02-10,10d商品详情页改版:done,2018-03-15,15d收银台页面改版:do
智能手机混战谁能成为最后的王者？ nvxiaot 手机 htc iphone 三星 meego windows phone
智能手机混战谁能成为最后的王者？近几年来，智能手机随着价格的下降和性能/功能的增强，日益的加入到我们的生活当中，2010年第四季度，全球市场消费电子厂商记录出货1009亿部智能手机，远比出货为9210万台的PC高出很多，智能手机销量已经远超个人电脑来到我们的生活当中。当今最热门的智能手机生产厂商：HTC三星、摩托罗拉、诺基亚、索尼爱立信、LG，苹果，在这场智能手机的混战中谁才能成为最后的王者？以下
电脑访问京东云私有云盘，电脑如何访问京东云私有云盘 windows-server
服务器远程连接是指通过网络技术，在远程位置控制和访问服务器。通过远程连接，用户可以在任何地方登录到自己的服务器，进行各种操作，如安装软件、运行程序、管理文件等，就像直接在服务器前操作一样。今天小编给大家讲解电脑如何访问京东云私有云盘。要使用电脑访问京东云私有云盘，您可以按照以下步骤进行操作：1.登录京东云控制台：打开京东云官方网站，输入您的账号和密码进行登录。2.访问私有云盘：登录后，在控制台的导
账号IP属地：依据手机号还是网络环境？ hgdlip 网络 ip 网络 tcp/ip 服务器
在数字化生活中，账号的IP属地信息往往成为我们关注的一个焦点。无论是出于安全考虑，还是为了满足某些特定服务的需求，了解账号IP属地的确定方式都显得尤为重要。那么，账号IP属地根据手机号还是网络来确定的呢？本文将深入探讨这一问题。一、IP地址与账号属地显示的基本原理IP地址，即互联网协议地址，是互联网中用于唯一标识网络设备的数字标签。每当我们的设备（如手机、电脑）连接到互联网时，都会被分配一个或多个
谁在告谁？移动专利混战图 di0808
移动领域激战正酣，同样是没有永远的朋友，只有永远的利益。苹果刚刚起诉三星的Galaxy手机和平板电脑山寨了苹果的产品，而此前两家并没有过节。再比如微软和亚马逊以及HTC之间的授权协议争端。移动领域的争端如此之多，以至于看客无法分辨到底谁在告谁，谁是谁的敌人，谁是谁的朋友。于是有人为了让人们吧这纷纷扰扰看得清清楚楚明明白白特意制作了一张移动专利诉讼图：几点说明：仅包括专利相关诉讼，不包括那些只围绕商
origin和python有什么不同_python爬虫之git的使用（origin说明） weixin_39878760
1、首先我们回忆两个命令#gitremoteaddorigin远程仓库链接#gitpush-uoriginmaster我们一起看看这个命令，git是git的一级命令，push就是下载，-u应该使用用账户验证maser就是分支的名字(前面我们说过)，那么这个origin是个什么鬼？大家看看下面的这个5毛钱图，就能发现，其实origin就是远程仓库的名称。如果不相信在看看我的配置文件#vi.git/c
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
（三）python网络爬虫（理论+实战）——爬虫与反爬虫阳光宅男xxb 30天学会python网络爬虫 python 大数据爬虫
系列文章目录（1）python网络爬虫—快速入门（理论+实战）（一）（2）python网络爬虫—快速入门（理论+实战）（二）序言本人从事爬虫相关工作已8年以上，从一个小白到能够熟练使用爬虫，中间也走了些弯路，希望以自身的学习经历，让大家能够轻而易举的，快速的，掌握爬虫的相关知识并熟练的使用它，避免浪费更多的无用时间，甚至走
python 爬虫4 - re模块（正则表达式） Shin zhong python 爬虫正则表达式 python
一、正则表达式1.概念正则表达式（RegularExpression，简称Regex）是一种用于匹配字符串的模式。它可以用来搜索、替换、验证文本中的特定模式。Python中的re模块提供了对正则表达式的支持。2.语法正则表达式的语法相对复杂，但理解其核心概念后，可以用非常简洁的方式来表达字符串匹配规则符号解释.匹配任意单个字符（除换行符）。^匹配字符串的开头。$匹配字符串的结尾。*匹配前面的字符0
NCNN推理呆呆珝推理框架 c++人工智能
1.前言ncnn是一个高性能的神经网络前向计算框架，专门针对移动设备和嵌入式设备设计。它由腾讯优图实验室开发，旨在提供高效的神经网络推理能力，特别是在资源受限的环境中，如智能手机和嵌入式系统。ncnn被广泛应用于移动端和嵌入式设备上的各种深度学习应用，包括但不限于：图像分类/目标检测/语义分割/人脸识别/图像生成与处理2.NCNN的CMakeLists.txt编写ncnn的头文件，链接文件，静态链
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
Go分布式爬虫笔记(八)_golang分布式爬虫 2401_87299701 golang 分布式爬虫
+爬虫引擎为基础的推送系统+提供-快速的热点事件-事件预警用户需求快速了解自己感兴趣的最新新闻事件预警机制帮助快速决策功能需求用户填写或选择自己感兴趣的话题、感兴趣的网站还有消息接受频率用户接收最新热点事件的推送用户通过点击获取与该事件关联的事件，并得到相关的事件预测、预警，甚至可能在网站中进行快速的交易用户可以查看历史记录，可视化呈现某一个事件的来龙去脉，并进行复盘产品需求前端页面设计用户交互设
通过 USB 或无线方式将照片从 vivo 传输到电脑 anroid数据传输文件管理
随着时间的推移，vivo手机上的图片会很快占用大量存储空间，因此找到在更安全或更大的设备（如PC）上备份图片的方法很重要。此外，整理图片以获得更高的分辨率或从PC打印图片也可能是您需要快速传输的原因。如果您不确定如何将照片从vivo传输到PC，请不要担心！在这篇文章中，我们将汇编5种简单的照片传输解决方案，包括有线和无线选项，并介绍每种方式的优缺点。选项1：如何仅通过USB数据线将照片从vivo传
python爬取百度学术文献搜索引擎_通用爬虫探索（一）：适用一般网站的爬虫吃货组长
这是笔者参加今年的泰迪杯C题的论文简化版。虽然最后只评上了一个安慰奖，但个人感觉里边有些思路对爬虫工作还是有些参加价值的。所以还是放出来供大家参考一下。简介#一个爬虫可以分为两个步骤：1.把网页下载下来；2.从网页中把所需要的信息抽取出来。这两个步骤都存在相应的技术难点。对于第一个步骤，难度在于如何应对各大网站的反爬虫措施，如访问频率过高则封IP或者给出验证码等，这需要根据不同网站的不同反爬虫措施
使用 Python 指定内容爬取百度引擎搜索结果 m0_74825614 python 百度开发语言
在本篇博客中，我将展示如何使用Python编写一个简单的百度搜索爬虫。这个爬虫可以自动化地从百度获取搜索结果，并提取每个结果的标题和链接。我们将使用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML内容。需求分析在实现爬虫之前，我们需要明确以下需求：通过构建百度搜索的URL来发送搜索请求。解析百度搜索结果页面，提取每个结果的标题和链接。将搜索结果以列表形式返回，方
鸿蒙系统崛起：开发者的机遇、挑战与战略飞起来fly呀 harmonyos 华为鸿蒙系统
随着科技的迅猛发展，鸿蒙操作系统以其独特的分布式架构和多设备协同能力，在全球操作系统市场中脱颖而出。它不仅与安卓和iOS形成了三足鼎立之势，还在智能手机、智能穿戴、车载系统以及智能家居等多个领域中获得了广泛应用。面对这一新兴生态系统，开发者如何抓住机遇，同时应对开发中的各种挑战，创造出更加卓越的应用体验？本文将围绕这些内容进行深度探讨。一、鸿蒙操作系统的技术特色与发展背景1.1鸿蒙系统的诞生与初衷
H5获取手机相机或相册图片两种方式-Android通过webview传递多张照片给H5 m0_74823947 智能手机数码相机 android
需求目的：手机机通过webView展示H5网页，在特殊场景下，需要使用相机拍照或者从相册获取照片，上传后台。完整流程效果：如下图一、H5界面样例代码使用html文件格式，文件直接打开就可以展示布局；一会在andriodwebview中直接加载Documentalllalalallalal默认会被覆盖{{message}}{{counter}}+1-1{{title}}android选中照片H5展示
c++常见设计模式之装饰器模式 _DCG_ c++c++设计模式装饰器模式
基础介绍装饰器模式是结构型设计模式，从字面意思看装饰器设计模式就是用来解决在原有的实现基础上添加一些额外的实现的问题。那么正统的概念是什么呢？装饰器模式允许我们动态的向对象添加新的行为，同时不改变其原有的结构。它是一种比继承更灵活的扩展对象功能的方式。举个简单的例子，比如手机作为一个产品，希望在基础手机的基础上实现新增两个功能1，且不希望改变类原有的结构，这种情况下就需要使用到装饰器模式。实现原理
实时监控网页变化，并增加多种提示信息安替-AnTi 自动化工具 linux 运维服务器监控网页变化
文章目录python代码实现优势手动部署下载源码安装依赖初次登录设置Docker部署设置监控chromeJS插件实现插件1背景介绍使用方法插件2参考文献通过订阅本篇文章，您可以实现在任意打开网页情况下，监控网页内指定内容或者全部内容的变化，变化的内容、时间点可以通过邮箱、微信等方式进行提醒。使用场景可以用来监控足球比赛的赔率、京东商品库存、价格等因素，并且可以为订阅用户添加各种定制化的服务。如在订
ATF（ARM Trusted firmware）完成启动流程 cpj123cpj linux kernel atf
历经一年多时间的系统整理合补充，《手机安全和可信应用开发指南:TrustZone与OP-TEE技术详解》一书得以出版，书中详细介绍了TEE以及系统安全中的所有内容，全书按照从硬件到软件，从用户空间到内核空间的顺序对TEE技术详细阐述，读者可从用户空间到TEE内核一步一步了解系统安全的所有内容，同时书中也提供了相关的示例代码，读者可根据自身实际需求开发TA。目前该书已在天猫、京东、当当同步上线，链接
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍杰九 vue.js javascript 前端 spring boot
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍往期的文章都在这里啦，大家有兴趣可以看一下【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue
android10adb模式命令大全,史上最全ADB命令使用大全，一步教你成为玩机大神熊仔仔仔仔
以下文章互联网博主：隔壁小胡ADB简介adb相信很多android开发者会用到它来进行调试手机，助手类软件也是依赖它来实现机型识别，软件安装，软件传送等功能。原版的adb由于在windows下各大手机助手类软件占用导致无法启动。具体adb介绍可以google或百度。ADB基本用法一、命令语法adb命令的基本语法如下：adb[-d|-e|-s]如果只有一个设备/模拟器连接时，可以省略掉[-d|-e|
ESP32开发日记5-蓝牙的应用① 我在武汉上早八笔记单片机 linux 物联网 mcu
ESP32开发日记5-蓝牙的应用①前情提要蓝牙简介蓝牙的两种主要模式GATT协议（GenericAttributeProfile1.什么是GATT?2.GATT的角色3.GATT的层次结构4.GATT操作5.GATT通信过程1）连接阶段2）服务发现3）数据操作4）断开阶段6.GATT的层级结构GATT示例：心率监测GATT服务器（心率设备）GATT客户端（手机应用）阅读乐鑫官方提供的例程总结前情提
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
批量化TikTok账号运营的秘密，你知道多少？ 2503_90401761 智能手机矩阵线性代数
在短视频流量时代，如何快速起号、批量管理账号成为许多内容创作者和品牌方关注的焦点。尤其是面对每天需要更新多个账号、回复大量私信以及与同行竞争的繁重工作，不少人开始寻找一套高效的自动化管理方案。那么，有没有一种方法能够帮助我们实现这些目标呢？1)账号矩阵的难点如何批量管理上百个账号？如何快速完成视频剪辑并批量发布？如何保证账号安全、提高起号成功率？2)实用解决方案分享使用云手机矩阵系统，批量管理上百
uniapp 在线更新应用流氓也是种气质 _Cookie uni-app android uniapp
在线更新应用及进度条显示1.比较现安装手机中的apk与线上apk的版本getVersion(){varnewVersion=uni.getStorageSync("newVersion").split(".")varversion=plus.runtime.version.split(".")//获取手机安装的版本varversionNum="",newVersionNum=""for(vari=
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

京东手机爬虫

你可能感兴趣的:(京东手机爬虫)