Python研究者

记录一次爬虫接单项目【采集国际淘宝数据】

1.背景

前几天接了一个爬虫的单子，上周六已经完成这个单子，也收到了酬劳（数目还不错，哈哈哈，小喜了一下）。这个项目大概我用了两天写完了（空闲时间写的）。

2.介绍

大概要采集的数据步骤：1)输入商品名称；2）搜索供应商；3）爬取所有供应商的里所有商品数据和对应商品的交易数据；

alibaba国际淘宝链接：

https://www.alibaba.com/

1.这个爬虫项目是对alibaba国际淘宝网站采集数据。

2.通过输入商品，比如：蓝牙耳机

tws+bluetooth+earphone

链接

https://www.alibaba.com/trade/search?fsb=y&IndexArea=company_en&CatId=&SearchText=tws%2Bbluetooth%2Bearphone&viewtype=&tab=

3.其中某一个商家的所有商品

链接

https://bhdchina.en.alibaba.com/productlist.html?spm=a2700.shop_cp.88.30

‍

4.对应的交易数据记录

链接

https://bhdchina.en.alibaba.com/company_profile/transaction_history.html?spm=a2700.shop_cp.13934.2.2c8f3fa0rt2lHo

3.爬取商家信息

为什么要先爬取商家信息，因为商品数据和交易数据都是需要根据商家名称去爬取，所有先开始爬取商家信息。

导入库包

import requests
import json
from lxml import etree
import datetime
import xlwt
import os
import time

requests请求头

headers = {
     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'
}

先看看要采集哪些字段

红框中的这些数据都是需要的（years，product_img，product_title，supperherf，Main Products，Country_Region，Total_Revenue，Top3_Markets，Transactions_6months，Response_Rate......）

其中supperherf是从url链接里面提取出的商家名称，后面爬取商品数据和交易数据需要用到

解析网页标签

比如名称对应的网页标签div是title ellipsis，在代码里面通过xpath可以解析到内容（这里都比较简单所以就介绍原理，小白不懂的可以看之前的文章去进行学习）

请求url数据

url = "https://www.alibaba.com/trade/search?spm=a2700.supplier-normal.16.1.7b4779adaAmpGa&page="+str(page)+"&f1=y&n=38&viewType=L&keyword="+keyword+"&indexArea=company_en"
r = requests.get(url, headers=headers)
r.encoding = 'utf-8'
s = r.text

解析字段内容

items = selector.xpath('//*[@class="f-icon m-item  "]')
if(len(items)>1):
    for item in items:
        try:
            years = item.xpath('.//*[@class="s-gold-supplier-year-icon"]/text()')
            print("years=" + str(years[0])+"YRS")




            for i in item.xpath('.//*[@class="product"]'):
                 product_img = i.xpath('.//*[@class="img-thumb"]/@data-big')[0]
                 product_title = i.xpath('.//a/@title')[0]
                 product_img = str(product_img)
                 index1 = product_img.index("imgUrl:'")
                 index2 = product_img.index("title:")
                 product_img = "https:"+product_img[index1 + 8:index2 - 2]
                 print("product_img="+str(product_img))
                 print("product_title=" + str(product_title))


            title = item.xpath('.//*[@class="title ellipsis"]/a/text()')
            print("title="+str(title[0]))
            supperherf = item.xpath('.//*[@class="title ellipsis"]/a/@href')[0]
            index1 = supperherf.index("://")
            index2 = supperherf.index("en.alibaba")
            supperherf = supperherf[index1 + 3:index2 - 1]
            print("supperherf=" + str(supperherf))
            Main_Products = item.xpath('.//*[@class="value ellipsis ph"]/@title')
            Main_Products = "、".join(Main_Products)
            print("Main Products=" + str(Main_Products))
            CTT = item.xpath('.//*[@class="ellipsis search"]/text()')
            Country_Region=CTT[0]
            Total_Revenue=CTT[1]
            Top3_Markets = CTT[2:]
            Top3_Markets = "、".join(Top3_Markets)
            print("Country_Region=" + str(Country_Region))
            print("Total_Revenue=" + str(Total_Revenue))
            print("Top3_Markets=" + str(Top3_Markets))
            Transactions_6months= item.xpath('.//*[@class="lab"]/b/text()')
            print("Transactions_6months=" + str(Transactions_6months))
            num = item.xpath('.//*[@class="num"]/text()')[0]
            print("num=" + str(num))
            Response_Rate = item.xpath('.//*[@class="record util-clearfix"]/li[2]/div[2]/a/text()')[0]
            print("Response_Rate=" + str(Response_Rate))
            count =count+1
            print("count="+str(count))
            print("page=" + str(page))
            print("------------------")

解析结果

到这里就采集完商家数据了，下面开始爬取商家商品数据

4.采集商品数据

这里商品数据的内容就少了很多（商品图片imgurl，名称title，价格piece，最低价格minorder）。

解析网页标签

请求网页数据

url = "https://" + str(compayname) + ".en.alibaba.com/productlist-" + str(
            page) + ".html?spm=a2700.shop_pl.41413.41.140b44809b9ZBY&filterSimilar=true&filter=null&sortType=null"
r = requests.get(url, headers=headers)
r.encoding = 'utf-8'
s = r.text

解析标签内容

items = selector.xpath('//*[@class="icbu-product-card vertical large product-item"]')
if(len(items)>1):
        try:
            for item in items:
                imgurl = item.xpath(
                    './/*[@class="next-row next-row-no-padding next-row-justify-center next-row-align-center img-box"]/img/@src')
                title = item.xpath('.//*[@class="product-info"]/div/a/span/text()')
                piece = item.xpath('.//*[@class="product-info"]/div[@class="price"]/span/text()')
                minorder = item.xpath('.//*[@class="product-info"]/div[@class="moq"]/span/text()')
                print("imgurl=" + str("".join(imgurl)))
                print("title=" + str(title[0]))
                print("piece=" + str("".join(piece)))
                print("minorder=" + str(minorder[0]))
                print("count="+str(count))
                print("-----------------------------------")
                count =count+1

爬取结果

5.爬取交易数据

交易数据需要采集的内容字段也很少，只有三个（交易金额Transaction_Value，买家所属国家Shipping_Destination，交易时间Transaction_Date）

说明

1）这里金额是***.**，客户要求是小数点后面的去掉，前面有三位就定义为100~999，如果2位就是10~99

Transaction_Value = Transaction_Value.split(".")[0]
t_len = len(Transaction_Value)
t_start ='1'
t_end='9'
for j in range(1,t_len): # 10  -99
    t_start =t_start+"0"
    t_end = t_end +'9'

2）时间是12/26/2020，但是采集下来的是1607068800，需要转为2020-12-27 16:00:00

def todate(timeStamp):
    #timeStamp = 1607068800
    dateArray = datetime.datetime.fromtimestamp(timeStamp)
    otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S")
    return otherStyleTime

解析网页标签

请求网页数据

url="https://"+str(comapyname)+".en.alibaba.com/core/CommonSupplierTransactionHistoryWidget/list.action?dmtrack_pageid=705d8dfe0b14ebf35fe2e8411768e5b42b8bf0e7a7&page="+str(page)+"&size=8&aliMemberEncryptId=IDX1XQIkua5DjeLlKZC11XM1vlbptpTQfKxDA__pNkStGmQpqTMbPXOgDkVD6T7jySw3&_=1608706140145"
r = requests.get(url)
r.encoding='gbk'
s = json.loads(r.text)
items = s['data']['tradeList']['value']['resultList']

解析内容

if(len(items)>1):
for i in items:
    Transaction_Value = i['amt']
    Transaction_Value = str(Transaction_Value)
    Transaction_Value = Transaction_Value.split(".")[0]
    t_len = len(Transaction_Value)
    t_start ='1'
    t_end='9'
    for j in range(1,t_len): # 10  -99
        t_start =t_start+"0"
        t_end = t_end +'9'


    print("Transaction_Value=" + str(Transaction_Value))
    print("t_start="+t_start)
    print("t_end="+(t_end))
    Shipping_Destination = i['countryFullName']
    print("Shipping_Destination="+str(Shipping_Destination))
    Transaction_Date = i['tradeDate']
    Transaction_Date = int(str(Transaction_Date)[:-3])
    Transaction_Date = todate(Transaction_Date)
    print("Transaction_Date="+str(Transaction_Date))

爬取结果

到这里数据采集的工作已经基本完成了。

6.保存到csv

采集到数据后，需要保存带csv里

引入csv库

import xlwt

python写入csv

# 创建一个workbook 设置编码
workbook = xlwt.Workbook(encoding = 'utf-8')
worksheet = workbook.add_sheet('sheet1')
worksheet.write(0, 0, label="李运辰")
workbook.save("lyc/lyc_"+str("李运辰") + '.xls')

不懂python写入csv的，可以参考这篇文章

一篇文章带你使用 Python搞定对 Excel 表的读写和处理（xlsx文件的处理）

商家数据保存到csv

excel表格标题

# 创建一个worksheet
worksheet = workbook.add_sheet('sheet1')
# 参数对应 行, 列, 值
worksheet.write(0, 0, label='years')
worksheet.write(0, 1, label='product_imgs')
worksheet.write(0, 2, label='product_titles')
worksheet.write(0, 3, label='title')
worksheet.write(0, 4, label='supperherf')
worksheet.write(0, 5, label='Main Products')
worksheet.write(0, 6, label='Country_Region')
worksheet.write(0, 7, label='Total_Revenue')
worksheet.write(0, 8, label='Top3_Markets')
worksheet.write(0, 9, label='Transactions_6months')
worksheet.write(0, 10, label='num')
worksheet.write(0, 11, label='Response_Rate')

写入数据

worksheet.write(count, 0, label=str(years[0]) + "YRS")
worksheet.write(count, 1, label=str(" , ".join(product_imgs)))
worksheet.write(count, 2, label=str(" , ".join(product_titles)))
worksheet.write(count, 3, label=str(title[0]))
worksheet.write(count, 4, label=str(supperherf))
worksheet.write(count, 5, label=str(Main_Products))
worksheet.write(count, 6, label=str(Country_Region))
worksheet.write(count, 7, label=str(Total_Revenue))
worksheet.write(count, 8, label=str(Top3_Markets))
worksheet.write(count, 9, label=str(Transactions_6months[0]))
worksheet.write(count, 10, label=str(num))
worksheet.write(count, 11, label=str(Response_Rate))

供应商数据

商品数据

交易数据

7.结尾

为了让客户方便使用，还写了一个命令行的操作界面

if __name__ == '__main__':
    menu()
    me = int(input("请输入："))
    f = 1
    while(f):
        if me == 1:
            print("开始爬取商品数据")
            get_product()
        elif me == 2:
            ke = input("请输入商品名称：")
            print("开始爬取商家数据,关键字："+str(ke))
            supper(ke)
        elif me == 3:
            print("开始爬取交易数据")
            get_trade()
        else:
            f=0
            break

tkinter界面

但是为了方便其他机器上可以使用，我通过python写了界面

界面源码

import tkinter as tk
master = tk.Tk()
# 窗口命名
master.title("数据采集v1.0 --李运辰")


# 窗口width不可变，height可变
master.resizable(width=False, height=True)
tk.Label(master, text="商品名称：").grid(row=0)
# tk.Label(master, text="作者：").grid(row=1)
e1 = tk.Entry(master)
# e2 = tk.Entry(master)
e1.grid(row=0, column=1,columnspan=4, padx=10, pady=5)
w = tk.Label(master, text=str(0)
tk.Button(master, text="终止爬取", width=8, command=isstart).grid(row=3, column=0, sticky="w", padx=1, pady=5)
tk.Button(master, text="商家爬取", width=8, command=supper).grid(row=3, column=1, sticky="e", padx=2, pady=2)
tk.Button(master, text="商品爬取", width=8, command=product).grid(row=3, column=2, sticky="e", padx=3, pady=5)
tk.Button(master, text="交易数据爬取", width=10, command=get_trade).grid(row=3, column=3, sticky="e", padx=4, pady=5)
w.grid(row=4, column=0, columnspan=4, sticky="nesw", padx=0, pady=5)
master.mainloop()

总结

1、以上就是本次的接单的项目过程和工作，本文也是记录一下这个过程，等以后再看的时候可能是一种享受的感觉，同时也分享给你们，给小白可以学习。

2.大家如果有什么问题的可以在下方进行留言，相互学习。

------------------- End -------------------

Scrapy爬虫：链家全国各省城市房屋数据批量爬取，别再为房屋发愁！

pyhton爬取爱豆（李易峰）微博评论（附源码）

你的未来有我导航----教你如何爬取高德地图

欢迎大家点赞，留言，转发，转载，感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群】

万水千山总是情，点个【在看】行不行


【加群获取学习资料QQ群：901381280】
【各种爬虫源码获取方式】
识别文末二维码，回复：爬虫源码
欢迎关注公众号：Python爬虫数据分析挖掘，方便及时阅读最新文章
回复【开源源码】免费获取更多开源项目源码

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

记录一次爬虫接单项目【采集国际淘宝数据】

alibaba国际淘宝链接：

链接

链接

链接

导入库包

requests请求头

解析网页标签

请求url数据

解析字段内容

解析结果

解析网页标签

请求网页数据

解析标签内容

爬取结果

说明

解析网页标签

请求网页数据

解析内容

爬取结果

引入csv库

商家数据保存到csv

tkinter界面

界面源码

你可能感兴趣的:(python,爬虫,csv,html,math.h,搜索引擎,mooc)