2020-01-07培训

安装包换源

again and over again

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #要安装的包(清华镜像)

datetime与字符串的相互转换

str->datetime
datetme.strptime(str,'%Y-%M-%D')
浏览器和web的练习


2020-01-07培训_第1张图片
cookie的作用机制

爬虫文件划分:
某些代码作为轮子or板子,例如spider爬取的函数,存储(txt,html,csv)函数,lxml解析函数,正则表达式(特定情况下有套路,如细节处理,豆瓣网站处理,)
new knowledge:较昨天configparse配置,numpy

  1. primary_data文件:存储原始爬取的数据(txt,html)
  2. handled_data文件:存储已经解析分析完成的数据
  3. spider文件:
    3.1my_spider:爬虫爬取文件
    3.2job_line:数据解析文件
  4. utils文件:
    4.1file_tools文件:负责读写的文件操作
    4.2producter文件:读写以外的函数,例如月薪最小最大值函数,获得所有的url的函数
  5. run文件 模块化后对客户来说可以理解的执行文件,可直接或间接调用所有文件

spider文件

  //文件树根寻找,使用lxml.etree处理xml文件

etree具有parse('配置文件')#配置文件不需要路径名
可以将读取url的爬虫函数嵌套在读取cfg配置文件的函数,先通过cfg获得必要的参数,形成url,然后在该函数调用网络爬虫

你可能感兴趣的:(2020-01-07培训)