爬虫常用

一、数据处理

1、excel 表转sql

=CONCATENATE("update data_source10009 set url='"&B1&"' where urlcategory='"&A1&"';")

=CONCATENATE("replace into data_source10001_website_v1(pageid, url) values ('"&A1&"' , '"&B1&"');")

2、将b的表结构和索引都复制

create table data_source10026 like data_source10001;

将b的表结构和索引和数据都复制

create table data_source10026 like data_source10001;
INSERT INTO data_source10026  SELECT * FROM data_source10001;

3、设置表的初始值 导入表的初始数据

insert into data_final(urlcategory,ShortName) select urlcategory,ShortName from couponcategory;

4. 批量替换 MySQL 指定字段中的字符串

update 表名 set 字段名=REPLACE (字段名,'原来的值','要修改的值')

update user_item set addr=REPLACE (addr,'成都','天府') where time<'2013-11--5'

update couponcategory.data_source10009 set moreinfo0 =REPLACE (moreinfo0,'[1]','') where moreinfo0 is not null;

5. 魔法函数:笔记string的相似度

php 魔法函数similar_text(word2compare, percent 两个str的相似度

6. php函数

in_array("Runoob", array)

strpos("Hello world!","world");

str_replace("world","Shanghai","Hello world!");

6. python函数

6.1 list转字符串

命令:

''.join(list)

其中,引号中是字符之间的分割符,如“,”,“;”,“\t”等等

如:

list = [1, 2, 3, 4, 5]

''.join(list) 结果即为:12345

','.join(list) 结果即为:1,2,3,4,5

二、字符串转list

print list('12345')

输出: ['1', '2', '3', '4', '5']

print list(map(int, '12345'))

输出: [1, 2, 3, 4, 5]

str2 = "123 sjhid dhi" 

list2 = str2.split() #or list2 = str2.split(" ") 

print list2 

['123', 'sjhid', 'dhi']

str3 = "www.google.com" 

list3 = str3.split(".") 

print list3 

['www', 'google', 'com']

7.mysql 把colA 的值复制到colB

update data_source10013 set moreinfo0= moreinfo1;

二、网页 分析 xpath 语法

三、正则表达式

四、服务器执行抓取脚本(nohup 防止网络中断)

nohup scrapy crawl getdatawiki > getdatawiki.log 2>&1 &

stu1 = [url, href, urlname, '']

            out = open('fix10004.csv', 'a', newline='')

            # out = open('d:/data_source10004_v1.csv', 'a', newline='')

            # 设定写入模式

            csv_write = csv.writer(out, dialect='excel')

            # 写入具体内容

            csv_write.writerow(stu1)

            out.close()

你可能感兴趣的:(爬虫常用)