一、数据处理
1、excel 表转sql
=CONCATENATE("update data_source10009 set url='"&B1&"' where urlcategory='"&A1&"';")
=CONCATENATE("replace into data_source10001_website_v1(pageid, url) values ('"&A1&"' , '"&B1&"');")
2、将b的表结构和索引都复制
create table data_source10026 like data_source10001;
将b的表结构和索引和数据都复制
create table data_source10026 like data_source10001;
INSERT INTO data_source10026 SELECT * FROM data_source10001;
3、设置表的初始值 导入表的初始数据
insert into data_final(urlcategory,ShortName) select urlcategory,ShortName from couponcategory;
4. 批量替换 MySQL 指定字段中的字符串
update 表名 set 字段名=REPLACE (字段名,'原来的值','要修改的值')
update user_item set addr=REPLACE (addr,'成都','天府') where time<'2013-11--5'
update couponcategory.data_source10009 set moreinfo0 =REPLACE (moreinfo0,'[1]','') where moreinfo0 is not null;
5. 魔法函数:笔记string的相似度
php 魔法函数similar_text(word2compare, percent 两个str的相似度
6. php函数
in_array("Runoob", array)
strpos("Hello world!","world");
str_replace("world","Shanghai","Hello world!");
6. python函数
6.1 list转字符串
命令:
''.join(list)
其中,引号中是字符之间的分割符,如“,”,“;”,“\t”等等
如:
list = [1, 2, 3, 4, 5]
''.join(list) 结果即为:12345
','.join(list) 结果即为:1,2,3,4,5
二、字符串转list
print list('12345')
输出: ['1', '2', '3', '4', '5']
print list(map(int, '12345'))
输出: [1, 2, 3, 4, 5]
str2 = "123 sjhid dhi"
list2 = str2.split() #or list2 = str2.split(" ")
print list2
['123', 'sjhid', 'dhi']
str3 = "www.google.com"
list3 = str3.split(".")
print list3
['www', 'google', 'com']
7.mysql 把colA 的值复制到colB
update data_source10013 set moreinfo0= moreinfo1;
二、网页 分析 xpath 语法
三、正则表达式
四、服务器执行抓取脚本(nohup 防止网络中断)
nohup scrapy crawl getdatawiki > getdatawiki.log 2>&1 &
stu1 = [url, href, urlname, '']
out = open('fix10004.csv', 'a', newline='')
# out = open('d:/data_source10004_v1.csv', 'a', newline='')
# 设定写入模式
csv_write = csv.writer(out, dialect='excel')
# 写入具体内容
csv_write.writerow(stu1)
out.close()