萌妹子哦哦

使用Python和selenium的Chromedriver模拟登陆爬取网站信息(beautifulsoup)

爬取的信息很多，所以需要设置断点，在程序重启时能继续爬取。并且能在断掉之后自动重启。

1.setting.py

对爬取的常量进行设置

"""
基本信息设置
"""

base_url = "https://com"

login_page = "https://com/users/sign_in"

company_bsae_url = "https://com/companies/{}?branch=&commit=Go&inactive=false&mode=best_fields&nonprofit=&order=score&page={}&q=&search_fields%5B%5D=name&search_fields%5B%5D=previous_names&search_fields%5B%5D=company_number&utf8=%E2%9C%93"

max_page = 30

DATABASE = {
    "host": '127.0.0.1',  # 数据库地址
    "port": 3306,  # 数据库端口
    "db": 'opencorporates',  # 数据库名
    "user": 'root',  # 数据库用户名
    "passwd": 'root',  # 数据库密码
    "charset": 'utf8',  # 编码方式
}

# 登陆信息
login_email = "[email protected]"
login_password = "15184378218lk"

# 发送方邮箱
SENDEMAIL = 'com'
# 邮箱地址
EMAILPSD = ''
# 收件人邮箱
TOEMAIL = 'com'

# 缩写 131个国家
country_list = ['us_la', 'us_sd', 'be', 'us_ok', 'je', 'ca_nl', 'us_nm', 'ca_qc', 'bg', 'us_fl', 'rw', 'dk', 'us_ut', 'us_sc', 'do', 'mt', 'us_mo',
                'us_ks', 'us_ms', 'si', 'is', 'th', 'bm', 'aw', 'us_nd', 'me', 'us_or', 'us_az', 'ro', 'ae_az', 'gi', 'mx', 'bo', 'us_ri', 'fr',
                'us_wv', 'au', 'ch', 'jm', 'mm', 'vu', 'bz', 'us_wy', 'us_nv', 'us_co', 'jp', 'us_tx', 'us_ne', 'ca_ns', 'us_ak', 'bs', 'al', 'gb',
                'sk', 'za', 'us_ga', 'ua', 'gl', 'gg', 'mu', 'us_de', 'us_tn', 'nl', 'ir', 'us_me', 'bh', 'de', 'ca', 'us_nc', 'pa', 'li', 'pr',
                'us_id', 'no', 'us_nh', 'us_ar', 'il', 'us_ca', 'hr', 'se', 'us_al', 'us_mi', 'us_ny', 'us_mt', 'us_oh', 'es', 'us_ct', 'cw', 'us_ia',
                'br', 'ca_pe', 'us_va', 'im', 'bb', 'us_ky', 'bd', 'us_vt', 'us_mn', 'to', 'md', 'tj', 'my', 'nz', 'vn', 'us_pa', 'hk', 'kh', 'sg',
                'lv', 'fi', 'us_md', 'gr', 'us_in', 'us_wi', 'cy', 'tn', 'tz', 'pk', 'in', 'pl', 'ca_nb', 'ae_du', 'us_ma', 'ug', 'us_dc', 'us_hi',
                'ie', 'lu', 'us_wa', 'by', 'us_nj']

# 缩写与国家参照
country_dic = {'gl': 'Greenland', 'us_in': 'Indiana (US)', 'ie': 'Ireland', 'us_wi': 'Wisconsin (US)', 'jm': 'Jamaica', 'bg': 'Bulgaria',
               'tj': 'Tajikistan',
               'us_ok': 'Oklahoma (US)', 'im': 'Isle of Man', 'ug': 'Uganda', 'ro': 'Romania', 'ca_nb': 'New Brunswick (Canada)',
               'us_wv': 'West Virginia (US)',
               'in': 'India', 'mx': 'Mexico', 'pl': 'Poland', 'us_wy': 'Wyoming (US)', 'us_mo': 'Missouri (US)', 'us_pa': 'Pennsylvania (US)',
               'bb': 'Barbados',
               'us_az': 'Arizona (US)', 'us_dc': 'District of Columbia (US)', 'nl': 'Netherlands', 'gr': 'Greece', 'us_nm': 'New Mexico (US)',
               'aw': 'Aruba',
               'ir': 'Iran', 'fr': 'France', 'us_nc': 'North Carolina (US)', 'us_vt': 'Vermont (US)', 'us_ut': 'Utah (US)',
               'us_nh': 'New Hampshire (US)',
               'by': 'Belarus', 'ch': 'Switzerland', 'us_al': 'Alabama (US)', 'us_ar': 'Arkansas (US)', 'us_va': 'Virginia (US)', 'es': 'Spain',
               'mm': 'Myanmar', 'hk': 'Hong Kong', 'us_md': 'Maryland (US)', 'be': 'Belgium', 'lv': 'Latvia', 'ca_qc': 'Quebec (Canada)',
               'bz': 'Belize',
               'us_ny': 'New York (US)', 'us_sd': 'South Dakota (US)', 'us_mt': 'Montana (US)', 'us_oh': 'Ohio (US)', 'us_ma': 'Massachusetts (US)',
               'nz': 'New Zealand', 'br': 'Brazil', 'kh': 'Cambodia', 'pk': 'Pakistan', 'us_mn': 'Minnesota (US)', 'us_ct': 'Connecticut (US)',
               'us_wa': 'Washington (US)', 'us_me': 'Maine (US)', 'fi': 'Finland', 'gg': 'Guernsey', 'gi': 'Gibraltar', 'bd': 'Bangladesh',
               'us_ga': 'Georgia (US)', 'th': 'Thailand', 'do': 'Dominican Republic', 'li': 'Liechtenstein', 'us_ky': 'Kentucky (US)',
               'my': 'Malaysia',
               'je': 'Jersey', 'us_sc': 'South Carolina (US)', 'us_id': 'Idaho (US)', 'cw': 'Curaçao', 'se': 'Sweden', 'pa': 'Panama',
               'ca_nl': 'Newfoundland and Labrador (Ca...', 'de': 'Germany', 'vn': 'Viet Nam', 'us_nv': 'Nevada (US)', 'us_ne': 'Nebraska (US)',
               'ua': 'Ukraine', 'us_fl': 'Florida (US)', 'ca_pe': 'Prince Edward Island (Canada)', 'mt': 'Malta', 'us_hi': 'Hawaii (US)',
               'vu': 'Vanuatu',
               'si': 'Slovenia', 'rw': 'Rwanda', 'sg': 'Singapore', 'us_ks': 'Kansas (US)', 'me': 'Montenegro', 'is': 'Iceland', 'bh': 'Bahrain',
               'au': 'Australia', 'us_ms': 'Mississippi (US)', 'us_ak': 'Alaska (US)', 'us_co': 'Colorado (US)', 'pr': 'Puerto Rico', 'md': 'Moldova',
               'us_mi': 'Michigan (US)', 'to': 'Tonga', 'bo': 'Bolivia', 'za': 'South Africa', 'ca_ns': 'Nova Scotia (Canada)', 'il': 'Israel',
               'us_or': 'Oregon (US)', 'tz': 'Tanzania', 'us_tn': 'Tennessee (US)', 'ae_az': 'Abu Dhabi (UAE)', 'lu': 'Luxembourg', 'tn': 'Tunisia',
               'us_ca': 'California (US)', 'us_la': 'Louisiana (US)', 'al': 'Albania', 'us_ia': 'Iowa (US)', 'gb': 'United Kingdom',
               'mu': 'Mauritius',
               'hr': 'Croatia', 'dk': 'Denmark', 'sk': 'Slovakia', 'cy': 'Cyprus', 'ae_du': 'Dubai (UAE)', 'us_tx': 'Texas (US)',
               'us_de': 'Delaware (US)',
               'us_nd': 'North Dakota (US)', 'no': 'Norway', 'bm': 'Bermuda', 'jp': 'Japan', 'us_ri': 'Rhode Island (US)', 'bs': 'Bahamas',
               'ca': 'Canada',
               'us_nj': 'New Jersey (US)'}

2.allcountry.py

主要爬虫文件，利用浏览器驱动模拟登录网站，然后对网站信息进行爬取，如果爬取出错，继续下一个页面的爬取

# -*- coding: utf-8 -*-
import time
import datetime
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os
from setting import *
from db import db_insert, db_update
from tools import format_str, send_email, dic_change_str, query_company_is_exist, find_breakpoint, save_breakpoint


def main():
    chrome_profile = webdriver.ChromeOptions()
    # chrome_profile.add_argument("--disable-extensions")
    # chrome_profile.add_argument('--headless')

    driver = webdriver.Chrome(executable_path=r"D:\chromedriver\chromedriver.exe", chrome_options=chrome_profile)
    wait = WebDriverWait(driver, 60)
    driver.get(login_page)

    txtemail = wait.until(
        EC.presence_of_element_located((By.ID, 'user_email'))
    )
    txtpassword = wait.until(
        EC.presence_of_element_located((By.ID, 'user_password'))
    )
    btnsearch = wait.until(
        EC.presence_of_element_located((By.NAME, 'submit'))
    )

    time.sleep(3)
    txtemail.clear()
    txtemail.send_keys(login_email)
    txtpassword.clear()
    txtpassword.send_keys(login_password)
    btnsearch.click()

    time.sleep(3)

    country, page_number = find_breakpoint()


    # 异常处理
    try:
        for country in new_country_list:
            # 继续上一次位置
            for page_number1 in range(page_number, max_page + 1):
                # 页码更新，存断点
                print(page_number1)
                save_breakpoint(country, page_number1)

                data_page = company_bsae_url.format(country, page_number1)
                print(data_page)
                jurisdiction = country_dic[country]

                driver.get(data_page)
                html_page = driver.page_source.encode('utf-8')  # 取得网页的源代码
                html_page_soup = BeautifulSoup(html_page, 'lxml')
                company_list = html_page_soup.select('li.search-result a.company_search_result')
                print(company_list)
                if len(company_list) > 0:
                    for i in company_list:

                        company_url = base_url + i.get('href')

                        company_name = i.get_text()

                        driver.get(company_url)
                        company_html = driver.page_source.encode('utf-8')
                        bs_company_html = BeautifulSoup(company_html, 'lxml')
                        company_dt_list = bs_company_html.select('div#attributes dl.attributes')
                        if company_dt_list:
                            company_dt = company_dt_list[0]

                            # 先判断是否存在
                            company_number = ""
                            bs_company_number = company_dt.select('dd.company_number')
                            if bs_company_number:
                                company_number = bs_company_number[0].get_text()

                                # 数据库中存在就继续下一个循环
                                # if company_number in company_number_list:
                                #     continue
                            else:
                                print(company_url + "中公司编号不存在")

                            status = ""
                            bs_status = company_dt.select('dd.status')
                            if bs_status:
                                status = bs_status[0].get_text()

                            incorporation_date = ""
                            bs_incorporation_date = company_dt.select('span[itemprop=foundingDate]')
                            if bs_incorporation_date:
                                incorporation_date = bs_incorporation_date[0].get_text()
                            else:
                                incorporation_date1_dl = bs_company_html.select('div#events div.oc-events-timeline dl')
                                if incorporation_date1_dl:
                                    for incorporation_date1 in incorporation_date1_dl:
                                        incorporation_date_text = incorporation_date1.get_text()
                                        # print(incorporation_date_text)
                                        if "Incorporated" in incorporation_date_text:
                                            incorporation_date = incorporation_date_text.split('Incorporated')[0].strip()
                                            # print(incorporation_date)

                            company_type = ""
                            bs_company_type = company_dt.select('dd.company_type')
                            if bs_company_type:
                                company_type = bs_company_type[0].get_text()

                            business_number = ""
                            bs_business_number = company_dt.select('dd.business_number ')
                            if bs_business_number:
                                business_number = bs_business_number[0].get_text()

                            agent_name = ""
                            bs_agent_name = company_dt.select('dd.agent_name')
                            if bs_agent_name:
                                agent_name = bs_agent_name[0].get_text()

                            agent_address = ""
                            bs_agent_address = company_dt.select('dd.agent_address')
                            if bs_agent_address:
                                agent_address = bs_agent_address[0].get_text()

                            directors_officers = ""
                            bs_directors_officers = company_dt.select('dd.officers')
                            if bs_directors_officers:
                                directors_officers_li = bs_directors_officers[0].select('ul.attribute_list li.attribute_item')
                                directors_officers_dic = {}
                                for directors_officers in directors_officers_li:
                                    directors_officers_name = ""
                                    directors_officers_href = ""
                                    directors_officers_position = ""
                                    directors_officers_date = ""

                                    directors_officers_href_name = directors_officers.select('a.officer')
                                    if directors_officers_href_name:
                                        directors_officers_href = directors_officers_href_name[0].get('href')
                                        directors_officers_href = base_url + directors_officers_href
                                        directors_officers_name = directors_officers_href_name[0].get_text()
                                    else:
                                        continue
                                    directors_officers_text = directors_officers.get_text()
                                    directors_officers_text_list = directors_officers_text.split(',')
                                    if ',' not in directors_officers_name:
                                        if len(directors_officers_text_list) > 2:
                                            directors_officers_position = directors_officers_text_list[1]
                                            directors_officers_date = directors_officers_text_list[2]
                                    # for d directors_officers_text_list:

                                    # directors_officers_position_font = directors_officers.select('font')
                                    # if len(directors_officers_position_font) > 1:
                                    #     directors_officers_position = directors_officers_position_font[0].get_text().rstirp(',').lstirp(',')
                                    #     directors_officers_date = directors_officers.get_text().split(',')[-1]

                                    directors_officers_name_dic = {"directors_officers_position": directors_officers_position,
                                                                   "directors_officers_href": directors_officers_href,
                                                                   "directors_officers_date": directors_officers_date}
                                    directors_officers_dic[directors_officers_name] = directors_officers_name_dic
                                print(directors_officers_dic)
                            else:
                                directors_officers_dic = {}
                            registry_page = ""
                            bs_registry_page = company_dt.select('dd.registry_page a.url')
                            if bs_registry_page:
                                registry_page = bs_registry_page[0].get('href')

                            branch = ""
                            bs_branch = company_dt.select('dd.branch')
                            if bs_branch:
                                branch = bs_branch[0].get_text()

                            industry_codes = ""
                            bs_industry_codes = company_dt.select('dd.industry_codes')
                            if bs_industry_codes:
                                industry_codes = bs_industry_codes[0].get_text()

                            ultimate_beneficial_owners = ""
                            bs_ultimate_beneficial_owners = company_dt.select('dd.ultimate_beneficial_owners')
                            if bs_ultimate_beneficial_owners:
                                ultimate_beneficial_owners = bs_ultimate_beneficial_owners[0].get_text()

                            latest_accounts_date = ""
                            bs_latest_accounts_date = company_dt.select('dd.latest_accounts_date')
                            if bs_latest_accounts_date:
                                latest_accounts_date = bs_latest_accounts_date[0].get_text()

                            registered_address = ""
                            bs_registered_address = company_dt.select('dd.registered_address')
                            if bs_registered_address:
                                # registered_address = bs_registered_address[0].get_text()
                                bs_registered_address_li = bs_registered_address[0].select('ul.address_lines li.address_line')
                                if bs_registered_address_li:
                                    for registered_address_li in bs_registered_address_li:
                                        registered_address_li_str = str(registered_address_li)
                                        registered_address = registered_address + registered_address_li_str.replace('
', ' ').replace(
                                            '', ' ').replace('', ' ')

                            alternative_names = ""
                            bs_alternative_names = company_dt.select('dd.alternative_names')
                            if bs_alternative_names:
                                alternative_names = bs_alternative_names[0].get_text()

                            print(company_name, company_number, status, incorporation_date, company_type, jurisdiction)
                        else:
                            print("没有抓取到该公司数据，url=" + company_url)

                        source_mechanism = ""
                        bs_source_mechanism = bs_company_html.select('div#source span.publisher')
                        if bs_source_mechanism:
                            source_mechanism = bs_source_mechanism[0].get_text()

                        source_page = ""
                        bs_source_page = bs_company_html.select('div#source a.url')
                        if bs_source_page:
                            source_page = bs_source_page[0].get('href')

                        source_time = ""
                        bs_source_time = bs_company_html.select('div#source span.retrieved')
                        if bs_source_time:
                            source_time = bs_source_time[0].get_text()

                        update_time = datetime.datetime.now()
                        # print(directors_officers_dic)
                        company_is_exist = query_company_is_exist(company_number, jurisdiction)

                        # 存在该公司就更新，不存在就插入
                        if company_is_exist:
                            print("数据库中存在，更新"+company_number)
                            db_update(format_str(company_name), format_str(status), format_str(incorporation_date), format_str(company_type),
                                      format_str(business_number), format_str(agent_name), format_str(agent_address), format_str(alternative_names),
                                      format_str(registered_address), format_str(registry_page), format_str(dic_change_str(directors_officers_dic)),
                                      format_str(branch), format_str(ultimate_beneficial_owners), format_str(industry_codes),
                                      format_str(latest_accounts_date), format_str(source_mechanism), format_str(source_page),
                                      format_str(source_time), format_str(company_url), update_time, page_number1, format_str(company_number),
                                      format_str(jurisdiction))
                        else:
                            print("数据库中不存在，插入" + company_number)
                            db_insert(format_str(company_name), format_str(company_number), format_str(status), format_str(incorporation_date),
                                      format_str(company_type), format_str(jurisdiction), format_str(business_number), format_str(agent_name),
                                      format_str(agent_address), format_str(alternative_names), format_str(registered_address),
                                      format_str(registry_page),
                                      format_str(dic_change_str(directors_officers_dic)), format_str(branch),
                                      format_str(ultimate_beneficial_owners), format_str(industry_codes), format_str(latest_accounts_date),
                                      format_str(source_mechanism), format_str(source_page), format_str(source_time),
                                      format_str(company_url), update_time, page_number1)

                    page_number = 1
                else:
                    print("访问公司页码出错，出错url" + data_page + "   所属国家：" + country_dic[country])
                time.sleep(5)
    # 捕获所有异常
    except Exception as e:
        # title = "爬取出现异常,时间:" + datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S %A')
        print(e)
        # send_email(title, "异常")
        driver.quit()
        time.sleep(20)
        os.system('python run.py')
        # finally:
        # print('爬取结束')
        # send_email("爬取结束", "爬取结束")

3.tools.py

通用函数文件，工具类

"""
功能函数
"""
from db import select_latest, select_all_by_company_number_jurisdiction
from setting import SENDEMAIL, EMAILPSD, TOEMAIL
import smtplib
from email.mime.text import MIMEText

import json


# 转换特殊字符
def format_str(str1):
    str2 = str1.replace("'", "\\'")
    str3 = str2.replace('"', '\\"')
    return str3


# 查询最近爬取数据的页码和国家
def query_page_and_country():
    ret = select_latest()
    page_number = ret[20]
    jurisdiction = ret[6]
    print(page_number, jurisdiction)
    return page_number, jurisdiction


# 发邮件
def send_email(title, articletext):
    msg_from = SENDEMAIL  # 发送方邮箱
    passwd = EMAILPSD  # 密码
    msg_to = TOEMAIL  # 收件人邮箱

    subject = title  # 主题
    content = articletext  # 正文
    msg = MIMEText(content)
    msg['Subject'] = subject
    msg['From'] = msg_from
    msg['To'] = msg_to
    try:
        s = smtplib.SMTP_SSL("smtp.163.com", 465)  # 邮件服务器及端口号
        s.login(msg_from, passwd)
        s.sendmail(msg_from, msg_to, msg.as_string())
        print("邮件发送成功")
    except Exception as e:
        print(e)
    finally:
        s.quit()


# 将字典转换为字符串 利用json
def dic_change_str(dic1):
    str1 = json.dumps(dic1)
    return str1


# 查询数据库中是否存在该公司
def query_company_is_exist(company_number, jurisdiction):
    ret = select_all_by_company_number_jurisdiction(company_number, jurisdiction)
    if ret:
        return True
    else:
        return False


# if query_company_is_exist('43364123K', 'Louisiana (US)'):
#     print(1)


# 找到断点，返回国家和页码
def find_breakpoint():
    with open('breakpoint.txt', "r") as f:
        str1 = f.read()
    country = str1.split(',')[0]
    page_number = int(str1.split(',')[1])
    return country, page_number


# 存断点,传入国家和页码
def save_breakpoint(country, page_number):
    str1 = country + ',' + str(page_number)
    with open('breakpoint.txt', 'w') as f:
        f.write(str1)


        # print(find_breakpoint())
        # save_breakpoint('china',11)

4.db.py

数据库操作文件

"""
数据库操作函数
"""
import pymysql
from setting import DATABASE


# 插入数据
def db_insert(company_name, company_number, status, incorporation_date, company_type, jurisdiction, business_number, agent_name, agent_address,
              alternative_names, registered_address, registry_page, directors_officers, branch, ultimate_beneficial_owners, industry_codes,
              latest_accounts_date, source_mechanism, source_page, source_time, company_url, update_time, page_number):
    conn = pymysql.connect(host=DATABASE['host'],
                           port=DATABASE['port'],
                           db=DATABASE['db'],
                           user=DATABASE['user'],
                           passwd=DATABASE['passwd'],
                           charset=DATABASE['charset'], )
    cur = conn.cursor()
    sql = "INSERT INTO company(company_name,company_number,status,incorporation_date,company_type,jurisdiction,business_number,agent_name,agent_address,alternative_names,registered_address,registry_page,directors_officers,branch,ultimate_beneficial_owners,industry_codes,latest_accounts_date,source_mechanism,source_page,source_time,company_url,update_time,page_number) VALUES ('{}', '{}','{}', '{}', '{}', '{}','{}','{}', '{}', '{}', '{}','{}','{}', '{}', '{}', '{}','{}','{}', '{}', '{}', '{}','{}','{}')".format(
        company_name, company_number, status, incorporation_date, company_type, jurisdiction, business_number, agent_name, agent_address,
        alternative_names, registered_address, registry_page, directors_officers, branch, ultimate_beneficial_owners, industry_codes,
        latest_accounts_date, source_mechanism, source_page, source_time, company_url, update_time, page_number)
    # print(sql)
    cur.execute(sql.encode('utf-8'))
    conn.commit()
    conn.close()


# 更新数据
def db_update(company_name, company_number, status, incorporation_date, company_type, jurisdiction, business_number, agent_name, agent_address,
              alternative_names, registered_address, registry_page, directors_officers, branch, ultimate_beneficial_owners, industry_codes,
              latest_accounts_date, source_mechanism, source_page, source_time, company_url, update_time, page_number):
    conn = pymysql.connect(host=DATABASE['host'],
                           port=DATABASE['port'],
                           db=DATABASE['db'],
                           user=DATABASE['user'],
                           passwd=DATABASE['passwd'],
                           charset=DATABASE['charset'], )
    cur = conn.cursor()
    sql = "UPDATE company SET company_name='{}',status='{}',incorporation_date='{}',company_type='{}',business_number='{}',agent_name='{}',agent_address='{}',alternative_names='{}',registered_address='{}',registry_page='{}',directors_officers='{}',branch='{}',ultimate_beneficial_owners='{}',industry_codes='{}',latest_accounts_date='{}',source_mechanism='{}',source_page='{}',source_time='{}',company_url='{}',update_time='{}',page_number='{}' WHERE company_number='{}' AND jurisdiction='{}'".format(
        company_name, status, incorporation_date, company_type, business_number, agent_name, agent_address,
        alternative_names, registered_address, registry_page, directors_officers, branch, ultimate_beneficial_owners, industry_codes,
        latest_accounts_date, source_mechanism, source_page, source_time, company_url, update_time, page_number, company_number, jurisdiction)
    cur.execute(sql.encode('utf-8'))
    conn.commit()
    conn.close()


# 查询最新一条记录
def select_latest():
    conn = pymysql.connect(host=DATABASE['host'],
                           port=DATABASE['port'],
                           db=DATABASE['db'],
                           user=DATABASE['user'],
                           passwd=DATABASE['passwd'],
                           charset=DATABASE['charset'], )
    cur = conn.cursor()
    sql = "SELECT * FROM company ORDER BY id DESC LIMIT 1"
    cur.execute(sql.encode('utf-8'))
    ret = cur.fetchone()
    cur.close()
    conn.close()
    print(ret)
    return ret


# 根据页码查询该页码的公司编号
def select_all_by_page_number(page_number):
    conn = pymysql.connect(host=DATABASE['host'],
                           port=DATABASE['port'],
                           db=DATABASE['db'],
                           user=DATABASE['user'],
                           passwd=DATABASE['passwd'],
                           charset=DATABASE['charset'], )
    cur = conn.cursor()
    sql = "SELECT company_number FROM company WHERE page_number={}".format(page_number)
    print(sql)
    cur.execute(sql.encode('utf-8'))
    results = cur.fetchall()
    company_number_list = []
    for row in results:
        company_number_list.append(row[0])
    return company_number_list


# 通过国家和公司编号查询公司信息
def select_all_by_company_number_jurisdiction(company_number, jurisdiction):
    conn = pymysql.connect(host=DATABASE['host'],
                           port=DATABASE['port'],
                           db=DATABASE['db'],
                           user=DATABASE['user'],
                           passwd=DATABASE['passwd'],
                           charset=DATABASE['charset'], )
    cur = conn.cursor()
    sql = "SELECT * FROM company WHERE company_number='{}' AND  jurisdiction='{}'".format(company_number, jurisdiction)
    cur.execute(sql.encode('utf-8'))
    ret = cur.fetchone()
    cur.close()
    conn.close()
    return ret

5.breakpoint.txt

断点记录文件，程序重启后继续断点运行

ca,21

6.run.py

启动文件

from allcountry import main

if __name__ == '__main__':
    main()

Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）吃西红柿的鸡蛋大数据 hadoop spark python
厦门租房信息分析展示（pycharm+python爬虫+pyspark+pyecharts）（踩坑记录）项目地址http://dblab.xmu.edu.cn/blog/2307/踩坑:Spark分析文件rent_analyse.py改变Spark读取csv文件的写法sparkContext=SparkContext("local","rent_analyse")sqlContext=SQLCon
2024年Python最新Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化 2401_84584609 程序员 python 爬虫信息可视化
‘详情页’])csv_writer.writeheader()forpageinrange(1,26):print(f’正在保存第{page}页数据内容===========')url=f’http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2017-0-1-{page}’headers={‘User-Agent’:‘
如何抓取社交媒体上的公开用户信息：完整的Python爬虫教程与实战 Python爬虫项目媒体 python 爬虫 selenium 开发语言 ajax
引言社交媒体平台如Twitter、Instagram、Facebook和LinkedIn等，成为了现代社会中获取信息、表达观点、社交互动的主要场所。通过社交媒体，用户分享个人信息、兴趣、活动以及与他人的互动数据，极大地丰富了网络世界的内容。在数据分析、市场研究、舆情监控等领域，抓取社交媒体上的公开用户信息是非常重要的任务。对于很多数据科学家、市场分析师、爬虫开发者来说，如何高效地抓取社交媒体平台的
基于Python的股市数据爬取与分析：从实时行情到历史数据的完整教程 Python爬虫项目 2025年爬虫实战项目 python 数据挖掘开发语言爬虫 oracle 人工智能
引言股市投资是一项具有高度风险和回报的活动，实时行情和历史数据的获取是股市分析和决策的基础。随着数据科学和爬虫技术的迅速发展，许多投资者和分析师通过编写Python爬虫来获取股市数据，进行数据分析、技术分析和预测。无论是获取实时股市行情，还是分析股票的历史数据，Python都能为我们提供强大的工具支持。本篇博客将为你提供一个完整的股市数据爬取与分析教程，介绍如何利用Python爬虫获取实时股市行情
Python爬虫教程：抓取区块链交易信息及加密货币市场数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫区块链开发语言人工智能网络爬虫
前言随着区块链技术和加密货币的迅猛发展，区块链交易和加密货币市场的数据逐渐成为金融、技术、经济研究等领域的热点。对于开发者和研究者而言，实时获取区块链交易数据和加密货币市场行情，对于投资分析、市场预测、技术研究等具有重要的参考价值。本文将通过Python爬虫技术，介绍如何抓取区块链交易信息及加密货币市场数据，详细阐述数据获取的原理、技术方案、实现方法以及抓取到的数据的存储与分析。我们将依托最新的爬
python爬虫短视频平台数据抓取：抓取视频和评论 Python爬虫项目 2025年爬虫实战项目 python 爬虫音视频网络爬虫开发语言
随着短视频平台如抖音、快手、TikTok等的兴起，越来越多的内容创作者和观众通过短视频平台分享和观看视频内容。短视频平台包含了丰富的数据，如视频内容、评论、点赞数、分享数等，这些数据对市场分析、用户行为分析、视频推荐算法等方面具有重要意义。抓取这些数据可以帮助我们获取平台的动态信息，为数据分析提供基础。本文将详细介绍如何使用Python编写爬虫抓取短视频平台上的视频和评论数据，包括技术栈选择、爬虫
【Python爬虫实战】深入解析 Scrapy 管道：数据清洗、验证与存储的实战指南易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、了解ScrapyShell二、配置文件settings.py（一）为什么需要配置文件（二）配置文件的使用方法（三）常用字段及其含义三、管道的深入使用（一）管道的常用方法（二）管道的实现（三）启用管道四、管道的常见应用场景五、管道使用
【Python爬虫实战】轻量级爬虫利器：DrissionPage之SessionPage与WebPage模块详解易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、SessionPage（一）SessionPage模块的基本功能（二）基本使用（三）常用方法（四）页面元素定位和数据提取（五）Cookie和会话管理（六）SessionPage的优点和局限性（七）SessionPage和Driver
【Python爬虫实战】全面解析 DrissionPage：简化 Python 浏览器自动化的三种模式易辰君 python爬虫 python 爬虫开发语言
个人主页：易辰君-CSDN博客系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、DrissionPage简介（一）ChromiumPage（二）WebPage（三）SessionPage（四）三大模块总结二、ChromiumPage（一）初始化ChromiumPage（二）基本操作（三）等待元素加载（四）执行J
如何运用Python爬虫快速获得1688商品详情数据小爬虫程序猿 API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是在电商领域。对于企业来说，获取竞争对手的商品信息是分析市场趋势、制定营销策略的重要手段。1688作为中国领先的B2B电商平台，拥有海量的商品数据。本文将介绍如何使用Python编写爬虫程序，以合法合规的方式快速获取1688商品详情，为电商企业提供数据支持。1.环境准备在开始编写代码之前，我们需要准备以下开发环境：Python3.x：确保已安装Python3.
Python爬虫项目 | 二、每日天气预报聪明的墨菲特i Python爬虫项目 python 爬虫开发语言
文章目录1.文章概要1.1实现方法1.2实现代码1.3最终效果1.3.1编辑器内打印显示效果实际应用效果2.具体讲解2.1使用的Python库2.2代码说明2.2.1获取天气预报信息2.2.2获取当天日期信息，格式化输出2.2.3调用函数，输出结果2.3过程展示3总结1.文章概要继续学习Python爬虫知识，实现简单的案例，发送每日天气预报1.1实现方法本文使用Python中常用的requests
python爬虫入门（实践）雁于飞爬虫 python 开发语言
python爬虫入门（实践）一、对目标网站进行分析二、博客爬取获取博客所有h2标题的路由确定目标，查看源码代码实现"""获取博客所有h2标题的路由"""url="http://www.crazyant.net"importrequestsfrombs4importBeautifulSoup#发送请求，获取页面所有内容r=requests.get(url)ifr.status_code!=200:r
详细分析Python爬虫中的xpath（附Demo）码农研究僧 Python python 爬虫 xpath
目录前言1.基本知识2.常用API3.简易Demo前言关于爬虫的基本知识推荐阅读：Python爬虫从入门到应用（超全讲解）该知识点需要提前安装相关依赖：pipinstalllxml1.基本知识XPath（XMLPathLanguage）是一种用于在XML文档中定位和选择节点的语言在XML文档中通过路径表达式（pathexpression）来定位节点，这些路径描述了节点在层次结构中的位置一、节点：在
python爬虫 django搜索修改更新数据_Django+python+BeautifulSoup垂直搜索爬虫 weixin_39897070 python爬虫 django搜索修改更新数据
使用python+BeautifulSoup完成爬虫抓取特定数据的工作，并使用Django搭建一个管理平台，用来协调抓取工作。因为自己很喜欢Djangoadmin后台，所以这次用这个后台对抓取到的链接进行管理，使我的爬虫可以应对各种后期的需求。比如分时段抓取，定期的对已经抓取的地址重新抓取。数据库是用python自带的sqlite3，所以很方便。这几天正好在做一个电影推荐系统，需要些电影数据。本文
使用Python爬虫将抓取的数据保存到Excel文件 Python爬虫项目 2025年爬虫实战项目 python 爬虫 excel 测试工具开发语言信息可视化
在进行Python爬虫开发时，数据的存储是非常重要的一环。随着数据分析需求的不断增长，保存和管理大量的数据变得尤为重要。CSV（Comma-SeparatedValues）格式一直是一个常见的存储格式，但在许多应用场景下，Excel文件作为一种更直观、结构化的方式，具有更多的优势，尤其在数据分析与可视化方面。Excel文件不仅能够承载数据，还能进行复杂的数据操作、图表展示等，使其在数据科学、商业分
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_66323401 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
Python爬虫爬取1万首音乐代码 EasySoft易软 python
importrequestsbase_url=“http://music.163.com/song/media/outer/url?id=”start_id=200000end_id=210000formusic_idinrange(start_id,end_id+1):song_url=base_url+str(music_id)response=requests.get(song_url,st
Python 爬虫实战案例 - 获取社交平台事件热度并进行影响分析西攻城狮北 Python实用案例 python 爬虫事件热度影响分析
目录一、引言二、数据爬取三、数据分析四、可视化展示五、总结一、引言在当今信息爆炸的时代，社交平台成为了各类事件发酵和传播的重要场所。了解社交平台上事件的热度以及其潜在影响，对于舆情监测、市场营销、社会趋势分析等领域具有重要意义。本文将通过一个实际案例，展示如何使用Python爬虫技术获取社交平台上特定事件的相关数据，并对其热度和影响进行深入分析。在本篇博客中，我们将学习如何使用Python编写一个
利用Python爬虫获取阿里巴巴商品详情：代码示例与实践指南小爬虫程序猿 API python 爬虫开发语言
在电商数据分析和市场研究中，获取商品详情是至关重要的一步。虽然阿里巴巴开放平台提供了官方API来获取商品信息，但在某些情况下，使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Python爬虫获取阿里巴巴商品详情，并提供详细的代码示例。一、准备工作（一）环境搭建确保你的Python环境已经安装了以下必要的库：requests：用于发送HTTP请求。BeautifulSoup：用于解析HT
史上最全！Python爬虫requests库(附案例) 疯狂的超级玛丽 Python Python学习 Python入门 python 爬虫开发语言学习 Python基础 python自学
1.requests库简介如果你正在学习Python并且找不到方向的话可以试试我这一份学习方法+籽料呀！点击领取（不要米米）Requests是一个为人类设计的简单而优雅的HTTP库。requests库是一个原生的HTTP库，比urllib3库更为容易使用。requests库发送原生的HTTP1.1请求，无需手动为URL添加查询串，也不需要对POST数据进行表单编码。相对于urllib3库，requ
python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接... 珍妮赵
一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目scrapystartprojectmycwpjt步骤2、分析新浪网站静态代码随便打开一个新浪新闻网，新闻可以看到地址为http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491622
Python 正则表达式 weixin_34319640 python 爬虫
最近研究Python爬虫，很多地方用到了正则表达式，但是没好好研究，每次都得现查文档。今天就专门看看Python正则表达式。本文参考了官方文档re模块。模式首先正则表达式的语法我就不说了，这玩意倒是不算难，用的时候现查就行了——正则表达式_百度百科。在很多编程语言中，由于有转义字符这么一种东西的存在，导致正则表达式需要使用两个斜杠来处理。如果编程语言支持原始字符串，那么就不需要两个斜杠了。在Pyt
Python爬虫入门教程：超级简单的Python爬虫教程梦子mengy7762 爬虫 python 数据分析 python 爬虫 html pycharm visualstudio
这是一篇详细介绍[Python]爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30分钟即可学会编写简单的Python爬虫。这篇Python爬虫教程主要讲解以下5部分内容：了解网页；使用requests库抓取网站数据；使用BeautifulSoup解析网页；清洗和组织数据；爬虫攻防战；了解网页以中国旅游网首页为例，抓取中国旅游网首页首条信息（标题和链接）
《Python爬虫入门教程：轻松抓取网页数据》乐茵安全 python_study python
python对网页进行爬虫基于BeautifulSoup的爬虫—源码"""基于BeautifulSoup的爬虫### 一、BeautifulSoup简介1. Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。2. Beautiful S
python html解析查找字符串_python爬虫之html解析Beautifulsoup和Xpath 邓凌佳 python html解析查找字符串
BeautiifulsoupBeautifulSoup是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。BeautifulSoup用来解析HTML比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml的XML解析器。BeautifulSoup3目前已经停止开发，推荐现在的项目使用BeautifulSoup4。Beautii
python爬虫根据需要查找某个链接并保存快乐小运维 python 爬虫开发语言
importreimportosfromurllib.parseimporturlparse,quoteimportasyncioimportaiohttpfrombs4importBeautifulSoup#所有下载文件file_name=“1.txt”asyncdeffetch_url(session,url):try:#首先尝试HTTPSasyncwithsession.get(url,ti
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
【python爬虫入门教程13--selenium的自动点击 --小小案例分享】重剑无锋1024 python 爬虫 selenium
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档《python爬虫入门教程12--selenium的安装与使用》selenium就是一个可以实现python自动化的模块，上次我们更新了如何安装以及它的语法。同时我也更新了如何用爬虫技术实现cookie免登录12306，再用selenium自动抢票。这个帖子主要是对selenium的一个语法讲解小案例，大家可以多运行试试。[免登录12
【《python爬虫入门教程12--重剑无峰168》】重剑无锋1024 python 爬虫开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档《python爬虫入门教程12--selenium的安装与使用》selenium就是一个可以实现python自动化的模块，上次我们更新了如何安装，这次我们来具体看看，它的语法，大家可以自己尝试一下，我的代码直接放在下面。前言一、selenium八种定位元素的方法1.完整示例代码二、总结。掌握这几种方法再在它们后面加入.click()或
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

使用Python和selenium的Chromedriver模拟登陆爬取网站信息(beautifulsoup)

爬取的信息很多，所以需要设置断点，在程序重启时能继续爬取。并且能在断掉之后自动重启。

1.setting.py

2.allcountry.py

3.tools.py

4.db.py

5.breakpoint.txt

你可能感兴趣的:(Python爬虫)