AIslandX

【归档】爬取马蜂窝景点信息（含源代码）

爬取马蜂窝景点信息（含源代码）

爬取热门目的地信息 MafengwoCrawler()._get_mdd()
爬取目的地内景点信息 MafengwoCrawler().crawler_mdd()
爬取景点详细信息 MafengwoCrawler().crawler_detail()

源码文件及数据库结构文件见我的资源。（另包含国内10W景点信息的数据库文件）

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time         : 2019/04/24
# @Author       : AIsland
# @Email        : [email protected]
# @File         : crawler.py
# @Description  : 爬取马蜂窝各省市景点数据

import requests
import re
import time
import json
import hashlib
import logging
import threading
import pymysql
from bs4 import BeautifulSoup


class MafengwoCrawler:
    # 查询目的地的网址
    # 目的地内包含景点
    URL_MDD = 'http://www.mafengwo.cn/mdd/'
    # 查询景点的网址
    # 包含景点详情的链接、景点图片和景点名称
    URL_ROUTE = 'http://www.mafengwo.cn/ajax/router.php'
    # 查询景点坐标经纬度的网址
    # 经度：longitude lng
    # 纬度：lat itude lat
    URL_POI = 'http://pagelet.mafengwo.cn/poi/pagelet/poiLocationApi'

    # 通用 Headers
    HEADERS = {
        'Referer': 'http://www.mafengwo.cn/',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }

    # mysql 数据库链接信息
    DB_HOST = 'localhost'
    DB_USER = 'root'
    DB_PASSWORD = '[email protected]'
    DB_NAME = 'mafengwo'

    # 请求数据加密需要的字符串，由 _get_md5_encrypted_string() 方法获取
    encrypted_string = ''

    # 记录不用爬取的页码，即爬取成功的页码
    success_pages = []

    def __init__(self, log_file=None):
        # 使用说明 https://www.cnblogs.com/nancyzhu/p/8551506.html
        logging.basicConfig(level=logging.DEBUG,
                            filename='mafengwo.'+str(int(time.time()))+'.log',
                            format='%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s'
                            )
        # 初始化请求对象
        self.REQ = requests.session()
        # 设置通用 Headers
        self.REQ.headers.update(self.HEADERS)

        # 获取请求数据加密需要的字符串
        self._get_md5_encrypted_string()

        # 如果传入日志文件，则过滤已爬取成功的页码
        if log_file is not None:
            self.success_pages = self._read_log_file_get_success_page(log_file)
            print('当前已经成功爬取的页数：' + str(len(self.success_pages)))
            print('5秒后继续运行')
            time.sleep(5)

    def crawler_mdd(self, mdd_id=21536):
        '''
        爬取单个目的地的景点信息
        默认：21536，中国
        '''
        # mdd_id = 12522  # 鼓浪屿，16页，测试数据

        # 开始爬数据
        start = int(time.time())

        # 先获取数据总页数
        res = self._get_route(mdd_id)
        page_total = res['pagecount']
        # 计算每个线程爬取多少页
        page_range = round(page_total/20)
        if page_range == 0:
            page_range = 1

        logging.info('总共'+str(page_total)+'页，每个线程爬取'+str(page_range)+'页')
        print('总共'+str(page_total)+'页，每个线程爬取'+str(page_range)+'页')

        # 开启多线程模式
        thread = []
        for i in range(1, page_total+1, page_range):
            page_start = i
            page_end = i + page_range
            if page_end > page_total + 1:
                page_end = page_total + 1

            t = threading.Thread(target=self.crawler,
                                 args=(mdd_id, page_start, page_end))
            thread.append(t)

        for i in range(0, len(thread)):
            thread[i].start()

        for i in range(0, len(thread)):
            thread[i].join()

        end = int(time.time())

        logging.info('总共花费：'+str(end-start)+'秒')
        print('总共花费：'+str(end-start)+'秒')

    def crawler(self, mdd_id, start_page, end_page):
        '''
        真正的爬虫
        是时候展示真正的实力了
        '''
        # 连接数据库
        db = pymysql.connect(
            self.DB_HOST,
            self.DB_USER,
            self.DB_PASSWORD,
            self.DB_NAME)
        for page in range(start_page, end_page):
            if page in self.success_pages:
                print('跳过：'+str(page))
                continue
            page_pass = False
            page_retry = 0
            while not page_pass and page_retry < 11:
                try:
                    print('当前爬取页数：'+str(page))
                    result = self._get_route(mdd_id, page=page)['list']
                    # 存数据库
                    sql = "INSERT IGNORE INTO poi(poi_id, name, image, link, lat, lng, type, is_cnmain, country_mddid) \
                        VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s);"
                    params = []
                    for item in result:
                        params.append((
                            item['poi_id'],
                            item['name'],
                            item['image'],
                            item['link'],
                            item['lat'],
                            item['lng'],
                            item['type'],
                            item['is_cnmain'],
                            item['country_mddid']
                        ))
                    try:
                        cursor = db.cursor()
                        cursor.executemany(sql, params)
                        db.commit()
                        # 成功
                        logging.info('page success: ' + str(page))
                        print('page success: ' + str(page))
                        page_pass = True
                    except Exception as e:
                        logging.error(e)
                        # 如果发生错误则回滚
                        db.rollback()
                except Exception as e:
                    page_retry += 1
                    logging.error(e)
                    logging.error(result)
        # 关闭数据库
        db.close()

    def crawler_detail(self):
        '''
        爬取景点详细信息到数据库
        执行这个方法之前，需要先爬取好数据到 poi 数据表

        多线程爬取 crawler_detail_worker
        '''
        # 查询 poi 数据表中的数据条数
        db = pymysql.connect(
            self.DB_HOST,
            self.DB_USER,
            self.DB_PASSWORD,
            self.DB_NAME)
        sql = 'SELECT COUNT(*) as total from poi;'
        cursor = db.cursor()
        cursor.execute(sql)
        result = cursor.fetchall()
        # 总数据条数
        total = result[0][0]
        db.close()

        # 开始爬数据
        start = int(time.time())
        # 先获取总数据条数
        total = result[0][0]
        # 计算每个线程爬取多少条
        range_count = round(total/20)
        if range_count == 0:
            range_count = 1
        # 日志
        logging.info('总共'+str(total)+'条数据，每个线程爬取'+str(range_count)+'条')
        print('总共'+str(total)+'条数据，每个线程爬取'+str(range_count)+'条')
        # 开启多线程模式
        thread = []
        for i in range(0, total, range_count):
            # i, range_count SQL 查询起始位置，查询数量
            t = threading.Thread(target=self.crawler_detail_worker,
                                 args=(i, range_count))
            thread.append(t)

        for i in range(0, len(thread)):
            thread[i].start()

        for i in range(0, len(thread)):
            thread[i].join()

        end = int(time.time())

        logging.info('总共花费：'+str(end-start)+'秒')
        print('总共花费：'+str(end-start)+'秒')
        return

    def crawler_detail_worker(self, offset, limit):
        '''工作线程'''
        db = pymysql.connect(
            self.DB_HOST,
            self.DB_USER,
            self.DB_PASSWORD,
            self.DB_NAME)
        sql = 'SELECT poi_id, name, link FROM poi ORDER BY poi_id LIMIT ' + \
            str(offset) + ', ' + str(limit) + ';'
        cursor = db.cursor()
        cursor.execute(sql)
        # 查询结果集
        result = cursor.fetchall()
        detail_list = []
        c_count = 0
        save_count = 100  # 多少条数据保存一次数据库，默认 100
        for item in result:
            poi_id = item[0]
            name = item[1]
            link = item[2]
            # 爬取之前先查询一下是否有相应数据
            sql_select = 'SELECT poi_id FROM poi_detail WHERE poi_id=' + \
                str(poi_id) + ';'
            cursor.execute(sql_select)
            result_select = cursor.fetchall()
            # 如果已经爬取过，则跳过
            if len(result_select) != 0 and len(detail_list) != c_count:
                continue

            # 如果没有获取过，则爬取数据
            poi_detail = self._get_poi_detail(link)
            # 将爬取到的信息暂存
            poi_detail['name'] = name
            poi_detail['poi_id'] = poi_id
            detail_list.append(poi_detail)
            logging.info('详情爬取成功 ' + str(poi_id) + ' ' + name)
            print('详情爬取成功 ' + str(poi_id) + ' ' + name)
            c_count += 1
            # 防止请求过快被拒绝
            time.sleep(0.3)
            # 如果暂存数据达到要求，则保存进数据库
            if len(detail_list) >= save_count or len(detail_list) == c_count:
                sql = "INSERT IGNORE INTO poi_detail(poi_id, name, mdd, enName, commentCount, description, tel, site, time, traffic, ticket, openingTime, location) \
                        VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s);"
                params = []
                for det in detail_list:
                    params.append((
                        det['poi_id'],
                        det['name'],
                        det['mdd'],
                        det['enName'],
                        det['commentCount'],
                        det['description'],
                        det['tel'],
                        det['site'],
                        det['time'],
                        det['traffic'],
                        det['ticket'],
                        det['openingTime'],
                        det['location'],
                    ))
                try:
                    cursor.executemany(sql, params)
                    db.commit()
                    print('成功保存 ' + str(len(params)) + ' 条数据')
                except Exception as e:
                    logging.error(e)
                    # 如果发生错误则回滚
                    db.rollback()
                # 清空暂存的数据
                detail_list = []

    def _get_route(self, mdd_id, page=1):
        '''
        获取景点信息
        '''
        post_data = self._md5({
            'sAct': 'KMdd_StructWebAjax|GetPoisByTag',
            'iMddid': mdd_id,
            'iTagId': 0,
            'iPage': page
        })
        r = self.REQ.post(self.URL_ROUTE, data=post_data)
        if r.status_code == 403:
            exit('访问被拒绝')
        response = r.json()
        list_data = response['data']['list']
        page_data = response['data']['page']
        # 解析景点列表数据
        soup = BeautifulSoup(list_data, "html.parser")
        route_list = soup.find_all('a')
        result = []
        for route in route_list:
            link = route['href']
            route_id = re.findall(r'/poi/(.*?).html', link)
            name = route['title']
            image = route.find('img')['src'].split('?')[0]
            result.append({
                'poi_id': int(route_id[0]),
                'name': name,
                'image': image,
                'link': 'http://www.mafengwo.cn'+link,
            })
        # 解析分页数据
        soup_page = BeautifulSoup(page_data, "html.parser")
        page = int(soup_page.find('span', class_='count').find('span').text)

        for i in result:
            poi = self._get_poi(i['poi_id'])
            retry = 0
            while ('lat' not in poi or 'lng' not in poi) and retry < 6:
                # 如果当前请求没获取到相关信息，则等一下再获取
                logging.debug('Wait 0.3s. Get poi info fail. ' + i['name'])
                time.sleep(0.3)
                poi = self._get_poi(i['poi_id'])
                retry += 1
            i['lat'] = poi['lat'] if 'lat' in poi else None
            i['lng'] = poi['lng'] if 'lng' in poi else None
            i['type'] = poi['type'] if 'type' in poi else None
            i['is_cnmain'] = 1 if 'is_cnmain' in poi and poi['is_cnmain'] else 0
            i['country_mddid'] = poi['country_mddid'] if 'country_mddid' in poi else None

            logging.info(i)
            print(i['poi_id'], i['name'])

        # 返回当前页列表数据和总页数
        return {
            'list': result,
            'pagecount': page
        }

    def _get_poi(self, poi_id):
        '''
        获取景点经纬度信息
        '''
        payload = self._md5({
            'params': {
                'poi_id': poi_id
            }
        })
        # 获取数据
        r = self.REQ.get(self.URL_POI, params=payload)
        if r.status_code == 403:
            exit('访问被拒绝')
        try:
            controller_data = r.json()['data']['controller_data']
            poi = controller_data['poi']
            return poi
        except Exception:
            return {}

    def _get_poi_detail(self, url):
        '''
        获取景点详细信息
        !! 注意，传入的景点 url 的 type 必须为 3

        爬取信息：
        - 目的地 ✅ mdd
        - 英文名 ✅ enName
        - 蜂蜂点评数 ✅ commentCount
        - 简介 ✅ description
        - 电话、网址、用时参考 ✅ tel site time
        - 交通、门票、开放时间 ✅ traffic ticket openingTime
        - 景点位置 ✅ location

        '''
        # 爬取页面
        r = self.REQ.get(url)
        if r.status_code == 403:
            exit('访问被拒绝')
        # 解析 HTML 获取信息
        soup = BeautifulSoup(r.text, "html.parser")
        # 获取目的地
        try:
            _mdd = soup.find('div', attrs={'class': 'crumb'}).find_all('a')[
                1].text
        except Exception:
            _mdd = '获取失败'
        # 获取英文名
        try:
            _en_name = soup.find('div', attrs={'class': 'en'}).text
        except Exception:
            _en_name = '获取失败'
        # 获取蜂蜂点评数
        try:
            _comment_count = soup.find('a', attrs={'title': '蜂蜂点评'}).find(
                'span').text.replace('（', '').replace('）', '').replace('条', '')
        except Exception:
            _comment_count = '获取失败'
        # 获取简介
        try:
            _description = soup.find(
                'div', attrs={'class': 'summary'}).get_text("\n", strip=True)
        except Exception:
            _description = '获取失败'
        # 获取电话、网址、用时参考
        try:
            _tel = soup.find('li', attrs={'class': 'tel'}).find(
                'div', attrs={'class': 'content'}).text
            _site = soup.find(
                'li', attrs={'class': 'item-site'}).find('div', attrs={'class': 'content'}).text
            _time = soup.find(
                'li', attrs={'class': 'item-time'}).find('div', attrs={'class': 'content'}).text
        except Exception:
            _tel = '获取失败'
            _site = '获取失败'
            _time = '获取失败'
        # 获取交通、门票、开放时间
        try:
            detail = soup.find(
                'div', attrs={'class': 'mod mod-detail'}).find_all('dd')
            _traffic = detail[0].get_text("\n", strip=True)
            _ticket = detail[1].get_text("\n", strip=True)
            _opening = detail[2].get_text("\n", strip=True)
        except Exception:
            _traffic = '获取失败'
            _ticket = '获取失败'
            _opening = '获取失败'
        # 获取景点位置
        try:
            _location = soup.find(
                'div', attrs={'class': 'mod mod-location'}).find('p').text
        except Exception:
            _location = '获取失败'

        return {
            'mdd': _mdd,
            'enName': _en_name,
            'commentCount': _comment_count,
            'description': _description,
            'tel': _tel,
            'site': _site,
            'time': _time,
            'traffic': _traffic,
            'ticket': _ticket,
            'openingTime': _opening,
            'location': _location
        }

    def _get_md5_encrypted_string(self):
        '''
        获取 MD5 加密 _sn 时使用的加密字符串
        每个实例只调用一次
        '''
        # 以北京景点为例，首先获取加密 js 文件的地址
        url = 'http://www.mafengwo.cn/jd/10065/gonglve.html'
        r = self.REQ.get(url)
        if r.status_code == 403:
            exit('访问被拒绝，请检查是否为IP地址被禁')
        param = re.findall(
            r'src="http://js.mafengwo.net/js/hotel/sign/index.js(.*?)"', r.text)
        param = param[0]
        # 拼接 index.js 的文件地址
        url_indexjs = 'http://js.mafengwo.net/js/hotel/sign/index.js' + param
        # 获取 index.js
        r = self.REQ.get(url_indexjs)
        if r.status_code == 403:
            exit('访问被拒绝')
        response_text = r.text
        # 查找加密字符串
        result = re.findall(r'var __Ox2133f=\[(.*?)\];', response_text)[0]
        byteslike_encrypted_string = result.split(',')[46].replace('"', '')
        # 解码
        strTobytes = []
        for item in byteslike_encrypted_string.split('\\x'):
            if item != '':
                num = int(item, 16)
                strTobytes.append(num)
        # 转换字节为字符串
        encrypted_string = bytes(strTobytes).decode('utf8')
        self.encrypted_string = encrypted_string
        return encrypted_string

    def _stringify(self, data):
        """
        将 dict 的每一项都变成字符串
        """
        data = sorted(data.items(), key=lambda d: d[0])
        new_dict = {}
        for item in data:
            if type(item[1]) == dict:
                # 如果是字典类型，就递归处理
                new_dict[item[0]] = json.dumps(
                    self._stringify(item[1]), separators=(',', ':'))
            else:
                if type(item[1]) == list:
                    # 如果是列表类型，就把每一项都变成字符串
                    new_list = []
                    for i in item[1]:
                        new_list.append(self._stringify(i))
                    new_dict[item[0]] = new_list
                else:
                    if item[1] is None:
                        new_dict[item[0]] = ''
                    else:
                        new_dict[item[0]] = str(item[1])
        return new_dict

    def _md5(self, data):
        '''
        获取请求参数中的加密参数，_ts 和 _sn
        '''
        _ts = int(round(time.time() * 1000))
        data['_ts'] = _ts
        # 数据对象排序并字符串化
        orderd_data = self._stringify(data)
        # md5 加密
        m = hashlib.md5()
        m.update((json.dumps(orderd_data, separators=(',', ':')) +
                  self.encrypted_string).encode('utf8'))
        _sn = m.hexdigest()
        # _sn 是加密后字符串的一部分
        orderd_data['_sn'] = _sn[2:12]
        return orderd_data

    def _get_mdd(self):
        '''
        获取目的地信息，只能获取到国内部分热门目的地
        暂时没用到
        '''
        # 获取网页源代码
        r = self.REQ.get(self.URL_MDD)
        if r.status_code == 403:
            exit('访问被拒绝')
        response_text = r.text
        # 解析 HTMl
        soup = BeautifulSoup(response_text, "html.parser")
        # 获取国内热门目的地
        hot_mdd_homeland = soup.find('div', class_='hot-list clearfix')
        # 获取目的地链接
        hot_mdd_homeland_list = hot_mdd_homeland.find_all('a')
        # 保存目的地链接、目的地 ID和目的地名称
        result = []
        for mdd in hot_mdd_homeland_list:
            link = mdd['href']
            mdd_id = re.findall(
                r'/travel-scenic-spot/mafengwo/(.*?).html', link)
            if len(mdd_id) == 1 and mdd_id[0] != '':
                # 过滤部分没有 ID 的景点
                result.append({
                    'mdd_id': int(mdd_id[0]),
                    'name': mdd.text,
                    'link': 'http://www.mafengwo.cn'+link,
                })
        return result

    @classmethod
    def _read_log_file_get_success_page(self, log_file):
        '''读取日志文件，获取爬取成功的页码'''
        result = []
        for file_name in log_file:
            f = open(file_name)
            line = f.readline()
            while line:
                res = re.findall(r'page success: (.*?)$', line)
                if len(res) > 0:
                    result.append(int(res[0]))
                line = f.readline()
        result.sort()
        # 返回爬取成功的页码
        return list(set(result))


if __name__ == '__main__':
    # # 正常爬取
    # ins = MafengwoCrawler()
    # ins.crawler_mdd()

    # # 跳过上次爬取成功的页面
    # # 日志文件在目录中查找，自己添加到数组里
    # ins = MafengwoCrawler(log_file=[...])
    # ins.crawler_mdd()

    # 爬取景点详情到数据库
    ins = MafengwoCrawler()
    ins.crawler_detail()

    pass

数据归档方案（带流程图）别逼逼！出马吧！持久层操作功能实现
需求背景：最近两天新开发了一个功能由于热表中存储数据较多导致插入查询缓慢，所以要求做数据归档需求：以年为单位进行归档，但每个归档表又存在一个阈值方案可以使用定时调用下图为实现思路（流程图）：1.首先判断年度归档表是否存在，不存在则创建归档表把数据进行归档2.存在则判断表中数据是否超过阈值，没超过则直接进行归档3.若超过阈值则需要判断是否存在归档的子表，不存在则创建子表进行归档4.存在则重复上述操作
springboot与日志最后的夏t
日志1、日志框架小张；开发一个大型系统；1、System.out.println("")；将关键数据打印在控制台；去掉？写在一个文件？2、框架来记录系统的一些运行时信息；日志框架；zhanglogging.jar；3、高大上的几个功能？异步模式？自动归档？xxxx？zhanglogging-good.jar？4、将以前框架卸下来？换上新的框架，重新修改之前相关的API；zhanglogging-p
Oracle（125）如何执行不完全恢复？辞暮尔尔-烟火年年 Oracle oracle 数据库
不完全恢复（IncompleteRecovery）是指将Oracle数据库恢复到一个特定时间点、SCN（系统变更号）或取消点，而不是恢复到最近的备份后的最新状态。以下是详细的步骤和代码示例，展示如何执行不完全恢复。准备工作备份控制文件：确保你有控制文件的备份。备份数据文件：确保你有数据文件的备份。备份归档日志：确保你有最新的归档日志。不完全恢复的基本步骤关闭数据库：确保数据库处于关闭状态。启动数据
android 发一个可以下载的的android studio历史版本花花鱼 android android studio android ide
1、AndroidStudio下载文件归档|AndroidDevelopers2、上个图：
linux运维常见命令行问道飞鱼运维 linux 服务器
文章目录用户管理创建用户修改用户信息列出用户信息添加用户到组删除用户创建和管理组查看用户和组的信息其他相关命令文件管理文件和目录的基本操作文件权限管理文件压缩和归档磁盘管理查看磁盘使用情况查看文件和目录的磁盘使用情况磁盘分区管理挂载和卸载文件系统磁盘配额管理LVM（LogicalVolumeManager）管理网络管理查看网络接口状态配置网络接口查看和管理路由表管理DNS和主机名网络诊断工具网络流
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
2019-03-13课堂笔记山有木兮_8adb
|Day10||作者：赵心驰归档：课堂笔记时间：2019/3/13||快捷键：Ctrl+1标题1Ctrl+2标题2Ctrl+3标题3Ctrl+4标题4Ctrl+5程序代码Ctrl+6正文Ctrl+7实例1-1||格式说明：蓝色字体：注释黄色背景：重要绿色背景：注意|老男孩教育教学核心思想6重：重目标、重思路、重方法、重实践、重习惯、重总结学无止境，老男孩教育成就你人生的起点！联系方式:|网站运维*
Parastoo Font 开源项目安装与使用教程郁俪晟Gertrude
ParastooFont开源项目安装与使用教程parastoo-font(Discontinued)-APersian(Farsi)Font-فونت(قلم)فارسیپرستو项目地址:https://gitcode.com/gh_mirrors/pa/parastoo-font1.项目目录结构及介绍ParastooFont是一个已不再维护的波斯语（Farsi）字体项目。尽管该项目已被归档，我
关于centos7仓库归档导致yum源更新失败问题Could not retrieve mirrorlist http://mirrorlist.centos.org?arch=x86_64 飘然渡沧海自己新建项目遇到问题 linux centos
关于centos7仓库归档导致yum源更新失败问题，报错Loadedplugins:fastestmirrorDeterminingfastestmirrorsCouldnotretrievemirrorlisthttp://mirrorlist.centos.org?arch=x86_64&release=7&repo=sclo-rherrorwas14:curl#6-"Couldnotreso
linux归档和压缩的区别,文件的归档和压缩星瀚Air linux归档和压缩的区别
文件的归档和压缩•一、tar命令使用•二、其他压缩方式•三、进程管理基本概念。前言：本节主要介绍文件的归档和压缩相关方法。归档和压缩有利于linux系统中文件的管理和磁盘空间的利用，善于利用归档和压缩能为我们工作中带来很多便捷。另外将简单介绍进程的一些概念，方便下一节进程管理内容的学习。一、tar命令使用(tar命令用于文件的打包和压缩)1：tar命令的归档与解压1.1:tar命令对文件的归档ta
Linux文件归档与压缩命令犇羴骉鱻 Linux linux 服务器运维
一、压缩与解压命令1、gzip/gunzip/zcat gzip[OPTION]FILE -d解压缩，相当于gunzip -#指定压缩比，默认值为6，值越大压缩比越大，可选区间1-9 -c保留原文件 gzip-cfile_name>file_name.gz 压缩： gzipFILE_NAME(FILE_NAME是要压缩的文件名) 解压： gunzipFILE_NAME.gz
文件的归档和压缩跻峰造极服务器 linux 网络
tar命令进行文件的归档和压缩归档和压缩文件归档和压缩文件的好处：节约硬盘的资源，加快文件传输速率tar命令作用：打包、压缩文件作用：打包、压缩文件；tar文件是把几个文件和（或）目录集合在一个文件里，该存档文件可以通过使用gzip、bzip2或xz等压缩工具进行行压缩后传输查看mantar用法：tar[OPTION...][FILE]...参数：-ccreate创建文件-x-extract[ˈe
Linux系统下tar包的压缩和解压缩拼搏的大叔
tar-c:建立压缩档案-x：解压-t：查看内容-r：向压缩归档文件末尾追加文件-u：更新原压缩包中的文件以上五个是独立的命令参数，压缩解压都要用到其中一个，可以和别的命令连用但只能用其中一个。下面的参数是根据需要在压缩或解压档案时可选的。-z：有gzip属性的gz-j：有bz2属性的bz2-J：有xz属性的xz-Z：有compress属性的-v：显示所有过程-O：将文件解开到标准输出下面的参数-
最受DBA欢迎的250篇学习文档_dba学习资料 2401_84281638 程序员 dba 学习数据库
├──Oracle+数据库表空间扩容v1.5.pdf├──Oracle+数据库归档日志清理v1.5.pdf├──Oracle+数据库静态参数修改v1.5.pdf├──Oracle+数据库索引创建及重建v1.5.pdf├──Oracle+数据库用户创建及属性修改v1.5.pdf├──Oracle+在不同的场景下选择最合适的性能诊断工具.pdf├──Oracle19c+RAC+for+Centos7.
Oracle数据库的RMAN备份与恢复一心只为学数据库 oracle
OracleRMAN备份恢复1.什么是RMANRMAN在数据库服务器的帮助下实现数据库文件、控制文件、数据库文件和控制文件的映像副本，以及归档日志文件，数据库服务器参数文件的备份。RMAN也允许使用脚本文件实现数据的备份与恢复，而且这些脚本保存在数据库内，而不需要编写基于OS的脚本文件。RMAN备份的文件自动保存在一个系统指定的目录下，文件的名称也由RMAN自己维护。当实现数据库恢复操作时，恢复指
PostgreSQL分区表胖胖小李胡 postgresql 数据库
一、分区表的作用1.将数据按指定的方法打算到子分区，提高SQL性能。2.解决时序类、流水类业务大表在进行老旧数据清理时delete引起的性能及磁盘空间碎片问题。3.利用子分区卸载、重新挂载功能，对数据进行暂时性的隐藏、维护。4.数据归档治理业务场景：定期增加子分区、定期删除不需要的子分区来对数据进行滑窗处理，保持业务系统瘦身。5.添加子分区对业务透明，业务逻辑上只需要访问父表即可。二、业务场景举例
Python世界：文件自动化备份实践来知晓 Python世界 python 自动化 linux
Python世界：文件自动化备份实践背景任务实现思路坑点小结背景任务问题来自《简明Python教程》中的解决问题一章，提出实现：对指定目录做定期自动化备份。最重要的改进方向是不使用os.system方法来创建归档文件，而是使用zipfile或tarfile内置的模块来创建它们的归档文件。——《简明Python教程》本文在其第4版示范代码基础上，尝试采用内部python自带库zipfile的方式，实
linux 删除ORACLE数据库归档日志脚本 ThinkerFuther linux 服务器数据库
#!/bin/bashecho"----------------------------------------`date`---------------------------------------"source~/.bash_profilermantarget/>>delarchive.log<
2019-7-15晨间日记山石记
今天是什么日子起床：6:15就寝：22:57天气：十堰晴朗心情：好纪念日：和爸爸一起铺房顶墙纸今日三只青蛙/番茄钟1、不忘初心牢记使命专题调研安排及通知2、党建事业计划月度工作及评价结果3、已完成工作梳理归档成功日志-记录三五件有收获的事务1、周末在家跟队友一起对儿子房间的房顶进行修补，一直持续了有一个多小时，是我们共同完成一件事情的美好回忆积累。中间为了记录队友的辛苦，我一边给他扶椅子一边给他拍
忙碌的工作日轻争
最近比较忙。清早6点多起床，7点从家出发，把孩子送到学校后去单位，然后就是一整天的忙碌。各种整理归档、制度起草、材料上报、电话咨询、电子系统推进完善工作……中午可以午休一会儿，之后一直忙到下午5点半下班，接孩子回到家就6点半了（来回路上让孩子练英语听力），吃完饭整理收拾一下就7点半了，只有50分钟的跑步时间是自由而奢侈的，之后开始家教辅导时间，一直到10点多，昨晚孩子作业有点多，又有点拖沓，一直写
合同比对工具在法律行业中有哪些具体应用场景？合合信息解决方案合同比对法律
在法律行业中，合同管理是日常工作的核心部分，涉及到合同的起草、审核、修改、比对和归档等环节。自动化的合同比对工具不仅可以提高法务工作的效率和准确性，从而帮助企业规避法律风险，保护企业的合法权益。从法律角度来看，合同比对在法务的工作中有以下应用场景：1.确保合同一致性：法律专业人士需要确保合同的各个版本之间保持一致性。任何微小的变更都可能对合同的法律效力和双方的权利义务产生重大影响。2.合同修订管理
day 13 关闭SElinux Linux_淡忘
Day13作者：翟玉龙归档：命令笔记2019/3/18快捷键：Ctrl+1标题1Ctrl+2标题2Ctrl+3标题3Ctrl+4实例Ctrl+5程序代码Ctrl+6正文格式说明：蓝色字体：注释黄色背景：重要绿色背景：注意老男孩教育教学核心思想6重：重目标、重思路、重方法、重实践、重习惯、重总结学无止境，老男孩教育成就你人生的起点！联系方式:网站运维QQ交流群：Linux385168604架构师39
达梦数据库系列—13. 数据库的备份和还原奥德彪的蕉达梦数据库 oracle sql
目录1、配置归档1.1联机配置归档手动配置归档2、联机数据库备份完全备份增量备份3、联机备份管理添加备份目录删除备份目录备份信息查看监控备份4、脱机DMRMAN备份数据库dmrman的配置完全备份增量备份归档备份5、脱机备份管理备份集查看备份集校验备份集删除6、还原数据库7、数据库恢复从备份集恢复从归档恢复恢复数据库到指定lsn更新DB_MAGIC8、增量备份还原恢复1、配置归档1.1联机配置归档
k8s笔记 | helm包管理你的代码我的心 p2p linq gnu
什么是Helmkubenetes包管理器，是查找，分享和使用软件构件kubernetes的最佳方式；可以做什么从头开始创建新的chart将chart打包成归档(tgz)文件与存储chart的仓库进行交互与现有的kubernates集群中安装和卸载chart管理与Helm一起安装的chart的发布周期三个重要概念chart创建kubernates应用程序所必须的一组信息config包含了可以合并的c
Maven工程配置logback打印日志 zyb5255 Maven logback pom.xml
Maven工程配置logback打印日志logback.xml配置：%d{yyyy-MM-ddHH:mm:ss}[%thread]%-5level%logger-%msg%nERRORACCEPTDENY${log_dir}/%d{yyyy-MM-dd}/error-log.log是6，则只保存最近6个月的文件，删除之前的旧文件。注意，删除旧文件是，那些为了归档而创建的目录也会被删除-->${ma
如何在 Linux 服务器上安装部署 Jenkins，并构建自动化测试任务兰若姐姐 linux jenkins 运维
下面是以centos举例，详细告诉大家如何搭建jenkins进行自动化代码的持续集成环境准备更新系统包sudoyumupdate-y2.安装依赖工具Jenkins需要Java环境(1)先下载java安装包wgethttps://download.oracle.com/java/21/latest/jdk-21_linux-x64_bin.tar.g(2)解压缩归档文件下载完成后，使用以下命令解压缩
Linux基础操作之文件从压缩到编辑小橞 linux 运维
归档及压缩归档：将许多小的零件整理为一个文件文件总大小不变压缩：按照某种算反将文件占用空间减小文件总大小不变Linux压缩格式gzip----->.gz速度最快比例最大（大部分情况）bzip2----->.bz2中xz------>.xz速度最慢比列最小数据压缩工具tar-c：创建归档-x：释放归档-f：指定归档文件名称（必须在所有选项的最后）-z、-j、-J：调用.gz、.bz2、.xz格式的工
深入理解Spring Boot日志框架与配置一休哥助手 Spring spring boot 后端
目录SpringBoot日志框架概述SpringBoot默认日志框架：Logback日志配置文件日志级别的调整日志输出配置日志格式化日志轮转和归档集成其他日志框架日志管理工具最佳实践总结SpringBoot日志框架概述SpringBoot支持多种日志框架，如Logback、Log4j2和JavaUtilLogging(JUL)。其中，Logback是SpringBoot默认使用的日志框架。Spri
日志系统的改进与优化 Crazy learner C++与python编程开发语言 C语言
目录日志文件按日期生成总结与展望链接:基于C语言实现的跨平台日志系统详解在之前的日志系统实现中，我们使用了一个固定的日志文件来记录所有日志信息。然而，这样的设计在长时间运行的应用中会导致日志文件过于庞大，难以管理。为了改进这一问题，我们对日志系统进行了优化，使其能够每天生成一个新的日志文件，按日期对日志进行归档。这种设计不仅便于管理日志文件，还可以让开发者更容易追踪和分析特定日期的日志信息。日志文
超详细open vn搭建之Linux亲测可用凌晨两点钟同学积累 linux 运维服务器
目录1安装2配置2.1CA证书2.2Server证书2.3客户端证书2.4归档证书3配置3.1配置服务端3.2windows客户端配置前言：open不符合博客内容要求，所以标题不对。VPN直译就是虚拟专用通道，是提供给企业之间或者个人与公司之间安全数据传输的隧道，OpenVPN无疑是Linux下开源VPN的先锋，提供了良好的性能和友好的用户GUI。1安装（1）配置epel源mkdir/tmp/op
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

【归档】爬取马蜂窝景点信息（含源代码）

你可能感兴趣的:(归档)