简说Python

教科书式爬虫：由浅入深爬取丁香园

前言

X先生最近太忙了，昨天刚刚完成数学建模比赛（过程很复杂，很辛酸），明天或后天给大家分享数学建模掉头发的故事，马上上课，天天几乎满课，时间真的滴滴答答的在走，恐慌和抱怨是没什么用了，X先生后面会更加努力，写出更多好的原创，清华大学出版社小姐姐送的数据挖掘十大算法可能是后面学习的重点，另外定个小目标：边学边敲边记这周至少更新两篇，这几天就转发分享给大家一些比较好的大佬的原创啦~（我也有偷偷在学他们敲代码的思想哦）

今天给大家分享的是一位研一学长写的爬取丁香园用户信息由浅入深的博文，认真读完本文需要30分钟左右，分为两部分：浅+深，大家可以收藏，分时间段阅读。

第一部分：浅

0.写在前面

(1)目标页面

http://i.dxy.cn/profile/yilizhongzi

(2)目的

爬取丁香园用户主页的信息，这些信息如下图字段:

爬取字段图

也就是从用户主页提取这些数据，那么我们开始实战！

1.分析页面

分析页面图

我们需要爬取的信息就是上述图中侧边栏信息，它对应的源码如图中红色方框所示！

思路

第一步：获取页面源码
第二步：通过xpath解析对应数据，并存储为字典格式
第三步：存储至MongoDB数据库，并利用可视化工具导出csv文件
第四步：存储至excel中(或csv文件)中

2.获取页面源码

def get_html(self):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    req = requests.get(self.url, headers=headers).text
    # print(req)
    return req

3.解析数据

xpath解析方法

以下面实际例子为例：

谷歌浏览器右键检查，页面分析源码，找到如下图的div，然后会发现class="follows-fans clearfix"里面包含这三个关注、粉丝、丁当相关信息。

那么通过xpath解析即可获取到相应的数据。具体的xpath语法，请参看网上资料，此处不做详细解释。只对相应语句添加相应注释。认真看注释！！！

元素提取图

'''
满足class值的div下面的所有p标签的text()属性，因为上述第一个p标签下面还有a标签，所有这里直接取的就是关注/粉丝/丁当这些字符串，每个对应的值28/90/1128,通过进一步定位到a标签进行解析。参看第二行代码。
'''
force_fan_dd_key = selector.xpath('//div[@class="follows-fans clearfix"]//p/text()')
force_fan_dd_value = selector.xpath('//div[@class="follows-fans clearfix"]//p/a/text()')

下面对获取用户信息进行封装

import requests
from lxml import etree
def get_UserInfo(self):
    raw_html = self.get_html()
    selector = etree.HTML(raw_html)
    key_list = []
    value_list = []
    force_fan_dd_key = selector.xpath('//div[@class="follows-fans clearfix"]//p/text()')
    force_fan_dd_value = selector.xpath('//div[@class="follows-fans clearfix"]//p/a/text()')
    for each in force_fan_dd_key:
        key_list.append(each)
    for each in force_fan_dd_value:
        value_list.append(each)

    UserInfo_dict = dict(zip(key_list, value_list))  # 两个list合并为dict
    # print(UserInfo_dict) # {'关注': '28', '粉丝': '90', '丁当': '1128'}

    user_home = selector.xpath('//p[@class="details-wrap__items"]/text()')[0]
    user_home = user_home.replace(',', '')  # 去掉逗号,否则使用MongoDB可视化工具导出csv文件报错！

    # print(user_home)
    UserInfo_dict['地址'] = user_home
    user_profile = selector.xpath('//p[@class="details-wrap__items details-wrap__last-item"]/text()')[0]
    UserInfo_dict['座右铭'] = user_profile
    # print(UserInfo_dict)
    # 帖子被浏览
    article_browser = selector.xpath('//li[@class="statistics-wrap__items statistics-wrap__item-topic fl"]/p/text()')
    UserInfo_dict[article_browser[0]] = article_browser[1]
    # 帖子被投票
    article_vote = selector.xpath('//li[@class="statistics-wrap__items statistics-wrap__item-vote fl"]/p/text()')
    UserInfo_dict[article_vote[0]] = article_vote[1]
    # 帖子被收藏
    article_collect = selector.xpath('//li[@class="statistics-wrap__items statistics-wrap__item-fav fl"]/p/text()')
    UserInfo_dict[article_collect[0]] = article_collect[1]
    # 在线时长共
    onlie_time = selector.xpath('//li[@class="statistics-wrap__items statistics-wrap__item-time fl"]/p/text()')
    UserInfo_dict[onlie_time[0]] = onlie_time[1]
    # print(UserInfo_dict)
    return UserInfo_dict

4.数据存储及导出

4.1 数据存储

import pymongo
MONGO_URI = 'localhost'
MONGO_DB = 'test' # 定义数据库
MONGO_COLLECTION = 'dxy' # 定义数据库表
def __init__(self, user_id, mongo_uri, mongo_db):
    self.url = base_url + user_id # 这行代码与数据存储无关
    self.client = pymongo.MongoClient(mongo_uri)
    self.db = self.client[mongo_db]
def Save_MongoDB(self, userinfo):
    self.db[MONGO_COLLECTION].insert(userinfo)
    self.client.close()

MongoDB可视化工具：MongoDB Compass Community

MongoDB可视化工具图

安装好后，每次打开会提示连接数据库，这里就是不变动任何信息，直接点CONNECT即可！

注意一个区别：Collection就是数据库的表！如下图就是test数据库中的dxy表。

MongoDB存储结果图

4.2 数据导出

选择左上角的Collection->Export Collection，然后弹出如下图的框，选择导出格式及存储文件路径，保存即可！

导出结果

MongoDB导出结果图

5.pandas实现导出

import pandas as pd
def Sava_Excel(self, userinfo):
    key_list = []
    value_list = []
    for key, value in userinfo.items():
        key_list.append(key)
        value_list.append(value)
    key_list.insert(0, '用户名') # 增加用户名列
    value_list.insert(0, user) # 增加用户名
    # 利用pandas进行导出
    data = pd.DataFrame(data=[value_list], columns=key_list)
    print(data)
    '''
    表示以用户名命名csv文件，并去掉DataFame序列化后的index列(这就是index=False的意思)，并以utf-8编码，
    防止中文乱码。
    注意：一定要先用pandas的DataFrame序列化后，方可使用to_csv方法导出csv文件！
    '''
    data.to_csv('./' + user + '.csv', encoding='utf-8', index=False)

6.面向对象封装

最后，采用面向对象思想对上述代码进行封装，什么是面向对象？问问你的对象吧，想查看源代码的可以在本公众号内回复：丁香园。

第二部分：深

0.写在前面

【高能预警】本节你可以学会什么？

第一：lxml及xpath使用
第二：模拟登陆处理
第三：多页面处理
第四：MongoDB存储
第五：使用pandas存储数据到csv
第六：数据下载
第七：列表、字典处理
第八：面相对象思想
第九：正则啊等等。。。。

【异常处理】

对于上一节的爬虫，只是做了个简单的数据爬取及存储，但是当遇见不同的个人主页时，代码就会报错，数据就会错落，为了更好的解决这个问题，本节即对上节代码进行优化及异常处理。

【bbs数据提取】

除了对代码异常处理之外，还需要使得我们的代码更加智能化，我们本次实现的功能是：随便传入一个类似的bbs链接，即可获取到当前bbs里面的所有的回复用户的用户数据，从这个需求中我们提取中两个关键点。

第一：爬取bbs里面的回复用户；
第二：爬取用户数据；

第二点上节基本上已经实现，那么重点放在第一点的讲解及异常处理等。好了，废话不多说，开始实战！

【项目目录】

├─data
    这里面存放每个用户的头像
├─each
      这里面存放每个用户的csv数据
├─raw_demo
      dxy_raw_profile.py # 上一节的爬取用户主页代码
all.csv # 这个是生成的文件，代码运行后才有，是对each里面的所有csv文件的集合
bbs_genspider.py # bbs论坛代码
dxy_profile.py # 用户主页代码最后运行只需运行这个即可，记得替换raw_id = '3927842'

【项目使用】

根据上述项目目录修改raw_id,除此之外，需要本地安装mongodb,并创建数据库名为test,collection为dxy,记得运行前修改bbs_genspider.py里面的cookie,最后运行dxy_profile.py即可。

1.原理分析

先来看一下我们爬取的网站长什么样子？

bbs论坛

bbs论坛图

用户个人主页

用户个人主页图

以上就是我们要爬取的目标站点。

对于第一张图，红色框图标注出来都就是我们想要爬取的目标用户，除了我标注的，bbs还有其他人的回复，由于上图的楼主回复的太多，图片截不出后面其他回复用户，大家可以根据图一中的url进行检验。

【第一个问题】

那么现在问题来了，是不是我直接爬取那个bbs(如图1)的url，定位到左侧边栏的每一个用户，找到对应的用户名就可以了？

答：答案是对的，确实如此解决，我们上一节知道如图2所示，用户主页为http://i.dxy.cn/profile/用户名，那么只要替换不同的用户名，便可以实现多个用户的爬取，哈哈，终于有数据了~~~

现在是时候轮到bbs发话了，那么问题又来了，如何从bbs中爬取相应的用户名呢？不着急，我们看图说话！

爬取用户名图

【第二个问题】

看出什么端倪了？

答：只要我们利用xpth定位到a标签的text()值,便可以迎刃而解了~~~

【第三个问题】

最后代码爬取完，发现怎么数据这么少呢？

答：结果发现是用户未登陆，那么你只能爬到几个数据，可是我要做研究啊，没数据，怎么搞，接下来就是模拟登陆上场了，这里的模拟登陆没有那种高大上的selenuim，也没有Session(), 而是采用了最为低调的requests添加cookie方式。

【第四个问题】

最后会发现还是觉得数据少啊，发现这个bbs有多页面，这个又该如何处理呢？

答：那么我们不妨尝试一下，点击下一页，看有什么规律嘛，果不其然，被我瞄到了~~~我们看图说话

注意：下图中的链接为bbs链接！

bbs链接图

每变动一页，会发现在id后面多了个?ppg=6，我们会发现此处的6正是页数，我们再来看一张图：

多页面分析图

那么只需要通过xpath定位到

下面的最后一个a标签即可，这个规律为从打开多个bbs链接中发现的！

【第五个问题】

但是当单页面时候，它就不会有这个

，更不会有a标签，此时代码肯定报错，那么这个怎么能难倒我呢？

答：直接做个异常处理，然后设置page为1即可解决！

2.代码实现

2.1 爬取bbs

bbs的url前缀

base_url = 'http://www.dxy.cn/bbs/topic/' # 在类外面

封装成类

class bbs_genspider(object):
def __init__(self, id):
self.url = base_url + id # 与base_url拼接成真实地址

获取html页面(注意填写自己的cookie!)

def get_html(self):
        headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Encoding': 'gzip, deflate',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Cache-Control': 'max-age=0',
            'Connection': 'keep-alive',
            'Cookie': '填写自己的cookie',
            'Host': 'www.dxy.cn',
            'Referer': 'https://auth.dxy.cn/',
            'Upgrade-Insecure-Requests': '1',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
        }
        req = requests.get(self.url, headers=headers).text
        return req

注意事项:填写自己的cookie，填写的是登陆成功后的cookie！

xpath解析

import requests
from lxml import etree
def get_BbsInfo(self):
        raw_html = self.get_html()
        selector = etree.HTML(raw_html)
        # 提取bbs标题
        bbs_title = selector.xpath('//table[@class="title tbfixed"]/tbody/tr/th/h1/text()')[0]
        bbs_title = bbs_title.strip() # 去除字符串左右的空格

        print(bbs_title)
        # 头像
        bbs_other_avater = selector.xpath('//td[@class="tbs"]//div[@class="avatar"]/div/span/a/img/@src')
        print(bbs_other_avater)
        # 用户名
        bbs_other_id = selector.xpath('//td[@class="tbs"]//div[@class="auth"]//a/text()')
        print(bbs_other_id)

           # 处理单页面异常！
        try:
            page = selector.xpath('//div[@class="pages"]/div[@class="num"]/a[last()]/text()')[0]
            print(page)
        except IndexError as e:
            page = 1

        '''
        到这里，我们得到了当前bbs的所有回复用户的信息
        bbs_other_avater  用户的头像地址
        bbs_other_id      用户的用户名
        page              页面数量
        '''
        return bbs_other_id,bbs_other_avater,page

注意事项：此处返回的数据为当前bbs的所有回复用户，那么问题来了，既然是回复用户，当然有些用户回复了很多次，相当于此处获得的是最原始的所有回复用户数据，那么如何去重呢？请往下看！

获取所有页面的Url

# 获取所有页面的Url
def get_AllPageUrl(self, raw_id):
    bbs = bbs_genspider(raw_id)
    bbs_other_id, bbs_other_avater, page = bbs.get_BbsInfo()
    page_list = []
    for i in range(1, int(page) + 1):
        page_url = raw_id + '?ppg=' + str(i)
        page_list.append(page_url)
    return page_list

bbs用户数据去重

# 删除重复的用户
def del_common(self, raw_id):
    page_list = self.get_AllPageUrl(raw_id)
    data_bbs = {}
    for url in page_list:
        bbs = bbs_genspider(url)
        bbs_id, bbs_avater, page = bbs.get_BbsInfo()
        bbs_data = dict(zip(bbs_id, bbs_avater))  # 两列表合并成字典
        for key in bbs_data:
            if key not in data_bbs:
                data_bbs[key] = bbs_data[key]

    bbs_id = []
    bbs_avater = []
    for key in data_bbs:
        bbs_id.append(key)
        bbs_avater.append(data_bbs[key])

    return bbs_id, bbs_avater

注意事项：get_BbsInfo()返回的id及avater都是列表，那么此处的去重就是解决上述问题的去重，也就是说list去重操作。这里采用的算法思想是通过zip()函数将两个list合并成字典，key为id，value为avater，那么现在问题就变为了字典去重，先定义一个新的字典，如果当前添加的数据不在新的字典里面，就往里面加，最后就得到了一个去重后的字典，对字典进行拆分为两个列表即可，返回后的两个列表就是我们最后所需要的数据。

为什么获取了头像地址呢，原因很简单，想下载到本地以供往后头像的选择！

【说在最后】

上述所有方法全部封装在类里面即可。

测试

raw_id = '12345'
bbs = bbs_genspider(raw_id)
bbs_id,bbs_avater = bbs.del_common(raw_id)
print("----------------------------------")
print(bbs_id)
print(len(bbs_id))
print(bbs_avater)
print(len(bbs_avater))

测试结果图

上述测试的是单页面，然后打www.dxy.cn/bbs/thread/12345,自己数一下(记得去重)，便跟上述打印的结果数量3一样！到这里便测试成功了！

2.2 用户个人主页

用户个人主页功能在上一节做了详细解释，这一节主要侧重于异常的处理及如何调用bbs代码，将bbs代码与个人主页代码结合使用。

上一节保持不变代码如下:

【基本框架】

import requests
from lxml import etree
import pymongo
import pandas as pd
from urllib.request import urlretrieve
from bbs_genspider import bbs_genspider
base_url = 'http://i.dxy.cn/profile/'
MONGO_URI = 'localhost'
MONGO_DB = 'test' # 定义数据库
MONGO_COLLECTION = 'dxy' # 定义数据库表
class dxy_spider(object):
    # 初始化
    def __init__(self, user_id, mongo_uri, mongo_db):
        self.url = base_url + user_id
        self.client = pymongo.MongoClient(mongo_uri)
        self.db = self.client[mongo_db]
    # 获取html
    def get_html(self):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
        }

        req = requests.get(self.url, headers=headers).text
        # print(req)
        return req
        def Save_MongoDB(self,userinfo):
        self.db[MONGO_COLLECTION].insert(userinfo)
        self.client.close()
    # 每个用户信息存储至csv文件
    def Sava_Excel(self, userinfo):
        key_list = []
        value_list = []
        for key, value in userinfo.items():
            key_list.append(key)
            value_list.append(value)
        key_list.insert(0, '用户名')  # 增加用户名列
        value_list.insert(0, user)  # 增加用户名
        data = pd.DataFrame(data=[value_list],columns=key_list)
        print(data)
        '''
           表示以用户名命名csv文件，并去掉DataFame序列化后的index列(这就是index=False的意思)，并以utf_8_sig编码，
           防止中文乱码。
           注意：一定要先用pandas的DataFrame序列化后，方可使用to_csv方法导出csv文件！
        '''
        data.to_csv('./each/' + user + '.csv', encoding='utf_8_sig', index=False)

注意：与上节相比，唯一变动的是data.to_csv('./' + user + '.csv', encoding='utf-8', index=False),修改为data.to_csv('./each/' + user + '.csv', encoding='utf_8_sig', index=False)，防止有些电脑打开csv文件乱码！

大改动如下：

【异常处理】

语法：

try:
xxxx
except Exception as e:
xxx

实战：

def get_UserInfo(self):
    raw_html = self.get_html()
    selector = etree.HTML(raw_html)
    key_list = []
    value_list = []
    force_fan_dd_key = selector.xpath('//div[@class="follows-fans clearfix"]//p/text()')
    force_fan_dd_value = selector.xpath('//div[@class="follows-fans clearfix"]//p/a/text()')

    if '关注' in force_fan_dd_key:
        for each in force_fan_dd_key:
            key_list.append(each)
        for each in force_fan_dd_value:
            value_list.append(each)
    else:
        key_list = ['关注', '粉丝', '丁当']
        value_list = ['无', '无', '无']
    UserInfo_dict = dict(zip(key_list, value_list))  # 两个list合并为dict
    # print(UserInfo_dict) # {'关注': '28', '粉丝': '90', '丁当': '1128'}
    try:
        user_home = selector.xpath('//p[@class="details-wrap__items"]/text()')[0]
        # user_home = user_home.replace(',','') # 去掉逗号,否则使用MongoDB可视化工具导出csv文件报错！
        user_home = user_home.replace(',', '，')  # 改变英文逗号为中文逗号，否则使用MongoDB可视化工具导出csv文件报错！
        print(user_home)
        UserInfo_dict['地址'] = user_home
    except IndexError as e:
        UserInfo_dict['地址'] = '无'
        print('地址缺少，报错！')

    try:
        user_profile = selector.xpath('//p[@class="details-wrap__items details-wrap__last-item"]/text()')[0]
        user_profile = user_profile.replace(',', '，')  # 改变英文逗号为中文逗号，否则使用MongoDB可视化工具导出csv文件报错！
        UserInfo_dict['座右铭'] = user_profile
    except IndexError as e:
        UserInfo_dict['座右铭'] = '无'
        print('座右铭缺少，报错！')
    # 帖子被浏览
    try:
        article_browser = selector.xpath(
            '//li[@class="statistics-wrap__items statistics-wrap__item-topic fl"]/p/text()')
        UserInfo_dict[article_browser[0]] = article_browser[1]
    except IndexError as e:
        UserInfo_dict['帖子被浏览'] = '0次'
        print('帖子被浏览缺少，报错！')

    # 帖子被投票
    try:
        article_vote = selector.xpath(
            '//li[@class="statistics-wrap__items statistics-wrap__item-vote fl"]/p/text()')
        UserInfo_dict[article_vote[0]] = article_vote[1]
    except IndexError as e:
        UserInfo_dict['帖子被投票'] = '0次'
        print('帖子被投票缺少，报错！')
    # 帖子被收藏
    try:
        article_collect = selector.xpath(
            '//li[@class="statistics-wrap__items statistics-wrap__item-fav fl"]/p/text()')
        UserInfo_dict[article_collect[0]] = article_collect[1]
    except IndexError as e:
        UserInfo_dict['帖子被收藏'] = '0次'
        print('帖子被收藏缺少，报错！')
    # 在线时长共
    try:
        onlie_time = selector.xpath(
            '//li[@class="statistics-wrap__items statistics-wrap__item-time fl"]/p/text()')
        UserInfo_dict[onlie_time[0]] = onlie_time[1]
    except IndexError as e:
        UserInfo_dict['在线时长共'] = '0次'
        print('在线时长共缺少，报错！')
    return UserInfo_dict

【解释】

这里采用异常处理原因如下：

异常结果图

上图我们发现壹刀的数据乱了，那么我们现在进入这个人的主页来看。浏览器输入http://i.dxy.cn/profile/壹刀，会发现重定向进入http://i.dxy.cn/lizhanqiang这个页面，如下图所示:

壹刀主页图

会发现这个已经不是我们想要的用户页面图了。。。所以自然那些数据爬取不到，就会报错。。这样就得加异常处理！如下图所示为加异常处理后的结果，会发现已经对齐！

正常结果图

异常处理前，数据不对齐，还有另外一种就是这个人的用户主页没了。。。对，没错就是404。。。

如：浏览器打开http://i.dxy.cn/ymyl，会看到下图所示页面，直接404了，自然没数据，没数据，自然报错，这就是异常处理的作用！

404页面图

2.3 bbs与用户主页联合使用

【下载头像】

def DownLoadUserAvater(self, bbs_avater, bbs_id):
urlretrieve(bbs_avater, './data/{0}.jpg'.format(bbs_id))

【程序调用】

if __name__ == '__main__':
    raw_id = '3927842'
    bbs = bbs_genspider(raw_id)
    bbs_id,bbs_avater = bbs.del_common(raw_id)
    print("----------------------------------")
    print(bbs_id)
    print(len(bbs_id))
    print(bbs_avater)
    print(len(bbs_avater))

    i = 0

    for user in bbs_id:
        dxy = dxy_spider(user, MONGO_URI, MONGO_DB)
        userinfo = dxy.get_UserInfo()
        print('-----------')
        print(userinfo)
        dxy.Save_MongoDB(userinfo)
        dxy.DownLoadUserAvater(bbs_avater[i], user)
        dxy.Sava_Excel(userinfo)

        # 合并each里面所有的单个用户数据，并存储至all.csv
        df = pd.read_csv('./each/' + user + '.csv', engine='python', encoding='utf_8_sig')
        if i == 0:
            df.to_csv('all.csv', encoding="utf_8_sig", index=False, mode='a+', header=True)
        else:
            df.to_csv('all.csv', encoding="utf_8_sig", index=False, mode='a+', header=False)
        i += 1

【效果呈现】

终端log

用户名结果图

头像链接结果图
数据库

本地

MongoDB数据存储结果图

本地头像数据图

本地单个用户数据图

最后的最后，如果您觉得这篇文章对您的有帮助，请点赞转发留言支持一下。

后言

本文作者是本公号第一个投稿作者，也是第一个签约长期作者。

作者简介：Light-City(光城)，自学编程，最近致力于学习Python，知识图谱，网络爬虫等，个人博客:http://light-city.me，个人公众号：光城，id:guangcity。

本文最终解释权归原作者所有，转载联系原作者。

本公众号内回复：丁香园，获取两部分源码，记得给作者一个Star哦~

END

往期精彩

进学习交流群

扫码加X先生微信进学习交流群

温馨提示

欢迎大家转载，转发，留言，点赞支持X先生。

文末广告点一下也是对X先生莫大的支持。

▼

更多精彩推荐，请关注我们

▼

你可能感兴趣的:(教科书式爬虫：由浅入深爬取丁香园)

我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
golang 事务tx 乒乒乓乓丫 golang 开发语言后端
1.事务txgolang事务-Mr.peter-博客园Go操作Mysql（三）-kaichenkai-博客园golang中事务的使用_zh1303300的博客-CSDN博客_golang事务golangMysql--Tx-Go语言中文网-Golang中文社区2.golangmysql事务（增、删、改、查）golangmysql事务_golang操作mysql示例（增、删、改、查、事务）_Zhuan
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
Golang分布式事务_golang 分布式事务 2401_87197933 golang 分布式开发语言
在TCC事务中，每个事务参与者都需要实现三个方法：Try方法用于执行事务操作，Confirm方法用于确认事务，Cancel方法用于回滚事务。事务协调者通过调用每个参与者的Try方法来执行事务操作，根据返回的结果来决定是否确认或回滚事务。由于TCC事务是用户自定义的，所以可以根据具体的业务需求来实现事务操作的逻辑，并且具有较好的灵活性和可扩展性。消息队列消息队列是一种异步通信机制，可以用于实现分布式
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
卡尔曼滤波算法c语言stm32,卡尔曼滤波算法及C语言实现_源代码 weixin_39643255 卡尔曼滤波算法c语言stm32
a往南向北2019-01-1620:39:2011340收藏111分类专栏：C语言嵌入式文章标签：卡尔曼滤波C代码卡尔曼滤波理论很容易就可以在MATLAB软件环境下实现，但是，实际的硬件板子上还是需要C语言，当然可以自动代码生成，还有一种就是直接手动编写C语言。1.前言在google上搜索卡尔曼滤波，很容易找到以下这个帖子：http://blog.csdn.net/lanbing510/artic
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Elasticsearch（ES）详解：从入门到实践坚持蛊 elasticsearch jenkins 大数据
引言简介：Elasticsearch是一个基于Lucene的分布式搜索引擎，具有高效的全文搜索功能，广泛应用于日志分析、搜索引擎、实时数据处理等领域。本文目标：介绍Elasticsearch的基本概念、架构设计、配置优化、常见应用以及实际案例，帮助开发者掌握ES1.Elasticsearch概述Elasticsearch的背景和发展历程核心功能：全文检索、分布式搜索、实时数据分析主要应用场景：日志
Spring WebFlux：响应式编程 m0_74825223 面试学习路线阿里巴巴 spring java 后端
在软件开发领域，随着互联网应用的规模和复杂性不断增加，传统的编程模型逐渐暴露出一些局限性，尤其是在面对高并发、大规模数据流处理等场景时。为了应对这些挑战，响应式编程（ReactiveProgramming）应运而生，它提供了一种更为高效、灵活的编程范式，以适应不断变化的系统需求。1.SpringWebFlux简介WebFlux提供了一个非阻塞、异步的Web框架，允许开发者构建高性能、可伸缩的Web
【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
ESP32 小智 AI 机器人入门教程从原理到实现（自己云端部署）与光同尘大道至简人工智能机器人 python 人机交互 github visual studio 单片机
此博客为一篇针对初学者的详细教程，涵盖小智AI机器人的原理、硬件准备、软件环境搭建、代码实现、云端部署以及优化扩展。文章结合了现有的网络资源，取长补短，确保内容易于理解和操作。简介：本教程将指导初学者使用ESP32微控制器开发一个简单的语音对话机器人“小智”。我们将介绍所需的基础原理、硬件准备、软件环境搭建，以及如何编写代码实现语音唤醒和与云端大模型的对接。通过本教程，即使没有深厚的AI或嵌入式经
手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例小蘑菇二号手把手教你学 MATLAB 专栏手把手教你学 Simulink 单片机嵌入式硬件 matlab simulink
目录手把手教你学Simulink实例：基于Simulink的三相桥式全控整流电路设计与仿真实例一、背景介绍二、所需工具和环境三、步骤详解步骤1：创建Simulink模型步骤1.1：打开Simulink并新建模型步骤2：添加电源模块步骤2.1：添加三相交流电源步骤3：设计三相桥式全控整流电路步骤3.1：添加可控硅模块步骤3.2：连接三相桥式全控整流电路步骤4：添加负载模块步骤4.1：添加电阻性负载步
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
基于Java的智能家居设计：模块化智能插座的设计与实现 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
智能家居,Java,模块化设计,智能插座,物联网,MQTT,RESTfulAPI1.背景介绍智能家居已成为现代生活的重要趋势，它通过将各种智能设备连接到网络，实现对家居环境的自动化控制和远程管理。智能插座作为智能家居的基础设备之一，能够远程控制电器开关，监测电器功耗，并根据用户需求实现定时开关等功能。传统的智能插座往往采用单片机或嵌入式系统，功能相对单一，难以扩展和升级。随着物联网技术的快速发展，
卡尔曼滤波算法从理论到实践：在STM32中的嵌入式实现 DOMINICHZL STM32 算法 stm32 嵌入式硬件
摘要：卡尔曼滤波（KalmanFilter）是传感器数据融合领域的经典算法，在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波，并给出基于STM32硬件的完整工程案例。一、卡尔曼滤波核心思想1.1什么是卡尔曼滤波？卡尔曼滤波是一种最优递归估计算法，通过融合预测值（系统模型）与观测值（传感器数据），在噪声干扰环境下实现对系统状态的动态估计。其核
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
飞控简析-从入门到跑路序章 skyman满天星飞控简析 pixhawk 无人机开源飞控
一、序言茫茫天数此中求，世道兴衰不自由万万千千说不尽，不如推背去归休本人搞飞控差不多两年了，从一开始什么都不懂的真·小白，到现在的高级小白，我已经经历了太多太多。因为感觉飞控是一个比较小众的产品，所以国内的资料并不是很完善，有些文章重复太多了，而且每个人看问题的视角是不一样的。我虽然只是个半瓶水，但是也想为国内的飞控圈子做一点贡献。二、学飞控有没有前途这个话题有点小，大一点的问法应该是学嵌入式有没
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
zookeeper程序员指南 weixin_30326741 java 运维 shell
1简介本文是为想要创建使用ZooKeeper协调服务优势的分布式应用的开发者准备的。本文包含理论信息和实践信息。本指南的前四节对各种ZooKeeper概念进行较高层次的讨论。这些概念对于理解ZooKeeper是如何工作的，以及如何使用ZooKeeper来进行工作都是必要的。这几节没有代码，但却要求读者对分布式计算相关的问题较为熟悉。本文的大多数信息以可独立访问的参考材料的形式存在。但是，在编写第一
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
一体化便携式气象站：从农业到环保，助力各行各业发展 tianhe8888_ 气象站便携式气象站气象监测站
【TH-PQX5】随着科技的飞速进步，气象监测技术也在不断创新与发展。一体化便携式气象站，作为气象监测领域的佼佼者，以其小巧、便捷、功能全面的特点，正逐渐成为各行各业不可或缺的监测工具。从农业到环保，从科研到应急，一体化便携式气象站正以其独特的优势，助力各行各业的发展。一、一体化便携式气象站的基本概述一体化便携式气象站是一种集多种气象要素监测于一体的便携式设备。它通常包括温度传感器、湿度传感器、风
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
cpp-httplib 解析耶耶耶耶耶~ C++network http cpp
文章目录前言headerrequest-responsecpphttplib结构解析有意思的trick利用对象的生命周期判断fd是否健在阻塞式读写防止阻塞的方法listen,acceptcpp-httplib解析1.创建server_socket_fd2.监听事件循环3.处理单用户请求的函数process_and_close_socket4.获取clientsock的一些信息5.一些列令人窒息的c
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
Zookeeper【概念（集中式到分布式、什么是分布式、CAP定理、什么是Zookeeper、应用场景、为什么选择Zookeeper 、基本概念）】(一)-全面详解（学习总结---从入门到深化）童小纯中间件大全---全面详解 zookeeper 分布式
作者简介：大家好，我是小童，Java开发工程师，CSDN博客博主，Java领域新星创作者系列专栏：前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：以梦为马，扬帆起航，2023追梦人目录Zookeeper概念_集中式到分布
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
递推算法 aab__ 算法
递推算法递推法的概念递推法是一种重要的数学方法，在数学的各个领域中都有广泛的运用，也是计算机用于数值计算的一个重要算法。这种算法特点是：一个问题的求解需一系列的计算，在已知条件和所求问题之间总存在着某种相互联系的关系，在计算时，如果可以找到前后过程之间的数量关系（即递推式），那么，从问题出发逐步推到已知条件，此种方法叫逆推。无论顺推还是逆推，其关键是要找到递推式。这种处理问题的方法能使复杂运算化为
Git前言（版本控制） Starbright. Git git
1.Git目前世界上最先进的分布式版本控制系统。git官网：https://git-scm.com/2.版本控制2.1什么是版本控制版本控制(Revisioncontrol)是一种在开发的过程中用于管理我们对文件、目录或工程等内容修改历史，方便查看更改历史记录备份以便恢复以前的版本的软件工程技术。实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

教科书式爬虫：由浅入深爬取丁香园

第一部分 ： 浅

目录

0.写在前面

1.分析页面

2.获取页面源码

3.解析数据

4.数据存储及导出

4.1 数据存储

4.2 数据导出

5.pandas实现导出

6.面向对象封装

第二部分 ：深

目录

0.写在前面

1.原理分析

2.代码实现

2.1 爬取bbs

2.2 用户个人主页

2.3 bbs与用户主页联合使用

你可能感兴趣的:(教科书式爬虫：由浅入深爬取丁香园)

第一部分：浅

第二部分：深