似繁星跌入梦

Facebook爬虫它是我这些年付出心血最多的一只虫儿

前言

一只好的爬虫它就像是一只宠物
让每一位工程师想要精心的喂养它、呵护它、壮大它
文章相关代码地址：https://github.com/CrawlerBoy

做过舆情项目的爬虫工程师都知道，他们的工作往往需要爬取成百上千个网站，其中以社交、新闻类为主，而FB、Twitter…等做为海外最强大的社交巨头，让我跟它们不期而遇，在这段时光中这只爬虫被迭代了几个版本，其中包括：Requests、Webdriver、API等多个版本

Facebook（以下简称FB）的反爬机制曾让我多次深陷困境、这只爬虫的成长需要消耗我大量的账号喂食，而账号的大规模封禁让我不得不编写注册账号的bot、恰巧在2018年我编写API版本的爬虫那段时光里无意发现Facebook API有一个安全BUG（一些隐藏字段能通过接口调用获得部分用户的个人隐私信息、其中包括邮箱信息）

出于另一重身份网络安全爱好者，还是把这个算不上问题的问题通过邮件反馈给了FB的安全团队，巧合的是过了两个月后看到FB数据泄露事件的新闻，从而导致API大改。同年11月份接到FB邀请函，以China地区安全人员的别称参加北京会议（其实工作在身的我是不想去的，最后抵挡不住各种美食的诱惑，请了天假屁颠屁颠的跑过去了）

What？不是说好的美食吗？就给我们看这个？

那啥！这两张有限的照片还是我艰难的打开那布满岁月痕迹的老年机里面找到的…（其实也没有啥好吃的！就一些什么北京烤鸭、各种蛋糕啥的、还有一些我叫不上名字的洋酒吧～)

说点正事…FB其实反爬措施还是真的挺BT的！不知道大家有没有发现在平时我们一个正常的用户在FB上长时间的快频率浏览一些帖文、评论啥的都会出现验证机制，甚至是直接封你账号！然后你会发现要求你本人上传照片申诉？
好的！上传完了自己照片，它提醒你七个工作日注意查看你的邮箱信息，最后可能就…没有最后了…FB为了防止恶意注册跟爬虫采集所以它的反爬机制还是非常严格的！所以我们在后来不得不把生产账号的bot部署到K8S上分布的各个虚拟节点工作

说到这里曾经很多小伙伴问过我FB注册需要手机号，怎么办？最后根据官方文档改写了一个对接国外第三方API的接码bot，它的亮点就是支持全球手机号，简直是又一利器

部分源码：

接码效果：

而注册bot所产生的所有资源、用AC存储展示

页面效果：

整个爬虫的工程量还是比较大的，覆盖了:简介、好友、贴文、评论、点赞、关注、分享、小组等等…代码量有4000+吧～

部分源码：

数据存储的话用了PG

以下我挑选了两个函数示例，相关问题可以联系作者公号

一、帐号检测

前面说过FB对帐号的封禁机制特别严，所以一名爬虫工程师是不可能一次性完整的写好一个爬虫上线而不出问题的！反爬机制往往是需要时间、精力去验证的。FB前期照样需要调研涵盖所有可能出现的反爬情况，让我的爬虫能够实时检测并预警

# 检查账号是否不能访问
    def _check_page_source(self, driver):
        if "https://m.facebook.com/home.php?_rdr" == driver.current_url:
            self.home_url_time += 1
            if self.home_url_time == 3:
                self.home_url_time = 0
                return False, "seven_days"
            return True, "good"
        error_dict = {
            u"登录 Facebook 即可浏览个人主页": "cookies_error",
            u"你必须先登录": "cookies_error",
            u"安全验证码": "code_error",
            u"我们需要验证你的身份": "upload_photo",
            u"请上传一张您本人的照片": "upload_photo",
            u"你的帐户已被停用": "useless",
            u"使用手机验证你的帐户": "phone_number",
            #u"你要求的页面无法显示": "seven_days",
            u"今天就加入 Facebook 吧。": "account_failure",
            u"We Need You To Confirm Your Identity": "upload_photo",
            u"我们最近发现您的帐户在开展可疑活动": "upload_photo",
            u"Your account has been disabled": "useless",
            u"We Need You To Confirm Your Identity": "upload_photo",
            u"Upload A Photo Of Yourself": "upload_photo",
            u"Please enter your phone number": "phone_number",
            u"Please enter the text below": "code_error",
            u"You must log in first": "cookies_error",
        }
        for ele in error_dict:
            if ele in driver.page_source:
                print "error fonud in html", ele
                if ele in [u"找不到页面", "Sorry, something went wrong"]:
                    continue
                return False, error_dict.get(ele, "unknow")
        return True, "good"

二、获取简介

一名合格的爬虫工程师写任何爬虫都不会信手拈来，有些常见的爬虫大可不必不必自己造轮子。而有些网站尝试找找API、瞧瞧M端。FB爬虫为了发挥最大效率不建议选择使用PC端采集（我很负责任的告诉大家PC端的模拟浏览器方式可以慢到让你想哭、更别想驾驭PC端的HTTP构造），不仅仅是FB，很多网站PC端的JS加载永远比M端要浪费太多时间，在此之前你还得根据自身需求（因为M端的精简有时候可能没有你想要的信息）

# 获取简介
    def getAbout(self, params, _driver, facebookId, url):
        if self.fail_num >=3:
            _driver.quit()
        proxies = {"http": "http://127.0.0.1:8118", "https": "http://127.0.0.1:8118"}
        ###手机端分为两种  firefox 和 chrome 目前适配的是 firefox
        print "==getAbout=="
        # 存储简介字段
        key_dict = {}
        item = AccountItem()
        item["account_id"] = facebookId
        item["account_url"] = url
        image_link_ele = _driver.find_elements_by_xpath('//a/img[contains(@src,"https://scontent") and contains(@src,"p74x74")]') or \
        _driver.find_elements_by_xpath('//img[contains(@src,"https://scontent") and contains(@src,"p74x74")]')
        
        image_link = image_link_ele[0].get_attribute('src')
        response = requests.get(image_link,proxies=proxies,verify=False)
        ls_f=base64.b64encode(BytesIO(response.content).read())
        pic_format = image_link.split('?', 1)[0].split('.')[-1]
        ext_name = 'data:image/%s;base64,' % pic_format

        # 获取指定信息
        about_selector = Selector(text=_driver.page_source)
        #对于FB别名形式ID，二次获取其唯一ID
        if not facebookId.isdigit():
            unique_id_ele = about_selector.xpath('//div[@id="objects_container"]/div/div/div/div[2]/div/div/div/a/@href').extract_first(default="")
            if 'profile_id' in unique_id_ele:
                unique_id = re.findall(r'profile_id=(\d+)',unique_id_ele)
            else:
                unique_id = re.findall(r'&id=(\d+)&',unique_id_ele)
            item['account_unique_id'] = unique_id[0] if unique_id else ''
        item['account_name'] = about_selector.xpath('//div/span/strong/text()').extract_first(default="")
        if not item['account_name']:
            self.fail_num += 1
        friend = _driver.find_elements_by_xpath("//div[@id='root']/div[1]/div[2]/div[2]/div[1]/a")
        friends_num = 0
        if len(friend) != 0:
            friend_nums = friend[0].text if friend else ''
            friend_num = re.findall(r'\d+', friend_nums)
            friends_num =friend_num[0] if friend_num else 0
        # 指定简介信息的key
        about_list = [
            "work",
            "education",
            "skills",
            "living",
            "contact-info",
            "basic-info",
            "nicknames",
            "relationship",
            "quote",
        ]
        # 循环获取指定标签
        for key in about_list:
            elements = about_selector.xpath("//div[@id='%s']/div/div[2]//table/tbody/tr" % key)
            if elements:
                ele_dict = {}
                for ele in elements:
                    data_key, value = tuple(ele.xpath("td").xpath("string(.)").extract())
                    if ele_dict.has_key(data_key):
                        new_value = ele_dict[data_key]
                        new_value = (new_value + [value]) if isinstance(new_value,list) else [new_value,value]
                        ele_dict[data_key]=new_value
                    else:
                        ele_dict[data_key]=value
                key_dict[key] = ele_dict
            else:
                key_dict[key] = about_selector.xpath("//div[@id='%s']/div/div[2]" % key).xpath("string(.)").extract_first(default="")
        div_ele = about_selector.xpath("//div[@id='family']/div/div[2]/div/div")
        families = []
        get_id_func = lambda tag:"".join([x for i in re.compile(u"/profile.php\?id=(\d+)|/(.*)\?refid=|/(.*)").findall(tag) for x in i])
        for ele in div_ele:
            ele_data = ele.xpath('h3').xpath('string(.)').extract()
            if ele_data:
                href = ele.xpath('h3/a/@href').extract_first(default="")
                relation = OrderedDict()
                relation['fb_id'] = get_id_func(href)
                relation['img_link'] = ele.xpath('parent::*/a/img[contains(@src,"https://scontent")]/@src').extract_first(default="")
                relation['name'], relation['relation'] = tuple(ele_data)
                families.append(json.dumps(relation, ensure_ascii=False))

三、获取贴文

面对页面的改版往往是每一位爬虫工程师的烦恼与痛，那么怎么解决呢？下期我们好好聊聊这个问题

# 获取发帖
    def getPost(self, _driver, facebookId, postUrl):
        is_public = None
        print "==getPost=="
        count = 0
        while True:
            if count >= 3:
                 os.system('./fb_stop.sh 1')
            try: 
                _driver.get(postUrl)
                print u'get post url ok...'
                break
            except Exception as e:
                count += 1 
                exc_type, exc_obj, exc_tb = sys.exc_info()
                fname = os.path.split(exc_tb.tb_frame.f_code.co_filename)[1]
                self.logger.warning(u"get post Error: %s, %s, %s, %s" % (exc_type, e, fname, exc_tb.tb_lineno))
        
        page_source = _driver.page_source
        page_response = Selector(text=page_source)
        head = page_response.xpath("//head/link[@rel]").extract_first()
        if head and "canonical" in head:
            is_public = True
        # 检查页面信息，判断是否该账号不可用
        check = self._check_page_source(_driver)
        if check:
            # 如果可以直接找到该元素，则说明是公众号，可直接点击click
            _public = _driver.find_elements_by_id("m-timeline-cover-section")
            # 如果拿不到就循环指定元素，找出可点击的元素click
            for num in range(3, 6):
                _private = _driver.find_elements_by_xpath("/html/body/div/div/div[2]/div/div[1]/div[1]/div[%s]/a[1]" % num)
                if _private: break
            # 如果通过前两种情况都找不到，则只能直接拼串，此时需要通过get的方式获取
            time_line = page_response.xpath("//div[@id='objects_container']/div/div/div/div[4]/a[contains(@href,'v=timeline')]/@href").extract_first(default="")
            if not time_line:
                time_line = postUrl + "&v=timeline" if "?" in postUrl else postUrl + "/?v=timeline"
            if time_line or _private or _public:
                if time_line:
                    if 'http' in time_line:
                        _driver.get(time_line)
                    else:
                        # 防止元素is not clickable先请求URL
                        _driver.get('https://m.facebook.com' + time_line)
                else:
                    _private[0].click()
                # 统计当前用户总共多少帖子数
                posts_count = 0

                # 当前年度下标
                current_year_subscript = 0

                # 循环爬取帖子
                while True:
                    breakpoint_post_url = _driver.current_url
                    time.sleep(random.randrange(5, 10))
                    # 获取帖子列表的文本
                    selector = Selector(text=_driver.page_source)
                    posts = selector.xpath('//div[@role="article" and contains(@data-ft,"top_level_post_id")]').extract() #or selector.xpath('//div[@data-ft]').extract()
                    posts_count += len(posts)
                    # 对取出来的帖子遍历
                    for post in posts:
                        if not isinstance(post, unicode):
                            post = post.decode("utf-8")
                        _post, _comments, _reaction = self.getComment(_driver, facebookId=facebookId, _post=post, post_breakpoint_url=breakpoint_post_url, is_public=is_public)
                        yield _post, _comments, _reaction
                        
                    # 获取更多按钮
                    more_content = _driver.find_elements_by_xpath('//div[@id="structured_composer_async_container"]/div[2]/a')
                    # 更多帖文
                    if more_content:
                        _driver.execute_script(
                            "window.scrollBy(0,%s)" % (more_content[0].location_once_scrolled_into_view['y'] - 200))
                        if more_content[0].text in [u"更多", u"更多动态", "More"]:
                            more_content[0].click()
                            time.sleep(random.randrange(2, 5))
                            if not posts:
                                continue
                            selector = Selector(text=_driver.page_source)
                            new_post = selector.xpath('//div[@role="article"]').extract() or selector.xpath('//div[@data-ft]').extract()
                            if new_post and Selector(text=sorted(new_post)[0]).xpath("string(.)").extract_first() != Selector(text=sorted(posts)[0]).xpath("string(.)").extract_first():

                                continue
                    handles = _driver.window_handles
                    _driver.switch_to_window(handles[0])
                    #获取下一年点击链接列表
                    next_year_more_content = _driver.find_elements_by_xpath('//div[@id="structured_composer_async_container"]/div[last()]/div/a')
                        # 当前年份下表从[0]起，遍历从高到低进行
                    if next_year_more_content and current_year_subscript < len(next_year_more_content[1:]):
                        more_content = next_year_more_content[current_year_subscript]
                        more_content.click()
                        current_year_subscript += 1
                        continue
                    break

好了，到这里又到了跟大家说再见的时候了。我只是一个会写爬虫的段子手而已，一个希望有朝一日能够实现财富自由，能够早日荣归故里的游子罢了。希望我的文章能带给您知识，带给您帮助，带给您欢笑！同时也谢谢您能抽出宝贵的时间阅读，创作不易，如果您喜欢的话，点个赞再走吧。您的支持是我创作的动力，希望今后能带给大家更多优质的文章

可狱可囚的爬虫系列课程 19：静态页面和动态页面之分 HerrFu@灵思智行科技爬虫 python 爬虫
在爬虫开发中，静态页面和动态页面的核心区别在于数据的生成和加载方式，理解两者的差异直接影响爬虫技术选型和数据抓取策略；掌握静态/动态页面的区别，可显著提升爬虫效率和成功率。一、静态页面（StaticPage）静态页面的内容（1）在服务器预先生成，以.html文件形式存储，用户每次访问时返回相同的HTML代码。（2）数据直接嵌入在HTML中（如文本、表格、链接等）。（3）纯HTML+CSS，无复杂交
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
python爬虫系列课程4：一个例子学会使用xpath语法 wp_tao Python副业接单实战项目 python 爬虫开发语言
python爬虫系列课程4：一个例子学会使用xpath语法本文通过一个例子，学会xpath的各种语法，可以作为xpath的查询手册使用，代码如下：fromlxmlimportetreetext='''firstitemseconditemthirditemfourthitem<liclass="item-0
Python爬虫系列教程之第十五篇：爬取电商网站商品信息与数据分析放氮气的蜗牛深度博客 python 爬虫数据分析
大家好，欢迎继续关注本系列爬虫教程！在前面的文章中，我们已经学习了如何构建爬虫、如何应对反爬机制以及如何将数据存储到数据库或文件中。随着业务场景的不断扩展，电商网站的数据采集和分析已成为实际项目中非常重要的一环。本篇博客我们将以电商网站中的图书信息为例（使用BookstoScrape这一专门用于爬虫练习的网站），详细介绍如何从网站中爬取商品信息，并利用数据清洗和数据分析技术对采集到的数据进行进一步
【Python爬虫系列】_031.Scrapy_模拟登陆&中间件失心疯_2023 Python爬虫系列 python 爬虫 scrapy 中间件面向切面 requests AOP
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集
Python学习教程：必须掌握的Cookie知识点都在这里了 weixin_30387339 python 爬虫 javascript ViewUI
今天我们来全面了解一下Cookie（小饼干）相关的知识！篇幅有点长，在学习Python的伙伴或者有兴趣的你，可以耐心看哦！相信很多同学肯定听过Cookie这个东西，也大概了解其作用，但是其原理以及如何设置，可能没有做过web的同学并不是非常清楚，以前的Python学习教程中其实有跟大家提到过，那今天就带大家详细了解下Cookie相关的知识！一、诞生背景爬虫系列教程的第一篇：HTTP详解中我们便说过
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
python必背100源代码-学会这个Python库，至少能减少100行代码编程大乐趣
写在前面梦想橡皮擦，一个立志成为IT圈有影响力的人，到今天，我已经实现了10%今天打算写爬虫系列的文章，浏览过程中到达了知乎，看到了很多健身妹子，恩，身材很好，心中灵光一闪就想爬下来，存档。作为一个勉强算是爬虫已经入门的小菜来说，这个简单的不行，一顿操作之后，发现卡在了知乎登录上，原计划自己写个模拟登录，后来一琢磨，不想造轮子了，去github上找一个现成的不香吗？于是乎，有了这篇文章Decryp
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
python网络爬虫的流程图_python爬虫系列（1）- 概述 weixin_39649965 python网络爬虫的流程图
原标题：python爬虫系列（1）-概述事由之前间断地写过一些python爬虫的一些文章，如：工具分享|在线小说一键下载Python帮你定制批量获取智联招聘的信息Python帮你定制批量获取你想要的信息用python定制网页跟踪神器，有信息更新第一时间通知你（附视频演示）把python网页跟踪神器部署到云上，彻底解放你的电脑个人认为学习python语言的话，爬虫是一个非常适合入门的方向。为了把学习
Python爬虫系列总结 qformat python 爬虫开发语言
Python爬虫系列总结包含（Scrapy框架介绍）文章目录Python爬虫系列总结包含（Scrapy框架介绍）一、前言二、Python爬虫的基础三、Python爬虫进阶四、简易爬虫总结五、Python爬虫框架六、爬虫部署一、前言随着WEB2.0时代的到来，网络已经成为了人们获取信息的重要途径，而爬虫技术可以让我们从海量的网络数据中快速地获取我们想要的信息。Python是一种简单易学、功能强大的编
【Python爬虫系列】浅尝一下爬虫40例实战教程+源代码【基础+进阶】嗨！栗子同学 Python 爬虫 Python爬虫系列爬虫 python 新手入门实战合集源码合集
前言哈喽！哈喽！我是栗子同学~小编从最初的Python入门安装开始到现在更新了90多篇文章啦。但是新手系列更新完之后——后续的爬虫系列更不动，大家也知道这个机制，很多内容不能发滴！很多小伙伴儿想学习爬虫的，这次先浅浅的给大家安排一些之前小编浅尝的小项目。爬虫系列——准备安排一波哈之后能过的话再慢慢给大家一个内容一个内容的更新！（爬虫系列文章已经开始再微信公众号开始写啦喜欢的文末可以关注下哦！）正文
爬虫系列-web请求全过程剖析会编程的果子君爬虫爬虫开发语言
个人主页:会编程的果子君个人格言:“成为自己未来的主人~”上一小节我们实现了一个网页的整体抓取工作，那么本小节，给各位好好剖析一下web请求的全部过程，这样有助于后面我们遇到的各种各样的网站就有了入手的基本准则了那么到底我们浏览器在输入完网址到我们看到网页的整体内容，这个过程究竟发生了写什么？这里我们以百度为例，在访问百度的时候，浏览器会把这一次的请求发送给百度的服务器（百度的一台电脑），由服务器
爬虫系列-第一个爬虫会编程的果子君爬虫爬虫
个人主页:会编程的果子君个人格言:“成为自己未来的主人~”首先，我们需要回顾一下爬虫的概念，爬虫就是我们通过我们写的程序去抓取互联网上的数据资源，比如，此时我需要百度的资源，在不考虑爬虫的情况下，我们肯定是打开浏览器，然后输入百度的网址，紧接着，我们就能在浏览器上看到百度的内容了，那换成爬虫呢？其实道理是一样的，只不过，我们需要用代码来模拟一个浏览器，然后同样输入百度的网址，那么我们的程序应该也能
爬虫系列：读取 CSV、PDF、Word 文档 pdflibr
上一期我们讲解了使用Python读取文档编码的相关问题，本期我们讲解使用Python处理CSV、PDF、Word文档相关内容。CSV我们进行网页采集的时候，你可能会遇到CSV文件，也可能项目需要将数据保存到CSV文件。Python有一个超赞的标准库可以读写CSV文件。虽然这个库可以处理各种CSV文件，但是我们这里重点介绍标准CSV格式。读取CSV文件Python的CSV主要是面向本地用户，也就是说
Python爬虫系列-有道批量翻译英文单词-注音标版虫鸣@蝶舞 Python爬虫系列 python 开发语言
爬虫系列更新-第二篇文章——《Python爬虫系列-有道批量翻译英文单词-注音标版》之前发布计算机英文单词时研究了下,怎么把一个含有大量英文单词的txt文件翻译成如下格式：如上图,左边图片是需要翻译的txt文本,右边图片是翻译后的txt文本。运行的实际界面效果。python代码参考了CSDN上的这个作者的帖子，他的分析博文很牛，但是没有批量翻译功能，所以我在他的代码的基础上添加了翻译中文、写入国际
python爬虫系列（5）- 看了这篇文章你也可以一键下载网络小说永恒君的百宝箱
实例讲解request库、bs4库的使用方法之前写过一篇文章：分享|在线小说一键下载文章里面简要的介绍一下使用python一键下载小说，该程序就是使用request库、bs4库完成的，比较适合入门的伙伴来学习。运行效果.gif正好之前介绍了python爬虫的一些知识，今天就来详细的说一下这个实例。需求爬取网页上小说的名字以及所有章节的内容，保存到txt文件。以下面这篇https://www.hon
可狱可囚的爬虫系列课程 12：在网站中寻找 API 接口（补充）（王者荣耀英雄信息抓取） HerrFu 爬虫 python 爬虫
我们前面讲过了怎么在网站中找接口，如何在开发者工具中判断是不是接口，但是凡事都有例外，今天我还要再针对此问题做一次详细描述。本次就以王者荣耀官网https://pvp.qq.com/为例，带大家进行学习。一、找英雄接口如上图，我们今天要找的接口，在“游戏资料”的“英雄资料”中，要抓取所有英雄的基本信息，还是老样子，先打开开发者工具，尝试寻找接口。经过寻找，我们发现王者荣耀这里的接口很明显，就是名为
爬虫系列实战：使用json解析天气数据 python慕遥爬虫系列教程爬虫
大家好，爬虫是一项非常抢手的技能，收集、分析和清洗数据是数据科学项目中最重要的部分，本文介绍使用json解析气象局天气数据。在官网上获取天气数据信息，可以定义当前查询的位置，提取时间、温度、湿度、气压、风速等信息，并导入requests、matplotlib这些需要用到的库。#导入以下模块importrequestsimportmatplotlib.pyplotaspltimportpylabas
可狱可囚的爬虫系列课程 11：Requests中的SSL HerrFu 爬虫 python 爬虫
一、SSL证书SSL证书是数字证书的一种，类似于驾驶证、护照、营业执照等的电子副本。SSL证书也称为SSL服务器证书，因为它是配置在服务器上。SSL证书是由受信任的数字证书颁发机构CA在验证服务器身份后颁发的，其具有服务器身份验证和数据传输加密功能。SSL证书通过在客户端浏览器和Web服务器之间建立一条SSL安全通道，通过它可以激活SSL协议，实现数据信息在客户端和服务器之间的加密传输，可以防止数
Java爬虫系列二：使用HttpClient抓取页面HTML 不會變承諾
爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天就来介绍下抓取html内容的工具：HttpClient。一、什么是HttpClient度娘说：HttpClient是ApacheJakartaCommon下的子项目，可以用来提供高效的、最新的、功能丰富的
可狱可囚的爬虫系列课程 08：新闻数据爬取实战 HerrFu 爬虫 python 爬虫
前言本篇文章中我带大家针对前面所学Requests和BeautifulSoup4进行一个实操检验。相信大家平时或多或少都有看新闻的习惯，那么我们今天所要爬取的网站便是新闻类型的：中国新闻网，我们先来使用爬虫爬取一些具有明显规则或规律的信息，在中国新闻网这个网站中，有一个即时新闻精选的板块，就是我们今天的目标，这是链接：https://www.chinanews.com/scroll-news/ne
可狱可囚的爬虫系列课程 09：通过 API 接口抓取数据 HerrFu 爬虫 python 爬虫
前面已经讲解过Requests结合BeautifulSoup4库抓取数据，这种方式在抓取数据时还是比较方便快捷的，但是这并不意味着所有的网站都适合这种方式，并且这也不是抓取数据的最快方式，今天我们来讲一种更快速的获取数据的方式，通过API接口抓取数据。一、API接口概述API接口是负责传递数据的，在现今互联网已存在的网站中，除了极个别非常古老的网站，大部分的网站都会采用API接口进行数据的传输。那
可狱可囚的爬虫系列课程 10：在网站中寻找 API 接口 HerrFu 爬虫 python 爬虫
上一篇文章我们讲述了爬虫中一个比较重要的知识点，如何从API接口中获取数据，本篇文章我们继续讲述，如何在网站中寻找API接口，我们以“今日头条”网站https://www.toutiao.com/为例。如上图所示，如果要获取页面新闻数据，可能大部分同学的想法就是直接Requests结合BeautifulSoup4库进行数据的爬取，但是我们不妨先来找找看有没有API接口能够让我们更快速的得到数据。所
Python爬虫系列-爬取百度贴吧图片 donglxd Python爬虫系列 python 爬虫开发语言
这是我新开的一个博客系列-Python爬虫,里面收集了我写过的一些爬虫脚本给大家参考,水平有限，不当之处请见谅。这是我之前在CSDN问答贴中回答网友的问题:(https://ask.csdn.net/questions/8042566?spm=1001.2014.3001.5505)网友给了基础版,但是有问题,爬不出图片,我在他的基础上加入了header参数可以下载了。具体见如下源码:#百度贴吧的
爬虫系列--爬取B站小潮院长的作品列表梦幻蔚蓝 python 爬虫 python intellij-idea idea
爬虫系列--爬取B站小潮院长的作品列表1知识小课堂1.1爬虫1.2json简介2爬取过程2.1简介2.2找到爬取的连接2.2爬取json信息2.3循环爬取2.4数据格式化3完整代码1知识小课堂1.1爬虫Python爬虫是一种用于自动抓取互联网数据的程序。它们通过模拟用户浏览网页的行为，自动解析网页HTML代码并提取所需的数据。Python爬虫在数据挖掘、数据分析、API开发等领域有广泛的应用。Py
爬虫系列----Python解析Json网页并保存到本地csv 梦幻蔚蓝 python 爬虫 python json
Python解析JSON1知识小课堂1.1爬虫1.2JSON1.3Python1.4前言技术1.4.1range1.4.2random1.4.3time.sleep1.4.4withopen()asf:2解析过程2.1简介2.2打开调试工具2.3分析网址2.3.1网址的规律2.3.2网址的参数2.4爬取第一页内容2.5存入字典并获取2.6循环主体数据2.7公告和日期改进2.8循环获取前三页内容2.
走近Python爬虫（二）：常见反爬虫机制的应对措施 TracyCoder123 编程语言 python 爬虫 okhttp
文章目录一、应对—异步加载1.一般措施2.Selenium二、应对—登录验证1.使用Selenium模拟登录2.使用Cookies登录3.使用Session模拟表单登录三、应对—验证码本文是Python爬虫系列博客的第二篇，内容概览如下：一、应对—异步加载1.一般措施AJAX技术介绍：AJAX是AsynchronousJavaScriptAndXML的首字母缩写，意为异步JavaScript与XM
Python爬虫系列——（一）发起HTTP请求/解析数据 Chestimouse Python爬虫 python json
（一）发起HTTP/HTTPS请求方法一：urlliburllib是python内置的HTTP请求库，无需安装即可使用，它包含了4个模块：request：它是最基本的http请求模块，用来模拟发送请求error：异常处理模块，如果出现错误可以捕获这些异常parse：一个工具模块，提供了许多URL处理方法，如：拆分、解析、合并等robotparser：主要用来识别网站的robots.txt文件，然后
可狱可囚的爬虫系列课程 07：BeautifulSoup4（bs4）库的使用 HerrFu 爬虫 python 爬虫
前面一直在讲Requests模块如何使用，那都是在请求阶段要做的事情，相信很多网友都在等一个能够开始爬网站信息的教程，今天它来了，今天我要给大家讲一个很简单易懂的库：BeautifulSoup4。一、概述&安装BeautifulSoup4属于BeautifulSoup系列的第四代版本，BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库，这个库能够实现树文档的导航、
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

Facebook爬虫它是我这些年付出心血最多的一只虫儿

前言

一、帐号检测

二、获取简介

三、获取贴文

你可能感兴趣的:(【爬虫系列】)