郭振廷

Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

专题系列导引

爬虫课题描述可见：

Python爬虫【零】课题介绍 – 对“微博辟谣”账号的历史微博进行数据采集

课题解决方法：

微博移动版爬虫

Python爬虫【一】爬取移动版“微博辟谣”账号内容(API接口)

微博PC网页版爬虫

Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

前言

前面【一】中我们介绍了移动版微博的爬虫方式，程序实现简单，运行稳定可靠，但有其弊端，爬取数据不全。
从本文开始我们分析网页版微博爬取的实现方式，能较好的全量爬取所有数据

一. 分析

微博辟谣的URL地址：

https://weibo.com/weibopiyao?is_all=1

微博页面效果：

爬取思路

首先分析PC网页版微博的网站设计和HTML页面结构。发现PC网页版特点如下：

网页版微博的实现方式跟移动版不同，不是调用API接口再进行渲染，而是用了前端工程框架。在访问网址URL时，将当页数据就全部在js中返回了，在中可以看到数据对象，每页微博HTML约加载45条微博数据对象：

此数据对象比较复杂，不好从中直接解析出所需要的的微博字段。如选取解析此html数据，则需要用到Beautiful Soup工具，读者可以自行尝试，此博文没有采用此种方法

对于Beautiful Soup工具，可以参考：Python 爬虫利器二之 Beautiful Soup 的用法

前端页面加载方式

a. 下拉：每个页面默认先只展示15条微博数据；通过下拉到页面底端，前端框架再从FM.view()中加载接下来的15条微博数据，进行页面渲染，并使得下拉条变长；每个页面可以下拉两次，两次到底后，整个页面加载约45条数据。
b. 翻页：当本页下拉两次到底后，所有FM.view()中的数据对象都被渲染完毕，此时页面底端则不再出现渲染进度动画，而是出现button按钮:“上一页”、“下一页”，还有页面选择的下拉列表selector（如下图）
c. 当点击下一页时，服务器会返回下一页的整个HTML，整个页面窗口会重新渲染下一页的内容。每页的HTML格式都一致：45条数据在FM.view()中，每次展示15条，可以下拉两次

微博PC网页版浏览时需要登录状态。否则微博会在翻页操作时，不定期弹出“登录tab”页让用户登录；此种情形下，用户可能只浏览若干页微博数据，就被打断；若编写爬虫程序，则可能会打断爬取，造成失败

结论

综上所述，对于微博PC网页版，我们采用** “分析页面html，提取元素内容” **的方式进行爬取更为适合。因此我们用到python爬取工具包：Selenium

对于Selenium工具，可以参考官方网站说明：http://www.selenium.org.cn/，其中有很多介绍和API说明文档，还提供了使用案例可以学习

二. 处理流程

整个微博爬取流程，可以梳理为：

 1. 进入微博页面，输入用户名密码进行登录，处理必要的验证
 2. 登录完成后，进入“微博辟谣”首页，进行下拉页面操作，加载隐藏的内容，连续下拉两次，加载完整个页面45条微博内容
 3. 爬取整个页面的微博内容，将45条数据提取
 4. 点击“下一页”，加载下一页的页面数据，并循环下拉两次到底，开始爬取此页内容
 5. 循环往复不断爬取每页的全量数据，直到最后一页，最后保存excel，爬取结束

三. 代码实现

1. 项目结构

Python爬虫工程使用selenium工具类，采用面向对象编程。
结构如下：

创建Crawler类，处理微博页面的下拉、翻页，和爬取数据的功能，最终把数据存储起来（存储结构化表格数据最好用pandas.DataFrame）。写入line_crawl.py模块内

下用Crawler类爬取页面之前，需要先提前进行一些预处理，比如加载driver驱动、登录微博等操作；爬取完成后，还需要将数据写入Excel。因此定义一个CrawlHandle类，串联整个爬取逻辑，实现预处理和后面的数据写入。中间部分的爬取逻辑还是交给Crawler对象来实现，因此CrawlHandle类串联方法中，需将Crawler对象作为入参。写入crawl_handle.py模块内

以上两个处理模块，放在名为pc包中

因为DataFrame数据写excel比较基础，所以我们将它设计为一个工具方法。定义一个util.py模块，将工具方法都写入此模块中

项目中URL、写入地址、表头等配置变量比较多，因此将他们写入property.py文件

以上两个公共模块，放在名为common的包中

在项目下创建一个名为excel的文件夹，将最终的导出结果文件存于其中

main.py作为整个项目的启动入口

最终项目结构如下图：

2. main.py

main.py为程序入口，启动工程时首先执行。因为我们的串联类为CrawlHandle，并且需要Crawler做为入参，因此代码设计如下：

if __name__ == '__main__':

	# 创建handle类对象
    crawl_handle = crawl_handle.CrawlHandle()
    # 创建Crawler对象
    crawler = line_crawl.Crawler()
    # 网页版微博爬取
    crawl_handle.crawl_wb_and_write_excel(crawler)

3. CrawlHandle类

CrawlHandle类为爬取处理类，根据上面的设计，定义一个串联方法：def crawl_wb_and_write_excel()，设计如下：


class CrawlHandle:
    """
    微博爬取handle类，串联整个爬取和写excel过程
    """

    def crawl_wb_and_write_excel(self, crawler):
        """
        主方法：加载浏览器驱动、登录，爬取微博网页版中的数据，整理并存入指定excel
        :return:
        """
        try:
            # 1 加载驱动
            driver = self.create_driver(15)

            # 2. 加载首页面，并进行登录
            cookies = self.login(driver)

            # 3. 不断爬取所有微博内容数据，具体处理逻辑有crawler方法自己实现
			# TODO  在设计Crawler时去实现此处调用

            # 4. 关闭驱动
            crawler.quit_driver()

            # 5. 爬取完所有微博后，进行写文档操作
            crawler.write_excel()
            
        except Exception:
            print("爬虫程序报错，可能出现问题，请检查！")
            traceback.print_exc()

那么接下来的重点就是补充完这五部分的方法代码细节，定义相关的类或者方法

a.加载驱动

驱动的加载相对独立，只有串联方法调用。因此可以看做是CrawlHandle类的一个方法，编写如下：

    def create_driver(self, wait_time=3):
        """
        启动chrome驱动，并加载URL页
        要提前下载与本机Chrome版本相同的chrome驱动到本地电脑内，并将文件路径设置入环境变量path，并重启IDE
        # chrome驱动下载地址： https://npm.taobao.org/mirrors/chromedriver
        """
        # 1. 加载chrome浏览器驱动
        driver = webdriver.Chrome()
        print("Chrome驱动启动成功！")

        # 2. 设置隐性等待时间
        driver.implicitly_wait(wait_time)

        return driver

注意

必须先按照本地电脑的操作系统类型以及已经安装好的Chrome版本，下载好匹配的selenium驱动并配置好环境变量，才能正常启动驱动；否则报错。
chrome驱动下载地址： https://npm.taobao.org/mirrors/chromedriver

b.登录微博

driver驱动弹出chrome浏览器，打开微博辟谣首页（或者是其他首页），模拟点击右上角“登录”按钮，弹出登录收入框tab页，输入必要的用户名、密码后，再点击“登录”，完成登录操作

注意：

模拟点击微博右上角的“登录”按钮时，chrome浏览器有一定概率不是直接弹tab框，而是会首先跳转passport.weibo.com；当用户登录完成后再跳回“微博辟谣”首页。此种情况下，程序自动填写表单可能会报错，提示找不到元素，则需要重启程序（也可以在程序中多加分析判断这种情况【通过URL的变化】再针对性的自动填表，博文为了节省时间没有进行处理）

有时候登录完成后，微博并非会跳转回“微博辟谣”首页，而是跳转回“用户中心”首页。如果此时立刻爬取内容，则可能会出现爬取内容不正确，或者报错找不到元素。因此登录完成后，让程序等待一段时间，并不断监测当前页URL，若未跳转“微博辟谣”，首页，则主动加载首页。等页面跳转回来再进行后续操作

微博登录有时填写完用户名密码还不行，仍然会弹出一个二维码，让用户用微博APP客户端扫码认证，或者弹出图形验证码、手机验证码让用户再次校验，通过后才可以登录成功。因此爬虫程序也得在后台等待、轮询监测二次验证完成，页面真正跳转“微博辟谣”首页后，才算整个登录过程完成

额外需要注意

受电脑运行速度、本地wifi网络速度影响，在不同环境下,本程序执行爬取页面的运行速度也不一样。而浏览器对Web页面渲染是渐进式加载的，有时候页面未完全加载完成，浏览器已经有了显示，爬虫程序也开始了后续操作。此时可能js、css仍未生效，因此在用selenium操作时，可能会出现“爬取错误，页面报错”的情况。这种情况并非只在登录时会发生，而是在整个爬取过程中，都有可能出现，引起爬取报错失败。
因此各位需要结合自己本地网络和电脑配置情况，调整程序内的等待时间（time.sleep()的数值），确保页面完全加载完成后，后续填表或者爬取的逻辑才会执行

此方法也可以看做是CrawlHandle类的一个方法；编写如下：

    def login(self, driver):
        """
        加载网页版微博首页面，并进行登录
        :return:
        """

        # 1. 打开微博辟谣URL，加载首页面
        # 注意： 模拟点击微博右上角的“登录”按钮时，chrome浏览器有可能不是直接弹tab框，而是会首先跳转passport.weibo.com，让用户登录完成后再跳回“微博辟谣”首页。
        # 此时程序自动填写表单可能会报错，提示找不到元素，则需要重启程序
        driver.get(WB_PIYAO_URL_PAGE % 1)
        print("加载 URL = %s" % WB_PIYAO_URL_PAGE % 1)

        # 2. 进行登录操作
        login_btn = driver.find_element_by_xpath("//a[@node-type='loginBtn']")
        login_btn.click()
        print("打开登录窗口... ")
        # time.sleep(0.5)

        # 输入用户名密码
        driver.find_element_by_xpath("//input[@name='username']").send_keys(USERNAME)
        driver.find_element_by_xpath("//input[@name='password']").send_keys(PASSWORD)
        print("输入用户名：%s   密码：%s " % (USERNAME, PASSWORD))
        # 点击登录按钮
        submit_btn = driver.find_element_by_xpath("//a[@node-type='submitBtn']")
        submit_btn.click()
        print("点击登录按钮......")

        # 微博做了防自动登录操作，页面仍有可能要输入验证码、手机扫码。此时需手动操作
        time.sleep(2)   # 让微博登录后，有足够时间跳转到下一页面
        while WB_PIYAO_URL not in driver.current_url or not util.is_element_exist_by_css_selector(driver, "div.gn_set"):
            print("登录仍未成功，需要在页面处理...")
            # 如果页面已跳转到用户首页，则需再次加载微博辟谣首页
            if "weibo.com/u/" in driver.current_url:
                driver.get(WB_PIYAO_URL_PAGE % 1)
            time.sleep(2)
        else:
            print(" 登录微博成功，开始爬取... ")
            # 最好休息一下，让新页面跳转出来，再获取cookies
            time.sleep(1)

        # 获取登录后的cookies
        cookies = driver.get_cookies()
        print("登录成功，获得cookie:%s" % cookies)

        # 将隐性时间再设小，以提高效率。 如果网络不好，则数值应该大一些，以防找不到element报错
        driver.implicitly_wait(1)

        return cookies

d. 全部爬取完毕后，关闭driver

步骤4为关闭driver，由Crawl类实现

    def quit_driver(self):
        self.driver.quit()

e. 爬取完所有微博后，进行写文档操作

步骤5：爬取完所有微博后，进行写文档操作。由Crawl类实现，可以设计成一个工具方法，入参为df数据集，以及文件保存的地址，利用df自带的方法：to_excel()实现

    def write_excel(self):
        util.write_excel(self.excel_df, WB_EXCEL_PATH)

# util.py工具方法
def write_excel(excel_df, excel_path):
    """
    将结果写入Excel
    :param excel_df:
    :param excel_path:
    :return:
    """

    print("开始写入Excel文档：文档名称 %s" % excel_path)
    excel_df.to_excel(excel_path, index=False)
    print("写入Excel文档成功！")

4. Crawl类

正如上面分析，Crawl类主要完成串联方法中的步骤3，因此定义结构如下：

class Crawler:
    """
    爬取类，负责下拉、爬取、翻页，将最终结果存入df
    """

    def __init__(self):
        """
        初始化处理类所需必要的属性
        """
        # 定义空df，以装载处理完的数据
        self.excel_df = DataFrame(columns=EXCEL_COLUMNS)
        # 声明driver
        self.driver = None


    def crawler_all_wb_and_save_df(self):
        """
        不断爬取所有微博内容数据，并存入excel_df最末端
        :return:
        """
        try:
            # 当前处理第几页
            self.page = 1
            # 没到最后一页，则一直循环
            while True:
                # 1. 下拉2次至本页最底端，会出现分页按钮
                for i in range(2):
                    print("  下拉到最底端操作，第 %i 次 ..." % i)
                    self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
                    # 另一种下拉方法
                    # element.sendKeys(Keys.END)
                    # 为防止下拉时，新页面短时间加载不出来，让程序睡眠几秒等待
                    time.sleep(1)
                # 补救措施：若3次下拉还不能到最底，还需再循环
                while not util.is_element_exist_by_css_selector(self.driver, "div[class='W_pages']"):
                    print("  没下拉到最底端，再次下拉...")
                    self.driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
                    # 为防止下拉时，新页面短时间加载不出来，让程序睡眠几秒等待
                    time.sleep(1)

                # 2. 下拉完毕，展示全部内容后，爬取此页微博数据，并添加入df中
                self.__crawler_page_and_save_df()


                # 有时候翻页会失败。在此做检查，看看微博页面中的页数是否为程序中的页数，如不一致则提示
                wb_page_num = self.driver.find_element_by_css_selector(".W_pages>span>a").text
                wb_page_num = wb_page_num[2:-2].strip()
                if str(self.page) != wb_page_num:
                    print("程序页面：%s 与微博页面:%s 不匹配，可能有翻页出错的情况，请检查！" % (self.page, wb_page_num))

                # 3. 检查是否有"下一页"按钮
                w_page = self.driver.find_element_by_class_name("W_pages")
                if "下一页" in w_page.text:
                    self.page += 1
                    # 如果有“下一页”，则翻页至下一页
                    w_page_next = w_page.find_element_by_class_name("next")
                    # 要用如下写法先移动到button上，再点击，，不然总是 ElementClickInterceptedException
                    webdriver.ActionChains(self.driver).move_to_element(w_page_next).click(w_page_next).perform()
                    # w_page_next.send_keys("\n")
                    time.sleep(3)
                else:
                    # 如果没有，则说明到了最后一页，整个爬取完成
                    print("已经到最后一页，爬取微博完成")
                    break
        except:
            print("爬虫出现问题，先返回数据:excel_df")
            traceback.print_exc()

可以看到这个页面的逻辑就是：

1. 下拉两次
2. 爬取
3. 监测是否有下一页，如有则翻页并继续下拉爬取；没有则说明到最后一页，爬取结束返回
4. 所有数据都保存在self.excel_df的DataFrame数据集中

a. 爬取此页微博数据，并添加入df中

爬取页面的逻辑在私有方法def __crawler_page_and_save_df()中，如下


    def __crawler_page_and_save_df(self):
        """
        使用selenium工具爬取当前微博页面信息
        :param page:
        :param driver:
        :return:
        """
        wb_page_start_time = time.time()  # 用于计时

        wb_list = []
        # print("开始爬取第 %i 页数据..." % self.page)
        try:
            # 1. 找出微博内容框架list，也就是每个微博内容块的集合
            # wb_cardwrap_list = driver.find_elements_by_xpath("//div[@action-type='feed_list_item']")  #尽量不用xpath，提高效率
            wb_cardwrap_list = self.driver.find_elements_by_class_name("WB_feed_type")

            # 单线程执行，爬取框架list中的微博数据，返回wb_list
            wb_list = self.__sync_crawler_weibo_info(wb_cardwrap_list)
            
        except:
            print("爬取处理 第 %i 页html数据时出错! ", self.page)
            traceback.print_exc()
        else:
            print("成功爬取第 %i 页数据，爬取有效微博数：%s, 处理本页数据耗时：%s " % (self.page, len(wb_list), time.time() - wb_page_start_time))

        # 不为空则写入df中
        if wb_list:
            self.excel_df = self.excel_df.append(wb_list)

b. 爬取框架list中的微博数据，返回wb_list

上面调用的方法def __sync_crawler_weibo_info()定义如下：

    def __sync_crawler_weibo_info(self, wb_cardwrap_list):
        """
        同步爬取微博数据
        :return:
        """
        wb_list = []  # 爬取到的微博信息整理后的储存list
        for wb_count in range(len(wb_cardwrap_list)):
            # 逐个处理微博内容框架，取出必要字段组成json返回，并添加入返回的list中
            etl_json = util.crawler_weibo_info_func(wb_cardwrap_list[wb_count], self.page, wb_count)
            if etl_json:
                wb_list.append(etl_json)

        return wb_list

此方法实现的内容是：逐个处理微博内容框架，取出必要字段组成json返回，并添加入返回的list中。相对来说比较简单

c. 爬取框架内的微博数据

此为核心代码，为爬取微博内容的方法。因为会被多次调用（随后探讨有关多线程爬取的实现也要用到），因此封装为工具函数，写在util.py模块中，如下：

def crawler_weibo_info_func(wb_cardwrap, page, wb_count):
    """
    selenium提取网页版微博内容信息函数
    :param wb_cardwrap:
    :param page:
    :param wb_count:
    :return:
    """
    wb_content_start_time = time.time()
    try:
        # “微博辟谣”账号发微博时输入的文字内容
        wb_text = wb_cardwrap.find_element_by_class_name("WB_text").text
        # 若为'月度工作报告'，则不进行统计
        if '月度工作报告' in wb_text:
            # 剔除月度工作报告，可打印日志分析剔除结果，以防有误判删除掉有用信息
            print("剔除月度报告： %s" % wb_text)
            return None

        # card转换整理后的json结果
        etl_json = {}

        # "微博辟谣"此条微博的id
        wb_id = wb_cardwrap.get_attribute("mid")
        # 微博名，这里为“微博辟谣”
        wb_name = wb_cardwrap.find_element_by_class_name("WB_info").text
        # “微博辟谣”账号发微博时微博时间
        wb_time = wb_cardwrap.find_element_by_class_name("WB_from").find_element_by_tag_name("a").get_attribute(
            "title")
        # 本微博转发数，若为文章“转发”，则说明还没人转，设为0
        wb_repost_count = wb_cardwrap.find_element_by_class_name("WB_feed_handle").find_elements_by_tag_name(
            "li")[1].find_elements_by_tag_name('em')[1].text
        wb_repost_count = 0 if "转发" == wb_repost_count else wb_repost_count

        # 原微博过长时，需要提取全文
        if "展开全文c" in wb_text:
            wb_long_text = get_weibo_long_text(wb_id)
            if wb_long_text is not None or wb_long_text != "":
                wb_text = wb_long_text

        # set值
        etl_json['WB_id'] = wb_id
        etl_json['WB_name'] = wb_name
        etl_json['WB_text'] = wb_text
        etl_json['WB_time'] = wb_time
        etl_json['WB_repost_count'] = wb_repost_count

        # 3. 判断是否转发他人微博
        # if is_element_exist(wb_cardwrap, 'div[node-type="feed_list_forwardContent"]'):    # 不用这个，当有图片时会比较慢
        wb_feed_expand = get_element_WB_feed_expand_if_exist(wb_cardwrap)
        if wb_feed_expand:
            # 原微博内容框架
            wb_cardwrap_org = wb_feed_expand.find_element_by_class_name("WB_expand")
            # 原微博内容，有可能出现转发账号注销、设置半年可见等失效等问题，无法爬取数据。此时需要判断
            # if not is_element_exist(wb_cardwrap_org, ".WB_empty"):    # 此方法太过耗时(7~15秒)，因此用如下方法
            if not is_weibo_empty(wb_cardwrap_org):
                # 原微博的id
                wb_id_org = wb_cardwrap.get_attribute("omid")
                # 原微博号名称
                wb_name_org = wb_cardwrap_org.find_element_by_class_name("WB_info").text
                # 原微博发微时输入的文字内容
                wb_text_org = wb_cardwrap_org.find_element_by_class_name("WB_text").text

                # 原账号发微博时微博时间
                wb_time_org = wb_cardwrap_org.find_element_by_class_name("WB_from").find_element_by_tag_name(
                    "a").get_attribute("title")
                # 原微博转发数
                wb_repost_count_org = \
                    wb_cardwrap_org.find_element_by_class_name("WB_func").find_elements_by_tag_name('li')[
                        0].find_elements_by_tag_name('em')[1].text

                etl_json['WB_id_org'] = wb_id_org
                etl_json['WB_name_org'] = wb_name_org

                etl_json['WB_time_org'] = wb_time_org
                etl_json['WB_repost_count_org'] = wb_repost_count_org

                etl_json['type'] = "转发"
                etl_json['weibo_name'] = wb_name_org

                etl_json['time'] = wb_time_org
                etl_json['repost_count'] = wb_repost_count_org

                # 原微博过长时，需要提取全文
                if "展开全文c" in wb_text_org:
                    wb_long_text_org = get_weibo_long_text(wb_id_org)
                    # etl_json['wb_long_text_org'] = wb_long_text_org
                    # 替换文本
                    if wb_long_text_org is not None or wb_long_text_org != "":
                        wb_text_org = wb_long_text_org
                etl_json['WB_text_org'] = wb_text_org
                etl_json['text'] = wb_text_org

            else:
                print("此条微博状态：'%s'   因此不可爬取。etl_json = %s" % (wb_cardwrap_org.text, etl_json))
                return None
        # 不是转发，则为原创
        else:
            etl_json['type'] = "原创"
            etl_json['weibo_name'] = wb_name
            etl_json['text'] = wb_text
            etl_json['time'] = wb_time
            etl_json['repost_count'] = wb_repost_count

        print("    第 %i 页，第 %i 条数据处理完成，耗时:%s " % (page, wb_count, time.time() - wb_content_start_time))
        return etl_json

    except:
        print("    第 %i 页，第 %i 条数据处理出错！ 请检查原因！" % (page, wb_count))
        traceback.print_exc()
        return None

以上整个爬虫项目编写完毕，只有配置变量和用到的工具方法没有贴出，具体实现可见源代码

四. 爬虫执行

1. 执行过程

启动程序，会弹出chrome浏览器，开始加载微博辟谣首页，并进行登录（本例会弹出二维码，APP扫码后正式登录成功，开始下拉爬取）

可以看到后端不断的在爬取数据，是逐条进行的，每条月耗时0.8s，每页耗时约30s；共爬取约240页

1. 执行结果

最后爬取存入excel的结果如下，前四列即为课题要求的结果，后面是额外爬取的其他内容

五. 问题总结

使用selenium爬取PC网页版微博时，必须先按照本地电脑的操作系统类型以及已经安装好的Chrome版本，下载好匹配的selenium驱动并配置好环境变量，才能正常启动驱动；否则报错。chrome驱动下载地址： https://npm.taobao.org/mirrors/chromedriver
selenium爬取网页是模拟人操作页面浏览的方式，进行信息提取。因此实际执行中发现，如果程序执行find_element_by_XXX()、click()等查询和点击操作时，如果driver弹出的浏览器，有不限于如下的一些情况**（被最小化隐藏、被其他程序页面覆盖浏览器、要操作的对象还在滚动条区域内，没页面中显示、被其他可以click的标签比如消息提醒button布局覆盖等等）**，则selenium的操作会无法生效，甚至报错can’t find element，导致程序异常。这个问题在电脑全屏打开其他窗口时尤其容易发生，例如在看pycharm后端日志、打开其他浏览器全屏搜索问题。

因此在程序运行时，请保持driver浏览器始终在最顶端，显示窗口足够大，并在中途不要操作，等待爬取完成；同时，driver浏览器窗口需要保持一定的大小，当触发登录点击按钮、下拉到最低端点击下一页按钮时，都需要在chrome浏览器内能肉眼观测到这个元素

受本地网络速度影响，页面在不同环境下加载速度也不一样。而浏览器对Web页面渲染是渐进式加载的，有时候页面未完全加载完成，浏览器已经有了显示，爬虫程序也开始了后续操作。此时js还未生效、css加载不对，可能会出现爬取错误，页面报错的情况。

因此各位需要结合自己本地网络和电脑配置情况，调整程序等待时间，确保页面完全加载完成后，后续填表或者爬取的逻辑才会执行

用try-except处理爬取异常的情况，尽量保留部分data数据写入excel

也可以用selenium提供的隐式等待执行方法：driver.implicitly_wait(30) # 隐性等待，最长等30秒

也可以用selenium提供的隐式等待执行方法：WebDriverWait(driver, 20, 0.5).until(EC.presence_of_element_located(locator))

本程序初稿编时间为2020年12月，整理发表时间为2021年3月20日，此时间点程序运行正常。但微博HTML页面会随时间而更新，因此有可能导致本程序selenium步骤执行失效。本程序旨在抛砖引玉，希望读者能从中获取灵感，开发出适合自己的版本
微博辟谣总共有约240页数据，每页30s；再加上下拉和翻页（约6s~9s的等待），则240页需要9120，约合2.5小时，时间耗时太久；一旦程序因为网络或者内存问题出现报错，则只能爬取保留下部分数据，功亏一篑。

解决方法是通过多线程快速爬取微博内容；多线程分为两种：

一种是在每个页面爬取45条数据时，进行多线程异步爬取，缩短每个页面的爬取时间；

另一种是同时异步启动多个driver驱动，数量为n；同时将微博辟谣240页数据分割为n份的piece，每个driver驱动负责分析爬取一部分piece，最后再汇总写入表格

以上两种多线程方法，我们会在后面的博文中进行探讨

执行程序

项目工程编译了windows版本执行程序：微博数据采集python+selenium执行程序：WBCrawler.exe

执行项目前，需要下载selenium对应的浏览器驱动程序（driver.exe），并放在本机环境变量路径中，否则会报错。安装操作具体可见博客专题中的指导【二】
执行程序时，会在系统用户默认路径下，创建一个虚拟的python环境（我的路径是C:\Users\Albert\AppData\Local\Temp_MEI124882\），因此启动项目所需时间较长（约20秒后屏幕才有反应，打出提示），请耐心等待；也正因如此，执行电脑本身环境是可以无需安装python和selenium依赖包的；同时最后爬取保存的excel也在此文件夹下。

本项目采用cmd交互方式执行，因此等到屏幕显示：

 选择爬取方式：
 1. 移动版微博爬取
 2. PC网页版微博爬取(单线程)
 3. PC网页版微博爬取(页面内多线程)
 4. PC网页版微博爬取(多线程异步处理多页面)

后，用键盘输入1~4，敲回车执行

此exe编译时，工程代码内编写的最终excel记录保存地址为：相对工程根路径下的excel文件夹；因此当本exe执行到最后保存数据时，会因为此excel文件夹路径不存在而报错。若在工程中将保存地址改为绝对路径（例如D:\excel\），再编译生成exe执行，则最终爬取数据可以正确保存

项目工程

工程参见：微博数据采集python+selenium工程：WBCrawler.zip

本专题内对源码粘贴和分析已经比较全面和清楚了，可以满足读者基本的学习要求。源码资源为抛砖引玉，也只是多了配置文件和一些工具方法而已，仅为赶时间速成的同学提供完整的项目案例。大家按需选择

你可能感兴趣的:(爬取微博内容(学习用),python,爬虫,微博,数据采集,selenium)

【Node-Red】Function节点教学零炻大礼包 Node-Red 笔记 node.js
本篇来讲在Node-Red中编写函数时用到的一个至关重要的节点：function。function节点允许消息运行JavaScript代码。其中部分内容来自官方文档翻译：function节点用户指南。Function节点教学1.变量定义2.返回值1）返回单条数据进阶1进阶22）返回多条数据3.其他变量定义1）数组定义buffer2.Array4.运算符1）算数运算符2）赋值运算符3）字符与运算符4
开发知识付费小程序的秘诀：从设计到上线一步到位万岳科技系统开发知识付费知识付费系统源码知识付费小程序小程序人工智能大数据
在移动互联网时代，知识付费小程序成为内容创作者和教育者的热门选择。它不仅降低了用户的使用门槛，还具备高效传播的优势。本文将带你一步步了解如何开发一个功能齐全的知识付费小程序，从设计规划到技术实现，最后顺利上线。一、设计阶段：规划功能模块在开发知识付费小程序之前，首先需要明确小程序的功能模块，以确保开发过程顺利进行。一个典型的知识付费小程序应具备以下功能模块：内容展示模块：用于展示课程、视频、音频等
动手学深度学习V2.0(Pytorch)——25. 使用块的网络 VGG 吨吨不打野动手学深度学习pytorch 深度学习 pytorch 网络
文章目录P1讲解1.1基本介绍1.2总结P2代码实现2.1报错解决2.2windows下专用/共享GPU内存P3Q&AP4.其他4.1ImageNetClassificationLeaderboard4.2VGG其它讲解P1讲解1.1基本介绍视频地址：https://www.bilibili.com/video/BV1Ao4y117Pd教材文档：https://zh-v2.d2l.ai/chapt
教育小程序+AI出题：如何通过自然语言处理技术提升题目质量万岳科技系统开发人工智能小程序自然语言处理
随着教育科技的飞速发展，教育小程序已经成为学生与教师之间互动的重要平台之一。与此同时，人工智能（AI）和自然语言处理（NLP）技术的应用正在不断推动教育内容的智能化。特别是在AI出题系统中，如何通过NLP技术提升题目质量，成为教育领域中的一个重要课题。本文将介绍如何利用自然语言处理技术，通过AI出题系统自动生成高质量、个性化的题目，提升教育小程序的交互性与教学效果。一、自然语言处理（NLP）概述自
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
Python编写的嵌入式系统测试框架程序员杨弋 Python全栈工程师学习指南嵌入式开发 python 开发语言嵌入式
嵌入式系统是一种专门设计用于控制和执行特定任务的计算机系统，测试嵌入式系统是确保其功能和性能达到预期的重要步骤，为了简化测试过程和提高效率，可以使用Python编写的测试框架，本文将介绍如何使用Python编写一个简单的嵌入式系统测试框架，并提供相应的源代码。测试框架的目标是提供一种结构化的方法来执行测试，并生成有关测试执行结果的报告，在嵌入式系统中测试框架通常涉及与硬件交互、执行测试用例、记录结
码农救星！Python使用助手智能体，让编程效率起飞 WilsonShiiii python django pygame virtualenv flask dash pyqt
各位Python开发者们，还在为代码里的各种难题抓耳挠腮吗？今天必须给大家分享一款神器——我的Python使用助手智能体，它堪称咱们编程路上的得力小助手，有了它，编程效率直线飙升！智能语法纠错，编程路上零障碍：写代码时，语法错误最让人头疼，一个小错误可能要花费大量时间排查。而Python使用助手智能体拥有强大的语法分析能力，当你输入代码后，它能瞬间精准定位语法错误，不仅如此，还会给出详细的修改建议
Python实现简易DLNA投屏功能，局域网秒变家庭影院！代码简单说 2025开发必备 python 开发语言 DLNA投屏无线投屏 python实现dlna投屏
欢迎关注『2025开发必备』专栏，专注于解决你在开发过程中遇到的各种问题，帮你快速找到解决方案，节省大量调试时间。内容持续更新中，保证每篇都值得收藏！Python实现简易DLNA投屏，局域网秒变家庭影院！一、前言前两天，我朋友问我，能不能用Python写一个DLNA投屏工具，能把视频从电脑推送到智能电视上播放。我一听，这不就是DLNA协议的基本应用吗？于是花了点时间，写了一个简易版的DLNA投屏脚
python读取docx文件_Python读写docx文件 weixin_39710106 python读取docx文件
Python读写word文档有现成的库可以处理。我这里采用python-docx。可以用pipinstallpython-docx安装一下。这里说一句，ppt和excel也有类似的库哦，而且是直接读取文件里面的xml数据。所以doc格式得另找其他库处理，doc格式不是基于xml的。1、新建或打开文件。这个比较简单用docx的Document类，若指定路径则是打开文档；若没有指定路径则是新建文档#c
关于python有什么问题_关于python中的问题 weixin_39648297 关于python有什么问题
问题1：什么是正确的缩进,缩进是干嘛用的?因为Python中的语句块(如判断、循环等中的语句块)是通过不同的缩进来区分的:不像C或JAVA中的有诸如{}这样的花括号去确定代码块举例:ifuser=='root'{#这里是JAVA或PHP的中if语句块,这里你缩进也许不缩进也行看你自己风格}ifuser=='root'#这里是Python中的,语句块一定要缩进.否则就会提示语法错误.一般用四个空格或
浅聊MQ之Kafka与RabbitMQ简用天天向上杰 kafka rabbitmq 分布式
（前记：内容有点多，先看目录再挑着看。）Kafka与RabbitMQ的使用举例Kafka的使用举例安装与启动：从ApacheKafka官网下载Kafka中间件的运行脚本。解压后，通过命令行启动Zookeeper（Kafka的运行依赖于Zookeeper）。启动Kafka的服务器进程。基本功能实现：生产者：启动生产者进程，向指定的主题（Topic）发送消息。消费者：启动消费者进程，从指定的主题中接收
浅识Linux高阶用法天天向上杰 linux 运维服务器
（前记：内容有点多，先看目录再挑着看。）问题：在Java面试中，当被提问到Linux的高阶用法以及如何使用Linux将程序、数据库、中间件等部署在云上时，可以从以下几个方面进行回答：Linux的高阶用法Shell脚本编写：编写复杂的Shell脚本，实现自动化管理任务，如批量启动/停止服务、日志收集与分析等。利用正则表达式、循环、条件判断等Shell脚本特性，提高脚本的灵活性和可维护性。假设需要每天
python 读取各类文件格式的文本信息:doc,html,mht,excel 北房有佳人手写功能 python读取doc文档 python读取mht python读取excel python读取html
引言众所周知,python最强大的地方在于，python社区汇总拥有丰富的第三方库，开源的特性，使得有越来越多的技术开发者来完善python的完美性。未来人工智能，大数据方向，区块链的识别和进阶都将以python为中心来展开。咳咳咳！好像有点打广告的嫌疑了。当前互联网信息共享时代，最重要的是什么?是数据。最有价值的是什么？是数据。最能直观体现技术水平的是什么?还是数据。所以，今天我们要分享的是：如
python中常见的生成器内容哈哈哈哈q python python
在Python中，生成器（Generator）是一种特殊的迭代器，可以通过函数中的yield关键字轻松创建。生成器的主要特点有：惰性计算：生成器不会一次性计算出所有的值，而是在需要时逐个生成值。节省内存：因为不会一次性存储所有值，所以在处理大数据时效率很高。访问的形式
机器学习入门-读书摘要不像程序员的程序媛机器学习人工智能
先看了《深度学习入门：基于python的理论和实践》这本电子书，早上因为入迷还坐过站了。。因为里面的反向传播和链式法则特别难懂，又网上搜了相关内容进行进一步理解，参考的以下文章（个人认为都讲的都非常好）：https://zhuanlan.zhihu.com/p/65472471https://zhuanlan.zhihu.com/p/635438713https://zhuanlan.zhihu.
【图像处理】使用Python进行实时人脸检测和识别无水先生 AI原理和python实现深度学习和计算机视觉人工智能综合人工智能
一、说明你有没有想过用Python构建一个面部识别系统？不要再看了！在本教程中，我们将使用face_recognition库来检测和识别视频流、图像甚至使用网络摄像头实时检测和识别人脸。二、基本概念人脸识别和人脸检测是计算机视觉领域的两个独立任务。人脸检测是在照片或视频中自动定位人脸的过程。它通常涉及查找面部关键点的位置，例如嘴角和眼睛，并使用这些点来确定面部的位置、大小和方向。另一方面，人脸识别
清华大学KVCache.AI团队联合趋境科技联合的KTransformers开源项目为什么那么厉害魔王阿卡纳兹 IT杂谈人工智能科技开源清华 DeepSeek 趋境科技 KTransformers
KTransformers是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。以下是KTransformers的详细介绍：1.核心特点高性能优化：KTransformers通过内核级优化、多GPU并行策略和稀疏注意力等技术，显著加速模型推理速度，降低硬件门槛。灵活扩展性：KTransformers是一个以Python为中心的
C++栈内存管理：从原理到高性能编程实践溟海. c++c++开发语言
以下是一篇关于C++栈机制的原创技术论文框架及内容，结合语言规范、编译器实现与工程实践，包含创新性分析和实验验证：---**C++栈内存管理：从原理到高性能编程实践****摘要**本文深入剖析C++栈内存的分配机制、生命周期管理及优化策略。通过反汇编分析GCC/Clang编译器实现，验证栈帧结构与函数调用约定，提出基于现代C++特性的栈使用优化方案。实验证明，合理控制栈空间可降低30%内存访问延迟
500道Python毕业设计题目推荐，附源码 Java老徐 Python 毕业设计 python 课程设计 notepad++Python毕业设计题目毕业设计题目推荐毕业设计题目
博主介绍：✌Java老徐、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟Java基于微信小程序的校园外卖平台设计与实现，附源码Python基于Django的微博热搜、微博舆论可视化系统，附源码Java基于SpringBoot+Vue的学生宿舍管理系统感兴趣
使用Python进行自然语言理解和意图识别毕业设计源码 sj52abcd python 课程设计开发语言毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着人工智能的发展，自然语言处理成为了人工智能领域的一个重要分支。在自然语言处理中，理解用户的意图是非常关键的一步。随着Python语言的广泛应用，Python成为了许多自然语言处理任务的
设计模式Python版命令模式（下）小王子1024 设计模式Python版设计模式 python 命令模式
文章目录前言一、命令队列的实现二、撤销操作的实现三、请求日志四、宏命令前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模式、解释器模式、迭代器模式
已解决OSError: [Errno 22] Invalid argument 袁袁袁袁满 python
已解决OSError:[Errno22]Invalidargument文章目录报错代码报错翻译报错原因解决方法千人全栈VIP答疑群联系博主帮忙解决报错报错代码粉丝群里面的一个粉丝用Python读取文件的时候，发生了报错（跑来找我求助，然后顺利帮助他解决了，顺便记录一下希望可以帮助到更多遇到这个bug不会解决的小伙伴），报错信息和代码如下：f=open(file,'r',encoding='utf-
使用 YOLOv8 模型分析摄像头的图像欣然～ YOLO
在Python中使用YOLOv8模型分析摄像头的图像并进行分类。1.安装依赖库首先，你需要安装ultralytics库，它提供了YOLOv8的PythonAPI。可以使用以下命令进行安装：bashpipinstallultralytics2.编写Python代码以下是一个使用YOLOv8模型对摄像头图像进行分类的示例代码：importcv2fromultralyticsimportYOLO#加载预
(3种解决思路)OSError: [Errno 22] Invalid argument:解决python爬虫中报错万物皆可der 爬虫 python
虽然是个小问题，但是纠结我好长时间，找了就此记录一下。1.路径问题更改为：withopen('./file/hi.txt','r','encoding='utf-8'')或withopen('.//file//hi.txt','r'
华为OD机试2025年E卷-完美走位[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go ）实现100%通过率梅花C 华为OD题库华为od 游戏 java
题目描述在第一人称射击游戏中，玩家通过键盘的A、S、D、W四个按键控制游戏人物分别向左、向后、向右、向前进行移动，从而完成走位。假设玩家每按动一次键盘，游戏任务会向某个方向移动一步，如果玩家在操作一定次数的键盘并且各个方向的步数相同时，此时游戏任务必定会回到原点，则称此次走位为完美走位。现给定玩家的走位（例如：ASDA），请通过更换其中一段连续走位的方式使得原走位能够变成一个完美走位。其中待更换的
学习计划：第三阶段（第六周）狐凄学习学习 python 开发语言
目录第三阶段：继承与多态第6周：掌握多态的实现周一：周二：周三：周四：周五：总结一、学习内容回顾（一）理论知识（二）代码实践二、问题与解决（一）问题（二）解决方法三、学习成果四、下周计划第三阶段：继承与多态第6周：掌握多态的实现周一：理论学习：深入学习多态的概念，理解多态是指不同对象对同一消息（方法调用）做出不同响应的能力。在Python中，基于继承实现多态主要通过子类重写父类方法，然后在运行时根
【Python第三方库】PyQt5安装与应用墨辰JC Python python qt 开发语言学习 pyqt
文章目录引言安装PYQT5基于Pyqt5的简单桌面应用常用的方法与属性QtDesigner工具使用与集成窗口类型QWidget和QMainWindow区别UI文件加载方式直接加载UI文件的方式显示窗口转化py文件进行显示窗口PyQt5中常用的操作信号与槽的设置绑定页面跳转引言PyQt5是一个流行的Python库，用于创建桌面应用程序。它提供了对Qt应用程序框架的访问，使得开发者可以利用Qt的强大功
【报错解决】 OSError: [Errno 22] Invalid argument 靠才华吃土报错解决 python 学习
一、错误内容：open(log_path,‘w’).write(str(args)+‘\n\n’)OSError:[Errno22]Invalidargument:‘./model\model_gatenet\2024-03-2215:33:05.731866.txt’要打开的arg文件名称中包含了非法符号，需要将其替换为"-“或”_"二、改正方法：找到时间戳：datetime.datetime.
解决windows下python3.6.5版本的datetime问题:OSError: [Errno 22] Invalid argument 地平线here python python
解决windows下python3.6.5版本的datetime问题1.解决方案在自己代码中使用datetime.datetime.fromtimestamp的位置替换为下面的timestamp_to_datetime函数即可importpytzimportdatetimedeftimestamp_to_datetime(t):"""时间戳转日期时间"""ift>=86400:#24h=86400
OSError: [Errno 22] Invalid argument错误解决方案加油小萌兔 python
在做文件读取写入操作的时候遇见OSError:[Errno22]Invalidargument:'F:\\pythonProject\\Api\\common\\2022-03-11_15:37:23test.txt'的报错，单独的打印出文件路径明明是正确，但使用pythonopen()函数读写文件时就会报该错误错误代码：importosimporttimenow=time.strftime("%
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #1413161683@qq.com (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默