李恩泽

招商银行fintech选拔课题---《基于微博爬虫的舆情分析》上

最近参加了招商银行总行的fintench精英技术训练营的选拔赛，在通过笔试后，进入了课题研究的环节。因为前段时间学习了一段时间Python，所以选择了《基于微博爬虫的舆情分析》这一课题。该课题的具体要求如下：

课题背景： 请设计微博爬虫，获取微博上最近N天(N<=10)内与招商银行相关的热点新闻与用户意见，代码可根据输入的天数返回最新的微博信息。在已收集的数据中对提及的重点内容（招行相关产品、服务和重点事件等）进行抽取并进行一定程度上的情绪判定。最终以浅显易懂的方式呈现该段时间范围内微博上与招行相关的舆情信息，其中呈现的具体内容和方式可由考生自行设计。

请提交解决方案：课题需将爬虫构建相关PPT和代码作为研究的最终成果，并在PPT中简要展示以下几点内容：

（1）构建爬虫和舆情分析的主要流程与模块；

（2）项目过程中使用到的工具，遇到的困难和问题，以及解决的方式；

（3）简要评价爬虫的效率与性能；

（4）最终基于微博信息进行舆情分析的结果展示；

1.爬虫与舆情分析的主要流程

1.1爬虫切入点

本课题主要对新浪微博进行爬虫，但是遗憾的是新浪微博并没有提供以“关键字+时间+区域”方式获取官方API。但是庆幸的是，新浪提供了高级搜索功能。

点击搜索微博后，我们看地址栏：

http://s.weibo.com/weibo/%25E6%258B%259B%25E5%2595%2586%25E9%2593%25B6%25E8%25A1%258C&typeall=1&suball=1×cope=custom:2017-05-02:2017-05-02&Refer=g

解析如下固定地址部分： http://s.weibo.com/wb/

关键字（2次URLEncode编码）： %25E6%258B%259B%25E5%2595%2586%25E9%2593%25B6%25E8%25A1%258C

搜索时间范围： timescope=custom:2017-05-02:2017-05-02

可忽略项： Refer=g

某次请求的页数（未出现）： page=1（某页请求页数）

既然是这么回事，我们接下来就可以使用网页爬虫的方式获取“关键字+时间”的微博了……

1.2爬虫思路

本课题所采用的爬虫语言是Python。在对新浪微博进行爬虫之前，首先需要模拟登陆，这里所采用的办法是：使用rsa加密模块进行模拟登陆。接下来要构造URL，爬取网页，然后解析网页中的微博信息，如图所示。

另外，高级搜索最多返回 50 页微博。时间范围（ timescope ）可设置为 1 天，如 2017-05-02:201-05-02 。

爬虫代码如下：

爬虫新浪微博需要先模拟登陆，这里采用rsa加密模块进行模拟登陆。

#coding=utf8
   
import urllib
import urllib2
import cookielib
import base64
import re
import json
import hashlib
import rsa
import binascii

cj = cookielib.LWPCookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cj)
opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
postdata = {
     'entry': 'weibo',
     'gateway': '1',
     'from': '',
     'savestate': '7',
     'userticket': '1',
     'ssosimplelogin': '1',
     'vsnf': '1',
      'vsnval': '',
      'su': '',
      'service': 'miniblog',
      'servertime': '',
      'nonce': '',
      'pwencode': 'rsa2', #加密算法
      'sp': '',
      'encoding': 'UTF-8',
      'prelt': '401',
      'rsakv': '',
      'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',
      'returntype': 'META'
}
  
class WeiboLogin:
     def __init__(self, username, password):
          self.username = username
          self.password = password
      
     def __get_spwd(self):
          rsaPublickey = int(self.pubkey, 16)
          key = rsa.PublicKey(rsaPublickey, 65537) #创建公钥
          message = self.servertime + '\t' + self.nonce + '\n' + self.password #拼接明文js加密文件中得到
          passwd = rsa.encrypt(message, key) #加密
          passwd = binascii.b2a_hex(passwd) #将加密信息转换为16进制。
          return passwd
  
     def __get_suser(self):
         username_ = urllib.quote(self.username)
         username = base64.encodestring(username_)[:-1]
         return username
    
     def __prelogin(self):
          prelogin_url = 'http://login.sina.com.cn/sso/prelogin.php?entry=sso&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&client=ssologin.js(v1.4.4)' % self.username
          response = urllib2.urlopen(prelogin_url)
          p = re.compile(r'\((.*?)\)')
          strurl = p.search(response.read()).group(1)
          dic = dict(eval(strurl)) #json格式的response
          self.pubkey = str(dic.get('pubkey'))
          self.servertime = str(dic.get('servertime'))
          self.nonce = str(dic.get('nonce'))
          self.rsakv = str(dic.get('rsakv'))

     def login(self):
          url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)'
          try:
              self.__prelogin() #预登录
          except:
              print 'Prelogin Error'
              return
          global postdata
          postdata['servertime'] = self.servertime
          postdata['nonce'] = self.nonce
          postdata['su'] = self.__get_suser()
          postdata['sp'] = self.__get_spwd()
          postdata['rsakv'] = self.rsakv
          postdata = urllib.urlencode(postdata)
          headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.10; rv:37.0) Gecko/20100101 Firefox/37.0'}
          req  = urllib2.Request(
              url = url,
              data = postdata,
              headers = headers
          )
          result = urllib2.urlopen(req)
          text = result.read()
          p = re.compile('location\.replace\(\'(.*?)\'\)')
          try:
              login_url = p.search(text).group(1)
              urllib2.urlopen(login_url)
              print "Login Succeed!"
          except:
              print 'Login Error!'

爬虫模块代码，注意这里把爬虫得到的代码写入了EXCEL中，保存。

# coding: utf-8


'''
以关键词收集新浪微博
'''
import wx
import sys
import urllib
import urllib2
import re
import json
import hashlib
import os
import time
from datetime import datetime
from datetime import timedelta
import random
from lxml import etree
import logging
import xlwt
import xlrd
from xlutils.copy import copy
from datetime import datetime


class CollectData():
    """数据收集类
       利用微博高级搜索功能，按关键字搜集一定时间范围内的微博。
    """
    def __init__(self, keyword, startTime, interval='50', flag=True, begin_url_per = "http://s.weibo.com/weibo/"):
        self.begin_url_per = begin_url_per  #设置固定地址部分，默认为"http://s.weibo.com/weibo/"
        self.setKeyword(keyword)    #设置关键字
        self.setStartTimescope(startTime)   #设置搜索的开始时间
        #self.setRegion(region)  #设置搜索区域
        self.setInterval(interval)  #设置邻近网页请求之间的基础时间间隔（注意：过于频繁会被认为是机器人）
        self.setFlag(flag)  #设置
        self.logger = logging.getLogger('main.CollectData') #初始化日志

    ##设置关键字
    ##关键字需解码
    def setKeyword(self, keyword):
        self.keyword = keyword.decode('GBK').encode("utf-8") #先将其GBK解码，然后再UTF-8编码，然后再输出：
        print 'twice encode:',self.getKeyWord()

    ##设置起始范围，间隔为1天
    ##格式为：yyyy-mm-dd
    def setStartTimescope(self, startTime):
        if not (startTime == '-'):
            self.timescope = startTime + ":" + startTime
        else:
            self.timescope = '-'

    ##设置搜索地区
    #def setRegion(self, region):
    #    self.region = region

    ##设置邻近网页请求之间的基础时间间隔
    def setInterval(self, interval):
        self.interval = int(interval)

    ##设置是否被认为机器人的标志。若为False，需要进入页面，手动输入验证码
    def setFlag(self, flag):
        self.flag = flag

    ##构建URL
    def getURL(self):
        return self.begin_url_per+self.getKeyWord()+"&typeall=1&suball=1×cope=custom:"+self.timescope+"&page="
     ##固定地址+关键字二次UTF-8编码+
     ##http://s.weibo.com/weibo/%25E8%2583%2596%25E7%25BA%25B8%25E5%2592%258C%25E7%2598%25A6%25E7%25BA%25B8%25E7
	 ##%259A%2584%25E5%258C%25BA%25E5%2588%25AB&typeall=1&suball=1×cope=custom:2017-05-01-0:2017-05-02-0&Refer=g
    ##关键字需要进行两次urlencode
    def getKeyWord(self):
        once = urllib.urlencode({"kw":self.keyword})[3:]  #首先把中文字符转换为十六进制，然后在每个字符前面加一个标识符%。
        return urllib.urlencode({"kw":once})[3:]

    ##爬取一次请求中的所有网页，最多返回50页
    def download(self, url, maxTryNum=4):
        hasMore = True  #某次请求可能少于50页，设置标记，判断是否还有下一页
        isCaught = False    #某次请求被认为是机器人，设置标记，判断是否被抓住。抓住后，需要复制log中的文件，进入页面，输入验证码
        name_filter = set([])    #过滤重复的微博ID  set 一个无序不重复元素集
        
        i = 1   #记录本次请求所返回的页数
        while hasMore and i < 51 and (not isCaught):    #最多返回50页，对每页进行解析，并写入结果文件
            source_url = url + str(i)   #构建某页的URL  在原来的基础上加上page后面的页码
            data = ''   #存储该页的网页数据
            goon = True #网络中断标记
            ##网络不好的情况，试着尝试请求三次
            for tryNum in range(maxTryNum): ##0-3
                try:
                    html = urllib2.urlopen(source_url, timeout=12)
                    data = html.read()
                    break
                except:
                    if tryNum < (maxTryNum-1):
                        time.sleep(10)
                    else:
                        print 'Internet Connect Error!'
                        self.logger.error('Internet Connect Error!')
                        self.logger.info('url: ' + source_url)
                        self.logger.info('fileNum: ' + str(fileNum))
                        self.logger.info('page: ' + str(i))
                        self.flag = False
                        goon = False
                        break
            if goon:
                lines = data.splitlines()   ##按照行分隔，返回一个包含各行作为元素的列表
                isCaught = True
                for line in lines:
                    ## 判断是否有微博内容，出现这一行，则说明没有被认为是机器人
                    if line.startswith('


    
        你可能感兴趣的:(网络爬虫与数据分析)
        
            
                
                    C# 的 as 关键字
                        
visual-studio
                        as运算符将表达式结果显式转换为给定的引用或可以为null值的类型。如果无法进行转换，则as运算符返回null。与强制转换表达式不同，as运算符永远不会引发异常。EasT其中，E是返回值的表达式；T是类型或者类参的名称。下面语句结果相同：EisT?(T)(E):(T)nullas运算符仅考虑引用、可以为null、box（装箱）和unbox（拆箱）转换。不能使用as运算符执行用户定义的转换。{IEn
                    
                    【科研必备】EI/Scopus收录！2025年3-4月智能制造、自动化、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！
                        努力毕业的小土博^_^
学术会议推荐制造自动化人工智能深度学习神经网络算法
                        【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等前沿领域国际会议邀您参与~与全球学者交流，让学术之光在国际舞台上闪耀！文章目录【科研必备】EI/Scopus收录！2025年3-4月智能制造、无人驾驶、人工智能等
                    
                    深度解析Java中的代码分支策略规划：掌握GitFlow与GitHub Flow的艺术
                        墨夶
Java学习资料2javagithub开发语言
                        在这个技术日新月异的时代，每一个开发者都在寻找提高效率、减少错误并优化团队协作的方法。而当涉及到代码管理时，选择正确的分支策略至关重要。今天，我们将深入探讨如何在Java项目中应用两种流行的分支策略——GitFlow和GitHubFlow，并通过详尽的示例代码来展示它们的实际运用。1.分支管理策略概览分支管理策略不仅帮助团队成员之间进行有效的沟通，还确保了代码库的健康状态。无论是小型创业公司还是大
                    
                    【Gitee】error: failed to push some refs to “xxx“ git did not exit cleanly (exit code 1)解决方法
                        Ctrl Z.
giteegit
                        目录1.本地仓库与远程仓库存在冲突2.权限问题3.网络问题4.远程仓库不存在或地址错误另：有关查看分支的介绍在push时操作失败且返回退出码1通常意味着在推送代码到远程仓库时遇到了问题。以下是几种可能的原因以及对应的解决办法：1.本地仓库与远程仓库存在冲突当远程仓库的代码有更新，而本地仓库没有同步这些更新时，就会产生冲突。需要先拉取远程仓库的最新代码，合并到本地分支后再尝试推送。gitpullor
                    
                    Elasticsearch 介绍：分布式搜索与分析引擎
                        吱屋猪_
elasticsearch
                        在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
                    
                    华为ensp--BGP路径选择Community
                        
华为路由bgp
                        学习新思想，争做新青年，今天学习的是BGP路径选择Community实验目的·理解团体属性的概念与作用·熟悉运用团体属性来控制路由传递的方法·理解No-Export、No-Advertise、No-Export-Subconfed属性的区别实验内容本实验网络中，R1属于AS100，R2、R3和R4属于AS编号为200的一个联盟，R5属于AS300。在联盟AS200中，R2和R4属于成员AS2001
                    
                    知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色
                        PersistDZ
大数据与AI人工智能
                        知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
                    
                    记：应聘北京思特奇信息技术股份有限公司 C++工程师
                        指针的值是地址
大四求职c++敏捷开发
                        一轮，软件上的笔试题这里记录几个问题。1.构成C语言的基本单位是函数。2.敏捷开发：相对于“非敏捷”，更强调程序员团队与业务专家之间的紧密协作、面对面的沟通（认为比书面的文档更有效）、频繁交付新的软件版本、紧凑而自我组织型的团队、能够很好地适应需求变化的代码编写和团队组织方法，也更注重软件开发过程中人的作用。（来自百度百科）一个通俗的博客另一个。我个人的理解就是以人为中心，尽量以口头交流为主，以尽
                    
                    A/B测试结果置信度不足时如何决策
                        
测试工具
                        在A/B测试结果置信度不足时，我们需要综合采用多种策略来做出明智决策。增加样本量、延长测试周期、结合实际业务场景、多指标综合评估。其中，增加样本量尤为关键，因为样本量不足往往导致数据波动较大，易产生假阳性或假阴性，从而使测试结论失去可靠性。通过优化采样策略和科学分配资源，能够有效提升测试数据的稳定性和可信度，为后续决策提供更为坚实的数据支撑。一、A/B测试原理与背景、测试信度的重要性A/B测试作为
                    
                    需求池膨胀时如何科学排序优先级
                        
需求分析
                        需求池膨胀时如何科学排序优先级主要依靠数据驱动、战略对齐、风险评估**。其中数据驱动是关键，通过收集历史数据、用户反馈与市场趋势，对各项需求进行量化评估，帮助企业在需求膨胀时做出精准排序和资源配置。实践表明，数据驱动的决策可使需求响应速度提升约30%，大大优化资源分配效果。一、需求池膨胀现象的背景与挑战、需求池指的是企业内部或市场上积累的各类需求、项目或功能请求。随着企业发展和市场环境变化，需求池
                    
                    dig 命令深入学习
                        
服务器linuxdns解析
                        一、dig命令有什么用dig命令（DomainInformationGroper）是一个用于查询DNS(域名系统）记录的强大工具，它提供了详细的DNS信息，主要用于帮助用户诊断、调试和验证与域名解析相关的问题。除了dig命令，还有一种跟dig功能是差不多的命令nslookup二、dig命令安装如果您的Linux系统默认没有安装dig，可能会提示dig:commandnotfound。请使用以下命令
                    
                    Flutter 适配HarmonyOS NEXT：调用原生功能实现相册选取与拍照
                        

                        Flutter适配鸿蒙系统：调用原生功能实现相册选取与拍照项目背景我们的移动端项目基于Flutter开发，为控制开发周期与成本，采用了HarmonyOSNEXT（简称鸿蒙）的Flutter兼容库，并更新了部分三方库为鸿蒙的Flutter兼容库。在图片视频选择与拍摄功能上，我们之前调用的是Android和iOS的原生方法，现在需要为鸿蒙开发一套原生配合使用的方案。遇到的问题鸿蒙的Flutter兼容库
                    
                    一切皆是映射：DQN训练加速技术：分布式训练与GPU并行
                        AI天才研究院
计算AI大模型企业级应用开发实战ChatGPT计算科学神经计算深度学习神经网络大数据人工智能大型语言模型AIAGILLMJavaPython架构设计AgentRPA
                        1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
                    
                    软件定义世界下的教育创新：高校计算机实验室应重心转向开源平台
                        
开源
                        一、一键式教学环境部署，节省90%准备时间•应用模板库：提供200+预置教学工具模板（如JupyterLab+TensorFlow、MySQL集群），教师可根据课程需求选择模板，5分钟内完成包含依赖库、运行环境的全栈部署。•多版本隔离：支持同一服务器并行运行不同版本框架（如Django3.2教学版与4.1开发版），避免版本冲突导致30%的课堂时间浪费。•自助式环境创建：学生通过命令行快速申请带GP
                    
                    Unity3D手游多分辨率适配深度解决方案
                        晴空了无痕
项目解决方案屏幕适配
                        一、适配核心问题剖析当前移动端设备分辨率呈现多元化发展趋势，主流设备分辨率跨度从720P到4K级别，屏幕宽高比包含16:9、18:9、19.5:9、21:9等多种形态。适配难点主要体现在：UI元素错位：传统固定锚点布局在不同宽高比下出现显示异常画面比例失调：等比缩放导致屏幕空间浪费或内容裁切性能与效果平衡：高分辨率设备资源消耗与低端设备性能瓶颈异形屏适配：刘海屏、挖孔屏等特殊屏幕形态的兼容处理二、
                    
                    大规模语言模型从理论到实践 分布式训练的集群架构
                        AI智能涌现深度研究
DeepSeekR1&大数据AI人工智能Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型AIAGILLMJavaPython架构设计AgentRPA
                        大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
                    
                    2025美团最新面试题—Java程序减少GC的设计
                        程序员共鸣
javajvm开发语言
                        1.对象复用与池化线程局部变量：通过ThreadLocal缓存线程私有对象，避免竞争。可变对象：优先使用可修改对象（如StringBuilder代替String拼接）。2.减少对象创建避免隐式装箱：使用基本类型（int而非Integer）。优化循环：避免在循环内创建临时对象。静态不可变对象：将常量声明为staticfinal（如配置参数）。3.数据结构优化预分配容量：初始化集合时指定合理大小（如A
                    
                    Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案
                        roman_日积跬步-终至千里
#flink实战flinkoracle大数据
                        文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
                    
                    浏览器开发者工具深度调试指南：从入门到高阶技巧
                        109702008
编程网络人工智能网络
                        浏览器开发者工具（DevTools）是现代前端工程师的"瑞士军刀"，本文将系统解析其核心功能与实战技巧，助您掌握高效调试的终极奥义。一、基础操作与核心功能1.1工具启动方式快捷键：F12（Win/Linux）|Cmd+Opt+I（Mac）右键菜单：网页任意位置右键→检查（Inspect）移动端调试：启用设备模式（Ctrl+Shift+M）1.2核心面板全景图面板名称核心功能快捷键切换Element
                    
                    【第11章】亿级电商平台订单系统-海量数据架构设计
                        cherry5230
架构系统架构架构分布式
                        1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
                    
                    北京数智医保创新竞赛 | 以“智慧”升级医保，智领云BDOS牢筑竞赛“地基”
                        LinkTime_Cloud
人工智能大数据编程语言数据分析分布式
                        点击“蓝字”关注我们“任重道远”是对当前医保信息化建设最简明的概括，由于涉及人数多、数据庞大、业务复杂，医保升级之路异常艰难，亟需信息化建设的支持。作为首都，北京面临的医保问题更为错综复杂，例如医疗保障种类繁多，金额巨大，医疗机构举办主体多元，隶属关系复杂，医疗机构药品、耗材用量大，医保服务群体与医保层次多元等等。如此一来，建设高水平的首都医疗保障信息化平台迫在眉睫，但就目前来看，北京医保信息化基
                    
                    图生视频技术的发展与展望：从技术突破到未来图景
                        Liudef06
StableDiffusion音视频人工智能深度学习stablediffusion
                        一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
                    
                    NET Core 大数据处理
                        Gene Z
.NetC#c#
                        在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
                    
                    火山云与腾讯云的优势对比
                        苹果企业签名分发
腾讯云云计算
                        首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
                    
                    Flume与Couchbase集成原理与实例
                        AI大模型应用之禅
DeepSeekR1&AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型AIAGILLMJavaPython架构设计AgentRPA
                        Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
                    
                    美团Leaf分布式ID生成器使用教程：号段模式与Snowflake模式详解
                        Cloud_.
分布式
                        引言在分布式系统中，生成全局唯一ID是核心需求之一。美团开源的Leaf提供了两种分布式ID生成方案：号段模式（高可用、依赖数据库）和Snowflake模式（高性能、去中心化）。本文将手把手教你如何配置和使用这两种模式，并解析其核心机制。一、Leaf号段模式使用教程1.环境准备数据库：MySQL5.7+Java环境：JDK1.8+Leaf源码：从GitHub克隆Leaf仓库（推荐使用feature/
                    
                    【论文阅读】MMedPO： 用临床感知多模态偏好优化调整医学视觉语言模型
                        勤奋的小笼包
论文阅读语言模型人工智能自然语言处理chatgpt
                        MMedPO：用临床感知多模态偏好优化调整医学视觉语言模型1.背景2.核心问题：3.方法：3.实验结果与优势4.技术贡献与意义5.结论MMedPO:AligningMedicalVision-LanguageModelswithClinical-AwareMultimodalPreferenceOptimizationMMedPO：用临床感知多模态偏好优化调整医学视觉语言模型gitgub:地址1.
                    
                    腾讯云与MongoDB战略合作升级，瞄准AI时代的数据管理服务
                        CSDN资讯
腾讯云mongodb人工智能
                        2025年3月20日，腾讯云与MongoDB联合宣布续签战略合作协议，双方将围绕AI时代的技术变革为全球用户提供卓越的数据管理服务。文档数据库MongoDB以其灵活的数据结构、强大的性能和原生的分布式扩展性等特点，成为最受欢迎的NoSQL数据库之一，广泛应用于游戏、社交媒体、电商、金融和物联网等各行各业。在DB-Engines全球数据库排行榜上，MongoDB长期位居NoSQL数据库第一。据了解，
                    
                    《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅
                        JJCTO袁龙
前端react.js前端框架
                        文章标题《React开发实践：掌握Redux与Hooks应用》——开启你的前端进阶之旅在前端开发的浪潮中，React.js已经成为开发者们不可或缺的利器。它以其高效、灵活的特性，成为构建现代Web应用的首选框架之一。然而，随着项目复杂度的增加，如何更好地管理状态、优化性能、提升代码可维护性，成为每个开发者必须面对的挑战。幸运的是，我最近出版的《React开发实践：掌握Redux与Hooks应用》这
                    
                    计算机专业毕业设计指南
                        晴天毕设
课程设计毕业设计开发语言java
                        毕业设计是计算机专业学生展示综合能力的重要环节，它不仅是对所学知识的总结，也是进入职场或深造前的实战演练。本文将为你提供一份详细的毕业设计指南，帮助你从选题到答辩顺利完成毕业设计。如果有什么问题可以点击文章末尾名片咨询哦一、毕业设计流程概述毕业设计通常包括以下几个阶段：选题需求分析系统设计编码实现测试与优化论文撰写答辩准备每个阶段都有其重要性，下面将逐一详细说明。二、详细步骤1.选题选题是毕业设计
                    
                                jQuery 键盘事件keydown ,keypress ,keyup介绍
                                    107x
jsjquerykeydownkeypresskeyup
                                    本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。 
一、首先需要知道的是：  1、keydown()  keydown事件会在键盘按下时触发.  2、keyup()     代码如下 复制代码    
$('input').keyup(funciton(){      
                                
                                AngularJS中的Promise
                                    bijian1013
JavaScriptAngularJSPromise
                                    一.Promise 
        Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。 
        为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： 
var cu
                                
                                c++ 用数组实现栈类
                                    CrazyMizzz
数据结构C++
                                    #include<iostream>
#include<cassert>
using namespace std;

template<class T, int SIZE = 50>
class Stack{
private:
	T list[SIZE];//数组存放栈的元素
	int top;//栈顶位置

public:
	Stack(
                                
                                java和c语言的雷同
                                    麦田的设计者
java递归scaner
                                    软件启动时的初始化代码，加载用户信息2015年5月27号 
从头学java二 
1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： 
     a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句 
不会再继续执行。 
     b、for循环相比于whi
                                
                                LINUX环境并发服务器的三种实现模型
                                    被触发
linux
                                    服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 
1  循环服务器与并发服务器模型 
在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。 
目前最常用的服务器模型有： 
·循环服务器：服务器在同一时刻只能响应一个客户端的请求 
·并发服务器：服
                                
                                Oracle数据库查询指令
                                    肆无忌惮_
oracle数据库
                                    20140920 
  
单表查询 
-- 查询************************************************************************************************************ 
-- 使用scott用户登录 
  
-- 查看emp表 
  
desc emp 
  

                                
                                ext右下角浮动窗口
                                    知了ing
JavaScriptext
                                    第一种 
 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/
                                
                                浅谈REDIS数据库的键值设计
                                    矮蛋蛋
redis
                                    http://www.cnblogs.com/aidandan/ 
原文地址：http://www.hoterran.info/redis_kv_design 
 
丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。 
 
                                
                                maven编译可执行jar包
                                    alleni123
maven
                                    http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven 
 
 
<build>
  <plugins>
    <plugin>
      <artifactId>maven-asse
                                
                                人力资源在现代企业中的作用
                                    百合不是茶
HR 企业管理
                                    //人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的 人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点： 工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源 在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着 明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只 知道人力资源是管理企业招聘的 当时我被招聘上了，当时给我们培训 的人
                                
                                Linux自启动设置详解
                                    bijian1013
linux
                                    linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。 
阅读之前建议先看一下附图。 
本文中假设inittab中设置的init tree为： 
/etc/rc.d/rc0.d
/etc/rc.d/rc1.d
/etc/rc.d/rc2.d
/etc/rc.d/rc3.d
/etc/rc.d/rc4.d
/etc/rc.d/rc5.d
/etc
                                
                                Spring Aop Schema实现
                                    bijian1013
javaspringAOP
                                    本例使用的是Spring2.5 
1.Aop配置文件spring-aop.xml 
<?xml version="1.0" encoding="UTF-8"?>  
<beans  
    xmlns="http://www.springframework.org/schema/beans"  
    xmln
                                
                                【Gson七】Gson预定义类型适配器
                                    bit1129
gson
                                    Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， 
  DateTypeAdapter 
  
public final class DateTypeAdapter extends TypeAdapter<Date> {
  public static final TypeAdapterFacto
                                
                                【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
                                    bit1129
update
                                    在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。 
比如： 对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 
  
Spark Streaming的解决方案是累加器，工作原理是，定义
                                
                                linux系统下通过shell脚本快速找到哪个进程在写文件
                                    ronin47

                                    一个文件正在被进程写 我想查看这个进程 文件一直在增大 找不到谁在写 使用lsof也没找到 
这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 
linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。 
幸运的是systemtap的安装包里带了inodewatch.stp，位
                                
                                java-两种方法求第一个最长的可重复子串
                                    bylijinnan
java算法
                                    
import java.util.Arrays;
import java.util.Collections;
import java.util.List;


public class MaxPrefix {

	
	public static void main(String[] args) {
		String str="abbdabcdabcx";

                                
                                Netty源码学习-ServerBootstrap启动及事件处理过程
                                    bylijinnan
javanetty
                                    Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： 
 
http://bylijinnan.iteye.com/blog/1992325 
 
Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的 
文章里面提到的操作，每一步都能在Netty里面找到对应的代码 
其中Reactor里面的Acceptor就对应Netty的ServerBo
                                
                                servelt filter listener 的生命周期
                                    cngolon
filterlistenerservelt生命周期
                                    1. servlet    当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
                                
                                jmpopups获取input元素值
                                    ctrain
JavaScript
                                    jmpopups 获取弹出层form表单 
首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。 
当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。 
我们必须到jmpopups生成的代码中去查找这个值，$(
                                
                                vi查找替换命令详解
                                    daizj
linux正则表达式替换查找vim
                                    一、查找 
 
查找命令 
 
/pattern<Enter> ：向下查找pattern匹配字符串 
?pattern<Enter>：向上查找pattern匹配字符串 
使用了查找命令之后，使用如下两个键快速查找： 
n：按照同一方向继续查找 
N：按照反方向查找 
 
字符串匹配 
 
pattern是需要匹配的字符串，例如： 
 
1:  /abc<En
                                
                                对网站中的js,css文件进行打包
                                    dcj3sjt126com
PHP打包
                                    一，为什么要用smarty进行打包 
apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。 
为什么要进行打包呢，主要目的是为了合理的管理自己的代码 。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
                                
                                php Yii: 出现undefined offset 或者 undefined index解决方案
                                    dcj3sjt126com
undefined
                                    在开发Yii 时，在程序中定义了如下方式： 
       if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
                                
                                linux 文件格式（1） sed工具
                                    eksliang
linuxlinux sed工具sed工具linux sed详解
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2106082  
简介 
      sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
                                
                                Android应用程序获取系统权限
                                    gqdy365
android
                                    引用   
如何使Android应用程序获取系统权限 
 
 
        第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 
 
        1. 在应用程序的AndroidManifest.xml中的manifest节点
                                
                                HoverTree开发日志之验证码
                                    hvt
.netC#asp.nethovertreewebform
                                    HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
                                
                                JSON API：用 JSON 构建 API 的标准指南中文版
                                    justjavac
json
                                    译文地址：https://github.com/justjavac/json-api-zh_CN 
如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式， 那么 JSON API 就是你的 anti-bikeshedding 武器。 
通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。 
基于 JSON API 的客户端还能够充分利用缓存，
                                
                                数据结构随记_2
                                    lx.asymmetric
数据结构笔记
                                    第三章 栈与队列 
一．简答题 
1. 在一个循环队列中，队首指针指向队首元素的  前一个    位置。  
2.在具有n个单元的循环队列中，队满时共有  n-1  个元素。  
3. 向栈中压入元素的操作是先  移动栈顶指针&n
                                
                                Linux下的监控工具dstat
                                    网络接口
linux
                                    1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是, 
                                
                                C 语言初级入门--二维数组和指针
                                    1140566087
二维数组c/c++指针
                                    /* 
 二维数组的定义和二维数组元素的引用 
 
 二维数组的定义： 
 当数组中的每个元素带有两个下标时，称这样的数组为二维数组； 
 (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 
 语法： 
 类型名 数组名[常量表达式1][常量表达式2] 
 
 二维数组的引用： 
 引用二维数组元素时必须带有两个下标，引用形式如下： 
 例如： 
 int a[3][4];  引用：
                                
                                10点睛Spring4.1-Application Event
                                    wiselyman
application
                                    10.1 Application Event 
 
 Spring使用Application Event给bean之间的消息通讯提供了手段 
 应按照如下部分实现bean之间的消息通讯 
   
   继承ApplicationEvent类实现自己的事件 
   实现继承ApplicationListener接口实现监听事件 
   使用ApplicationContext发布消息 
    
 
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.