大数据周会-本周学习内容总结014

开会时间:2023.05.21 15:00 线下会议

目录

01【fhzn项目】

02【Apache NiFi】

03【数据采集-调研】

3.1【数据采集,流程图、架构图、使用场景】

3.2【常见的数据采集技术及其实现方式】

3.3【高考大数据技术可以使用的数据采集技术】

04【专利】


01【fhzn项目】

  1. GitLab
  2. MyBatis-Plus

02【Apache NiFi】

  1. 案例1:同步文件,需求:同步本地磁盘文档上传到hdfs,通过NIFI自动监控磁盘文件上传到hdfs对应的文件夹。
  2. 案例2:离线同步mysql数据到hdfs,需求:导出Mysql数据转换为Json串并保存到hdfs。
  3. 案例3:实时监控kafka数据到hdfs,需求:实时监控kafka主题,将数据同步发送到hdfs。

03【数据采集-调研】

分享“数据采集”,流程图、架构图、使用场景,五分钟。

3.1【数据采集,流程图、架构图、使用场景】

数据采集流程图

  1. 确定数据需求和目标。
  2. 选择数据源。
  3. 设计数据采集方案和技术。
  4. 实施数据采集方案,获取原始数据。
  5. 数据清洗和预处理。
  6. 数据存储和管理。
  7. 数据分析和应用。

数据采集架构图

    +----------------+
    |   数据源       |
    +----------------+
           |
           v
    +----------------+
    |  数据采集工具   |
    +----------------+
           |
           v
    +----------------+
    | 数据清洗和预处理|
    +----------------+
           |
           v
    +----------------+
    |  数据存储系统   |
    +----------------+
           |
           v
    +----------------+
    |  数据分析应用   |
    +----------------+

常见的数据采集使用场景

  1. 电子商务:采集在线商店的销售数据、用户行为数据和产品信息,用于市场调研、推荐系统和个性化营销等。
  2. 社交媒体:从社交媒体平台(如Twitter、Facebook)中采集用户生成的数据,用于情感分析、社交网络分析和舆情监控等。
  3. 物联网:采集传感器生成的实时数据,用于物联网应用和智能设备的监控与控制。
  4. 金融领域:从金融市场、交易所和银行等机构采集金融数据,用于风险管理、投资分析和交易决策等。
  5. 医疗保健:采集医疗记录、生物传感器数据和健康设备数据,用于疾病预测、患者监护和医疗研究等。
  6. 教育领域:采集学生的学习数据和学校管理数据,用于学生绩效评估、教学优化和教育政策制定等。

这些场景只是数据采集的一部分示例,实际应用范围非常广泛。根据具体的业务需求,可以设计适合的数据采集流程和架构,并使用合适的工具和技术来实现数据采集。

3.2【常见的数据采集技术及其实现方式】

在大数据领域中,数据采集使用各种技术和方法,具体选择哪种技术取决于数据的来源和采集需求。下面是几种常见的数据采集技术及其实现方式:

  1. 网络爬虫:网络爬虫是一种自动化程序,用于从互联网上的网页中提取信息。它们通过发送HTTP请求,并解析返回的HTML页面来采集数据。爬虫可以通过编程语言如Python实现,使用库如BeautifulSoup或Scrapy来解析和提取页面数据。
  2. 数据库连接:当数据存储在结构化数据库中时,可以使用数据库连接技术进行数据采集。通过建立与数据库的连接,可以执行查询语句来提取所需的数据。常见的数据库连接方式包括使用Java的JDBC(Java Database Connectivity)或Python的SQLAlchemy等库。
  3. 文件导入:当数据以文件的形式存在时,可以通过文件导入的方式进行数据采集。例如,CSV(逗号分隔值)文件、Excel文件或文本文件等。可以使用各种编程语言提供的文件操作功能来读取文件内容,并将数据提取到内存中进行后续处理。
  4. API调用:许多应用程序和服务提供API(应用程序接口)来访问其数据。通过调用API,可以以结构化的方式从这些应用程序或服务中获取数据。通常,API提供了一组HTTP请求方法(如GET、POST、PUT、DELETE等),通过发送请求并解析响应,可以获取所需的数据。根据API的类型和规范,可以使用各种编程语言和库来进行API调用。
  5. 传感器数据采集:在物联网和传感器网络中,大量的传感器可以生成实时数据。这些传感器可以测量各种环境参数,如温度、湿度、压力等。数据采集可以通过与传感器进行物理连接,或者通过使用传感器提供的网络接口来实现。采集到的数据可以直接存储在数据库中,或者通过消息队列传递给后续处理系统。
  6. 日志文件分析:许多系统和应用程序会生成日志文件,其中包含了各种运行时信息和事件记录。通过分析这些日志文件,可以从中提取有用的数据。数据采集可以通过定期检查日志文件并解析其中的关键信息,或者使用专门的日志分析工具来实现。

总的来说,数据采集的技术和实现方式多种多样,取决于数据的来源和格式。常见的技术包括网络爬虫、数据库连接、文件导入、API调用、传感器数据采集日志文件分析等。根据具体的需求,选择适当的技术和工具来进行数据采集,并确保采集到的数据符合后续分析和处理的要求。

3.3【高考大数据技术可以使用的数据采集技术】

在高考大数据项目中,可以使用以下技术进行数据采集:

  1. 官方数据源:高考成绩等相关数据通常由教育部门或招生考试机构提供。你可以直接向这些官方机构获取数据,可能需要申请访问权限或与他们合作。官方数据源是获取准确和权威数据的最佳途径。
  2. 网络爬虫:如果官方数据源不提供对外访问或数据的获取方式不便利,你可以使用网络爬虫技术从相关教育网站或招生考试网站上采集数据。通过爬取网页上的成绩信息和考生数据,可以获取到一定范围内的高考数据。
  3. API调用:有些教育部门或招生考试机构可能提供API来访问和获取数据。你可以查看他们的开放API文档,了解如何使用API进行数据采集。通过API调用,可以以结构化的方式获取高考相关数据。
  4. 合作伙伴数据分享:与学校、教育机构或其他教育数据提供商建立合作伙伴关系,可以获得更全面和精确的高考数据。这些合作伙伴可能拥有更广泛的数据来源和更详细的数据内容,能够提供更深入的数据分析。
  5. 学校系统数据提取:与各个学校合作,从他们的教务管理系统或学生信息系统中提取高考相关数据。这需要与学校建立数据共享协议,并确保数据采集的合规性和隐私保护。

无论选择哪种数据采集技术,都需要遵守相关法律法规和隐私政策,保护个人信息和数据安全。在进行数据采集时,需要谨慎处理和存储敏感信息,并与数据提供方或相关机构保持合作和沟通,确保数据的准确性和可靠性。

04【专利】

智能后端和架构

数据分析、数据可视化、数据…

你可能感兴趣的:(大数据,大数据)