StoneDT开源舆情系统大数据技术栈介绍

我们目前开源的 舆情系统 分为3个部分,整个系统使用了多种开源技术组件和开源框架,涵盖涉及技术领域广泛,例如:分布式计算、大数据、人工智能、数据中台、数据挖掘、深度学习、java和python的大量实际开发场景案例。

所谓,取之于开源,用之于开源,我们把整套系统开源出去,回馈给技术社区。同时,我们也会逐步的讲解,在这个开源 舆情系统 中我们是如何使用这些技术的,以及在使用中遇到的各种问题和工程师们的解决方案。

数据采集

  • 开发平台:Java EE & SpringBoot
  • 爬虫框架:Spider-flow & WebMagic & HttpClient
  • APP爬虫:Xposed框架
  • URL仓库:Redis
  • 网页渲染解析:Jvppeteer & Playwright(微软开源)
  • web应用服务器:Nginx & Tomcat
  • 储存任务发送:Kafka & Zookeeper
  • 抓取任务发送:RabbitMQ
  • 配置管理:MySQL
  • 前端展示:Bootstrap & VUE

数据处理

  • 开发框架:SpringBoot
  • 开发语言:Java JEE
  • 数据暂存:MySQL
  • 数据索引:Redis
  • 深度学习:PaddlePaddle
  • 自然语言处理:HaNLP & THUCTC
  • 数据处理和储存任务发送:Kafka & Zookeeper
  • 数据中台:自研 & DataEase 
  • 数据初始化:集成FlyWay,自动初始化MySQL
  • 数据总线:RockAPI (进行了二次开发)

数据分析

  • 数据库:MySQL
  • 数据检索:Elasticsearch
  • 中文分词器:IK分词
  • 相似度计算:Clickhouse
  • 数据同步:DataX
  • 文章储存:Mongodb
  • 数据缓存:Redis
  • 消息队列:kafak & rabbitMQ
  • 开发框架:SpringBoot
  • 开发语言:Java JEE
  • 图表展示:Apache  Echarts & anyCharts

项目地址

   开源项目地址:https://gitee.com/stonedtx/yuqing


在线体验

   环境地址:http://open-yuqing.stonedt.com
   用户名:13900000000
   密码:stonedt

原文地址:StoneDT开源舆情系统大数据技术栈介绍

你可能感兴趣的:(开源情报,分布式,网络爬虫,网络爬虫,开发语言,爬虫,big,data)