刹影

爬虫设计方案

文章目录

1 引言
2 系统主要功能需求
3 系统架构

3.1整体架构
3.2 爬虫架构
3.3 数据存储架构
3.4 微服务架构

4.技术方案

4.1 爬虫系统

4.1.1 爬虫原理
4.1.2 消息队列
4.1.3 数据解析
4.1.4 数据存储
4.1.5 定时任务

4.2 分布式数据库

4.2.1 高可用
4.2.2 高性能

4.3 微服务系统

4.3.1 Nginx
4.3.2 负载均衡
4.3.3 反向代理
4.3.4 Netcore Web API
4.3.5 Vue
4.3.6 前后端分离

4.4 数据展示

4.4.1 功能介绍
4.4.2 用户管理
4.4.3 基础数据管理
4.4.4 历史数据查询
4.4.5 统计分析报表
4.4.6 百度地图api
4.4.7 大屏展示

1 引言

通过本项目的实施与建设，在以服务科研工作为主导的原则下，基于高性能大数据软硬件设施，构建多样化、专业化、柔性化的科研数据服务应用平台。利用大数据技术，对预报中心数据进行管理统计，形成可视化的坐标，表格，图形等。

2 系统主要功能需求

要构建多样化、专业化、柔性化的科研数据服务应用平台，现有系统很难承担日益增长的数据分析需求。迫切需要一种全新的系统架构来满足日常业务及数据分析。并有效利用数据的价值，提高数据安全性、系统高可用等。需求分析如下：

构建新的系统架构，从物理架构、数据架构、业务模型架构及应用架构等几方面满足业务需求，根据数据下载需求对各个地方发布的数据进行抓取和传输、存储、调用。
构建新的系统架构，从数据抓取架构、数据存储架构、业务模型架构及应用架构等几方面满足业务需求。
定时抓取互联网数据，将数据提取筛选存入数据库，积累数据，进行大数据统计分析，形成可视化的图形坐标等。
系统多平台整合，建设统一的底层平台，提高系统安全等保级别，规避系统单点风险。

3 系统架构

根据对项目背景和需求的分析，为了能够更好地在大数据时代下支撑大规模数据的应用，分别从爬虫系统架构，微服务系统架构及数据架构建设大数据平台系统。

3.1整体架构

整体架构主要分三大板块：
爬虫系统架构使用基于TypeScript开发语言为框架，使用RabbitMQ作为消息队列来搭建爬虫分布式系统，实现系统的高可用性，高性能，高扩展性，高容错率。
数据存储分为三大模块：Redis集群：主要用来存储缓存数据，实现快速读写，提高数据的运行效率；Oracle数据库集群：可以实现读写分离，提高数据的读写效率，实现负载均衡，失败转移；文件系统集群：主要用来存储资源文件数据，具有安全性，高扩展性，高传输。
微服务架构使用Netcore webapi来搭建，将模块拆分成一个独立的服务单元通过接口来实现数据的交互，使用Nginx作为负载均衡和反向代理服务器来实现分布式架构；Vue框架调用微服务接口来实现前后端分离的概念，通过接口获取时间展示在前端网页，大屏或移动设备上。

系统整体架构设计图

3.2 爬虫架构

爬虫系统架构如图，使用RabbitMQ消息队列作为消息中间件接收网页地址和分发到各个爬虫服务器处理，每个爬虫服务器可以运行多个线程去处理每个网页地址，从而大大提高抓取效率

爬虫系统架构图网页内容抓取流程如图，首先初始化需要抓取的内容的地址存入消息队列里，由定时任务去控制每次抓取的时间间隔，抓取的内容做解析若内容有新链接则继续抓取，满足数据条件的内容提取出来，存入Redis缓存服务器，同时提取出来的内容也同Redis缓存服务器里的数据进行对比，存在则表示重复数据，不需要存储到数据库和Redis缓存服务器里，不存在则解析成数据库结构存入数据库。这样一个流程保证数据的有效性，单一性和安全性。

Created with Raphaël 2.2.0 初始化URL队列定时任务爬取网页内容解析网页内容是否满足数据条件？数据处理去重结束爬取写入Oracle或文件系统 redis缓存获取网页URL继续抓取 yes no yes no

爬虫系统业务流程图

3.3 数据存储架构

信息具有海量、异构的特点，且需要进行快速的解算、分析、处理。分布式处理技术技术是目前在军事、商业、医疗等领域广泛应用的高性能计算技术，利用该技术构建的数据服务支撑平台既能够满足对于存储容量和计算能力的需求，同时使平台具备较强可靠性和可扩展性。
（1）海量存储能力
云平台运行分布式的文件系统，数据库和Redis缓存，能够将数据分块存储在多台计算机组成的存储资源池中，而分块的方法和具体的存储位置对于用户透明，用户如同在访问本地的文件系统。
（2）高吞吐量
平台在读取分数式文件系统中的数据时，分别从不同计算机读取文件的分块，并将其组装成完整的文件，各块的传输使用独立的物理和逻辑通路，提高了访问的吞吐量。
（3）高性能计算能力
云平台采用分布式并行计算计数，将一个复杂运算或大规模数据处理任务分解为多个可并行执行的子任务，并将任务分发到不同服务器、CPU、内核中并行执行，从而利用普通的计算机实现高性能计算。
（4）高可靠性
云平台中的数据均进行冗余备份，文件的多个副本分别存放在不同的计算机中，存储设备的损坏不影响文件的完整性和正确性。
（5）可扩展性
云平台的体系结构使用户可以通过添加计算机的方式水平扩展平台的存储容量和计算能力，随着硬件集群规模的扩大，其存储容量和数据处理能力将已近似线性的趋势增长。

3.4 微服务架构

微服务架构基于NETcore来开发，NETcore是微软提供的一套跨平台技术，可以同时部署在Linux服务器和Window服务器上。在NETcore平台上的Web API 是一个开源的、理想的、构建RES-ful服务的技术，它能够提供轻量级的HTTP服务。WEB API建立在Http协议的，所以可以完美的跨平台，不仅可以用于浏览器的网页，还可以用于移动端设置App（iOS、Android、WP）。Nginx服务器作负载均衡，将请求分发到各个服务器，服务器获取请求，从数据库提取数据，解析成Json格式返回。前端接收Json使用了Vue框架，是其前后端分离，具有高扩展性。

微服务系统架构图

4.技术方案

4.1 爬虫系统

该方案的爬虫系统使用TypeScript作为开发语言，TypeScript是一种由微软开发的自由和开源的编程语言。它是JavaScript的一个超集，而且本质上向这个语言添加了可选的静态类型和基于类的面向对象编程。

4.1.1 爬虫原理

网络爬虫系统一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。网络爬虫系统以这些种子集合作为初始URL，开始数据的抓取。因为网页中含有链接信息，通过已有网页的 URL会得到一些新的 URL，可以把网页之间的指向结构视为一个森林，每个种子URL对应的网页是森林中的一棵树的根节点。这样，Web网络爬虫系统就可以根据广度优先算法或者深度优先算法遍历所有的网页。由于深度优先搜索算法可能会使爬虫系统陷入一个网站内部，不利于搜索比较靠近网站首页的网页信息，因此一般采用广度优先搜索算法采集网页。Web网络爬虫系统首先将种子URL放入下载队列，然后简单地从队首取出一个URL下载其对应的网页。得到网页的内容将其存储后，再经过解析网页中的链接信息可以得到一些新的URL，将这些URL加入下载队列。然后再取出一个URL，对其对应的网页进行下载，然后再解析，如此反复进行，直到遍历了整个网络或者满足某种条件后才会停止下来。

4.1.2 消息队列

消息队列技术是分布式应用间交换信息的一种技术，可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走。通过消息队列，应用程序可独立地执行–它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。该方案采用的是RabbitMQ消息队里，它的主要作用是接受和转发消息，并不处理消息。

RabbitMQ原理图

4.1.3 数据解析

对于爬虫获取的到信息需要解析转换为项目能识别的格式，目前有以下三种方式来实施数据解析：

对于Html形式的文本，使用Jsoup等工具包解析
对于json格式的文本，使用Gson等工具包解析
对于没有固定格式，无法用特定工具解析的文本，使用正则表达式工具获取目标数据

4.1.4 数据存储

该方案对于数据存储主要分为三个模块：

对于资源文件，下载存储到文件服务器，路径存储到数据库。
对于数据去重，需要将数据存储到Redis缓存里，提取数据时作比对。
对于数据存储，数据库设计好相应字段，数据解析成数据库结构存储到数据库。

4.1.5 定时任务

根据需求，项目需要定时的去给定的URL网址抓取数据，所以在定时任务这块项目采用Quartz，它是一个完全由java编写的开源作业调度框架。其优势主要有：

配置方便，支持多任务
业务-定时可控，灵活配置，随时更改
支持分布式集群
其主要组成部分如图：
scheduler（调度器）：将job和trigger绑定在一起
job（任务）：配置具体哪个类实现定时任务
trigger（触发器）：配置定时器参数，如：多久执行一次，执行多上次等

核心元素关系图

4.2 分布式数据库

分布式数据库用于管理实时采集的爬虫数据，及质量数据分析和挖掘的中间结果。
分布式数据库同样由一个管理节点和多个数据节点构成，底层利用分布式文件系统存储数据；利用分布式计算框架处理其中的海量数据，完成查询、筛选操作。

分布式数据库

数据库中每一个记录由键、时间、值组成，而值根据其所属的列簇划分为多个列。数据库采用面向列的存储方式，相同列簇的数据被连续存储，列簇中同一列的数据被连续存储。

4.2.1 高可用

分布式数据库通过安全组内冗余机制来保证集群的高可用特性：

每个安全组可提供1个或2个副本数据冗余;
安全组内数据副本自动同步;
复制引擎自动管理数据同步;
采用扁平架构，每一个节点都可以充当主控节点。避免一个服务器宕机产生的整个集群不可用。

4.2.2 高性能

数据加载功能作为分布式数据库的一部分而存在，目的是将用户从其他数据源得到的原始数据文件，按照某种加载规则分发至集群节点，集群各节点接收数据入库保存到本地磁盘。
分布式数据库支持数据高效并行加载，数据加载速度随节点的扩展而呈现线性增加。集群加载采用B/S架构，包括数据分发服务器和数据分发客户端两个应用程序。
数据分发服务器接收到客户端的数据加载请求后，服务器端负责原始数据文件切分和数据文件的下发；各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。

4.3 微服务系统

该方案使用的是NETcore Web API来做请求接口，基于HTTP协议，将数据传输给前端，前端采用VUE轻量级的渐进式框架来展示数据。

4.3.1 Nginx

Nginx是一款自由的、开源的、高性能的HTTP服务器和反向代理服务器；同时也是一个IMAP、POP3、SMTP代理服务器；nginx可以作为一个HTTP服务器进行网站的发布处理，另外nginx可以作为反向代理进行负载均衡的实现。

4.3.2 负载均衡

负载均衡建立在现有网络结构之上，它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。

4.3.3 反向代理

在计算机网络中，反向代理是代理服务器的一种。服务器根据客户端的请求，从其关系的一组或多组后端服务器（如Web服务器）上获取资源，然后再将这些资源返回给客户端，客户端只会得知反向代理的IP地址，而不知道在代理服务器后面的服务器簇的存在。

4.3.4 Netcore Web API

.NET Core 是一个开源的、跨平台的 .NET 实现。而Web API是网络应用程序接口，通过接口可以对接各种客户端（浏览器，移动设备），构建http服务的框架。

4.3.5 Vue

Vue.js是一个构建数据驱动的 web 界面的渐进式框架。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

4.3.6 前后端分离

核心思想是前端HTML页面通过AJAX调用后端的RESTFUL API接口并使用JSON数据进行交互。

4.4 数据展示

4.4.1 功能介绍

数据采集后Vue框架通过调用微服务接口来获取数据展示到前端，前端会是一个预报中心下载平台，该平台具备用户登录，用户管理，用户级别，基础数据管理，历史数据查询，统计分析报表，百度地图API等功能。同时也具备可扩展性。

4.4.2 用户管理

可以为各级用户分配不同的权限，保证数据及系统的安全性。用户分为三类：

管理员
企业用户
普通用户
其中管理员为系统运行和管理人员，具有系统的所有权限。企业用户只能管理本企业的数据，对本企业的数据具有所有管理权限；普通用户只能对自己拥有的数据进行管理，包括实时监控、诊断等功能，普通用户只能使用该系统，不具备删除、停用等高级权限。

用户登录界面示例图1

用户管理示例图1

4.4.3 基础数据管理

该平台具备对预报中心数据的数据进行查询，修改，删除等功能。

基础数据管理示例图

4.4.4 历史数据查询

该平台可提供历史数据查询功能

历史数据查询示例图

4.4.5 统计分析报表

该平台可以对查询出来的数据进行大数据统计分析，形成条形图，饼状图，曲线图等。

统计分析报表示例图1

统计分析报表示例图2

统计分析报表示例图3

统计分析报表示例图4

4.4.6 百度地图api

百度地图API是一套为开发者提供的基于百度地图的应用程序接口，包括JavaScript、iOS、Andriod、静态地图、Web服务等多种版本，提供基本地图、位置搜索、周边搜索、公交驾车导航、定位服务、地理编码及逆地理编码等丰富功能。

百度地图示例图1

百度地图示例图2

百度地图示例图3

4.4.7 大屏展示

网页上的大屏预览功能，同时也可以直接投到大屏幕上展示

大屏展示示例图

震惊！996加班写教程？OUT了！我用Python+AI，一键自动生成，效率提升100倍！ lizhijianwill 人工智能 python 开发语言改行学it java javascript
导语：你是否还在为了撰写技术教程而苦苦挣扎？是否还在996的工位上，熬夜爆肝，只为输出一篇高质量的技术文档？醒醒吧！这个时代变了！今天，我就要告诉你一个颠覆传统的秘密武器，让你彻底告别低效的手工教程编写模式，拥抱AI，解放生产力，让效率飞起来！时代焦虑：AI浪潮来袭，你还在用“石器时代”的方法写教程？2024年，AI技术已经渗透到我们生活的方方面面。“AI智能体”、“思维链”、“生产力革命”这些词
SDK与API 东锋1.3 开发与应用软件构建软件工程
1.1.SDK的定义SDK是SoftwareDevelopmentKit的缩写，翻译成中文是：软件开发工具包。SDK是一组工具、库、文档和示例代码的集合，旨在帮助开发者更轻松地创建应用程序或集成特定服务。SDK通常由硬件平台、操作系统或服务提供商提供，以便开发者能够利用其平台或服务的功能。1.2.SDK的组成SDK通常可以包括以下内容：库或框架：提供预先编写的代码库，开发者可以直接调用这些库来实现
pycharm快捷键 bluee1966 开发工具 python
常用快捷键快捷键功能Ctrl+Q快速查看文档Ctrl+F1显示错误描述或警告信息Ctrl+/行注释（可选中多行）Ctrl+Alt+L代码格式化Ctrl+Alt+O自动导入Ctrl+Alt+I自动缩进Tab/Shift+Tab缩进、不缩进当前行（可选中多行）Ctrl+C/Ctrl+Insert复制当前行或选定的代码块到剪贴板Ctrl+D复制选定的区域或行到后面或下一行Ctrl+Y删除当前行Shift
npm:升级自身时报错:EBADENGINE 落日弥漫的橘_ Node.js npm 前端 node.js
具体报错信息如下：1.原因分析npm和当前的node版本不兼容。//当前实际版本:Actual:{"npm":"10.2.4","node":"v20.11.0"}可以通过官网文档查看与自己node版本兼容的是哪一版本的npm，相对应进行更新即可：Node.js—Node.js版本2.解决方法升级一下node版本。//需要node的版本号为^20.17.0以上，Required:{"node":"
JAVA开发在 Spring Boot 中集成 Swagger 天之涯上上 java spring boot 开发语言
Swagger是一个广泛使用的API文档生成工具，可以帮助你自动生成和维护RESTfulAPI的文档。在不同的框架中集成Swagger通常需要添加相应的依赖项。以下是几种常见Java框架（如SpringBoot）中集成Swagger的依赖配置。在SpringBoot中集成SwaggerSpringBoot结合Swagger可以通过springfox-swagger2和springfox-swagg
【SpringBoot】SpringBoot：实现文件上传和下载功能 E绵绵 Everything spring boot 后端 java
文章目录引言项目初始化添加依赖配置文件存储位置实现文件上传功能创建文件上传控制器创建上传页面实现文件下载功能创建文件下载控制器安全性和最佳实践文件大小限制文件类型验证文件名和路径验证文件下载时的安全性测试与部署示例：编写单元测试部署结论引言文件上传和下载是Web应用程序中常见的需求。在现代应用中，用户需要上传各种类型的文件，如图片、文档、视频等，或者下载生成的报告和数据文件。SpringBoot通
MinIO xiaolin0333 #微服务 minio 对象存储服务
简介Golang语言实现兼容亚马逊S3云存储服务接口，适合存储大量非结构化数据官方文档：MinIODocker安装MinIO创建并运行容器dockerrun-d\--nameminio\-p9000:9000\--restart=always\-e"MINIO_ACCESS_KEY=minio"\-e"MINIO_SECRET_KEY=minio123"\-v/home/data:/data\-v
虚拟DOM 是三好 web补充 javascript 前端开发语言
一、DOM1、DOM的基本概念DOM将网页的结构表示为一个树形结构，其中每个元素、属性和文本都被表示为树中的一个节点。文档节点（DocumentNode）：树的根节点，代表整个HTML文档。元素节点（ElementNode）：代表HTML元素，例如、、等。属性节点（AttributeNode）：代表HTML元素的属性，例如id、class、href等。文本节点（TextNode）：代表HTML元素
【自动化】使用PlayWright+代理IP实现多环境隔离青塬科技 Python
Playwright是由微软公司2020年初发布的新一代自动化测试工具，相较于目前最常用的Selenium，它仅用一个API即可自动执行Chromium、Firefox、WebKit等主流浏览器自动化操作。对各种开发语言也有非常好的支持。常用的NodeJs、Java、python都有支持，且有丰富的文档参考。Python环境下的安装使用1、安装依赖库pipinstallplaywright2、安装
ESP32-C3入门教程环境篇①——简单介绍与硬件准备小康师兄 ESP32-C3入门教程物联网嵌入式 ESP32 ESP32-C3 WiFi
文章目录一、ESP32-C3简单介绍二、开发板差异三、开发板主要组件四、开发板原理图五、工作准备六、参考一、ESP32-C3简单介绍2.4GHzWi-Fi低功耗蓝牙高性能32位RISC-V单核处理器多种外设内置安全硬件二、开发板差异官方文档介绍了两种开发板ESP32-C3-DevKitM-1ESP32-C3-DevKitC-02认真看了下资料介绍，其实会发现两个开发板都差不多，底板功能pin都差不
工程项目管理流程示意图数据可视化
借助图形天下强大的关系数据可视化技术，该流程图清晰地展示了工程项目从立项到结束的完整流程。从开始的立项、文档评审，到工程量清单、价格咨询，再到招投标、签订合同、开展工程，直至最后的结算和收尾工作，每一环节都紧密相连，通过直观的图形展示，使得复杂的关系数据可视化，便于理解和管理整个项目流程。工程项目管理流程示意图这一流程不仅确保了项目的顺利推进，还有效监控
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署小朱科技学习
基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQ
java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署雪夜科技 mybatis java 数据库
java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Wi
NVIDIA-TensorRT-Python推理呆呆珝推理框架 python 人工智能开发语言
1,前言NVIDIATensorRT进行模型推理的Python实现。TensorRT是一个高性能的深度学习推理优化器和运行时，它能够为深度学习模型提供低延迟和高吞吐量的推理能力。(由于官方文档的使用还是比较简单，也可能自己很菜，参考了别人的文档和自己摸索，写出来这个可以使用的API)2.Python-API推理step1：导入基本库(环境自行配置)#导入TensorRT库importtensorr
SpringBoot整合Easy-Es 今天的接口写完了吗？ elasticsearch spring boot elasticsearch 后端
目录一、什么是Easy-Es二、使用场景2.1检索类服务2.2问答类服务(本质上也是检索类)2.3地图类服务三、springboot整合Easy-Es3.1pom.xml3.2配置文件3.3创建、删除、查询索引3.4创建一个实体类3.5新建Mapper类，类似Mybatis的dao3.6启动类扫描dao四、代码展示五、原生Api调用5.1查看索引mapping关系5.2查看某个文档，具体字段的分词
Java Web学习笔记淘气的然酱计算机学习笔记 java 学习后端
JavaWeb后端基础第1章Maven项目1.1Maven简介Maven基于项目对象模型，通过一小段描述信息来管理项目的构建、报告和文档。Maven提供了一套标准化的项目结构、构建流程和一套依赖管理机制。Maven模型：pom.xml→项目对象模型↔依赖管理模型→仓库Maven仓库包含本地仓库、中央仓库、远程仓库（私服）。Maven项目获取jar包时，首先在本地仓库寻找是否有对应jar包，若没有则
短视频去水印接口支持全网解析源码/自定义API接口亿多多宝源码网站 ajax php
|简介：短视频去水印接口支持全网解析源码，主要是可自定义API随时更换，一次二次解析均可，完全可以对接全网各大站点。后台UI美丽，功能强大~~特色功能：1.内置本地解析接口2.支持各大网站二次解析3.支持自己开放API权限4.支持网站用户开通VIP后可申请API权限5.强大的模块管理6.完整的VIP开发文档7.支持支付宝当面付8.新增广告位9.全站ajax数据提交<
.NET 9 微软官方推荐使用 Scalar 替代传统的 Swagger zzlyx99 microsoft .net javascript
在.NET9中，微软官方推荐使用Scalar替代传统的Swagger（Swashbuckle）作为API文档和交互工具。Scalar是一个现代化的API平台，支持OpenAPI/Swagger规范，提供精美的文档界面和强大的功能。一、如何在.NET9中集成Scalar安装Scalar.AspNetCore包在项目中安装Scalar.AspNetCoreNuGet包。可以通过以下命令完成：bash复
【SpringBoot 】dynamic 动态数据源配置连接池（转） binqian spring spring boot 数据库 oracle
前言在复杂的业务场景中，我们经常需要使用多数据源来满足不同的数据访问需求。DynamicDatasource为我们提供了一种灵活切换不同数据源的解决方案。但是多数据源配置连接池以及说明文档都是收费的。本篇博文将详细介绍如何配置和优化DynamicDatasource的连接池，包括Druid和HikariCP，以及如何根据项目需求进行选择。连接池配置连接池是数据库连接管理的核心组件，它可以显著提高数
2021-10-08 用Python写的Linux下的转换word的docx文件为pdf文件，并使用Docker容器自动化部署 Amoor123 值得收藏的Python小技巧 docker python linux
文档层级完整项目资源代码先上源代码程序的基本思路是在数据库中存储文件名和他的MD5信息，校验这两个数据，如果数据库里面没有就转换，如果有就不转换，如果文件名有但MD5不同，就要删除原有的数据条目，避免word文档回到旧版本时转换不了importsubprocess#fromwin32com.clientimportgencache#fromwin32com.clientimportconstant
【含文档+PPT+源码】基于小程序的智能停车管理系统设计与开发小咕聊编程小程序
项目介绍本课程演示的是一款基于小程序的智能停车管理系统设计与开发，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用智能停车管理系统的重要核心功能包括管理注册用户、管理停车场公告、车辆信息管理、车位信息管理、车辆入库、车辆出库、数据统计、查找附
技术文档的艺术：从知识传承到团队合作的实践指南飞起来fly呀编程开发语言程序人生
在技术领域，文档不仅仅是文字的堆砌，它是知识的桥梁，是团队成员之间的信息纽带，更是掌握和传递技术精髓的重要工具。一份好的技术文档就像一份精确的航海图，使得技术团队能够在复杂的技术海洋中顺畅航行。然而，撰写出色的技术文档并不是一件简单的事情，尤其是对初学者来说。在本篇文章中，我将分享撰写技术文档的经验和最佳实践，从文档结构、内容组织、语言表达等多个方面进行详细探讨，帮助大家构建一份优秀的技术文档。一
信息学/计算机系各种网站（学习资源、常用工具及其他）一只贴代码君命令大全-干货合集学习 dubbo java 开发语言算法 c++
大学指南上海交通大学生存手册中国科学技术大学人工智能与数据科学学院本科进阶指南USTC不完全入学指南大学生活质量指北科研论信息搜集AI信息搜集USTC飞跃网站计算机保研技术新闻HackerNewsTheHackerNewsTechCrunchArsTechnicaMITNews技术博客日更技术雷达学习资源CS清华计算机系学生科协技能引导文档菜鸟教程北大CS自学指南OpenSourceSociety
第112篇区块链上的预言机（Chainlink） wonderBlock 区块链应用区块链以太坊智能合约喂价器
本文环境：操作系统：Windows11家庭版（64位）测试工具：RemixIDE+MetaMask7.7.9合约源码：https://github.com/smartcontractkit/chainlink/tree/develop/contracts参考文档：ConsumingDataFeeds|ChainlinkDocumentation一、预言机（oracles）1.什么是预言机？Orac
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
C# 关于进程回收管理的一款工具设计与分享初九之潜龙勿用 c#开发语言
目录设计初衷开发运行环境CraneofficeProcessGC运行主界面管理任务与策略其它设置移动存储设备管理核心代码-计时器监控小结设计初衷在使用COM模式操作OFFICE组件的开发过程中，当操作完相关文档后，在某些情况下仍然无法释放掉Word或EXCEL等应用进程，因此根据进程活动情况或时间点范围开发了一个强制杀掉指定进程名称的WinForm程序，做为一种辅助工具运行在云服务器上，命名为Cr
高校物品捐赠管理系统（11291） codercode2022 java 后端 spring boot typescript spring javascript actionscript
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发
构建一个rust生产应用读书笔记6-拒绝无效订阅者02 编码浪子 Rust学习 rust 开发语言后端
打破域子模块通常指的是对应用程序的某个特定业务领域进行重构或重新组织。这可能包括拆分、合并或重组代码结构以更好地反映业务规则和逻辑。下面是一些关于如何处理这种情况的建议：1.理解当前状态首先，确保你完全理解现有系统的工作方式。这包括：阅读文档：如果有任何现有的文档，请先阅读。代码审查：深入研究代码库，了解各个部分的功能和相互之间的关系。与团队沟通：与熟悉系统的同事讨论，获取他们的见解和经验。2.定
通过Python为PDF添加图片水印 nini！ pdf python vscode 安全
前言之前介绍了如何通过Python向PDF添加文本水印。事实上，添加图片水印也同样实用。例如将公司或产品logo添加到文档中，从而提升品牌效应或防止他人随意盗用。或者将图片插入到文档中以注明文档用处或状态。与文本水印类似，添加图片水印时，也可以设置添加单个图片水印或者多个重复水印。下面是以Python平台为例，为PDF添加图片水印的方法介绍。所需工具VisualStudioCodeSpire.PD
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/