mycsdn5698

用 Python 爬取网页 PDF 和文档

目录

1 爬取网页 PDF
- 1.1 在日历控件中输入时间
- 1.2 下载 PDF 文件
- 1.3 selenium 访问网站被反爬限制封锁
- 1.4 完整代码
2 爬取网页文档
- 2.1 遇到的问题
- 2.2 完整代码
3 一些资源推荐

1 爬取网页 PDF

以 https://reader.jojokanbao.cn/rmrb 上 PDF 的下载为例

1.1 在日历控件中输入时间

参考博客：selenium+Python(Js处理日历控件)
网页的日期框中可以直接输入日期

找到输入框对应的标签，根据 class name 进行内容清楚和输入（如果标签有 id 属性可以根据 id 进行输入框确定），代码如下

browser.find_element_by_class_name('el-input__inner').clear()
browser.find_element_by_class_name('el-input__inner').send_keys('1976-10-09')

输入日期后需要回车才能刷新页面，使用 selenium 模拟键盘事件参考博客：selenium-模拟键盘事件(回车、删除、刷新等)
实现代码如下

from selenium.webdriver.common.keys import Keys

browser.find_element_by_class_name('el-input__inner').send_keys(Keys.ENTER)

1.2 下载 PDF 文件

使用 selenium 下载 PDF 文件参考博客：python selenium 下载pdf文件
需要将简单的 browser = webdriver.Chrome() 替换为如下代码

# PDF 文件保存路径
down_load_dir = os.path.abspath(".")
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ['enable-automation'])
prefs = {
    "download.default_directory": down_load_dir,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "plugins.always_open_pdf_externally": True
}
options.add_experimental_option('prefs', prefs)
options.add_argument("--disable-blink-features=AutomationControlled")
browser = webdriver.Chrome(options=options)

1.3 selenium 访问网站被反爬限制封锁

参考博客：python之selenium访问网站被反爬限制封锁解决方法
添加如下代码

browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

1.4 完整代码

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
from bs4 import BeautifulSoup
import os


url = 'https://reader.jojokanbao.cn/rmrb'

down_load_dir = os.path.abspath(".")
options = webdriver.ChromeOptions()
options.add_experimental_option("excludeSwitches", ['enable-automation'])
prefs = {
    "download.default_directory": down_load_dir,
    "download.prompt_for_download": False,
    "download.directory_upgrade": True,
    "plugins.always_open_pdf_externally": True
}
options.add_experimental_option('prefs', prefs)
options.add_argument("--disable-blink-features=AutomationControlled")
browser = webdriver.Chrome(options=options)

browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
    "source": """
    Object.defineProperty(navigator, 'webdriver', {
      get: () => undefined
    })
  """
})

browser.get(url)

browser.find_element_by_class_name('el-input__inner').clear()
browser.find_element_by_class_name('el-input__inner').send_keys('1976-10-09')
# 输入完成后，敲击键盘上的回车键
browser.find_element_by_class_name('el-input__inner').send_keys(Keys.ENTER)
time.sleep(5)

data = browser.page_source
# print(data)
# 获取文档的下载链接
soup = BeautifulSoup(data)
body = soup.find('div', attrs={'class': 'el-col el-col-24 el-col-xs-24 el-col-sm-12 el-col-md-12 el-col-lg-12 el-col-xl-12'})
link = body.find_all("a")[0].get("href")
print(link)

# 有了开始对 options 的设置，这一步可以直接下载 PDF 文档
browser.get(link)
time.sleep(5)
browser.close()

2 爬取网页文档

以 https://www.laoziliao.net/rmrb/ 上的文档下载为例

2.1 遇到的问题

整体实现思路和爬取小说（https://blog.csdn.net/mycsdn5698/article/details/133465660）的一样，实现过程中遇到了一些问题：
（1）BeautifulSoup 怎样获取标签间文本内容
获取标签的某个属性，例如 a 标签的 href 属性，代码如下

data = requests.get(url = url, headers = headers)
data.encoding = 'UTF-8'
soup = BeautifulSoup(data.text, 'html.parser')
body = soup.find('div', attrs={'id': 'month_box'})

for item in body.find_all('a'):
    link = item.get("href")
    print(link)

获取标签间的文本内容
如果标签属性较少，则可以使用正则提取，例子及其代码如下

findTitle = re.compile(r'(.*?)
',re.S)

for card in soup.find_all('div', class_="card mt-2"):
    # 提取标题
    card_title = re.findall(findTitle, str(card))[0]
    print(card_title)

如果标签属性较多，则可以参考博客：beautifulsoup怎样获取标签间文本内容，例子及其代码如下

data = requests.get(url = news_link, headers = headers)
data.encoding = 'UTF-8'
soup = BeautifulSoup(data.text, 'html.parser')
for context in soup.find_all('div', class_="card mt-2"):
    # 提取标题
    news_title = context.find('h2').string
    print(news_title)

（2）将 br 标签替换为换行符
例子如下

方法一：使用 get_text()
缺点：br 标签会变成一些空格，而不是换行

for news_context in context.find_all('div', class_="card-body lh-lg"):
    tmp_context = news_context.get_text()
    print(tmp_context)

方法二：参考博客 https://blog.csdn.net/u012587107/article/details/80543977
缺点：str(news_context) 的使用导致 div 标签出现，且变成了

for news_context in context.find_all('div', class_="card-body lh-lg"):
    tmp_context = (str(news_context).replace('
','\n')).replace('
','\n')
    # str(news_context) 的使用导致  和 
 也出现了
    tmp_context = (tmp_context.replace('','')).replace('
','')
    # 新闻标题的第一行前是俩Tab，将其替换为四个空格
    tmp_context = tmp_context.replace('　　','    ')
    print(tmp_context)

2.2 完整代码

注意：ANSI 编码的文本在 kindle 打开会有部分乱码，UTF-8 编码的不会

import requests
import re
import time
from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'}

findTitle = re.compile(r'(.*?)
',re.S)


url = "https://www.laoziliao.net/rmrb/1946-06"

# 获取该月内所有日报的链接
data = requests.get(url = url, headers = headers)
data.encoding = 'UTF-8'
soup = BeautifulSoup(data.text, 'html.parser')
body = soup.find('div', attrs={'id': 'month_box'})

for item in body.find_all('a'):
    link = item.get("href")
    # print(link)
    
    # 根据 link 创建每天报纸的 TXT
    # 提取最后一个斜杠后面的字符
    last_slash_index = link.rfind("/")
    if last_slash_index != -1:
        TXT_name = link[last_slash_index + 1:]
        TXT_name = TXT_name.replace("-", "")
    print(TXT_name)
    # ansi 编码用 kindle 打开有乱码
    with open("./TXTs/"+TXT_name+".txt", "w", encoding='utf-8') as f:
        # 访问每天的报纸
        data = requests.get(url = link, headers = headers)
        data.encoding = 'UTF-8'
        soup = BeautifulSoup(data.text, 'html.parser')
    
        # 每一版的内容都放在 class="card mt-2" 的 div 中
        for card in soup.find_all('div', class_="card mt-2"):
            # 提取标题
            card_title = re.findall(findTitle, str(card))[0]
            f.write(card_title + '\n')
            # print(card_title)
        
            # 提取新闻链接
            news = card.find_all('a')
            news_link = news[0].get('href')
            if "#" in news_link:
                index = news_link.index("#")
            news_link = news_link[:index]
            print(news_link)
            time.sleep(1)

            # 访问当天的每一版新闻，每一条新闻都放在 class="card mt-2" 的 div 中
            data = requests.get(url = news_link, headers = headers)
            data.encoding = 'UTF-8'
            soup = BeautifulSoup(data.text, 'html.parser')
            for context in soup.find_all('div', class_="card mt-2"):
                # # 提取标题
                # news_title = context.find('h2').string
                # print(news_title)
                # 提取新闻内容，存放在 class="card-body lh-lg" 的 div 中
                for news_context in context.find_all('div', class_="card-body lh-lg"):
                    # 把
换成换行符
                    tmp_context = (str(news_context).replace('
','\n')).replace('
','\n')
                    # str(news_context) 的使用导致  和 
 也出现了
                    tmp_context = (tmp_context.replace('','')).replace('
','')
                    # 新闻标题的第一行前是俩Tab，将其替换为四个空格
                    tmp_context = tmp_context.replace('　　','    ')
                    f.write(tmp_context + '\n')
                    # print(tmp_context)
            f.write('\n\n')

3 一些资源推荐

除了上述两个作为例子的网站，还有时光印记经典珍藏系列，可以免费查看部分资料，全部资料的话是收费的。

你可能感兴趣的:(Python,应用,python)

AI：263-强化学习在自动驾驶领域的应用与前沿挑战一键难忘精通AI实战千例专栏合集自动驾驶汽车强化学习人工智能
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（ReinforcementLearning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战，并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。1.强化学习的基础概念强化学习是一种通过试错的方式来学习最佳策略的机器学习方法。
强化学习在自动驾驶技术中的应用与挑战电气_空空自动驾驶人工智能机器学习
摘要：围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。对强化学习原理及发展历程进行了介绍；系统介绍了自动驾驶技术体系以及强化学习在自动驾驶领域的应用所需的基础；按不同的应用方向分别介绍了强化学习在自动驾驶领域中的应用案例；深入分析了现阶段强化学习在自动驾驶领域存在的挑战，并提出若干展望。关键词：强化学习；自动驾驶；人工智能近年来，人工智能在各个领域得到了广泛应用。其快速发展为智能交通系统
CSS3网页加载进度条特效：13种炫酷实现 laforet
本文还有配套的精品资源，点击获取简介：本文深入探讨CSS3在网页加载进度条设计中的应用，包括动画、选择器、边框半径、过渡和阴影等新特性。通过介绍13种不同的进度条特效代码，指导开发者如何结合JavaScript实现丰富的进度显示效果，提升用户体验。详细描述了进度条的外观设计和动态效果，如计数器进度条、顶部进度条、背景进度条，并展示了利用Flexbox、Grid布局、Transforms、阴影和渐变
强化学习：在无人驾驶中的应用 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
强化学习：在无人驾驶中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着科技的飞速发展，无人驾驶技术逐渐成为汽车工业和人工智能领域的热点。无人驾驶汽车被认为是未来交通系统的重要组成部分，它能够提高道路安全性、缓解交通拥堵、降低环境污染等。然而，实现无人驾驶面临着诸多挑战，其中最为关键的是如何让汽车在复杂多变的交通环
PySide6(Qt for Python) Quick start maskmoo PySide6 python qt gui
目录需求安装创建并激活一个环境安装:测试安装结果创建一个简单的应用导入依赖库MainClass运行应用需求在安装PySide6之前，必须先安装以下软件::Python3.6+,建议使用,像conda、venv或者virtualenv来构建虚拟环境安装创建并激活一个环境python-mvenvenv,(你的Python可执行文件可能是python3)sourceenv/bin/activatefor
C语言哈希表 niubikls c语言哈希算法数据结构开发语言单片机
哈希表（HashTable）是一种高效的数据结构，用于实现快速的数据查找、插入和删除操作。哈希表通过将关键字（Key）映射到表中的位置（索引），实现近似常数时间的操作效率。哈希表在许多应用中广泛使用，如数据库索引、缓存系统、编译器符号表等。本文将详细介绍如何使用C语言实现哈希表，包括基本概念、哈希函数、冲突处理方法、基本操作、示例代码及其优缺点。哈希表的基本概念定义哈希表是一种通过哈希函数将关键字
Python爬虫基础知识：从零开始的抓取艺术 egzosn python 爬虫开发语言
在大数据时代，网络数据成为宝贵的资源，而Python爬虫则是获取这些数据的重要工具。本文旨在为初学者提供一份Python爬虫的入门指南，涵盖基础知识、常用库介绍、实战案例以及注意事项，帮助你快速上手，成为一名合格的“网络矿工”。一、Python爬虫概述1.1什么是爬虫？爬虫，也称为网络爬虫或蜘蛛，是一种自动抓取互联网信息的程序。它通过模拟人类浏览网页的行为，自动地遍历和抓取网络上的数据，常用于数据
探索PySide6：一个全面的Qt绑定库，助您构建华丽的Python应用黎情卉Desired
探索PySide6：一个全面的Qt绑定库，助您构建华丽的Python应用去发现同类优质开源项目:https://gitcode.com/在Python世界中，开发图形用户界面（GUI）的应用程序时，PySide6是一个不可或缺的名字。它是Qt库的一个官方、稳定且全功能的Python绑定，由Digia（现为TheQtCompany）维护。本文将深入探讨PySide6的特性、用途及其背后的技术，帮助您
Python如何获取股票实时行情？有哪些好用的库和工具股票程序化交易接口量化交易股票API接口 Python股票量化交易大数据 python 股票实时行情库工具股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>Python与股票行情获取的基础Python在金融数据处理中的优势Python是一种功能强大且灵活的编程语言。在金融领域，它的简洁语法和丰富的库使其成为处理股票行情数据的理想选择。Python能够方便地进行数据获取、清洗、分析和可视化
联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署铮铭深度学习 deepseek Janus-Pro 文生图图像理解
直接上手搓了：condacreate-nmyenvpython=3.10-ygitclonehttps://github.com/deepseek-ai/Janus.gitcdJanuspipinstall-e.pipinstallwebencodingsbeautifulsoup4tinycss2pipinstall-e.[gradio]pipinstall'pexpect>4.3'python
Python Kivy 框架使用指南寒秋丶 Python python 开发语言运维开发软件测试测试开发自动化测试性能测试
大家好，在当今数字化的世界中，移动应用程序和交互式用户界面的需求日益增长。开发人员需要一种灵活、功能强大且易于使用的工具来构建跨平台的应用程序，以满足不断变化的用户需求。PythonKivy框架正是这样一种工具，它不仅提供了创建漂亮而且功能丰富的用户界面的能力，还能让开发人员在不同的平台上轻松部署他们的应用程序。本文将带领您深入了解PythonKivy框架，从安装和设置开始，一直到构建复杂交互式应
python kivy使用教程又可乐 python 开发语言深度学习 tensorflow pycharm
Kivy是一个用于创建跨平台应用程序的Python库。它使用基于OpenGL的渲染器，可以让你创建自定义用户界面和交互式应用程序。要使用Kivy，首先需要安装Python和Kivy。推荐使用Anaconda来管理Python环境和安装Kivy。安装Anaconda后，在命令行中运行以下命令来安装Kivy：condainstall-cconda-forgekivy然后，你就可以在Python代码中导
python对文件加密解密模块 ustczhng2012 Python相关博文 crypto AES 加密解密
安装Crypto：pip3installpycryptodome封装一个可用的模块#!/usr/bin/python#-*-coding:UTF-8-*-fromCrypto.CipherimportAESimporthashlibclassAescrypt():def__init__(self,key,model=AES.MODE_CBC,iv='1234567812345678'):self.
Kivy基础教程 PoolPoolIsTryingHard python 开发语言
文章目录一、Kivy是什么？二、安装kivy1.安装kivy2.第一个kivy界面hello，kivy!二，Label三，Button四，Spinbox五，TextInput一、Kivy是什么？Tkinter是Python的图形用户界面(GUI)模块，您可以使用Python制作桌面应用程序。您可以制作窗口、按钮、显示文本和图像等。你也可以用kivy开发Android应用，或者用于iOS开发。二、安
Python对文件加密操作小米粥里游过泳 python 开发语言
采用XOR加密方式。defencrypt_file(encrypt_path,decrypt_path,key):withopen(encrypt_path,"rb")asencrypt_file,open(decrypt_path,"wb")asdecrypt_file:#将key转化为字节码数据，并计算出所需要的字节长度key_bytes=key.to_bytes((key.bit_lengt
python中文件加密你猜 python 文件加密
1、RSA加密算法详解参考：https://blog.csdn.net/wm_1991/article/details/519545652、http://blog.sina.com.cn/s/blog_8657e5490102xy7b.html
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型 m0_57781768 python 语言模型 microsoft
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型在现代人工智能应用中，大型语言模型（LargeLanguageModels,LLM）已经成为了强大的工具，能够生成高质量的自然语言文本，并且被广泛应用于各种任务中，如对话系统、文本生成、内容总结等。然而，如何更加高效地调用这些模型，特别是在实时交互的应用中，往往是开发者面临的挑战。流式传输（Streaming）技术提供了一种解决方案
Python Kivy 进阶功能教程蜡笔小新星 Kivy python nginx 开发语言学习经验分享
文章目录1.动画和效果1.1Kivy的Animation类示例：简单按钮动画1.2创造更多动画效果示例：移动和旋转动画2.音频与视频2.1使用MediaPlayer播放音频和视频文件示例：播放音频文件2.2播放视频文件示例：播放视频3.多媒体和图形处理3.1使用Canvas绘制简单图形示例：绘制形状3.2创建一个图形绘制工具应用示例：基本绘图工具总结在本教程中，我们将深入学习Kivy的一些进阶功能
Python 如何使用访问Windows共享文件夹蜡笔小新星 python windows 开发语言经验分享
文章目录引言前置条件步骤一：导入必要的模块步骤二：配置连接参数步骤三：实例化SMB连接对象并尝试连接步骤四：列出共享文件夹中的文件与文件夹步骤五：下载与上传文件（可选）步骤六：处理连接错误错误排查指南结论引言本教程旨在帮助您使用pysmb库，通过SMB（ServerMessageBlock）协议，轻松连接到Windows共享文件夹，并列举其中的文件与文件夹。此外，我们还将简要介绍如何下载和上传文件
python 文件操作全知道 | python 小知识 aiweker 跟我学python python 前端
python文件操作全知道|python小知识在Python中，处理文件和目录是一项基础且重要的任务。本文将带你了解几个常用的文件和目录处理模块：pathlib、os.path、shutil和os.walk，并通过具体的应用场景和代码示例来展示它们的使用方法。1.pathlib模块pathlib是Python3.4引入的一个模块，它提供了一个面向对象的文件系统路径操作方法。Path类是pathli
MVIKotlin学习笔记：时光旅行软件设计 UtoBug 学习笔记软件设计
时光旅行是一种引人入胜且令人兴奋的概念。在软件设计领域，我们可以借用这个概念来创建可预测和可追溯的应用程序。本篇文章将介绍如何使用MVIKotlin框架来实现时光旅行功能，并提供相应的源代码示例。MVIKotlin是一个基于MVI（Model-View-Intent）架构的库，它提供了一种结构化的方法来构建响应式、可测试和可维护的Android应用程序。时光旅行是MVIKotlin框架的一个强大特
【架构师基础（二）】Java 架构设计的基本原则架构学院 Java成神之路-架构师进阶 java 开发语言架构设计模式
Java架构设计的基本原则：构建稳健、可维护和可扩展的系统在Java开发领域，架构设计是构建高质量软件系统的关键环节。良好的架构不仅能保证系统在当前的正常运行，还能确保其在未来的扩展、维护和优化过程中保持高效和可靠。本文将深入探讨Java架构设计的一些基本原则，包括SOLID原则、设计模式以及代码重构对可维护性的影响，并通过实际的源码示例来详细阐述它们的实现原理、性能考量和应用场景。无套路、关注即
Python的加密与解密_pyarmor解码 2401_84584583 程序员 python 网络安全
随着信息化和数字化社会的发展，人们对信息安全和保密的重要性认识不断提高，于是在1997年，美国国家标准局公布实施了“美国数据加密标准（DES）”，民间力量开始全面介入密码学的研究和应用中，采用的加密算法有DES、RSA、SHA等。随着对加密强度需求的不断提高，近期又出现了AES、ECC等。使用密码学可以达到以下目的：保密性：防止用户的标识或数据被读取。数据完整性：防止数据被更改。身份验证：确保数据
Python: 配置清华源 Dark_Y3 Python python 开发语言
pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple
深入了解 React：从入门到高级应用 ╰つ゛木槿 web前端 react.js 前端前端框架
深入了解React：从入门到高级应用React是由Facebook开发并维护的一个开源JavaScript库，用于构建用户界面。自2013年发布以来，React在前端开发领域迅速崛起，成为最受欢迎的UI构建工具之一。无论是小型的单页应用（SPA）还是复杂的大型企业级应用，React都能提供高效、灵活的解决方案。本文将全面、详细地介绍React，包括其核心概念、工作原理、最佳实践以及生态系统。目录：
特征选择（机器学习）赵孝正机器学习算法机器学习人工智能
目录1.为什么需要特征选择2.常见的特征选择方法2.1过滤式（FilterMethods）小示例（用Python伪代码表达）：2.2包裹式（WrapperMethods）小示例（RFE伪代码示例）：2.3嵌入式（EmbeddedMethods）小示例（Lasso伪代码示例）：3.实践建议4.小结1.为什么需要特征选择在机器学习任务中，经常会遇到以下问题：特征（变量）数量过多，导致计算量大、训练速度
python创建python.py时遇到的问题 name is not defined 江大倩 python python
创建py文件之后，运行文件时报错：是一个nameerror，说var为定义，所以执行不成功。这是因为将var定义在了函数里面，即return后一行的代码缩进了，导致var没有定义成功，只需要去除缩进就可以了。更改如下：
python中name is not defined怎么解决_python name 'file' is not defined的解决办法 weixin_39900582 python中name is not defined怎么解决
python版本3.11源码：poem='''\ProgrammingisfunWhentheworkisdoneifyouwannamakeyourworkalsofun:usePython!'''f=file('poem.txt','w')#openfor'w'ritingf.write(poem)#writetexttofilef.close()#closethefilef=file('po
【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
C++进程间通信共享内存喵先生! linux 服务器运维
目录一、共享内存概述二、共享内存操作一、共享内存概述共享内存是一种允许两个或多个进程共享一个给定存储区域的进程间通信（IPC）方法。它是实现进程间数据交换的最快方法之一，因为数据不需要在进程间复制，只需映射到共享内存即可。共享内存的优点包括：高效：由于不需要通过内核传送数据，因此共享内存是一种非常高效的数据交换方式。实时性：避免了数据复制的步骤，可以为需要快速响应的应用程序提供实时的数据共享。灵活
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他