Ing_ideas

数据挖掘利器 selenium实战案例--论文数据挖掘与可视化分析（上）

- 一、数据挖掘
- - 1 为什么选择又慢又占内存的selenium？
  - 2 selenium获取知网信息流程图
  - - 1）selenium和ChromeOptions参数
    - 2）构建期刊列表循环
    - 3）循环点击并获取每年期刊所在出版期
    - 4）获取标题信息并跳转到论文详情页
    - 5）获取论文页详细信息
  - 2数据储存与清洗
  - - 1）储存方法
    - 2）清洗规则

最近为了对知网论文进行数据分析，需要获取包含标题、作者和作者单位（发文机构）、关键词、参考文献和引证文献等信息，于是用Python中的selenium包控制谷歌浏览器的方式，获取了城市规划领域2012年至2022年五种期刊论文的信息，清洗之后共8585篇论文文献。
本系列文章分为上下两篇，分别为数据挖掘和数据可视化分析，欢迎关注。

本文不包含selenium的详细安装和使用，需要的请查阅官方文档，或者其他人总结的文章。

一、数据挖掘

1 为什么选择又慢又占内存的selenium？

当然是因为知网网站的反扒措施很多、寻找网站真正的请求地址url又困难、提取多数网站数据需要执行JavaScript脚本，对于我们这种刚入门Python的人来说，selenium包可以执行浏览器点击等操作，下图所示获取知网信息操作，虽然慢，在处理类似瀑布加载时比较有效：

2 selenium获取知网信息流程图

我们获取知网信息分为如下五个步骤：

1）selenium和ChromeOptions参数

我主要用了如下参数，更详细的可以看《Selenium Chrome的最全常用Option及其一些加速优化》。

options = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation']) #设置开发者模式启动，该模式下webdriver属性为正常值   一般反爬比较好的网址都会根据这个反爬
options.add_argument('--headless') # 启用无头浏览器即不打开浏览器页面
options.add_argument('lang=zh_CN.UTF-8') # 不加载图片, 提升速度
options.add_argument('blink-settings=imagesEnabled=false')
options.add_argument('--disable-gpu')  # 谷歌文档提到需要加上这个属性来规避bug
#from fake_useragent import UserAgent  # 随机头包 也可以自己定义
ua = UserAgent()
options.add_argument(f'user-agent={ua.random}')  # 随机头
driver = webdriver.Chrome(options=options) # 加入options属性

2）构建期刊列表循环

本次选取了城市规划、城市规划学刊、城市发展研究、规划师、国际城市规划五种期刊，我们可以看到2022年“中国最具国际影响力学术期刊”中人文社会学科城市规划和城市发展研究分别排到第38和第40，具有一定影响力。

代码部分找到响应期刊执行打开浏览器命令就行。

3）循环点击并获取每年期刊所在出版期

我们定义两个函数：

# 定义选择年份函数并点击
def click_issue_year(options,url,Issue_year):
    print(f"正在处理{Issue_year}")
    sleep_date = random.randint(1, 2)
    time.sleep(sleep_date)
    # 执行点击展示当年期刊
    Issue_year_Botton = driver.find_element_by_id(f"{Issue_year}")
    Issue_year_Botton.click()
    time.sleep(sleep_date)
    return driver

# 点击具体的期刊页 获取title_element和count 容易出错
def click_issue_elemet(driver,Issue_year,Singe_Issue_elemet):
写一个try函数 没数据就重试
        try:
            WebDriverWait(driver, 3).until(EC.visibility_of(driver.find_element_by_xpath("//*[@id=\"CataLogContent\"]")))  # 有论文信息出现就继续
            # 点击那一期
            Singe_Issue_elemet.click()
            time.sleep(sleep_date)
            Singe_Issue_elemet.click()
            time.sleep(sleep_date)
            driver.execute_script("window.scrollBy(0,100)")
        except:
            print("此页无论文,需要刷新")
            driver.refresh()
            # 刷新了需要重新定位
            new_window = driver.window_handles[-1]  # 找到新窗口名字
            driver.switch_to.window(new_window)  # 切换到最新打开的窗口
            # 执行点击展示当年期刊
            Issue_year_Botton = driver.find_element_by_id(f"{Issue_year}")
            Issue_year_Botton.click()
            time.sleep(sleep_date)
            click_issue_elemet(driver, Issue_year, Singe_Issue_elemet)# 重新执行程序
        return driver

4）获取标题信息并跳转到论文详情页

这步要注意切换浏览器窗口，因为是在新标签页打开的：

# 切换窗口
new_window = driver.window_handles[-1]  # 找到新窗口名字
driver.switch_to.window(new_window)  # 切换到最新打开的窗口

5）获取论文页详细信息

主要用到了滚动窗口、因为参考文献和引证文献数据需要滚动到它们所在位置才会加载出来：

# 全局像素滚动
driver.execute_script("window.scrollBy(0,800)") # 800像素
# 指定目标滚动
target = driver.find_elements_by_xpath("//*[@id=\"literature-recommend\"]/h5/span")[-1] # 指定位置
driver.execute_script("arguments[0].scrollIntoView();", target) # 拖动到可见的元素去

除此之外还需要根据作者的上标序号对应相应的作者地址（发文机构）。

比如陈勇、钱家潍对应浙江省城乡规划设计研究院，周俊则对应浙江省城乡规划设计研究院规划二分院。

最后点击获取参考和引证文献时候，单种数据比如期刊信息没展示完还需要翻页，并且如果页面没有完全加载，就只能获取期刊和博士两种数据，实际上底部其他类型的引证数据还没有被加载。

底部数据没有被加载（↑↑↑↑↑↑↑↑）

底部数据没有加载后（↑↑↑↑↑↑↑↑)

2数据储存与清洗

我的数据保存在非关系型数据库Mongodb中，意味着不需要如SQL等关系型数据库先定义字段类型才能写入表格，Mongodb数据库可以在同一个表中无限增加字段，对于储存此类数据特别适合，其每条数据类似json数据。

{
  "_id": {
    "$oid": "63a41c7b1af0b53ffc3f7603"
  },
  "journal": "城市规划",
  "title": "加快地下空间利用立法,提高城市可持续发展能力",
  "author": "赵星烁",
  "author_address": "住房和城乡建设部城乡规划管理中心",
  "title_url": "https://kns.cnki.net/kcms2/article/abstract?v=YPzfsUXoupjgblNF5vY-7n8woO9NOLghs4xG_6y2xmbgqtYCTgax9rK4yPDXQtpllx8oaoQTKr-l57KQ4KCDjz9j0X0iFpjSAqy-LTgPAjSJlQ96fa3rNCruJ1_ibP45&uniplatform=NZKPT",
  "keywords": [
    "地下空间;",
    "立法;",
    "可持续发展;"
  ],
  "date": "2015,39(03)",
  "Year": "201503",
  "funds": "国家自然科学基金项目(41371534)资助                                                    ",
  "abstract": "随着我国可持续发展的步伐不断加快,地下空间的开发利用初具规模。本文通过对我国地下空间立法现状的分析,强调了加快地下空间立法的必要性,同时借鉴国际经验,提出我国地下空间立法的建议。",
  "citations_num": "38",
  "citations_info_lst": [
    "[3] 南宁市城市跨江桥梁桥下空间利用规划策略研究[D]. 庞艺飞.哈尔滨工业大学,2020null",
    "[5] 国土空间规划体系下城市地下空间规划的再认识[J]. 刘超;赵竹君;李海梅.城市发展研究,2022(01)null",
    "[10] 城市地下空间规划编制若干问题的探讨[J]. 夏丹.智能城市,2019(06)null",
    "[7] 城市地下空间综合管理关键问题研究[J]. 刘荆;邹亮;羊娅萍.地下空间与工程学报,2020(03)null",
    "[9] 我国城市地下空间确权登记态势与机制研究[J]. 张潆文;张富刚;吴春岐;李凯.中国房地产,2019(18)null",
    "[16] 城市地下空间可持续开发利用问题与对策探讨[J]. 魏新江;崔允亮.现代城市,2016(04)null",
    "[2] “以人为本”视域下城市地下空间居民满意度评价——以杭州为例[J]. 周德;郑星;钟文钰;戚佳玲;李翠珍;周婷;王俊峰.中国土地科学,2022(04)null",
    "[18] 2015年土地科学研究重点进展评述及2016年展望[J]. 冯广京;朱道林;林坚;胡振琪;丰雷;张清勇;郎海鸥;陈美景;仲济香;郧宛琪;张立新;晏学丽;张珂.中国土地科学,2016(01)null",
    "[1] 高密度科技创新区域地下空间开发利用规划研究——以杭州市未来科技城为例[J]. 黄杉;王敏;徐逸程;朱云辰;郑昕文.建筑与文化,2022(09)null",
    "[4] 岩溶管道型突涌水封堵材料研发及其应用研究[D]. 马晨阳.山东大学,2020null",
    "[1] 论我国地下空间利用权制度的构建[D]. 贾宏斌.吉林大学,2016null",
    "[8] 资阳临空经济区地下空间管制研究[D]. 陈俊熹.重庆大学,2019null",
    "[11] 珠海市地下空间开发利用研究[J]. 姜亚莉;张延辉.中国经贸导刊(中),2018(32)null",
    "[6] 苏州市地下空间开发利用管理中的问题与对策研究[D]. 黄媛媛.苏州大学,2019null",
    "[10] H城市地下综合管廊建设“绿色转型”管理研究[D]. 王刚.吉林大学,2018null",
    "[9] 考虑能见度影响的地下多层人员密集场所上行疏散模型研究[D]. 文秋萍.西南交通大学,2019null",
    "[3] 中国城市地下空间立法：近十年以来的进展[J]. 徐生钰;文乾.中国国土资源经济,2022(06)null",
    "[15] 陕西省城市地下空间开发利用规划研究[J]. 李冬雪;刘科伟.西北大学学报(自然科学版),2017(02)null",
    "[4] 我国安全科学与工程学科“十四五”发展战略研究[J]. 范维澄;苗鸿雁;袁亮;周福宝;张来斌;刘乃安;钟茂华.中国科学基金,2021(06)null",
    "[7] 近代历史文化街区地下空间可实施存量评估方法[D]. 刘家韦华.河北工程大学,2019null",
    "[8] 城市地下空间开发利用现状及未来发展理念[J]. 雷升祥;申艳军;肖清华;奚家米;顾霖骏.地下空间与工程学报,2019(04)null",
    "[17] 2015年土地科学研究重点进展评述及2016年展望——土地管理领域分报告[J]. 朱道林;郧宛琪;张立新;晏学丽;张珂.中国土地科学,2016(02)null",
    "[1] 水位变动条件下综合管廊的力学性状研究[D]. 刘创.中南林业科技大学,2021null",
    "[2] 我国城市地下空间开发利用中的环境保护制度研究[D]. 肖玉.河北地质大学,2020null",
    "[12] 地下空间规划条件的实操性研究[J]. 贺俏毅;陈松;吴燕.规划师,2018(05)null",
    "[13] 城市地下空间开发的国际经验及启示[J]. 张京祥;王宇彤.江苏建设,2018(01)null",
    "[14] 我国地下空间开发法制体系的反思与完善[J]. 史浩明.苏州大学学报(哲学社会科学版),2017(05)null",
    "[6] 厦门地下空间规划治理体系构建研究[J]. 韦希.规划师,2021(02)null",
    "[5] 城市地下空间开发利用质量评价[D]. 郑星.浙江工商大学,2020null"
  ],
  "secondcitations_num": "251",
  "reference_num": "11",
  "reference_info_lst": [
    "[4] 北京城市地下空间开发利用的历程与未来[J]. 石晓冬.地下空间与工程学报,2006(S1)null",
    "[2] 城市地下空间法律、政策与实践探索. 邓少海, 等著.东南大学出版社.2010",
    "[3] 城市地下空间资源评估与开发利用规划. 童林, 祝文君, 著.中国建筑工业出版社.2008",
    "[3] 日本城市地下空间开发利用法律研究[J]. 刘春彦;沈燕红.地下空间与工程学报,2007(04)null",
    "[2] 我国城市地下空间规划的理论研究与编制实践[J]. 束昱;柳昆;张美靓.规划师,2007(10)null",
    "[4] 地下空间科学开发与利用. 钱七虎, 编著.江苏科学技术出版社.2007",
    "[1] 城市地下综合体设计研究[D]. 周伟.武汉大学,2005null",
    "[2] Master Planning for Underground Space Use. City of Helsinki Real Estate Department..2012",
    "[1] 拓展城市发展的战略新空间[N/OL]. 祝文君.光明日报.2014",
    "[1] 中国地下空间规划现状与趋势[J]. 邵继中;王海丰.现代城市研究,2013(01)null",
    "[1] 城市地下空间建设政策与标准体系研究. 李显忠, 主编.海洋出版社.2011"
  ],
  "author_address_modified": "住房和城乡建设部",
  "province": "北京市",
  "city": "北京",
  "geometry": "POLYGON ((......)",
}

1）储存方法

利用pymongo接入python，方法是insert_one(dict(“字典”))。

2）清洗规则

去重：根据title和author
删除作者、发文地址为空值的数据
展开作者列，保证每行只有一位作者，方便分析。
对作者地址进行处理
- 统一到学校而非分到学院，设计院、研究院、厅等政府部门同理。
- 根据上一步得到的数据确定所在省、市。
- 删除国外机构的信息
列名更改
完成以后导入到Tableau等可视化软件绘图，Python的绘图包太难学了，初学者可以试试Tableau、excel这些软件分析，地理空间绘图也可以用Arcgis。

带你用数据看世界

![](https://img-blog.csdnimg.cn/img_convert/6ec8eee169b9304bff2258fc86147ffe.png =x 60)
各大平台欢迎关注

android数据存储实验报告，2024年来看看Android的发展 2401_84408418 程序员 android
应届坎坷求职路一个广州非985/211普通本科生，计算机科学与技术专业。以前老是梦想能考一个厉害一点的学府，学习物理专业（因为初中和高中对物理比较有兴趣），无奈高考考得不尽人意。来到了计算机专业，才知道有C语言这玩意。2013年大一，专业C语言成绩太差，被分配到B班学习。临近学校工作室（有真实项目锻炼）招新，那时候基础太差，又不愿意做一个loser。正巧同乡会有一位学长进了该工作室，我向他了解了该
Mysql外键约束与关联表操作 likepandas 数据库 mysql
一、外键约束MySQL的外键约束是一种用于维护数据完整性和参照完整性的机制。它通过在一个表中定义一个或多个字段，引用另一个表的主键，确保数据之间的关系是有效的。外键约束可以防止插入无效的数据，并在数据表之间建立联系。以下是关于MySQL外键约束的详细信息：外键的作用确保数据完整性：外键约束确保引用的记录在主表中存在，防止孤立记录的产生。维护参照完整性：通过外键，数据库可以自动管理表之间的关系，确保
CRUD 操作解析科普（SQL、ORM、FastAPI三种方式）入职啦 python 面试题 sql fastapi 数据库 orm CRUD 操作系统
大家在日常的编程学习与开发交流中，常常会听到CRUD这个术语，可它究竟是什么呢？或许你知道它和数据操作有关，却又不能详细地说明。今天，就带大家深入学习，探究CRUD操作到底代表什么？简而言之：CRUD代表Create、Read、Update和DeleteCRUD是计算机科学中用于描述数据库或类似存储系统中基本操作的缩写。Create（创建）用于添加新数据Read（读取）用于获取数据Update（更
OpenCV相机标定与3D重建(63)校正图像的畸变函数undistort()的使用 jndingxin OpenCV opencv 3d
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述转换图像以补偿镜头畸变。该函数通过变换图像来补偿径向和切向镜头畸变。此函数仅仅是initUndistortRectifyMap（使用单位矩阵R）和remap（使用双线性插值）的组合。有关执行的具体变换详情，请参阅前者函数。对于在源图像中没有对应像素的目的图像中的像
[OpenAI Codex] Evaluating Large Language Models Trained on Code ShadyPi 自然语言处理 AIGC 语言模型人工智能自然语言处理
Linkofpaper:https://arxiv.org/abs/2107.03374.EvaluatingLargeLanguageModelsTrainedonCodeIntroductionCodexisaGPT-basedmodelfine-tunedonpubliccodefromGitHub,towritePythoncode.(Butcopilot,adistinctversion
软件测试丨Redis 的数据同步策略以及数据一致性保证霍格沃兹测试开发学社测试人社区 redis 数据库缓存软件测试测试开发
Redis以其键值存储的方式，为开发者提供了数据快速存取的能力。它不仅支持丰富的数据结构，如字符串、哈希、列表、集合等，而且提供了高效的数据同步与一致性保障机制。正因为如此，Redis被广泛应用于缓存、消息队列、实时数据分析等场景。接下来，我们将详细分析Redis的数据同步策略以及如何确保数据一致性。数据同步策略在理解Redis的数据同步策略之前，我们需要先了解Redis的基本架构。Redis是一
如何防止DDOS攻击与CC攻击？？? 来杯咖啡 Linux ddos 安全服务器 linux
防止DDOS（分布式拒绝服务）和CC（网络层阻断）攻击需要综合采取多种措施，包括以下几个方面：1.增加带宽和资源：通过增加网络带宽和服务器资源，可以扩大系统的吞吐能力，从而能够承受更大规模的攻击流量。2.使用防火墙和入侵检测系统（IDS）：配置防火墙来过滤和限制恶意流量的访问，同时使用IDS来检测并阻止潜在的攻击行为。3.负载均衡和流量分流：使用负载均衡器将流量分散到多个服务器上，分担压力并防止单
深入ArkTS：应用状态管理与LocalStorage装饰器详解一键难忘 ArkTS 鸿蒙开发应用状态管理 LocalStorage装饰器
文章目录ArkTS应用状态管理详解LocalStorage:页面级UI状态存储使用规则概述：装饰器详解：限制条件：使用场景：1.应用逻辑使用LocalStorage2.从UI内部使用LocalStorageArkTS应用状态管理进阶LocalStorage装饰器详解1.@LocalStorageProp2.@LocalStorageLink观察变化和行为表现使用场景展示1.应用逻辑使用@Local
2025届-2026届计算机专业毕业设计选题指南推荐—解答选题困惑以及三大选题方向 IT跃迁谷毕设展 Python实战项目专栏 Java实战项目专栏大数据实战项目专栏计算机毕业设计课程设计毕设毕业设计 java python 大数据
作者：IT跃迁谷毕设展个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！想说的话：感谢大家的关注与支持！Java实战项目集微信小
Linux系统总结小马不敲代码后端 linux 服务器
Linux基础操作系统操作系统OperatingSystem简称OS，是软件的一部分，它是硬件基础上的第一层软件，是硬件和其它软件沟通的桥梁。操作系统会控制其他程序运行，管理系统资源，提供最基本的计算功能，如管理及配置内存、决定系统资源供需的优先次序等，同时还提供一些基本的服务程序。什么是LinuxLinux系统内核与Linux发行套件的区别Linux系统内核指的是由LinusTorvalds负责
初学python爬虫，爬取“豆瓣电影 Top 250”相关信息，并下载电影封面 ~柠月如风~ Python 爬虫 python 爬虫正则表达式
文章目录注：一、爬取“豆瓣电影Top250”相关信息：1、准备工作2、获取数据补充：urllib3、标签解析补充：BeautifulSoup4和re4、保存数据补充：xlwt附：爬取“豆瓣电影Top250”相关信息的完整代码：二、爬取/下载top250电影对应的封面效果展示附：下载电影封面的完整代码：注：所学的视频教程：B站Python爬虫基础5天速成（2021全新合集）Python入门+数据可视
数据结构与算法（六）——循环队列的顺序存储结构（超详解，附动图+代码） fs站在远方看童年数据结构与算法队列指针算法数据结构
上一篇最后我们分析了队列的利弊，故我们这里对队列进行优化。就有了这一篇，循环队列。队列的问题主要便是入队的时间复杂度O(1).出队的时间复杂度0(n)。还有就是当进行插入和删除操作后，线性表的开始空间可能会被空出来，会浪费且占用空间。所以我们这里让队列首位相连变成了一个环，但是如何相连，相连之后入队和出队又是如何操作呢，相连以后会不会出现问题呢，出现问题又该如何解决呢，大家跟我一起往下看吧。优化（
python-with...as--管理上下文环境的语法结构赵钱孙李的赵 python
在Python中，with…as语句是一种用于管理上下文环境的语法结构，常用于处理资源的获取和释放，如文件操作、网络连接、锁定互斥等。它通过上下文管理协议（contextmanagementprotocol）来确保资源的正确使用和释放，即使在处理过程中出现了异常。在Python中，任何实现了上下文管理协议的对象都可以用作with…as语句中的上下文管理器。上下文管理协议要求对象实现两个特殊方法：e
python--对象存储服务器赵钱孙李的赵 python学习记录者 python 服务器开发语言
目录对象存储服务器定义概念普及对象（Object）桶（Bucket）终端节点（Endpoint）访问域名知名的对象存储服务器提供商微软云Azure：MicrosoftAzureBlobStorage华为云OBS:阿里云OSS:腾讯云COSMinIO:AmazonS3(SimpleStorageService)GoogleCloudStorageIBMCloudObjectStorage具体代码使用
python--数据结构赵钱孙李的赵 python学习记录者 python
1.list列表1.1特点有序：列表按照插入顺序排列。可变：可以添加，删除或者修改列表中的元素。异构：包含不同类型的数据。可重复：可迭代对象：可以使用迭代器协议来遍历列表中的元素，列表支持两种基本的迭代方法：for循环和迭代器协议。ps:迭代器协议要求对象实现两个特殊方法：iter()：返回一个迭代器对象next()：返回迭代器中的下一个值，如果没有更多值时，它会抛出StopIteration异常
Python 初始化方法钢铁男儿 Python
1、初始化方法1.1之前代码存在的问题----在类的外部给对象增加属性将案例代码进行调整，先调用方法再设置属性，观察一下执行效果。提示：在日常开发中，不推荐在类的外部给对象增加属性；如果在运行时，没有找到属性，程序会报错；对象应该包含有哪些属性，应该封装在类的内部；1.2初始化方法当使用**类名（）**创建对象时，会自动执行以下操作：1）、为对象在内存中分配空间—创建对象；2）、为对象的属性设置初
小波变换Python代码优游的鱼
小波变换是一种数字信号处理技术，用于对信号进行频域分析和处理。它通常用于信号压缩、滤波和其他信号处理应用中。在Python中，可以使用PyWavelets库来实现小波变换。下面是一个简单的例子，展示了如何使用PyWavelets库对信号进行小波变换：importpywtimportnumpyasnp#定义信号signal=np.random.rand(32)#进行小波变换wavelet='db1'
Python进阶篇 AI天才研究院 Python实战深度学习实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介什么是Python？Python是一种高级编程语言，它的设计理念强调代码可读性、简洁性和可扩展性。其语法简洁而清晰，它支持多种编程范式，包括面向对象的、命令式、函数式编程等。Python被认为是“胶水语言”——能够把许多编程语言连接起来并提供一个统一的接口，用以实现各种功能。为什么要学习Python？首先，Python是一种简单易学、功能丰富的语言。在很多情况下
ElasticSearch解析logback日志并处理异常栈轨迹甘蓝聊Java 【更新中...】项目中的那些事 elasticsearch logback pipeline multiline filebeat多行
文章目录背景分析IngestPipeline解析日志-示例查看IngestPipeline创建Pipeline添加Grok处理器添加时间戳、IP地址和用户代理处理器测试Pipeline多行消息管理filestreaminputloginput解决自定义pipeline解析logback日志Grok处理器Date处理器失败处理器为loginput添加多行处理验证调整Kibana数据视图验证失败处理器
告警管理 SOP：确保问题及时发现与处理 ivwdcwso 运维服务器告警运维
在云运维中，告警管理是确保系统稳定运行的关键环节。通过合理的告警策略和工具，团队可以及时发现问题并快速响应，从而减少对用户的影响。本文将详细介绍告警管理SOP（StandardOperatingProcedure，标准操作流程），涵盖告警目标、工具选择以及具体的操作步骤。©ivwdcwso(ID:u012172506)1.告警目标告警管理的核心目标是及时发现问题并减少误报，确保团队能够快速响应和处
网络爬虫技术如何影响网络安全的 silver687 爬虫
网络爬虫技术对网络安全的影响是多方面的，既有积极的一面，也有消极的一面。以下是具体分析：积极影响1.网络安全监测与漏洞发现网络爬虫可以被用于网络安全监测，帮助企业和机构发现网站或网络系统中的漏洞和安全隐患。例如，通过爬取网站内容，检测是否存在SQL注入、XSS攻击等潜在漏洞。2.威胁情报收集爬虫技术可用于收集网络上的威胁情报，帮助安全研究人员了解最新的攻击手段、恶意软件传播路径等，从而提前做好防御
软件工程师（一）玉茗685 笔记经验分享
目录计算机系统知识总结一、计算机系统基础知识（一）中央处理单元（CPU）（二）数据表示（三）海明码程序设计语言基础知识总结一、程序设计语言概述（一）基本概念（二）基本成分二、语言处理程序基础（一）编译过程（二）确定的有限自动机和不确定的有限自动机（三）语法分析方法计算机系统知识总结计算机系统知识是计算机科学的基础，涵盖了从硬件到软件的各个方面。本文将对计算机系统知识的第一章内容进行总结，包括计算机
初始化一个python项目 joker云 python 开发语言
初始化一个Python项目通常涉及以下步骤：选择项目名称：选择一个描述性的名称来代表你的项目。创建项目目录：在你的工作空间中创建一个新目录。设置虚拟环境：使用虚拟环境可以隔离项目依赖，避免不同项目之间的依赖冲突。编写代码：在项目目录中创建Python脚本。管理依赖：使用requirements.txt或Pipfile来管理项目依赖。配置项目：创建setup.py或pyproject.toml文件来
揭秘Linux：从内核到发行版，一文读懂开源操作系统的核心奥秘寒水馨 Linux问题解决方案 linux 开源运维
揭秘Linux：从内核到发行版，一文读懂开源操作系统的核心奥秘文章目录揭秘Linux：从内核到发行版，一文读懂开源操作系统的核心奥秘引言：Linux的魅力与挑战Linux内核：操作系统的心脏内核版本命名规则内核版本的演进历史主流内核分支解析Linux发行版：为什么如此多样化？发行版的定义与组成主流发行版深度对比如何选择适合自己的发行版内核与发行版的关系：解开"版本"之谜发行版如何选择和定制内核内核
python里的初始化使用将将_毛团尾巴 python 开发语言 pytest
比如我们在函数B想要调用函数A，可以使用调用函数A的函数名，然后得到函数A的return值但是如果调用函数A需要传入参数才能运行，或者不想再去调用整个函数A获取值，此时可以将需要调用的参数初始化，变成全局参数，这样就不需要再次运行函数A，并且不仅仅只能调用得到一个return值（一个函数只能有一个return，且只能return一个变量值）1、普通类里面的初始化使用_init_def__init_
2025年前端发展趋势贵州数擎科技有限公司前端 javascript
开发领域：前端开发|AI应用|Web3D|元宇宙技术栈：JavaScript、React、ThreeJs、WebGL、Go经验经验：6年+前端开发经验，专注于图形渲染和AI技术开源项目：github晓智元宇宙、数字孪生引擎、前端面试题大家好！我是[晓智]，一位热爱探索新技术的前端开发者，在这里分享前端和Web3D、AI技术的干货与实战经验。如果你对技术有热情，欢迎关注我的文章，我们一起成长、进步！
soso移动营业厅精神抖擞，开业大吉 java eclipse
名称：soso移动营业厅项目功能分析：个人：注册，登录，查看个人信息，修改个人信息（修改密码），充值，查看我的业务，查看业务大厅（已发布），办理业务，终止业务管理员：查看所有人信息，查看现有业务，查看可以办理的业务，未发布项目，添加业务（添加完成之后，在未发布中），发布新业务（未发布的业务发布出去），删除业务（不做删除，业务的上架和下架，改为未发布），修改业务价格原有用户有2个，管理员1个：管理员
搜索广告召回技术在美团的实践 ? 思维导图-java架构用心去追梦 java 架构开发语言
搜索广告召回技术在美团这样的大型互联网公司中扮演着至关重要的角色，它直接影响到广告的展示效果、用户体验以及商家的营销成效。通过有效的召回机制，可以确保用户看到的相关性和个性化的广告内容，从而提高点击率和转化率。以下是关于搜索广告召回技术在美团实践中的思维导图结构，特别关注Java架构师可能关心的技术细节：搜索广告召回技术在美团的实践│├───概述│├───定义与重要性││└───召回是指从大量候选
谈谈游戏中数据一致性你一身傲骨怎能输网络同步数据一致性
在多用户环境中，确保数据一致性确实是一个复杂且具有挑战性的任务，尤其是在实时游戏中。以下是对数据一致性挑战的深入分析，以及您提到的解决方案的详细说明和其他可能的解决方案。数据一致性挑战并发更新：多个玩家可能同时对同一数据进行操作（例如，攻击同一目标、拾取同一物品），这会导致数据冲突和不一致。网络延迟：网络延迟可能导致某些客户端的状态更新滞后，导致不同客户端看到的数据状态不一致。数据包丢失：在网络传
python小波变换万元神万得 python
def extract_wavelet_features(data, column_name='声波强度 (AE)', scales=np.arange(1, 4), wavelet='cmor'): emr_values = data[column_name].values coefficients, frequencies = pywt.cwt(emr_values, scales
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option