钱曙光

2017年网页抓取：先进的Headless Chrome技巧

原文：Web Scraping in 2017: Advanced Headless Chrome Tips & Tricks
作者： Martin Tapia
翻译：不二

Headless Chrome是Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行程序。相比于现代浏览器，Headless Chrome 更加方便测试web应用，获得网站的截图，做爬虫抓取信息等，也更加贴近浏览器环境。下面看看作者分享的使用Headless Chrome进行网页抓取的经验。

PhantomJS的研发已经停止，而Headless Chrome成了热门关注的焦点，大家都很喜欢它，包括我们。在Phantombuster公司，网页抓取是我们工作的很大一部分，现在我们广泛使用Headless Chrome。

这篇文章，将告诉你如何快速入门Headless Chrome生态系统，并展示从已经抓取数百万网页中学到的经验。

文章摘要：
1. 有很多库可以控制Chrome，可以根据自己的喜欢选择。
2. 使用Headless Chrome进行网页抓取非常简单，掌握下面的技巧之后更是如此。
3. Headless浏览器访客可以被检测到，但没人这么做。

Headless Chrome简述

Headless Chrome基于PhantomJS（QtWebKit内核）由谷歌Chrome团队开发。团队表示将专注研发这个项目，未来也会不断维护它。

这意味着对于网页抓取和自动化的需求，现在可以体会Chrome的速度和功能，因为它具备世界上使用最多的浏览器的特性：支持所有网站，支持JS引擎，还有伟大的开发者工具API。太可怕啦！

选用哪个工具控制Headless Chrome？

2017年网页抓取：先进的Headless Chrome技巧_第1张图片

市面上确实有很多NodeJS库来支持Chrome新版headless模式，每一个都各有特色，我们自己的一款是NickJS。倘若没有自己的抓取库，怎么敢轻易的说自己是网页抓取专家。

还有一套C++ API和社区用其他语言发布的库，比如说基于GO语言。我们推荐使用NodeJS工具，因为它和网页解析语言一样（下面你会看到它有多便利）。

网页抓取？它不是非法的吗？

我们无意挑起无休止的争论，但不到两周前，美国一名地方法官下令允许第三方抓取领英(LinkedIn)公众档案。目前为止这只是初步的法令，诉讼仍会继续进行，领英肯定会反对，但尽管放心，我们会密切关注情况，因为这篇文章里谈论了很多关于领英的内容。

无论如何作为一篇技术性的文章，我们不会深入探究特定的抓取操作的合法性问题，我们应该始终努力去尊重目标网站的ToS。而对你在这篇文章中所学到的造成任何损害概不负责。

目前为止学到的很酷的东西

下面列出的一些技巧，我们每天几乎都在使用。代码示例采用NickJS抓取库，但它们很容易被其他Headless Chrome工具改写，重要的是分享概念。

把cookies放回cookie jar

使用功能齐全的浏览器抓取会让人安心，无需担心CORS、会话、cookie、CSRF和其他web问题。

但有时登录表单变得非常强硬，唯一的解决方案是恢复以前保存的会话cookie。当察觉故障时，有些网站会发送电子邮件或短信。我们就没有时间这么做，只是使用已设置好的会话cookie打开页面。

领英有一个很好的例子，设置li_atcookie能保证抓取机器访问他们的社交网络（请记住：注意尊重目标网站Tos）。

await nick.setCookie({
  name: "li_at",
  value: "a session cookie value copied from your DevTools",
  domain: "www.linkedin.com"
})

相信像领英这样的网站不会用一个有效的会话cookie来阻止一个真实的浏览器访问。这么做相当有风险，因为错误的信息会引发愤怒用户的大量支持请求。

jQuery不会让你失望

我们学到了一件重要的事，那就是通过jQuery从网页提取数据真是太容易了。现在回想起来，这是显而易见的。网站提供了一个高度结构化的、可查询的、包含数据元素的树(它被称为DOM)，而jQuery是非常高效的DOM查询库。所以为什么不用它来抓取呢？这个技巧会屡试不爽。

很多网站都已经使用了jQuery，所以只需在页面中添加几行就可以得到数据。

await tab.open("news.ycombinator.com")
await tab.untilVisible("#hnmain") // Make sure we have loaded the page
await tab.inject("https://code.jquery.com/jquery-3.2.1.min.js") // We're going to use jQuery to scrape
const hackerNewsLinks = await tab.evaluate((arg, callback) => {
  // Here we're in the page context. It's like being in your browser's inspector tool
  const data = []
  $(".athing").each((index, element) => {
    data.push({
      title: $(element).find(".storylink").text(),
      url: $(element).find(".storylink").attr("href")
    })
  })
  callback(null, data)
})

印度、俄罗斯和巴基斯坦屏蔽机器人的做法有什么共同之处?

2017年网页抓取：先进的Headless Chrome技巧_第2张图片

答案就是利用验证码解决服务器验证。你可以几美元买到上千个验证码，通常产生验证码不到30秒。但晚上的时候，因为没有人，所以一般比较贵。

一个简单的谷歌搜索将提供多个api来解决任何类型的验证码问题，包括获取谷歌最新的recaptcha验证码（2美元1000个）。

将抓取机器连接到这些服务就如发出HTTP请求一样简单，现在机器人是人类了。

在我们的平台上，用户很容易解决他们需要的验证码问题。我们的巴斯特图书馆可以调用多个解决服务器验证:

if (await tab.isVisible(".captchaImage")) {
  // Get the URL of the generated CAPTCHA image
  // Note that we could also get its base64-encoded value and solve it too
  const captchaImageLink = await tab.evaluate((arg, callback) => {
    callback(null, $(".captchaImage").attr("src"))
  })

  // Make a call to a CAPTCHA solving service
  const captchaAnswer = await buster.solveCaptchaImage(captchaImageLink)

  // Fill the form with our solution
  await tab.fill(".captchaForm", { "captcha-answer": captchaAnswer }, { submit: true })
}

等待的是DOM元素，而不是固定的时间

经常看到抓取初学者让他们的机器人在打开一个页面或点击一个按钮后等待5到10秒——他们想要确定他们所做的动作有时间产生效果。

但这不是应该做的。我们的3步理论适用于任何抓取场景：应该等待的是想要操作的特定DOM元素。它更快、更清晰，如果出了问题，会得到更准确的错误提示。

await tab.open("https://www.facebook.com/phbuster/posts/676836339178597")
// await Promise.delay(5000) // DON'T DO THIS!
await tab.waitUntilVisible(".permalinkPost .UFILikeLink")
// You can now safely click the "Like" button...
await tab.click(".permalinkPost .UFILikeLink")

在某些情况下，可能的确有必要伪造人为的延迟。可以使用

await Promise.delay(2000 + Math.random() * 3000)

糊弄过去。

MongoDB

我们发现MongoDB很适合大部分的抓取工作，它有一套优秀的JS API和Mongoose ORM。考虑到当使用Headless Chrome时已经处于NodeJS环境中，为什么不采用它呢?

JSON-LD 和微数据开发

有时网页抓取并不需要理解DOM，而是要找到正确的“导出”按钮。记住这一点可以节省了不少时间。

严谨的说有些网站会比其他网站容易一些，以Macys.com为例，他们所有的产品页面都以JSON-LD形式的产品数据显示在DOM中。可以说到它们的任何一个产品页面然后运行

JSON.parse(document . queryselector(" # productSEOData "). innertext)

将得到一个可以插入MongoDB很好的数据对象，没有真正抓取的必要!

网络请求拦截

2017年网页抓取：先进的Headless Chrome技巧_第3张图片

因为使用的是DevTools API，所以编写的代码具有使用Chrome的DevTools的等效功能。这意味着产生的机器人可以拦截、检查甚至修改或中止任何网络请求。

通过从LinkedIn下载PDF格式的简历来测试网络请求拦截。从配置文件中单击“Save to PDF”按钮触发XHR，其中响应内容为PDF文件，这是一种拦截文件并将其写入磁盘的方法。

let cvRequestId = null
tab.driver.client.Network.responseReceived((e) => {
  if (e.type === "XHR" && e.response.url.indexOf("profile-profilePdf/") > 0) {
    cvRequestId = e.requestId
  }
})
tab.driver.client.Network.loadingFinished((e) => {
  if (e.requestId === cvRequestId) {
    tab.driver.client.Network.getResponseBody({ requestId: cvRequestId }, (err, cv) => {
      require("fs").writeFileSync("linkedin-cv.pdf", Buffer.from(cv.body, (cv.base64Encoded ? 'base64' : 'utf8')))
    })
  }
})

值得一提的是DevTools协议正在迅速发展，现在有一种方法可以使用Page.setDownloadBehavior()设置下载传入文件的方式和路径。我们还没有测试它，但看起来很有前途!

广告拦截

const nick = new Nick({
  loadImages: false,
  whitelist: [
    /.*\.aspx/,
    /.*axd.*/,
    /.*\.html.*/,
    /.*\.js.*/
  ],
  blacklist: [
    /.*fsispin360\.js/,
    /.*fsitouchzoom\.js/,
    /.*\.ashx.*/,
    /.*google.*/
  ]
})

同样可以通过屏蔽不必要的请求来加速抓取，分析、广告和图片是典型的屏蔽目标。然而，谨记它会让机器人变得不那么像人（例如，如果屏蔽了所有的图片，领英就不会正确响应页面请求——不确定这是否是故意的）。

在NickJS中用户可以指定一个白名单和一个包含正则表达式或字符串的黑名单。白名单特别强大，但如果不小心的话，很容易让目标网站崩溃。

DevTools协议也有Network.setBlockedURLs()，它使用带有通配符的字符串数组作为输入。

更重要的是，新版本的Chrome将带有谷歌自带的“广告拦截器”——它更像是一个广告“过滤器”。协议已经有一个端点叫做Page.setAdBlockingEnabled()。

这就是我们说的技巧!

Headless Chrome检测

最近发表的一篇文章列举了多种方法来检测Headless Chrome访问者，也有可能检测PhantomJS。那些方法描述了从基本的User-Agent字符串比较到更复杂的诸如触发错误和检查堆栈跟踪的技术。

在愤怒的管理员和巧妙的机器人制造商之间，这基本上是一个加大版的猫捉老鼠游戏。但从未见过这些方法在官方实施。在技术上是可以检测到自动访问者，但谁会愿意面对潜在的错误消息呢？对于大型的网站来说尤其有风险。

如果你知道那些网站有这些检测功能，请告诉我们!

结束语

抓取从来没有这么容易过，有了我们最新的工具和技术，它甚至可以成为我们开发人员愉快而有趣的活动。

顺便说一下，我们从Franciskim.co“我不需要臭烘烘的API”文章中受到了启发，非常感谢！另外，关于了解怎样开始使用木偶的详细说明，请点击这里。

在下一篇文章中，将写到关于“bot mitigation”的工具，比如Distill Networks，讲述HTTP代理和IP地址分配的美妙世界。

在Phantombuster.com上有我们的抓取和自动化平台 NickJS.org库。有兴趣的话还可以了解我们的3个抓取步骤的理论信息。

你可能感兴趣的:(2017年网页抓取：先进的Headless Chrome技巧)

2024年4月批量检测微信小程序是否封禁接口源码 php小程序
上述是代码，$appids=array('appid1','appid2','appid3');//使用实际的appid，在这一行，输入你需要检测appid即可，就可以得到检测结果
阿里云EMAS超级App助力Agmo电动车超级应用程序发布阿里云解决方案app
近日，阿里云宣布与马来西亚本土数字方案专家Agmo控股（AgmoHoldingsBerhad，简称Agmo）展开合作，签署谅解备忘录，联手推出马来西亚首个Agmo电动车超级应用程序。此次合作也标志着阿里云在中国以外的市场首次落地其最新的企业级超级App解决方案（EMAS超级App）。EMAS超级App解决方案是一个用于建构超级应用程序和相关生态系统的全栈平台，也是阿里云在电子商务行业和可扩展云基础
使用python开发flsak_FlaskWeb开发:基于Python的Web应用开发实战 RoseofVersailles 使用python开发flsak
本书不仅适合初级Web开发人员学习阅读，更是Python程序员用来学习高级Web开发技术的优秀参考书。•学习Flask应用的基本结构，编写示例应用；•使用必备的组件，包括模板、数据库、Web表单和电子邮件支持；•使用包和模块构建可伸缩的大型应用；•实现用户认证、角色和个人资料；•在博客网站中重用模板、分页显示列表以及使用富文本；•使用基于Flask的REST式API，在智能手机、平板电脑和其他第三
阿里云EMAS：2月产品动态阿里云移动应用开发测试推送
一、内容摘要上线EMAS定制版套餐，适合有多种移动研发工具诉求的中型企业Windvane小程序容器新增列表搜索功能云构建发布新的android镜像java-11-base，适应gradle7.0+移动测试上线一键重跑功能，支持失败的用例一键重跑移动推送支持Flutter插件，开源更易用二、产品动态
书单书籍
原文地址：https://segmentfault.com/a/1190000021486261作者：Fw恶龙本文首发于：思否20240101-0129《营养素与疾病改善》·中国营养学会与保健食品分会-★★★★☆0203-0317《生老病死的生意——文化与中国人寿保险市场的形成》·陈纯菁-★★★★★0319-0405《重来3跳出疯狂的忙碌》·[美]贾森·弗里德-★★★★☆0411-0427《我是个
关于网页自动化工具DrissionPage进行爬虫的使用方法 web15117360223 面试学习路线阿里巴巴自动化爬虫运维
目录一.简介二.使用1.安装方式2.基本用法3.模式4.元素交互4.SessionPage5.运行JS6.结语一.简介最近在学python的过程中，发现了一个好用的爬虫库DrissionPage——一个基于python的网页自动化工具。据具官方文档（官方网址：https://drissionpage.cn/）介绍：它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和r
Cameralink转SDI接口转换器昆山森启智能科技有限公司
1.概述Cameralink转SDI接口转换器（简称转换器）是基于FPGA设计的一款多功能视频处理设备，具有丰富的硬件资源和外围接口。转换器将Cameralink接口输入的图像数据转成SDI图像输出，同时还可实现数据格式转换，帧率变换，分辨率变换，OSD，缩放，开窗，增强等图像预处理功能。2.技术特性2.1主要功能a.支持Cameralink视频输入（支持多种分辨率默认1080p@30hz）b.支
未来的量子通信：从量子密钥分发到量子互联网的安全通信 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
未来的量子通信：从量子密钥分发到量子互联网的安全通信关键词：量子通信量子密钥分发量子互联网安全通信量子隐形传态摘要：本文旨在探讨量子通信的广阔前景，从量子密钥分发到量子互联网的安全通信。我们将逐步分析量子通信的核心概念、技术原理以及其实际应用，旨在为读者提供一个清晰而全面的理解。通过深入探讨量子密钥分发（QKD）和量子隐形传态（CHT）的基本原理，以及量子重复器和量子中继的概念，我们将展示量子通信
JavaScript设计模式 -- 状态模式鎈卟誃筅甡 javascript 设计模式状态模式
在软件开发中，很多对象的行为会随着其内部状态的变化而改变。如果将所有状态逻辑写在一个类中，代码不仅臃肿而且难以维护。**状态模式（StatePattern）**正是为了解决这个问题而设计的。通过将对象的状态封装成独立的状态类，并将状态相关的行为转移到这些状态类中，状态模式让对象在内部状态发生变化时自动切换行为，达到了将状态转换与行为实现分离的目的。本文将详细介绍状态模式的核心思想、基本结构与优缺点
告别高价低效采购，进销存询价单来破局雪兽软件科技前沿 ERP系统进销存软件订单日记询价单
在企业运营过程中，采购环节是成本控制与资源获取的关键节点。而进销存软件（如订单日记）中的询价单功能，正悄然改变着企业的采购管理模式，为企业发展带来诸多显著好处。一、高效获取市场价格信息传统采购询价，需采购人员逐个联系供应商，耗时费力。有了进销存软件的询价单功能，企业能一键向多家供应商发送询价需求，短时间内即可收到详尽报价。比如一家制造企业要采购一批原材料，使用询价单功能，几小时内就能获取数十家供应
6个大数据应用案例雪兽软件科技前沿大数据
根据市场数据预测报告，到2026年，全球大数据市场可能达到2684亿美元。随着大数据市场的快速增长，组织正在利用大数据来获得洞察力，帮助他们做出更好的决策，改善运营，最终推动最佳增长。从医疗保健到金融，从零售到电信，大数据正被用于改变行业的运作方式，使企业能够创造新的收入来源，增强客户体验，提高运营效率。这个全面的博客将探索令人兴奋的大数据用例领域，探索商业组织如何利用数据获得洞察力，推动创新，并
25 架构能力 susemm 软件架构实践（第4版）架构 java 微服务软件架构
文章目录第25章架构能力25.1个人能力：架构师的职责、技能和知识职责技能知识那经验方面呢？25.2软件架构组织的能力25.3成为更优秀的架构师接受指导指导他人25.4小结25.5扩展阅读25.6问题讨论第25章架构能力人生苦短，学海无涯。——杰弗里・乔叟（GeoffreyChaucer）如果软件架构值得去做，那肯定值得做好。大多数关于架构的文献都集中在技术方面。这并不奇怪，因为它是一门深奥的技术
关于Union 中 ORA-12704:字符集不匹配问题的解决招財進寳 ORACLE
在使用Unionall连接时，若A集合中某列为nvarchar2或nvarchar类型，而B集合中无此列，用‘’来代替是会报字符集不匹配，解决方法有两种，见下面的示例例：select'中国','China',cast('中国'asnvarchar2(10))Tfromdualunionallselect'美国','USA',''fromdual;如上，T的类型为nvarchar2，长度为10，如果
conda-pack迁移虚拟环境哎呀呀，知识来我的脑子里 conda
从源电脑中迁移anaconda的环境到目标电脑，首先两个电脑都安装了anaconda。一、源电脑的环境打包使用AnacondaPrompt操作1.安装conda-pack工具condainstallconda-pack2.确定环境condaenvlist找到你想要打包环境名。比如我的环境名是Py363.打包环境condapack-nPy36-oPy36.tar.gz4.将打包环境拷贝到U盘环境打包
大客户管理的方法和策略客户管理crm系统
大客户管理的核心在于精准识别客户价值、提供个性化解决方案、建立长期互信关系，并通过数据优化决策。根据Gartner研究，80%的企业利润来自20%的大客户，而分层管理能提升30%的客户留存率。以精准分层为例，企业需根据客户贡献度、战略匹配度等维度划分优先级，例如，某全球500强企业通过RFM模型（最近消费、频率、金额）筛选出Top5%客户，针对性投入资源后，次年营收增长达18%。一、大客户分层与识
软件项目管理 *neverGiveUp* 期末不挂科其他职场和发展
一、填空题1、项目是为创造独特的产品、服务或成果而进行的临时性的工作。2、PMBOK（2016）将项目管理分为五个过程组，即启动、计划、执行、控制和收尾，与十大知识领域（整合管理、范围管理、时间管理、成本管理、质量管理、人力资源管理、沟通管理、风险管理、采购管理、干系人管理。）。3、国际标准ISO8042综合将软件质量定义为：反应实体满足明确的和隐含的需求能力的特性的总和。4、国际标准化组织：“是
ReentrantLock 公平锁与非公平锁的源码实现分析 java
一、ReentrantLock的锁类型ReentrantLock内部通过Sync类（继承自AbstractQueuedSynchronizer）实现锁机制，其子类FairSync（公平锁）和NonfairSync（非公平锁）分别对应两种模式：//ReentrantLock构造函数（默认非公平锁）publicReentrantLock(){sync=newNonfairSync();}//指定公平性
AQS 核心原理与高频面试题详解 java
前言AQS（AbstractQueuedSynchronizer）是Java并发包（java.util.concurrent）中的核心基础类，它提供了一个框架来实现阻塞锁和相关的同步器（如信号量、CountDownLatch等）。AQS内部使用了一个FIFO的双向队列来管理线程，这个队列存储的是等待获取同步状态的线程节点。一、AQS的核心原理1.AQS的作用是什么？AQS是一个用于构建锁和同步器的
红队视角出发的k8s敏感信息收集——Kubernetes API 扩展与未授权访问周周的奇妙编程 kubernetes 容器云原生
针对Kubernetes第三方组件与Operator的详细攻击视角分析，涵盖ServiceMesh、HelmReleases和DatabaseOperators的潜在风险及利用方法。攻击链示例1.攻击者通过未授权的Tiller服务部署恶意HelmChart→2.创建后门Pod并横向移动至Istio控制平面→3.提取Envoy配置发现未加密的数据库服务→4.通过MySQLOperator创建管理员账
红队内网攻防渗透：内网渗透之Windows内网信息收集：内网和域 HACKNOE 红队攻防内网渗透研究院 web安全网络安全系统安全
红队内网攻防渗透1.内网渗透之信息收集1.内网信息收集的目的2.本机信息收集网络配置查询操作系统及版本信息查看系统体系结构查看安装的软件及版本、路径等查询本机服务查询进程列表查毒软件查看启动程序信息查看计划任务查看主机开机时间查询用户列表获取本地管理员查看当前在线用户列出或断开本地计算机与所连的客户端之间的会话查看端口列表查看补丁列表查看共享连接保存当前主机上的所有WiFi信息查看本机共享列表查询
Windows奇技淫巧之网络命令行沉迷单车的追风少年服务端编程计算机网络经验问题汇总 windows 网络
写在前面：Linux老鸟会深度沉迷命令行，各种奇技淫巧心中涨，但是windows上的命令行相当好用，各种骚操作也是眼花缭乱。其中网络操作经常使用，本文做一个简单的总结。目录1、ipconfig：显示当前TCP/IP配置的设置值2、ping：测试目的站是否可达及相关状态3、arp：地址解析协议4、traceroute：路由跟踪5、route：操作路由表6、netstat：显示协议统计信息7、nbts
义父们，支持我兄弟参加CSDN博客之星2024！他是一名优秀的运维工程师！ qq_42856429 运维 java 开发语言
标题：支持我兄弟参加CSDN博客之星2024！他是一名优秀的运维工程师！大家好，今天想为大家推荐一位非常优秀的技术博主——XMYX-0。他是一名专注于运维领域的开发者，尤其擅长Kubernetes（K8s）和Python自动化运维。他正在参加CSDN博客之星2024活动，希望大家能够为他投上宝贵的一票！为什么支持他？Kubernetes（K8s）领域的深度实践者在K8s领域有着丰富的实战经验。他的
conda虚拟环境的打包和迁移 YYY7 环境配置 conda python linux
本文主要记录conda-pack打包环境的过程。安装conda-pack第三方库：pipinstallconda-pack对环境进行打包。可以通过运行以下命令来完成此操作：condapack-n{环境名称}-o{输出压缩包路径，默认是当前目录***.tar.gz}在需要环境的系统中解压缩文件到conda的envs目录下，记得在envs目录新建一个文件夹：tarxzf***.tar.gz-C{目标路
量子计算信息安全威胁与应对岛屿旅人网络安全行业分析量子计算 web安全人工智能安全网络网络安全
文章目录前言一、量子计算信息安全威胁及影响1.2量子计算发展迅速，安全威胁日益迫近二、PQC研究与应用进展2.1欧美在PQC领域研究近三十年，积累深厚2.2NIST引领PQC标准制定，取得初步成果2.3美国全方位布局加快推动PQC迁移与应用三、PQC应用发展前景3.1PQC算法和应用安全性需进一步验证3.2PQC算法国际标准将持续开展研究3.3PQC升级迁移是一项长期系统性工程四、QKD技术优劣势
从Paxos到Zookeeper笔记1——第一章：分布式架构半臻（火白）分布式大数据 zookeeper
第1章：分布式架构将多台机器组成分布式的处理方式越来越收到业界的青睐。1.1从集中式到分布式由于大型主机拥有卓越的性能和良好的稳定性，在单机处理方面优势非常明显。但是随着计算机系统向网络化和微型化的方向发展，传统的集中式处理越来越不适应人们的需求。大型主机的缺点：（1）操作难度大。（2）价格昂贵（3）虽然大型主机稳定，但是一旦出现故障后果严重（4）扩容非常困难阿里提出的“去IOE”运动，让计算和存
SQL中char和nchar 的区别未来无限 C#Winform设计 sql 数据库 char和nchar 的区别
char和varchar的长度都在1到8000之间，它们的区别在于char是定长字符数据，而varchar是变长字符数据。所谓定长就是长度固定的，当输入的数据长度没有达到指定的长度时将自动以英文空格在其后面填充，使长度达到相应的长度；而变长字符数据则不会以空格填充。text存储可变长度的非Unicode数据，最大长度为2^31-1(2,147,483,647)个字符。后面三种数据类型和前面的相比，
conda实现虚拟环境的迁移邹小妹
参考https://zhuanlan.zhihu.com/p/87344422使用conda将服务器上配置好的虚拟环境从当前ip迁移到目标ip。1、如果需要在具有相同操作系统的计算机之间复制环境，则可以生成speclist。生成speclist文件：condalist--explicit>spec-list.txt重现环境：condacreate--namepython-course--files
如何在不依赖函数调用功能的情况下结合工具与大型语言模型 Jason9510 语言模型人工智能
当大型语言模型（LLM）原生不支持函数调用功能时，如何实现智能工具调度？本文通过自然语言解析+结构化输出控制的方法来实现。GitHub代码地址核心实现步骤定义工具函数使用@tool装饰器声明可调用工具：fromlangchain_core.toolsimporttool@tooldefmultiply_by_max(a:int,b:list[int])->int:"""将a乘以b列表中的最大值""
GPT-4o mini 大模型价格战，一百万 Token 只需要 1.1元 RMB 简简单单OnlineZuozuo m1 Python 领域 m4 杂项 GPT-4o mini ChatGPT ChatGPT 4.0 大模型 LLM
本心、输入输出、结果文章目录GPT-4omini大模型价格战，一百万Token只需要1.1元RMB前言目前它的定价方案是每处理一百万个token仅需15美分GPT-4omini极快的响应速度GPT-4omini大模型价格战，一百万Token只需要1.1元RMB编辑|简简单单Onlinezuozuo地址|https://blog.csdn.net/qq_15071263如果觉得本文对你有帮助，欢迎点
ORACLE错误编码大全妙趣生花 BUG 数据库 oracle
ORA-00001:违反唯一约束条件(.)ORA-00017:请求会话以设置跟踪事件ORA-00018:超出最大会话数ORA-00019:超出最大会话许可数ORA-00020:超出最大进程数()ORA-00021:会话附属于其它某些进程；无法转换会话ORA-00022:无效的会话ID；访问被拒绝ORA-00023:会话引用进程私用内存；无法分离会话ORA-00024:单一进程模式下不允许从多个进程
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他