csdn头条

你的爬虫会送你进监狱吗？

本文转自微信公众号：咸鱼普拉思

作者：不二辰

爬虫究竟是合法还是违法的？

随着大数据的火热，数据相关行业竞争不仅“蒸蒸日上”，爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗？》在程序猿圈子里被大量转载，甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么，爬虫是什么，它会是悬在程序员头上的达摩克利斯之剑吗？

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。通俗来讲，爬虫就是一项计算机技术，方便用户自动化、高效率地浏览互联网并从互联网上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。（见罗刚《网络爬虫全解析：技术、原理与实践》，电子工业出版社，第65-66页。）

爬虫作为一种计算机技术就决定了它的中立性，因此爬虫本身在法律上并不被禁止，但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析，正如水果刀本身在法律上并不被禁止使用，但是用来捅人，就不被法律所容忍了。

详细分析

既然我们说爬取数据是有可能触犯法律的，那么我们就需要拆开分析一下到底什么情况下会被法律所制裁。爬取数据操作分为爬取的行为和爬取获得的数据两方面，我们将分别论述。

1. 爬取行为的法律风险

1.1 民事风险

爬虫目前能造成的技术上影响在于野蛮爬取，即多线程爬取，从而导致网站瘫痪或不能访问，这也是大多数网络攻击所使用的方法之一。

由于爬虫会批量访问网站，因此许多网站会采取反爬措施。例如：1.IP频率、流量限制；2.请求时间窗口过滤统计；3.识别爬虫等。

但这些手段都无法阻止爬虫开发人员优化代码、使用多IP池等方式规避反爬措施，实现大批量的数据抓取。由于网络爬虫会根据特定的条件访问页面，因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销，甚至无法正常提供服务。在《反不正当竞争法》第十二条第二款中我们可以发现，法律会对爬虫的这种行为进行规制。

即经营者不得利用技术手段，通过影响用户选择或者其他方式，实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为：…（四）其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。

虽然上述规定是兜底条款，但其体现了法律禁止通过技术手段进行对他人非法干绕的总体原则。

因此，如果网站运营者已经采取了一定的反扒措施，而爬虫开发人员基于经营的目的、强行突破网站运营者采取的反爬措施，并客观上导致了网站无法正常运行，则很有可能构成上述规定所表述的不正当竞争行为。

但是在此种情况下鉴别爬虫者身份仍然是追责的一大阻碍，很多网站由于反爬机制落后，因而在法院诉讼中无法举证证明爬虫者因而得不到法院的支持。（见北京知识产权法院（2016）京73民终588号案件）

1.2 刑事风险

强行突破某些特定的反爬技术措施，还会构成形式犯罪的行为。

《刑法》第二百八十五条规定，违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的，不论情节严重与否，构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定，违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，构成犯罪，处五年以下有期徒刑或者拘役；后果特别严重的，处五年以上有期徒刑。而违反国家规定，对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作，后果严重的，也构成犯罪，依照前款的规定处罚。

如上所述规定，爬虫开发者在获取数据过程中，一旦突破某些技术防护措施并且操作不当，造成严重后果的，将会构成犯罪，面临牢狱之灾。

2. 爬取特定类型的信息的法律风险

凡是能够被电子化记录的都是数据，数据分为两大类。

第一类：非个人数据（non-PII，non-personally identifiable information）即此类数据与个人信息无关（此处需注意，与个人信息无关不代表与个人无关，而是说不涉及个人隐私或者不能识别到具体个人）。此类数据通常是公开数据（当然也有作为国家秘密、商业秘密而采取保密措施不公开的秘密数据和秘密信息），因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书（因涉密或个人隐私不公开的除外）、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。
第二类：个人数据（PII，personally identifiable information）。即此类数据与个人信息有关，数据的来源是个人信息，且能够或可能识别到个人。其中又包括两类：
1.已识别个人身份数据（personally identified information）。此类数据完全适用个人数据保护的相关法律法规。如姓名、家庭住址、电话号码等能够确定识别、关联到特定个人的数据，需符合个人数据保护法全部合规要求，包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、保障安全等。
2.可能识别个人身份的数据（personally identifiable information）。此类数据结合业务场景，灵活适用个人数据保护的相关法律法规。如业务场景中，识别风险较高，可按照第二类数据的合规性要求处理，需满足全部合规要求；如识别风险较低，则可选择部分适用。

2.1 个人信息（PII）的爬取

对于PII信息，其关键点在于用户授权，用户未授权或者授权不充分带来的法律风险很大。

2.1.1 不正当竞争风险

例如新浪微博和脉脉发生的案件，一个因为开放API爬取数据引发的案子。

2014年8月，当时刚刚起步的职场社交软件“脉脉”与新浪微博微博闹掰了。脉脉上线之初，曾与新浪微博合作，脉脉的新用户可以通过微博帐号和个人帐号注册登录脉脉，用户注册时还要想陌陌上传手机通讯录联系人。随后，新浪微博发现，脉脉用户的“一度人脉”中，直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。2015年3月，微博主体公司将脉脉主体公司告上法庭。

原来用户使用微博登录脉脉并上传个人通讯录之后，大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上，而这些信息并不在微博与脉脉开放API协议中，并且微博停止脉脉所有的接口权限后，脉脉依然在抓取相关数据，微博认为脉脉通过非法手段获取信息。最终法院判决脉脉停止不正当竞争行为，并赔偿损失。

这个案件中，法院确立了一个原则，即平台要获取用户信息必须获得授权，平台之间通过开放API获取数据必须经过“用户授权-网站授权-用户授权”的规则。

法律声明-禁止爬虫采集条款示例

2.1.2 侵犯隐私权风险

例如（2015）西民初字第28460号：王刃与北京奇虎科技有限公司隐私权纠纷案件中，原告王刃因个人手机登记为所投资公司联系电话，被奇虎科技360手机卫士标记手机号码功能标记显示为公司号码，导致原告王刃手机被被叫方误认为是诈骗电话，因之以侵犯隐私权起诉360手机安全卫士所属公司奇虎科技。

在该案件中，法院提出，“被告出示的证据可以证明原告所使用的号码已经在企业黄页被公开披露，原告在工商行政管理机关登记企业信息时，亦将该手机号码予以登记，以备信息查阅。被告通过大数据比对功能，确定该手机号码与浙江维特网络信息有限公司合肥分公司相对应，并进行标记，其信息并无错误，且软件标记的企业信息，而非公民个人信息。被告已证实其获取手机号码对应的标记信息均来源于公开渠道，因此亦不能认定被告标记号码的行为侵犯了其隐私权”。同时，法院还认为：“对于360手机卫士软件中主动标记企业信息的功能，本院认为仍存在一定改进之处，我国小微企业的业主为工作方便、节约资源，将私人电话作为办公电话使用是普遍情况，这并不意味着手机号码被登记在工商行政管理机关后，就专用于商务。如非号码所有人主动申请标记，建议针对被标记号码采取短信确认的方式，对所有人有所提示，有助于其获得相应知情权”。

因而我们可以知道，本案确立了公开获取数据的合法性，但又要求数据服务方对个人信息标记使用应获得用户同意，也即重申了“默示同意”的许可方式，同时又强调了“用户同意”即用户授权的原则。

2.1.3 刑事风险

爬取个人信息还有可能会面临牢狱之灾，《中华人民共和国刑法》第二百五十三条之一所涉的“侵犯公民个人信息罪”及第二百八十六条之一所涉的“拒不履行信息网络安全管理义务罪”就是爬虫在个人信息爬取过程中经常触碰到的“红线”。

同时，与《网络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》也明确了情节严重的几种类型：

1、非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的；——高度敏感信息

2、非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的；——敏感信息

3、非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

此外，未经被收集者同意，即使是将合法收集的公民个人信息向他人提供的，也属于刑法第二百五十三条之一规定的“提供公民个人信息”，可能构成犯罪。
例如（2016）浙0602刑初1145号案中，当事人就采用非法手段获取淘宝和支付宝中的个人信息，并提供、转售给他人，非法获利了巨额的财产。

2.1.4 行政处罚风险

《网络安全法》第六十四条规定，违反本法第四十四条规定，窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息，尚不构成犯罪的，由公安机关没收违法所得，并处违法所得一倍以上十倍以下罚款，没有违法所得的，处一百万元以下罚款。

即便是非法获取数据的严重性没有达到入罪的标准，但是大概率上也会被行政机关进行处罚的，并且额度还不低，通常都以“万”来计，就算程序员收入高，也受不了这种程度的处罚吧。

2.1.5 总结

爬取涉及个人信息的数据总体风险较高，如果爬取数据没有获得用户授权（包括通过API接口爬取数据的情况）则存在侵犯人格权（民法总则已经明确个人信息权是一种人格权）的风险。
同时，爬取存在竞争关系平台上的数据时，还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行，涉嫌不正当竞争；
更严重的是，还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪，招致刑罚。

2.2 non-PII的爬取

对于这类数据的爬取，目前市面上通常的做法都是爬取公开数据，例如靠爬虫发家的“聚信立”公司。爬取这类数据的风险系数相对较低，毕竟通常不会涉及个人隐私与个人信息，但也并非毫无风险。可能会有哪些风险呢？

2.2.1 著作权侵权风险

就著作权本身而言，无论是文章、图片、视频、用户评论以及网站自身的数据库，都有可能在具备独创性的情况下构成著作权法保护的作品。对这些信息的获取，是否构成著作权侵权需要拆分分析：

1）在访问页面的行为下，由于爬虫是模仿人工访问机制进行页面访问操作的，因而该访问行为不会构成侵权，但如上述分析，如果该访问行为造成被访问页面反爬措施失效或者网站瘫痪，则会构成侵权。
2）对于数据保存而言，从著作权的角度上来说，抓取行为是对信息的复制，因此该行为有可能侵犯著作权人的复制权。
3）就数据提取和使用行为而言，如果爬取的数据被用于展示在公开的网站或者渠道，则会侵犯著作权人的信息网络传播权。

大众点评网诉爱帮网的诉讼中，大众点评网在前两轮诉讼中就是以爱帮网侵犯原告享有著作权的商户介绍和点评为由，起诉了爱帮网，最终以爱帮网停止使用该作品胜诉。（2010）海民初字第4253号

2.2.2 不正当竞争风险

同样是大众点评网，在2016年还起诉了百度，原因是百度未经许可，使用爬虫技术从大众点评网上大量获取用户点评信息，用于自家的百度地图及百度知道产品。

最终一审判决认定百度构成不正当竞争行为，停止侵权并赔偿323万元。有图有真相：

也即，如果公司业务中存在可能爬取竞争对手数据的情况，要格外注意这项风险。法院会首先判断双方是否存在竞争关系，进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是，就是上面的结果。

2.2.3 刑事风险

1 侵犯著作权罪

根据《中华人民共和国刑法》第二百一十七条规定，侵犯著作权罪是指以营利为目的，未经著作权人许可复制发行其文字、音像、计算机软件等作品，出版他人享有独占出版权的图书，未经制作者许可复制发行其制作的音像制品，制作、展览假冒他人署名的美术作品，违法所得数额较大或者有其他严重情节的行为。

案例：2014年3月，被告人何某设立“车城小说”网站，其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件，在未获起点中文网许可的情况下，擅自抓取、复制650部文字作品，存储于自己的服务器上，供“车城小说”网站用户免费阅读。

何某通过在“车城小说”网站网页内刊登广告获取广告收益，非法营利数额达人民币19万余元。法院认定，何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件，且营利数额超过5万元，构成侵犯著作权罪，判处有期徒刑1年，并处罚金10万元。 （2015）闵刑（知）初字第59号

2 非法侵入计算机信息系统罪

根据《刑法》第二百八十五条规定，违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的，不论情节严重与否，构成非法侵入计算机信息系统罪。

案例：在严某犯非法侵入计算机信息系统罪一案中，严某是一位协警，通过侵入警局内网，获取并篡改数据，达到非法获利的目的，触犯了“非法侵入计算机信息系统罪”，锒铛入狱。
（2014）广利州刑初字第260号

3 非法获取计算机信息系统数据罪

《刑法》第二百八十五条还规定，违反规定侵入普通的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据的，情节严重的，构成非法获取计算机信息系统数据罪。

案例：南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序，非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案，最终法院认定构成非法获取计算机信息系统数据罪，上述两人最终被判刑三年并处罚金。
（2015）杨刑初字第232号

4 总结

爬取non-PII数据总体风险较低，但仍不要大意。

轻则可能构成侵犯著作权（在被爬取的数据具有独创性构成作品的情况下），如果有竞争关系，还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行，涉嫌构成不正当竞争；

重则可能因绕开技术措施非法获取数据，涉嫌侵犯商业秘密（严重情形涉及刑事责任），涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪等罪。

对于广大程序员来说，如何避免爬虫所带来的法律风险？

敲黑板！！重点来了！！！

如前面所述，爬虫所带来的风险主要有：

违反网站意愿，例如网站采取反爬措施后，强行突破其反爬措施；
爬虫干扰了被访问网站的正常运营；
爬虫抓取了受到法律保护的特定类型的数据或信息。

其中，第3类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。

因此，爬虫开发者在使用爬虫时应注意：

严格遵守网站设置的robots协议；
在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
在设置抓取策略时，应注意编码抓取视频、音乐等可能构成作品的数据，或者针对某些特定网站批量抓取其中的用户生成内容；
在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。

本文来自微信公众号咸鱼普拉思。

【EI，Scopus, CNKI，Google Scholar检索】第三届区块链、信息技术与智慧金融国际学术会议 (ICBIS2024) 艾思科蓝 AiScholar 金融区块链物联网云计算人工智能大数据回归算法
第三届区块链、信息技术与智慧金融国际学术会议(ICBIS2024)将于2024年2月23-25日在马来西亚举行。本次会议主要围绕“区块链、信息技术与智慧金融”的新研究展开，此次会议汇聚了世界各地该领域的专家、学者、研究人员及相关从业人员，分享研究成果，探讨热点问题，为参会者提供最前沿的科技资讯，使其能及时了解行业发展动态、掌握最新技术，拓宽研究视野，推动学术进步。大会网站：https://ais.
怎么做？这么做。慢了半拍i 生活笔记经验分享微信
一、每天输入每天读2——3篇文章，可以是行业趋势、技术推文(与自己的工作有关的方向)，每天坚持一年就会是1000篇。推荐：大厂的技术博客：纯技术类，美团技术团队、阿里技术团队；科技资讯类：量子位、差评、新智元、无敌信息差；经验分享、编程趋势、技术干货的up二、持续学习新技术每天抽不到1小时，看2——3集教程，坚持一个月，看完一套课程。三、复盘总结每天记录自己完成的工作，贴个文档啥的都可以；每月开始
[20181023] 股市复盘 -- 又进ICU了摸鱼哥
Everyoneyouseeexiststogetherinadelicatebalance.世界上所有的生命都在微妙的平衡中生存。昨天是刚出ICU就上了赌场，今天是牌刚发到手里又进ICU啊摸鱼科技资讯，今天整个亚太市场不乐观，特别是港股跌幅较大，而白酒因控价消息大幅下跌，而且贵州茅台(600519)跌7.4%，其跌幅较大，整个消费股低迷，权重整体弱势带领指数回落，而且券商股今天也出现全面分化，只
【教育增长圈】2组-郑玉凤 Mia-第三次作业 MIAZCRI
今日作业：操盘手条件——自我评级作业内容1组-郑玉凤Mia1、个人背景【昵称】郑玉凤Mia【公司】北京赫斯特科技资讯有限公司【岗位】运营主管【工作年限】3年【年薪范围】10W-15W2、核心能力模型【人员管理】管理30人团队【承载能力】单个业务单元，教师招募、管理、培训，家长社群组建、维护，销售，市场调研、APP运营、统计反馈。完成当前的业绩指标，并能保证业绩指标达到行业平均水平。【流程搭建】整个
2023双11苹果14pro大概多少钱？2023双十一苹果14Pro会降价吗？氧惠购物达人
亲爱的读者们，欢迎来到我们的科技资讯频道！随着2023年双11的临近，相信很多果粉们都在期待着这一年的双11苹果14pro的价格。那么，今年双11苹果14pro的价格到底是多少呢？让我们一起来看看吧！京东双十一超级红包领取方法：京东APP搜索：【红包多多936】，即刻进入活动主会场领取大额无门槛红包！红包领取时间：10.23日20点-11.13日24点。领购物大额优惠券、赚返利佣金用氧惠~氧惠AP
如何快速适配「深色模式」不再联系_0308
2019年的两场重量级发布会GoogleI/O和AppleWWDC终于落下帷幕。在各种新奇科技资讯中大家会有趣地发现两家公司不约而同的发布了手机系统的DarkMode（Theme），大众群体可以在随后的几个月内升级AndroidQ和iOS13体验暗黑色彩模式的UI界面。预感DarkMode这个词今年要火了！ICBU设计团队的小伙伴们迫不及待地从有限的零散资料入手快速试验解读，就「暗黑模式」下的体验
推荐几个高质量的软件测试实战项目骨灰级收藏家软件测试测试源码软件测试接口测试性能测试自动化测试测试项目
项目一：黑马头条教程：软件测试项目实战《黑马头条》全通关资料链接：百度网盘请输入提取码提取码：rell项目概况黑马头条是一款汇集科技资讯、技术文章和问答交流的用户移动终端产品，类似于今日头条的运营模式，用户通过该产品，可以获取科技资讯，发表或学习技术文章，讨论交流技术问题。该产品主要分为三个子产品：用户端、自媒体运营平台和后台管理系统。用户端为APP，用户可以查看资讯、文章内容，进行问答讨论交流。
提升PC性能的黑科技！Intel傲腾内存详解王贼臣
Intel傲腾内存详解如果你关注最新的科技资讯，那么想必一定听说过英特尔最新推出的傲腾内存，这款被媒体称之为“黑科技”的最新产品，自推出之初便受到了广泛关注。而关于英特尔傲腾内存，各方不同的解读也为这款产品增添了些许神秘色彩，我们在惊叹傲腾内存给整机性能带来的巨大提升的同时，对这款产品的本质与工作原理也产生了极大的兴趣，那么傲腾内存究竟是怎样一款产品?它又给PC性能带来了怎样的改变呢？提升PC性能
AI守望者(2021-04-07) 烛之文
AI守望者为您推送今日科技资讯简报：1.为什么都2021年了，汽车还在用五年前手机上的芯片？机器之心原创作者：泽南都说智能驾驶是科技界的下一个战场，但为什么我开车还是要忍受卡顿死机？2021年至今，汽车行业最多、最大的新闻就是芯片短缺，有预测认为「缺芯」可能导致第一季度全球减产近100...2.谷歌高管地震：AI研究部门联合创始人SamyBengio宣布辞职机器之心报道编辑：泽南、小舟图灵奖得主Y
AI守望者(2021-03-01) 烛之文
AI守望者为您推送今日科技资讯简报：1.用AI「复活」逝者：「深度怀旧」项目火遍推特，我们也用民国老照片试了下泽南、张倩最终，我们或许能让那些过去的人们，「亲自」为我们讲述他们自己的故事。最近几个星期，一股由AI引发的「动起来」趋势席卷全网，各种让照片变视频的动画不时出现在各大社交网络的时间线上，有的还...2.1899篇论文、1329个机构、6012位作者，NeurIPS2020谁在独领风骚？机
AI守望者(2021-04-01) 烛之文
AI守望者为您推送今日科技资讯简报：1.2.3万亿美元，拜登公布大基建计划：对标罗斯福新政，特斯拉股票大涨机器之心报道编辑：泽南、蛋酱拜登的2.3万亿美元，都要花在哪儿？当地时间3月31日，美国总统拜登在宾夕法尼亚州匹兹堡发表讲话，宣布了一项数额高达2.3万亿美元的基础设施计划，表示将在未来...2.机器学习泰斗迈克尔·乔丹：不是什么都叫AI的小舟、张倩在可预见的未来，计算机对现实世界进行抽象推理
AI守望者(2021-02-26) 烛之文
AI守望者为您推送今日科技资讯简报：1.刚买60天，硬盘寿命就用掉10%：苹果M1版Mac夸张特性遭质疑M1芯片的苹果MacBook笔记本能力强大，是目前买电脑的最优选择？等一等，最近发现的固态硬盘寿命问题，让人们对它的印象大打折扣。2020年11月份，苹果发布了几款搭载自研M1芯片的新...2.拒绝尬聊，用高科技云拜年：揭秘首款卫星社交应用「北斗福到家」2021年春节，由于疫情原因，全国有超过1
科技资讯|苹果穿戴新专利，表带、服装等织物可变身柔性屏幕或扬声器 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技蓝牙物联网
根据美国商标和专利局（USPTO）本周公示的清单，苹果公司获得了一项新的技术专利，可以在AppleWatch表带、服装等物品上，引入基于织物的柔性扬声器。根据专利描述，通过在织物中嵌入声学组件（例如扬声器）和发光组件（例如屏幕和其他组件），从而进一步扩展电子设备的应用范围。苹果在专利中提及的一个设计构想，这种柔性扬声器由织物层和音圈层组成，可以折叠成任何形状，并可以进行展开构造、收缩构造、弯曲构造
第114讲 Seaborn 绘图码农阿杰 #Python 基础与进阶 python seaborn
您的“关注”和“点赞”，是认可，是支持，是动力。如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。本文首发在IT羊资源网。《IT羊资源网》，网址：https://www.ityangzy.comIT羊资源网是IT世界的羊群！一个致力于科技、信息技术和计算机领域的综合在线平台。我们的使命是为读者提供最新、全面的科技资讯、技术教程和资源下载，帮助大家在不断变化的IT领域
第97讲 Python 数据可视化码农阿杰 #Python 基础与进阶 python 数据可视化
您的“关注”和“点赞”，是认可，是支持，是动力。如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。本文首发在IT羊资源网。《IT羊资源网》，网址：https://www.ityangzy.comIT羊资源网是IT世界的羊群！一个致力于科技、信息技术和计算机领域的综合在线平台。我们的使命是为读者提供最新、全面的科技资讯、技术教程和资源下载，帮助大家在不断变化的IT领域
第111讲 Python 数据可视化简介码农阿杰 #Python 基础与进阶 python 数据可视化
您的“关注”和“点赞”，是认可，是支持，是动力。如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。本文首发在IT羊资源网。《IT羊资源网》，网址：https://www.ityangzy.comIT羊资源网是IT世界的羊群！一个致力于科技、信息技术和计算机领域的综合在线平台。我们的使命是为读者提供最新、全面的科技资讯、技术教程和资源下载，帮助大家在不断变化的IT领域
第113讲 Pandas绘图码农阿杰 #Python 基础与进阶 python pandas
您的“关注”和“点赞”，是认可，是支持，是动力。如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。本文首发在IT羊资源网。《IT羊资源网》，网址：https://www.ityangzy.comIT羊资源网是IT世界的羊群！一个致力于科技、信息技术和计算机领域的综合在线平台。我们的使命是为读者提供最新、全面的科技资讯、技术教程和资源下载，帮助大家在不断变化的IT领域
第79讲 Python GUI 编程常用库介绍码农阿杰 #Python 基础与进阶 python 可视化 GUI python gui 常用库
您的“关注”和“点赞”，是认可，是支持，是动力。如意见相佐，可留言。本人必将竭尽全力试图做到准确和全面，终其一生进行修改补充更新。本文首发在IT羊资源网。《IT羊资源网》，网址：https://www.ityangzy.comIT羊资源网是IT世界的羊群！一个致力于科技、信息技术和计算机领域的综合在线平台。我们的使命是为读者提供最新、全面的科技资讯、技术教程和资源下载，帮助大家在不断变化的IT领域
科技资讯|2023全球智能手表预估出货1.3亿块，智能穿戴提升AI功能 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技智能手表物联网蓝牙
根据集邦咨询公布的最新报告，受全球经济低迷影响，2023年全球智能手表出货量预估为1.3亿块。苹果以超过30%的份额领先，其次是三星（接近10%）、华为、Garmin、Fitbit等。报告认为苹果、三星和华为等主要智能手表厂商面对诸多不确定因素，将采取更为保守的研发方式，他们虽然会不断创新和推出新产品，但设计理念更倾向于增量升级。报道称苹果、三星和华为等厂商现阶段不会升级处理器性能的情况下，会积极
科技资讯|苹果Vision Pro可通过手势ID检测不同用户 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技 apple vision pro 物联网蓝牙
近日，美国专利局公布了苹果公司的一项专利申请，该专利申请涉及基于手部特征验证用户身份的技术。苹果指出，可能是多个家庭成员都想使用AppleVisionPro，系统必须识别不同的手势以控制visionOS。在另一个示例中，苹果描述了一个工作场所场景，其中多个人戴着头显协作处理项目，要么只能查看项目（例如草稿），要么有权根据VisionPro在办公室或仅在单个项目上注册不同用户的手进行编辑。苹果在其专
Azure认知服务的实际应用-资讯采集推送 weixin_30298497 devops c#数据库
Azure认知服务的实际应用-资讯采集推送演示实现的是通过使用各种azure服务，每天自动获取资讯、博客，定时推送到公众号的功能！微信公众号搜索TechViews，或直接扫描二维码关注，每天推送科技资讯。需求我个人有浏览科技资讯的需求。长期以来，我通过一些新闻客户端、关注部分公众号推送、谷歌快讯、搜索引擎关键词搜索等方式去获取我想要的资讯，比较分散和费时。为了满足自己的需求，我需要能够天天获取到自
科技资讯|9月新能源汽车零售74.3万辆，充电桩迎来发展高峰 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技汽车物联网蓝牙
据中国乘联会发布的初步数据，中国9月份乘用车市场零售202.8万辆，同比增长6%，环比增6%。今年以来，我国乘用车市场累计零售1,524万辆，同比增长2%。乘联会预计，9月份新能源车市场零售74.3万辆，同比增长21%，环比增长4%。今年以来，我国新能源汽车累计零售518.6万辆，同比增长34%。乘联会表示，2023上半年，新能源乘用车市场呈现逐月走高趋势。7月以来，乘用车市场处于淡季，但随着大量
科技资讯|微软AR眼镜新专利曝光，可拆卸电池解决续航焦虑 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技物联网蓝牙
微软正在深入研究增强现实（AR）领域，最近申请了一项“热插拔电池”相关专利。该专利于2023年10月5日发布，描述了采用模块化设计的AR眼镜，热插拔电池放置在了镜腿部分，可以直接拿下替换，对于AR眼镜的续航来说大有提升。不仅如此，可拆卸电池（无论是在镜腿还是可拆卸的听筒部分）都为用户提供了在没有电池的情况下佩戴眼镜的选择，可以减轻重量并减少设备的体积，确保长时间工作时的舒适度。该专利还透露，AR眼
科技资讯|苹果下一代Vision Pro头显将更小更轻，预装处方镜片 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技物联网蓝牙
据彭博社的MarkGurman在《PowerOn》新闻简报中透露，苹果和Meta的混合现实头显还未发售，但两家的下一代机型的开发工作已经在顺利进行。据报道，苹果下代产品的一个重点是通过更小、更轻的设计，使其设备佩戴起来更加舒适。据悉该公司正在考虑多种选择，包括低端版本和功能更强大的版本。报道还称，苹果正考虑下一代头显可以根据用户的视力情况进行定制，出厂就预装处方镜片。报道称，这可能会简化客户的体验
科技资讯|AirPods Pro基于定位控制的自适应音频功能 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技物联网蓝牙 findmy
在接受TechCrunch媒体采访时，苹果高管RonHuang和EricTreski谈到了关于AirPodsPro自适应音频（AdaptiveAudio）功能的轶事，曾考虑基于GPS信号来控制自适应音频级别。Treski表示在探索自适应音频功能初期，曾考虑联动iPhone上的GPS信号，用于确认佩戴者的所在位置，从而自动调整自适应音频。例如，佩戴者走在街上，AirPodsPro就自动进入通透模式。
MacOS待机时耗电严重怎么办？ tech_man
更多实用教程、破解软件、科技资讯关注公众号：简享云总有人抱怨Mac更新10.14以上的系统后，待机耗电很严重！最近废鱼也有遇到这个问题，明明都充满了电才合上盖子的，第二天就只剩下七八十，有时候更少，怎么办呢？废鱼找到了两个Mac设置的小技巧，来缓解这个耗电的情况，现在就分享给大家。1、在系统偏好设置里面，找到“节能”，然后分别在电池和电源适配器中，将“此时间段后关闭显示器”的时间拉短，再把“当显示
克丽感悟：没工作一半怪自己应聘者有八大误区 jackyren007 工作资讯金融电话活动网络
作者：CNET科技资讯网CNETNews.com.cn2008-12-1513:57:42关键词：克丽刘克丽克丽感悟克丽博客CBSI中国媒体总编刘克丽在博客中写到：没工作一半怪自己，应聘者有八大误区。尤其是在金融危机这几年，找工作几乎成了全世界、全中国人民共同的灾难。如何面对这个灾难呢？要面对这个灾难，就要面对我下面说的这七个误区。不改变自己的价值观这几年、特别最近几个月,，我不断接到好多电话，几
科技资讯|苹果获批手机“Touch Bar”新专利，苹果Find My依旧火爆 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技智能手机 findmy 物联网蓝牙
根据美国商标和专利局（USPTO）公示的清单，苹果获得了一项iPhone专利，在机身侧面装上一个“TouchBar”，用于显示电量等信息，并支持相关的交互操作。这项专利最早于2011年提交，并于2014年获得批准。苹果公司在此前专利到期之后，于2023年4月再次申请了该专利，于近日再次获得批准。该专利名为“带侧壁显示的电子设备”，描述在iPhone侧面配有OLED或者其它柔性屏幕类型。相比较苹果此
科技资讯|苹果新款手机支持 4.5W 反向充电，耳机手表不怕没电 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技物联网蓝牙 findmy
苹果公司日前发布了一份支持文件，其中提到iPhone15手机型号上的USB-C接口与其他详细信息。苹果公司表示所有iPhone15系列手机，都可以为AppleWatch、AirPods充电盒或连接到USB-C端口的任何配件充电，功率为4.5W。文件中同时显示iPhone15Pro和ProMax支持USB3.2Gen2，数据传输速度达10Gbps。苹果此前已经透露这些设备支持USB3。不过，iPho
科技资讯|Canalys发布全球可穿戴腕带设备报告，智能可穿戴增长将持续 Lenzetech 蓝牙产品蓝牙芯片蓝牙技术科技蓝牙物联网 findmy
市场调查机构Canalys近日发布报告，表示2023年第2季度全球可穿戴腕带设备出货量达4400万台，同比增长了6%。主要归功于其亲民的价格以及消费者对价位较高的替代品仍持谨慎态度，基础手环市场尽管与去年同期相比有所下降，仍然保持稳定的市场份额，约为19%。可穿戴设备仍然具有长期的发展前景。尽管短期经济因素使消费者更倾向于追求性价比较高的可穿戴设备，但持久的吸引力仍在于稳定的质量和健康数据的长期积
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

你的爬虫会送你进监狱吗？

爬虫究竟是合法还是违法的？

详细分析

对于广大程序员来说，如何避免爬虫所带来的法律风险？

你可能感兴趣的:(科技资讯)