snowing1990

PHP爬虫：百万级别知乎用户数据爬取与分析

这次抓取了110万的用户数据，数据分析结果如下：

开发前的准备

安装Linux系统（Ubuntu14.04），在VMWare虚拟机下安装一个Ubuntu；

安装PHP5.6或以上版本；

安装MySQL5.5或以上版本；

安装curl、pcntl扩展。

使用PHP的curl扩展抓取页面数据

PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

本程序是抓取知乎的用户数据，要能访问用户个人页面，需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面的时候，之所以能够看到用户的信息，是因为在点击链接的时候，浏览器帮你将本地的cookie带上一齐提交到新的页面，所以你就能进入到用户的个人中心页面。因此实现访问个人页面之前需要先获得用户的cookie信息，然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面，我是用了自己的cookie，在页面中可以看到自己的cookie信息：

一个个地复制，以”__utma=?;__utmb=?;”这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

初始的示例：

$url = 'http://www.zhihu.com/people/mora-hu/about'; //此处mora-hu代表用户ID $ch = curl_init($url); //初始化会话 curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  //设置请求COOKIE curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);  //将curl_exec()获取的信息以文件流的形式返回，而不是直接输出。 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);  $result = curl_exec($ch); return $result;  //抓取的结果

运行上面的代码可以获得mora-hu用户的个人中心页面。利用该结果再使用正则表达式对页面进行处理，就能获取到姓名，性别等所需要抓取的信息。

图片防盗链

在对返回结果进行正则处理后输出个人信息的时候，发现在页面中输出用户头像时无法打开。经过查阅资料得知，是因为知乎对图片做了防盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的链接之后，再发一次请求，这时候带上图片请求的来源，说明该请求来自知乎网站的转发。具体例子如下：

function getImg($url, $u_id) {     if (file_exists('./images/' . $u_id . ".jpg"))     {         return "images/$u_id" . '.jpg';     }     if (empty($url))     {         return '';     }     $context_options = array(          'http' =>          array(             'header' => "Referer:http://www.zhihu.com"//带上referer参数     ) );      $context = stream_context_create($context_options);      $img = file_get_contents('http:' . $url, FALSE, $context);     file_put_contents('./images/' . $u_id . ".jpg", $img);     return "images/$u_id" . '.jpg'; }

爬取更多用户

抓取了自己的个人信息后，就需要再访问用户的关注者和关注了的用户列表获取更多的用户信息。然后一层一层地访问。可以看到，在个人中心页面里，有两个链接如下：

这里有两个链接，一个是关注了，另一个是关注者，以“关注了”的链接为例。用正则匹配去匹配到相应的链接，得到url之后用curl带上cookie再发一次请求。抓取到用户关注了的用于列表页之后，可以得到下面的页面：

分析页面的html结构，因为只要得到用户的信息，所以只需要框住的这一块的div内容，用户名都在这里面。可以看到，用户关注了的页面的url是：

不同的用户的这个url几乎是一样的，不同的地方就在于用户名那里。用正则匹配拿到用户名列表，一个一个地拼url，然后再逐个发请求（当然，一个一个是比较慢的，下面有解决方案，这个稍后会说到）。进入到新用户的页面之后，再重复上面的步骤，就这样不断循环，直到达到你所要的数据量。

Linux统计文件数量

脚本跑了一段时间后，需要看看究竟获取了多少图片，当数据量比较大的时候，打开文件夹查看图片数量就有点慢。脚本是在Linux环境下运行的，因此可以使用Linux的命令来统计文件数量：

ls -l | grep "^-" | wc -l

其中， ls -l 是长列表输出该目录下的文件信息（这里的文件可以是目录、链接、设备文件等）； grep "^-" 过滤长列表输出信息， "^-" 只保留一般文件，如果只保留目录是 "^d" ； wc -l 是统计输出信息的行数。下面是一个运行示例：

插入MySQL时重复数据的处理

程序运行了一段时间后，发现有很多用户的数据是重复的，因此需要在插入重复用户数据的时候做处理。处理方案如下：

1）插入数据库之前检查数据是否已经存在数据库；

2）添加唯一索引，插入时使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...

3）添加唯一索引，插入时使用 INSERT INGNORE INTO...

4）添加唯一索引，插入时使用 REPLACE INTO...

第一种方案是最简单但也是效率最差的方案，因此不采取。二和四方案的执行结果是一样的，不同的是，在遇到相同的数据时， INSERT INTO … ON DUPLICATE KEY UPDATE 是直接更新的，而 REPLACE INTO 是先删除旧的数据然后插入新的，在这个过程中，还需要重新维护索引，所以速度慢。所以在二和四两者间选择了第二种方案。而第三种方案， INSERT INGNORE 会忽略执行INSERT语句出现的错误，不会忽略语法问题，但是忽略主键存在的情况。这样一来，使用 INSERT INGNORE 就更好了。最终，考虑到要在数据库中记录重复数据的条数，因此在程序中采用了第二种方案。

使用curl_multi实现多线程抓取页面

刚开始单进程而且单个curl去抓取数据，速度很慢，挂机爬了一个晚上只能抓到2W的数据，于是便想到能不能在进入新的用户页面发curl请求的时候一次性请求多个用户，后来发现了curl_multi这个好东西。curl_multi这类函数可以实现同时请求多个url，而不是一个个请求，这类似于linux系统中一个进程开多条线程执行的功能。下面是使用curl_multi实现多线程爬虫的示例：

$mh = curl_multi_init(); //返回一个新cURL批处理句柄 for ($i = 0; $i < $max_size; $i++) {     $ch = curl_init();  //初始化单个cURL会话     curl_setopt($ch, CURLOPT_HEADER, 0);     curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');     curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);     curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');     curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);     curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     $requestMap[$i] = $ch;     curl_multi_add_handle($mh, $ch);  //向curl批处理会话中添加单独的curl句柄 }  $user_arr = array(); do {                 //运行当前 cURL 句柄的子连接     while (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM);      if ($cme != CURLM_OK) {break;}                 //获取当前解析的cURL的相关传输信息     while ($done = curl_multi_info_read($mh))     {         $info = curl_getinfo($done['handle']);         $tmp_result = curl_multi_getcontent($done['handle']);         $error = curl_error($done['handle']);          $user_arr[] = array_values(getUserInfo($tmp_result));          //保证同时有$max_size个请求在处理         if ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list))         {             $ch = curl_init();             curl_setopt($ch, CURLOPT_HEADER, 0);             curl_setopt($ch, CURLOPT_URL, 'http://www.zhihu.com/people/' . $user_list[$i] . '/about');             curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie);             curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36');             curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);             curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);             $requestMap[$i] = $ch;             curl_multi_add_handle($mh, $ch);              $i++;         }          curl_multi_remove_handle($mh, $done['handle']);     }      if ($active)         curl_multi_select($mh, 10); } while ($active);  curl_multi_close($mh); return $user_arr;

HTTP 429 Too Many Requests

使用curl_multi函数可以同时发多个请求，但是在执行过程中使同时发200个请求的时候，发现很多请求无法返回了，即发现了丢包的情况。进一步分析，使用 curl_getinfo 函数打印每个请求句柄信息，该函数返回一个包含HTTP response信息的关联数组，其中有一个字段是http_code，表示请求返回的HTTP状态码。看到有很多个请求的http_code都是 429，这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护，于是我就拿其他的网站来做测试，发现一次性发200个请求时没问题的，证明了我的猜测，知乎在这方面做了防护，即一次性的请求数量是有限制的。于是我不断地减少请求数量，发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多只能发5个请求，虽然不多，但这也是一次小提升了。

使用Redis保存已经访问过的用户

抓取用户的过程中，发现有些用户是已经访问过的，而且他的关注者和关注了的用户都已经获取过了，虽然在数据库的层面做了重复数据的处理，但是程序还是会使用curl发请求，这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行，刚开始是放到数组里面，后来发现要在程序里添加多进程，在多进程编程里，子进程会共享程序代码、函数库，但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变量是分离的，不能被其他进程读取，所以是不能使用数组的。因此就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候都把用户push到一个already_request_queue队列中，把待抓取的用户（即每个用户的关注者和关注了的用户列表）push到 request_queue里面，然后每次执行前都从request_queue里pop一个用户，然后判断是否在 already_request_queue里面，如果在，则进行下一个，否则就继续执行。

在PHP中使用redis示例：

<php     $redis = new Redis();     $redis->connect('127.0.0.1', '6379');     $redis->set('tmp', 'value');     if ($redis->exists('tmp'))     {         echo $redis->get('tmp') . "\n";     }

使用PHP的pcntl扩展实现多进程

改用了curl_multi函数实现多线程抓取用户信息之后，程序运行了一个晚上，最终得到的数据有10W。还不能达到自己的理想目标，于是便继续优化，后来发现php里面有一个pcntl扩展可以实现多进程编程。下面是多编程编程的示例：

//PHP多进程demo //fork10个进程 for ($i = 0; $i < 10; $i++) {     $pid = pcntl_fork();     if ($pid == -1) {         echo "Could not fork!\n";         exit(1);     }     if (!$pid) {         echo "child process $i running\n";         //子进程执行完毕之后就退出，以免继续fork出新的子进程         exit($i);     } }  //等待子进程执行完毕，避免出现僵尸进程 while (pcntl_waitpid(0, $status) != -1) {     $status = pcntl_wexitstatus($status);     echo "Child $status completed\n"; }

在Linux下查看系统的cpu信息

实现了多进程编程之后，就想着多开几条进程不断地抓取用户的数据，后来开了8调进程跑了一个晚上后发现只能拿到20W的数据，没有多大的提升。于是查阅资料发现，根据系统优化的CPU性能调优，程序的最大进程数不能随便给的，要根据CPU的核数和来给，最大进程数最好是cpu核数的2倍。因此需要查看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令：

cat /proc/cpuinfo

结果如下：

其中，model name表示cpu类型信息，cpu cores表示cpu核数。这里的核数是1，因为是在虚拟机下运行，分配到的cpu核数比较少，因此只能开2条进程。最终的结果是，用了一个周末就抓取了110万的用户数据。

多进程编程中Redis和MySQL连接问题

在多进程条件下，程序运行了一段时间后，发现数据不能插入到数据库，会报mysql too many connections的错误，redis也是如此。

下面这段代码会执行失败：

<php      for ($i = 0; $i < 10; $i++) {           $pid = pcntl_fork();           if ($pid == -1) {                echo "Could not fork!\n";                exit(1);           }           if (!$pid) {                $redis = PRedis::getInstance();                // do something                    exit;           }      }

根本原因是在各个子进程创建时，就已经继承了父进程一份完全一样的拷贝。对象可以拷贝，但是已创建的连接不能被拷贝成多个，由此产生的结果，就是各个进程都使用同一个redis连接，各干各的事，最终产生莫名其妙的冲突。

解决方法： >程序不能完全保证在fork进程之前，父进程不会创建redis连接实例。因此，要解决这个问题只能靠子进程本身了。试想一下，如果在子进程中获取的实例只与当前进程相关，那么这个问题就不存在了。于是解决方案就是稍微改造一下redis类实例化的静态方式，与当前进程ID绑定起来。

改造后的代码如下：

<php      public static function getInstance() {           static $instances = array();           $key = getmypid();//获取当前进程ID           if ($empty($instances[$key])) {                $inctances[$key] = new self();           }            return $instances[$key];      }

PHP统计脚本执行时间

因为想知道每个进程花费的时间是多少，因此写个函数统计脚本执行时间：

 
 
  
  
  
  
 
  
 
  
  
   
   
   
   function microtime_float() 
 
  
 
  
  
   
   
   
   { 
 
  
 
  
  
   
   
   
        list($u_sec, $sec) = explode(' ', microtime()); 
 
  
 
  
  
   
   
   
        return (floatval($u_sec) + floatval($sec)); 
 
  
 
  
  
   
   
   
   } 
 
  
 
  
  
   
   
   
    
 
  
 
  
  
   
   
   
   $start_time = microtime_float(); 
 
  
 
  
  
   
   
   
    
 
  
 
  
  
   
   
   
   //do something 
 
  
 
  
  
   
   
   
   usleep(100); 
 
  
 
  
  
   
   
   
    
 
  
 
  
  
   
   
   
   $end_time = microtime_float(); 
 
  
 
  
  
   
   
   
   $total_time = $end_time - $start_time; 
 
  
 
  
  
   
   
   
    
 
  
 
  
  
   
   
   
   $time_cost = sprintf("%.10f", $total_time); 
 
  
 
  
  
   
   
   
    
 
  
 
  
  
   
   
   
   echo "program cost total " . $time_cost . "s\n";

实战C++手写线程池 GeniusAng丶 C/C++编程 c++OOP 线程池
课程总目录文章目录一、项目必备基础概念1.1并发和并行1.2多线程的优势1.3线程的消耗1.4线程池的优势1.5线程池的两种模式：fixed模式和cached模式1.6线程同步之线程互斥1.7线程同步之线程通信1.7.1条件变量1.7.2信号量1.8项目设计图浏览二、线程池代码展示三、线程池资源回收死锁问题分析四、线程资源回收策略修改优化五、Linux平台编译线程池动态库六、packaged_ta
redis 快速入门栀夏613 数据库 redis 数据库缓存
目录数据库的分类NoSQL非结构化认识redis特征安装redis单机安装Docker安装redis的基本配置启动redis关闭redisredis开机自启redis客户端redis数据结构介绍基本类型String的基础操作List基本操作Set基本操作SortedSet基本操作Hash基本操作redis通用命令key的层级格式数据库的分类关系型数据库结构化数据表中存储的数据格式是一样的数据与数据
二叉树的类型定义与基本操作 S01d13r 笔记
二叉树的类型定义与基本操作树结构是一类重要的非线性数据结构，在客观世界中广泛存在。树在计算机领域中也得到了广泛的应用，尤以二叉树最为常用。本文重点讨论二叉树的基本操作。1.二叉树的类型定义二叉树通常由三个域组成：数据域、左孩子指针域和右孩子指针域。其类型定义为：typedefstructBiNode{chardata;//数据域structBiNode*lchild,*rchild;//左右孩子指
MySQL中OR操作导致索引失效的深度解析与技术优化方案阿豆学编程 Mysql mysql 数据库
一、索引机制与查询优化基础B+树索引的结构特性MySQL采用B+树作为核心索引结构，其平衡多路搜索树的特性保证了O(logN)的查询效率。B+树具有以下显著特征：所有叶子节点形成有序链表，支持高效范围查询非叶子节点仅存储索引键值，不保存数据指针数据记录按主键顺序存储在聚簇索引的叶子节点每个节点存储的键值数量由页大小和键值长度决定以InnoDB引擎为例，其默认页大小为16KB。假设索引键为INT类型
从opencv-python入门opencv--GUI功能之绘图&鼠标与图像界面的交互这是一个图像 python 计算机外设 opencv GUI 计算机视觉图像处理交互
从opencv-python入门opencv--GUI功能之绘图和鼠标操作一、文章介绍二、opencv绘制直线、矩形、圆形1、cv.line()2、cv.circle()3、cv.rectangle()4、在图像上绘制直线、矩形和圆形5、cv.ellipse()（在空白画布上绘制椭圆）（1）img=cv.ellipse(img,center,axes,angle,startAngle,endAng
Spring Boot整合Redis快速入门实例 oscar999 Spring Boot实战开发大全 redis spring boot java
本篇演示环境本篇基于SpringBoot2.5.0,关于Redis的安装，可以参考：Redis介绍、安装与初体验和Windows下安装和使用Redis。整合步骤导入Redis相关的依赖项配置启动器spring-boot-starter-data-redisorg.springframework.bootspring-boot-starter-data-redis添加连接Redis服务器的相关配置在
RocketMQ 集群消费与广播消费俏布斯消息中间件 RocketMQ java-rocketmq rocketmq
RocketMQ集群消费与广播消费消费组间广播消费：每个消费者分组只初始化唯一一个消费者，每个消费者可消费到消费者分组内所有的消息，各消费者分组都订阅相同的消息，以此实现单客户端级别的广播一对多推送效果。该方式一般可用于网关推送、配置推送等场景。消费组内共享消费（集群消费）：，每个消费者分组下初始化了多个消费者，这些消费者共同分担消费者分组内的所有消息，实现消费者分组内流量的水平拆分和均衡负载。该
Transformer 代码剖析7 - 词元嵌入(TokenEmbedding) （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、类定义与继承关系剖析1.1代码结构图示神经网络基础模块词嵌入基类自定义词元嵌入构造函数定义基类初始化词汇量参数维度参数填充标识参数1.2代码实现精讲"""@author:Hyunwoong@when:2019-10-22@homepage:https://github.com/gusdnd852"""fromtorchimportnnclassTokenEmbedding(nn.Embeddi
AUTOSAR从入门到精通-4D毫米雷达波格图素书人工智能
目录前言几个高频面试题目4D毫米波雷达会取代激光雷达吗？3D与4D毫米波雷达对比毫米波雷达行业发展历程算法原理几个相关概念雷达毫米波雷达长波vs短波与传统毫米波雷达和激光雷达对比与传统毫米波雷达对比与激光雷达对比与摄像头对比毫米波雷达工作原理毫米波雷达主要应用波段毫米波构成主要功能以及实现方式什么是4D毫米波？4D毫米波雷达市场规模4D毫米波雷达厂商4D毫米波雷达探测性能4D毫米波雷达算法能力现状
基于同态加密的隐私计算技术在基因序列演化分析场景的应用 AI研究员隐私计算同态加密 big data 人工智能算法
一、概述数据要素的流通共享和核心价值挖掘是数据要素市场培育的核心内容、必须在保证隐私安全的前提下实现有效信息共享。然而，当前仍然有三大隐私制约数据流通与协作。一是“数据孤岛”现象普遍存在，“数据孤岛”的出现使数据共享和流通协作受到阻碍，导致数据要素在资产化过程中发生垄断；二是全球数据合规监管日趋严格，日前各个国家都才采取数据安全法，确立了数据安全保护的各项基本制度，导致企事业及个人对数据流通与协作
二、环 Ring Miyazaki_Hayao 一些散乱的数学基础密码学
文章目录一、环的定义二、环的分类与变种1、交换环2、含单位元的环3、零环4、非交换环5、整环6、域三、环的性质与应用四、环与群和域的对比一、环的定义一个集合R被称为一个环，如果它满足以下条件：对于加法满足：闭合性：对于任意a,b∈Ra,b\inRa,b∈R，有a+b∈Ra+b\inRa+b∈R交换律：a+b=b+aa+b=b+aa+b=b+a结合律：(a+b)+c=a+(b+c)(a+b)+c=
三、多项式环 Miyazaki_Hayao 一些散乱的数学基础密码学
文章目录一、多项式环的定义二、多项式环的性质1.多项式加法2.多项式乘法3.满足的运算规律4.次数5.单位元三、剩余多项式环（商多项式环）四、有限多项式环五、多项式环的性质与特性1.子环与理想2.不可约性和素性3.有限生成性一、多项式环的定义多项式环是抽象代数中一种重要的代数结构，基于一个环R（通常是交换环）构造出关于一个或多个未知元（如x,y,z）的“多项式”集合，并在其上定义加法和乘法运算，
卷积神经网络（Convolutional Neural Network，CNN）详细解释（带示例）浪九天人工智能理论人工智能神经网络深度学习机器学习
目录卷积神经网络示例Python案例代码解释卷积神经网络概述：卷积神经网络是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型。它通过卷积层、池化层和全连接层等组件，自动提取数据的特征，大大减少了模型的参数数量，降低计算量，同时提高了模型的泛化能力。主要组件卷积层：是CNN的核心组件，由多个卷积核组成。卷积核在数据上滑动，通过卷积操作提取数据的局部特征。卷积操作是将卷积核与数据的局
FPGA开发，使用Deepseek V3还是R1（5）：temperature设置 LeeConstantine 用Deepseek开发FPGA fpga开发
以下都是Deepseek生成的答案FPGA开发，使用DeepseekV3还是R1（1）：应用场景FPGA开发，使用DeepseekV3还是R1（2）：V3和R1的区别FPGA开发，使用DeepseekV3还是R1（3）：系统级与RTL级FPGA开发，使用DeepseekV3还是R1（4）：Deepseek参数配置FPGA开发，使用DeepseekV3还是R1（5）：temperature设置FPG
北京大学：2本手册，拓展AI应用深度与广度 2501_90766876 pdf
《DeepSeek与AIGC应用》对DeepSeek-R1进行了详细解读，包括其技术特性、发展历程、应用场景以及在AIGC（人工智能生成内容）领域的定位。深入剖析DeepSeek-R1在复杂逻辑推理、数学和编程任务中的优异表现，揭示其在推理密集型任务、教育、科研、知识应用和文档分析等领域的独特优势，为AIGC领域的从业者和爱好者提供了深入了解DeepSeek的窗口。《DeepSeek提示词工程和落
聊一聊 IM 要如何提升用户体验？后端java
IM系列imdoc实时通讯文档仓库聊一聊IM是什么？聊一聊IM即时通讯系统聊一聊IM要如何设计？聊一聊IM要如何设计功能模块？聊一聊IM要如何进行架构设计？聊一聊IM要如何进行技术选型？聊一聊IM要如何保证安全性？聊一聊IM要如何保证扩展性？聊一聊IM要如何实现运维与监控？聊一聊IM要如何提升用户体验？聊一聊IM要如何进行测试与部署？聊一聊IM要如何编写文档+技术支持？聊一聊IM要如何打造差异化？
HarmonyOS Next 应用开发实战：构建高性能动画组件（ArkTS深度解析）前端
第一章案例背景与技术选型###1.1项目需求分析本案例将实现一个复杂的粒子动画登录界面，包含以下核心功能：1.动态粒子背景：300+粒子按流体力学规律运动2.智能输入框：输入时触发粒子聚散动画3.登录按钮：3D翻转交互动效4.性能优化：确保60fps流畅运行1.2技术方案设计采用ArkTS实现以下技术组合：typescript//粒子对象数据结构classParticle{x:number=0y:
linux开启samba共享文件夹 linux运维samba
一：安装samba#检查是否安装sambarpm-qisamba #如未安装，使用命令安装yuminstallsamba二：系统用户配置#添加系统用户useraddyouboshare#设置系统用户登陆密码passwdyouboshare#添加共享文件夹的用户(youboshare为要共享的用户)smbpasswd-ayouboshare三：配置共享文件夹1：添加共享文件夹并设置权限#创建共享文件
【AsyncOpenAI vs OpenAI】在异步函数中调用OpenAI API进行流式输出内卷焦虑人士 python 人工智能 openai
目录在异步函数中使用AsyncOpenAI与直接从openai导入OpenAI的区别1.背景介绍1.1同步与异步编程1.2OpenAIAPI2.使用`AsyncOpenAI`的示例3.与直接导入`OpenAI`的区别3.1同步操作与异步操作3.2性能与效率3.3代码结构3.4并发性能3.5事件循环兼容性:4.结论5.补充在异步函数中使用AsyncOpenAI与直接从openai导入OpenAI的区
嵌入式晶振细究广药门徒 fpga开发单片机嵌入式硬件
四脚晶振（四引脚封装）**不一定是“有源晶振”**，但其封装形式与功能之间存在一定的相关性。以下是具体分析：---###**1.四脚晶振的常见类型**####（1）**有源晶振（OSC）**-**典型特征**：-包含完整的振荡电路（石英晶体+放大器+起振电路）。-引脚定义通常为：**VCC（电源）**、**GND（地）**、**OUT（输出）**，第四脚可能是**使能（EN）**或悬空（NC）。-
聊一聊 IM 要如何提升用户体验？后端java
IM系列imdoc实时通讯文档仓库聊一聊IM是什么？聊一聊IM即时通讯系统聊一聊IM要如何设计？聊一聊IM要如何设计功能模块？聊一聊IM要如何进行架构设计？聊一聊IM要如何进行技术选型？聊一聊IM要如何保证安全性？聊一聊IM要如何保证扩展性？聊一聊IM要如何实现运维与监控？聊一聊IM要如何提升用户体验？聊一聊IM要如何进行测试与部署？聊一聊IM要如何编写文档+技术支持？聊一聊IM要如何打造差异化？
【产品经理修炼之道】-价值维思考模型在技术性需求中的应用 xiaoli8748_软件开发产品经理
真正的产品，是满足用户需求痛点、给用户创造快感，或者成本节约带来的感受。这种感受既可感知，也有可能不可直接感知。产品经理到底要不要懂技术，是否技术出身的产品经理一定更有优势呢？对于这个问题的探讨，相信各位都能在各个产品论坛上看到，不少产品经理估计也参与争辩过。笔者自己曾是技术出身，且刚毕业时做全栈开发若干年，也有过技术架构经验，所以对于产品经理要不要懂开发，笔者认为懂总比不懂的好，不过之前所带过的
计算机视觉毕业设计选题推荐：建议指导篇微光DeepLearning 毕设选题毕业设计计算机视觉
亲爱的同学们，转眼间我们已经迎来了大四，这一年充满了挑战与机遇。大家忙着备考研究生、公务员、教师资格证，或是寻找实习机会，同时还要面对毕业设计的重任。对于毕业设计，很多同学可能会感到陌生，不知道从何下手，也不确定自己适合哪些方向的课题。为此，我整理了一个毕业设计选题专栏，希望能为大家提供一些灵感和建议。无论你对毕业设计有任何疑问，欢迎随时来问我哦！对毕设有任何疑问都可以问学长哦!前言在计算机专业的
Git版本管理逻辑解析：从核心原理到工作流实践 The god of big data 神器？三叉戟？教程大Big数据Data git
一、版本控制的历史背景与Git的核心优势版本控制系统的演变经历了三个阶段：本地版本控制（如RCS）、集中式版本控制（如SVN）和分布式版本控制（如Git）。Git作为分布式系统的代表，其核心优势在于每个开发者本地都保存完整的版本库历史，避免了集中式系统因服务器宕机导致的历史丢失风险13。这种设计使得开发者可以离线工作，且任意本地仓库都可作为备份恢复源，类似于区块链的去中心化思想14。二、Git版本
前端进阶题（面试必看） Caleb-niu 面试指南前端面试职场和发展
网络&安全❓输入URL地址后发生了什么事情？DNS域名解析，从URL地址中获取域名地址，通过DNS服务器解析为IP地址。先本地缓存（浏览器、操作系统）》ISP网络服务商》根服务器（根域、一级域、二级域、三级域）建立TCP连接，HTTP协议是基于TCP协议的，浏览器与服务端通过三次握手建立TCP连接（如果是HTTPS则是四次握手，多了因此SSL握手）。下载数据，向服务端发送请求报文（header+b
4.Docker容器命令钗头风 Docker docker 容器运维
Docker镜像与容器的理解在学习docker入门过程中有些时候容易把容器和镜像这两个概念记混淆;下面说下我自己的理解不对望指正！有镜像才能创建容器这是根本前提！IMAGE镜像就好比我们的Java实体工程代码;在服务器上这套Java实体代码可以运行启动多份工程。依靠Java实体代码启动的一个个工程就相当于是容器;准备工作：使用dockerpullubuntu命令拉取一个最新的ubuntu镜像;使用
【复杂网络建模】真实网络数据集的读取和操作钰云空间复杂网络 Python python
文章目录概要1.获取真实网络数据集的常用网址1.1NetworkRepository.1.2StanfordLargeNetworkDatasetCollection1.3KONCET1.4Netzschleuder2.网络分析2.1计算度中心性2.2绘制网络图小结概要在复杂网络建模中，使用真实的网络数据集是理解和分析现实世界网络结构的关键。接下来将介绍如何使用Python中的工具库（如Netwo
如何判断字符串中所有字符是否全都不同？钰云空间 java 算法开发语言
文章目录概要解法一：利用Set不可重复性代码解析优点与缺点解法二：位运算解决代码解析优点与缺点结论概要在编程中，检查一个字符串中所有字符是否全都不同是一个常见问题。以下是两种常见的解决方案：使用集合（Set）和位运算（BitManipulation）。每种方法都有其优点和适用场景。本文将详细介绍这两种方法，包括其实现代码和分析解法一：利用Set不可重复性使用集合（Set）是一种直观且易于理解的方法
获取小程序自定义分包大小的 4 种方法爱分享的程序员微信小程序小程序
获取小程序自定义分包大小的4种方法方法1：通过微信开发者工具查看打开代码分析在微信开发者工具中：点击顶部菜单栏工具➔代码分析选择代码依赖分析标签页查看分包大小分布图（自动标注超限部分）上传版本时校验提交代码包时，控制台会自动显示分包大小：[分包检测]主包大小:1.2MBsubpackage1:3.5MB(超过建议值2MB)subpackage2:1.8MB方法2：使用miniprogram-ci工
以太网的分层架构_以太网上TCP/IP协议的分层结构及其报文格式 weixin_39589557 以太网的分层架构
TCP/IP协议是一个比较复杂的协议集，有很多专业书籍介绍。在此，我仅介绍其与编程密切相关的部分：以太网上TCP/IP协议的分层结构及其报文格式。我们知道TCP/IP协议采用分层结构，其分层模型及协议如下表：应用层(Application)HTTP、Telnet、FTP、SMTP、SNMP传输层(Transport)TCP、UDP网间网层(Internet)IP【ARP、RARP、ICMP】网络接
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

PHP爬虫：百万级别知乎用户数据爬取与分析

你可能感兴趣的:(PHP爬虫：百万级别知乎用户数据爬取与分析)