Eastmount

《淘宝技术这十年》读书笔记 (三). 创造技术TFS和Tair

前面两篇文章介绍了淘宝的发展历程和Java时代的变迁：
《淘宝技术这十年》读书笔记 (一).淘宝网技术简介及来源
《淘宝技术这十年》读书笔记 (二).Java时代的脱胎换骨和坚若磐石
马云说过“创新不是为了与对手竞争，而是跟明天竞争”，所以这篇文章讲述淘宝的创新技术TFS和Tair及创新的产品。
该篇文章不仅仅对在读大学生非常有所帮助，因为你能从文章中看到很多你需要学习的知识，不仅仅包括数据库、计算机网络、操作系统、数据结构等基础课程；还根据时代的技术变迁讲述了当时最新的编程技术及应用，如数据挖掘、Java\Oracle、搜索引擎分词排序、分布式、大数据GFS、海量文件处理等，这些知识对你面试找工作都非常有帮助；同时也根据淘宝网发展历程不断讲述了它遇到的问题及解决方法。从最初的通过购买更高端的系统设备（如IOE——IBM小型机、Oracle、EMC存储）到最好的设备也不能满足淘宝网海量数据尤其是图片数据的存储需求，最后自己创造属于自己的针对海量小文件存储的文件系统，这些问题都很可能是你以后成为程序员或IT创业者将面临的问题。所以我才这么强烈的写这本书的读书笔记。
——Eastmount序

一. TFS

1.需要创新的原因

在2.1版本终于稳定下来，淘宝网运行了这个版本的系统两年多的时间。这期间有很多优秀的人才加入，也开发了很多优秀的产品。如商品的类目属性、支付宝认证系统、招财进宝项目、淘宝旅行、淘宝论坛等。在这些产品和功能的最底层其实还是—— 商品管理和交易管理。
由于2.1版本产品7天或14天到期后会自动下架，商家需重新发布；重新商家的产品ID 会变化产生新的商品信息，因为搜索引擎不知道同样的商品哪个排在前面，于是把挂牌时间长的排在前面，这就需要把老的商品下架，否则一直排在前面；同时由于存储限制不能让所有的商品总存放在主库中。
这种处理方式简单粗暴，但还算公平。不过这会导致很多需求都无法满足。例如卖出一件商品之后就无法更改价格，否则前面已经成交的那个价格都变了，而且同样的商品，上一次销售后很多好评都无法在下一个商品上体现出来；再如，我买过的商品结束后只看到交易的信息，不知道卖家是否还会卖。
基于这些需求，我们在2006年下半年把商品和交易拆开，一个商家的一种商品有一个唯一的ID，上下架都是同一个商品。那么如果卖家修改价格和库存信息，已经成交的信息怎么处理？那就在买家每交易一次时都记录下商品的快照信息，有多少次交易就有多少个快照。这样买卖双方比较爽了，但给系统带来了什么？存储的成本大幅度上升了。
存储的成本高到什么程度呢？数据库方面用了 IOE ，一套千万级别；同时淘宝网还有很多文件需要存储，最主要的是图片、商品描述、交易快照。一个商品包含几张图片和一长串的描述信息，而每张图片都有几张不同规格的缩略图。在2010年，淘宝网的后端系统上保存着286亿个图片文件。
大家常说“无图无真相”，淘宝网热门商品图片的访问流量非常巨大。在淘宝网整体流量中，图片的访问流量要占到90%以上，而且这些图片平均大小为17.45KB，小于8KB的图片占整体图片数量的61%。这么多的图片数据、这么大的访问流量，给淘宝网系统带来了巨大的挑战。对于大多数系统来说，最头疼的就是大规模的小文件存储与读取，因为磁头需要频繁寻道和换道，因此在读取上带来较长的延时。
PS：平时大家拷贝2G的电影和2G的多张图片就很容易见到这种延时吧！
在大量高并发访问量的情况下，简直就是系统的噩梦。我们该怎么办呢？同样的套路，在某个规模下采用现有的商业解决方案，达到某种规模之后，商业的解决方案无法满足，此时只有自己创造解决方案了。
对于淘宝网的图片存储来说，转折点在2007年。这之前一直采用商用存储系统，用的是 NetApp 公司的文件存储系统。随着图片文件数量以每年3倍的速度增长，NetApp公司的存储系统从低端到高端不断迁移，直到2006年，NetApp公司最高端产品再也不能满足淘宝网存储的要求。
从 2006 年开始，我们决定自己开发一套针对海量小文件存储的文件系统，用于解决自身图片存储的难题。这标志着淘宝网从使用技术到创造技术的阶段。
2007年之前的图片存储架构如下图所示：(我表示看不懂)

在一次架构师大会上，章文嵩博士总结几点商用存储系统的局限和不足。
1.商用存储系统没有对小文件存储和读取环境进行有针对性的优化；
2.文件数量大，网络设备无法支撑；
3.整个系统所连接的服务器越来越多，网络连接数已经达到网络存储设备的极限；商用存储系统扩容成本高，10TB存储容量需要几百万元，而且容灾和安全性无法得到很好的保证。

2.图片存储系统TFS

历史总是惊人的巧合，在我们准备研发文件存储系统的时候，Google走在了前面。2007年他们公布了GFS（Google File System）的论文，这给我们带来了很多借鉴的思路。随后我们开发出了适合淘宝网使用的图片存储系统（TaoBao File System，简称TFS）。3年之后，我们发现历史的巧合比我们想象的还要神奇，几乎跟我们同事中国的另一家互联网公司也开发了他们的文件存储系统，甚至命名都一样——TFS，太神奇了！
PS：如果你对大数据、分布式、云计算、Hadoop\Spark这些技术比较了解的话，你一定也知道他们——Google的三架马车。2003年至2004年谷歌公司公布了关于GFS、MapReduce、BigTable三篇技术性论文，从此分布式系统、大数据、云存储、云计算这些相关知识如雨后春笋般出现。Google文件系统(GFS)是谷歌公司为了能存储以百亿计的海量网页信息而专门开发的文件系统，在Google整个云存储和云计算技术框架中，GFS是其他相关技术的基石。
2007年6月，TFS正式上线运营。说到TFS的系统架构，首先要描述清楚业务需求，淘宝对图片存储的需求大概可以描述如下：文件较小；并发量高；读操作远大于写操作；访问随机；没有文件修改的操作；要求存储成本低；能容灾、备份。
显然，应对这种需求时要用分布式存储系统；由于文件大小比较统一，可以采用专有文件系统；由于并发量高，读写随机性强，需要更少的I/O操作；考虑到成本和备份，需要用廉价的存储设备；考虑到容灾，需要能平滑扩容。
参照GFS并做了大量的优化后，TFS1.0版架构图如下：

从上面的架构图可看出：集群由一对Name Server和多态Data Server构成，Name Server的两台服务器互为双机，这就是集群文件系统中管理节点的概念。
在这个系统中，每个Data Server运行在一台普通的Linux主机上；以Block文件的形式存放数据文件（一个Block的大小一般是64MB）；Block存储多份是为了保证数据安全；利用ext3文件系统存放数据文件；磁盘raid5做数据冗余；文件名内置元数据信息，用户保存TFS文件名与实际文件的对照关系。
淘宝TFS文件系统在核心设计上最大的取巧在于传统的集群系统中元数据只有一份，通常由管理节点来管理，很容易成为瓶颈。而对于淘宝网的用户，图片文件究竟用什么名字来保存，他们并不关心；因此，TFS在设计上考虑在图片的保存文件名上暗藏一些元数据信息，如图片大小、时间、访问频次等信息（所在逻辑块号）。而在实际的元数据上，保存的信息很少。
因此，元数据结构非常简单，仅仅只需要一个FileID就能够准确定位文件在什么地方。由于大量的文件信息都隐藏在文件名中，整个系统完全抛弃了传统的目录树结构，因为目录树开销最大。拿掉后整个集群的高可扩展性可极大地提高。实际上这一设计理念和后来的“对象存储”较类似。
在TFS上线之前，淘宝网每个商品只允许上传一张图片，大小限定在120KB之内，在商品详情中的图片必须使用外站的服务，那时候发布一件商品确实非常麻烦。TFS上线后，商品展示图片开放到5张，商品描述里面的图片也可以使用淘宝的图片服务，目前为止淘宝网为每个用户提供了1GB的图片空间。技术和业务就是这么相互借力推动者的，业务满足不了的时候，技术必须创新，技术创新之后，业务有了更大的发展空间。

TFS发布之后，又经历了多个版本的修改，到1.3版时已经比较成熟了，2009年6月TFS 1.3版本上线。
TFS 1.3版本逻辑结构图如下图所示：

在TFS 1.3版本中，重点改善了心跳和同步的性能，最新版本的心跳和同步在几秒钟之内就可完成切换，同时进行了一些新的优化，包括元数据存储在内存中、清理磁盘空间等。性能上也做了优化，整个图片服务机器的拓扑结构如下图所示：

整个图片存储系统就像一个庞大的服务器，有处理单元、缓存单元和存储单元。前面介绍过后台的TFS集群文件存储系统，在TFS前端，还部署着200多台图片文件服务器，用Apache实现，用于生成缩略图的运算。值得一提，根据淘宝网的缩略图生成规则，缩略图都是实时生成的。这样有两点好处：一是为了避免后端图片服务器上存储的图片数量过多，大大节约后台存储空间的需求，我们计算过，采用实时生成缩略图的模式比提前全部生成好缩略图的模式节约90%的存储空间。二是缩略图可根据需求实时生成更加灵活。
  图片文件服务器的前端则是一级缓存和二级缓存，前面还有全局负责均衡的设置，用于解决图片的访问热点问题。
  图片访问热点一定存在，重要的是让图片尽量在缓存中命中。目前淘宝网在各个运营商的中心点设有二级缓存，整体系统中心点设有一级缓存，加上全局负载均衡，传递到后端TFS的流量就已经非常均衡和分散了，大部分图片都尽量在缓存中命中。如果缓存中无法命中，则会在本地服务器上查找是否存有原因，并根据原因生成缩略图，如果都没有命中，则会去后台TFS集群文件存储系统上调取。因此，最终反馈到TFS集群文件存储系统上的流量已经被大大优化了。
  淘宝网将图片处理与缓存编写成基于Nginx的模块，Nginx是当时性能最高的HTTP服务器（用户空间），代码清晰，模块化很好。淘宝试用GraphicsMagick进行图片处理，采用了面向小对象的缓存文件系统，前端有LVS+Haproxy将图片和其所有缩略图请求都调度到同一台Image Server（图片服务器）。
在文件定位上，内存用Hash算法做索引，最多一次读盘。另外会有很多相同的图片重复上传上来，去除重复文件也是采用Hash算法实现的。写盘方式采用Append方式写，并采用了淘汰策略FIFO，主要考虑降低硬盘的写操作，没必要进一步提高Cache命中率，因为ImageServer和TFS位于同一个数据中心，读盘效率非常高的。
目前淘宝网的TFS已经开源（见code.taobao.org），业界的同仁可以一起使用和完善这个系统。

二. 那些年做过的产品

1.团购产品

TFS的开发让淘宝的图片功能得到了充分发挥。同TFS一样，很多技术都是在产品的推动下得到发展的。在介绍下面的技术之前，有必要说说前些年我们做过的几个产品。
先说一个比较悲剧的——“团购”，这个团购不是现在满大街的那种Groupon类型的模式，在那之前，2006年淘宝提出了“团购”这种产品。产品经理一灯设想是让买家在社区发起团购，“团长”找到足够的人后，去跟卖家砍价，类似于蘑菇街的“自由团”。但比较偏离的是做成了让卖家设置团购价，卖家达到一定数量后，以团购价成交。
这种交易方式最大的弱点是让买家看到了卖家的底牌，即便达不到团购的数量，他们也往团购的价格上砍。当时为了提高流量，淘宝网开辟了团购专区，实诚的卖家在达不到团购数量时被砍价砍亏了，狡猾的卖家干脆提高原价，利用这个专区做促销。在接下来两年里，这个产品沦落成了促销工具（话说现在满大街的团购，其实也就是促销）。这个产品让研发人员对“产品”这个概念有了深刻的认识。

2.我的淘宝

再说一个更加悲剧的——“我的淘宝”。它是给会员管理自己的商品、交易、收获地址、评价、投诉的地方，这个地方必须在登录之后才能看到，所以风格与外观完全不一样，很长时间都没有优化过，样子丑，用户操作也不方便，如果一个人有很多商品，上下架需要一个一个地操作，非常麻烦。
这时候一个重要人物承志（现在的蘑菇街CEO）登场了，他给我们演示了最牛的前端交互技术，就是Gmail上那种AJAX的交互方式，可以拖动，可以用鼠标右键，也可以用组合键，操作完毕还不刷新页面，管理商品有如神助
我是这个项目的项目经理，一灯是产品经理，我们干了三个月，快要完成的时候，老马突然出现在我身后，看我操作了一遍新版“我的淘宝”之后，问我这是不是客户端软件，我说是网页，他抓狂了，说这跟客户端软件一样，链接下面的下划线都没有，上下架用文件夹表示，他都不知道怎么操作，卖家也不会玩。

页面如上图所示，看看这神乎其技的翻页条、精致的文件夹结构、人性化的多选框、还有一个类似Excel冻结窗口的功能。
老马果然是神一样的人物，他说的应验了，淘宝历史上第一个群体性事件爆发，使用完新版本的“我的淘宝”之后，很多买家说不会玩儿。页面改得像网页一样，改了半个月愤怒还是没有平息；后来论坛上投票一半以上人反对，于是把这十来个人做了3个月的系统杀掉了。
这个让我非常沮丧，最痛苦的是下线之后另一拨卖家不满了，说这么好的功能怎么没有了？这个产品带给我们的是新技术（AJAX、prototype框架）的尝试，以及新技术对用户操作习惯的改变，一定要慎之又慎。另外还有一点没有总结好的教训就是应对群体事件时，我们手足无措，在后来的“招财进宝”和淘宝商城出现群体性事件的时候悲剧再次重演。

3.招财进宝

这个是最悲剧的产品。在2006年“五一”的时候，一个划时代的项目启动了。财神说要用最好的项目阵容，我被选中了，这下让我觉得我能划分到最好的员工之类，在“我的淘宝”这个产品中严重受伤的心又痊愈了。这是一个商品P4P的系统，就是按成交付费。
我们认为已经有很多卖家有钱了，但淘宝上这么多产品，他们很难被找到，卖家愿意花钱让商品排在前面。我们允许卖家购买广告位，把他的商品按一定算法给出排名（类似于百度的竞价排名，但不仅仅看他出了多少钱，还要看信用、成交量、被收藏数量等，这个算法弄得很复杂）。
这个系统进行得很顺利，但发布的时候，更大的群体性事件出来了，买家们质疑：你们不是承诺三年不收费吗？收广告费不是收费吗？后来我们的竞争对手又推波助澜，公关公司和圈子里各路大侠上蹿下跳，甚至同行推出“一键搬家”的功能来收纳我们的会员。为了收场，我们又一次在论坛上让用户投票决定产品是否下线，同“我的淘宝”一样，以悲剧收场。同样另一拨卖家会说“这么好的功能怎么没有了？”直到Yahoo中国合并后，开发了淘宝直通车，才以类似的产品形态满足了这部分需求。
虽然“招财进宝”失败了，但这个项目中队技术的探索更加深入，其中用到了用户行为追踪、AJAX等。而且有一个技术的细节非常经典，淘宝商品详情页面每天的流量有几个亿，里面的内容都是放在缓存里的，做“招财进宝”时要给卖家显示他们商品被浏览的次数，如下图所示。

这个数字必须实时更新，而用缓存一般都是异步更新的，所以一开始根本没考虑把这个数据放入缓存里。我们在商品表里添加了这样一个字段，每增加一个PV，该字段就要更新一次。发布一个小时后，数据库就挂掉了。数据库撑不住怎么办？一般的缓存策略是不支持实时更新的，这时候多隆大神向量个办法（不错，又是他!），在Pache上面写了一个模块，这个数字根本不经过下层的WebApp容器（只经过Apache）就写入一个集中式的缓存区了，这个缓存区的数据再异步更新到数据库。这就是我们前面提到的，整个商品详情的页面都在缓存中了，把缓存用到了极致。
接下来，我们就说说缓存的技术把！
PS：感觉写过博客的人对这些浏览量数字应该有些敏感吧！不知道CSDN是否能实现自动推送优秀博客的功能，可以结合多个方面进行推送到首页或左栏。同时由于没有接触实际项目时，我真的不知道缓存如何来应用，它的好处如何体现，内存、硬盘、缓存这些知识如何在真实的项目中去应用呢？大家可以思考下。

三. Tair

淘宝在很早就开始使用缓存技术了，在2004年的时候，我们使用一个叫做ESI（Edge Side Includes）的缓存（Cache）。在决定采用ESI之前，多隆试用了Java很多Cache，但都比较重，后来用了Oracle WebCache，也经常挂掉，Oracle Web Cache也支持ESI，多隆由此发现了ESI这个好东西。
ESI是一种数据缓冲/缓存服务器，它提供将Web网页的部分（这里指页面的片段）进行缓冲/缓存的技术及服务。以往的数据缓冲服务器和信息传送服务以“页”为单位，复制到数据缓冲服务器中，这用于处理静态页面很有效，但在面对动态内容时，就很难得到高效率。在ESI中是部分的缓冲网页，使用基于XML的标记语言，指定想要缓冲的页面部分。
由此，页面内分为动态地变更部分和静态的不变更部分，只将静态的部分有效地发送到服务器中。淘宝网的数据虽然大部分是动态产生的，但页面中的静态片段也有很多，例如页面的头尾，商品详情页面的卖家信息登，如下图右侧，这些最早都是从ESI缓存中读取的。

ESI解决了页面静态片段的缓存，聪明的读者可能会想到在后端的那些数据能不能使用缓存？显然也是可以的，而且是必须的。如一个大卖家的商品一天的浏览量可能是几百万，而一个小卖家可能只有几个，那么这个大卖家的用户信息要是每次都从数据库中读取，显然不划算，要是把这个信息放在内存中，每次都从内存里取，性能要好很多。
  这种应用场景就是memcached这种Key-Value缓存的用武之地。只可惜，在淘宝急需memcached时，它还没有崭露头角。我们的架构师多隆大神再一次出手写了一个缓存系统，叫TBstore，这是一个分布式基于Berkeley DB的缓存系统。推出之后，阿里巴巴内部使用非常广泛，尤其对于淘宝，TBstore上应用了ESI、Checkcode（验证码）、Description（商品详情）、Story（心情故事，商品信息里面的一个大字段，长度仅次于商品详情）、用户信息登内容。
  TBstore的分布式算法实现：根据保存的Key（关键字），对Key进行Hash算法，取得Hash值，再对Hash值与总Cache服务器数据取模。然后根据取模后的值，找到服务器列表中下标为此值的Cache服务器。由Java Client API封装实现，应用无须关心。
TBstore有一个优点，这也是它的弱点，它的存储是基于Berkeley DB的，而Berkeley DB在数据量超过内存时，就要往磁盘上写数据了，所以它是可以做持久化存储的。但是一旦往磁盘写入数据，作为缓存的性能就大幅下降。
这时有一个项目推动了淘宝在缓存方面的技术提升。在2007年，我们把淘宝的用户信息独立出来，形成一个中心系统UIC（User Information Center），因为淘宝所有的功能都要依赖于用户信息，所以这个模块必须单独拿出来，否则以后的系统无法扩展。把UIC拿出来后，应用系统访问UIC，UIC访问数据库取得用户信息，每天要取几十亿条的用户信息，若直接查询数据库，数据库肯定会崩溃，这必须要用缓存。于是多隆专门为UIC写了一个缓存系统，数据全部存放在内存中。
到2009年，多隆又参考了memcached的内存结构，改进了TDBM的集群分布方式，在内存利用率和吞吐量方面做了大幅提升，退出了TDBM 2.0系统。
  由于TDBM、TBstore的数据接口和用途都很相似，开发团队把二者合并，推出了淘宝自创的Key-Value缓存系统——Tair（TaoBao Pair的意思，Pair即Key-Value数据对）。
  Tair包括缓存和持久化两种存储功能。Tair作为一个分布式系统，由一个中心控制节点和一系列的服务节点组成，我们称中心控制节点为Config Server，维护Data Server的状态信息。Data Server对外提供各种数据服务，并以心跳的形式将自身的状况汇报给Config Server。Config Server是控制点，而且是单点，目前采用一主一备的形式来保存其可靠性。所有的Data Server地位都是等价的，Tair的架构如下图所示：

系统部署结构如下图所示：

目前，Tair支撑了淘宝几乎所有系统的缓存信息。Tair已开源，地址为code.taobao.org。在创造了TFS和Tair之后，整个系统的架构如下图所示：

在这个时候，研发部对搜索引擎iSearch也进行了一次升级，之前的搜索引擎是把数据分到多台机器上，但是每份数据只有一份，现在是每份数据变成多份，整个系统从一个单行的部署变成了矩阵，能够支撑更大的访问量，并且做到很高的可用性。到2007年，淘宝网的日均PV达到2.5亿个，商品数超过1亿个，注册会员数达5千多万个，全网成交额达433亿元。
后面的文章将讲述分布式时代、中间件、Session框架、开放平台等内容。希望文章对大家有所帮助，如果有不足之处，还请海涵~希望大家有个愉快的五一假期！
（By:Eastmount 2015-5-1 晚上7点 http://blog.csdn.net/eastmount/）

从0到1构建智能招聘数据引擎：基于 Python 的 BOSS直聘信息采集实战与反爬破解指南程序员威哥 python 开发语言
前言在大数据浪潮席卷的时代，招聘平台蕴藏着海量的岗位信息，揭示着行业走向、人才趋势、薪资结构等核心价值。BOSS直聘作为国内极具代表性的直招平台，其数据对职业分析、市场监测甚至智能推荐系统的构建都有着重要意义。本文将手把手带你打造一个高质量、抗封锁的Python爬虫系统，精准采集BOSS直聘网的岗位数据，并全面解析其中涉及的反爬机制识别、加密参数处理、数据提取与存储等高级技巧，助你在Web数据采集
赋能低压分布式光伏“四可”建设，筑牢电网安全新防线 Amy18702111823 分布式
在“双碳”目标驱动下，分布式光伏正以前所未有的速度接入电网，尤其是低压（380V/220V）层面。然而，海量“绿电”的随机性、间歇性并网，犹如一把双刃剑——在带来清洁能源的同时，也给电网的安全稳定运行与可靠供电带来了严峻挑战。如何让这些分散的“毛细血管”变得“可观、可测、可调、可控”（四可），已成为电网企业和新能源管理者亟待解决的核心命题。“四可”落地：低压分布式光伏管理的硬核需求实现“四可”并非
从零到百亿流量：跨云平台高可用Web架构设计与成本优化全攻略风劝我要释怀 azure aws googlecloud 云计算
在互联网流量爆发式增长的今天，如何构建一个既能支撑百亿级请求、又具备极致成本效益的Web系统，成为技术团队的核心挑战。本文将以AWS、GoogleCloud、Azure等主流云平台为例，揭秘从零起步到承载海量流量的全链路架构设计策略，涵盖技术选型、容灾设计、成本优化等实战经验。一、架构设计原则：弹性、分层与解耦1.基础架构选型：跨云混合部署多云负载均衡通过CloudflareLoadBalanci
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
PHP爬虫实战指南：获取淘宝商品详情爬虫程序猿 php 爬虫 android
在电商领域，淘宝作为中国最大的在线零售平台之一，拥有海量的商品信息。对于开发者、市场分析师以及电商研究者来说，能够从淘宝获取商品详情信息，对于市场分析、价格比较、商品推荐等应用场景具有重要价值。本文将详细介绍如何使用PHP编写爬虫程序，以合法合规的方式获取淘宝商品的详情信息，并提供详细的代码示例。一、准备工作（一）注册淘宝开放平台账号在使用淘宝API之前，需要在淘宝开放平台注册账号并创建应用。注册
批量压缩 + 格式转换 + 加水印裁切图片处理软件免费无广告超良心
各位修图小能手们！今天给大家介绍一款超神的图片批量处理工具——JPGC_v4.0.24.628，那功能叫一个强大，简直就是图片处理界的“六边形战士”！咱先说说它的核心功能。首先是批量压缩与格式转换，它能对JPG、JPEG、BMP、PNG这些常见格式的图片进行无损压缩，你还能自己设定压缩级别。在中等压缩比的情况下，画质那几乎跟没动过一样，就跟变魔术似的！而且压缩完还能保存成不同格式，简直不要太灵活。
LLM大语言模型学习笔记（1） Arixs666 大语言模型语言模型笔记人工智能
1.概念大语言模型（LLM，LargeLanguageModel），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。LLM通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。2.能力2.1涌现能力区分大语言模型（LLM）与以前的预训练语言模型（PLM）最显著的特征之一是它们的涌现能力。涌现能力是一种令人惊讶的能力，它在小型模型中不明显
大语言模型（LLM）笔记笑衬人心。大模型学习语言模型笔记人工智能
一、什么是大语言模型（LLM）？LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。其本质任务是**预测下一个token（词/字/符号）**的概率分布，但通过大规模参数和数据的支持，表现出类人智能的行为。二、核心架构：Transformer由Google在2017年提出，是目前LLM的主流架构。
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
Excel+VBA+FFmpeg全能图片处理利器：批量选择、调整尺寸、压缩质量、图片合并，水平垂直合并一键搞定！「已注销」 excel
Excel+VBA+FFmpeg全能图片处理利器本文介绍的VBA脚本主要实现以下功能：为什么选择Excel结合VBA与FFmpeg处理图片？1.多功能集成，一站式解决方案集成图片的批量选择、调整尺寸、压缩质量以及合并功能，满足在不同场景下的多样化需求，无需切换多个软件工具。2.自动化操作，省时省力通过双击Excel中的指定单元格，即可自动执行复杂的图片处理任务，减少手动操作，提升工作效率。3.灵活
2025年智能营销产品发展和应用趋势
在数字化转型的浪潮中，企业寻求增长的路径不再是单纯的成本控制或规模扩张，更在于如何高效、精准地触达并服务好每一个客户。过去，营销被视为艺术与经验的结合，而如今，在海量数据与计算能力的加持下，它正演变为一门精密的科学——智能营销，并且已经从一个前沿概念，演变为企业实现增长的“必答题”。对于深耕数字化转型领域的企业服务商而言，理解和把握智能营销产品的发展与应用趋势，不仅是帮助客户实现跃迁的关键，更是拓
火山引擎大模型未来发展趋势苹果企业签名分发智能体人工智能火山引擎
用户可能正在做技术选型或者行业研究，需要预测火山引擎在激烈竞争中的突围方向。从问题简洁性看，ta可能已经有一定基础认知，不需要我从零科普大模型概念。火山引擎作为字节跳动的技术输出平台，优势在于背靠抖音、今日头条等超级应用的海量数据和场景。但国内大模型赛道已经挤满百度文心、阿里通义等玩家，它必须找到差异化路径。我注意到几个关键点：技术层面，多模态和推理效率是火山近期的发力重点。他们6月刚发布的Sky
创客匠人深度解析：创始人 IP 定位的认知革命与产品哲学创小匠 tcp/ip 人工智能大数据 ip
在知识变现赛道同质化加剧的当下，创始人IP的破局核心在于认知维度的升维。创客匠人创始人老蒋在IP变现大课中提出的定位金句，实则蕴含着从用户心智占领到商业模型重构的深层逻辑，为内容创业者提供了超越流量思维的底层方法论。一、定位减法的认知科学本质“定位最核心的逻辑是做减法”的底层，是认知心理学中的“注意力稀缺”原理。当用户每天面临海量信息冲击时，唯有聚焦单一价值点才能突破记忆壁垒。某法律IP放弃“泛法
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
深入浅出Node.js后端开发 jghhh01 node.js
让我们来理解Node.js的核心——事件循环和异步编程模型。在Node.js中，所有的I/O操作都是非阻塞的，这意味着当一个请求开始等待I/O操作完成时（如读取文件或数据库操作），Node.js不会阻塞后续操作，而是继续执行其他任务。这种机制大大提高了应用的性能和吞吐量。constfs=require('fs');fs.readFile('file.txt','utf8',(err,data)=>
100W QPS 短链系统怎么设计 Java程序员拥抱ai 电商架构大数据
看上去业务简单，其实，覆盖的知识点非常多：高并发、高性能分布式IDRedisBloomFilter高并发、低内存损耗的过滤组件知识分库、分表海量数据存储多级缓存的知识HTTP传输知识二进制、十六进制、六十二进制知识总体来说，高并发、高性能系统的核心领域，都覆盖了。所以，分析下来，得到一个结论：是一个超级好的问题。1、短URL系统的背景短网址替代长URL，在互联网网上传播和引用。例如QQ微博的url
高考志愿不会填？ AI 帮你填写高考志愿，手把手教你完成志愿填报 AI、少年郎高考人工智能数据挖掘
一、背景高考成绩一出，志愿填报就成了家长和考生的“头号难题”。选对专业和院校，相当于为未来铺好一条“黄金赛道”！但面对海量院校和专业信息，怎么才能快速锁定适合自己的选项？别慌！今天就教你用AI轻松搞定志愿填报，不过先划重点：AI建议仅供参考，最终决策一定要结合实际、多方求证！本次以AI豆包为例，其他AI工具类似。可能很多人都说AI填报志愿谁不会啊，就是把问题抛给AI，让其帮着分析就行，但是对很多不
ZLG嵌入式笔记 | rootfs镜像制作其实没那么难 ZLG 致远电子边缘计算 ZLG嵌入式开发应用笔记个人开发物联网
在嵌入式Linux开发中，文件系统的打包和镜像制作是关键步骤。本文介绍了Linux核心板文件系统的打包与镜像制作方法，适合嵌入式开发人员快速上手。前言致远电子Linux核心板提供的系统固件里，除了镜像文件之外，通常还会提供文件系统压缩包。镜像文件可以直接用于烧写到目标板，而文件系统压缩包则可以进行部分修改，修改后重新制作镜像文件烧写。这里只讲直接用编译好的二进制文件对文件系
EasyFeature软件特性四：星云空天大模型智绘中勘人工智能深度学习信息可视化
随着智能遥感进入新纪元，数据处理与模型效率的挑战日益成为应用落地的关键瓶颈。EasyFeature软件以星云空天大模型为核心，构建了基于人机智能提示学习的多模态系统。通过海量高质量数据预训练，集成了包括遥感场景分类、快速目标检测、地物分类、变化检测等在内的丰富模型库，提供端到端的智能解译能力。EasyFeature完全实现国产化自主可控，涵盖全栈软硬件支撑与训推一体化流程，确保高效安全。其极简安装
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
Python爬虫实战：使用Scrapy+Selenium+Playwright高效爬取Coursera课程信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫 scrapy 微信开发语言科技 selenium
前言在当今信息爆炸的时代，在线教育平台如Coursera提供了海量的高质量课程资源。对于学习者、教育研究者和数据分析师来说，获取这些平台的课程信息具有重要价值。本文将详细介绍如何使用Python爬虫技术高效爬取Coursera课程信息，并分析其中的技术难点与解决方案。1.Coursera网站分析Coursera是一个典型的现代Web应用，具有以下特点：采用React/Vue等前端框架构建，大量内容
nt!CcGetVirtualAddressIfMapped函数中的nt!CcGetVacbLargeOffset函数分析--重要 sitelist nt4源代码分析 CcGetVacbLarge VacbLargeOffset AddressIfMapped CcGetVirtualAdd AddressIfMapp
第一部分：1:kd>kc#00nt!CcGetVirtualAddressIfMapped01nt!CcFlushCache02Ntfs!LfsFlushLfcb03Ntfs!LfsFlushToLsnPriv04Ntfs!LfsWriteLfsRestart05Ntfs!LfsWriteRestartArea06Ntfs!NtfsCheckpointVolume07Ntfs!NtfsCheckp
nt!MiFlushSectionInternal函数分析从nt!IoSynchronousPageWrite函数到Ntfs!NtfsFsdWrite函数 sitelist nt4源代码分析 MiFlushSection NtfsFsdWrite
第一部分：while(TRUE){KeClearEvent(&IoEvent);Status=IoSynchronousPageWrite(FilePointer,Mdl,(PLARGE_INTEGER)&StartingOffset,&IoEvent,IoStatus);1:kd>pnt!MiFlushSectionInternal+0x6f6:80a72410e8c74bfbffcallnt!
Node.js-fs模块会飞的鱼先生 node.js vim 编辑器
文件写入异步写入文件(fs.writeFile())//语法:fs.writeFile(file,data[,options],callback)//参数：文件路径、数据、选项（可选）、回调函数（err）constfs=require('fs');fs.writeFile('file.txt','HelloNode.js',function(err){if(err)throwerr;console
SD-WAN在智慧工厂中的实践：云平台与边缘计算高效协作解析北极光SD-WAN组网边缘计算人工智能
随着工业4.0与智能制造的深入推进，智慧工厂成为现代制造业的重要发展方向。智慧工厂依托云计算与边缘计算协同处理海量数据，以实现生产过程的智能化。然而，云平台和边缘计算之间的数据传输对网络的可靠性、灵活性和实时性提出了更高要求。在此背景下，SD-WAN（软件定义广域网）技术成为解决这一问题的重要工具。本文将探讨SD-WAN技术在制造业中如何优化云平台与边缘计算的协作应用，分析其在智慧工厂场景下的具体
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
Alluxio在数据索引和模型分发中的核心价值与应用 Alluxio 人工智能深度学习机器学习
在当前的技术环境下，搜索、推荐、广告、大模型、自动驾驶等领域的业务依赖于海量数据的处理和复杂模型的训练。这些任务通常涉及从用户行为数据和社交网络数据中提取大量信息，进行模型训练和推理。这一过程需要强大的数据分发能力，尤其是在多个服务器同时拉取同一份数据时，更是考验基础设施的性能。在这样的背景下，AlluxioEnterpriseAI在数据索引与模型分发/部署方面展示了其独特的优势，特别是在处理海量
数据霸权与公共利益的博弈：强制许可制度能否打破数字帝国的城墙
首席数据官高鹏律师数字经济团队创作，AI辅助当数据成为新贵：一场静默的“圈地运动”2025年的某个清晨，某头部电商平台的数据库负责人在晨会上宣布：“我们的用户行为数据集已覆盖8亿活跃用户，这是我们的护城河。”这句话背后，藏着一个被忽视的真相：数据的排他性权利正在催生新的垄断形态——那些掌握海量数据的企业，正悄然构建起数字时代的“封建领地”。数据知识产权的排他性，本意是保护企业对数据的投入与创新，但
springboot3集成minio
1.说明注意：本代码是在若依springboot3版本上实现的，如果你不是在若依上面实现，需要将所有用到若依的相关代码修改后才能运行文件管理文件上传：支持单文件上传，可指定存储桶和路径，支持自动按日期目录存储文件下载：支持文件直接下载，自动处理文件名编码文件预览：支持图片、文档等文件的在线预览功能文件删除：支持单文件删除和批量删除文件重命名：支持文件重命名操作图片处理：支持图片压缩和格式转换(We
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理