Vision架构看我就够了

我们学习CoreML, 除了学习一种新的解决问题的思维外, 对于程序员, 一定要学习苹果对于CoreML的架构, 以Vision为例, 看看苹果是如何进行架构的.

Vision架构看我就够了_第1张图片
Vision常用类结构图.png

乍一看去, 有点懵逼, 下面来用一个小demo演示下

let handler = VNImageRequestHandler(cgImage: image.cgImage!, options: [:])
do {
  let request = VNDetectFaceLandmarksRequest(completionHandler: handleFaceLandmarks)
  try handler.perform([request])
} catch {
  print(error)
}

func handleFaceLandmarks(request: VNRequest, error: Error?) {
        guard let observations = request.results as? [VNFaceObservation] else {
            fatalError("could not get result from request")
        }
   
        for vm in self.buttonOriginalImage.subviews where vm.tag == 10 {
            vm.removeFromSuperview()
        }
        
        var landmarkRegions : [VNFaceLandmarkRegion2D] = []
        
        for faceObservation in observations {
            landmarkRegions = self.addFaceFeature(forObservation: faceObservation, toView: self.buttonOriginalImage)
            self.selectedImage = self.drawOnImage(source: self.selectedImage, boundingRect: faceObservation.boundingBox, faceLandmarkRegions: landmarkRegions)
        }
        self.buttonOriginalImage.setBackgroundImage(self.selectedImage, for: .normal)
    }

    func addFaceFeature(forObservation face: VNFaceObservation, toView view: UIView) ->[VNFaceLandmarkRegion2D]{

        guard let landmarks = face.landmarks else { return [] }
        print("confidence1:\(face.landmarks?.confidence ?? 0), confidence2:\(face.confidence)")
        var landmarkRegions: [VNFaceLandmarkRegion2D] = []
        
        if let allPoints = landmarks.allPoints {
            landmarkRegions.append(allPoints)
        }
     
        return landmarkRegions
    }

好了, 上面的代码就是一个简单的人脸识别的代码片段, 里面已经几乎涉及了Vision中所有常用的类.

首先, VNImageRequestHandler是用来处理图片的, 通过perform方法, 我们可以对训练好的模型发送请求, 这里的请求就和我们平常客户端服务器开发一样, 只不过客户端是我们程序员, 服务器是训练好的模型, 对我们来说是个黑盒, 而这个request就是对请求参数封装好的类.

看下我们平时都怎么发送Http请求, 以AFN为例

NSURLSessionConfiguration *configuration = [NSURLSessionConfiguration defaultSessionConfiguration];
AFURLSessionManager *manager = [[AFURLSessionManager alloc] initWithSessionConfiguration:configuration];

NSURL *URL = [NSURL URLWithString:@"http://example.com/download.zip"];
NSURLRequest *request = [NSURLRequest requestWithURL:URL];

NSURLSessionDownloadTask *downloadTask = [manager downloadTaskWithRequest:request progress:nil destination:^NSURL *(NSURL *targetPath, NSURLResponse *response) {
    NSURL *documentsDirectoryURL = [[NSFileManager defaultManager] URLForDirectory:NSDocumentDirectory inDomain:NSUserDomainMask appropriateForURL:nil create:NO error:nil];
    return [documentsDirectoryURL URLByAppendingPathComponent:[response suggestedFilename]];
} completionHandler:^(NSURLResponse *response, NSURL *filePath, NSError *error) {
    NSLog(@"File downloaded to: %@", filePath);
}];
[downloadTask resume];

这里AFN对我们来说是黑盒, 我们把request传递给函数downloadTaskWithRequest, 然后在completionHandler里面取出我们需要的数据, 在Vision中, perform方法就相当于AFN中的downloadTaskWithRequest方法, 而最终结果是在设置request参数的时候就设置好的函数回调handleFaceLandmarks. 模型返回给我的数据保存在request.results中, 这里是个数组, 数组的类型是VNObservation.

响应
  • VNObservation就是用来存储检测结果的数据结构, 里面存在confidence属性, 用来保存检测结果的可信度, 对于物件检测结果保存为VNDetectedObjectObservation, 特别的, 人脸检测对应的类为VNFaceObservation.
  • 在人脸检测结果中, 保存了VNFaceLandmarks2D, 表示的是检测到的人脸的全部特征
  • 特征用VNFaceLandmarkRegion2D表示, 继承自VNFaceLandmarkRegion, 里面有confidence属性, 用来保存当前特征的可信度.
  • 每个特征中又保存了CGPoint类型的数组normalizedPoints, 意思是每个面部特征(如嘴巴, 鼻子, 眼睛等)又是由若干特征点组成的.

对于自己创建的模型, 我们完全可以自定义检测结果类来继承VNObservation, 里面可以保存3D, 4D甚至ND的数据, 对于图片的人脸特征检测, 2D就已经是完全满足要求的了, 所以Vision如此设计.

请求
  • 说完响应, 再来看下请求, 所有的请求都继承自VNRequest, 对于不同的检测, VNRequest大同小异, 基于图片的检测通常继承VNImageBasedRequest, 这也是我们最常用的, 因为大多数时候我们使用Vision, 还是把图片作为输入参数的. VNImageBasedRequest的几个子类就不一一介绍了, 看名字就知道是干什么的. 如果我们也想封装图片处理请求参数, 我们也可以继承VNImageBasedRequest类, 实际上VNRequest里面并没让我做什么事情, 只是让我们传递一个结果处理函数, 我们也可以设置usesCPUOnly, 是否只用CPU对图片进行处理, 默认是NO. VNImageBasedRequest加多了一个参数, 让我们设置感兴趣的区域regionOfInterest, 这样可以提高识别的速度, 试想, 一张非常大的图片, 处理起来必然特别慢, 而合理设置感兴趣区域可以让模型只对感兴趣区域进行检测(还没实践过).
  • VNImageRequestHandler是对所有请求的封装, 这里要求输入参数是UIImage, 并将这之前设置的请求参数结构传递给perform方法, 就完成了请求.

如果不是(可能性不大)图片的输入, 我们可以自己封装一个VNDataRequestHandler, 输入可以是数组, 因为图片本身是个矩阵, 矩阵降维就成了数组, 不过这里Vision可能是为了方便, 还是直接让我们输入UIImage, 如果我们需要处理类似天气预报这种数据, 可能会需要用到数组.

总结

从整体上看, Vision架构主要有3个类

  • VNImageRequestHandler 发送请求
  • VNRequest 封装请求参数
  • VNFaceObservation 保存响应结果

那在实际开发中, 我们有无数的业务请求, 是否也能用类似的方法进行封装呢?

首先我们定义一个类, MFRequestHandler(MF是业务前缀), 提供一个方法sendRequest, 要求输入请求参数MFRequest, 结果通过MFResponse返回:

  • MFRequest 类中存请求的uri, appid, serviceType(http or protobuf), data等
  • MFResponse 类中存响应的uri, appid, serviceType(http or protobuf), errCode, data等.

这样做的好处是, 发送请求的时候, 我们只需要构造好请求参数, 所有请求都调用相同的请求接口. 而响应也都是继承自MFResponse的, 通过层层的解析, 来到具体的业务模块. 而具体的请求执行在MFRequestHandler中, MFRequestHandler会根据请求参数的appid, uri, serviceType等, 将数据发送到不同的服务器.

你可能感兴趣的:(Vision架构看我就够了)