我们学习CoreML, 除了学习一种新的解决问题的思维外, 对于程序员, 一定要学习苹果对于CoreML的架构, 以Vision为例, 看看苹果是如何进行架构的.
乍一看去, 有点懵逼, 下面来用一个小demo演示下
let handler = VNImageRequestHandler(cgImage: image.cgImage!, options: [:])
do {
let request = VNDetectFaceLandmarksRequest(completionHandler: handleFaceLandmarks)
try handler.perform([request])
} catch {
print(error)
}
func handleFaceLandmarks(request: VNRequest, error: Error?) {
guard let observations = request.results as? [VNFaceObservation] else {
fatalError("could not get result from request")
}
for vm in self.buttonOriginalImage.subviews where vm.tag == 10 {
vm.removeFromSuperview()
}
var landmarkRegions : [VNFaceLandmarkRegion2D] = []
for faceObservation in observations {
landmarkRegions = self.addFaceFeature(forObservation: faceObservation, toView: self.buttonOriginalImage)
self.selectedImage = self.drawOnImage(source: self.selectedImage, boundingRect: faceObservation.boundingBox, faceLandmarkRegions: landmarkRegions)
}
self.buttonOriginalImage.setBackgroundImage(self.selectedImage, for: .normal)
}
func addFaceFeature(forObservation face: VNFaceObservation, toView view: UIView) ->[VNFaceLandmarkRegion2D]{
guard let landmarks = face.landmarks else { return [] }
print("confidence1:\(face.landmarks?.confidence ?? 0), confidence2:\(face.confidence)")
var landmarkRegions: [VNFaceLandmarkRegion2D] = []
if let allPoints = landmarks.allPoints {
landmarkRegions.append(allPoints)
}
return landmarkRegions
}
好了, 上面的代码就是一个简单的人脸识别的代码片段, 里面已经几乎涉及了Vision中所有常用的类.
首先, VNImageRequestHandler
是用来处理图片的, 通过perform
方法, 我们可以对训练好的模型发送请求, 这里的请求就和我们平常客户端服务器开发一样, 只不过客户端是我们程序员, 服务器是训练好的模型, 对我们来说是个黑盒, 而这个request
就是对请求参数封装好的类.
看下我们平时都怎么发送Http请求, 以AFN为例
NSURLSessionConfiguration *configuration = [NSURLSessionConfiguration defaultSessionConfiguration];
AFURLSessionManager *manager = [[AFURLSessionManager alloc] initWithSessionConfiguration:configuration];
NSURL *URL = [NSURL URLWithString:@"http://example.com/download.zip"];
NSURLRequest *request = [NSURLRequest requestWithURL:URL];
NSURLSessionDownloadTask *downloadTask = [manager downloadTaskWithRequest:request progress:nil destination:^NSURL *(NSURL *targetPath, NSURLResponse *response) {
NSURL *documentsDirectoryURL = [[NSFileManager defaultManager] URLForDirectory:NSDocumentDirectory inDomain:NSUserDomainMask appropriateForURL:nil create:NO error:nil];
return [documentsDirectoryURL URLByAppendingPathComponent:[response suggestedFilename]];
} completionHandler:^(NSURLResponse *response, NSURL *filePath, NSError *error) {
NSLog(@"File downloaded to: %@", filePath);
}];
[downloadTask resume];
这里AFN
对我们来说是黑盒, 我们把request
传递给函数downloadTaskWithRequest
, 然后在completionHandler
里面取出我们需要的数据, 在Vision中, perform
方法就相当于AFN
中的downloadTaskWithRequest
方法, 而最终结果是在设置request
参数的时候就设置好的函数回调handleFaceLandmarks
. 模型返回给我的数据保存在request.results
中, 这里是个数组, 数组的类型是VNObservation
.
响应
-
VNObservation
就是用来存储检测结果的数据结构, 里面存在confidence
属性, 用来保存检测结果的可信度, 对于物件检测结果保存为VNDetectedObjectObservation
, 特别的, 人脸检测对应的类为VNFaceObservation
. - 在人脸检测结果中, 保存了
VNFaceLandmarks2D
, 表示的是检测到的人脸的全部特征 - 特征用
VNFaceLandmarkRegion2D
表示, 继承自VNFaceLandmarkRegion
, 里面有confidence
属性, 用来保存当前特征的可信度. - 每个特征中又保存了
CGPoint
类型的数组normalizedPoints
, 意思是每个面部特征(如嘴巴, 鼻子, 眼睛等)又是由若干特征点组成的.
对于自己创建的模型, 我们完全可以自定义检测结果类来继承VNObservation
, 里面可以保存3D, 4D甚至ND的数据, 对于图片的人脸特征检测, 2D就已经是完全满足要求的了, 所以Vision如此设计.
请求
- 说完响应, 再来看下请求, 所有的请求都继承自
VNRequest
, 对于不同的检测,VNRequest
大同小异, 基于图片的检测通常继承VNImageBasedRequest
, 这也是我们最常用的, 因为大多数时候我们使用Vision, 还是把图片作为输入参数的.VNImageBasedRequest
的几个子类就不一一介绍了, 看名字就知道是干什么的. 如果我们也想封装图片处理请求参数, 我们也可以继承VNImageBasedRequest
类, 实际上VNRequest
里面并没让我做什么事情, 只是让我们传递一个结果处理函数, 我们也可以设置usesCPUOnly
, 是否只用CPU对图片进行处理, 默认是NO.VNImageBasedRequest
加多了一个参数, 让我们设置感兴趣的区域regionOfInterest
, 这样可以提高识别的速度, 试想, 一张非常大的图片, 处理起来必然特别慢, 而合理设置感兴趣区域可以让模型只对感兴趣区域进行检测(还没实践过). -
VNImageRequestHandler
是对所有请求的封装, 这里要求输入参数是UIImage
, 并将这之前设置的请求参数结构传递给perform
方法, 就完成了请求.
如果不是(可能性不大)图片的输入, 我们可以自己封装一个VNDataRequestHandler
, 输入可以是数组, 因为图片本身是个矩阵, 矩阵降维就成了数组, 不过这里Vision可能是为了方便, 还是直接让我们输入UIImage
, 如果我们需要处理类似天气预报这种数据, 可能会需要用到数组.
总结
从整体上看, Vision架构主要有3个类
- VNImageRequestHandler 发送请求
- VNRequest 封装请求参数
- VNFaceObservation 保存响应结果
那在实际开发中, 我们有无数的业务请求, 是否也能用类似的方法进行封装呢?
首先我们定义一个类, MFRequestHandler(MF是业务前缀), 提供一个方法sendRequest
, 要求输入请求参数MFRequest
, 结果通过MFResponse
返回:
- MFRequest 类中存请求的uri, appid, serviceType(http or protobuf), data等
- MFResponse 类中存响应的uri, appid, serviceType(http or protobuf), errCode, data等.
这样做的好处是, 发送请求的时候, 我们只需要构造好请求参数, 所有请求都调用相同的请求接口. 而响应也都是继承自MFResponse
的, 通过层层的解析, 来到具体的业务模块. 而具体的请求执行在MFRequestHandler
中, MFRequestHandler
会根据请求参数的appid, uri, serviceType等, 将数据发送到不同的服务器.