CoreML初学感觉


1. ML

  • ML是Machine Learning的縮寫,也就是‘機器學習’
  • 你熟悉的ML有什麼,阿爾法狗(AlphaGo),車牌識別 等等
  • 機器學習:重點是“學習”,它不是通過具體的編碼算法,而是在大量的模型數據中找到一個合適的模型從而讓計算機能夠不斷的發展好完善自身算法的能自己學習的人工智能技術.
  • 這個技術所需要的就是一個龐大而複雜的“神經網絡”,這個“神經網絡”需要大量的訓練好的模型來提供數據,使得這個“神經網絡”能對各種輸入(inputs)產生出一個對應的輸出結果(outputs),並且還能通過不斷的訓練數據來提高自己的算法準確性。


    面部識別.png

2. 我們能做什麼

  • iOS11多了幾個新的開發庫,其中最核心的就是CoreML這個庫:官方文檔地址
  • 根據官方文檔里的這張圖可以看出,它的作用就是將一個ML模型轉換成我們APP可以使用的對象。
CoreML初学感觉_第1张图片
  • 除了CoreML,iOS11還有一個庫很有用叫做Vision:官方文檔地址
    這個庫是一個高性能的圖片分析庫,他能識別在圖片和視頻中的人臉,特征,場景分類等.

3. 實例講解

1. 模型實例下載

先去蘋果官方下載一個已經訓練好的模型,叫 ResNet50:下載地址,得到一個Resnet50.mlmodel文件。

2. 創建工程和引入模型

CoreML初学感觉_第2张图片
image.png
CoreML初学感觉_第3张图片
mlmodel解釋.png
  • 可以看出這個模型需要的input是一張圖片,大小是224*224。
  • ouput會有兩個參數一個參數叫sceneLabelProbs是一個[string:Double]的字典數組,數組里的每一個字典就是這個輸入圖片分析得出的一個結果,string就是對圖片類型的描述,而double就是可能性百分比。另一個sceneLabel就是最有可能的一個結果描述.
  • xcode9一定要勾選target

3. 代碼展示

1.導入頭文件
import Vision

2.拿到模型
var resentModel = Resnet50()

3.創建一個手勢
func regiterGestureRecognizers(){
    
    let tapGes = UITapGestureRecognizer(target: self, action: #selector(tapped))
    
    self.sceneView.addGestureRecognizer(tapGes)
}

@objc func tapped(recognizer: UIGestureRecognizer){
    
    let sceneView = recognizer.view as! ARSCNView //當前畫面的 sceneView  = 截圖
    let touchLoaction = self.sceneView.center
    
    guard let currentFrame = sceneView.session.currentFrame else { return } //判別當前是否有像素
    let hitTestResults = sceneView.hitTest(touchLoaction, types: .featurePoint) //識別物件的特徵點
    
    if hitTestResults.isEmpty { return }
    
    guard let hitTestResult = hitTestResults.first else { return } // 是否為第一個物件
    
    self.hitTestResult = hitTestResult //拿到點擊的結果
    
    let pixelBuffer = currentFrame.capturedImage // 拿到的圖片轉成像素
    
    perfomVisionRequest(pixelBuffer: pixelBuffer)
}
//展示預測的結果
func displayPredictions(text: String){
    
    let node = createText(text: text)
    
    node.position = SCNVector3(self.hitTestResult.worldTransform.columns.3.x,
                               self.hitTestResult.worldTransform.columns.3.y,
                               self.hitTestResult.worldTransform.columns.3.z) // 把模型展示在我們點擊作用的當前位置(中央)
    
    self.sceneView.scene.rootNode.addChildNode(node) // 把AR結果展示出來
    
}

//    製作結果AR圖標跟底座
func createText(text: String) -> SCNNode {
    let parentNode = SCNNode()
    
//        底座
    let sphere = SCNSphere(radius: 0.01) // 1 cm 的小球幾何形狀
    
    let sphereMaterial = SCNMaterial()
    sphereMaterial.diffuse.contents = UIColor.orange //整個小球都是橘色的
    sphere.firstMaterial = sphereMaterial
    
    let sphereNode = SCNNode(geometry: sphere) // 創建了一個球狀的節點
    
    
//        文字
    let textGeo = SCNText(string: text, extrusionDepth: 0)
    textGeo.alignmentMode = kCAAlignmentCenter
    textGeo.firstMaterial?.diffuse.contents = UIColor.orange
    textGeo.firstMaterial?.specular.contents = UIColor.white
    textGeo.firstMaterial?.isDoubleSided = true
    textGeo.font = UIFont(name: "Futura", size: 0.15)
    
    let textNode = SCNNode(geometry: textGeo)
    textNode.scale = SCNVector3Make(0.2, 0.2, 0.2)
    
    parentNode.addChildNode(sphereNode)
    parentNode.addChildNode(textNode)
    
    return parentNode
}

//    圖片分解成像素 => coreML => GPU

func perfomVisionRequest(pixelBuffer: CVPixelBuffer){
    
    let visionModel = try! VNCoreMLModel(for: self.resentModel.model) // 請 mlmodel 出場幹事了
    
    let request = VNCoreMLRequest(model: visionModel) { request, error in
//            TODO
        if error != nil { return }
        
        guard let observations = request.results else { return } // 把結果拿出來
        
        let observation = observations.first as! VNClassificationObservation //把結果中的第一位拿出來進行分析
        
        print("Name \(observation.identifier) and confidence is \(observation.confidence)")
        
        DispatchQueue.main.async {
            self.displayPredictions(text: observation.identifier)
        }
    }
    
    request.imageCropAndScaleOption = .centerCrop // 進行餵食
    
    self.visionRequests = [request] // 拿到結果
    
    let imageRequestHandler = VNImageRequestHandler(cvPixelBuffer: pixelBuffer, orientation: .upMirrored, options: [:]) // 將拿到的結果左右反轉
    
    DispatchQueue.global().async {
        try! imageRequestHandler.perform(self.visionRequests) //處理所有的結果
    }
}

4. 結果展示

結果.png

4. 個人感想

  1. 識別分析不太準確,說是能學習,但沒有外在的反饋怎麼反饋正確的結果
  2. 一個組合模型是怎麼分析的,比如一個人穿著衣服,我要識別衣服。

5. 對未來的應用

  1. 購買商品
    使用CoreML 識別你想找(但不知道叫什麼名字)的商品或者你懶到不想打字了,把識別的商品名在淘寶,京東,等等購物平台(可以是自己做一個列表把所有平台的搜索結果展示出來),識別單一物品,但要非常精準,這就需要很深的訓練了。
  2. 盲人導航
    在地圖導航的基礎上,盲人說出要去哪裡的路上,偵測路上的所有物件,車,人,路面,樹木,垃圾桶,紅綠燈。。。。還要有測距,方位的反饋,
  3. 身高,體重,體型檢測
    我的想法是,測量出屏幕裡面的人的身高,肩膀,腰,腿長,臂長等一些外在的客觀的數據,最好能有檢測肌肉質量的技術來計算體重,最後計算出體型,高矮胖瘦
  4. 服裝搭配
    在3的基礎上,為用戶推薦衣服褲子的尺寸,大小,根據臉型,頭髮,面部特征,膚色,為用戶推薦適合的顏色,款式等
    ....

你可能感兴趣的:(CoreML初学感觉)