You Only Look Once (YOLO) 是一种用于目标检测的深度学习算法,其设计的核心思想是将目标检测任务转化为回归问题。:
在 YOLO 中,网络的输出是一个包含检测信息的张量,该张量被划分为网格。每个网格单元负责检测图像中某个区域内的目标。
边界框坐标通常由 ( x , y , w , h ) (x, y, w, h) (x,y,w,h) 表示,其中 ( x , y ) (x, y) (x,y) 是边界框中心的相对坐标,而 ( w , h ) (w, h) (w,h) 是边界框的相对宽度和高度。这些相对坐标通常被规范化到网格单元的尺寸范围内,即 0 ≤ x , y , w , h ≤ 1 0 \leq x, y, w, h \leq 1 0≤x,y,w,h≤1。
目标置信度表示网络认为边界框内是否包含目标的置信度。通常用 $ P(\text{object}) $ 表示。
对于每个边界框,网络输出一个包含类别概率的向量。该向量的长度等于数据集中的类别数量,每个元素表示目标属于相应类别的概率。通常用 $ P(\text{class}_i) $ 表示。
YOLO 的训练目标是最小化预测框和真实框之间的差距。损失函数通常由三个部分组成:
Loss = λ coord ∑ i = 1 S 2 ∑ j = 1 B [ ( x i − x ^ i ) 2 + ( y i − y ^ i ) 2 + ( w i − w ^ i ) 2 + ( h i − h ^ i ) 2 ] + λ conf ∑ i = 1 S 2 ∑ j = 1 B [ ( C i − C ^ i ) 2 ] + ∑ i = 1 S 2 [ − C i ∑ c ∈ classes p ^ i ( c ) log ( p i ( c ) ) ] \text{Loss} = \lambda_{\text{coord}} \sum_{i=1}^{S^2} \sum_{j=1}^{B} \left[ \left( x_i - \hat{x}_i \right)^2 + \left( y_i - \hat{y}_i \right)^2 + \left( \sqrt{w_i} - \sqrt{\hat{w}_i} \right)^2 + \left( \sqrt{h_i} - \sqrt{\hat{h}_i} \right)^2 \right]+ \lambda_{\text{conf}} \sum_{i=1}^{S^2} \sum_{j=1}^{B} \left[ \left( C_i - \hat{C}_i \right)^2 \right] + \sum_{i=1}^{S^2} \left[ - C_i \sum_{c \in \text{classes}} \hat{p}_i(c) \log(p_i(c)) \right] Loss=λcoordi=1∑S2j=1∑B[(xi−x^i)2+(yi−y^i)2+(wi−w^i)2+(hi−h^i)2]+λconfi=1∑S2j=1∑B[(Ci−C^i)2]+i=1∑S2[−Cic∈classes∑p^i(c)log(pi(c))]
其中, S S S 是每个边界框的网格数, B B B 是每个网格预测的边界框数, λ coord \lambda_{\text{coord}} λcoord 和 λ conf \lambda_{\text{conf}} λconf 是损失的权重因子, x ^ i , y ^ i , w ^ i , h ^ i , C ^ i , p ^ i ( c ) \hat{x}_i, \hat{y}_i, \hat{w}_i, \hat{h}_i, \hat{C}_i, \hat{p}_i(c) x^i,y^i,w^i,h^i,C^i,p^i(c) 是真实值。
import cv2
import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import load_model
# 请替换为实际的模型路径
model_path = 'path/to/your/pretrained/model'
model = load_model(model_path)
def preprocess_image(image_path):
img = cv2.imread(image_path)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # 转换为RGB格式
img = cv2.resize(img, (224, 224)) # 调整大小,根据实际模型要求
img = img / 255.0 # 归一化
img = np.expand_dims(img, axis=0) # 添加批次维度
return img
def detect_apples(image_path, detection_threshold=0.5):
img = preprocess_image(image_path)
detections = model.predict(img)
# 仅保留置信度大于阈值的检测结果
boxes = detections['detection_boxes'][0].numpy()
scores = detections['detection_scores'][0].numpy()
selected_boxes = boxes[scores > detection_threshold]
return selected_boxes
def count_apples(image_path):
boxes = detect_apples(image_path)
return len(boxes)
image_folder = 'path/to/your/image/dataset'
image_list = ['image1.jpg', 'image2.jpg', ...] # 替换为实际的图像列表
apple_counts = []
for image_name in image_list:
image_path = f'{image_folder}/{image_name}'
count = count_apples(image_path)
plt.hist(apple_counts, bins=range(min(apple_counts), max(apple_counts) + 1), edgecolor='black')
plt.xlabel('Number of Apples')
plt.title('Distribution of Apple Counts')
通常,在计算机视觉中,图像坐标系的原点位于图像的左上角。而在数学中常用的坐标系是以左下角为原点的坐标系。因此,需要进行坐标变换,将图像坐标映射到以图像左下角为原点的物理坐标系。对于一张高度为 H H H,宽度为 W W W 的图像中的点 ( x img , y img ) (x_{\text{img}}, y_{\text{img}}) (ximg,yimg),其在物理坐标系中的位置为 ( x phys , y phys ) (x_{\text{phys}}, y_{\text{phys}}) (xphys,yphys) 可以通过以下关系计算:
x phys = x img x_{\text{phys}} = x_{\text{img}} xphys=ximg
y phys = H − y img y_{\text{phys}} = H - y_{\text{img}} yphys=H−yimg
目标检测模型输出的是检测到的目标的边界框信息。对于每个边界框,通常包含了相对于图像尺寸的归一化坐标,表示为 ( x , y , w , h ) (x, y, w, h) (x,y,w,h)。其中, ( x , y ) (x, y) (x,y) 是边界框的中心坐标, ( w , h ) (w, h) (w,h) 是边界框的宽度和高度。
x phys = x x_{\text{phys}} = x xphys=x
y phys = H − y y_{\text{phys}} = H - y yphys=H−y
散点图是一种可视化手段,用来展示数据点在坐标系中的分布。在这个问题中,苹果的物理坐标将作为数据点,其中 x 轴表示水平坐标,y 轴表示垂直坐标。
import cv2
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.models import load_model
def preprocess_image(image_path):
img = cv2.imread(image_path)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
img = cv2.resize(img, (224, 224))
img = img / 255.0
img = np.expand_dims(img, axis=0)
return img
def detect_apples(image_path, detection_threshold=0.5):
img = preprocess_image(image_path)
detections = model.predict(img)
boxes = detections['detection_boxes'][0].numpy()
scores = detections['detection_scores'][0].numpy()
selected_boxes = boxes[scores > detection_threshold]
return selected_boxes
def plot_apple_positions(image_folder, image_list):
all_apple_positions = []
for image_name in image_list:
image_path = f'{image_folder}/{image_name}'
boxes = detect_apples(image_path)
for box in boxes:
# 转换为图像左下角为坐标原点的坐标
x = box[1]
y = 1 - box[2]
all_apple_positions.append((x, y))
# 绘制散点图
x_values, y_values = zip(*all_apple_positions)
plt.scatter(x_values, y_values, marker='o', color='red')
plt.xlabel('X Coordinate')
plt.ylabel('Y Coordinate')
plt.title('Apple Positions in the Dataset')
# 请替换为实际的模型路径
model_path = 'path/to/your/pretrained/model'
model = load_model(model_path)
# 替换为实际的图像文件夹和图像列表
image_folder = 'path/to/your/image/dataset'
image_list = ['image1.jpg', 'image2.jpg', ...]
plot_apple_positions(image_folder, image_list)
在图像处理中,通常使用颜色作为成熟度的指标。颜色信息可以通过图像中每个像素的 RGB(红绿蓝)值来表示。成熟的苹果通常在红色通道上有更高的值。
颜色特征提取是通过图像处理技术将图像转换为适合颜色分析的表示形式。在这里,我们可以使用 RGB 颜色空间,也可以转换到 HSV(色相、饱和度、明度)颜色空间。通过分析颜色通道的分布,我们可以得到苹果的颜色信息。
考虑一个简单的模型,使用颜色直方图相似性来计算成熟度。假设 H apple ( i ) H_{\text{apple}}(i) Happle(i) 和 H ripe ( i ) H_{\text{ripe}}(i) Hripe(i) 分别表示苹果图像和成熟颜色的颜色直方图中第 i i i 个颜色通道的值,成熟度 R R R 可以通过以下公式计算:
$ R = \frac{\sum_{i=1}^n \min(H_{\text{apple}}(i), H_{\text{ripe}}(i))}{\sum_{i=1}^n H_{\text{apple}}(i)} $
其中 n n n 是直方图中的颜色通道数量。
$ P(R_i) = \frac{\text{在范围} R_i \text{内的苹果数量}}{\text{总苹果数量}} $
其中 R i R_i Ri 表示成熟度的第 i i i 个范围。
import cv2
import numpy as np
import matplotlib.pyplot as plt
from skimage import exposure
def preprocess_image(image_path):
img = cv2.imread(image_path)
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
return img
def calculate_color_histogram(image):
# 转换为 HSV 颜色空间
hsv = cv2.cvtColor(image, cv2.COLOR_RGB2HSV)
# 提取颜色通道
hue_channel = hsv[:,:,0]
# 计算颜色直方图
hist, _ = np.histogram(hue_channel, bins=256, range=(0, 256))
# 归一化直方图
hist = hist / hist.sum()
return hist
def calculate_similarity(hist1, hist2):
# 使用直方图相关性作为相似性度量
correlation = cv2.compareHist(hist1, hist2, cv2.HISTCMP_CORREL)
return correlation
def main():
image_folder = 'path/to/your/image/dataset'
image_list = ['image1.jpg', 'image2.jpg', ...]
ripe_color_hist = calculate_color_histogram(preprocess_image('path/to/ripe/color/reference/image.jpg'))
maturity_scores = []
for image_name in image_list:
image_path = f'{image_folder}/{image_name}'
image = preprocess_image(image_path)
apple_color_hist = calculate_color_histogram(image)
# 计算成熟度
similarity = calculate_similarity(ripe_color_hist, apple_color_hist)
# 绘制成熟度分布直方图
plt.hist(maturity_scores, bins=20, edgecolor='black')
plt.xlabel('Maturity Score')
plt.ylabel('Number of Apples')
plt.title('Apple Maturity Distribution')
if __name__ == "__main__":
关注 CS数模 团队,数模不迷路~