Datawhale

11/1787，哈工大小学妹的比赛上分经验，附战友招募

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：刘钰舒，哈尔滨工业大学研一

我是来自HIT的刘钰舒，因为我也是新手，我这个做的特别简单，以下分享不涉及单模调优，大概只是优化了一下输入输出...大佬们见笑啦。我这次分享的是一个适合新手的0.92+的上分经验，初赛排名11/1787。（现在研一在读，对cv和上分感兴趣的话，文末可以加我钉钉，一起成为战友呀）

一、赛题背景

赛事来自阿里云天池举办的「零基础入门CV赛事」：街景字符编码识别。赛事地址：

http://suo.im/64v8QF

针对这个赛事，Datawhale组织成员也给出了开源教程，从赛题理解、数据读取与扩增、模型构建、模型训练到模型集成五个方面，帮助我们走完赛事的全流程，供学习参考。

开源教程地址：http://suo.im/5WYEd6

二、核心思路

用Cascade R-CNN做目标检测，分别训练三个模型

cascade_rcnn_r101
cascade_rcnn_x101_32x4d
cascade_rcnn_x101_64x4d

三个模型结果一起做NMS

三、技巧

试了好几个网络，Cascade R-CNN似乎是mmdetection里效果最好的，啥也不改直接跑单模0.88+；
比赛提供的数据集划分方式是3万张训练，1万张验证，可以将验证集里的数据也加入训练集一起训练，单模可提升0.01~0.02；
目标检测的网络也可以做模型融合，每次训练前重新随机划分训练集和验证集，这样融合后相当于将全部数据用于训练，此外每次训练也可以将图片resize成不同大小，以训练不同尺度的网络，融合后可以在单模基础上提升0.02~0.03。

四、代码

4.1 划分数据集

先说说重新划分数据集，rename_val.py：因为验证集和训练集图片重名，放在一起训练需要先将验证集图片重命名

import os


path = 'data/mchar_val/mchar_val'
files = os.listdir(path)


for file in files:
        old = os.path.join(path,file)
        index = file.split('.')[0]
        index = '03' + index[2:]
        newpic = f"{index}.png"
        new = os.path.join(path,newpic)
        os.rename(old,new)

split_train_val.py：随机划分90%的数据训练，10%的数据验证

import os
import json
import random


image_path1 = "data/mchar_train (复件)/mchar_train"
image_path2 = "data/mchar_val/mchar_val"


d={}
d['trainval'] = []
d['valval'] = []


piclist = os.listdir(image_path1)
for pic in piclist:
    r=random.random()
    if r<=0.1:
        d['trainval'].append(pic)


piclist = os.listdir(image_path2)
for pic in piclist:
    r = random.random()
    if r <= 0.1:
        index = pic.split('.')[0]
        index = '03' + index[2:]
        newpic = f"{index}.png"
        d['valval'].append(newpic)


print('trainval:',len(d['trainval']))
print('valval:',len(d['valval']))


with open('split.json','w') as f:
    json.dump(d,f)

preprocess.py：把划分后的新数据集做成coco数据集那个格式

import os
import json
from PIL import Image


image_path2 = "data/mchar_val/mchar_val"
json_path2 = "data/mchar_val.json"


image_path1 = "data/mchar_train (复件)/mchar_train"
json_path1 = "data/mchar_train.json"


split_path = "split.json"


with open (split_path) as f:
    split_d = json.load(f)
smalllist = split_d['trainval']
largelist = split_d['valval']


d1 = {}
d1['info'] = {}
d1['licenses'] = []
d1['images'] = []
d1['annotations'] = []
d1['categories'] = []


d2 = {}
d2['info'] = {}
d2['licenses'] = []
d2['images'] = []
d2['annotations'] = []
d2['categories'] = []


# categories
for i in range(1,10):
    temp = {}
    temp['supercategory'] = str(i)
    temp['id'] = i
    temp['name'] = str(i)
    d1['categories'].append(temp)
    d2['categories'].append(temp)
temp = {}
temp['supercategory'] = str(0)
temp['id'] = 10
temp['name'] = str(0)
d1['categories'].append(temp)
d2['categories'].append(temp)


"""
处理train
"""
# images
piclist = os.listdir(image_path1)
for pic_name in piclist:
    pic_path = os.path.join(image_path1, pic_name)
    w,h = Image.open(pic_path).size
    temp = {}
    if pic_name == '000000.png':
        temp['id'] = 0
    else:
        temp['id'] = int(str(pic_name.split('.')[0]))
    temp['file_name'] = pic_name
    temp['width'] = w
    temp['height'] = h
    if pic_name in split_d['trainval']:
        d2['images'].append(temp)
    else:
        d1['images'].append(temp)


index = 0
#annotations
with open (json_path1) as f:
    load_dic = json.load(f)
    for pic_name in load_dic.keys():
        heightlist = load_dic[pic_name]['height']
        labellist = load_dic[pic_name]['label']
        leftlist = load_dic[pic_name]['left']
        toplist = load_dic[pic_name]['top']
        widthlist = load_dic[pic_name]['width']


        n = len(labellist)
        for i in range(n):
            box = [leftlist[i],toplist[i],widthlist[i],heightlist[i]]
            temp = {}
            if pic_name == '000000.png':
                temp['image_id'] = 0
            else:
                temp['image_id'] = int(str(pic_name.split('.')[0]))
            temp['segmentation'] = []
            temp['iscrowd'] = 0
            if labellist[i] == 0:
                temp['category_id'] = 10
            else:
                temp['category_id'] = labellist[i]
            temp['id'] = index
            index += 1
            temp['bbox'] = box
            temp['area'] = widthlist[i]*heightlist[i]


            if pic_name in split_d['trainval']:
                d2['annotations'].append(temp)
            else:
                d1['annotations'].append(temp)


"""
处理val
"""
# images
piclist = os.listdir(image_path2)
for pic_name in piclist:
    pic_path = os.path.join(image_path2, pic_name)
    w,h = Image.open(pic_path).size
    temp = {}
    temp['id'] = int(str(pic_name.split('.')[0]))
    temp['file_name'] = pic_name
    temp['width'] = w
    temp['height'] = h
    if pic_name in split_d['valval']:
        d2['images'].append(temp)
    else:
        d1['images'].append(temp)


#annotations
with open (json_path2) as f:
    load_dic = json.load(f)
    for pic_name in load_dic.keys():
        heightlist = load_dic[pic_name]['height']
        labellist = load_dic[pic_name]['label']
        leftlist = load_dic[pic_name]['left']
        toplist = load_dic[pic_name]['top']
        widthlist = load_dic[pic_name]['width']


        n = len(labellist)
        for i in range(n):
            box = [leftlist[i],toplist[i],widthlist[i],heightlist[i]]
            temp = {}
            indexno = pic_name.split('.')[0]
            indexno = '03' + indexno[2:]
            newpic_name = f"{indexno}.png"
            temp['image_id'] = int(str(newpic_name.split('.')[0]))
            temp['segmentation'] = []
            temp['iscrowd'] = 0
            if labellist[i] == 0:
                temp['category_id'] = 10
            else:
                temp['category_id'] = labellist[i]
            temp['id'] = index
            index += 1
            temp['bbox'] = box
            temp['area'] = widthlist[i]*heightlist[i]
            
            if newpic_name in split_d['valval']:
                d2['annotations'].append(temp)
            else:
                d1['annotations'].append(temp)


print("train:",len(d1['images']))
print("val:",len(d2['images']))


with open("data/newtrain.json","w") as f:
    json.dump(d1,f)
with open("data/newval.json","w") as f:
    json.dump(d2,f)

4.2 模型训练

然后预处理阶段就结束了，就可以开始训练啦，这里主要用的是mmdetection，主要进行了以下操作：

mmdetection/mmdet/datasets/coco.py里的类别要记得改成0到9；
mmdetection/configs/base/datasets/coco_detection.py里的文件路径需要修改；
img_scale也要改，我试了一下300x150和500x250都挺好的，虽然大佬告诉我这里应该写2的冥，比如256x128和512x256这样，我也不懂了；
mmdetection/configs/base/schedules/schedule_1x.py中把训练的轮数写多一点，我试的大概是17轮比较好。

训练的话用的这三个：

4.3 模型融合
比如下面这个是单模的检测代码，需要把结果写入一个json，做成以下格式：

简单的说就是把单模测出来的每一个框的坐标置信度和标签都存起来，才能做后续的多模型NMS。

inference_demo.py：单模的测试并且把结果json和csv存起来

#!/usr/bin/env python
# coding: utf-8




from mmdet.apis import init_detector, inference_detector, show_result_pyplot
import mmcv
import os
import pandas as pd
import json




config_file = './configs/cascade_rcnn/cascade_rcnn_r101_fpn_20e_coco.py'
# download the checkpoint from model zoo and put it in `checkpoints/`
checkpoint_file = './work_dirs/cascade_rcnn_r101_fpn_20e_coco/epoch_17.pth'


# build the model from a config file and a checkpoint file
model = init_detector(config_file, checkpoint_file, device='cuda:0')




d = {}


df = pd.DataFrame(columns=['file_name','file_code'])
image_path = "data/mchar_test_a/mchar_test_a/"
piclist = os.listdir(image_path)




piclist.sort()
index = 0
for pic_name in piclist:
    index += 1
    if index % 1000 == 0:
        print(f"{index}/40000")
    pic_path = os.path.join(image_path, pic_name)
    result = inference_detector(model, pic_path)
    boxes = []
    for i in range(10):
        for box in result[i]:
            copybox = box.tolist()
            #copybox.append(i)


            if i==9:
                copybox.append(0)
            else:
                copybox.append(i+1)


            if copybox[-2]>=0.4:
                boxes.append(copybox)


    boxes.sort(key=lambda x:x[0])


    d[pic_name] = []


    s = ""
    for b in boxes:
        s = s+str(b[-1])
        d[pic_name].append(b)


    if len(boxes)==0:
        s="1"
    df = df.append([{"file_name": pic_name, "file_code": s}], ignore_index=True)


with open("r101.json","w") as f:


    json.dump(d,f)


df.to_csv("r101.csv",index=False)

我最最最核心的merge.py：多模型NMS处理，输出最终结果

# coding:utf-8
import numpy as np
import json
import pandas as pd


jsonlist = ["r101.json",
            "x101_32.json",
            "x101_64.json"]


with open(jsonlist[0]) as f:
    load_dic = json.load(f)


for jsonpath in jsonlist[1:]:
    with open (jsonpath) as f:
        temp_dic = json.load(f)
        for k in load_dic.keys():
            load_dic[k] += temp_dic[k]




def py_cpu_nms(dets, thresh):
    """Pure Python NMS baseline."""
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]  # bbox打分


    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    # 打分从大到小排列，取index
    order = scores.argsort()[::-1]
    # keep为最后保留的边框
    keep = []
    while order.size > 0:
        # order[0]是当前分数最大的窗口，肯定保留
        i = order[0]
        keep.append(i)
        # 计算窗口i与其他所有窗口的交叠部分的面积
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])


        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        # 交/并得到iou值
        ovr = inter / (areas[i] + areas[order[1:]] - inter)
        # inds为所有与窗口i的iou值小于threshold值的窗口的index，其他窗口此次都被窗口i吸收
        inds = np.where(ovr <= thresh)[0]
        # order里面只保留与窗口i交叠面积小于threshold的那些窗口，由于ovr长度比order长度少1(不包含i)，所以inds+1对应到保留的窗口
        order = order[inds + 1]


    return dets[keep]




df = pd.DataFrame(columns=['file_name','file_code'])


for picname in  load_dic.keys():
    print(picname)
    boxes = load_dic[picname]
    if len(boxes)>1:
        n = np.array(boxes[0])
        for box in boxes[1:]:
            n = np.vstack((n, np.array(box)))
        keep = py_cpu_nms(n, 0.4)
        keep = keep.tolist()
        keep.sort(key=lambda x: x[0])


        s = ""
        for b in keep:
            if b[-2]>=0.4:
                s = s + str(int(b[-1]))


        df = df.append([{"file_name": picname, "file_code": s}], ignore_index=True)


    else:
        s = ""
        for b in boxes:
            if b[-2] >= 0.2:
                s = s + str(int(b[-1]))


        df = df.append([{"file_name": picname, "file_code": s}], ignore_index=True)


df.to_csv("submit.csv", index=False)

多模型NMS后至少可以到0.92+，我这也没有想到居然目标检测还能做模型融合，我也尝试了投票，投票的效果没有这个好，此外我也挣扎了比如调整检测框和loss函数，还是融合提升容易且无脑，听说yolov5直接跑已经可以0.925，也听说前排有大佬单模上了0.94，其实如果单模提升了融合也依然会有不错的效果。

五、战友招募

我在哈工大读研，目前研一，研究方向是计算机视觉，虽然没啥特别厉害的技术，但是最近沉迷给各种比赛上分，有同样想法的，可以加我钉钉号：liuyushu2333，或许可以一起玩，交给朋友呀。（我在竞赛群的微信昵称为 lys↓）

Datawhale竞赛群已成立

可扫码加入Datawhale竞赛学习社群

在社群中，交流、讨论和组队算法赛事。

如果加入了之前的社群，请不要重复添加！

????点击阅读原文，本文实践

uniapp特有生命周期钩子浪裡遊 uniapp uni-app vue.js 前端
生命周期钩子在UniApp中，页面的生命周期与Vue的生命周期钩子紧密相关，并且针对小程序平台，UniApp还扩展了一些额外的生命周期钩子。以下是重要的页面生命周期钩子及其简要说明：基础的Vue生命周期钩子beforeCreate在实例初始化之后，数据观测(dataobserver)和event/watcher事件配置之前被调用。created实例已经创建完成之后被调用。此时已完成数据观测，属性和
echarts设置X轴换行axisLabel 花归去 echarts javascript 前端开发语言
axisLabel:{interval:0,formatter:function(value:any){varret="";//拼接加\n返回的类目项varmaxLength=10;//每项显示文字个数varvalLength=value.length;//X轴类目项的文字个数varrowN=Math.ceil(valLength/maxLength);//类目项需要换行的行数if(rowN>1)
cesium 文字避让花归去 cesium javascript 前端 vue.js
token记得换成您自己的！！！申请cesium的token官网【Cesium:ThePlatformfor3DGeospatial】>import*asCesiumfrom'cesium';import{onMounted,reactive,ref,computed,nextTick}from'vue';//地图实例letviewer:any;constshowText=()=>{viewer.
linux 编译QT atom,QT5 编译使用TagLib weixin_39551611 linux 编译QT atom
需要使用TagLib读取媒体信息,记录下编译过程使用的文件,使用Taglib库版本1.6.3QT版本5.12.3x32MinGWCMAKE版本3.9.0使用CMAKE配置TagLIbtagLib解压后如下:image配置环境变量选择mingw的bin路径,如下图image.png打开Cmake,在Cmake中选择对应目录如下图是我的选择,基于taglib的解压目录image.png之后点击Conf
从MVC实战学习网站编写（一）初识MVC 璞瑜无文 MVC 架构 mvc 设计结构
前情概要：曾是学生时代的我，初识架构是一个传说中的三层架构。这可是鼻祖啊！因为我个人认为这是第一个让我明白高内聚低耦合的一种写代码的方式。刚接触写程序统统都是把所有的东西放一起，自己找一段代码得花很长时间（哪个时候还不知道VS有F12的存在）。简单的说就是UI层（界面），BLL层（业务处理），DAL层（数据处理）。就是分工明确在不同的包里分别编译，便于管理。今天我们从MVC基础开始穿插Knocko
使用 ArcGIS 和 Python 进行地理信息系统(GIS)分析 scaFHIO arcgis python java
在本篇文章中，我们将探讨如何利用ArcGIS和Python进行地理信息系统(GIS)分析。ArcGIS是由Esri开发和维护的一系列GIS软件，包括客户端、服务器和在线解决方案。本文主要聚焦于如何使用Python和arcgis库来实现GIS功能。技术背景介绍ArcGIS提供了功能强大的工具来进行矢量和栅格分析、地理编码、地图制作以及路线和路径规划。通过arcgisPython库，我们可以访问Esr
LDAP从入门到实战：环境部署与配置指南（下）磐基Stack专业服务团队 LDAP LDAP
#作者：朱雷接上篇：《LDAP从入门到实战：环境部署与配置指南（上）》链接:link文章目录2.5.添加账号2.6.停止服务2.7.使用TLS证书2.7.1.TLS证书2.7.2.TLS配置2.7.3.服务器配置2.8.使用安全连接的反向代理2.5.添加账号添加管理员账号配置文件[root@localhostopenldap]#catadmin.ldifdn:dc=zltest,dc=comobj
Calico与eBPF知多少：高性能网络与可观测性实践指南磐基Stack专业服务团队 Calico 网络 php 开发语言
#作者：邓伟文章目录摘要1.引言1.1背景1.2目的2.Calico简介2.1功能概述2.2架构概览3.理解eBPF3.1定义3.2应用场景系统监控：内核级可观测性革命网络过滤：高性能流量治理性能分析：函数级瓶颈定位4.Calico与eBPF的融合4.1集成方式4.2优势分析5.实践指南5.1部署步骤5.1.1准备环境5.1.2安装Calico并启用eBPF模式5.1.3配置要点5.2配置示例6.
ZooKeeper集群高可用性测试与实践：从规划到故障模拟磐基Stack专业服务团队 Zookeeper zookeeper 可用性测试
#作者：任少近文章目录ZooKeeper集群环境规划1.集群数据一致性测试2.集群节点故障测试ZooKeeper集群高可用性测试的主要目的是确保在分布式环境中，ZooKeeper服务能够持续提供一致性和高可用性的协调服务。ZooKeeper集群环境规划节点ipZooKeeper版本java版本对外端口集群通信端口集群选举端口192.168.x.xZooKeeper-3.6.11.8.0_33221
一篇文带你了解Go 1.24最新版本有趣的变化磐基Stack专业服务团队 golang spring 后端
#作者：曹付江文章目录前言1.语言特性更新1.1泛型类型别名：你的代码终于不再「绕口」了！2.工具链更新2.1引入tool指令，goget终于知道哪些是工具了2.2构建缓存优化，gorun变聪明了，不再瞎忙活2.3JSON输出改进，gobuild-json：构建日志终于能「看懂」了3.性能优化3.1运行时性能提升3.2cgo优化，cgo更快了，调用C代码更流畅3.3WebAssembly(Wasm
使用原生table合并单元格会说法语的猪前端 vue vue.js javascript 表格
先上个我要实现的页面例子1：就是最近要开发这么一个页面（这是个原型图，没有美化，大概是这个样子也都懂），刚看到的时候说实话有点儿懵的，第一次见到这样的表格，可以看到里面有很多字段，将来后台会一个个的返回给我们，其中右侧的原因是可编辑的！下面的调度主任和填写人也都是可编辑的，其他的都是后台会返回给我们的字段了，并且可以导出这咋整呢，看着就烦，里面乱糟糟的，闹心。然后开始的时候我是用element-u
VS Code 在Linux下IDE开发C++的HelloWorld leon_zeng0 c++VScode linux ide c/c++helloworld
用VisualStudioCode在Linux(Ubuntu)下构造c++的集成开发环境，编辑，编译和调试运行一个简单程序HelloWorld。想达到上面目标，搜索到以下文章，学习验证而成本文日记。链接是：https://code.visualstudio.com/docs/cpp/config-linux前期准备运行环境是ubuntu16.0，先安装好VisualStudioCode(VSCod
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
如何更优雅构建对象？我梦见你梦见我° java 开发语言
1.使用Lombok的@Builder注解Lombok的@Builder是一种非常简洁且强大的工具，可以自动生成Builder模式的代码。它避免了手动编写大量样板代码，并且支持链式调用和不可变对象的设计。@Data@NoArgsConstructor@AllArgsConstructor@BuilderpublicclassPerson{privateStringname;privateintag
批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
从MapRerankDocumentsChain迁移到LangGraph实现文档分析 bBADAS 服务器运维 python
在分析长文本的场景中，MapRerankDocumentsChain提供了一种有效的策略。这种策略涉及以下步骤：将文本拆分为较小的文档。为文档集映射一个处理过程，该过程包括生成评分。根据评分对结果进行排名，并返回得分最高的结果。这种情况下的常见过程是使用文档中的上下文进行问答，强制模型生成评分以帮助选择只由相关上下文生成的答案。LangGraph的实现允许在此问题中集成工具调用和其他功能。下面我们
MySQL 内置函数码农吃枇杷 MySQL mysql 数据库
1.日期函数1.1部分介绍函数名描述CURRENT_DATE()返回当前日期CURRENT_TIME返回当前时间CURRENT_TIMESTAMP()返回当前日期和时间DATEDIFF(d1,d2)计算日期d1->d2之间相隔的天数DATE_ADD(d，INTERVALexprtype)计算起始日期d加上一个时间段后的日期，type值可以是：year,minute,second,hour,day,
emit作用肉肉不吃肉 vue.js javascript 前端
emit是Vue3中用于子组件向父组件传递事件和数据的机制。它允许子组件触发一个自定义事件，父组件可以监听这个事件并执行相应的逻辑。emit的作用子组件向父组件通信：子组件通过emit触发一个自定义事件，父组件监听这个事件并执行相应的逻辑。传递数据：子组件可以通过emit向父组件传递数据，父组件可以在事件处理函数中接收这些数据。解耦组件逻辑：子组件不需要知道父组件的具体实现，只需要触发事件，父组件
SATA（Serial Advanced Technology Attachment）详解美好的事情总会发生高速接口嵌入式硬件硬件工程智能硬件
一、SATA的定义与核心特性SATA（串行高级技术附件）是一种用于连接存储设备（如硬盘、固态硬盘、光驱）的高速串行接口标准，取代了早期的PATA（并行ATA）。其核心特性包括：高速传输：支持最高6Gbps（SATAIII）的带宽。点对点连接：每个设备独立连接，避免总线争用。热插拔支持（需AHCI模式）：允许在系统运行时插拔设备。低电压差分信号（LVDS）：减少电磁干扰（EMI），提升信号完整性。二
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
GEO：在AI时代抢占DeepSeekC位？白雪讲堂人工智能
前言：当SEO遇见AGI——一场静默的流量革命在生成式AI日均处理53亿次查询的今天，传统SEO的「关键词-排名-点击」逻辑正在崩塌。DeepSeek、ChatGPT、豆包等大模型用动态生成的答案，悄然截流了68%的搜索需求。更残酷的是：当用户问"某个产品推荐"时，AI可能同时调用37个信源，却不会留下任何可追踪的搜索痕迹。这场革命迫使企业必须从「关键词优化」转向「场景占领」，从「流量争夺」进化到
DeprecationWarning: 无效的转义序列‘\/‘解决方案数据科学智慧 linux 运维服务器 Python
DeprecationWarning:无效的转义序列’/'解决方案在Python编程中，您可能会遇到"DeprecationWarning:无效的转义序列’/'"的警告消息。这个警告通常在您尝试使用无效的转义序列时出现，例如在正则表达式或字符串中。本文将为您提供解决方案，以解决这个问题。首先，让我们了解一下转义序列的概念。在Python中，某些字符前面带有反斜杠（\），以表示特殊含义，例如换行符（
比较分析：Windsurf、Cody、Cline、Roo Cline、Copilot 和通义灵码张3蜂开源编程语言与开发技术选型与架构设计 copilot c#AI编程
随着人工智能技术的快速发展，开发者工具变得越来越智能化，特别是在代码生成、辅助编程等领域，市面上涌现了多种AI驱动的工具。本文将从开源性、集成能力、功能覆盖范围、支持的编程语言、生态兼容性、成本、学习曲线、响应速度、离线支持以及与.NETCore的适配性等十个维度对以下几种产品进行比较：Windsurf、Cody、Cline、RooCline、Copilot和通义灵码。1.开源性Windsurf:
每日一题--内存池秋凉づᐇ java 开发语言
内存池（MemoryPool）是一种高效的内存管理技术，通过预先分配并自主管理内存块，减少频繁申请/释放内存的系统开销，提升程序性能。它是高性能编程（如游戏引擎、数据库、网络服务器）中的核心优化手段。内存池的核心原理预先分配：初始化时一次性申请一大块内存（称为“池”），避免程序运行时频繁调用malloc/new。自主管理：将大块内存划分为多个固定或可变大小的内存单元，由程序自行分配和回收。复用机制
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
商品详情中除了价格和库存，还有哪些重要信息？数据小爬虫@ 大数据
在获取商品详情时，除了价格和库存，还有许多其他重要信息可以帮助我们更全面地了解商品。这些信息对于市场调研、数据分析、商品比较以及用户体验优化等都非常有价值。以下是一些常见的商品详情字段及其重要性：1.商品名称（Name）重要性：商品名称是用户识别商品的关键信息，也是搜索引擎优化（SEO）的重要部分。应用场景：用于展示商品、搜索优化、分类整理等。2.商品描述（Description）重要性：详细的商
Qt窗口控件之消息对话框QMessageBox laimaxgg qt c++qt6.3 qt5 前端
消息对话框QMessageBoxQMessageBox是继承于QDialog类，用于表示Qt中的一个消息对话框。消息对话框是应用程序中最常用的界面元素，主要用于为用户提示重要信息，强制用户进行选择操作。1.QMessageBox方法方法说明setWindowTitle(QString)设置消息对话框标题文本。setText(QString)设置消息对话框内容文本。setStandardButton
【PTA-数据库】《数据库原理与应用B》第二章选择题 .Phoenix. 《数据库原理与应用B》第二章数据库
1.关系模型的数据结构非常简单，只包含单一的数据结构——____C____。A.元组B.属性C.关系D.分量2____A____是一组具有相同数据类型的值的集合。A.域B.属性C.分量D.元组3.一个域允许的不同取值个数称为这个域的___D_____。A.分量B.目C.度D.基数4.若D1域的基数为2，D2域的基数为3，D3域的基数为4，则D1、D2、D3的笛卡尔积的基数为___C_____。A.
Pandas库中pd.to_datetime()函数用法详细介绍 Pythoner研习社零基础学python pandas python 开发语言
pd.to_datetime()是Pandas库中用来将日期和时间字符串转换为日期时间对象的一个非常有用的函数，常用它进行时间上的计算和数据分析。1功能简介在Pandas中，pd.to_datetime()函数可以接收多种格式的日期时间字符串、列表、数组或者Pandas的Series对象，然后将它们转换成Pandas的datetime64类型。转换后的数据可以更好地与Pandas的日期时间功能集成
《颠覆传统，用Web3.0技术手撸一个去中心化微博（含完整代码）》煜bart web3 人工智能区块链
一、为什么你的下一个项目必须拥抱Web3.0？传统互联网正面临三大致命伤：-用户数据被巨头垄断（某浪删帖事件频发）-单点故障导致服务瘫痪（某云宕机损失过亿）-创作者收益被平台榨取（某音抽成高达70%）**Web3.0的破局方案：**-✅数据永久存储在IPFS/Arweave-✅智能合约自动分配收益-✅抗审查的链上内容存证---###二、核心技术栈揭秘（附对比图表）|技术|传统方案|Web3.0方案
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

11/1787， 哈工大小学妹的比赛上分经验，附战友招募

二、核心思路

四、代码

4.1 划分数据集

先说说重新划分数据集，rename_val.py：因为验证集和训练集图片重名，放在一起训练需要先将验证集图片重命名

你可能感兴趣的:(11/1787， 哈工大小学妹的比赛上分经验，附战友招募)

11/1787，哈工大小学妹的比赛上分经验，附战友招募

你可能感兴趣的:(11/1787，哈工大小学妹的比赛上分经验，附战友招募)