File size: 2,652 Bytes

7e1f96f

# Ubiquant 字符猎手决赛方案

## 一、模型架构

### 1. 字符识别模型
- 基础网络：ResNet（训练过resnet18, resnet34, resnet50，最终采用resnet18）
- 开放集识别：OpenMax 
- 特点：能够有效处理未知类别的字符识别问题
  
### 2. 模型训练
- 使用字符识别数据集进行训练
- 使用交叉熵损失函数进行训练 （考虑加上triplet loss来调整类内和类间间距，但收敛效果不好）
- 使用AdamW优化器进行优化
- 基于验证集的准确率进行模型选择
- 设置了alpha, tailsize, threshold等超参数的搜索，采用网格搜索

## 二、字符收集策略

### 1. 基本定义
- 智能体需拾取144个物体，构成可定义所有网格拾取顺序的集合为动作空间：
- A = {a} = {< (x₀,y₀), (x₁,y₁), ... (x₁₄₄,y₁₄₄) > : xᵢ ≠ xⱼ, yᵢ ≠ yⱼ, i,j ≥ 1}
- 其中(x₀,y₀)为智能体初始位置
- 根据组合定理，动作空间的元素个数为：Card(A) = 144!

### 2. 基于广义成本的轨迹评估
计算成本包含两个部分：
1. 执行成本(PC)：
   ```

   PC = 144 + ∑ᵢ₌₀¹⁴³‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁

   ```

2. 存储成本(SC)：
   ```

   SC = ∑ₑₗᵢₘ₍ᵢ₎₌Fₐₗₛₑ[∑ᵢ‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁] - 4

      · ∑ₑₗᵢₘ₍ᵢ₎₌Tᵣᵤₑ[∑ᵢ‖(xᵢ₊₁ - xᵢ, yᵢ₊₁ - yᵢ)‖₁]

   ```

3. 广义成本：
   ```

   C = PC/10 + SC/144

   ```

4. 累计奖励：
   ```

   reward_cum = 136 - C

   ```

### 3. 初始次优轨迹生成
- 每收集4个相同物品，就能发生消除并获得奖励
- 采用一种次优选择方法生成初始轨迹
- 按照物品类别统计网格位置
- 然后随机取一批4个同类网格
- 按照最小化广义成本的原则添加到已有轨迹中

### 4. 随机扰动轨迹优化
- 考虑先添加的网格对后续网格的影响
- 初始轨迹是次优的，需要进一步优化
- 采用随机扰动：每次从轨迹中随机选出一个网格
- 按照最小化广义成本重新插入
- 重复1000次

### 5. 随机重启轨迹集成
- 随机扰动轨迹优化能改善局部轨迹，但无法进行全局优化
- 选择200种初始轨迹批次选择顺序
- 生成200条优化轨迹
- 从中选择最优轨迹

### 6. 调优策略
1. 参数调优
   - 调整随机扰动次数
   - 优化轨迹集成数量
   - 微调广义成本中PC和SC的权重

2. 策略改进
   - 优化初始轨迹生成算法
   - 改进随机扰动方式
   - 设计更好的评估函数