File size: 1,040 Bytes
a33a711
 
f5cd69e
 
 
 
 
 
 
 
 
a33a711
f5cd69e
 
 
 
 
 
 
 
 
 
 
 
 
 
84e3f43
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
---
license: apache-2.0
language:
- zh
- en
- id
- hi
metrics:
- accuracy
tags:
- early_media
---
## EarlyMedia早媒体声音分类

给对方打电话时, 对方电话还没有接通时, 有响铃, 音乐, 用户忙, 不在服务区, 无人接听, 已停机, 等状态.

号码拨打测试时, 会把电话接通前的录音保存, 给到算法. 我们的算法:

(1) 录音中的声音分为四种: 响铃, 音乐, 静音, 人声.

(2) 假如完整的录音有 20 秒, 首先按每秒一个分类标签对音频分类, 得到 20 个标签.

(3) 根据 20 个标签, 找到 "人声" 对应的音频段, 从 20 秒完整音频中截取出来.

(4) 在 "人声" 的音频上做模板匹配, 如果匹配到 "用户忙" 的模板, 则这通电话就是 "用户忙".

此模型就是基于[此数据集](https://huggingface.co/datasets/qgyd2021/early_media)训练的, 用于**四种**声音分类的模型, 它原本是用 [AllenNLP](https://guide.allennlp.org/) 训练的, 现在训练代码已经找不到了, 但是此模型比较简单.