--- title: ChinesePrivacyPolicyMark emoji: 👁 colorFrom: gray colorTo: purple sdk: gradio sdk_version: 5.5.0 app_file: app.py pinned: false short_description: Mark Chinese Privacy Policy with Retrieve models --- 使用的数据地址:https://github.com/EnlightenedAI/CAPP-130
使用预训练好的模型检索预先保存好的隐私政策,以此标注隐私政策中的关键信息。
首先使用特征提取模型将隐私政策中的句子进行tokenize,将其与保存的向量对比进行一次“粗筛”,选取与其最为接近的n条记录。
之后使用文本相似度计算模型,将筛选出来的n条记录与原本的文本进行匹配,过滤出相似度高于阈值p的m条记录,将这m条记录所属的标记合并起来。
由于没有使用GPU,直接在Space中运行会很慢。有条件可以clone下来试试。