CjangCjengh/WN-zh-vi-sim-v0.3

基于Qwen2.5-14B-Instruct，在6本网文（惊悚乐园、恐怖屋、青叶等）的官方越南语翻译数据上微调

Dựa trên Qwen2.5-14B-Instruct, đã được finetune trên dữ liệu dịch chính thức sang tiếng Việt của 6 truyện Trung (như Khu Vui Chơi Đáng Sợ, Hệ Thống Nhà Ma, Hồ Sơ Bí Ẩn, ...)

模型用于中文文本和越南语文本的相似度计算

Mô hình dùng để tính toán độ tương đồng giữa văn bản tiếng Trung và Việt

import torch
import torch.nn.functional as F
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig

model_path = 'CjangCjengh/WN-zh-vi-sim-v0.2'
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map='auto', trust_remote_code=True).eval()
model.generation_config = GenerationConfig.from_pretrained(model_path, trust_remote_code=True)

yes_id = tokenizer.encode('Yes')[0]
no_id = tokenizer.encode('No')[0]

zh_text = '''听完了倒计时，封不觉很快便进入了游戏的世界中。他置身在一个和电梯十分相像的环境里，但门的旁边没有楼层按钮。右手边的墙壁上是个三十二寸的触摸屏。正对门的那一整面墙是一块完整的镜面，可以将玩家从头照到脚。
封不觉看了看镜子中自己的形象，此刻他成了个超高像素的三维CG人物。身上的服装变成了黑色的长袖T恤和长裤，没什么特别之处。游戏人物的脸和现实中自己的长相几乎一样，一米八不到，乱糟糟的头发，面部线条略显阴柔。
在第四代光脑技术的支持下，神经连接游戏中的玩家可以获得足以乱真的五感体验，但游戏画面依然局限于CG影像，而无法让玩家载入到类似真人实景拍摄效果下的环境。'''

vi_text = '''Nghe hết thời gian đếm ngược, Phong Bất Giác nhanh chóng đăng nhập vào giao diện của game. Anh ở trong một không gian rất giống với thang máy, nhưng bên cạnh cửa lại không có nút số tầng. Trên bức tường bên tay phải có màn hình cảm ứng ba mươi hai inch. Bức tường đối diện cửa là một tấm kính nguyên vẹn, có thể soi từ đầu đến chân của người chơi.
Phong Bất Giác nhìn hình tượng của mình trong gương. Lúc này anh đã biến thành một nhân vật CG 3D độ phân giải cực cao. Quần áo trên người biến thành quần dài và áo T-shirt dài tay màu đen, không có điểm gì đặc biệt. Gương mặt của nhân vật trong game và gương mặt ngoài thật khá giống nhau, chưa đến một mét tám, đầu tóc rối bù, đường nét gương mặt lộ rõ vẻ âm nhu.
Dưới sự hỗ trợ của máy tính tiên tiến thế hệ bốn, người chơi liên kết thần kinh trong game có thể trải nghiệm năm giác quan ảo, nhưng đồ họa của game hạn chế ở mức hình ảnh CG, không thể cho người chơi môi trường với cảnh thật người thật như khi dùng máy ảnh chụp xuống.'''

zh_text = zh_text.replace('\n', '')
vi_text = vi_text.replace('\n', ' ')

assert len(zh_text) < 1024
assert len(vi_text.split()) < 768

messages = [
    {'role': 'user', 'content': f'下面的中文段落和越南语段落的内容是否完全对应，不存在缺漏？（回答Yes或No）\n\n中文：\n{zh_text}\n\n越南语：{vi_text}'}
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors='pt').to('cuda')

with torch.inference_mode():
    output = model(**model_inputs, return_dict=True)
    logits = output.logits[:, -1, [yes_id, no_id]]
    scores = F.softmax(logits, dim=-1)
    sim_score = scores[0][0].item()

if sim_score > 0.5:
    print('Match!')