btrunghieu's picture
Update README.md
d7372ae verified
---
title: Detect Emotions Comment Tiktok
emoji: 👀
colorFrom: pink
colorTo: blue
sdk: gradio
sdk_version: 4.37.1
app_file: app.py
pinned: true
license: mit
---
# Ứng Dụng Mô Hình Ngôn Ngữ Lớn Để Nhận Diện Tác Động Tiêu Cực Trên TikTok.
Trong thời đại 4.0, phần lớn người trẻ đều gắn liền với một mạng xã hội nào đó. Mặc dù việc sử dụng mạng xã hội mang lại nhiều tác động tích cực đến nhận thức của giới trẻ,
không thể phủ nhận rằng mạng xã hội cũng tồn tại những mặt tiêu cực đáng lo ngại. Với sự phát triển bùng nổ của các mô hình ngôn ngữ lớn, chúng tôi nảy ra ý tưởng sử dụng
công nghệ này để phát hiện các tác động tiêu cực đó.
Chúng tôi đã chọn TikTok, một trong những mạng xã hội phổ biến nhất hiện nay, để tiến hành thực nghiệm. Ý tưởng của chúng tôi rất đơn giản:
sử dụng mô hình ngôn ngữ lớn để phân loại cảm xúc của các bình luận trên TikTok thành ba loại: `Clean`, `Offensive`, và `Hate`.
Dựa trên tỷ lệ các bình luận này, chúng tôi sẽ đánh giá xem video đó có gây ra tác động tiêu cực đến xã hội hay không.
# PhoBert Và Phương Pháp Fine-Tuning
PhoBERT là một mô hình ngôn ngữ pre-train tiên tiến được thiết kế đặc biệt cho tiếng Việt. Được phát triển dựa trên nền tảng RoBERTa, PhoBERT tối ưu hóa
quy trình huấn luyện của BERT để đạt hiệu suất vượt trội. Đây là mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên quy mô lớn cho tiếng Việt,
bao gồm hai phiên bản: "base" và "large" [1](https://github.com/VinAIResearch/PhoBERT).
PhoBERT đã chứng minh hiệu quả xuất sắc trên nhiều tác vụ xử lý ngôn ngữ tự nhiên (NLP) quan trọng như gán nhãn từ loại (Part-of-speech tagging),
phân tích phụ thuộc cú pháp (Dependency parsing), nhận diện thực thể có tên (Named-entity recognition), và suy diễn ngôn ngữ tự nhiên (Natural language inference) đây là lý do vì sao chúng tôi chọn mô hình PhoBert để giải quyết bài toán.
Chúng tôi sử dụng phương pháp Fine-tuning để điều chỉnh các tham số của mô hình PhoBERT đã được huấn luyện trước để phù hợp với bài toán của chúng tôi.