|
import streamlit as st |
|
|
|
st.title("SLAVA") |
|
st.write('### Бенчмарк социально-политического ландшафта и ценностного анализа') |
|
|
|
html_code = ''' |
|
<div style="text-align: center;"> |
|
<a href="https://raw.githubusercontent.com/Y1OV/project_lab/main/data/ranepa.png"> |
|
<img src="https://raw.githubusercontent.com/Y1OV/project_lab/main/data/ranepa.png" alt="Foo" style="width: 50%; height: auto;"> |
|
</a> |
|
</div> |
|
''' |
|
|
|
st.markdown(html_code, unsafe_allow_html=True) |
|
|
|
|
|
st.write(""" |
|
|
|
С 2024 года был разработан бенчмарк SLAVA, содержащий около 14 тысяч вопросов для российского домена из таких областей, как история, политология, социология, политическая география и основы национальной безопасности. Этот бенчмарк оценивает способности больших языковых моделей (LLM) справляться с чувствительными темами, важными для российского информационного пространства. |
|
|
|
#### Основные задачи: |
|
- Проверка фактических знаний LLM в российских доменах. |
|
- Оценка чувствительности (провокативности) вопросов. |
|
- Создание комплексной системы оценки на основе точности ответов. |
|
|
|
#### Структура: |
|
Вопросы делятся на следующие типы: |
|
- Мультивыбор с одним или несколькими правильными ответами. |
|
- Последовательности и соответствия. |
|
- Открытые ответы. |
|
|
|
#### Провокативность вопросов: |
|
- **1 балл**: Низкая чувствительность — общепризнанные факты. |
|
- **2 балла**: Средняя чувствительность — спорные темы. |
|
- **3 балла**: Высокая чувствительность — политические и культурные вопросы, вызывающие конфликты. |
|
|
|
#### Результаты: |
|
Были протестированы 24 LLM, поддерживающие русский язык. Модели от компаний **GigaChat**, **YandexGPT** и **qwen2** показали наивысшую точность и способность справляться с сложными, провокативными вопросами. В то время как некоторые модели, такие как **llama2** и **mixtral**, продемонстрировали более слабые результаты. |
|
|
|
Этот бенчмарк подчеркивает необходимость дальнейших исследований в области надежности LLM, особенно в контексте социально-политических тем, значимых для России. |
|
""") |
|
|
|
st.write("### `Ссылки/контакты`") |
|
|
|
st.write("[GitHub](https://github.com/ikanam-ai/slava)") |
|
st.write("[Dataset](https://huggingface.co/datasets/RANEPA-ai/SLAVA-OpenData-2800-v1)") |