راهنمایی در مورد نحوه فاین تیونینگ
#3
by
Artin2009
- opened
با سلام و وقت بخیر
من میخوام این مدل رو روی یک دیتاست سوال و جواب فارسی با فرمت جیسون فاین تیون کنم.
میخواستم در رابطه با فرمت های پرامپتی که مدل ساپورت میکنه و نحوه فاین تیون کردنش ازتون راهنمایی بگیرم.
فرمتی که دارم به این شکل هست :
{
"title": "علوم رایانه",
"paragraphs": [
{
"qas": [
{
"answers": [
{
"answer_start": 29,
"answer_end": 141,
"text": "به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند"
}
],
"question": "تعریف علوم کامپیوترچیست؟",
"is_impossible": false,
"id": 11
},
{
"answers": [
{
"answer_start": 142,
"answer_end": 215,
"text": "رشته علوم کامپیوتر را میتوان به زیررشتههای نظری و عملی بسیاری تقسیم کرد"
}
],
"question": "رشته علوم کامپوتر را چگونه می توان تقسیم کرد؟",
"is_impossible": false,
"id": 12
},
{
"answers": [
{
"answer_start": 507,
"answer_end": 543,
"text": " بر چالشهای موجود در اجرای محاسبات "
}
],
"question": "تمرکز رشته های علوم کامپیوتر روی چیست؟",
"is_impossible": false,
"id": 13
},
{
"answers": [
{
"answer_start": 630,
"answer_end": 645,
"text": " دانشگاه کپنهاگ"
}
],
"question": "اولین مکان علمی که عبارت داده شناسی را استفاده کرد کجا بود؟",
"is_impossible": false,
"id": 14
},
{
"answers": [
{
"answer_start": 769,
"answer_end": 782,
"text": "ادسخر دیکسترا"
}
],
"question": "چه کسی گفته که علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ؟",
"is_impossible": false,
"id": 15
},
{
"answers": [
{
"answer_start": 927,
"answer_end": 964,
"text": "ایالات متحده آمریکا و کشورهای اروپایی"
}
],
"question": "کشورهای پیشرفته در زمینهٔ علوم کامپیوتر کدام اند؟",
"is_impossible": false,
"id": 16
},
{
"answers": [
{
"answer_start": 662,
"answer_end": 684,
"text": " پیتر ناور در سال ۱۹۶۹"
}
],
"question": " اولین گروه دادهشناسی توسط چه کسی و در چه سالی بنا شد؟",
"is_impossible": false,
"id": 17
},
{
"answers": [],
"question": "علوم کامپیوتر در چه سالی به یک رشته دانشگاهی تبدیل شد؟",
"is_impossible": true,
"id": 18
},
{
"answers": [],
"question": "بنیان گذار علم داده شناسی در ایران کیست؟",
"is_impossible": true,
"id": 19
},
{
"answers": [],
"question": "کشورهای عقب مانده در زمینهٔ علوم کامپیوتر کدام اند؟",
"is_impossible": true,
"id": 20
}
],
"context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند.رشته علوم کامپیوتر را میتوان به زیررشتههای نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشتهها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آنها را بررسی میکند) بسیار انتزاعی هستند، این در حالی است که زیررشتههای دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشتههای علوم کامپیوتر بر چالشهای موجود در اجرای محاسبات تمرکز دارند. اولین مؤسسهٔ علمی که عبارت دادهشناسی را بکار برد DIKU گروه دادهشناسی در دانشگاه کپنهاگ بودهاست که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه دادهشناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شدهاست: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستمهای اطلاعاتی است.\r\n"
}
]
},
باعرض سلام و احترام،
مدلهای ارائه شده از خانواده BERT هستند که تنها Encoder اند. این مدلها را بیاد برای پایپلاین QuestionAnswering آموزش بدید (Fine-tune کنید) تا بتوانید به بهترین شکل ممکن از این دادگان استفاده کنید. برای این کار دو لینک زیر از کتابخانه هاگینگ فیس میتواند کمکتان کند.
https://huggingface.co/docs/transformers/en/tasks/question_answering
https://huggingface.co/learn/nlp-course/en/chapter7/7
برای این که بتوانید این دادگان را به راحتی در کتابخانه datasets هاگینگ فیس بارگزاری کنید و مطابق آموزش پیش بروید، بهتر است فرمت دادگانتان را به این صورت به فرمت jsonl تبدیل نمایید و سپس با فرمت json آن را در datasets بارگزاری کنید.
{"titles": "علوم رایانه", "context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند.رشته علوم کامپیوتر را میتوان به زیررشتههای نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشتهها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آنها را بررسی میکند) بسیار انتزاعی هستند، این در حالی است که زیررشتههای دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشتههای علوم کامپیوتر بر چالشهای موجود در اجرای محاسبات تمرکز دارند. اولین مؤسسهٔ علمی که عبارت دادهشناسی را بکار برد DIKU گروه دادهشناسی در دانشگاه کپنهاگ بودهاست که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه دادهشناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شدهاست: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستمهای اطلاعاتی است.\r\n", "question": "تعریف علوم کامپیوترچیست؟", "id": "11", "answers": {"text": ["به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند"], "answer_start": [29]}, "is_impossible": false}
{"titles": "علوم رایانه", "context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته میشود که به زیربناهای نظری، روشهای طراحی و ساخت و چگونگی استفاده از رایانه میپردازند.رشته علوم کامپیوتر را میتوان به زیررشتههای نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشتهها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آنها را بررسی میکند) بسیار انتزاعی هستند، این در حالی است که زیررشتههای دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشتههای علوم کامپیوتر بر چالشهای موجود در اجرای محاسبات تمرکز دارند. اولین مؤسسهٔ علمی که عبارت دادهشناسی را بکار برد DIKU گروه دادهشناسی در دانشگاه کپنهاگ بودهاست که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه دادهشناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شدهاست: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستمهای اطلاعاتی است.\r\n", "question": "رشته علوم کامپوتر را چگونه می توان تقسیم کرد؟", "id": "12", "answers": {"text": ["رشته علوم کامپیوتر را میتوان به زیررشتههای نظری و عملی بسیاری تقسیم کرد"], "answer_start": [142]}, "is_impossible": false}
لازم به ذکر است، از آنجایی که شما در دادگانتان سوالات بیجواب و غیرممکن دارید برای ارزیابی باید از متریک squad_v2 استفاده کنید.
موفق باشید
AliMGH
changed discussion status to
closed