File size: 4,877 Bytes
7694c84
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
input_vocab_to_int = {'“': 55,
                      'ئ': 56,
                      '°': 5,
                      'و': 6,
                      'ε': 7,
                      'ﺇ': 57,
                      'ﺈ': 58,
                      'ﻧ': 102,
                      '\t': 8,
                      '\u200f': 60,
                      'ـ': 9,
                      '۷': 106,
                      'ﺄ': 61,
                      '۸': 10,
                      '•': 62,
                      'ו': 64,
                      'ظ': 11,
                      'ر': 65,
                      'ﻠ': 66,
                      'ψ': 12,
                      'ﻛ': 13,
                      '<GO>': 2,
                      'χ': 14,
                      'ز': 92,
                      'آ': 15,
                      'ﺁ': 16,
                      'ا': 68,
                      '؛': 17,
                      'έ': 69,
                      'ي': 70,
                      'ث': 71,
                      'ك': 72,
                      'أ': 73,
                      '«': 74,
                      'ص': 75,
                      'υ': 20,
                      'ﻹ': 21,
                      'ﺔ': 76,
                      'ت': 22,
                      '…': 23,
                      'ό': 77,
                      'τ': 78,
                      'ش': 18,
                      'غ': 24,
                      'ﻻ': 79,
                      '﴿': 25,
                      'ج': 59,
                      'σ': 27,
                      'ρ': 26,
                      'ن': 81,
                      'س': 82,
                      'ﻵ': 83,
                      '\xa0': 84,
                      '”': 85,
                      '\u200d': 31,
                      'ﻓ': 33,
                      'ﻴ': 88,
                      'ω': 89,
                      'ﺌ': 90,
                      '‘': 34,
                      'κ': 35,
                      'γ': 80,
                      'ل': 29,
                      'ط': 93,
                      'ﺂ': 96,
                      'ι': 36,
                      'ع': 95,
                      'ν': 63,
                      'ﻷ': 98,
                      'ے': 37,
                      'ق': 38,
                      'خ': 19,
                      'ى': 39,
                      '\xad': 40,
                      'ح': 86,
                      'ώ': 103,
                      ' ': 28,
                      '\u202b': 94,
                      '’': 41,
                      '–': 42,
                      '<EOS>': 3,
                      'ﻣ': 43,
                      '﴾': 44,
                      'ٰ': 45,
                      '<UNK>': 1,
                      '»': 30,
                      'ذ': 97,
                      'ﺑ': 32,
                      'ﻟ': 99,
                      'ف': 46,
                      'د': 104,
                      '۵': 109,
                      'ﺃ': 87,
                      'α': 47,
                      'م': 48,
                      'ه': 49,
                      '\u202c': 108,
                      'ؤ': 50,
                      'θ': 51,
                      'ﺋ': 100,
                      'ی': 105,
                      '´': 110,
                      'ض': 111,
                      '<PAD>': 0,
                      '\u200b': 52,
                      '٪': 91,
                      'ί': 112,
                      'إ': 119,
                      '؟': 101,
                      'ﺒ': 113,
                      'ο': 114,
                      '‰': 115,
                      'π': 116,
                      '\u200e': 117,
                      'ﮐ': 53,
                      'ب': 118,
                      'ٱ': 67,
                      'μ': 54,
                      'ة': 107,
                      'ء': 120}

output_int_to_vocab = {0: '<PAD>',
                       1: '<UNK>',
                       2: '<GO>',
                       3: '<EOS>',
                       4: 'ـ',
                       5: 'َ',
                       6: 'ُّ',
                       7: 'َّ',
                       8: 'ـ',
                       9: 'ِّ',
                       10: 'ّ',
                       11: 'ّْ',
                       12: 'ٍّ',
                       13: 'ِّ',
                       14: 'ٍّ',
                       15: 'ٌّ',
                       16: 'َّ',
                       17: 'ُ',
                       18: 'ٌّ',
                       19: 'ًّ',
                       20: 'ْ',
                       21: 'ٍ',
                       22: 'ِ',
                       23: 'ُّ',
                       24: 'ًّ',
                       25: 'ٌ',
                       26: 'ً',
                       27: 'ّّ'}