Create preprocessing.py
Browse files- preprocessing.py +45 -0
preprocessing.py
ADDED
@@ -0,0 +1,45 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
ARABIC_TO_HEBREW_LETTER_MAP = {
|
2 |
+
"ا": "א",
|
3 |
+
"ب": "ב",
|
4 |
+
"ج": "ג׳",
|
5 |
+
"غ": "ג",
|
6 |
+
"د": "ד",
|
7 |
+
"ذ": "דֿ",
|
8 |
+
"ه": "ה",
|
9 |
+
"ة": "ה׳",
|
10 |
+
"و": "ו",
|
11 |
+
"ز": "ז",
|
12 |
+
"ح": "ח",
|
13 |
+
"ط": "ט",
|
14 |
+
"ظ": "ט׳",
|
15 |
+
"ي": "י",
|
16 |
+
"ك": "כ",
|
17 |
+
"خ": "כ׳",
|
18 |
+
"ل": "ל",
|
19 |
+
"م": "מ",
|
20 |
+
"ن": "נ",
|
21 |
+
"س": "ס",
|
22 |
+
"ع": "ע",
|
23 |
+
"ف": "פ",
|
24 |
+
"ص": "צ",
|
25 |
+
"ض": "צ׳",
|
26 |
+
"ق": "ק",
|
27 |
+
"ر": "ר",
|
28 |
+
"ش": "ש",
|
29 |
+
"ت": "ת",
|
30 |
+
"ث": "ת׳",
|
31 |
+
"ء": "א",
|
32 |
+
"ئ": "י",
|
33 |
+
"ؤ": "ו",
|
34 |
+
"ى": "א",
|
35 |
+
"؟": "?",
|
36 |
+
"إ": "א",
|
37 |
+
"آ": "א",
|
38 |
+
"أ": "א",
|
39 |
+
}
|
40 |
+
|
41 |
+
|
42 |
+
def transliterate_arabic_to_hebrew(text):
|
43 |
+
assert isinstance(text, str), "Cannot transliterate non-string values"
|
44 |
+
result_chars = [ARABIC_TO_HEBREW_LETTER_MAP.get(c, c) for c in text]
|
45 |
+
return "".join(result_chars)
|