orgcatorg
/

bert-base-multilingual-cased-ner

Token Classification

Inference Endpoints

Model card Files Files and versions Community

Xmm commited on Feb 22, 2024

Commit

b07e637

·

verified ·

1 Parent(s): ece567b

Update README.md

Files changed (1) hide show

README.md +21 -47

README.md CHANGED Viewed

@@ -107,6 +107,18 @@ language:
 license: apache-2.0
 datasets:
 - wikipedia
 ---
 # BERT multilingual base model (cased)
@@ -151,55 +163,17 @@ generation you should look at model like GPT2.
 ### How to use
-You can use this model directly with a pipeline for masked language modeling:
 ```python
->>> from transformers import pipeline
->>> unmasker = pipeline('fill-mask', model='bert-base-multilingual-cased')
->>> unmasker("Hello I'm a [MASK] model.")
-[{'sequence': "[CLS] Hello I'm a model model. [SEP]",
-  'score': 0.10182085633277893,
-  'token': 13192,
-  'token_str': 'model'},
- {'sequence': "[CLS] Hello I'm a world model. [SEP]",
-  'score': 0.052126359194517136,
-  'token': 11356,
-  'token_str': 'world'},
- {'sequence': "[CLS] Hello I'm a data model. [SEP]",
-  'score': 0.048930276185274124,
-  'token': 11165,
-  'token_str': 'data'},
- {'sequence': "[CLS] Hello I'm a flight model. [SEP]",
-  'score': 0.02036019042134285,
-  'token': 23578,
-  'token_str': 'flight'},
- {'sequence': "[CLS] Hello I'm a business model. [SEP]",
-  'score': 0.020079681649804115,
-  'token': 14155,
-  'token_str': 'business'}]
-```
-Here is how to use this model to get the features of a given text in PyTorch:
-```python
-from transformers import BertTokenizer, BertModel
-tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
-model = BertModel.from_pretrained("bert-base-multilingual-cased")
-text = "Replace me by any text you'd like."
-encoded_input = tokenizer(text, return_tensors='pt')
-output = model(**encoded_input)
-```
-and in TensorFlow:
-```python
-from transformers import BertTokenizer, TFBertModel
-tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
-model = TFBertModel.from_pretrained("bert-base-multilingual-cased")
-text = "Replace me by any text you'd like."
-encoded_input = tokenizer(text, return_tensors='tf')
-output = model(encoded_input)
 ```
 ## Training data

 license: apache-2.0
 datasets:
 - wikipedia
+examples:
+widget:
+- text: "মারভিন দি মারসিয়ান"
+  example_title: "Sentence_1"
+- text: "লিওনার্দো দা ভিঞ্চি"
+  example_title: "Sentence_2"
+- text: "বসনিয়া ও হার্জেগোভিনা"
+  example_title: "Sentence_3"
+- text: "সাউথ ইস্ট ইউনিভার্সিটি"
+  example_title: "Sentence_4"
+- text: "মানিক বন্দ্যোপাধ্যায় লেখক"
+  example_title: "Sentence_5"
 ---
 # BERT multilingual base model (cased)
 ### How to use
+You can use this model directly with a pipeline for named entity recognition:
 ```python
+from transformers import AutoTokenizer, AutoModelForTokenClassification
+from transformers import pipeline
+tokenizer = AutoTokenizer.from_pretrained("orgcatorg/bert-base-multilingual-cased-ner")
+model = AutoModelForTokenClassification.from_pretrained("orgcatorg/bert-base-multilingual-cased-ner")
+nlp = pipeline("ner", model=model, tokenizer=tokenizer)
+example = "মারভিন দি মারসিয়ান"
+ner_results = nlp(example)
+ner_results
 ```
 ## Training data