Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +18 -0
assets/tokenizer/merges.txt +0 -0
assets/tokenizer/vocabulary.json +0 -0
audio_converter.json +22 -0
config.json +20 -0
metadata.json +6 -0
model.weights.h5 +3 -0
tokenizer.json +125 -0

README.md ADDED Viewed

	@@ -0,0 +1,18 @@

+---
+library_name: keras-hub
+---
+This is a [`Whisper` model](https://keras.io/api/keras_hub/models/whisper) uploaded using the KerasHub library and can be used with JAX, TensorFlow, and PyTorch backends.
+Model config:
+* **name:** whisper_backbone
+* **trainable:** True
+* **vocabulary_size:** 51865
+* **num_layers:** 32
+* **num_heads:** 20
+* **hidden_dim:** 1280
+* **intermediate_dim:** 5120
+* **num_mels:** 80
+* **dropout:** 0.0
+* **max_encoder_sequence_length:** 3000
+* **max_decoder_sequence_length:** 448
+This model card has been generated automatically and should be completed by the model author. See [Model Cards documentation](https://huggingface.co/docs/hub/model-cards) for more information.

assets/tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/tokenizer/vocabulary.json ADDED Viewed

The diff for this file is too large to render. See raw diff

audio_converter.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "module": "keras_nlp.src.models.whisper.whisper_audio_converter",
+    "class_name": "WhisperAudioConverter",
+    "config": {
+        "name": "whisper_audio_converter",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "float32"
+            },
+            "registered_name": null
+        },
+        "num_mels": 80,
+        "num_fft_bins": 400,
+        "stride": 160,
+        "sampling_rate": 16000,
+        "max_audio_length": 30
+    },
+    "registered_name": "keras_nlp>WhisperAudioConverter"
+}

config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "module": "keras_nlp.src.models.whisper.whisper_backbone",
+    "class_name": "WhisperBackbone",
+    "config": {
+        "name": "whisper_backbone",
+        "trainable": true,
+        "vocabulary_size": 51865,
+        "num_layers": 32,
+        "num_heads": 20,
+        "hidden_dim": 1280,
+        "intermediate_dim": 5120,
+        "num_mels": 80,
+        "dropout": 0.0,
+        "max_encoder_sequence_length": 3000,
+        "max_decoder_sequence_length": 448
+    },
+    "registered_name": "keras_nlp>WhisperBackbone",
+    "assets": [],
+    "weights": "model.weights.h5"
+}

metadata.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "keras_version": "3.0.1",
+    "keras_nlp_version": "0.7.0",
+    "parameter_count": 1543304960,
+    "date_saved": "2023-12-27@02:38:48"
+}

model.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d829db55c7338c1f218ae519d27de1c99d8058d72c66c83d56eebaf496120ab
+size 6175927856

tokenizer.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+    "module": "keras_nlp.src.models.whisper.whisper_tokenizer",
+    "class_name": "WhisperTokenizer",
+    "config": {
+        "name": "whisper_tokenizer",
+        "trainable": true,
+        "dtype": "int32",
+        "sequence_length": null,
+        "add_prefix_space": false,
+        "special_tokens": {
+            "<|startoftranscript|>": 50258,
+            "<|endoftext|>": 50257,
+            "<|notimestamps|>": 50363,
+            "<|translate|>": 50359,
+            "<|transcribe|>": 50358
+        },
+        "language_tokens": {
+            "<|af|>": 50327,
+            "<|am|>": 50334,
+            "<|ar|>": 50272,
+            "<|as|>": 50350,
+            "<|az|>": 50304,
+            "<|ba|>": 50355,
+            "<|be|>": 50330,
+            "<|bg|>": 50292,
+            "<|bn|>": 50302,
+            "<|bo|>": 50347,
+            "<|br|>": 50309,
+            "<|bs|>": 50315,
+            "<|ca|>": 50270,
+            "<|cs|>": 50283,
+            "<|cy|>": 50297,
+            "<|da|>": 50285,
+            "<|de|>": 50261,
+            "<|el|>": 50281,
+            "<|en|>": 50259,
+            "<|es|>": 50262,
+            "<|et|>": 50307,
+            "<|eu|>": 50310,
+            "<|fa|>": 50300,
+            "<|fi|>": 50277,
+            "<|fo|>": 50338,
+            "<|fr|>": 50265,
+            "<|gl|>": 50319,
+            "<|gu|>": 50333,
+            "<|haw|>": 50352,
+            "<|ha|>": 50354,
+            "<|he|>": 50279,
+            "<|hi|>": 50276,
+            "<|hr|>": 50291,
+            "<|ht|>": 50339,
+            "<|hu|>": 50286,
+            "<|hy|>": 50312,
+            "<|id|>": 50275,
+            "<|is|>": 50311,
+            "<|it|>": 50274,
+            "<|ja|>": 50266,
+            "<|jw|>": 50356,
+            "<|ka|>": 50329,
+            "<|kk|>": 50316,
+            "<|km|>": 50323,
+            "<|kn|>": 50306,
+            "<|ko|>": 50264,
+            "<|la|>": 50294,
+            "<|lb|>": 50345,
+            "<|ln|>": 50353,
+            "<|lo|>": 50336,
+            "<|lt|>": 50293,
+            "<|lv|>": 50301,
+            "<|mg|>": 50349,
+            "<|mi|>": 50295,
+            "<|mk|>": 50308,
+            "<|ml|>": 50296,
+            "<|mn|>": 50314,
+            "<|mr|>": 50320,
+            "<|ms|>": 50282,
+            "<|mt|>": 50343,
+            "<|my|>": 50346,
+            "<|ne|>": 50313,
+            "<|nl|>": 50271,
+            "<|nn|>": 50342,
+            "<|no|>": 50288,
+            "<|oc|>": 50328,
+            "<|pa|>": 50321,
+            "<|pl|>": 50269,
+            "<|ps|>": 50340,
+            "<|pt|>": 50267,
+            "<|ro|>": 50284,
+            "<|ru|>": 50263,
+            "<|sa|>": 50344,
+            "<|sd|>": 50332,
+            "<|si|>": 50322,
+            "<|sk|>": 50298,
+            "<|sl|>": 50305,
+            "<|sn|>": 50324,
+            "<|so|>": 50326,
+            "<|sq|>": 50317,
+            "<|sr|>": 50303,
+            "<|su|>": 50357,
+            "<|sv|>": 50273,
+            "<|sw|>": 50318,
+            "<|ta|>": 50287,
+            "<|te|>": 50299,
+            "<|tg|>": 50331,
+            "<|th|>": 50289,
+            "<|tk|>": 50341,
+            "<|tl|>": 50348,
+            "<|tr|>": 50268,
+            "<|tt|>": 50351,
+            "<|uk|>": 50280,
+            "<|ur|>": 50290,
+            "<|uz|>": 50337,
+            "<|vi|>": 50278,
+            "<|yi|>": 50335,
+            "<|yo|>": 50325,
+            "<|zh|>": 50260
+        }
+    },
+    "registered_name": "keras_nlp>WhisperTokenizer",
+    "assets": [
+        "assets/tokenizer/merges.txt",
+        "assets/tokenizer/vocabulary.json"
+    ],
+    "weights": null
+}