Initial commit

Browse files

Files changed (4) hide show

README.md +37 -0
config.json +17 -0
gitattributes +35 -0
model.safetensors +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,37 @@

+---
+tags:
+- model_hub_mixin
+- pytorch_model_hub_mixin
+license: apache-2.0
+datasets:
+- speechcolab/gigaspeech
+- facebook/multilingual_librispeech
+language:
+- en
+pipeline_tag: text-to-speech
+---
+# Model Card
+<!-- Provide a quick summary of what the model is/does. -->
+Token-Voicebox, a model following the Voicebox architecture, reconstructs speech from speech tokens generated by USDM.
+## Paralinguistics-Aware Speech-Empowered LLMs for Natural Conversation [NeurIPS 2024]
+- **Repository:** https://github.com/naver-ai/usdm
+- **Paper:** https://openreview.net/forum?id=NjewXJUDYq
+- **Project Page:** https://unifiedsdm.github.io/
+## BibTeX
+```
+@inproceedings{
+  kim2024paralinguisticsaware,
+  title={Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation},
+  author={Heeseung Kim and Soonshin Seo and Kyeongseok Jeong and Ohsung Kwon and Soyoon Kim and Jungwhan Kim and Jaehong Lee and Eunwoo Song and Myungwoo Oh and Jung-Woo Ha and Sungroh Yoon and Kang Min Yoo},
+  booktitle={The Thirty-eighth Annual Conference on Neural Information Processing Systems},
+  year={2024},
+  url={https://openreview.net/forum?id=NjewXJUDYq}
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "activation_dropout": 0.1,
+  "attention_dropout": 0.0,
+  "convpos_depth": 2,
+  "convpos_groups": 16,
+  "convpos_width": 31,
+  "embedding_dim": 1280,
+  "hidden_dropout": 0.0,
+  "hidden_size": 1024,
+  "intermediate_size": 4096,
+  "n_feats": 80,
+  "n_tokens": 10000,
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "sigma_min": 0.0001,
+  "solver": "euler"
+}

gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f3935e08887c7ee715a78db3525b8f82fce46e8236c0b1a19598dc6f0dfee4d
+size 1383704304