openai/whisper-large-v3 · Update forced decoder ids

Feb 7, 2024

•

edited Feb 7, 2024

The forced decoder ids for large-v3 currently set the default task to translate:

>>> from transformers import WhisperTokenizer, GenerationConfig

>>> tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-large-v3")
>>> generation_config = GenerationConfig.from_pretrained("openai/whisper-large-v3")

>>> generation_config.forced_decoder_ids
[[1, None], [2, 50359]]
>>> tokenizer.decode(generation_config.forced_decoder_ids[1][1])
'<|translate|>'

Whereas for large-v2 and the other multilingual models, it's set to transcribe:

>>> from transformers import WhisperTokenizer, GenerationConfig

>>> tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-large-v2")
>>> generation_config = GenerationConfig.from_pretrained("openai/whisper-large-v2")

>>> generation_config.forced_decoder_ids
[[1, None], [2, 50359]]
>>> tokenizer.decode(generation_config.forced_decoder_ids[1][1])
'<|transcribe|>'

This PR updates the forced decoder ids for large-v3 to be consistent with the other multilingual Whisper models (transcribe).

cc @patrickvonplaten

Update forced decoder idsf6811141

sanchit-gandhi changed pull request status to merged Feb 8, 2024