Irodori-TTS-500M-v2 Demo

Flow-matching based Japanese TTS model (500M parameters). Generates speech from text using rectified flow over DACVAE latents.

Reference audio: Optional. Upload to condition the speaker voice. Leave blank for unconditional generation.
Generates up to 30 seconds of audio, automatically trimmed to content length.

Reference Audio Upload (optional, blank = no-reference mode)

Num Steps

1 120

Num Candidates

1 32

Seed (blank=random)

CFG Guidance Mode

CFG Scale Text

0 10

CFG Scale Speaker

0 10