IndexTTS 2.5 Technical Report

Index SpeechTeam

Abstract

In prior work, we introduced IndexTTS 2, a zero-shot neural text-to-speech foundation model comprising two core components: a transformer-based Text-to-Semantic (T2S) module and a non-autoregressive Semantic-to-Mel (S2M) module, which together enable faithful emotion replication and establish the first autoregressive duration-controllable generative paradigm. Building upon this, we present IndexTTS 2.5, which significantly enhances multilingual coverage, inference speed, and overall synthesis quality through four key improvements:

Experiments show that IndexTTS 2.5 not only supports broader language coverage but also replicates emotional prosody in unseen languages under the same zero-shot setting. IndexTTS 2.5 achieves a 2.28× improvement in real-time factor (RTF) while maintaining comparable word error rate (WER) and speaker similarity to IndexTTS 2.

Contents

1 Emotionally Expressive Speech Generation

IndexTTS 2.5 accurately reconstructs the emotional content present in the prompt audio, demonstrating emotion replication in Japanese and Spanish—languages newly supported in this version.

Language Emotion Audio-Prompt Text Audio
JA Happy
ちょうど探しに行こうかなって思っていたんだ。どうかな、一緒に練習でも。
Neutral
小さい頃、異邦から流れ着いた勇者が剣術修行に付き合ってくれたり、魔物を倒しながら一緒に世界を救う旅をしたり…なんてのをよく想像していたんだ。
Guilty
いつ咲こうとも、風に吹き落される時は…来る。
Sad
いつ咲こうとも、風に吹き落される時は…来る。
ES Happy
No esperaba que esto fuese tan útil. Ahora que has obtenido un ascenso. ¿Puedes mejorar mi habitación? Gracias por valorar alguien tan vulnerable como yo, Doc. Seguiré dando lo mejor de mí.
Excited
¿Te has perdido? No te preocupes. Dime adónde quieres ir. Para llegar allí, sube a las escaleras de la izquierda del cuarto piso. Luego, gira a la derecha, y traspasa la tercera cruce, vea a la izquierda. Baja el piso, y sigue atravesar a la izquierda. Está justo enfrente de la sala de ingeniería de número tres.
Surprise
No es tu dieta de hacer los bajos de tu ropa y tus zapatos están limpios. ¡Muy bien! Espera, llevas el cuello de la ropa muy arrugado. No pretenderás ir a la fiesta así, ¿no? Vuelve y arregla eso. Te espero aquí.
Neutral
Ehh, ¿me das un momento para asimilarlo? Supongo que ya es tarde para echarse atrás. Vamos allá.

2 Zero-shot In-context Generation

IndexTTS 2.5 supports zero-shot voice cloning in Chinese, English, Japanese, and Spanish, preserving speaker identity from a single reference audio. All samples use neutral prosody.

Language Audio-Prompt Text Ground Truth Model Audio
ZH
为了弄明白停水原因,他给自来水公司打电话。
IndexTTS 2.5
IndexTTS 2
CosyVoice 3
FireRedTTS-2
EN
Kanwal is said to mean 'snakes indeed' in a local aboriginal language.
IndexTTS 2.5
IndexTTS 2
CosyVoice 3
FireRedTTS-2
JA
そのため、単にラベルとして表記が追加されがちです。
IndexTTS 2.5
IndexTTS 2 N/A
CosyVoice 3
FireRedTTS-2
ES
A medida que el dominio del idioma griego fue decayendo, Occidente se distanció de sus raíces griegas tanto filosóficas como científicas.
IndexTTS 2.5
IndexTTS 2 N/A
CosyVoice 3
FireRedTTS-2