Content Creator #speech-recognition #text-to-speech #voice-ai #asr #tts #tutorial #pemula

Speech Recognition dan Text-to-Speech: AI yang Bisa Mendengar dan Berbicara

Pelajari teknologi suara AI: Speech-to-Text (STT) dan Text-to-Speech (TTS). Dari Alexa dan Google Assistant sampai aplikasi transcription dan voice cloning.

AI Content Hub · 30 Maret 2026

Speech Recognition dan Text-to-Speech: AI yang Bisa Mendengar dan Berbicara

“Hey Google, what’s the weather today?” — dalam sekejap, AI memahami suaramu dan menjawab dengan suara manusiawi. Pernah bertanya-tanya bagaimana teknologi ini bekerja? Mari kita jelajahi dunia Speech AI: Speech Recognition (suara ke teks) dan Text-to-Speech (teks ke suara)! 🎙️

Speech Recognition (ASR): Suara → Teks

Automatic Speech Recognition (ASR) adalah teknologi yang mengubah ucapan manusia menjadi teks tertulis.

Cara Kerja ASR

Suara (Waveform)

Feature Extraction (MFCC, Spectrogram)

Acoustic Model (Phonemes)

Language Model (Kata-kata)

Teks Output

1. Audio Preprocessing

Suara direkam sebagai waveform, kemudian diubah menjadi representasi yang bisa diproses.

MFCC (Mel-Frequency Cepstral Coefficients):

import librosa

# Load audio
audio, sr = librosa.load('speech.wav')

# Extract MFCC
mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)

Spectrogram: Visualisasi frekuensi suara sepanjang waktu.

2. Acoustic Model

Mengubah suara menjadi unit fonetik terkecil (phonemes).

Contoh Phonemes:

3. Language Model

Menentukan urutan kata yang paling mungkin.

Contoh:

Acoustic model output: "reka nisi"
Language model: "recognize" lebih mungkin dari "reka nisi"
Final output: "recognize"

Model ASR Modern

Traditional: HMM + GMM

Deep Learning Era

RNN/LSTM:

CNN + Attention:

Transformer-Based:

Whisper oleh OpenAI

Model ASR state-of-the-art yang open source.

import whisper

# Load model
model = whisper.load_model("base")

# Transcribe
result = model.transcribe("audio.mp3")
print(result["text"])

Ukuran Model:

ModelParametersVRAMSpeedAccuracy
tiny39 M~1 GB~32xGood
base74 M~1 GB~16xBetter
small244 M~2 GB~6xStrong
medium769 M~5 GB~2xRobust
large1550 M~10 GB1xBest

Aplikasi Speech Recognition

🏠 Virtual Assistants

📝 Transcription Services

📞 Customer Service

🎮 Gaming

♿ Accessibility

Text-to-Speech (TTS): Teks → Suara

Text-to-Speech adalah teknologi yang mengubah teks tertulis menjadi ucapan manusiawi.

Evolusi TTS

1. Concatenative TTS (1970-2000)

Potong-potong rekaman suara manusia dan gabungkan.

"Hello" + "world" = "Hello world"

Kelebihan: Natural Kekurangan: Robotic, tidak fleksibel

2. Parametric TTS (2000-2015)

Model statistik (HMM) untuk generate suara.

Contoh: Festival TTS, eSpeak

Kelebihan: Fleksibel Kekurangan: Masih robotic

3. Neural TTS (2015-sekarang)

Deep learning untuk suara ultra-realistic.

Contoh: Google WaveNet, Amazon Polly, ElevenLabs

Arsitektur Neural TTS

Teks → Text Analysis → Linguistic Features

                    Acoustic Model

                    Spectrogram/Mel-spectrogram

                    Vocoder (Waveform)

                    Audio Output

1. Text Analysis

Normalisasi teks:

"12:30 PM" → "twelve thirty P M"
"2024" → "two thousand twenty four"
"Dr. Smith" → "Doctor Smith"

2. Acoustic Model

Generate spektrogram dari teks.

Tacotron 2:

3. Vocoder

Ubah spektrogram menjadi audio waveform.

WaveNet:

HiFi-GAN:

TTS Modern Populer

Google Cloud Text-to-Speech

from google.cloud import texttospeech

client = texttospeech.TextToSpeechClient()

synthesis_input = texttospeech.SynthesisInput(text="Hello, world!")

voice = texttospeech.VoiceSelectionParams(
    language_code="en-US",
    ssml_gender=texttospeech.SsmlVoiceGender.NEUTRAL
)

audio_config = texttospeech.AudioConfig(
    audio_encoding=texttospeech.AudioEncoding.MP3
)

response = client.synthesize_speech(
    input=synthesis_input, voice=voice, audio_config=audio_config
)

with open("output.mp3", "wb") as out:
    out.write(response.audio_content)

ElevenLabs (Voice Cloning)

Clone suara dengan beberapa menit sampel!

from elevenlabs import generate, play

audio = generate(
    text="Halo, ini suara yang di-clone oleh AI!",
    voice="Bella",  # Atau custom cloned voice
    model="eleven_multilingual_v2"
)

play(audio)

Coqui TTS (Open Source)

pip install TTS

# List available models
tts --list_models

# Generate speech
tts --text "Hello world" --model_name tts_models/en/ljspeech/tacotron2-DDC --out_path output.wav

Variasi dalam TTS

Multilingual TTS

Satu model untuk banyak bahasa:

Voice Styles

SSML (Speech Synthesis Markup Language)

Kontrol prosody dan emphasis:

<speak>
  Hello <break time="500ms"/>
  <emphasis level="strong">world</emphasis>!
  <prosody rate="slow" pitch="high">
    How are you?
  </prosody>
</speak>

End-to-End Speech AI Pipeline

Voice Assistant Lengkap

import speech_recognition as sr
import pyttsx3
import openai

# Initialize
recognizer = sr.Recognizer()
tts_engine = pyttsx3.init()

# 1. Speech Recognition
with sr.Microphone() as source:
    audio = recognizer.listen(source)
    text = recognizer.recognize_google(audio)

# 2. Process (LLM)
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[{"role": "user", "content": text}]
)
reply = response.choices[0].message.content

# 3. Text-to-Speech
tts_engine.say(reply)
tts_engine.runAndWait()

Tantangan dalam Speech AI

⚠️ Noise dan Environment

Suara background mengganggu recognition.

Solusi:

⚠️ Accent dan Dialect

Model sering dilatih dengan “standard accent”.

Solusi:

⚠️ Code-Switching

Campur bahasa dalam satu kalimat: “Let’s meeting di kantor jam 3 sore”

Solusi:

⚠️ Latency

Real-time processing butuh < 200ms latency.

Solusi:

⚠️ Privacy

Suara adalah biometric data yang sensitif.

Solusi:

Aplikasi Futuristik Speech AI

🔮 Real-Time Translation

Meta’s Universal Speech Translator:

🔮 Voice Cloning

Clone suara dengan 3 detik sampel:

🔮 Emotion-Aware TTS

Suara yang beradaptasi dengan konteks:

🔮 Silent Speech Interface

Baca pikiran dari muscle movements:

Tools dan Resources

Speech Recognition

ToolTypeHarga
Whisper (OpenAI)Open sourceFree
Google Speech-to-TextCloud APIPay-per-use
AWS TranscribeCloud APIPay-per-use
Azure Speech ServicesCloud APIPay-per-use
DeepSpeech (Mozilla)Open sourceFree

Text-to-Speech

ToolTypeHarga
Coqui TTSOpen sourceFree
ElevenLabsAPI/PlatformFreemium
Google Cloud TTSCloud APIPay-per-use
Amazon PollyCloud APIPay-per-use
Microsoft Azure TTSCloud APIPay-per-use

Kesimpulan

Speech AI telah mengubah cara kita berinteraksi dengan teknologi. Dari transkripsi otomatis sampai voice assistants yang natural — semua dimungkinkan oleh kemajuan deep learning.

Key takeaways:

  1. ASR: Suara → MFCC → Acoustic Model → Language Model → Teks
  2. TTS: Teks → Linguistic Features → Acoustic Model → Vocoder → Suara
  3. Model modern: Transformer-based (Whisper), Neural TTS (WaveNet, Tacotron)
  4. Aplikasi: Virtual assistants, transcription, accessibility, translation
  5. Tantangan: Noise, accent, latency, privacy

Next step: Coba Whisper untuk transkripsi audio, atau ElevenLabs untuk generate suara AI yang natural!


Sudah coba voice AI? Atau punya ide aplikasi keren dengan speech recognition? Share pengalamanmu!