Hooshgate Referenceراهنمای استقراراختصاصیبازبینی: 2026-04-25

استقرار realtime voice stack در production

این guide برای لحظه‌ای است که voice agent از demo عبور می‌کند و باید با latency بودجه‌بندی‌شده، barge-in، streaming، fallback، observability و policy ضبط صدا وارد production شود.

بهترین کاربرد

تیم‌هایی که voice assistant، call automation، spoken UI یا voice support را با کاربر واقعی اجرا می‌کنند و باید chain کامل STT → reasoning → tools/RAG → TTS را قابل اتکا کنند.

مسیر اجرا

managed-first with selective self-host

ملاحظه مهم

اگر هنوز conversational design، privacy policy، on-call owner یا fallback text channel ندارید، deployment صوتی real-time زود است.

دسترسی سریع

لایسنس

Realtime voice deployment playbook across managed and self-host stacks

پیچیدگی

latency-sensitive and ops-heavy

تسک‌ها

دستیار صوتی • تبدیل گفتار به متن • تبدیل متن به گفتار

مودالیته‌ها

صوت و گفتار • متن و چت • چندوجهی

پوشش واقعی

این صفحه چه packهایی را واقعاً پوشش می‌دهد؟

مرور مدل

کامل

این صفحه باید اول به‌عنوان مرجع شناخت، fit و boundary تصمیم‌گیری قابل اتکا باشد.

آموزش عملی

خلاصه روی همین صفحه

این pack روی این صفحه بیشتر در نقش سناریوی تصمیم‌یار و rollout path آمده است.

نصب و راه‌اندازی

خلاصه روی همین صفحه

این صفحه setup را به‌اندازه لازم پوشش می‌دهد، نه به‌عنوان playbook کامل.

serving و runtime

کامل

runtime و serving path در این نوع صفحه بخش اصلی decision surface است.

پیاده‌سازی

خلاصه روی همین صفحه

روی family page فقط patternها و بلوک‌های معماری اصلی برای انتخاب سریع آمده است.

سازگارسازی

تعریف نشده

fine-tuning در این نوع صفحه محور اصلی نیست.

استقرار

کامل

deployment و ops اینجا عمق بیشتری نسبت به family page دارد.

مقایسه

خلاصه روی همین صفحه

مقایسه در این نوع صفحه برای ایجاد context آمده، نه به‌عنوان matrix کامل.

ارزیابی

کامل

بدون eval و quality gate این hub نباید overclaim کند؛ بنابراین checklist ارزیابی روی صفحه آمده است.

منابع رسمی

کامل

منابع رسمی و مسیر مطالعه بیشتر باید روی هر صفحه کامل و شفاف باشد.

قرارداد راهنما

این راهنما دقیقاً برای چه چیزی است و بعد از آن به کجا می‌رویم؟

بهترین کاربرد

تیم‌هایی که voice assistant، call automation، spoken UI یا voice support را با کاربر واقعی اجرا می‌کنند و باید chain کامل STT → reasoning → tools/RAG → TTS را قابل اتکا کنند.

مناسب نیست برای

اگر هنوز conversational design، privacy policy، on-call owner یا fallback text channel ندارید، deployment صوتی real-time زود است.

پیش‌نیازها

تعریف دقیق سناریوی مکالمه و fallback، audio permission و device matrix برای browser/mobile، privacy و recording policy، owner برای on-call، incident و cost

خروجی مورد انتظار

یک deployment checklist با latency budget، fallback modes، privacy policy و runbook incident صوتی

مرحله 1 تا 3

اگر فقط بخواهید با حداقل ابهام شروع کنید، از این سه گام جلو بروید.

مرحله 1

transport را با محیط واقعی انتخاب کنید: WebRTC برای مرورگر، WebSocket یا SIP برای server/call flow.

مرحله 2

برای هر turn، latency budget capture → STT → reasoning → tools/RAG → TTS → playback بنویسید.

مرحله 3

fallback modes را پیاده کنید: text fallback، retry کوتاه، human handoff یا async follow-up.

گام‌های بعدی پیشنهادی

  • اگر هنوز implementation chain را طراحی نکرده‌اید، voice-agent-stack را اول باز کنید.
  • برای backend و cost guardrail، API-first setup را کنار این guide بخوانید.
  • اگر self-host بخشی از chain در scope است، serving-stack-comparison و self-host-llm-production را مرور کنید.

یادداشت‌های عملیاتی

  • internal device matrix با شبکه واقعی
  • limited beta با fallback text و human handoff
  • production rollout با session replay محدود و privacy-aware
  • provider/model/pricing را manual verify کنید؛ auto sync هنوز فرض نشود.

سخت‌افزار / cost / runtime

  • managed realtime API برای شروع
  • self-host STT/TTS فقط با owner و benchmark
  • real browser/mobile devices برای QA
  • managed API و client audio device

مرور راهنما

این راهنما چه مسیری را روشن می‌کند؟

Realtime voice فقط ترکیب STT و TTS نیست. تجربه کاربر از مجموع capture، VAD، transcription، reasoning، tools، retrieval، synthesis، playback و interruption ساخته می‌شود.

برای deployment، اول باید تصمیم بگیرید speech-to-speech managed session می‌خواهید یا chain صریح STT → reasoning/orchestration → tools/RAG → TTS. هر دو مسیر مزیت دارند اما observability و control متفاوت می‌دهند.

در production، barge-in، fallback و recording policy به اندازه model quality مهم‌اند. صدای خراب یا قطع‌شدن turn اعتماد کاربر را سریع‌تر از یک پاسخ متنی ضعیف از بین می‌برد.

نقاط قوت

  • معماری کامل realtime voice از audio permission تا on-call
  • بودجه latency، streaming، barge-in و fallback به شکل عملیاتی
  • مقایسه managed و self-host/local بدون ادعای ساده‌بودن self-host voice

محدودیت‌ها

  • این صفحه SDK یک vendor خاص را جایگزین نمی‌کند.
  • self-host کامل voice برای بیشتر تیم‌ها با latency و ops سخت همراه است.
  • کیفیت مکالمه بدون طراحی مکالمه و تست کاربر واقعی قابل تضمین نیست.

تفاوت کلیدی

سه نکته‌ای که این خانواده را از گزینه‌های هم‌رده جدا می‌کند.

نکته 1

در برابر voice-agent-stack، این صفحه روی rollout و operations تمرکز دارد نه فقط implementation.

نکته 2

در برابر API-first setup، اینجا audio transport و realtime UX بخش اصلی تصمیم است.

نکته 3

در برابر self-host LLM production، اینجا latency صوتی، permission و recording policy اضافه می‌شود.

برای چه مناسب است

  • تیم‌هایی که voice assistant، call automation، spoken UI یا voice support را با کاربر واقعی اجرا می‌کنند و باید chain کامل STT → reasoning → tools/RAG → TTS را قابل اتکا کنند.
  • managed speech-to-speech وقتی مناسب است که natural UX و latency کم اولویت دارند.
  • chained pipeline وقتی مناسب است که transcript، approval، tools و observability کنترل‌شده می‌خواهید.
  • selective self-host وقتی مناسب است که privacy یا cost یک جزء chain واقعاً justify شده باشد.

برای چه مناسب نیست

  • اگر هنوز conversational design، privacy policy، on-call owner یا fallback text channel ندارید، deployment صوتی real-time زود است.
  • اگر هنوز UX مکالمه و fallback را تعریف نکرده‌اید، stack انتخابی مسئله را حل نمی‌کند.
  • اگر on-call owner ندارید، voice production به‌سرعت به incidentهای مبهم تبدیل می‌شود.
  • اگر consent و recording policy ندارید، حتی demo موفق هم آماده rollout نیست.

آموزش عملی

از voice demo به rollout قابل اتکا

یک voice agent برای پشتیبانی مشتری یا spoken UI باید برای کاربران محدود production شود.

مرحله 1

architecture را انتخاب کنید: speech-to-speech managed session یا chain صریح STT، orchestration و TTS.

مرحله 2

latency budget را برای capture، STT، reasoning، tool/RAG، TTS و playback جدا بنویسید.

مرحله 3

barge-in، cancellation و fallback به text یا human handoff را قبل از launch تست کنید.

مرحله 4

observability را بر اساس turn، audio event، tool call و recording policy بسازید.

نمونه ورودی

تماس یا session مرور محصول که کاربر وسط پاسخ bot حرف می‌زند و نیاز به lookup داخلی دارد

خروجی مورد انتظار

یک deployment checklist با latency budget، fallback modes، privacy policy و runbook incident صوتی

خطاهای رایج

اشتباه‌هایی که معمولاً باعث می‌شوند pilot یا implementation شکست بخورد.

نکته 1

اگر فقط average latency را ببینید، turnهای کند و barge-in خراب از چشم پنهان می‌مانند.

نکته 2

اگر permission و recording policy را بعد از frontend بسازید، rollout موبایل و مرورگر دردناک می‌شود.

راهنمای نصب

پیش‌نیازهای deployment realtime voice

managed speech-to-speech

برای چه مناسب است

مکالمه طبیعی، latency کم و تیمی که transport و audio model را نمی‌خواهد خودش بسازد

کجا مناسب نیست

وقتی control کامل روی transcript intermediate یا self-host اجباری است

مسیر شروع

  • ephemeral token و session lifecycle را در backend بسازید.
  • browser/mobile transport را روی دستگاه واقعی تست کنید.
  • tool calls، interruption و handoff را trace کنید.

نمونه دستور

Create a short-lived realtime session token on the server

trade-off

latency بهترcontrol کمتر روی مراحل میانیvendor dependency

chained STT → LLM/tools → TTS

برای چه مناسب است

workflowهای قابل کنترل، transcript durable و reuse از text agent موجود

کجا مناسب نیست

وقتی هدف اصلی مکالمه طبیعی و کمترین latency ممکن است

مسیر شروع

  • STT streaming را به orchestration وصل کنید.
  • tool/RAG را با cancellation و timeout طراحی کنید.
  • TTS streaming و playback buffer را تست کنید.

نمونه دستور

Stream partial transcripts, but commit only validated turns

trade-off

observability بیشترlatency chain طولانی‌ترcontrol بهتر

selective self-host/local

برای چه مناسب است

privacy boundary، offline edge یا call center با constraint خاص

کجا مناسب نیست

تیم بدون audio infra، GPU ops یا realtime monitoring

مسیر شروع

  • فقط یک جزء مثل STT یا TTS را self-host کنید.
  • latency و quality را با managed baseline مقایسه کنید.
  • fallback managed یا text channel را نگه دارید.

نمونه دستور

Keep a managed fallback while validating self-host STT/TTS

trade-off

privacy/controlops سخت‌ترquality و latency متغیر

پیش‌نیازها

  • تعریف دقیق سناریوی مکالمه و fallback
  • audio permission و device matrix برای browser/mobile
  • privacy و recording policy
  • owner برای on-call، incident و cost

محیط‌ها

  • browser WebRTC
  • mobile audio session
  • server WebSocket
  • SIP/call center
  • self-host STT/TTS

نکته‌های مهم

  • voice rollout را با real device و network تست کنید؛ localhost latency شما را فریب می‌دهد.
  • برای تماس یا مکالمه حساس، consent و policy را در UX و backend همزمان ببندید.

مرحله 1

transport را با محیط واقعی انتخاب کنید: WebRTC برای مرورگر، WebSocket یا SIP برای server/call flow.

مرحله 2

برای هر turn، latency budget capture → STT → reasoning → tools/RAG → TTS → playback بنویسید.

مرحله 3

fallback modes را پیاده کنید: text fallback، retry کوتاه، human handoff یا async follow-up.

مرحله 4

policy ضبط، retention، consent و PII masking را قبل از ذخیره transcript یا audio روشن کنید.

فلو راه‌اندازی

یک نگاه سریع برای اینکه pilot را مرحله‌به‌مرحله جلو ببرید.

بلوک 1

transport را با محیط واقعی انتخاب کنید: WebRTC برای مرورگر، WebSocket یا SIP برای server/call flow.

بلوک 2

برای هر turn، latency budget capture → STT → reasoning → tools/RAG → TTS → playback بنویسید.

بلوک 3

fallback modes را پیاده کنید: text fallback، retry کوتاه، human handoff یا async follow-up.

بلوک 4

policy ضبط، retention، consent و PII masking را قبل از ذخیره transcript یا audio روشن کنید.

نمونه دستورها

Use ephemeral client tokens for browser realtime sessions
Log turn_id, audio_event_id, tool_call_id and fallback_reason for every session

serving و runtime

runtime و latency budget برای voice

برای voice، p95 turn latency و interruption quality از average response time مهم‌تر است.

اگر ابزار یا RAG دارید، timeout و partial response strategy را از ابتدا طراحی کنید.

هر جزء chain باید fallback داشته باشد؛ مخصوصاً STT، reasoning، tool call و TTS.

speech-to-speech realtime session

کجا مناسب است

  • مکالمه طبیعی و low-latency spoken interface
  • natural UX
  • control کمتر

کجا مناسب نیست

  • نیاز به transcript intermediate قابل کنترل در هر گام

مسیر شروع

گام 1

session token کوتاه‌مدت بسازید.

گام 2

WebRTC یا transport مناسب را انتخاب کنید.

گام 3

interruptions، tools و history را trace کنید.

hardware / fit

  • managed API و client audio device

latency و cost

latency کمتر است اما pricing، retention و debugging به provider contract وابسته می‌ماند.

explicit chained pipeline

کجا مناسب است

  • پشتیبانی، approval-heavy flows و workflowهای دارای transcript و policy
  • observability بهتر
  • latency بیشتر

کجا مناسب نیست

  • مکالمه آزاد با کمترین latency ممکن

مسیر شروع

گام 1

STT partial و final transcript را جدا کنید.

گام 2

orchestrator را با tool timeout و cancellation بسازید.

گام 3

TTS streaming و fallback text را اضافه کنید.

hardware / fit

  • managed APIs یا ترکیبی از self-host و API

latency و cost

latency جمع جزءهاست؛ هر بهینه‌سازی کوچک در STT، tools یا TTS روی تجربه نهایی اثر دارد.

hybrid managed/self-host

کجا مناسب است

  • حریم خصوصی، cost control یا نیاز خاص در یک جزء chain
  • کنترل انتخابی
  • routing پیچیده‌تر

کجا مناسب نیست

  • تیمی که هنوز baseline managed را تست نکرده است

مسیر شروع

گام 1

یک جزء را self-host کنید، نه کل stack را.

گام 2

managed fallback را حفظ کنید.

گام 3

quality و latency را per component ثبت کنید.

hardware / fit

  • GPU/CPU مناسب برای STT/TTS و managed fallback

latency و cost

hybrid می‌تواند economics یا privacy را بهتر کند، اما complexity routing و incident را بالا می‌برد.

پیاده‌سازی

معماری deployment realtime voice

الگوهای مناسب

  • voice assistant
  • call automation
  • spoken UI
  • voice RAG

معماری پیشنهادی

  • client audio capture و permission باید قبل از session creation معتبر شود.
  • audio stream وارد STT یا realtime session می‌شود و turn state با id قابل trace نگه داشته می‌شود.
  • reasoning/orchestration باید tool/RAG timeout، cancellation و fallback را مدیریت کند.
  • TTS و playback باید streaming، barge-in و device interruptions را پشتیبانی کند.

پایش و observability

  • first audio response latency
  • barge-in success rate
  • fallback reason
  • tool/RAG timeout
  • audio permission failures

بلوک معماری پیشنهادی

برای طراحی backend، RAG یا agent workflow از این ترتیب شروع کنید.

بلوک 1

client audio capture و permission باید قبل از session creation معتبر شود.

بلوک 2

audio stream وارد STT یا realtime session می‌شود و turn state با id قابل trace نگه داشته می‌شود.

بلوک 3

reasoning/orchestration باید tool/RAG timeout، cancellation و fallback را مدیریت کند.

بلوک 4

TTS و playback باید streaming، barge-in و device interruptions را پشتیبانی کند.

browser voice track

web app و assistant داخل محصول

flow

  • permission و device check انجام می‌شود.
  • server token کوتاه‌مدت صادر می‌کند.
  • session با WebRTC/Realtime بالا می‌آید و events trace می‌شوند.

guardrail

  • ephemeral token
  • device fallback
  • consent UX

metric

  • permission denial rate
  • connection failures
  • first response latency

call automation track

پشتیبانی تلفنی، call center و SIP flow

flow

  • call وارد SIP/telephony gateway می‌شود.
  • voice agent با handoff و recording policy اجرا می‌شود.
  • transcript و disposition بعد از call ذخیره یا حذف می‌شود.

guardrail

  • consent prompt
  • human handoff
  • recording retention

metric

  • handoff rate
  • call completion
  • silence/timeout incidents

voice RAG track

assistant صوتی متصل به دانش داخلی

flow

  • transcript final وارد retrieval می‌شود.
  • tool/RAG با timeout کوتاه اجرا می‌شود.
  • پاسخ TTS با citation یا fallback خلاصه می‌شود.

guardrail

  • source-aware answer
  • tool timeout
  • text fallback

metric

  • retrieval latency
  • citation coverage
  • fallback rate

استقرار

deployment checklist

stackهای مناسب

  • realtime session service یا chained voice backend
  • tool/RAG orchestration با timeout و cancellation
  • audio storage/transcript policy
  • fallback text یا human handoff

سخت‌افزار / اجرا

  • managed realtime API برای شروع
  • self-host STT/TTS فقط با owner و benchmark
  • real browser/mobile devices برای QA

caveatهای production

  • browser/mobile permission، echo cancellation و network variability را قبل از rollout تست کنید.
  • recording، retention، consent و PII policy باید در UX، backend و admin قابل مشاهده باشد.

یادداشت latency و cost

latency budget را per component ببینید: capture، VAD/STT، reasoning، tools/RAG، TTS و playback. cost نیز باید per successful conversation سنجیده شود.

عملیات production

on-call reality برای voice

فازهای rollout

  • internal device matrix با شبکه واقعی
  • limited beta با fallback text و human handoff
  • production rollout با session replay محدود و privacy-aware

امنیت و policy

  • audio و transcript retention policy را explicit کنید.
  • PII masking و redaction را قبل از analytics اجرا کنید.
  • ephemeral token و least-privilege tool access را enforce کنید.

observability و review

  • turn latency p50/p95
  • barge-in و interruption failures
  • STT confidence و correction rate
  • tool timeout و fallback reason

maintenance و trade-off

  • provider/model/pricing را manual verify کنید؛ auto sync هنوز فرض نشود.
  • prompt، voice، STT/TTS model و routing policy را version کنید.
  • incident runbook برای silence، delayed TTS، tool timeout و permission failures داشته باشید.

ریسک‌های رایج

چیزهایی که معمولاً pilot یا rollout را خراب می‌کنند

pitfallهای اصلی

این نکته‌ها معمولاً همان جاهایی هستند که تیم‌ها قبل از رسیدن به value عملی زمین می‌خورند.

نکته 1

voice demoها روی لپ‌تاپ و اینترنت خوب گمراه‌کننده‌اند؛ موبایل و شبکه واقعی را زود تست کنید.

نکته 2

اگر tool/RAG timeout نداشته باشید، کاربر سکوت یا تأخیر را به بی‌اعتمادی تعبیر می‌کند.

نکته 3

اگر recording policy مبهم باشد، deployment صوتی از نظر اعتماد و compliance شکننده می‌شود.

مقایسه

managed، chained یا self-host؟

وقتی این مسیر انتخاب خوبی است

  • managed speech-to-speech وقتی مناسب است که natural UX و latency کم اولویت دارند.
  • chained pipeline وقتی مناسب است که transcript، approval، tools و observability کنترل‌شده می‌خواهید.
  • selective self-host وقتی مناسب است که privacy یا cost یک جزء chain واقعاً justify شده باشد.

وقتی باید مسیر دیگری را انتخاب کرد

  • اگر هنوز UX مکالمه و fallback را تعریف نکرده‌اید، stack انتخابی مسئله را حل نمی‌کند.
  • اگر on-call owner ندارید، voice production به‌سرعت به incidentهای مبهم تبدیل می‌شود.
  • اگر consent و recording policy ندارید، حتی demo موفق هم آماده rollout نیست.

نقشه تصمیم

اگر هنوز بین این خانواده و گزینه‌های رقیب مردد هستید، از این trade-off path شروع کنید.

بلوک 1

تیم‌هایی که voice assistant، call automation، spoken UI یا voice support را با کاربر واقعی اجرا می‌کنند و باید chain کامل STT → reasoning → tools/RAG → TTS را قابل اتکا کنند.

بلوک 2

managed-first with selective self-host

بلوک 3

اگر هنوز conversational design، privacy policy، on-call owner یا fallback text channel ندارید، deployment صوتی real-time زود است.

پیاده‌سازی voice stack و voice agent

چه زمانی استقرار realtime voice stack در production بهتر است

برای deployment، on-call و rollout production عمیق‌تر است.

چه زمانی گزینه مقابل بهتر است

اگر هنوز architecture و implementation voice agent را نمی‌دانید، اول implementation guide را بخوانید.

راه‌اندازی API-first برای مدل‌های تجاری

چه زمانی استقرار realtime voice stack در production بهتر است

برای realtime audio و deployment مخصوص voice بهتر است.

چه زمانی گزینه مقابل بهتر است

اگر هنوز backend adapter، schema و cost guardrail API را ندارید، API-first guide مقدم است.

راه‌اندازی self-host برای LLM در production

چه زمانی استقرار realtime voice stack در production بهتر است

برای voice-specific latency، permission و recording policy ضروری‌تر است.

چه زمانی گزینه مقابل بهتر است

اگر تمرکز شما self-host LLM core است، self-host guide عمومی عمیق‌تر است.

ارزیابی

Checklist پیش از production voice

مرحله 1

p95 latency کل turn و latency هر component ثبت شده است.

مرحله 2

barge-in، cancellation و silence timeout روی device واقعی تست شده است.

مرحله 3

fallback text، retry و human handoff فعال است.

مرحله 4

recording، consent، retention و PII policy در UX و backend روشن است.

مرحله 5

observability برای turn، tool call، transcript، TTS و fallback reason وجود دارد.

منابع رسمی

منابع رسمی و مسیر مطالعه بیشتر