STC
智慧旅遊夥伴
Smart Travel Companion · 雄獅旅遊

Langfuse 觀測 — 從黑盒到全鏈路可見

可觀測性是優化的前提 · 沒有量測就沒有迭代

已啟用功能
這些是 STC 目前正在使用的 Langfuse 能力
🔍
全鏈路 Trace
每個 STC 入口都有 trace;不只意圖/時間解析,連 chat flow / 商品過濾 / 建議問題都納入。
LLM Generation 追蹤
每次 LLM 呼叫紀錄 model / latency / input / output / token 用量;可下鑽到 prompt 全文。
📝
Prompts 版本管理
Prompt 不再寫死在 .py 檔。Langfuse 上線版本控制,可線上熱更新、回滾、A/B 路由。
💬
Sessions 多輪對話
chat 流程的多個 trace 透過 sessionId 串連,可看「同一場對話」的完整脈絡。
🚧
計畫導入 · LLM Judge 評分系統 + 回測分析
下一波最值得做的能力 — 把 prompt 迭代從「憑感覺 push」變成「有量化指標」
① 從 Langfuse 抓一筆原始 trace
💬
↓ Langfuse trace 完整內容
② 丟給 Judge LLM 評分
⚖️
Gemini 3.1 Flash-Lite · LLM-as-Judge
待命中
意圖類型 intent 日期準確度 date destination 完整度 dest 整體合理性 overall
③ 輸出 Score JSON,寫回 Langfuse trace
④ 回測:同 query 跑舊 / 新 prompt 並排
prompt v1.2 · 舊
0.78
dest_score 0.65(拼成「大坂」)
vs
prompt v1.3 · 新
0.95
dest_score 1.00 ✓
🔬
進階待評估
尚未排期,但是 Langfuse 平台可提供的能力
🤖
LLM-as-Judge 自動評估
用 LLM 評每筆 trace 品質(0–1 分),建 dashboard 看品質趨勢、設 Slack alert 偵測解析準確率退化
✍️
Annotations 人工標記平台
ops / 非工程同事在 Langfuse UI 直接標 query 類型 / 錯誤類型,產出 training data 與 golden set 不用寫 code
📡
Webhooks 事件外送
trace 完成 / 失敗 / 高 latency 時自動 POST 到外部 endpoint(Slack 通知 / BI / 客服系統)
🚨
Alerts 異常告警
設條件(latency > 5s、error rate > 5%、token spike)超標自動發通知,不用人盯 dashboard
🔀
A/B Testing 路由
同 prompt 多版本按比例分流 traffic,並排比較準確率 / latency / 成本,決定哪版上 prod
📤
Bulk Export 資料匯出
trace / dataset 整批匯到 BigQuery / S3,做離線分析、訓練自家 model 或長期歸檔
👥
Multi-team Access Control
RBAC 不同團隊看自己 project(STC vs LiLi vs 其他),避免誤改 prompt 或洩漏跨組 trace
🎮
Playground 互動測試
Langfuse UI 直接測 prompt(input → output),不用接 production code 就能 iterate prompt 設計
LIVE
📊
stc-langfuse.liontravel.com · 線上實機
報告時直接切過去看實際 trace 細節、prompt 版本管理介面、latency 分布圖表。
點擊在新分頁開啟