Langfuse 觀測 — 從黑盒到全鏈路可見

可觀測性是優化的前提 · 沒有量測就沒有迭代

✅

已啟用功能

這些是 STC 目前正在使用的 Langfuse 能力

🔍

全鏈路 Trace

每個 STC 入口都有 trace；不只意圖/時間解析，連 chat flow / 商品過濾 / 建議問題都納入。

⚡

LLM Generation 追蹤

每次 LLM 呼叫紀錄 model / latency / input / output / token 用量；可下鑽到 prompt 全文。

📝

Prompts 版本管理

Prompt 不再寫死在 .py 檔。Langfuse 上線版本控制，可線上熱更新、回滾、A/B 路由。

💬

Sessions 多輪對話

chat 流程的多個 trace 透過 sessionId 串連，可看「同一場對話」的完整脈絡。

🚧

計畫導入 · LLM Judge 評分系統 + 回測分析

下一波最值得做的能力 — 把 prompt 迭代從「憑感覺 push」變成「有量化指標」

① 從 Langfuse 抓一筆原始 trace

💬 ▍

↓ Langfuse trace 完整內容

▼

② 丟給 Judge LLM 評分

⚖️

Gemini 3.1 Flash-Lite · LLM-as-Judge

待命中

意圖類型 intent 日期準確度 date destination 完整度 dest 整體合理性 overall

▼

③ 輸出 Score JSON，寫回 Langfuse trace

▼

④ 回測：同 query 跑舊 / 新 prompt 並排

prompt v1.2 · 舊

0.78

dest_score 0.65（拼成「大坂」）

prompt v1.3 · 新

0.95

dest_score 1.00 ✓

🔬

進階待評估

尚未排期，但是 Langfuse 平台可提供的能力

🤖

LLM-as-Judge 自動評估

用 LLM 評每筆 trace 品質（0–1 分），建 dashboard 看品質趨勢、設 Slack alert 偵測解析準確率退化

✍️

Annotations 人工標記平台

ops / 非工程同事在 Langfuse UI 直接標 query 類型 / 錯誤類型，產出 training data 與 golden set 不用寫 code

📡

Webhooks 事件外送

trace 完成 / 失敗 / 高 latency 時自動 POST 到外部 endpoint（Slack 通知 / BI / 客服系統）

🚨

Alerts 異常告警

設條件（latency > 5s、error rate > 5%、token spike）超標自動發通知，不用人盯 dashboard

🔀

A/B Testing 路由

同 prompt 多版本按比例分流 traffic，並排比較準確率 / latency / 成本，決定哪版上 prod

📤

Bulk Export 資料匯出

trace / dataset 整批匯到 BigQuery / S3，做離線分析、訓練自家 model 或長期歸檔

👥

Multi-team Access Control

RBAC 不同團隊看自己 project（STC vs LiLi vs 其他），避免誤改 prompt 或洩漏跨組 trace

🎮

Playground 互動測試

Langfuse UI 直接測 prompt（input → output），不用接 production code 就能 iterate prompt 設計

LIVE

📊

stc-langfuse.liontravel.com · 線上實機

報告時直接切過去看實際 trace 細節、prompt 版本管理介面、latency 分布圖表。

點擊在新分頁開啟

↗