起點:我只是想讓 Discord Bot 回傳截圖
這個專案的起源很單純:我想在 Discord 上搜尋 Ave Mujica 動畫的字幕截圖。 輸入一句台詞,bot 回傳那個畫面。就這樣。
當時沒什麼全端經驗,但想累積,所以就硬做了。結果誤打誤撞做出三個獨立的專案:
AveMujicaBot/
├── ave-mujica-subtitle-extractor/ # Python
├── ave-mujica-api/ # Node.js + Express
└── Ave-Mujica-Bot/ # Discord.js
舊版架構是這樣運作的
Extractor:下載 YouTube 影片,每 8 幀跑一次 OCR,截圖存成 PNG,字幕存成 JSON。
API:讀 JSON 檔案,做模糊搜尋,serve PNG 圖片。IP 寫死 192.168.1.111:3000。
Bot:呼叫 API,把結果送進 Discord。裡面裝了 Vue.js 和 Pinia。 (對,一個 Discord bot 裡有前端框架,因為我當時覺得狀態管理需要 Pinia。)
實際長什麼樣
subtitles.json 每一筆長這樣:
{
"text": "下次武道館演出時",
"frame": 7032,
"seconds": 293.0,
"timestamp": "00:04:53",
"image_path": "frames/ep01_frame_007032.png",
"confidence": 0.89,
"episode": 1
}
Bot 指令只有四個:/關鍵字查詢、/查詢所有、/info、/help。搜尋結果有分頁,可以跳頁。
三個專案各自有 package.json 或 requirements.txt(extractor 連 requirements.txt 都沒有),部署要手動開三個 terminal,IP 換了就整個壞掉。
這不是架構,這是意外的產物。
舊版的思路:不知道有別的方法
「要顯示截圖」→「那就把截圖存起來」。這是我當時唯一想得到的方法,不是因為這樣最好,而是因為我不知道有別的方法。
更誇張的是,那時候在 Windows 上開發。Python + EasyOCR + ffmpeg 在 Windows 上是地獄難度。我也不知道當時怎麼撐過的。
上線之後,用起來感覺怪怪的,很不方便。但我當時能想到的解法只有一個:
搬上雲端。 把圖片存 S3,API 搬 EC2,這樣應該就好了吧?
還好我沒有真的去實作。
某天打開資料夾,看了五秒,關掉
決定重寫。不是因為要加功能,而是「我看不下去了」。
重寫目標很簡單:
- 不要三個獨立專案
- 一個指令能啟動
- 參數不要 hardcode
但架構怎麼設計,還沒想清楚。
架構決定 1:為什麼要存圖片?
重寫時,第一個計畫還是把 PNG 存進 Supabase Storage。畢竟舊版就是這樣做的。
然後我開始估算儲存需求:
| 項目 | 估算 |
|---|---|
| 每集字幕數 | ~400 筆 |
| 13 集總計 | ~5,200 筆 |
| 每張 PNG(1080p) | ~800 KB |
| 總儲存需求 | ~4 GB |
Supabase 免費方案是 1 GB。改 JPEG 壓到 200 KB,5,200 張 = 1 GB,壓線,不舒服。
然後我問自己一個問題:我為什麼要存圖片?
因為 API 要回傳截圖給 bot。截圖從哪裡來?從影片的某一幀。影片我已經有了,放在 videos/ 裡,13 集加起來約 1.3 GB。
舊版
影片 → 提前截圖 → 全部存起來 → API 回傳存好的圖
新版
影片 → API 接到請求時再截
影片本來就在,為什麼要多存一份?
# 用 ffmpeg 直接從影片截一幀,不需要預存 PNG
ffmpeg.input(video_path, ss=seconds).output("pipe:", vframes=1, vcodec="png")
這一個念頭砍掉了整個圖片儲存層。
架構決定 2:GIF 也一樣
加 GIF 功能的時候,我的第一反應還是老思路: 「那我要把每個字幕從開始到結束的所有幀都存下來?」
算一下:3 秒片段 × 10fps = 30 幀,5,200 筆 × 30 張 × 1 MB = 156 GB。不行。
退一步想:GIF 是什麼?是一段影片片段的重複播放。我需要的東西全都已經有了:
- 影片檔案(已經有了)
- 開始時間(OCR 掃出來的)
- 結束時間(下一句字幕出現的時間)
不需要預先把 GIF 生成並存起來。
# 需要 GIF 的時候,直接從影片切
ffmpeg.input(video_path, ss=start_seconds, t=duration)
.filter("fps", 10)
.filter("scale", 640, -1)
.output("pipe:", format="gif")
所以資料庫裡只需要:文字 + 開始時間 + 結束時間 + 影片路徑。
CREATE TABLE subtitles (
id TEXT PRIMARY KEY,
episode_id TEXT,
timestamp TEXT, -- "00:01:23"
seconds REAL, -- 83.0
end_seconds REAL, -- 86.4
text TEXT,
video_path TEXT, -- "videos/ep01.mp4"
confidence REAL
);
架構決定 3:SQLite 先頂著,Supabase 之後再說
設定 Supabase 需要時間,我不想現在花在這上面。
這時候我問了 Agent,它告訴我一個我不知道的選項:SQLite 可以先頂著用,schema 跟之後的 Supabase 幾乎一樣,切換只是改一個 flag。
這是一個我當時不知道存在的選項。知道之後是顯而易見的決定。
# 現在,本地 SQLite
python -m extractor.cli process-all --backend sqlite
# 之後,改一個 flag
python -m extractor.cli process-all --backend supabase
這個決定讓我把整個 extraction 當天就跑起來,而不是卡在 Supabase 環境設定。
轉折點:盯著 DB 看的那一刻
真正讓我確定「只存時間軸」這個念頭的,是跑 OCR 的時候盯著輸出的資料看:
episode_id | timestamp | text | seconds | end_seconds
01 | 00:00:21 | 來吧,甦醒之夜到來了 | 21.0 | 24.0
01 | 00:00:24 | 需不需要我把她叫醒? | 24.0 | 26.4
就這樣。這幾個欄位就是全部了。
截圖和 GIF 用這幾個數字就能現場生成,不需要預存任何媒體檔案。
Agent 在這個過程中的角色
全程都有 AI Agent 參與,但我想說清楚它做了什麼、沒做什麼。
我做的
- 「只存時間軸」的念頭(盯著 DB 自己想到的)
- 架構方向的判斷(存不存圖、GIF 怎麼做)
- 要不要繼續做、怎麼做的決定
Agent 做的
- 填補知識盲區(SQLite 可以當過渡方案)
- 驗證方向(有沒有我沒想到的?)
- 加速實作(想法當天就能跑)
這幾個專案下來,我對 AI 工具的使用方式是:大方向是我的,Agent 負責驗證、實作、補盲區。
前提是你得先有判斷力,知道方向對不對。這個判斷力,是從舊版那三個爛攤子裡長出來的。
新版架構
不預存任何媒體。不需要 S3 或 Supabase Storage。影片留著,需要什麼讓 ffmpeg 現場生成。
心態轉變的核心
舊版的邏輯:盡量預先存好所有東西,之後才快。
新版的邏輯:只存最小的原始資料,其他的需要時再算。
兩者的差別不是技術能力,而是對「成本」的定義不同。
舊版把「運算成本」當作最貴的東西,所以盡量預算; 新版發現「儲存成本」和「複雜度成本」其實更貴——你要一直維護它、備份它、遷移它、出錯了要除錯它。
ffmpeg 生成一張截圖需要 50ms。 但維護一個 4 GB 的圖片資料夾帶來的同步問題、版本問題、備份問題,代價遠不止 50ms。
還好我沒有把「搬雲端」那個版本做出來。
現在的樣子
Discord Bot 最後沒有重寫——整個換掉了。
與其繼續維護一個 Bot,不如做一個網頁。搜尋、截圖、GIF,瀏覽器就能跑,不需要 Discord 帳號,不需要把 Bot 請進伺服器。
最後長出來的是 雞狗查圖——一個用 Next.js 寫的字幕截圖搜尋網站。
技術棧最後定在這裡:
- Extractor:Python、EasyOCR、yt-dlp、SQLite
- Web:Next.js、better-sqlite3、ffmpeg、LRU cache、shadcn/ui
兩個意外決定:
DB 直接進版本控管。 Clone 完就能搜尋,不需要先跑 OCR。影片準備好才有截圖和 GIF——邊界很清楚。
多系列不是設計出來的。 Schema 設計的時候沒特別為這個設計,但因為資料夾結構和 DB 都是按系列隔離的,加 MyGO!!!!! 只是加一個資料夾。
Supabase 遷移最後沒做。SQLite 放在 repo 裡的方案,目前夠用。
- [✓]API 層(SQLite → HTTP endpoints + ffmpeg on-demand)
- [✓]Web UI 取代 Discord Bot(Next.js + shadcn/ui)
- [✓]GIF / 搜尋結果 LRU cache
- [✓]部署上線
- [ ]Supabase 遷移
部署:原本以為是最輕鬆的一步
計畫
計畫是:家裡的機器跑 Docker,前面掛 nginx 反向代理,再用 Cloudflare Tunnel 把流量引進來。先寫好了 setup-nginx.sh、setup-gateway.sh、update.sh 三個腳本,把步驟都包好。
nginx 根本不需要
開始做之後才發現,nginx 那一層完全是多餘的。
nginx 的價值在於:你有多個 service 要統一入口、要做 SSL termination、要 rate limiting、要 load balance——一套完整的 lab 架構才需要它。單一服務搭 CF Tunnel,cloudflared 本身就是 reverse proxy,從 Cloudflare 的 edge 把流量引進來,直接打到你指定的 service。中間不需要任何東西。
三個腳本和 nginx-gateway.conf 全部刪掉。
tunnel:
image: cloudflare/cloudflared:latest
command: tunnel --no-autoupdate run
environment:
- TUNNEL_TOKEN=${CLOUDFLARE_TUNNEL_TOKEN}
depends_on:
- web
踩的坑
CF dashboard 設錯 service URL。
CF dashboard 裡把 service 填成 https://localhost:3000。錯的。那個 localhost 是 tunnel container 自己的本機,不是隔壁的 web container。應該填 http://web:3000——Docker Compose 同一個 network 裡的 service 用名字直接連。
Token 在終端機裡被截斷。
CF Tunnel token 是 base64 JSON,格式是 eyJ...。貼進終端機的時候,指令被截斷,開頭的 e 不見了,變成 yJ...。cloudflared 一直回 Provided Tunnel token is not valid,反覆除錯才發現差一個字元。
.env key 名稱也壞掉了。
同樣的截斷問題,CLOUDFLARE_TUNNEL_TOKEN 變成 UDFLARE_TUNNEL_TOKEN,少了 CLO。Docker Compose 讀不到,tunnel 拿不到 token,繼續報錯。
不想直接暴露 SSH。
家裡的網路技術上可以從外部 SSH 進來,但我不想這樣做——打開 inbound port 讓 SSH 暴露在外面,麻煩的事情太多。CF Tunnel 的方向(container 主動連出去找 Cloudflare,不需要 inbound)更乾淨,沒有 public SSH port,也不需要管防火牆規則。
結果
三個腳本、一個 nginx config、無數次 docker compose down 之後,上線了。
做完這些之後才懂 Vercel 為什麼偉大
部署完之後,我才真正理解 Vercel 在做什麼。
今天手動做的事:tar 打包、scp 傳檔、SSH 進去、寫 .env、docker compose up、設 CF Tunnel、改 dashboard、除錯 token 截斷——這些事情在 Vercel 上不存在。push to main,等兩分鐘,上線。
代價是:只能跑 serverless。沒有 ffmpeg,沒有 persistent storage,沒有 SQLite。所以這個專案沒辦法用 Vercel,得自己跑。
「跑起來」和「好維護」是兩件不同的事。現在是跑起來了,但每次更新還是要手動 SSH 進去。下一步想探索的是 CI/CD——push 觸發自動部署,不用再摸伺服器。但那是下一個專案的事了。
上線後:繼續踩坑
Path traversal
上線後對自己的 API 打了安全測試。SQL injection 都擋住了,better-sqlite3 parameterized queries 本來就保護。
但 series 參數沒驗證就進了 path.join()——path traversal 有效。
if (!available.includes(series)) {
return NextResponse.json({ error: "invalid series" }, { status: 400 });
}
白名單比對,兩行關掉。自己寫的東西要自己打一遍。
UX 迭代
能搜尋不等於好用。上線後做了幾輪調整:
- 16:9 card:截圖本來就是 16:9,card 也改成純圖片,文字移到 hover overlay
- Skeleton + fade in:圖片載入前顯示 skeleton,載好後 fade in,overlay 等圖片載好再渲染
- 400ms debounce:每打一個字就打 API 太暴力
- 手機單欄:兩欄在手機上太擠,改單欄往下滑像 feed
PNG 是無損的
截幀一直輸出 PNG,一張 1080p 截幀 500KB 到 2MB。這時候才搞清楚 PNG 是無損壓縮。
影片幀是照片類內容,改 JPEG 看不出差別但小了五到十倍:
"-vcodec", "mjpeg", "-q:v", "3"
Discord embed 要副檔名
複製圖片 URL 丟 Discord 沒預覽,GIF URL 丟進去只顯示靜態圖片。
Discord scraper 判斷媒體類型高度依賴副檔名——沒有 .jpg 不認識是圖片,沒有 .gif 不播動畫,就算 Content-Type 正確也一樣。
Route 加上 suffix strip,copy button 附上副檔名,問題解決。
解耦
六個 route(image、gif、search 各一組 v1)核心邏輯幾乎完全一樣,各自複製貼上。把共用邏輯抽出來:
lib/media.ts ← getFrameBuffer / getGifBuffer
lib/search.ts ← searchSubtitles / validateSeries
lib/api-key.ts ← requireApiKey
Route 變薄層,只負責 HTTP。改格式、改 cache TTL 只動 lib/,不用碰六個 route。
「改一個地方要動六個檔案」不是正常狀態,但要上線之後才會真正感受到。