客家話要變成逐字稿,第一個要面對的不是「哪個工具好」,而是一個更根本的問題:AI 到底聽不聽得懂客語?
老實說,答案沒有粵語或台語那麼樂觀。這幾年中文語音轉文字進步很快,但進步幅度是不平均的——資料多的語言跑在前面,資料少的語言遠遠落後。客家話正好是後者。它是台灣的法定國家語言之一,卻是語音辨識眼中不折不扣的「低資源語言」,能拿來訓練模型的公開語料,比華語、粵語少了好幾個量級。
所以這篇不會跟你保證「客語逐字稿一鍵搞定」。它會誠實地講:客家話語音轉文字現在能做到什麼程度、卡在哪、動手前該先決定什麼、以及最重要的——在沒有任何公開準確率數字的情況下,你要怎麼自己判斷一個工具值不值得用。不管你是做客語田調的研究者、整理長輩口述歷史的人,還是想把客語會議留下紀錄的工作者,看完至少不會踩到最大的那幾個坑。
客家話能不能轉?先把實話講清楚
能,但要看條件,而且期待值得放對地方。
先講好消息。客語不是全新語言,它跟華語共享大量漢字詞彙,主流的中文語音辨識模型多少都吃得下一部分客語。如果你的錄音是單人、標準腔(尤其四縣腔)、講得清楚、收音又乾淨,現在的工具可以轉出一份「堪用」的初稿——不是完美,但足以讓你在上面校對,比從零打字快得多。
再講該有的心理準備。客語的難,難在「資料太少」這件事是結構性的,換哪個工具都改變不了。華語有海量的訓練資料,台語、粵語這幾年也累積了 TAT、Common Voice 這類公開語料,客語卻幾乎沒有同等規模、被廣泛使用的公開基準。資料少,模型見過的客語就少,遇到腔調偏門、用詞獨特、或現場條件差一點的錄音,就容易掉字、選錯同音字。
所以正確的定位是:把 AI 當成幫你省下大半打字時間的助手,不是能交差的成品產生器。 客語逐字稿裡「人工校對」這一步的比重,會比你做國語逐字稿時高得多。認清這點,後面每個決定才不會期待落空。
最大的變數:你講的是哪一腔
這是客語逐字稿跟粵語、台語最不一樣的地方,也是最容易被忽略的坑。
台灣客語不是鐵板一塊。它有五種主要腔調,通常用「四海大平安」來記——四縣、海陸、大埔、饒平、詔安。這五腔不是口音上的小差異,而是聲調數目、調值、甚至部分常用詞都不同。四縣腔講的一句話,海陸腔講出來,聲調可能整組對不上。對人來說跨腔已經要適應,對訓練資料本來就稀薄的 AI 來說,難度更是直接翻倍。
現實是這樣:市面上工具的客語能力,幾乎都偏向資料相對最多的四縣腔(使用人口最多,主要分布在苗栗、高雄美濃一帶)。海陸腔(新竹一帶)次之,大埔、饒平、詔安這些人口更少的腔,能被好好辨識的機會就更低。這不是哪家工具特別爛,而是整個領域的資料現況。
所以動手前,先搞清楚一件事:你的錄音是哪一腔? 然後——
- 用那一腔的樣本先試轉,別拿四縣腔的測試結果去推論海陸腔也一樣準。
- 如果一份錄音裡混了不同腔的說話者(跨區的座談、家族訪談很常見),要有準確率參差的心理準備,校稿時分段對待。
- 越是偏門的腔,越要把「人工校對」的時間抓寬。
一句話:不要假設任何工具五腔通吃。 先確認腔,再談準確率,順序錯了後面全白搭。
動手前先決定:漢字還是客語拼音
跟粵語、台語一樣,客語也是「口語有音、書寫沒有唯一標準」的語言,所以做逐字稿前得先拍板體例。這件事中途才換會很痛苦。
用漢字(教育部客語書寫推薦用字),當你—— 逐字稿要給一般讀者看、當正式文件、之後要改寫成報導或報告。教育部有公告客語的書寫推薦用字,先以它為準,能讓不同人校出來的稿用字一致。缺點是部分口語詞的漢字寫法還是有爭議,遇到就得自己在體例規範裡定一個版本,並全稿統一。
用客語拼音(臺灣客家語拼音方案),當你—— 做語言、聲調的學術研究,或遇到沒有公認漢字寫法的口語詞、需要精確記錄發音。臺灣客家語拼音方案能標出不同腔的聲調,是研究場景的通用工具。但非專業讀者看不懂,所以通常是「漢字為主、關鍵處附拼音」,而不是整篇都拼。
兩者並列,當你—— 做客語教材、辭典、能力認證相關的材料,漢字加拼音對照最實用。
沒有標準答案,重點跟做其他方言逐字稿一樣:先選一種、寫進你的體例規範、全稿一致。 一份一半漢字一半拼音、還跳來跳去的逐字稿,比任何單一體例都難用。這個原則在台語逐字稿怎麼做裡也講過,漢字與臺羅的取捨邏輯跟客語幾乎共通,可以互相參照。
客華、客英夾雜:客語逐字稿的日常
如果你整理的是當代客語對話,得先接受一個現實:純客語的錄音越來越少。
今天會講客語的人,多半也是華語的日常使用者,講著講著自然就切過去——尤其遇到現代詞、專業術語、或一時想不起客語說法的時候,直接用華語詞是常態。年輕一點的說話者還會夾英文。所以真實的客語錄音,往往是客語打底、華語穿插、偶爾冒英文的混合體。
這對辨識是另一層挑戰:系統得在一句話中間判斷語言邊界,而這正是低資源語言最容易出錯的地方。做逐字稿時你要先決定:夾進來的華語、英文照原樣保留,還是硬翻回客語?我的建議跟處理粵中英夾雜一樣——照原話保留。人家就是這樣講的,硬翻反而失真。真正要做的,是選一個對語言切換咬得稍微穩一點的工具,減少事後補字的工。
這種混講的處理原則,其實跨語言共通。你如果也做粵語或台語,粵語逐字稿怎麼做裡對夾雜的討論可以直接搬過來用。
沒有公開的客語準確率數字——所以你得自己測
這一節可能是全篇最重要、也最少人願意講的。
做粵語、台語逐字稿時,你至少還能找到公開資料集去量準確率。以 Common Voice 粵語、TAT 台語語料庫實測,Atter AI 的字錯率(CER)落在 3%–4% 區間,方法和複現步驟都攤在繁體中文逐字稿準確率實測裡,任何人都能自己跑一遍。
但客語沒有。到目前為止,還沒有一個像華語 Common Voice、台語 TAT 那樣被廣泛採用、可下載、附人工校驗參考稿的公開客語基準資料集,也沒有哪家廠商公布過可複現的客語 CER。這代表什麼?任何「客語準確率 XX%」的說法,只要沒附上資料集和計算方法,你都只能當行銷話術看,包括本文——我不會給你一個編出來的客語數字。
那怎麼辦?答案是:自己測。 而且這其實比等別人給數字更可靠,因為你測的正是你要用的那一腔、那種錄音條件。做法很簡單:
- 挑一段 1–3 分鐘、有代表性的真實錄音(就是你之後要大量處理的那種:同樣的腔、同樣的說話人數、同樣的收音環境)。
- 先自己(或找懂客語的人)逐字寫出正確版本當「參考稿」。
- 把同一段丟進候選工具轉一次,跟參考稿逐字比對,數出改了幾個字、漏了幾個、多了幾個。
- 除以總字數,就是你這一腔、這種條件下的真實錯字比例。想更嚴謹,可以照上面那篇實測文的 CER 公式和正規化步驟做。
花半小時測一段,勝過相信任何沒有出處的百分比。低資源語言尤其如此——別人的數字對你幾乎沒有參考價值,你自己的樣本才算數。
選工具看什麼
把上面幾點串起來,挑客語工具其實只看三件事:
一,它有沒有真的把客語當一種語言支援。 不是「支援中文」就等於支援客語。有些工具只是拿華語模型硬套客語錄音,出來一堆同音錯字。判斷方法就是上一節說的——拿真實客語樣本去試轉,看它認不認得客語特有的詞、還是全部倒向華語同音字。一測就露餡。
二,它對你那一腔的表現。 別看它宣傳支援幾種語言,看它轉你的四縣/海陸/大埔錄音準不準。這點只能實測,問不出來。
三,它對客華夾雜穩不穩,以及有沒有實用的後製功能。 語者辨識(分辨誰在講)、自動摘要、時間戳,這些在整理田調和會議時能省很多工。
Atter AI 支援中文與多種台灣方言,把客語放在華語、台語、粵語的多方言矩陣裡處理,對客華夾雜的語言切換相對穩,轉完會一併產出摘要、待辦與說話者標籤。但我還是要照前一節的原則說句公道話:客語是低資源語言,任何工具(包括 Atter)的客語表現都該由你拿自己的樣本驗證後再信,不要只看宣傳。 想先看更大範圍的橫向比較,2026 台灣逐字稿 App 怎麼選有把常見工具的中文、方言、隱私與價格攤開比。
實作流程:從錄音到成稿
工具測過、體例定好,就能開工。客語逐字稿的成敗,八成取決於錄音那一刻——因為資料本來就少,輸入品質差一點,AI 就更沒有餘裕幫你補。
- 錄音前先顧好現場。 麥克風盡量靠近說話者,關掉電視、冷氣、避開街聲。客語同音字多、又是低資源語言,音質一差,辨識錯誤會比國語放大得更明顯。
- 先錄一段 30 秒測試音。 正式開始前轉一次,確認這一腔、這個說話者、這個環境 AI 接不接得住。這一步在客語比在國語更該做——因為你沒有現成的準確率數字可以依靠,只能自己先探。
- 面對長輩口述,額外有耐心。 客語逐字稿最常見的場景就是整理長輩的口述歷史、田野訪談,而長輩往往講得快、腔重、又常夾華語,收音環境還不一定好。可以的話,請長輩講慢一點、一次一人講;做不到的部分,就在校稿時多花時間。
- 多人對談請大家不要搶話。 重疊發言是逐字稿出錯的最大來源,也是語者辨識最容易亂掉的地方。跨腔的座談尤其要留意,最好每人一支獨立麥克風。
- 轉錄後,帶著體例規範逐句校對。 這一步在客語絕對跑不掉,而且比國語花時間。重點檢查三處:漢字用字有沒有照教育部推薦用字統一、夾雜的華語英文有沒有處理一致、同音字有沒有選錯。聽不清楚的地方,還是得靠懂客語的人耳朵補,別讓 AI 硬猜。
- 決定要不要「熟化」。 做語言研究就留完整逐字(連語氣詞都保留);做會議紀錄、報導就用去掉贅字的智慧潤稿版。訪談場景怎麼取捨,訪談逐字稿怎麼做講得更細。
整套走下來,一小時的客語錄音,AI 出初稿只要幾分鐘,但校對時間會比其他語言長——這不是工具偷懶,而是低資源語言的現實。把時間預算抓對,你會發現 AI 還是幫你省了最累的那一段:把整段話從頭打成字。
常見問題
客家話真的能用 AI 轉逐字稿嗎? 能,但要放低期待。客語是語音辨識裡的低資源語言,公開訓練語料遠少於華語、粵語,所以同一套工具轉客語通常沒有轉國語那麼穩。乾淨、單人、標準腔的錄音可以轉到堪用,之後靠人工校對補上;但如果是長輩口述、腔調偏門或收音差的田調錄音,校稿量會明顯變大。
四縣腔、海陸腔,AI 分得出來、都聽得懂嗎? 台灣客語有四縣、海陸、大埔、饒平、詔安五種主要腔調(俗稱「四海大平安」),彼此在聲調和用詞上差很多。多數工具的客語能力偏向資料最多的四縣腔,換成海陸或更少人講的腔,準確率通常會掉。動手前先確認你的錄音是哪一腔,並用那一腔的樣本先試轉,不要假設一個工具五腔通吃。
客語逐字稿要寫漢字還是客語拼音? 看用途。要給一般讀者看、當文件用,就用教育部的客語書寫推薦用字(漢字)。要做語言、聲調研究,或遇到沒有公認寫法的口語詞,用臺灣客家語拼音方案精確標音。重點是先選一種、寫進體例規範、全稿一致,不要漢字和拼音跳著混。
為什麼查不到客語的準確率數字? 因為目前沒有像華語 Common Voice、台語 TAT 那樣被廣泛採用的公開客語基準資料集,也沒有廠商公布可複現的客語字錯率(CER)。任何宣稱的客語準確率若沒附資料集和方法,都只能當參考。最可靠的做法是拿你自己那一腔的錄音樣本實測,看堪不堪用。
長輩的客語口述錄音怎麼轉比較準? 長輩錄音是客語逐字稿最常見、也最難的場景:講話快、腔重、常夾華語、收音環境又不理想。能做的是盡量改善輸入——麥克風靠近、關掉電視冷氣、請長輩講慢一點、一次一人講。轉錄後務必逐句校對,AI 只是幫你省下打字的時間,聽不清楚的地方還是得靠懂客語的人補。
客語夾華語、英文會不會轉不出來? 會增加難度,但能處理。現在的客語使用者很少講純客語,客華夾雜是常態。選一個對語言切換處理較穩的工具能減少校稿量;錄音時讓說話者自然講就好,不用刻意避開夾雜。