客家話語音轉文字：能轉嗎、哪個工具支援 2026

客家話要變成逐字稿，第一個要面對的不是「哪個工具好」，而是一個更根本的問題：AI 到底聽不聽得懂客語？

老實說，答案沒有粵語或台語那麼樂觀。這幾年中文語音轉文字進步很快，但進步幅度是不平均的——資料多的語言跑在前面，資料少的語言遠遠落後。客家話正好是後者。它是台灣的法定國家語言之一，卻是語音辨識眼中不折不扣的「低資源語言」，能拿來訓練模型的公開語料，比華語、粵語少了好幾個量級。

所以這篇不會跟你保證「客語逐字稿一鍵搞定」。它會誠實地講：客家話語音轉文字現在能做到什麼程度、卡在哪、動手前該先決定什麼、以及最重要的——在沒有任何公開準確率數字的情況下，你要怎麼自己判斷一個工具值不值得用。不管你是做客語田調的研究者、整理長輩口述歷史的人，還是想把客語會議留下紀錄的工作者，看完至少不會踩到最大的那幾個坑。

客家話能不能轉？先把實話講清楚

能，但要看條件，而且期待值得放對地方。

先講好消息。客語不是全新語言，它跟華語共享大量漢字詞彙，主流的中文語音辨識模型多少都吃得下一部分客語。如果你的錄音是單人、標準腔（尤其四縣腔）、講得清楚、收音又乾淨，現在的工具可以轉出一份「堪用」的初稿——不是完美，但足以讓你在上面校對，比從零打字快得多。

再講該有的心理準備。客語的難，難在「資料太少」這件事是結構性的，換哪個工具都改變不了。華語有海量的訓練資料，台語、粵語這幾年也累積了 TAT、Common Voice 這類公開語料，客語卻幾乎沒有同等規模、被廣泛使用的公開基準。資料少，模型見過的客語就少，遇到腔調偏門、用詞獨特、或現場條件差一點的錄音，就容易掉字、選錯同音字。

所以正確的定位是：把 AI 當成幫你省下大半打字時間的助手，不是能交差的成品產生器。 客語逐字稿裡「人工校對」這一步的比重，會比你做國語逐字稿時高得多。認清這點，後面每個決定才不會期待落空。

最大的變數：你講的是哪一腔

這是客語逐字稿跟粵語、台語最不一樣的地方，也是最容易被忽略的坑。

台灣客語不是鐵板一塊。它有五種主要腔調，通常用「四海大平安」來記——四縣、海陸、大埔、饒平、詔安。這五腔不是口音上的小差異，而是聲調數目、調值、甚至部分常用詞都不同。四縣腔講的一句話，海陸腔講出來，聲調可能整組對不上。對人來說跨腔已經要適應，對訓練資料本來就稀薄的 AI 來說，難度更是直接翻倍。

現實是這樣：市面上工具的客語能力，幾乎都偏向資料相對最多的四縣腔（使用人口最多，主要分布在苗栗、高雄美濃一帶）。海陸腔（新竹一帶）次之，大埔、饒平、詔安這些人口更少的腔，能被好好辨識的機會就更低。這不是哪家工具特別爛，而是整個領域的資料現況。

所以動手前，先搞清楚一件事：你的錄音是哪一腔？ 然後——

用那一腔的樣本先試轉，別拿四縣腔的測試結果去推論海陸腔也一樣準。
如果一份錄音裡混了不同腔的說話者（跨區的座談、家族訪談很常見），要有準確率參差的心理準備，校稿時分段對待。
越是偏門的腔，越要把「人工校對」的時間抓寬。

一句話：不要假設任何工具五腔通吃。 先確認腔，再談準確率，順序錯了後面全白搭。

動手前先決定：漢字還是客語拼音

跟粵語、台語一樣，客語也是「口語有音、書寫沒有唯一標準」的語言，所以做逐字稿前得先拍板體例。這件事中途才換會很痛苦。

用漢字（教育部客語書寫推薦用字），當你—— 逐字稿要給一般讀者看、當正式文件、之後要改寫成報導或報告。教育部有公告客語的書寫推薦用字，先以它為準，能讓不同人校出來的稿用字一致。缺點是部分口語詞的漢字寫法還是有爭議，遇到就得自己在體例規範裡定一個版本，並全稿統一。

用客語拼音（臺灣客家語拼音方案），當你—— 做語言、聲調的學術研究，或遇到沒有公認漢字寫法的口語詞、需要精確記錄發音。臺灣客家語拼音方案能標出不同腔的聲調，是研究場景的通用工具。但非專業讀者看不懂，所以通常是「漢字為主、關鍵處附拼音」，而不是整篇都拼。

兩者並列，當你—— 做客語教材、辭典、能力認證相關的材料，漢字加拼音對照最實用。

沒有標準答案，重點跟做其他方言逐字稿一樣：先選一種、寫進你的體例規範、全稿一致。 一份一半漢字一半拼音、還跳來跳去的逐字稿，比任何單一體例都難用。這個原則在台語逐字稿怎麼做裡也講過，漢字與臺羅的取捨邏輯跟客語幾乎共通，可以互相參照。

客華、客英夾雜：客語逐字稿的日常

如果你整理的是當代客語對話，得先接受一個現實：純客語的錄音越來越少。

今天會講客語的人，多半也是華語的日常使用者，講著講著自然就切過去——尤其遇到現代詞、專業術語、或一時想不起客語說法的時候，直接用華語詞是常態。年輕一點的說話者還會夾英文。所以真實的客語錄音，往往是客語打底、華語穿插、偶爾冒英文的混合體。

這對辨識是另一層挑戰：系統得在一句話中間判斷語言邊界，而這正是低資源語言最容易出錯的地方。做逐字稿時你要先決定：夾進來的華語、英文照原樣保留，還是硬翻回客語？我的建議跟處理粵中英夾雜一樣——照原話保留。人家就是這樣講的，硬翻反而失真。真正要做的，是選一個對語言切換咬得稍微穩一點的工具，減少事後補字的工。

這種混講的處理原則，其實跨語言共通。你如果也做粵語或台語，粵語逐字稿怎麼做裡對夾雜的討論可以直接搬過來用。

沒有公開的客語準確率數字——所以你得自己測

這一節可能是全篇最重要、也最少人願意講的。

做粵語、台語逐字稿時，你至少還能找到公開資料集去量準確率。以 Common Voice 粵語、TAT 台語語料庫實測，Atter AI 的字錯率（CER）落在 3%–4% 區間，方法和複現步驟都攤在繁體中文逐字稿準確率實測裡，任何人都能自己跑一遍。

但客語沒有。到目前為止，還沒有一個像華語 Common Voice、台語 TAT 那樣被廣泛採用、可下載、附人工校驗參考稿的公開客語基準資料集，也沒有哪家廠商公布過可複現的客語 CER。這代表什麼？任何「客語準確率 XX%」的說法，只要沒附上資料集和計算方法，你都只能當行銷話術看，包括本文——我不會給你一個編出來的客語數字。

那怎麼辦？答案是：自己測。 而且這其實比等別人給數字更可靠，因為你測的正是你要用的那一腔、那種錄音條件。做法很簡單：

挑一段 1–3 分鐘、有代表性的真實錄音（就是你之後要大量處理的那種：同樣的腔、同樣的說話人數、同樣的收音環境）。
先自己（或找懂客語的人）逐字寫出正確版本當「參考稿」。
把同一段丟進候選工具轉一次，跟參考稿逐字比對，數出改了幾個字、漏了幾個、多了幾個。
除以總字數，就是你這一腔、這種條件下的真實錯字比例。想更嚴謹，可以照上面那篇實測文的 CER 公式和正規化步驟做。

花半小時測一段，勝過相信任何沒有出處的百分比。低資源語言尤其如此——別人的數字對你幾乎沒有參考價值，你自己的樣本才算數。

選工具看什麼

把上面幾點串起來，挑客語工具其實只看三件事：

一，它有沒有真的把客語當一種語言支援。 不是「支援中文」就等於支援客語。有些工具只是拿華語模型硬套客語錄音，出來一堆同音錯字。判斷方法就是上一節說的——拿真實客語樣本去試轉，看它認不認得客語特有的詞、還是全部倒向華語同音字。一測就露餡。

二，它對你那一腔的表現。 別看它宣傳支援幾種語言，看它轉你的四縣／海陸／大埔錄音準不準。這點只能實測，問不出來。

三，它對客華夾雜穩不穩，以及有沒有實用的後製功能。 語者辨識（分辨誰在講）、自動摘要、時間戳，這些在整理田調和會議時能省很多工。

Atter AI 支援中文與多種台灣方言，把客語放在華語、台語、粵語的多方言矩陣裡處理，對客華夾雜的語言切換相對穩，轉完會一併產出摘要、待辦與說話者標籤。但我還是要照前一節的原則說句公道話：客語是低資源語言，任何工具（包括 Atter）的客語表現都該由你拿自己的樣本驗證後再信，不要只看宣傳。 想先看更大範圍的橫向比較，2026 台灣逐字稿 App 怎麼選有把常見工具的中文、方言、隱私與價格攤開比。

實作流程：從錄音到成稿

工具測過、體例定好，就能開工。客語逐字稿的成敗，八成取決於錄音那一刻——因為資料本來就少，輸入品質差一點，AI 就更沒有餘裕幫你補。

錄音前先顧好現場。 麥克風盡量靠近說話者，關掉電視、冷氣、避開街聲。客語同音字多、又是低資源語言，音質一差，辨識錯誤會比國語放大得更明顯。
先錄一段 30 秒測試音。 正式開始前轉一次，確認這一腔、這個說話者、這個環境 AI 接不接得住。這一步在客語比在國語更該做——因為你沒有現成的準確率數字可以依靠，只能自己先探。
面對長輩口述，額外有耐心。 客語逐字稿最常見的場景就是整理長輩的口述歷史、田野訪談，而長輩往往講得快、腔重、又常夾華語，收音環境還不一定好。可以的話，請長輩講慢一點、一次一人講；做不到的部分，就在校稿時多花時間。
多人對談請大家不要搶話。 重疊發言是逐字稿出錯的最大來源，也是語者辨識最容易亂掉的地方。跨腔的座談尤其要留意，最好每人一支獨立麥克風。
轉錄後，帶著體例規範逐句校對。 這一步在客語絕對跑不掉，而且比國語花時間。重點檢查三處：漢字用字有沒有照教育部推薦用字統一、夾雜的華語英文有沒有處理一致、同音字有沒有選錯。聽不清楚的地方，還是得靠懂客語的人耳朵補，別讓 AI 硬猜。
決定要不要「熟化」。 做語言研究就留完整逐字（連語氣詞都保留）；做會議紀錄、報導就用去掉贅字的智慧潤稿版。訪談場景怎麼取捨，訪談逐字稿怎麼做講得更細。

整套走下來，一小時的客語錄音，AI 出初稿只要幾分鐘，但校對時間會比其他語言長——這不是工具偷懶，而是低資源語言的現實。把時間預算抓對，你會發現 AI 還是幫你省了最累的那一段：把整段話從頭打成字。

常見問題

客家話真的能用 AI 轉逐字稿嗎？ 能，但要放低期待。客語是語音辨識裡的低資源語言，公開訓練語料遠少於華語、粵語，所以同一套工具轉客語通常沒有轉國語那麼穩。乾淨、單人、標準腔的錄音可以轉到堪用，之後靠人工校對補上；但如果是長輩口述、腔調偏門或收音差的田調錄音，校稿量會明顯變大。

四縣腔、海陸腔，AI 分得出來、都聽得懂嗎？ 台灣客語有四縣、海陸、大埔、饒平、詔安五種主要腔調（俗稱「四海大平安」），彼此在聲調和用詞上差很多。多數工具的客語能力偏向資料最多的四縣腔，換成海陸或更少人講的腔，準確率通常會掉。動手前先確認你的錄音是哪一腔，並用那一腔的樣本先試轉，不要假設一個工具五腔通吃。

客語逐字稿要寫漢字還是客語拼音？ 看用途。要給一般讀者看、當文件用，就用教育部的客語書寫推薦用字（漢字）。要做語言、聲調研究，或遇到沒有公認寫法的口語詞，用臺灣客家語拼音方案精確標音。重點是先選一種、寫進體例規範、全稿一致，不要漢字和拼音跳著混。

為什麼查不到客語的準確率數字？ 因為目前沒有像華語 Common Voice、台語 TAT 那樣被廣泛採用的公開客語基準資料集，也沒有廠商公布可複現的客語字錯率（CER）。任何宣稱的客語準確率若沒附資料集和方法，都只能當參考。最可靠的做法是拿你自己那一腔的錄音樣本實測，看堪不堪用。

長輩的客語口述錄音怎麼轉比較準？ 長輩錄音是客語逐字稿最常見、也最難的場景：講話快、腔重、常夾華語、收音環境又不理想。能做的是盡量改善輸入——麥克風靠近、關掉電視冷氣、請長輩講慢一點、一次一人講。轉錄後務必逐句校對，AI 只是幫你省下打字的時間，聽不清楚的地方還是得靠懂客語的人補。

客語夾華語、英文會不會轉不出來？ 會增加難度，但能處理。現在的客語使用者很少講純客語，客華夾雜是常態。選一個對語言切換處理較穩的工具能減少校稿量；錄音時讓說話者自然講就好，不用刻意避開夾雜。

客家話語音轉文字，AI 真聽得懂嗎？五腔差異、寫法與逐字稿實作

客家話能不能轉？先把實話講清楚

最大的變數：你講的是哪一腔

動手前先決定：漢字還是客語拼音

客華、客英夾雜：客語逐字稿的日常

沒有公開的客語準確率數字——所以你得自己測

選工具看什麼

實作流程：從錄音到成稿

常見問題

繼續閱讀

Atter AI vs Sonix：多語言逐字稿誰更順手

Otter.ai 替代品 2026：9 款值得換的逐字稿工具實測

Atter AI vs Descript：逐字稿工具，還是剪輯工作室？