書寫的方式

2020 年 09 月 02 日2021 年 12 月 27 日 intern HMM, NN, OCR, 最鄰近法, 隱藏式馬可夫模型

分享至

撰文／Mark Fischetti｜譯者／王怡文
轉載自《科學人》2007年7月第65期

無論是將書本內容掃描並輸入文字處理軟體中，將個人數位助理（PDA）螢幕上的手寫文字儲存到試算表內，以及解讀字跡潦草的表格或信封上的郵遞區號等，都是以軟體將印刷或手寫字跡轉換成數位文件，以便加以編輯，儲存，寄送電子郵件，或讓高速機器決定信件目的地。

這種軟體最初名為光學文字辨識（OCR），如今此用詞專門指印刷頁面的辨識，而手寫印刷體或草書的分析技術則稱為智慧型文字辨識。無論程式被貼上什麼標籤，它們都是用類似的演算法來計算字跡特徵（見下圖），然後比對字跡特徵和數學模型，以判斷該字跡最近似哪個字母或數字。

用筆在PDA上手寫的文字，也許最容易判別，因為數位筆或螢幕可以追踪筆尖的移動。分析紙上的印刷或手寫字跡就困難多了，原因正如美國馬里蘭大學語言與媒體處理實驗室共同主任多爾曼（David Doermann）所言：「因為你必須從靜態影像裡粹取出資訊，清除雜訊，然後辨識出字母。」其中最難解讀的，仍然是有無限可能性的草書，多爾曼說：「目前還沒有商業成果」。

數年前，文字辨識技術只有一、兩種比對簡單樣式的演算法可用；現在的軟體則運用多種演算法，並針對得到的結果進行評分或投票，以做出最後決定。此外，美國麻州柏林頓的紐昂斯溝通公司（Nuance Communications）技術主任史崔頓（Allan Stratton）表示：「舊的軟體轉換一頁要花上數分鐘，新軟體只須花幾秒鐘。」紐昂斯公司就是文件轉換程式的OmniPage的生產廠商。

為阿拉伯文、日文與中文設計辨識系統的廣泛研究也已經上路，這些語文的筆劃能代表完整的字，而非只是字母。數位相機和手機也開始採用辨識軟體，如此便能像史崔頓所想像的：「只要為文件拍張照片，然後就能用電子郵件或簡訊傳送其中的文字。」

你知道嗎？

悠久的辨識史：從1929年年開始，歐洲與美國就已經出現光學文字辨識專利1950年年代早期，美國華府三軍安全署便嘗試以辨識技術自動破解密碼。1965年，美國郵政管理局開始以電子儀器掃描郵遞區號。在今天，美國普查局以這種方式處理數百萬份表格。1990年代早期，蘋果的牛頓PDA以及IBM的ThinkPad的筆記型電腦已將手寫辨識推廣到民眾手中，雖然它的商業價值仍很有限。
一般商店並未採用：顧客以信用卡消費，而在收銀台的一塊小電子板上簽名時，他們也許會以為系統正在分析自己的簽名，但也許並沒有。馬里蘭大學的多爾曼說，大部份零售商店「只是為了省紙」而把整個影像儲存下來。他提議，下次不妨畫一些完全無關的塗鴉，看看收銀員或機器會不會提出質疑。
分類：分析文字特徵的演算法會將計算結果傳給分類程式，分類程式再把結果和參考表相比對。最鄰近法（Nearest Neighbor，NN）是主流分類程式之一，它所用的方法是將數值和表格里的每個欄位進行比對，以找出最符合的字元是什麼。還有一種分類程式叫做「隱藏式馬可夫模型」（Hidden Markov Model，HMM），這種模型最早被應用於語音辨識的過程，它所採用的方法是計算特徵變數的機率分佈。

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

(Visited 127 times, 1 visits today)

分享至

views