書寫的方式

書寫的方式

撰文/Mark Fischetti|譯者/王怡文
轉載自《科學人》2007年7月第65期

無論是將書本內容掃描並輸入文字處理軟體中,將個人數位助理(PDA)螢幕上的手寫文字儲存到試算表內,以及解讀字跡潦草的表格或信封上的郵遞區號等,都是以軟體將印刷或手寫字跡轉換成數位文件,以便加以編輯,儲存,寄送電子郵件,或讓高速機器決定信件目的地。

這種軟體最初名為光學文字辨識(OCR),如今此用詞專門指印刷頁面的辨識,而手寫印刷體或草書的分析技術則稱為智慧型文字辨識。無論程式被貼上什麼標籤,它們都是用類似的演算法來計算字跡特徵(見下圖),然後比對字跡特徵和數學模型,以判斷該字跡最近似哪個字母或數字。

用筆在PDA上手寫的文字,也許最容易判別,因為數位筆或螢幕可以追踪筆尖的移動。分析紙上的印刷或手寫字跡就困難多了,原因正如美國馬里蘭大學語言與媒體處理實驗室共同主任多爾曼(David Doermann)所言:「因為你必須從靜態影像裡粹取出資訊,清除雜訊,然後辨識出字母。」其中最難解讀的,仍然是有無限可能性的草書,多爾曼說:「目前還沒有商業成果」。

數年前,文字辨識技術只有一、兩種比對簡單樣式的演算法可用;現在的軟體則運用多種演算法,並針對得到的結果進行評分或投票,以做出最後決定。此外,美國麻州柏林頓的紐昂斯溝通公司(Nuance Communications)技術主任史崔頓(Allan Stratton)表示:「舊的軟體轉換一頁要花上數分鐘,新軟體只須花幾秒鐘。」紐昂斯公司就是文件轉換程式的OmniPage的生產廠商。

為阿拉伯文、日文與中文設計辨識系統的廣泛研究也已經上路,這些語文的筆劃能代表完整的字,而非只是字母。數位相機和手機也開始採用辨識軟體,如此便能像史崔頓所想像的:「只要為文件拍張照片,然後就能用電子郵件或簡訊傳送其中的文字。」


你知道嗎?

  • 悠久的辨識史:從1929年年開始,歐洲與美國就已經出現光學文字辨識專利1950年年代早期,美國華府三軍安全署便嘗試以辨識技術自動破解密碼。1965年,美國郵政管理局開始以電子儀器掃描郵遞區號。在今天,美國普查局以這種方式處理數百萬份表格。1990年代早期,蘋果的牛頓PDA以及IBM的ThinkPad的筆記型電腦已將手寫辨識推廣到民眾手中,雖然它的商業價值仍很有限。
  • 一般商店並未採用:顧客以信用卡消費,而在收銀台的一塊小電子板上簽名時,他們也許會以為系統正在分析自己的簽名,但也許並沒有。馬里蘭大學的多爾曼說,大部份零售商店「只是為了省紙」而把整個影像儲存下來。他提議,下次不妨畫一些完全無關的塗鴉,看看收銀員或機器會不會提出質疑。
  • 分類:分析文字特徵的演算法會將計算結果傳給分類程式,分類程式再把結果和參考表相比對。最鄰近法(Nearest Neighbor,NN)是主流分類程式之一,它所用的方法是將數值和表格里的每個欄位進行比對,以找出最符合的字元是什麼。還有一種分類程式叫做「隱藏式馬可夫模型」(Hidden Markov Model,HMM),這種模型最早被應用於語音辨識的過程,它所採用的方法是計算特徵變數的機率分佈。

 

(本文由教育部補助「AI報報─AI科普推廣計畫」取得網路轉載授權)

views