使用字符退化模型和增強算法改進ocr的性能[外文翻譯].doc
約7頁DOC格式手機打開展開
使用字符退化模型和增強算法改進ocr的性能[外文翻譯],附件c:譯文使用字符退化模型和增強算法改進ocr的性能摘要我們在一個增強算法中介紹了三個字符退化模型,用于訓練一組字符分類器集合。我們也通過使用字符退化模型獨立地比較了增強算法集合和網(wǎng)絡訓練的標準算法集合。我們在比較當中有一個有趣的發(fā)現(xiàn):雖然增強算法集合在零拒絕率上比標準算法集合更精確,但增強訓練在獨立訓練中的優(yōu)勢會在...
內容介紹
此文檔由會員 weiyong 發(fā)布
附件C:譯文
使用字符退化模型和增強算法改進OCR的性能
摘要
我們在一個增強算法中介紹了三個字符退化模型,用于訓練一組字符分類器集合。我們也通過使用字符退化模型獨立地比較了增強算法集合和網(wǎng)絡訓練的標準算法集合。我們在比較當中有一個有趣的發(fā)現(xiàn):雖然增強算法集合在零拒絕率上比標準算法集合更精確,但增強訓練在獨立訓練中的優(yōu)勢會在更多的模式被拒絕時快速消失。最終,標準算法集合在高拒絕率時表現(xiàn)優(yōu)于增強算法集合。此論文提供了這現(xiàn)象的解釋。
1 導言
在此論文,我們研究增強算法(Drucker et al., 1993)在改進OCR性能的效用。增強算法的最初理論工作是由Schapire (1990)完成的。他表明,在原則上它可能是一個不可靠的分類器組合(其性能略優(yōu)于隨機猜測)來實現(xiàn)任意低錯誤(在訓練數(shù)據(jù)集)。Drucker et al. (1993)應用了增強算法來進行來字符識別。他們通過以各種程度變形了字符原象產生了大量的訓練式樣。結果表明,通過使用作為增強層級的第一網(wǎng)絡的單一網(wǎng)絡,字符識別性能大大改善了。但是,它仍然需要回答的是增強算法集合是否勝過獨立訓練網(wǎng)絡的標準算法集合。在本論文中,我們提供一個增強算法集合和標準算法集合對比研究。我們也介紹增強算法三種字符退化模型。
2 增強算法
在此增強算法當中,那些弱分類器被非等級地訓練以學習分類問題中越來越困啦的部分。這個算法需要一部自動計算機和邏輯機來產生大量獨立訓練用的樣本。這個基礎增強算法運行如下:
1) 生成一個訓練用的數(shù)據(jù)集并且訓練第一個分類器。
2) 遵照這樣的法則生成一套用于訓練第二個分類器的數(shù)據(jù):擲一個硬幣,如果硬幣面朝上,自動計算機和邏輯機生成一個樣本并將其傳遞到第一個分類器,若果這個樣本被錯誤分類,則將其加入訓練集,否則重復這個步驟直至有一個樣本被錯誤分類為止;如果硬幣底朝
使用字符退化模型和增強算法改進OCR的性能
摘要
我們在一個增強算法中介紹了三個字符退化模型,用于訓練一組字符分類器集合。我們也通過使用字符退化模型獨立地比較了增強算法集合和網(wǎng)絡訓練的標準算法集合。我們在比較當中有一個有趣的發(fā)現(xiàn):雖然增強算法集合在零拒絕率上比標準算法集合更精確,但增強訓練在獨立訓練中的優(yōu)勢會在更多的模式被拒絕時快速消失。最終,標準算法集合在高拒絕率時表現(xiàn)優(yōu)于增強算法集合。此論文提供了這現(xiàn)象的解釋。
1 導言
在此論文,我們研究增強算法(Drucker et al., 1993)在改進OCR性能的效用。增強算法的最初理論工作是由Schapire (1990)完成的。他表明,在原則上它可能是一個不可靠的分類器組合(其性能略優(yōu)于隨機猜測)來實現(xiàn)任意低錯誤(在訓練數(shù)據(jù)集)。Drucker et al. (1993)應用了增強算法來進行來字符識別。他們通過以各種程度變形了字符原象產生了大量的訓練式樣。結果表明,通過使用作為增強層級的第一網(wǎng)絡的單一網(wǎng)絡,字符識別性能大大改善了。但是,它仍然需要回答的是增強算法集合是否勝過獨立訓練網(wǎng)絡的標準算法集合。在本論文中,我們提供一個增強算法集合和標準算法集合對比研究。我們也介紹增強算法三種字符退化模型。
2 增強算法
在此增強算法當中,那些弱分類器被非等級地訓練以學習分類問題中越來越困啦的部分。這個算法需要一部自動計算機和邏輯機來產生大量獨立訓練用的樣本。這個基礎增強算法運行如下:
1) 生成一個訓練用的數(shù)據(jù)集并且訓練第一個分類器。
2) 遵照這樣的法則生成一套用于訓練第二個分類器的數(shù)據(jù):擲一個硬幣,如果硬幣面朝上,自動計算機和邏輯機生成一個樣本并將其傳遞到第一個分類器,若果這個樣本被錯誤分類,則將其加入訓練集,否則重復這個步驟直至有一個樣本被錯誤分類為止;如果硬幣底朝