圖片文字識(shí)別技術(shù)
圖片文字識(shí)別軟件是現(xiàn)在辦公室的必備軟件,它可以識(shí)別JPG、GIF、PNG、BMP、TIF和PDF源文件、PDF掃描件,也就是說(shuō)我們?cè)谌粘9ぷ髦心軌蛴龅降牟荒芫庉嫷奈淖侄伎梢酝ㄟ^(guò)捷速圖片文字識(shí)別軟件來(lái)識(shí)別,識(shí)別得到的文字可以自由的進(jìn)行編輯。有很多人有這樣的疑問(wèn),圖片文字識(shí)別軟件的技術(shù)原理是什么呢?
1、圖文輸入:是指通過(guò)輸入設(shè)備將文檔輸入到計(jì)算機(jī)中,也就是實(shí)現(xiàn)原稿的數(shù)字化。現(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識(shí)別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測(cè)的傾斜角小,在進(jìn)行傾斜校正后,文字圖像的變形就小。這些簡(jiǎn)單的操作,會(huì)使系統(tǒng)的識(shí)別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過(guò)多可能會(huì)分檢出半個(gè)文字的圖像。文字?jǐn)喙P和筆畫(huà)粘連會(huì)造成有些特征丟失,在將其特征與特征庫(kù)比較時(shí),會(huì)使其特征距離加大,識(shí)別錯(cuò)誤率上升。
2、預(yù)處理:掃描一幅簡(jiǎn)單的印刷文檔的圖像,將每一個(gè)文字圖像分檢出來(lái)交給識(shí)別模塊識(shí)別,這一過(guò)程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識(shí)別之前的一些準(zhǔn)備工作,包括圖像凈化處理,去掉原始圖像中的顯見(jiàn)噪聲(干擾)。主要任務(wù)是測(cè)量文檔放置的傾斜角,對(duì)文檔進(jìn)行版面分析,對(duì)選出的文字域進(jìn)行排版確認(rèn),對(duì)橫、豎排版的文字行進(jìn)行切分,每一行的文字圖像的分離,標(biāo)點(diǎn)符號(hào)的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識(shí)別的準(zhǔn)確率。 版面分析是對(duì)文本圖像的總體分析,是將文檔中的所有文字塊分檢出來(lái),區(qū)分出文本段落及排版順序,以及圖像、表格的區(qū)域。將各文字塊的域界(域在圖像中的始點(diǎn)、終點(diǎn)坐標(biāo)),域內(nèi)的屬性(橫、豎排版方式)以及各文字塊的連接關(guān)系作為一種數(shù)據(jù)結(jié)構(gòu),提供給識(shí)別模塊自動(dòng)識(shí)別。對(duì)于文本區(qū)域直接進(jìn)行識(shí)別處理,對(duì)于表格區(qū)域進(jìn)行專用的表格分析及識(shí)別處理,對(duì)于圖像區(qū)域進(jìn)行壓縮或簡(jiǎn)單存儲(chǔ)。行字切分是將大幅的圖像先切割為行,再?gòu)膱D像行中分離出單個(gè)字符的過(guò)程。
3、單字識(shí)別:?jiǎn)巫肿R(shí)別是體現(xiàn)OCR文字識(shí)別的核心技術(shù)。從掃描文本中分檢出的文字圖像,由計(jì)算機(jī)將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼,是讓計(jì)算機(jī)“認(rèn)字”的關(guān)鍵,也就是所謂的識(shí)別技術(shù)。就像人腦認(rèn)識(shí)文字是因?yàn)樵谌四X中已經(jīng)保存了文字的各種特征,如文字的結(jié)構(gòu)、文字的筆畫(huà)等。要想讓計(jì)算機(jī)來(lái)識(shí)別文字,也需要先將文字的特征等信息儲(chǔ)存到計(jì)算機(jī)里,但要儲(chǔ)存什么樣的信息及怎樣來(lái)獲取這些信息是一個(gè)很復(fù)雜的過(guò)程,而且要達(dá)到非常高的識(shí)別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫(huà)、特征點(diǎn)、投影信息、點(diǎn)的區(qū)域分布等進(jìn)行分析。
上述這三個(gè)是圖片文字識(shí)別軟件識(shí)別過(guò)程中的技術(shù)原理,一些技術(shù)不成熟的軟件每一個(gè)步驟都需要用戶手動(dòng)進(jìn)項(xiàng)操作,所以沒(méi)有一定的專業(yè)知識(shí)完成不了整個(gè)過(guò)程。而捷速圖片文字識(shí)別軟件因?yàn)榧夹g(shù)成熟、智能化程度高,這些都是程序都是軟件自動(dòng)完成,點(diǎn)擊“識(shí)別”鍵一鍵完成識(shí)別工作。
圖片文字提取大師http://www.uzzf.com/soft/90555.html
圖片文字提取大師http://jingyan.baidu.com/article/455a99509cafd8a1662778ad.html