字體識別軟件,有沒有識別字體的軟件

本文目錄一覽

1,有沒有識別字體的軟件

自動識別圖片中的文字,用“尚書”。我用過的是尚書6,照片中的文字也可以轉(zhuǎn)的,只要清晰度夠就行。
沒有這樣的軟件, 你見的字體多了,自然會識別出來, 不過不能一一識別,其實知道點常用的也就可以了。

有沒有識別字體的軟件

2,文字識別軟件是什么

文字識別(OCR)軟件通常是從掃描儀掃描的文字材料中把圖像文字變?yōu)榫幋a的文字,說白了就是圖片變文字,我用過較好的文字識別(OCR)軟件是尚書七號和漢王文本王 文豪7600 簡潔全功能專業(yè)版,我認(rèn)為最好的是漢王文本王文豪7600 簡潔全功能專業(yè)版,另外還有一款非常小巧實用的綠色OCR軟件也不錯,就是mimiocr(OCR文字識別軟件)綠色版。另外還有一些文字識別軟件也比較好用,不過與其叫它們文字識別軟件,還不如叫文字抓取軟件更好,我們在瀏覽網(wǎng)頁的時候或在電腦屏幕的某些區(qū)域有一些文字材料需要摘取下來,但可能它們又不讓我們選擇復(fù)制,比如工具菜單上的文字,和一些PDF電子書中的文字,以及一些限制網(wǎng)頁上的資料,就可以用這類軟件把它們抓到下來。最好用的是Aqua Deskperience
文字識別軟件簡單說就是通過手機攝像頭拍攝圖片文本,軟件能夠快速識別、提取圖片中的文字信息,實現(xiàn)信息快速的錄入。我經(jīng)常用云脈技術(shù)的文檔識別和云脈慧眼,在移動端OCR技術(shù)上,云脈技術(shù)還有好多文字識別的應(yīng)用。大家可以到各個app市場下載試試看
OCR文字識別OCR文字識別是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進(jìn)行掃描,然后對圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。光學(xué)文字識別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。而最早對印刷體漢字識別進(jìn)行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數(shù)字為對象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識別系統(tǒng),識別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。20世紀(jì)70年代初,日本的學(xué)者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進(jìn)行研究,70年代末開始進(jìn)行漢字識別的研究,到1986年漢字識別的研究進(jìn)入一個實質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達(dá)到實際要求。同時,由于硬件設(shè)備成本高,運行速度慢,也沒有達(dá)到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展,在漢字建模和識別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺式掃描儀的廣泛應(yīng)用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可。因此,OCR軟件主要是由下面幾個部分組成。圖像輸入、預(yù)處理:圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩色圖進(jìn)行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。噪聲去除:對于不同的文檔,我們對燥聲的定義可以不同,根據(jù)燥聲的特征進(jìn)行去燥,就叫做噪聲去除傾斜較正:由于一般用戶,在拍照文檔時,都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進(jìn)行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個固定的,最優(yōu)的切割模型。字符切割:由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識別系統(tǒng)的性能,這就需要文字識別軟件有字符切割功能。字符識別:這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細(xì),斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。版面恢復(fù):人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復(fù)。后處理、校對:根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進(jìn)行較正,就是后處理。編輯本段工作流程一個OCR識別系統(tǒng),其目的很簡單,只是要把影像作一個轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計算機文字,使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析,當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正,將結(jié)果輸出。目前國內(nèi)最有實力的OCR公司有:云脈OCR, 漢王OCR及文通OCR
光學(xué)文字識別光學(xué)文字識別 即OCR (Optical Character Recognition)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,對文本資料進(jìn)行掃描,然后對圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率,是OCR最重要的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。光學(xué)文字識別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的,后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。而最早對印刷體漢字識別進(jìn)行研究的是IBM公司的Casey和Nagy,1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章,采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代,世界各國就開始有OCR的研究,而研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數(shù)字為對象,直至1965至1970年之間開始有一些簡單的產(chǎn)品,如印刷文字的郵政編碼識別系統(tǒng),識別郵件上的郵政編碼,幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式?!?0世紀(jì)70年代初,日本的學(xué)者開始研究漢字識別,并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚,在70年代才開始對數(shù)字、英文字母及符號的識別進(jìn)行研究,70年代末開始進(jìn)行漢字識別的研究,到1986年漢字識別的研究進(jìn)入一個實質(zhì)性的階段,不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件,由于識別率及產(chǎn)品化等多方面的因素,未能達(dá)到實際要求。同時,由于硬件設(shè)備成本高,運行速度慢,也沒有達(dá)到實用的程度。只有個別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展,在漢字建模和識別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺式掃描儀的廣泛應(yīng)用,以及我國信息自動化和辦公自動化的普及,大大推動了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識別正確率、識別速度滿足了廣大用戶的要求。[1]編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動軟件即可。因此,OCR軟件主要是由下面幾個部分組成。圖像輸入、預(yù)處理:圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項目 。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對攝像頭拍攝的圖片,大多數(shù)是彩色圖像,彩色圖像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩色圖進(jìn)行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。噪聲去除:對于不同的文檔,我們對燥聲的定義可以不同,根據(jù)燥聲的特征進(jìn)行去燥,就叫做噪聲去除傾斜較正:由于一般用戶,在拍照文檔時,都比較隨意,因此拍照出來的圖片不可避免的產(chǎn)生傾斜,這就需要文字識別軟件進(jìn)行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個固定的,最優(yōu)的切割模型。字符切割:由于拍照條件的限制,經(jīng)常造成字符粘連,斷筆,因此極大限制了識別系統(tǒng)的性能,這就需要文字識別軟件有字符切割功能。字符識別:這一研究,已經(jīng)是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細(xì),斷筆,粘連,旋轉(zhuǎn)等因素的影響,極大影響特征的提取的難度。版面恢復(fù):人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變,的輸出到word文檔,pdf文檔等,這一過程就叫做版面恢復(fù)。后處理、校對:根據(jù)特定的語言上下文的關(guān)系,對識別結(jié)果進(jìn)行較正,就是后處理。編輯本段工作流程一個OCR識別系統(tǒng),其目的很簡單,只是要把影像作一個轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計算機文字,使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析,當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正,將結(jié)果輸出。影像輸入欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器,如影像掃描儀、傳真機或任何攝影器材,將影像轉(zhuǎn)入計算機??萍嫉倪M(jìn)步,掃描儀等的輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對OCR有相當(dāng)大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率?!∮跋袂疤幚恚河跋袂疤幚硎荗CR系統(tǒng)中,須解決問題最多的一個模塊,從得到一個不是黑就是白的二值化影像,或灰階、彩色的影像,到獨立出一個個的文字影像的過程,都屬于影像前處理。包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理,及圖文分析、文字行與字分離的文件前處理。在影像處理方面,在學(xué)理及技術(shù)方面都已達(dá)成熟階段,因此在市面上或網(wǎng)站上有不少可用的鏈接庫;在文件前處理方面,則憑各家本領(lǐng)了;影像須先將圖片、表格及文字區(qū)域分離出來,甚至可將文章的編排方向、文章的提綱及內(nèi)容主體區(qū)分開,而文字的大小及文字的字體亦可如原始文件一樣的判斷出來?!∥淖痔卣鞒槿。簡我宰R別率而言,特征抽取可說是 OCR的核心,用什么特征、怎么抽取,直接影響識別的好壞,也所以在OCR研究初期,特征抽取的研究報告特別的多。而特征可說是識別的籌碼,簡易的區(qū)分可分為兩類:一為統(tǒng)計的特征,如文字區(qū)域內(nèi)的黑/白點數(shù)比,當(dāng)文字區(qū)分成好幾個區(qū)域時,這一個個區(qū)域黑/白點數(shù)比之聯(lián)合,就成了空間的一個數(shù)值向量,在比對時,基本的數(shù)學(xué)理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征,如文字影像細(xì)線化后,取得字的筆劃端點、交叉點之?dāng)?shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進(jìn)行比對,市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主?!Ρ葦?shù)據(jù)庫:當(dāng)輸入文字算完特征后,不管是用統(tǒng)計或結(jié)構(gòu)的特征,都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對,數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別這是可充分發(fā)揮數(shù)學(xué)運算理論的一個模塊,根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),較有名的比對方法有,歐式空間的比對方法、松弛比對法(Relaxation)、動態(tài)程序比對法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM(Hidden Markov Model)…等著名的方法,為了使識別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(Experts System)被提出,利用各種特征比對方法的相異互補性,使識別出的結(jié)果,其信心度特別的高。 字詞后處理:由于OCR的識別率并無法達(dá)到百分之百,或想加強比對的正確性及信心值,一些除錯或甚至幫忙更正的功能,也成為OCR系統(tǒng)中必要的一個模塊。字詞后處理就是一例,利用比對后的識別文字與其可能的相似候選字群中,根據(jù)前后的識別文字找出最合乎邏輯的詞,做更正的功能?!∽衷~數(shù)據(jù)庫:為字詞后處理所建立的詞庫。人工校正OCR最后的關(guān)卡,在此之前,使用者可能只是拿支鼠標(biāo),跟著軟件設(shè)計的節(jié)奏操作或僅是觀看,而在此有可能須特別花使用者的精神及時間,去更正甚至找尋可能是OCR出錯的地方。一個好的OCR軟件,除了有一個穩(wěn)定的影像處理及識別核心,以降低錯誤率外,人工校正的操作流程及其功能,亦影響OCR的處理效率,因此,文字影像與識別文字的對照,及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認(rèn)字的功能、及字詞后處理后特意標(biāo)示出可能有問題的字詞,都是為使用者設(shè)計盡量少使用鍵盤的一種功能,當(dāng)然,不是說系統(tǒng)沒顯示出的文字就一定正確,就像完全由鍵盤輸入的工作人員也會有出錯的時候,這時要重新校正一次或能允許些許的錯,就完全看使用單位的需求了。結(jié)果輸出有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和輸入文件一模一樣,所以有原文重現(xiàn)的功能、有人注重表格內(nèi)的文字,所以要和Excel等軟件結(jié)合。無論怎么變化,都只是輸出檔案格式的變化而已。如果需要還原成原文一樣格式,則在識別后,需要人工排版,耗時耗力。編輯本段中文識別資料錄入文獻(xiàn)資料的數(shù)字化錄入,一般分為: 1.純圖像方式。 2.目錄文本、正文圖像方式?!?.全文本方式?!?.全文索引方式。文本方式和圖像方式的混合體。識別過程書本級:中文,英文;簡體,繁體; 版式級:豎排,橫排;有無分欄; 行切分 字切分 識別:真正的OCR識別過程,圖像信息還原成文本信息 后處理:人工干預(yù),主要集中在前四個階段。識別結(jié)果決定因素1.圖片的質(zhì)量,一般建議150dpi以上 2.顏色,一般對彩色識別很差,黑白的圖片較高,因此建議ocr的為黑白tif格式 3.最重要的就是字體,如果是手寫識別率很低?!鴥?nèi)OCR識別簡體差錯率為萬分之三,如果要求更高的精度需要投入更大的人工干預(yù)。繁體識別由于繁體字庫的不統(tǒng)一性(民國時期的字庫和現(xiàn)在繁體字庫不統(tǒng)一),導(dǎo)致識別困難,在人工干預(yù)下,精度能達(dá)到90%以上(圖文清晰情況下)。編輯本段識別技巧1.分辨率的設(shè)置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結(jié)果。但也不是掃描分辨率設(shè)得越高識別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識別,設(shè)置掃描分辨率時千萬不要超過掃描儀的光學(xué)分辨率,不然會得不償失。下面是部分典型設(shè)置,僅供參考?!?1)1、2、3號字的文章段,推薦使用200dpi。 (2)4、小4、5號字的文章段,推薦使用300dpl (3)小5、6號字的文章段,推薦使用400dpl (4)7、8號字的文章段,推薦使用600dpi?!?. 掃描時適當(dāng)?shù)卣{(diào)整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關(guān)鍵,掃描亮度和對比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。進(jìn)行識別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應(yīng)該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時,說明亮度值太大了,應(yīng)減小亮度后再試試?!?.選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識別工作的基礎(chǔ),一般不要使用掃描儀自帶的OEM軟件,OEM的OCR軟件的功能少、效果差,有的甚至沒有中文識別?!≡龠x一個圖像軟件,第一,OCR軟件不能識別所有的掃描儀;第二,也是最關(guān)鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理。 4.如果要進(jìn)行的文本是帶有格式的,如粗體、斜體、首行縮進(jìn)等,部分OCR軟件識別不出來,會丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識別系統(tǒng),使軟件集中注意力查找正確的字符,不再顧及字體和字體格式?!?.在掃描識別報紙或其他半透明文稿時,背面的文字透過紙張混淆文字字形,對識別會造成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時,增加掃描對比度,即可減少背面模糊字體的影響,提高識別正確率, 6.一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設(shè)置時卻常將掃描模式設(shè)為灰度模式。特別是在原稿質(zhì)量較差時,使用灰度模式掃描,并在掃描軟件處理完后再繼續(xù)識別,這樣會得到較好的識別正確率。值得注意的是OCR識別軟件可以自己確定閥值,幾個百分點的閥值差異,可能就會影響識別的正常進(jìn)行。當(dāng)然,得到的圖像文件的大小會比黑白文件大很多。在進(jìn)行大批量文稿掃描時,必須對原稿進(jìn)行測試,找到最佳的閥值百分比?!?.遇到圖文混排的掃描原稿,首先明確使用的識別軟件是否支持自動分析圖文這一功能。如果支持的話,在進(jìn)行這類掃描識別時,OCR軟件會自動計算出文本的內(nèi)容、位置和先后順序。文字部分可以按照標(biāo)示順序正常識別?!?.手動選取掃描區(qū)域會有更好識別效果。設(shè)置好參數(shù)后,先預(yù)覽一下,然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個區(qū)域內(nèi),因為現(xiàn)在的文章排版為了追求更好的視覺效果,使用圖文混排的較多,掃成一幅圖像會影響OCR識別。因此,要根據(jù)實際情況將版面分成N個區(qū)域,怎么劃分區(qū)域呢?每一區(qū)域內(nèi)的文字字體、字號最好一致,沒有圖形、圖像,每一行的寬度一致,遇到長短不一,再細(xì)分,一般一次最多可掃描10個選區(qū)。根據(jù)不同情況,合理地設(shè)置識別區(qū)域的順序。不要嫌這個過程太煩,那可是提高識別率的有效手段。注意各識別區(qū)域不能有交叉,做到一切覺得完好以后再進(jìn)行識別。這樣一般的識別率會在95%以上,對于識別不正確的文字進(jìn)行校對后,就可以進(jìn)入相應(yīng)的文字處理軟件進(jìn)行所需的處理了。9.在放置掃描原稿時,把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由于光學(xué)透鏡導(dǎo)致的失真。同時應(yīng)保護(hù)掃描儀玻璃的干凈和不受損害。文字有一定角度的傾斜,或者是原稿文字部分為不正規(guī)排版,必須在掃描后使用旋轉(zhuǎn)工具,進(jìn)行糾正;否則OCR識別軟件會將水平筆劃當(dāng)做斜筆劃處理,識別正確率會下降很多。建議用戶盡量將掃描原稿放正,用工具旋轉(zhuǎn)糾正會降低圖像質(zhì)量,使字符識別更加困難?!?0.先"預(yù)覽"整體版面,選定要掃描的區(qū)域,再用"放大預(yù)覽"工具,選擇一小塊進(jìn)行放大顯示到全屏幕,觀察其文字的對比度,文字的深淺濃度,據(jù)情況調(diào)整"閥值"的大小,最終要求文字清晰,不濃(文字成團),不淡(文字?jǐn)喙P伐),一般在"閥值"80左右為宜,最后再掃描。 11.用工具擦掉圖像污點,包括原來版面中的不需要識別的插圖、分隔線等,使文字圖像中除了文字沒有一點多余的東西;這可以大提高識別率并減少識別后的修改工作?!?2.如果要掃描印刷質(zhì)量稍微差一些的文章,比如說報紙,掃描的結(jié)果將不會黑白分明,會出現(xiàn)大量的黑點,而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象,這兩項可是漢字識別的大忌,將嚴(yán)重影響漢字識別的正確率。為獲得較好的識別結(jié)果,必須仔細(xì)進(jìn)行色調(diào)調(diào)節(jié),反復(fù)掃描多次才能獲得比較理想的結(jié)果。另外由于報紙很薄且大部分紙質(zhì)不高,導(dǎo)致掃描儀上蓋板不能完全壓住報紙(有縫隙),所以一般情況下報紙的掃描識別效果沒有雜志的效果好。解決辦法是在報紙上壓一至兩本16K的雜志,效果還是不錯的。目前國內(nèi)最有實力的OCR公司有:云脈(www.yunmai.cn), 漢王(www.hangwang.com.cn), 文通(www.wintone.com.cn)
文字識別就是將掃描的不能復(fù)制編輯的文字識別成可以復(fù)制編輯的文字。 我空間有這種文字識別軟件下載的
經(jīng)常用掃描儀的朋友可能對OCR并不陌生.OCR即Optiotd Character Recognition.中文含義就是光學(xué)字符識別的意思,就是將圖像作一個轉(zhuǎn)換,使圖像內(nèi)的圖形繼續(xù)保存.將文字識別出來.這樣使人們從繁重的鍵盤錄入的勞動中解脫出來。目前幾乎所有掃描儀都附帶有OCR識別軟件.但遺憾的是即使是同一個OCR軟件識別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號。 掃描儀的一個重要功能就是通過OCR軟件(即文字識別軟件)將掃描后的文字圖像轉(zhuǎn)換成文本格式的文件,使文字處理軟件能夠調(diào)用處理。這樣可以大大提高文字錄入速度,極大地提高工作效率。目前,文字識別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過,我們在進(jìn)行文字識別時經(jīng)常會遇到識別率低的問題,其原因除了被識別稿件有問題外,主要還是我們沒有掌握好掃描及OCR識別軟件的使用技巧。那么進(jìn)行文字識別時有哪些技巧呢? 一、根據(jù)識別稿的質(zhì)量進(jìn)行處理 進(jìn)行掃描識別時,在可能的情況下應(yīng)盡量選擇清晰度與潔凈度都很高的識別稿,識別稿的清晰度與潔凈度的不同會使掃描后的識別率有很大差距。對一般的印刷稿、打印稿等質(zhì)量較好的文稿進(jìn)行識別,只要掌握好方法與技巧,其識別率一般可達(dá)到98%以上。而對報紙、雜志等清晰度不佳的原稿進(jìn)行識別,無論使用何種識別軟件都難以達(dá)到很高的識別率。 1.對一些帶有下劃線、分隔線等符號的文本原稿,有些OCR軟件是識別不出的,一般會出現(xiàn)亂碼。如果必須掃描帶有這些符號的原稿,一是要確保使用的識別軟件能夠識別這些符號。二是使用工具擦掉這些特殊符號,使識別軟件能正確識別這些文字。 如果掃描后的文檔中含有OCR軟件不能識別的圖像、圖形和一些特殊符號,可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除,同時將圖像上一些雜點也一并去除。使圖像中除了文字沒有多余的東西,這可以大大提高識別率并減少識別后的修改工作。 2.在掃描識別報紙或紙張較薄的文稿時,掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼,使識別率大大降低。在對這類原稿掃描時,我們可以在原稿的背面覆蓋一張黑紙,在進(jìn)行正式掃描時,適當(dāng)增加掃描對比度或亮度,即可有效提高識別率。 3.對于一些圖文混排的原稿,掃描成一幅圖像進(jìn)行全區(qū)識別會嚴(yán)重影響OCR軟件的識別率。我們可以根據(jù)實際情況將掃描后的版面切分成多個區(qū)域后再識別,切分區(qū)域的原則是:將圖形、圖像排除在區(qū)域之外(圖1),盡量把文字字體、字號一致的劃在一個區(qū)域內(nèi),不要嫌這個過程煩瑣而選用自動切分區(qū)域,手動選取掃描區(qū)域會有更好識別效果,還應(yīng)注意各識別區(qū)域不能有交叉情況。 二、掃描識別稿的操作技巧 1.首先要保持工作環(huán)境的清潔,掃描儀的玻璃板以及若干個反光鏡片及鏡頭,其中任何一部分臟污都會影響掃描文字圖像的效果。因此,保持掃描儀的清潔是確保文字圖像掃描質(zhì)量及識別率較高的重要前提。 2.掃描儀在剛開啟時,光源的穩(wěn)定性較差,而且光源的色溫也沒有達(dá)到正常工作所需的色溫,所以開始掃描以前最好先讓掃描儀預(yù)熱一段時間。 3.在放置掃描原稿時,把掃描的文字材料擺放在掃描起始線正中,可以最大限度地避免由于光學(xué)透鏡導(dǎo)致的失真而影響識別率。 4.掃描后的文字圖像經(jīng)常會有一定角度的傾斜,出現(xiàn)這種情況必須在掃描后使用自動或手動旋轉(zhuǎn)工具進(jìn)行糾正,OCR軟件一般都設(shè)有自動糾偏和手動糾偏工具。否則OCR識別軟件會將水平筆畫當(dāng)作斜筆畫處理,識別率會下降很多。如果掃描后的文字圖像傾斜角度超過15°,傾斜校正會產(chǎn)生較大的失真和誤差,從而嚴(yán)重影響識別率,這種情況建議擺正原稿重新掃描。 三、掃描參數(shù)的設(shè)置 掃描參數(shù)的設(shè)置主要包括分辨率的設(shè)置及亮度和對比度的設(shè)置。 1.一般來講,分辨率越高識別率也就會越高。但這也不是絕對的,對于一些過大過粗的字體,設(shè)置過高的分辨率,識別率可能會降低,而且設(shè)置高分辨率后,掃描速度會大大降低。根據(jù)實際經(jīng)驗,1、2、3號字的文稿推薦使用200dpi,4、小4、5號字的文稿推薦使用300dpi,小5、6號字的文稿推薦使用400dpi,7、8號字的文稿推薦使用600dpi 2.掃描時適當(dāng)?shù)卣{(diào)整好亮度和對比度值,對識別率的高低影響很大,在進(jìn)行掃描亮度和對比度的設(shè)定時(圖3),以掃描后的圖像中文字的筆畫較細(xì)、均勻,且沒有明顯斷點為準(zhǔn)。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑,分不清筆畫,說明亮度值太小,應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時,說明亮度值太大,應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿,比如報紙,掃描出的圖像可能會出現(xiàn)大量的黑點,而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象,為獲得較好的識別結(jié)果,必須仔細(xì)進(jìn)行亮度和對比度值的調(diào)整,反復(fù)掃描多次才能獲得比較理想的效果。 四、識別后的處理工作 1.文字校正 文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟件對可能出現(xiàn)錯誤的文字,會顯示出藍(lán)色標(biāo)記,請用戶確認(rèn)。但在沒有提示出錯的地方,也有可能出錯。所以大家在校對時應(yīng)該通讀一遍,以提高文字錄入的準(zhǔn)確率。 2.識別后文本的保存 如果把識別后的文本簡單復(fù)制粘貼到Word中保存處理,就需要去掉多余的硬回車,這樣會非常麻煩。正確方法是:先將識別后的文本存盤,在存盤時設(shè)置為軟回車就行了。對于《紫光OCR》,則需要在識別完成后,選擇文件菜單下的導(dǎo)出命令,將存儲類型選為TXT,段內(nèi)回車字符選為無。注意:一定不要直接存盤,否則不能自動去掉文章的硬回車。《尚書OCR》、《漢王OCR》和《紫光OCR》都提供了段內(nèi)去除硬回車的功能。

文字識別軟件是什么

熱文