字體識別軟件，有沒有識別字體的軟件

發(fā)表于 2023年1月19日 00:18

本文目錄一覽

1，有沒有識別字體的軟件
2，文字識別軟件是什么

1，有沒有識別字體的軟件

自動識別圖片中的文字，用“尚書”。我用過的是尚書6，照片中的文字也可以轉(zhuǎn)的，只要清晰度夠就行。

沒有這樣的軟件，你見的字體多了，自然會識別出來，不過不能一一識別，其實知道點常用的也就可以了。

有沒有識別字體的軟件

2，文字識別軟件是什么

文字識別(OCR)軟件通常是從掃描儀掃描的文字材料中把圖像文字變?yōu)榫幋a的文字，說白了就是圖片變文字，我用過較好的文字識別(OCR)軟件是尚書七號和漢王文本王文豪7600 簡潔全功能專業(yè)版，我認(rèn)為最好的是漢王文本王文豪7600 簡潔全功能專業(yè)版，另外還有一款非常小巧實用的綠色OCR軟件也不錯，就是mimiocr(OCR文字識別軟件)綠色版。另外還有一些文字識別軟件也比較好用，不過與其叫它們文字識別軟件，還不如叫文字抓取軟件更好，我們在瀏覽網(wǎng)頁的時候或在電腦屏幕的某些區(qū)域有一些文字材料需要摘取下來，但可能它們又不讓我們選擇復(fù)制，比如工具菜單上的文字，和一些PDF電子書中的文字，以及一些限制網(wǎng)頁上的資料，就可以用這類軟件把它們抓到下來。最好用的是Aqua Deskperience

文字識別軟件簡單說就是通過手機攝像頭拍攝圖片文本，軟件能夠快速識別、提取圖片中的文字信息，實現(xiàn)信息快速的錄入。我經(jīng)常用云脈技術(shù)的文檔識別和云脈慧眼，在移動端OCR技術(shù)上，云脈技術(shù)還有好多文字識別的應(yīng)用。大家可以到各個app市場下載試試看

OCR文字識別OCR文字識別是指電子設(shè)備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進(jìn)行掃描，然后對圖像文件進(jìn)行分析處理，獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題的友好性，產(chǎn)品的穩(wěn)定性，易用性及可行性等。光學(xué)文字識別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的，后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。而最早對印刷體漢字識別進(jìn)行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數(shù)字為對象，直至1965至1970年之間開始有一些簡單的產(chǎn)品，如印刷文字的郵政編碼識別系統(tǒng)，識別郵件上的郵政編碼，幫助郵局作區(qū)域分信的作業(yè)；也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式。20世紀(jì)70年代初，日本的學(xué)者開始研究漢字識別，并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚，在70年代才開始對數(shù)字、英文字母及符號的識別進(jìn)行研究，70年代末開始進(jìn)行漢字識別的研究，到1986年漢字識別的研究進(jìn)入一個實質(zhì)性的階段，不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件，由于識別率及產(chǎn)品化等多方面的因素，未能達(dá)到實際要求。同時，由于硬件設(shè)備成本高，運行速度慢，也沒有達(dá)到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后，隨著平臺式掃描儀的廣泛應(yīng)用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術(shù)的進(jìn)一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅(qū)動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。圖像輸入、預(yù)處理：圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式。預(yù)處理：主要包括二值化，噪聲去除，傾斜較正等二值化：對攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對于圖片的內(nèi)容，我們可以簡單的分為前景與背景，為了讓計算機更快的，更好的識別文字，我們需要先對彩色圖進(jìn)行處理，使圖片只前景信息與背景信息，可以簡單的定義前景信息為黑色，背景信息為白色，這就是二值化圖了。噪聲去除：對于不同的文檔，我們對燥聲的定義可以不同，根據(jù)燥聲的特征進(jìn)行去燥，就叫做噪聲去除傾斜較正：由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產(chǎn)生傾斜，這就需要文字識別軟件進(jìn)行較正。版面分析：將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復(fù)雜性，因此，目前還沒有一個固定的，最優(yōu)的切割模型。字符切割：由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。字符識別：這一研究，已經(jīng)是很早的事情了，比較早有模板匹配，后來以特征提取為主，由于文字的位移，筆畫的粗細(xì)，斷筆，粘連，旋轉(zhuǎn)等因素的影響，極大影響特征的提取的難度。版面恢復(fù)：人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復(fù)。后處理、校對:根據(jù)特定的語言上下文的關(guān)系，對識別結(jié)果進(jìn)行較正，就是后處理。編輯本段工作流程一個OCR識別系統(tǒng)，其目的很簡單，只是要把影像作一個轉(zhuǎn)換，使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字，一律變成計算機文字，使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析，當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結(jié)果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正，將結(jié)果輸出。目前國內(nèi)最有實力的OCR公司有：云脈OCR, 漢王OCR及文通OCR

光學(xué)文字識別光學(xué)文字識別即OCR （Optical Character Recognition）是指電子設(shè)備（例如掃描儀或數(shù)碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別方法將形狀翻譯成計算機文字的過程；即，對文本資料進(jìn)行掃描，然后對圖像文件進(jìn)行分析處理，獲取文字及版面信息的過程。如何除錯或利用輔助信息提高識別正確率，是OCR最重要的課題，ICR（Intelligent Character Recognition）的名詞也因此而產(chǎn)生。衡量一個OCR系統(tǒng)性能好壞的主要指標(biāo)有：拒識率、誤識率、識別速度、用戶界面的友好性，產(chǎn)品的穩(wěn)定性，易用性及可行性等。光學(xué)文字識別的概念是在1929年由德國科學(xué)家Tausheck最先提出來的，后來美國科學(xué)家Handel也提出了利用技術(shù)對文字進(jìn)行識別的想法。而最早對印刷體漢字識別進(jìn)行研究的是IBM公司的Casey和Nagy，1966年他們發(fā)表了第一篇關(guān)于漢字識別的文章，采用了模板匹配法識別了1000個印刷體漢字。早在60、70年代，世界各國就開始有OCR的研究，而研究的初期，多以文字的識別方法研究為主，且識別的文字僅為0至9的數(shù)字。以同樣擁有方塊文字的日本為例，1960年左右開始研究OCR的基本識別理論，初期以數(shù)字為對象，直至1965至1970年之間開始有一些簡單的產(chǎn)品，如印刷文字的郵政編碼識別系統(tǒng)，識別郵件上的郵政編碼，幫助郵局作區(qū)域分信的作業(yè)；也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式?！?0世紀(jì)70年代初，日本的學(xué)者開始研究漢字識別，并做了大量的工作。中國在OCR技術(shù)方面的研究工作起步較晚，在70年代才開始對數(shù)字、英文字母及符號的識別進(jìn)行研究，70年代末開始進(jìn)行漢字識別的研究，到1986年漢字識別的研究進(jìn)入一個實質(zhì)性的階段，不少研究單位相繼推出了中文OCR產(chǎn)品.早期的OCR軟件，由于識別率及產(chǎn)品化等多方面的因素，未能達(dá)到實際要求。同時，由于硬件設(shè)備成本高，運行速度慢，也沒有達(dá)到實用的程度。只有個別部門，如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國的OCR研究有了很大進(jìn)展，在漢字建模和識別方法上都有所創(chuàng)新，在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果，不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后，隨著平臺式掃描儀的廣泛應(yīng)用，以及我國信息自動化和辦公自動化的普及，大大推動了OCR技術(shù)的進(jìn)一步發(fā)展，使OCR的識別正確率、識別速度滿足了廣大用戶的要求。[1]編輯本段軟件結(jié)構(gòu)由于掃描儀的普及與廣泛應(yīng)用，OCR軟件只需提供與掃描儀的接口，利用掃描儀驅(qū)動軟件即可。因此，OCR軟件主要是由下面幾個部分組成。圖像輸入、預(yù)處理：圖像輸入：對于不同的圖像格式，有著不同的存儲格式，不同的壓縮方式，目前有OpenCV,CxImage等開源項目。預(yù)處理：主要包括二值化，噪聲去除，傾斜較正等二值化：對攝像頭拍攝的圖片，大多數(shù)是彩色圖像，彩色圖像所含信息量巨大，對于圖片的內(nèi)容，我們可以簡單的分為前景與背景，為了讓計算機更快的，更好的識別文字，我們需要先對彩色圖進(jìn)行處理，使圖片只前景信息與背景信息，可以簡單的定義前景信息為黑色，背景信息為白色，這就是二值化圖了。噪聲去除：對于不同的文檔，我們對燥聲的定義可以不同，根據(jù)燥聲的特征進(jìn)行去燥，就叫做噪聲去除傾斜較正：由于一般用戶，在拍照文檔時，都比較隨意，因此拍照出來的圖片不可避免的產(chǎn)生傾斜，這就需要文字識別軟件進(jìn)行較正。版面分析：將文檔圖片分段落，分行的過程就叫做版面分析，由于實際文檔的多樣性，復(fù)雜性，因此，目前還沒有一個固定的，最優(yōu)的切割模型。字符切割：由于拍照條件的限制，經(jīng)常造成字符粘連，斷筆，因此極大限制了識別系統(tǒng)的性能，這就需要文字識別軟件有字符切割功能。字符識別：這一研究，已經(jīng)是很早的事情了，比較早有模板匹配，后來以特征提取為主，由于文字的位移，筆畫的粗細(xì)，斷筆，粘連，旋轉(zhuǎn)等因素的影響，極大影響特征的提取的難度。版面恢復(fù)：人們希望識別后的文字，仍然像原文檔圖片那樣排列著，段落不變，位置不變，順序不變，的輸出到word文檔,pdf文檔等，這一過程就叫做版面恢復(fù)。后處理、校對:根據(jù)特定的語言上下文的關(guān)系，對識別結(jié)果進(jìn)行較正，就是后處理。編輯本段工作流程一個OCR識別系統(tǒng)，其目的很簡單，只是要把影像作一個轉(zhuǎn)換，使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字，一律變成計算機文字，使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析，當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間。從影像到結(jié)果輸出，須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正，將結(jié)果輸出。影像輸入欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器，如影像掃描儀、傳真機或任何攝影器材，將影像轉(zhuǎn)入計算機?？萍嫉倪M(jìn)步，掃描儀等的輸入裝置已制作的愈來愈精致，輕薄短小、品質(zhì)也高，對OCR有相當(dāng)大的幫助，掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率?！∮跋袂疤幚恚河跋袂疤幚硎荗CR系統(tǒng)中，須解決問題最多的一個模塊，從得到一個不是黑就是白的二值化影像，或灰階、彩色的影像，到獨立出一個個的文字影像的過程，都屬于影像前處理。包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理，及圖文分析、文字行與字分離的文件前處理。在影像處理方面，在學(xué)理及技術(shù)方面都已達(dá)成熟階段，因此在市面上或網(wǎng)站上有不少可用的鏈接庫；在文件前處理方面，則憑各家本領(lǐng)了；影像須先將圖片、表格及文字區(qū)域分離出來，甚至可將文章的編排方向、文章的提綱及內(nèi)容主體區(qū)分開，而文字的大小及文字的字體亦可如原始文件一樣的判斷出來?！∥淖痔卣鞒槿。簡我宰R別率而言，特征抽取可說是 OCR的核心，用什么特征、怎么抽取，直接影響識別的好壞，也所以在OCR研究初期，特征抽取的研究報告特別的多。而特征可說是識別的籌碼，簡易的區(qū)分可分為兩類：一為統(tǒng)計的特征，如文字區(qū)域內(nèi)的黑/白點數(shù)比，當(dāng)文字區(qū)分成好幾個區(qū)域時，這一個個區(qū)域黑/白點數(shù)比之聯(lián)合，就成了空間的一個數(shù)值向量，在比對時，基本的數(shù)學(xué)理論就足以應(yīng)付了。而另一類特征為結(jié)構(gòu)的特征，如文字影像細(xì)線化后，取得字的筆劃端點、交叉點之?dāng)?shù)量及位置，或以筆劃段為特征，配合特殊的比對方法，進(jìn)行比對，市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主?！Ρ葦?shù)據(jù)庫：當(dāng)輸入文字算完特征后，不管是用統(tǒng)計或結(jié)構(gòu)的特征，都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對，數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字，根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對比識別這是可充分發(fā)揮數(shù)學(xué)運算理論的一個模塊，根據(jù)不同的特征特性，選用不同的數(shù)學(xué)距離函數(shù)，較有名的比對方法有，歐式空間的比對方法、松弛比對法（Relaxation）、動態(tài)程序比對法（Dynamic Programming，DP），以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫建立及比對、HMM（Hidden Markov Model）…等著名的方法，為了使識別的結(jié)果更穩(wěn)定，也有所謂的專家系統(tǒng)（Experts System）被提出，利用各種特征比對方法的相異互補性，使識別出的結(jié)果，其信心度特別的高。　字詞后處理：由于OCR的識別率并無法達(dá)到百分之百，或想加強比對的正確性及信心值，一些除錯或甚至幫忙更正的功能，也成為OCR系統(tǒng)中必要的一個模塊。字詞后處理就是一例，利用比對后的識別文字與其可能的相似候選字群中，根據(jù)前后的識別文字找出最合乎邏輯的詞，做更正的功能?！∽衷~數(shù)據(jù)庫：為字詞后處理所建立的詞庫。人工校正OCR最后的關(guān)卡，在此之前，使用者可能只是拿支鼠標(biāo)，跟著軟件設(shè)計的節(jié)奏操作或僅是觀看，而在此有可能須特別花使用者的精神及時間，去更正甚至找尋可能是OCR出錯的地方。一個好的OCR軟件，除了有一個穩(wěn)定的影像處理及識別核心，以降低錯誤率外，人工校正的操作流程及其功能，亦影響OCR的處理效率，因此，文字影像與識別文字的對照，及其屏幕信息擺放的位置、還有每一識別文字的候選字功能、拒認(rèn)字的功能、及字詞后處理后特意標(biāo)示出可能有問題的字詞，都是為使用者設(shè)計盡量少使用鍵盤的一種功能，當(dāng)然，不是說系統(tǒng)沒顯示出的文字就一定正確，就像完全由鍵盤輸入的工作人員也會有出錯的時候，這時要重新校正一次或能允許些許的錯，就完全看使用單位的需求了。結(jié)果輸出有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和輸入文件一模一樣，所以有原文重現(xiàn)的功能、有人注重表格內(nèi)的文字，所以要和Excel等軟件結(jié)合。無論怎么變化，都只是輸出檔案格式的變化而已。如果需要還原成原文一樣格式，則在識別后，需要人工排版，耗時耗力。編輯本段中文識別資料錄入文獻(xiàn)資料的數(shù)字化錄入，一般分為：　1．純圖像方式。　2．目錄文本、正文圖像方式?！?．全文本方式?！?．全文索引方式。文本方式和圖像方式的混合體。識別過程書本級：中文，英文；簡體，繁體；　版式級：豎排，橫排；有無分欄；　行切分　字切分　識別：真正的OCR識別過程，圖像信息還原成文本信息　后處理：人工干預(yù)，主要集中在前四個階段。識別結(jié)果決定因素1．圖片的質(zhì)量，一般建議150dpi以上　2．顏色，一般對彩色識別很差，黑白的圖片較高，因此建議ocr的為黑白tif格式　3．最重要的就是字體，如果是手寫識別率很低?！鴥?nèi)OCR識別簡體差錯率為萬分之三，如果要求更高的精度需要投入更大的人工干預(yù)。繁體識別由于繁體字庫的不統(tǒng)一性（民國時期的字庫和現(xiàn)在繁體字庫不統(tǒng)一），導(dǎo)致識別困難，在人工干預(yù)下，精度能達(dá)到90%以上（圖文清晰情況下）。編輯本段識別技巧1．分辨率的設(shè)置是文字識別的重要前提。一般來講，掃描儀提供較多的圖像信息，識別軟件比較容易得出識別結(jié)果。但也不是掃描分辨率設(shè)得越高識別正確率就越高。選擇300dpi或400dpi分辨率，適合大部分文檔掃描。注意文字原稿的掃描識別，設(shè)置掃描分辨率時千萬不要超過掃描儀的光學(xué)分辨率，不然會得不償失。下面是部分典型設(shè)置，僅供參考?！?1)1、2、3號字的文章段，推薦使用200dpi。　(2)4、小4、5號字的文章段，推薦使用300dpl　(3)小5、6號字的文章段，推薦使用400dpl　(4)7、8號字的文章段，推薦使用600dpi?！?．掃描時適當(dāng)?shù)卣{(diào)整好亮度和對比度值，使掃描文件黑白分明。這對識別率的影響最為關(guān)鍵，掃描亮度和對比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細(xì)但又不斷開為原則。進(jìn)行識別前，先看看掃描得到的圖像中文字質(zhì)量如何，如果圖像存在黑點或黑斑時或文字線條很粗很黑，分不清筆畫時，說明亮度值太小了，應(yīng)該增加亮度值在試試；如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時，說明亮度值太大了，應(yīng)減小亮度后再試試?！?．選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識別工作的基礎(chǔ)，一般不要使用掃描儀自帶的OEM軟件，OEM的OCR軟件的功能少、效果差，有的甚至沒有中文識別?！≡龠x一個圖像軟件，第一，OCR軟件不能識別所有的掃描儀；第二，也是最關(guān)鍵的，利用圖像軟件的掃描接口掃描出來的圖像便于處理。　4．如果要進(jìn)行的文本是帶有格式的，如粗體、斜體、首行縮進(jìn)等，部分OCR軟件識別不出來，會丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本，事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識別系統(tǒng)，使軟件集中注意力查找正確的字符，不再顧及字體和字體格式?！?．在掃描識別報紙或其他半透明文稿時，背面的文字透過紙張混淆文字字形，對識別會造成很大的障礙。遇到該類掃描，只要在掃描原稿的背面附。蓋一張黑紙，掃描時，增加掃描對比度，即可減少背面模糊字體的影響，提高識別正確率，　6．一般文本掃描原稿都為黑、白兩色原稿，但是在掃描設(shè)置時卻常將掃描模式設(shè)為灰度模式。特別是在原稿質(zhì)量較差時，使用灰度模式掃描，并在掃描軟件處理完后再繼續(xù)識別，這樣會得到較好的識別正確率。值得注意的是OCR識別軟件可以自己確定閥值，幾個百分點的閥值差異，可能就會影響識別的正常進(jìn)行。當(dāng)然，得到的圖像文件的大小會比黑白文件大很多。在進(jìn)行大批量文稿掃描時，必須對原稿進(jìn)行測試，找到最佳的閥值百分比?！?．遇到圖文混排的掃描原稿，首先明確使用的識別軟件是否支持自動分析圖文這一功能。如果支持的話，在進(jìn)行這類掃描識別時，OCR軟件會自動計算出文本的內(nèi)容、位置和先后順序。文字部分可以按照標(biāo)示順序正常識別?！?．手動選取掃描區(qū)域會有更好識別效果。設(shè)置好參數(shù)后，先預(yù)覽一下，然后開始選取掃描區(qū)域。不要將要用的文章一股腦兒選在一個區(qū)域內(nèi)，因為現(xiàn)在的文章排版為了追求更好的視覺效果，使用圖文混排的較多，掃成一幅圖像會影響OCR識別。因此，要根據(jù)實際情況將版面分成N個區(qū)域，怎么劃分區(qū)域呢？每一區(qū)域內(nèi)的文字字體、字號最好一致，沒有圖形、圖像，每一行的寬度一致，遇到長短不一，再細(xì)分，一般一次最多可掃描10個選區(qū)。根據(jù)不同情況，合理地設(shè)置識別區(qū)域的順序。不要嫌這個過程太煩，那可是提高識別率的有效手段。注意各識別區(qū)域不能有交叉，做到一切覺得完好以后再進(jìn)行識別。這樣一般的識別率會在95%以上，對于識別不正確的文字進(jìn)行校對后，就可以進(jìn)入相應(yīng)的文字處理軟件進(jìn)行所需的處理了。9．在放置掃描原稿時，把掃描的文字材料一定要擺放在掃描起始線正中，以最大限度地減小由于光學(xué)透鏡導(dǎo)致的失真。同時應(yīng)保護(hù)掃描儀玻璃的干凈和不受損害。文字有一定角度的傾斜，或者是原稿文字部分為不正規(guī)排版，必須在掃描后使用旋轉(zhuǎn)工具，進(jìn)行糾正；否則OCR識別軟件會將水平筆劃當(dāng)做斜筆劃處理，識別正確率會下降很多。建議用戶盡量將掃描原稿放正，用工具旋轉(zhuǎn)糾正會降低圖像質(zhì)量，使字符識別更加困難?！?0．先"預(yù)覽"整體版面，選定要掃描的區(qū)域，再用"放大預(yù)覽"工具，選擇一小塊進(jìn)行放大顯示到全屏幕，觀察其文字的對比度，文字的深淺濃度，據(jù)情況調(diào)整"閥值"的大小，最終要求文字清晰，不濃(文字成團)，不淡(文字?jǐn)喙P伐)，一般在"閥值"80左右為宜，最后再掃描。　11．用工具擦掉圖像污點，包括原來版面中的不需要識別的插圖、分隔線等，使文字圖像中除了文字沒有一點多余的東西；這可以大提高識別率并減少識別后的修改工作?！?2．如果要掃描印刷質(zhì)量稍微差一些的文章，比如說報紙，掃描的結(jié)果將不會黑白分明，會出現(xiàn)大量的黑點，而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象，這兩項可是漢字識別的大忌，將嚴(yán)重影響漢字識別的正確率。為獲得較好的識別結(jié)果，必須仔細(xì)進(jìn)行色調(diào)調(diào)節(jié)，反復(fù)掃描多次才能獲得比較理想的結(jié)果。另外由于報紙很薄且大部分紙質(zhì)不高，導(dǎo)致掃描儀上蓋板不能完全壓住報紙(有縫隙)，所以一般情況下報紙的掃描識別效果沒有雜志的效果好。解決辦法是在報紙上壓一至兩本16K的雜志，效果還是不錯的。目前國內(nèi)最有實力的OCR公司有：云脈(www.yunmai.cn), 漢王（www.hangwang.com.cn), 文通（www.wintone.com.cn）

文字識別就是將掃描的不能復(fù)制編輯的文字識別成可以復(fù)制編輯的文字。我空間有這種文字識別軟件下載的

經(jīng)常用掃描儀的朋友可能對OCR并不陌生．OCR即Optiotd Character Recognition．中文含義就是光學(xué)字符識別的意思，就是將圖像作一個轉(zhuǎn)換，使圖像內(nèi)的圖形繼續(xù)保存．將文字識別出來．這樣使人們從繁重的鍵盤錄入的勞動中解脫出來。目前幾乎所有掃描儀都附帶有OCR識別軟件．但遺憾的是即使是同一個OCR軟件識別的正確率差距也較大。目前比較常見的OCR軟件有清華紫光和尚書六號。掃描儀的一個重要功能就是通過OCR軟件（即文字識別軟件）將掃描后的文字圖像轉(zhuǎn)換成文本格式的文件，使文字處理軟件能夠調(diào)用處理。這樣可以大大提高文字錄入速度，極大地提高工作效率。目前，文字識別軟件主要有《尚書OCR》、《漢王OCR》和《紫光OCR》等幾種。不過，我們在進(jìn)行文字識別時經(jīng)常會遇到識別率低的問題，其原因除了被識別稿件有問題外，主要還是我們沒有掌握好掃描及OCR識別軟件的使用技巧。那么進(jìn)行文字識別時有哪些技巧呢？一、根據(jù)識別稿的質(zhì)量進(jìn)行處理進(jìn)行掃描識別時，在可能的情況下應(yīng)盡量選擇清晰度與潔凈度都很高的識別稿，識別稿的清晰度與潔凈度的不同會使掃描后的識別率有很大差距。對一般的印刷稿、打印稿等質(zhì)量較好的文稿進(jìn)行識別，只要掌握好方法與技巧，其識別率一般可達(dá)到98％以上。而對報紙、雜志等清晰度不佳的原稿進(jìn)行識別，無論使用何種識別軟件都難以達(dá)到很高的識別率。 1.對一些帶有下劃線、分隔線等符號的文本原稿，有些OCR軟件是識別不出的，一般會出現(xiàn)亂碼。如果必須掃描帶有這些符號的原稿，一是要確保使用的識別軟件能夠識別這些符號。二是使用工具擦掉這些特殊符號，使識別軟件能正確識別這些文字。如果掃描后的文檔中含有OCR軟件不能識別的圖像、圖形和一些特殊符號，可以考慮使用“擦拭”工具將文檔中的圖像、圖形和一些特殊符號擦除，同時將圖像上一些雜點也一并去除。使圖像中除了文字沒有多余的東西，這可以大大提高識別率并減少識別后的修改工作。 2.在掃描識別報紙或紙張較薄的文稿時，掃描時稿件背面的文字通常會透過紙張造成錯字或亂碼，使識別率大大降低。在對這類原稿掃描時，我們可以在原稿的背面覆蓋一張黑紙，在進(jìn)行正式掃描時，適當(dāng)增加掃描對比度或亮度，即可有效提高識別率。 3.對于一些圖文混排的原稿，掃描成一幅圖像進(jìn)行全區(qū)識別會嚴(yán)重影響OCR軟件的識別率。我們可以根據(jù)實際情況將掃描后的版面切分成多個區(qū)域后再識別，切分區(qū)域的原則是：將圖形、圖像排除在區(qū)域之外（圖1），盡量把文字字體、字號一致的劃在一個區(qū)域內(nèi)，不要嫌這個過程煩瑣而選用自動切分區(qū)域，手動選取掃描區(qū)域會有更好識別效果，還應(yīng)注意各識別區(qū)域不能有交叉情況。二、掃描識別稿的操作技巧 1.首先要保持工作環(huán)境的清潔，掃描儀的玻璃板以及若干個反光鏡片及鏡頭，其中任何一部分臟污都會影響掃描文字圖像的效果。因此，保持掃描儀的清潔是確保文字圖像掃描質(zhì)量及識別率較高的重要前提。 2.掃描儀在剛開啟時，光源的穩(wěn)定性較差，而且光源的色溫也沒有達(dá)到正常工作所需的色溫，所以開始掃描以前最好先讓掃描儀預(yù)熱一段時間。 3.在放置掃描原稿時，把掃描的文字材料擺放在掃描起始線正中，可以最大限度地避免由于光學(xué)透鏡導(dǎo)致的失真而影響識別率。 4.掃描后的文字圖像經(jīng)常會有一定角度的傾斜，出現(xiàn)這種情況必須在掃描后使用自動或手動旋轉(zhuǎn)工具進(jìn)行糾正，OCR軟件一般都設(shè)有自動糾偏和手動糾偏工具。否則OCR識別軟件會將水平筆畫當(dāng)作斜筆畫處理，識別率會下降很多。如果掃描后的文字圖像傾斜角度超過15°，傾斜校正會產(chǎn)生較大的失真和誤差，從而嚴(yán)重影響識別率，這種情況建議擺正原稿重新掃描。三、掃描參數(shù)的設(shè)置掃描參數(shù)的設(shè)置主要包括分辨率的設(shè)置及亮度和對比度的設(shè)置。 1.一般來講，分辨率越高識別率也就會越高。但這也不是絕對的，對于一些過大過粗的字體，設(shè)置過高的分辨率，識別率可能會降低，而且設(shè)置高分辨率后，掃描速度會大大降低。根據(jù)實際經(jīng)驗，1、2、3號字的文稿推薦使用200dpi，4、小4、5號字的文稿推薦使用300dpi，小5、6號字的文稿推薦使用400dpi，7、8號字的文稿推薦使用600dpi 2.掃描時適當(dāng)?shù)卣{(diào)整好亮度和對比度值，對識別率的高低影響很大，在進(jìn)行掃描亮度和對比度的設(shè)定時（圖3），以掃描后的圖像中文字的筆畫較細(xì)、均勻，且沒有明顯斷點為準(zhǔn)。如果掃描后的文字圖像存在黑點、黑斑或文字線條很粗很黑，分不清筆畫，說明亮度值太小，應(yīng)該增加亮度值再重新掃描。如果文字線條凹凸不平，有斷線甚至圖像中漢字輪廓嚴(yán)重殘缺時，說明亮度值太大，應(yīng)減小亮度后再重新掃描。如果要掃描質(zhì)量比較差的文稿，比如報紙，掃描出的圖像可能會出現(xiàn)大量的黑點，而且在字體的筆畫上也會出現(xiàn)粘連現(xiàn)象，為獲得較好的識別結(jié)果，必須仔細(xì)進(jìn)行亮度和對比度值的調(diào)整，反復(fù)掃描多次才能獲得比較理想的效果。四、識別后的處理工作 1.文字校正文字校正是OCR識別工作中比較煩瑣的一步。一般OCR軟件對可能出現(xiàn)錯誤的文字，會顯示出藍(lán)色標(biāo)記，請用戶確認(rèn)。但在沒有提示出錯的地方，也有可能出錯。所以大家在校對時應(yīng)該通讀一遍，以提高文字錄入的準(zhǔn)確率。 2.識別后文本的保存如果把識別后的文本簡單復(fù)制粘貼到Word中保存處理，就需要去掉多余的硬回車，這樣會非常麻煩。正確方法是：先將識別后的文本存盤，在存盤時設(shè)置為軟回車就行了。對于《紫光OCR》，則需要在識別完成后，選擇文件菜單下的導(dǎo)出命令，將存儲類型選為TXT，段內(nèi)回車字符選為無。注意：一定不要直接存盤，否則不能自動去掉文章的硬回車。《尚書OCR》、《漢王OCR》和《紫光OCR》都提供了段內(nèi)去除硬回車的功能。

文字識別軟件是什么

字體識別軟件，有沒有識別字體的軟件

本文目錄一覽

1，有沒有識別字體的軟件

2，文字識別軟件是什么

推薦閱讀

熱文

字體識別軟件，有沒有識別字體的軟件

本文目錄一覽

1，有沒有識別字體的軟件

2，文字識別軟件是什么

推薦閱讀

熱文

2，文字識別軟件是什么