스캔한 그림 문장 파일을 word 문서로 변환하려면 어떻게 해야 합니까?

텍스트를 스캔하여 그 결과를 컴퓨터에 그림 형식으로 저장합니다 (. Bmp) 로 이동합니다. 그런 다음 ORC 인식 시스템을 사용하여 변환하고 마지막으로 WORD 를 사용하여 수정합니다. 다음은 ORC 사용 방법입니다.

OCR 은 영어 광학 문자 인식의 약어입니다. 중국어로 번역하는 것은 광학 기술로 문자를 인식하는 것인데, 이는 자동인식 기술 연구와 응용의 중요한 측면이다. 문자를 자동으로 인식하고 컴퓨터에 입력하는 소프트웨어 기술로 스캐너와 함께 제공되는 주요 소프트웨어입니다. 키보드가 아닌 입력 범주에 속하며 이미지 입력 장치의 조화가 필요하며 주로 스캐너입니다. 현재 OCR 은 주로 문자 인식 소프트웨어를 나타냅니다. 시중에 나와 있는 스캐너와 OCR 소프트웨어는 1996 자광이 중국어 인식 소프트웨어와 일치하기 시작할 때까지 별도로 판매되고 있습니다. 전문 OCR 소프트웨어 "한자 인식 소프트웨어"? 공중에 매달려? 개구리 K 과부 학교? 너 진짜 우유 빚졌니? CR 소프트웨어도 계속 업그레이드되고 있습니다. 스캐너 업체는 현재 전문 OCR 소프트웨어를 판매하고 있으며 자체 스캐너가 포함되어 있습니다. OCR 기술의 급속한 발전은 스캐너의 광범위한 사용과 밀접한 관련이 있다. 최근 2 년 동안 스캐너가 보편화되고 OCR 기술이 향상됨에 따라 OCR 은 대부분의 스캐너 사용자에게 효과적인 도우미가 되었습니다.

첫째, OCR 기술 개발

1960 년대 초 1 세대 OCR 제품이 등장한 이후 30 여 년간의 지속적인 발전과 보완을 거쳐 손글씨를 포함한 각종 OCR 기술에 대한 연구가 주목할만한 성과를 거두었다. OCR 제품의 기능 요구사항도 인식률에서 인식 속도, 사용자 친화적인 인터페이스, 운영 편의성, 제품 안정성, 적응성, 안정성 및 업그레이드 용이성, 사전 판매 후 서비스 품질에 대한 높은 요구 사항으로 바뀌었습니다.

첫 번째 OCR 제품은 IBM 이 개발했습니다. 1965 년, IBM-IBML 287 의 OCR 제품이 뉴욕 엑스포에서 전시되었습니다. 당시 이 제품은 인쇄된 숫자, 영문자, 일부 기호만 인식할 수 있었고, 반드시 지정된 글꼴이어야 했다. 1960 년대 말 히타치 (Hitaci) 와 후지쯔 (Fujitsu) 도 자체 OCR 제품을 개발했다. 손글씨 우편 번호 인식을 실현하는 세계 최초의 자동편지 분류 시스템은 일본 도시바가 개발했으며, 2 년 후 NEC 도 같은 시스템을 선보였다. 1974 까지 편지 자동분류율은 약 92% 에 달하며 우편시스템에서 광범위하게 응용되어 좋은 역할을 했다. 1983 에서 일본 도시바는 인쇄된 일본어 문자를 인식하는 OCR 시스템인 OCRV595 를 발표했습니다. 인식속도는 초당 70 ~ 100 자, 인식률은 99.5% 입니다. 이후 도시바는 일본어 한자 인식 필기 연구를 시작했다.

우리나라는 OCR 기술에 대한 연구가 늦게 시작되었고, 70 년대부터 숫자, 영문자, 기호의 인식 기술을 연구하기 시작했고, 70 년대 말부터 한자 인식을 연구하기 시작했다. 65438 부터 0986 까지 정보 분야의 국가 863 프로그램은 칭화대, 베이징 정보직업기술학원, 선양자동화학원이 공동으로 중국어 OCR 소프트웨어를 개발할 계획이다. 칭화대는 1989 까지 국내 최초의 중국어 OCR 소프트웨어인 칭화문과 TH-OCR 1.0 을 선보였고, 중국어 OCR 은 실험실에서 시장으로 정식 진출했다. 칭화 OCR 인쇄체 한자 인식 소프트웨어는 나중에 TH-OCR 92 고성능 실용 간체/번체, 다중 글꼴, 다기능 인쇄체 한자 인식 시스템을 출시하여 인쇄체 한자 인식 기술을 크게 발전시켰다. 1994 가 내놓은 고성능 중영어 혼행 인쇄체 문자 인식 시스템인 TH-OCR 94 는 "국내외 최초의 중영어 혼행 인쇄체 문자 인식 시스템, 전반적으로 국제 선두에 있다" 는 평가를 받았다. 1990 년대 중후반 청화대 전자공학과는 한자 인식에 대한 종합 연구를 제기하고 전개하여 인쇄체 문자, 온라인 자필 한자 인식, 오프라인 자필 한자 인식, 오프라인 자필 디지털 기호 인식 등 분야에서 중요한 성과를 거두었다. 대표 성과는 TH-OCR 97 통합 한자 인식 시스템으로 여러 언어 (중국어, 영어, 일본어) 의 인쇄된 텍스트, 온라인 자필 한자, 오프라인 자필 한자, 자필 숫자의 인식 및 입력을 완료할 수 있습니다. 최근 몇 년 동안 칭화문과 TH-OCR 을 제외한 다른 스타일의 OCR 소프트웨어도 상서 SH-OCR 과 같이 잇따라 출시되었으며, 중국어 OCR 시장은 꾸준히 확대되어 사용자가 전 세계에 널리 퍼져 있다.

인쇄체 OCR 의 인식 기술이 이미 높은 수준에 도달했다고 할 수 있다. OCR 제품은 이전에 지정된 인쇄 숫자, 영문자 및 일부 기호만 인식할 수 있었던 강력한 컴퓨터 정보 빠른 입력 도구로 발전하여 레이아웃 및 인식 테이블을 자동으로 분석하여 혼합 문자, 여러 글꼴, 다양한 크기 및 가로줄 인식을 가능하게 했습니다. 인쇄 한자 인식률은 98% 이상이며 인쇄 품질이 좋지 않은 글자 인식률도 95% 이상이다. 송체, 흑체, 해서체, 모조 송체 등 다양한 글꼴의 간단한 번체를 인식할 수 있고, 다양한 글꼴, 다양한 크기의 혼합 조판을 인식할 수 있으며, 자필 한자 인식률이 70% 를 넘는다. 특히 10 여 년의 노력 끝에 우리나라의 한자 OCR 기술은 출발이 늦고 한자집의 방대한 어려움을 극복하고 문자 인식 속도 (단위 시간 동안 특징에서 인식 결과 출력까지 인출된 글자 수) 가 70 자/초 이상에 이를 수 있다. 인쇄체 OCR 한자 인식 기술이 성숙됨에 따라 OCR 제품은 뉴스, 인쇄, 출판, 도서관, 사무 자동화 등에 널리 사용되고 있습니다.

전문 OCR 제품은 주로 특정 업종을 대상으로 합니다. 즉, 매일 대량의 양식 정보 입력을 처리해야 하는 부서 (예: 우편, 세금, 세관, 통계 등) 에 적용됩니다. 특정 업종을 위한 이 전문 OCR 시스템은 형식이 상대적으로 고정되어 있고 문자 세트가 비교적 작으며 전용 입력 장치와 함께 자주 사용되기 때문에 메일 자동 분류 시스템과 같은 빠르고 효율적인 특징을 가지고 있습니다.

필기 원고 인식 제품은 1996 및 1997 에서 나온 것으로 인쇄 원고 인식 제품의 추가 기능으로 제공됩니다. 사람의 필기 습관의 차이가 매우 크기 때문에 자유 필기 인식을 실현하는 것은 상당히 어렵다. 따라서 필기 OCR 기술의 응용 분야는 온라인 필기 인식, 즉 사람 쓰기, 컴퓨터 인식, 실시간 인식 방법입니다.

둘째, OCR 의 기본 원리

간단히 말해서, OCR 의 기본 원칙은 스캐너를 통해 원고의 이미지를 컴퓨터에 입력한 다음 컴퓨터가 각 문자의 이미지를 꺼내서 한자 코드로 변환하는 것입니다. 구체적인 작업 과정은 스캐너가 전하 커플러 CCD 를 통해 한자 원고의 광신호를 전기 신호로 변환한 다음 아날로그/디지털 변환기를 통해 디지털 신호로 변환하여 컴퓨터로 전송하는 것이다. 컴퓨터는 원고의 디지털 이미지를 받아들인다. 이미지의 한자는 인쇄체 한자일 수도 있고 필기체 한자일 수도 있고, 그 중 한자를 인식할 수도 있다. 인쇄된 문자의 경우 먼저 광학 수단을 통해 문서 데이터를 원본 흑백 래스터 이미지 파일로 변환한 다음 인식 소프트웨어를 통해 이미지의 문자를 텍스트 형식으로 변환하여 워드 프로세싱 소프트웨어가 추가로 처리할 수 있도록 합니다. 여기서 문자 인식은 OCR 의 중요한 기술입니다.

1.OCR 인식의 두 가지 방법

다른 정보 데이터와 마찬가지로 컴퓨터의 모든 스캐너에서 캡처한 그래픽 정보는 0 과 1 두 개의 숫자로 기록되고 인식되며 모든 정보는 0 과 1 으로 저장된 일련의 점 또는 샘플 점일 뿐입니다. OCR 인식 프로그램은 주로 셀 패턴 일치 및 피쳐 추출을 통해 페이지의 문자 정보를 인식합니다.

패턴 매칭은 표준 글꼴과 글꼴 크기 비트맵을 사용하여 각 문자와 파일을 느슨하게 비교하는 것입니다. 응용 프로그램에 문자가 저장된 큰 데이터베이스가 있는 경우 응용 프로그램은 정확한 일치를 위해 적절한 문자를 선택합니다. 소프트웨어는 가장 유사한 일치를 찾기 위해 몇 가지 처리 기술을 사용해야 합니다. 일반적으로 동일한 문자의 다른 버전을 계속 시도하여 비교합니다. 일부 소프트웨어는 한 페이지의 문자를 스캔하여 새 글꼴을 정의하는 각 문자를 식별할 수 있습니다. 일부 소프트웨어는 자체 인식 기술을 사용하여 페이지의 문자를 가능한 한 많이 식별한 다음 인식할 수 없는 문자를 수동으로 선택하거나 직접 입력합니다.

피쳐 추출은 각 문자를 대각선, 수평선 및 곡선을 포함한 여러 가지 다른 문자 특성으로 분해하는 것입니다. 그런 다음 이러한 특징을 이해 (인식) 한 문자와 일치시킵니다. 간단한 예를 들어, 응용 프로그램이 두 개의 수평선을 인식하면 이 문자가 "2" 일 수 있다고 "생각" 합니다. 피쳐 추출법의 장점은 여러 글꼴을 인식할 수 있다는 것입니다. 예를 들어 중국 서예는 특징 추출 방법을 통해 이뤄진다.

대부분의 OCR 응용 프로그램에는 구문 스마트 검사 기능이 추가되어 인식률이 더욱 향상되었습니다. 주로 컨텍스트 검사를 통해 철자와 구문을 수정합니다. 문자 인식에서 OCR 응용 프로그램은 프로그램에 이미 있는 구문과 고정된 단어 순서에 따라 문자열을 검사하는 단어에 해당하는 많은 컨텍스트 연결 검사를 수행합니다. 고급 앱은 자동으로 잘못된 단어를' 생각하는' 단어로 바꿔 문장의 뜻을 바로잡는다.

2. 문자 인식의 몇 가지 단계

문자 인식에는 그래픽 입력, 사전 처리, 단어 인식 및 사후 처리 단계가 포함됩니다.

(1) 그래픽 입력

입력 장치를 통해 컴퓨터에 파일을 가져오는 것, 즉 원고를 디지털화하는 것을 말합니다. 현재 널리 사용되는 장치는 스캐너입니다. 문서 이미지의 스캔 품질은 OCR 소프트웨어가 올바르게 인식하기 위한 전제 조건입니다. 스캔 해상도 및 관련 매개변수를 올바르게 선택하는 것이 문자가 명확하고 손실되지 않도록 하는 열쇠입니다. 또한 사전 처리 감지의 기울기 각도가 작고 기울기 보정 후 텍스트 이미지의 변형이 작도록 문서를 가능한 정확하게 배치해야 합니다. 이러한 간단한 작업은 시스템의 인식 정확도를 향상시킵니다. 한편, 부적절한 스캔 설정으로 인해 펜 끊기가 너무 많으면 문자 이미지의 절반이 분리될 수 있습니다. 깨진 펜과 획이 접착되어 일부 특징이 손실될 수 있다. 피쳐를 피쳐 라이브러리와 비교하면 피쳐 거리가 증가하고 인식 오류율이 증가합니다.

(2) 전처리

단순 인쇄된 문서의 이미지를 스캔하고, 각 문자 이미지를 정리하고, 인식 모듈에 전달하여 인식하는 프로세스를 이미지 사전 처리라고 합니다. 사전 처리는 이미지 정화, 원본 이미지에서 뚜렷한 소음 제거 (간섭) 를 포함한 문자 인식 전 준비 작업입니다. 주요 작업은 문서의 기울기 각도를 측정하고, 문서의 레이아웃을 분석하고, 선택한 텍스트 필드의 레이아웃을 확인하고, 가로 및 세로 레이아웃에서 텍스트 행을 분할하고, 각 행에서 텍스트 이미지를 분리하고, 구두점을 구분하는 것입니다. 이 단계의 작업은 매우 중요하며, 처리의 효과는 문자 인식의 정확도에 직접적인 영향을 미친다.

레이아웃 분석은 텍스트 이미지에 대한 전체 분석으로 문서의 모든 텍스트 블록을 빗질하고, 텍스트 단락과 조판 순서, 이미지와 표 영역을 구분합니다. 각 텍스트 블록의 필드 경계 (이미지에서 필드의 시작점과 끝점의 좌표), 필드의 속성 (가로 및 세로 레이아웃) 및 각 텍스트 블록의 연결 관계는 자동으로 인식되는 데이터 구조로 식별 모듈에 제공됩니다. 텍스트 영역은 직접 인식되고, 테이블 영역은 분석 인식, 이미지 영역 압축 또는 단순 저장을 전문으로 합니다. 줄 분할은 먼저 큰 이미지를 줄로 자른 다음 이미지 줄에서 단일 문자를 분리하는 과정입니다.

(3) 단어 인식

단어 인식은 OCR 문자 인식의 핵심 기술입니다. 컴퓨터를 "인식" 하는 것, 즉 인식 기술은 스캔한 텍스트에서 감지된 텍스트 이미지의 그래픽과 이미지를 텍스트로 변환하는 표준 코드입니다. 인간의 뇌가 단어를 아는 것은 단어의 구조, 단어의 획과 같은 단어의 다양한 특징을 보존하기 때문이다. 컴퓨터가 문자를 인식하도록 하려면 먼저 문자와 같은 정보를 컴퓨터에 저장해야 하지만, 어떤 정보를 저장하고 얻는 방법은 매우 복잡한 프로세스이므로 요구 사항을 충족하기 위해서는 매우 높은 인식률을 달성해야 합니다. 일반적인 방법은 문자의 획, 특징점, 투영 정보 및 점의 영역 분포를 기준으로 문자를 분석하는 것입니다.

중국에서 자주 사용하는 한자는 수천 개가 있는데, 인식 기술은 바로 특징 비교 기술이다. 인식 피쳐 라이브러리와 비교하여 피쳐에 가장 유사한 단어를 찾아 해당 단어의 표준 코드를 추출하는 것이 인식 결과입니다. 비교는 사람들이 사물을 인식하는 기본적인 방식이다. 한자 인식도 비교를 통해 한자 사이의 공통점, 유사점, 차이점을 찾아내 수량과 품질의 관계, 시간과 공간의 관계를 파악하는 것이다. 문자 세트가 큰 한자의 경우 일반적으로 다단계 분류, 다중 특징, 전방위적 동적 일치를 사용하여 유사한 세트를 찾아 분류율이 높고 적응성이 뛰어나며 안정성이 우수합니다. 세밀한 분류의 중점은 유사성 일치, 가중 처리, 구조적 차별, 정량 정성 분석, 전후 접속사 관계, 그리고 마지막으로 판별이다. 한자 인식은 본질적으로 인공지능에서 비교 과학이나 인지과학의 응용이며, 그 핵심 기술은 특징 라이브러리를 식별하는 것이다. 이런 특징 라이브러리를 사용해야만 컴퓨터가 단어 인식 기능을 완성할 수 있다.

이미지 문서의 레이아웃에는 텍스트와 그림뿐만 아니라 표도 있습니다. 인식된 테이블을 디지타이즈하려면 레이아웃 분석 중 테이블 행의 구조 정보 추출, 테이블의 텍스트 필드 정렬, 테이블 행 및 텍스트 필드 식별, 테이블 행의 디지타이즈에 따라 다른 파일 형식 생성 등 테이블 필드를 특수하게 처리해야 합니다. 문서의 테이블은 임의적이고 다양하며 폐쇄적이며 개방되어 있으며, 특히 테이블의 슬래시가 있기 때문에 테이블을 분석하기가 어렵습니다.

(4) 사후 처리

사후 처리는 인식된 단어나 여러 인식 결과를 구 형식으로 위아래로 일치시키고, 단어 인식의 결과를 나누고, 어고의 구와 비교함으로써 시스템 인식률을 높이고, 오인식률을 낮추는 것을 말합니다.

한자 인식은 문자 인식 분야에서 가장 어려운 문제입니다. 패턴 인식, 이미지 처리, 디지털 신호 처리, 자연어 이해, 인공지능, 모호수학, 정보론, 컴퓨터, 중국어 정보 처리 등 학과는 종합적인 기술입니다. 최근 몇 년 동안 인쇄체 한자 인식 시스템의 정확한 인식률은 이미 95% 를 넘어섰다. 시스템의 전반적인 인식률을 더욱 높이기 위해 스캔 이미지, 이미지 사전 처리 및 사후 인식 기술에 대해서도 심도 있는 연구를 진행했으며, 인쇄체 한자 인식 시스템의 전반적인 성능을 효과적으로 향상시켰습니다. 칭화대는 이 분야에서 탁월한 성과를 거두어 세계에서 가장 권위 있는 기관 중 하나가 되었다. 현재 자광의 모든 스캐너에는 칭화 OCR 밀레니엄 소프트웨어가 장착되어 있어 인식률, 표 인식, 심지어 규범적인 필기 인식까지 높은 수준에 이르렀다.

셋째, OCR 텍스트 인식 기술

최근 몇 년 동안 스캐너가 보급됨에 따라 OCR 인식 기술이 급속히 발전하면서 스캔 인식 소프트웨어의 성능이 지속적으로 강화되어 지능화로 업그레이드되었습니다. 그러나 정확한 스캔 결과를 빠르게 얻고 효율적인 문자 입력을 얻으려면 관련 지식을 열심히 공부하고 실무 경험과 결합해 나만의 전체 솔루션을 모색해야 한다. 때때로 우리는 문자 인식을 하는데, 인식률이 매우 낮아서 소프트웨어가 말하는 95% 이상에 미치지 못한다. 먼저 하드웨어나 소프트웨어를 탓하지 마세요. 이것이 우리가 아직 스캔과 OCR 인식 기술을 익히지 못한 이유이다.

다음은 문자 인식 작업에 일반적으로 사용되는 몇 가지 방법과 기술입니다.

1. 해상도 설정은 문자 인식을 위한 중요한 전제 조건입니다. 일반적으로 스캐너는 더 많은 이미지 정보를 제공하며 인식 소프트웨어는 쉽게 식별 결과를 얻을 수 있습니다. 그러나 스캔 해상도를 높게 설정할수록 인식 정확도가 높아지는 것은 아닙니다. 대부분의 문서를 스캔하는 데 적합한 300dpi 또는 400dpi 해상도를 선택합니다. 원문의 스캔 인식을 주의해서 스캔 해상도를 설정할 때 스캐너의 광학 해상도를 초과하지 않도록 해야 한다. 그렇지 않으면 득실할 수 없다. 다음은 정보 제공만을 목적으로 하는 몇 가지 일반적인 설정입니다.

(1) 1, 2,3, 200dpi 권장.

(2)4, 5 번 작은 단락은 300dpl 을 추천한다.

(3) 번호가 작은 5, 6 항은 400dpl 을 추천한다.

(4) 단락 7, 8 은 600dpi 사용을 권장합니다.

2. 스캔할 때 밝기와 대비 값을 적절히 조정하여 스캔된 파일을 흑백으로 만듭니다. 이것은 인식율의 핵심이다. 스캔 밝기와 대비 값의 설정은 스캔한 이미지에서 한자의 가는 획을 관찰하지만 멈추지 않는 원리를 기반으로 한다. 인식하기 전에 스캔한 이미지에서 문자의 품질을 살펴보십시오. 그림에 검은 점이나 검은 점이 있거나 글자의 선이 굵고 어두우면 획이 잘 구분되지 않아 밝기 값이 너무 작다는 것을 알 수 있습니다. 밝기 값을 늘려 다시 시도해야 합니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 밝기명언) 이미지의 텍스트 선이 울퉁불퉁하거나 부러지거나 한자 윤곽이 심하게 불완전하면 밝기 값이 너무 크다는 것을 나타내므로 밝기를 낮추고 다시 시도해야 합니다.

3. 스캔 소프트웨어를 선택합니다. 자신에게 적합한 OCR 소프트웨어를 선택하는 것은 문자 인식을 위한 기초이다. 일반적으로 스캐너와 함께 제공되는 OEM 소프트웨어를 사용해서는 안 됩니다. OEM 의 OCR 소프트웨어는 기능이 적고, 효과가 나쁘며, 어떤 것은 심지어 중국어 인식도 없다. 대조적으로, 나는 보라색 OCR2003 프로페셔널과 상서 OCR6.0 텍스트 자동 인식 입력 시스템의 인식 능력과 사용 기능이 더욱 두드러진다고 생각한다. 다른 이미지 소프트웨어를 선택합니다. OCR 소프트웨어에 스캔 인터페이스가 없습니까? 왜 이미지 소프트웨어를 찾아야 합니까? 첫째, OCR 소프트웨어는 모든 스캐너를 인식하지 못합니다. 둘째, 가장 중요한 점으로, 영상 소프트웨어의 스캔 인터페이스에서 스캔한 영상은 처리하기 쉽다. 일반적으로 PHOTOSHOP 을 선택합니다.

4. 텍스트를 굵게, 기울임꼴, 첫 줄 들여쓰기 등 포맷할 경우. , 일부 OCR 소프트웨어는 인식하지 못하고 형식이 손실되거나 깨질 수 있습니다. 서식있는 텍스트를 스캔해야 하는 경우 사용 중인 인식 소프트웨어가 텍스트 형식 스캔을 미리 지원하는지 확인합니다. 또한 패턴 인식 시스템을 꺼서 글꼴 및 글꼴 형식에 관계없이 올바른 문자를 찾는 데 집중할 수 있습니다.

참조: /question/27443880.html? Fr=qrl3