OCR (Optical Character Recognition)은 스캔한 문서내의 이미지화 된 문자를 컴퓨터가 인식할 수 있는 텍스트로 변환하는등 사진이나 그림에 포함된 문자를 IT장비가 인식하는 기술입니다.
과거에는 상당한 기술력이 필요하여 고가의 프로그램을 사용해야만 제대로된 인식이 가능했었는데, 지금은 다양한 OCR TOOL 들을 사용할 수 있는 편리한 시대에 우리가 살고 있는데요.
이중에서 가장 접근하기 쉽고 강력한 인식을 자랑하는 것이 구글에서 서비스하는 온라인 문서편집기인 구글 문서를 이용하는 방법입니다. 온라인에서 진행되는 만큼 별도의 고가 프로그램이 필요없어 편리한데요.
오늘은 Google 드라이브와 Google 문서를 이용하여
스캔한 이미지와 PDF 문서등에 포함된 글자를
편집 가능한 텍스트 파일로 빠르게 변환하는 방법을 소개합니다.
먼저 연습에 필요한 문서가 필요합니다. 텍스트 파일로 변환 할 PDF 문서 또는 글자가 포함된 이미지를 준비합니다.
참고로 Google 드라이브는 현재 최대 2MB 크기의 .jpg, .gif, .png 및 PDF 파일에 대한 OCR을 지원합니다.
또한, 여러 페이지를 텍스트로 변환하려면 모든 페이지를 한 번에 업로드 할 수 있으므로 PDF 형식이 가장 효율적이며, 가능한 높은 해상도의 문서를 추천합니다. 또한, 스캔할 텍스트의 방향이 가로형이고 왼쪽에서 오른쪽으로 기록된 문서를 권장합니다.
따라하기
1. Google 드라이브를 실행합니다. 구글 첫화면의 우측상단의 도구함에 있습니다.▼
(또는 drive.google.com 으로 이동)
2. 왼쪽의 '새로 만들기' 또는 내 드라이브 페이지에서 빈화면에 '마우스 오른메뉴 - 파일업로드'를 선택하여 OCR 작업을 할 PDF 문서를 업로드합니다. ▼
3. PDF파일이 업로드 되면, 해당 문서에서 '마우스 오른 메뉴 - 연결앱 - Google 문서' 를 선택합니다. ▼
4. 잠시후 PDF가 텍스트로 변환되고 구글드라이브에 새로운 구글 문서로 추가됩니다. 단, 서식이 거의 적용되지 않은 상태로 Google 문서로 열리니 이제 새 텍스트 파일을 원하는대로 편집을 하면 됩니다. ▼
5. 이미지 파일도 위의 순서대로 진행하면 이미지에 포함된 텍스트를 추출할 수 있습니다. 변환이 완료되면 PDF와 달리 아래 그림처럼 원본이미지 아래에 추출된 TEXT 가 추가됩니다. ▼
이상으로 Google 드라이브와 Google 문서를 이용하여 스캔한 이미지와 PDF 문서내에 있는 글자를 편집 가능한 텍스트 파일로 빠르게 변환하는 방법을 소개하였습니다.
지금까지의 과정을 요약하면 아래와 같습니다.
■ 준비
1. 파일 형식 : .JPEG, .PNG, .GIF 또는 PDF (다중 페이지 문서) 파일
2. 파일 크기 : 파일 크기 는 2MB 이GK
3. 해상도 : 텍스트의 높이는 10 픽셀 이상
4. 기타 : 문서가 오른쪽을 향해야합니다. 이미지가 잘못된 방향을 향하고있는 경우 이미지를 회전하여 Google 드라이브에 업로드합니다.
5. 언어 : Google 드라이브는 문서의 언어를 감지합니다.
6. 글꼴 및 문자 집합 : 최상의 결과를 얻으려면 Arial 또는 Times New Roman과 같은 일반적인 글꼴을 사용하십시오.
7. 이미지 품질 : 균일 한 조명과 선명한 명암을 가진 선명한 이미지가 가장 좋습니다.
■ 사용법
1. 컴퓨터에서 drive.google.com 로 이동하십시오 .
2. 원하는 파일을 마우스 오른쪽 버튼으로 클릭하십시오.
3. Google 문서로 문서를 여세요.