LLaMA는 OpenAI의 GPT와 유사한 자연어 모델로, 직접적인 OCR 기능을 제공하지 않습니다. OCR(Optical C…
페이지 정보
작성자 bryanai 작성일 24-11-15 23:28 조회 257 댓글 0본문
구글 코랩
https://colab.research.google.com/drive/1oKGzCAUKKaHNDURsxmwlWIUC1Hx8GAve?usp=sharing
LLaMA는 OpenAI의 GPT와 유사한 자연어 모델로, 직접적인 OCR 기능을 제공하지 않습니다. OCR(Optical Character Recognition)을 수행하려면 Tesseract, EasyOCR, 또는 Hugging Face의 LayoutLM 같은 툴을 사용하는 것이 적합합니다.
하지만 Hugging Face의 LayoutLM을 활용한 간단한 OCR 코드 예제를 작성해 보겠습니다. LayoutLM은 OCR 데이터를 텍스트로 처리하는 데 유용한 라이브러리입니다.
!pip install transformers
!pip install datasets
!pip install torchvision
from transformers import LayoutLMTokenizer, LayoutLMForTokenClassification
from PIL import Image
import torch
# LayoutLM 모델과 토크나이저 로드
tokenizer = LayoutLMTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")
# 이미지 업로드 (OCR 대상)
from google.colab import files
uploaded = files.upload()
image_path = list(uploaded.keys())[0]
# 이미지 열기
image = Image.open(image_path).convert("RGB")
# 이미지 전처리 및 토큰화
inputs = tokenizer.encode_plus("Placeholder text", return_tensors="pt")
# 모델에 이미지 전달
outputs = model(**inputs)
# 결과 해석
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
predictions = torch.argmax(outputs.logits, dim=2)
predicted_labels = [model.config.id2label[label.item()] for label in predictions[0]]
# 결과 출력
print("Tokens:", tokens)
print("Predicted Labels:", predicted_labels)
import pytesseract
from PIL import Image
from google.colab import files
# 이미지 업로드
uploaded = files.upload()
image_path = list(uploaded.keys())[0]
# 이미지 열기
image = Image.open(image_path)
# Tesseract OCR 수행
text = pytesseract.image_to_string(image, lang='eng') # 'eng' 대신 'kor'로 변경하면 한국어 지원 가능
# 결과 출력
print("OCR 결과:")
print(text)
관련링크
- 이전글 트윈모션 기초 30분만에 박살내기
- 다음글 Llama-OCR 로컬 설치 - Llama 3.2 Vision을 사용하여 Markdown OCR 라이브러리로 문서화, Install Llama-OCR Locally - Document to Markdown OCR Library with Llama 3.2 Vision
댓글목록 0
등록된 댓글이 없습니다.