SEARCH

Statistics

현재 접속자 266 명
오늘 방문자 8,542 명
어제 방문자 11,305 명
최대 방문자 35,233 명
전체 방문자 4,391,476 명
전체 회원수 221 명
전체 게시물 5,417 개
전체 댓글수 10 개

AI강의동영상

LLaMA는 OpenAI의 GPT와 유사한 자연어 모델로, 직접적인 OCR 기능을 제공하지 않습니다. OCR(Optical Character Recognition)을 수행하려면 Tesseract, EasyOCR, 또는 Hugging Face의 LayoutLM 같은 툴을 사용하는 것이 적?

작성자 bryanai
작성일 2024.11.15 23:28

조회 7,283

구글 코랩

https://colab.research.google.com/drive/1oKGzCAUKKaHNDURsxmwlWIUC1Hx8GAve?usp=sharing

LLaMA는 OpenAI의 GPT와 유사한 자연어 모델로, 직접적인 OCR 기능을 제공하지 않습니다. OCR(Optical Character Recognition)을 수행하려면 Tesseract, EasyOCR, 또는 Hugging Face의 LayoutLM 같은 툴을 사용하는 것이 적합합니다.

하지만 Hugging Face의 LayoutLM을 활용한 간단한 OCR 코드 예제를 작성해 보겠습니다. LayoutLM은 OCR 데이터를 텍스트로 처리하는 데 유용한 라이브러리입니다.

!pip install transformers
!pip install datasets
!pip install torchvision


from transformers import LayoutLMTokenizer, LayoutLMForTokenClassification
from PIL import Image
import torch

# LayoutLM 모델과 토크나이저 로드
tokenizer = LayoutLMTokenizer.from_pretrained("microsoft/layoutlm-base-uncased")
model = LayoutLMForTokenClassification.from_pretrained("microsoft/layoutlm-base-uncased")

# 이미지 업로드 (OCR 대상)
from google.colab import files
uploaded = files.upload()
image_path = list(uploaded.keys())[0]

# 이미지 열기
image = Image.open(image_path).convert("RGB")

# 이미지 전처리 및 토큰화
inputs = tokenizer.encode_plus("Placeholder text", return_tensors="pt")

# 모델에 이미지 전달
outputs = model(**inputs)

# 결과 해석
tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
predictions = torch.argmax(outputs.logits, dim=2)
predicted_labels = [model.config.id2label[label.item()] for label in predictions[0]]

# 결과 출력
print("Tokens:", tokens)
print("Predicted Labels:", predicted_labels)




import pytesseract
from PIL import Image
from google.colab import files

# 이미지 업로드
uploaded = files.upload()
image_path = list(uploaded.keys())[0]

# 이미지 열기
image = Image.open(image_path)

# Tesseract OCR 수행
text = pytesseract.image_to_string(image, lang='eng')  # 'eng' 대신 'kor'로 변경하면 한국어 지원 가능

# 결과 출력
print("OCR 결과:")
print(text)



 
Google Colab에서 Llama OCR을 사용하려면, 우선 Python과 함께 Llama OCR 관련 라이브러리를 설치하고 사용할 수 있도록 해야 합니다. Llama OCR은 Hugging Face의 트랜스포머 모델 기반 OCR로 구현되었으며, transformers 라이브러리와 함께 사용할 수 있습니다.
아래는 간단한 Google Colab 코드입니다.
Step 1: 환경 설정 및 라이브러리 설치python
코드 복사
!pip install transformers
!pip install torch torchvision
Step 2: Llama OCR 모델 로드 및 실행Llama OCR 모델을 실행하려면, 텍스트를 인식하고자 하는 이미지를 업로드한 뒤 모델을 사용해야 합니다.
python
코드 복사
from transformers import AutoProcessor, AutoModelForTokenClassification
from PIL import Image

# Llama OCR 모델 로드
processor = AutoProcessor.from_pretrained("microsoft/layoutlmv3-base")
model = AutoModelForTokenClassification.from_pretrained("microsoft/layoutlmv3-base")

# 테스트용 이미지 업로드
from google.colab import files
uploaded = files.upload()

# 업로드한 이미지 열기
image_path = list(uploaded.keys())[0]
image = Image.open(image_path)

# 이미지를 모델에 전달하여 OCR 수행
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)

# 결과 해석
print("OCR Outputs:", outputs)
Step 3: 결과 출력이 코드는 모델의 출력값을 제공합니다. 출력은 추가로 후처리를 거쳐야 의미 있는 텍스트로 변환됩니다.
Llama OCR에 필요한 모델 및 구성 요소는 Hugging Face Hub에서 더 많은 옵션을 확인할 수 있습니다. 해당 모델이 아닌 다른 OCR 툴을 원한다면 Tesseract나 EasyOCR 같은 대안도 고려해볼 수 있습니다.

링크

https://colab.research.google.com/drive/1oKGzCAUKKaHNDURsxmwlWIUC1Hx8GAve?usp=sharing 1839 회 연결
이전

트윈모션 기초 30분만에 박살내기

작성일 2024.11.19 17:55
다음

Llama-OCR 로컬 설치 - Llama 3.2 Vision을 사용하여 Markdown OCR 라이브러리로 문서화, Install Llama-OCR Locally - Document to Markdown OCR Library with Llama 3.2 Vision

작성일 2024.11.15 21:25

댓글 0개

등록된 댓글이 없습니다.

로그인한 회원만 댓글 등록이 가능합니다.