라마 | ChatGPT를 OCR Vision 문서 AI로 사용, Llama | ChatGPT as OCR Vision document AI
작성자 정보
- 작성자 bryanai
- 작성일
컨텐츠 정보
- 조회 257
본문
"Llama | ChatGPT as OCR Vision document AI - YouTube" 라는 제목의 비디오 대본에서 주요 요점을 요약한 것입니다 .
시리즈 소개 :
- 발표자인 아미쉬 슈클라가 Python RPA 자동화 시리즈를 소개합니다.
- 이전 영상에서는 Ubuntu와 Windows에서 LLaMA 모델을 다운로드하고 사용하는 방법과 직원 출석 및 비용 추적을 위한 사용 사례를 다루었습니다.
영상의 목적 :
- 이 영상에서는 LLaMA와 ChatGPT와 같은 언어 모델을 OCR(광학 문자 인식)로 사용하고 비전 AI를 사용하여 문서를 처리하는 방법을 보여줍니다.
- 목표는 비용 명세서, 송장 또는 내장된 데이터가 있는 문서 처리와 같은 실제 응용 프로그램을 위한 저렴하고 효율적인 솔루션을 구축하는 것입니다.
데모 개요 :
- 스크린샷의 콘텐츠(예: Apple 주식 데이터)를 읽고, 처리하고, 구성하는 실제 사례를 제공합니다.
- 업무에는 재고량과 같은 수치적 데이터를 추출하고 구조화된 출력(예: JSON 형식)을 생성하는 것이 포함됩니다.
관련 단계 :
- 문서가 업로드되거나 수신되었습니다.
- PyTesseract와 같은 OCR 도구를 사용하여 문서의 내용을 추출하는 스크립트가 트리거됩니다.
- 추출된 텍스트는 추가 처리를 위해 언어 모델에 프롬프트로 동적으로 전달됩니다.
언어 모델 사용법 :
- LLaMA 및 ChatGPT와 같은 모델은 추출된 텍스트를 처리하여 쿼리에 답하거나 데이터를 구성합니다(예: 평균 재고량 찾기 또는 표 형식 데이터 만들기).
- 결과는 정확하며 추후 사용을 위해 데이터베이스에 저장할 수 있습니다.
맞춤형 및 이점 :
- 특정 요구 사항에 맞춰 출력을 맞춤화하기 위해 신속한 엔지니어링에 중점을 둡니다.
- 자체 지식 기반을 기반으로 모델을 훈련하면 일반적인 Vision AI 솔루션보다 훨씬 더 나은 결과를 얻을 수 있습니다.
코드 연습 :
- 이 영상에서는 Pillow와 Selenium과 같은 라이브러리를 사용하여 스크린샷을 캡처하고 프로세스를 자동화하는 방법을 포함하여 코드를 자세히 설명합니다.
- 파일 업로드에 의해 트리거되는 스크립트를 통해 작업을 자동화하는 방법을 보여줍니다(예: SFTP 또는 cron 작업 사용).
시장 솔루션에 대한 장점 :
- 대부분의 상업용 Vision AI 도구는 비용이 많이 들고 특정 데이터 세트에 대해 학습되지 않았습니다.
- 실제 데이터를 기반으로 훈련된 사내 모델은 계약 및 개인 데이터와 같은 안전하고 민감한 정보를 효과적으로 처리할 수 있습니다.
라이브 데모 :
- LLaMA와 ChatGPT에서 처리한 쿼리의 예는 다음과 같습니다. 여기에는 데이터 요약과 JSON 또는 표 형식으로 표현이 포함됩니다.
- ChatGPT는 시스템 구성 및 사용 사례에 따라 더 높은 정확도를 제공하는 것으로 알려져 있습니다.
결론 :
- 소스 코드를 확인하려면 GitHub 저장소를 탐색하고, 추가 업데이트를 위해 채널을 구독하세요.
- 질문이나 지원이 필요하면 GitHub 이슈를 통해 문의하세요.
이 요약은 비디오의 핵심 아이디어와 진행 상황을 요약한 것입니다. 더 자세히 알고 싶은 섹션이 있으면 알려주세요!
- [음악] 안녕하세요 여러분, 파이썬 RP 자동화 시리즈 블로그에 오신 것을 환영합니다. 첫 번째 영상에서는 llma 모델과 모델 가중치 또는 Ubuntu 머신을 다운로드하고 사용하는 방법을 다루었습니다. 두 번째 영상에서는 Windows 환경에서 동일한 작업을 수행하는 방법에 대한 관련 문서를 다루었고 이 모델을 사용하여 직원 출석 및 경비를 모니터링하는 사용 사례도 보여드렸습니다. 오늘은 이 모델을 사용하여 문서에 OCR 및 비전 AI로 언어 모델을 사용하는 매우 흥미로운 사용 사례를 보여드리겠습니다. GitHub을 탐색해 보겠습니다.
- 저장소에 대해 말씀드리고 싶습니다. 구현에 대한 세부 정보로 넘어가기 전에 이 애플리케이션의 간단한 데모를 보여드리고 이 비디오를 더 볼지 아니면 건너뛸지 결정할 수 있도록 개요도 제공해 드리겠습니다. 전반적인 목표는 실제 프로덕션 데이터와 같은 저렴한 OCR 및 비전 AI를 구축하는 것입니다. 따라서 다음 단계를 따르겠습니다. 직원 중 한 명이 다음과 같다고 가정해 보겠습니다.
- 비용 표를 제출하고 영수증을 업로드하거나 발명가 송장을 받거나 모든 문서가 될 수 있습니다. 따라서 원하는 것은 문서의 내용을 읽고 모든 것을 완전히 자동화하는 것입니다. 특정 문서나 이미지를 받으면 스크립트를 호출하여 해당 이미지의 내용을 읽는 것입니다. 여기에서 매우 재미있는 예를 하나 보여드리겠습니다. 스크린샷에서 읽고 싶다고 가정해 보겠습니다. 무엇이든 될 수 있습니다.
- 재밌네요. 오늘 Apple 주식에 대한 내용을 읽고 있는데, 그걸 만드는 방법을 보여드리겠습니다. 스크린샷이 될 수도 있고 문서가 될 수도 있습니다. 보시다시피 이것은 매우 복잡한 문서이고 여기에는 많은 정보가 포함되어 있습니다. 이 부분에 주의를 기울이세요. 이것은 웹 페이지의 스크린샷이므로 주가에는 온갖 숫자가 있습니다. 제가 이것을 사용하는 이유 중 하나는 숫자가 너무 많아서 lldma를 테스트하거나 GPT를 청구하여 정확한 값을 어떻게 알아낼지 알고 싶기 때문입니다.
- 숫자이므로 특정 이미지나 웹 페이지의 내용을 읽으면 동적 프롬프트를 빌드하고 이 프롬프트를 동적으로 일시 중지하여 선호하는 언어 모델을 호출합니다. 예를 들어 llma 또는 chat GPT를 호출하면 둘 다 매우 정확하게 예측할 수 있다는 사실에 놀라실 것입니다. 예를 들어 모든 종류의 숫자에서 한 가지 질문을 하고 이 텍스트에서 주식의 평균 거래량을 한 단어로 응답하면 놀라실 것입니다. 실제로 그것이 무엇인지 보고 놀랐습니다.
- 매우 정확하게 예측할 수 있습니다. 예를 들어 7000만 또는 그에 비슷한 정확한 숫자를 알고 있다는 것을 알고 있습니다. 그것은 주식의 평균 거래량이었습니다. 또한 저는 "안녕하세요. 그것에서 어떤 종류의 표를 준비할 수 있습니까?"라고 물었고 그 숫자의 모든 소금을 알 수 있었고 그것을 분석하여 매우 멋진 키 값 JSON을 만들 수 있었습니다. 여기에는 텍스트가 있는데 분명히 데이터베이스에 저장할 수 있습니다. 여기에서 JSON 값을 읽는 것이 쉽기 때문입니다. 오늘 이 비디오에서 달성할 것입니다.
- Transcript: (00:01) [Music] Hello friends welcome to python RP automation series blog in my very
관련자료
-
링크
-
이전
-
다음
댓글 0개
등록된 댓글이 없습니다.