Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- MITRE ATT&CK
- PHP
- 국가정보원
- 웹 해킹 입문
- 파이썬
- 기타정보
- 도구모음
- 연구모임
- codeup
- 여행
- 불법유통
- 화학물질불법유통온라인감시단
- UKPT level
- Service
- 12기
- 프로젝트
- 국가기록원
- 경기팀
- webhacking
- suninatas
- 화학물질
- 국정원
- 정보보안
- 화학물질안전원
- UKPT
- 대외활동
- Los
- 불법유통근절
- nurisec
- HTML
Archives
- Today
- Total
agencies
파이썬으로 이미지 내용을 텍스트로 추출하여 읽기 (ocr) 본문
tesseract 를 이용하여 이미지 안의 텍스트를 읽을 수 있다고 합니다.
(소스코드)
#pip install pytesseract
import pytesseract
from PIL import Image
# Tesseract 실행 파일 경로 설정 (Windows 설치 경로)
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# 이미지 로드
image_path = "./image.png"
image = Image.open(image_path)
# 이미지에서 텍스트 추출
text = pytesseract.image_to_string(image)
print(text)
(테스트 이미지)
(실행결과)
사전 준비물
환경 : 윈도우
위 파일을 다운받아 설치를 진행하면 되겠습니다.
(공식) github : https://github.com/UB-Mannheim/tesseract/wiki
파일을 실행하여 설치하면,
기본 경로는 아래와 같습니다.
이를 통해 이미지 안에 적혀있는 글을 추출하여, 텍스트로 변환하여 볼 수 있겠습니다!
여담으로... ctf에 misc로 출제하면 좋을 것 같습니다.
사진안에 엄청나게 많은 글씨가 있는것이죠(예를들면 base64)로 적혀있는 사진을 문제파일로 제공하면,
사용자들은 해당 사진을 ocr로 추출하여 플래그를 획득할 수 있도록이요!
'Ⅰ. 프로그래밍' 카테고리의 다른 글
정규표현식을 이용하여 C 언어에서 함수 추출해보기! (0) | 2024.12.02 |
---|---|
c 소스코드 추상화 해보기 (변수, 파라미터) (0) | 2024.11.28 |
CVE 관련 정보 수집 (초안) (1) | 2024.11.19 |
파이썬 프로그래밍 (이미지 실행파일) (3) | 2024.11.05 |
CVE 검색 및 파싱 (0) | 2024.09.20 |