こんにちは。AIで勘違いして何でも作ってみる部です。 これまで「Gemini・Genspark・CanvaPro・Feloを使ってNotebookLMで作成したスライドPDFを編集可能にする方法」や「GeminiとGASを使ってNotebookLMで作成したスライドを編集可能なパワーポイントにする方法」を実際に ...
今回はブラザーのスキャナーでスキャンした結果を自動的にOCRを実行します。SambaやOCRmyPDF、Tesseract OCRなど、オープンソースソフトウェアだけで構成します。 紙の書類をなんとかしたい ペーパーレスなんて言葉はもう聞き飽きてしまいましたが、実際に ...
PDFs look clean to humans. Extracting them is a mess. Research papers and reports are packed with tables, figures, captions, and complex layouts. Basic PDF extractors usually weren’t built to deal ...
def validate_ocr_quality(text, min_chars=100): OCR 결과 품질 검증 (강화 버전) korean = sum(1 for c in text if '가' <= c <= '힣') english = sum(1 for c in text if c.isalpha() and c.isascii()) digits = sum(1 for c ...