Myanmar OCR

Here is the source git.
https://github.com/NChanko/Myanmar-Ebook-OCR
 အရင်ဆုံး brew ကို install လုပ်ရပါ့မယ်။ 
Terminal မှာ ဒီ command ကို paste လုပ်ပြီး enter ခေါက်ပါ။
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
Brew ကို install ပြီးသွားရင် 
brew install poppler 
နဲ့ 
brew install tesseract
ကို ထပ်ပြီး install ပေးပါ။ 
Tesseract OCR မှာ မြန်မာစာ အတွက် မပါသေးတော့ မြန်မာစာအတွက် ထပ်ပြီး install ပေးရပါမယ်။ 
brew install tesseract-lang
အဲ့တာပြီးရင်တော့ input_pdf folder ထဲမှာ ပြောင်းချင်တဲ့ pdf file ကိုထည့်ပြီး
pdf_to_text.sh ကို run လိုက်ရင် ရပါပြီ။
မြန်မာစာ OCR အတွက် fine tuned လုပ်ထားတဲ့ trained data အတွက် ဒီဟာလေးလည်း တွေ့လို့ ထပ်ဖြည့်ထားလိုက်တယ်။ ဒီကောင်ကို
/usr/local/Cellar ထဲက tesseract folder ထဲက language ထဲမှာ override လုပ်ပေးလိုက်ရင်ရပါပြီ။ မူရင်းဖိုင်ကိုတော့ override မလုပ်ခင် backup လုပ်ထားစေချင်တယ်။


Comments

Popular posts from this blog

Contacts တွေကို one click နဲ့ unicode ပြောင်းနည်း

MacOS Myanmar Unicode Keyboard

Oppo ဖုန်းများတွင် Unicode ပြောင်းပုံ