Notes Vulgaris

Links
Типографская раскладка
ЖеЖе
Juick
Account
Tags
amarok blog books database debian desktop eee evangelism fonts freetype google graphics hacker howto it javascript kb kde linux mercurial openoffice php programming python rambler security xorg перевод повидло
01-12-2009 23:56 | 0 comments | tags: graphics
  1. Подготовка файлов. Создаём каталоги res и ocr, разбираем PDF на страницы:

    pdftoppm -png file.pdf res/out
    
  2. Подготовка страниц; нужно увеличить разрешение, подкорректировать яркость и контрастность для лучшего распознавания:

    cd res
    FILES=`ls *.png`
    cd ..
    
    for f in $FILES; do
        convert -geometry 1000x -modulate 90 -gamma 0.9 -contrast -fx G res/$f ocr/$f.tif
    done
    
  3. Распознавание

    cuneiform out-014-g.tif -o out-014-g.tif.txt
    
Примечания
  • без корректировки яркости и контрастности результат распознавания был ужасным;
  • вывод в PNG почему-то вызывал сегфолт у cuneiform.
newer older