|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Serge Shikov 2:5020/400 25 Jan 2001 13:20:53 To : All Subject : Re: PDF to HTML -------------------------------------------------------------------------------- "Sergey V. Leschenko" wrote: > > Sergey Tkachuk wrote: > >Я в курсе :-) Hо есть одно большое HО. Посмотрим на подавляющее большинство > >PDF-файлов. Видим мы там что-то, сильно отличное от прямоугольных картинок и > >обычного текста? Hе видим. Так что все не так страшно. > Так все-таки? > Есть книга в PDF, ее хотелось бы перевести в HTML (или в крайнем случае в > formatted text) В текст умеет ghostscript без всякого перла. При этом по уже описанным ранее причинам теряется порядок текста на странице (т.е. всякие колонтитулы могут оказаться в текстовом файле где угодно, как до текста, так и после него). Более того, некоторые софтины при генерации PS (а потом и PDF из него) выводят отдельно по одной букве, обеспечивая таким образом кернинг (раньше таким особо отличалась Ventura). В результате ты потом в тексте не имеешь даже абзацев, т.к. каждая буковка может быть индивидуально позиционирована на странице. Представляешь HTML: <div style="position: absolute: top: nnnpx; left: mmmpx;"> тут одна буква... </div> <div style="position: absolute: top: nnnpx; left: mmmpx;"> тут вторая буква... </div> В общем может тебе и повезет с конкретной книжкой, но в общем случае результат будет плачевный. --- ifmail v.2.15dev5 * Origin: home (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/28253d200486.html, оценка из 5, голосов 10
|