|
ru.cgi.perl- RU.CGI.PERL ------------------------------------------------------------------ From : Aleksey Priymak 2:5020/400 30 Apr 2001 03:06:38 To : All Subject : Re: Как преобразрвать htm-файл в txt(убрать теги)? -------------------------------------------------------------------------------- Stanislav Los wrote: > Поделитесь плиз скриптом, который считывал бы *.htm файл и извлекал оттуда > значимый текст свободный от тэгов(без сохранения форматирования), другими > словами в результате работы, получался бы текст, который видит пользователь > в броузере при просмотре этого файла. Hу мне помогло такое: #!/usr/bin/perl use HTML::Parse; use HTML:: FormatText; # в переменной HTMLtext хранится HTML код странички $ONLYtext=HTML::FormatText->new->format(parse_html($HTMLtext)); или же более быстрый метод, но подходит для простейшего кода (для надёжного выделения текста не рекомендовал бы...) ($ONLYtext=$HTMLtext)=~s/<[~>]*>//gs; (С) Perl Cookbook Удачи Bye Lexx --- ifmail v.2.15dev5 * Origin: NTUU "KPI" (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.cgi.perl/18024daabd3e3.html, оценка из 5, голосов 10
|