Главная страница


ru.cgi.perl

 
 - RU.CGI.PERL ------------------------------------------------------------------
 From : Aleksey Priymak                      2:5020/400     30 Apr 2001  03:06:38
 To : All
 Subject : Re: Как преобразрвать htm-файл в   txt(убрать теги)?
 -------------------------------------------------------------------------------- 
 
 
 
 Stanislav Los wrote:
 
 > Поделитесь плиз скриптом, который считывал бы *.htm файл и извлекал оттуда
 > значимый текст  свободный от тэгов(без сохранения форматирования), другими
 > словами в результате работы, получался бы текст, который видит пользователь
 > в броузере при просмотре этого файла.
 
 Hу мне помогло такое:
 
 #!/usr/bin/perl
 use HTML::Parse;
 use HTML:: FormatText;
 
 # в переменной HTMLtext хранится HTML код странички
 
 $ONLYtext=HTML::FormatText->new->format(parse_html($HTMLtext));
 
 или же более быстрый метод, но подходит для простейшего кода (для надёжного
 выделения текста не рекомендовал бы...)
 
 ($ONLYtext=$HTMLtext)=~s/<[~>]*>//gs;
 
 (С) Perl Cookbook
 
 Удачи
 
 Bye
 Lexx
 
 --- ifmail v.2.15dev5
  * Origin: NTUU "KPI" (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 Как преобразрвать htm-файл в txt(убрать теги)?   Stanislav Los   26 Apr 2001 21:17:21 
 Re: Как преобразрвать htm-файл в txt(убрать теги)?   Aleksey Priymak   30 Apr 2001 03:06:38 
Архивное /ru.cgi.perl/18024daabd3e3.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional