Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Alexander Babanov                    2:5020/5609.69 02 Feb 2001  10:56:26
 To : Ruslan Bondarev
 Subject : Re: кодировки и частотный анализ
 -------------------------------------------------------------------------------- 
 
 Юґullo Ruslan!
 
  RB>     Эх, прийдется свой анализатор чтоль писать?
  RB>     Тут добрый человек мне нетмейлом посоветовал попробовать
  RB> Lingua::RU::Charset... Hо там, несмотря на афиширование "detectiong of
  RB> charset" ничего такого нет - точнее есть, но рядом стоит комментарий
  RB> "TODO". Смахивает на рекламу макдональдса...
  RB>     Может есть у кого информация об этом самом частотном распределении
  RB> для русского алфавита? Или все же писать самому анализатор? Если так -
  RB> хочу изложить алгоритм, а вы меня поправьте, если где заблуждаюсь, ась?
 
  RB>     Беру большой объем текста (сколько? 500Кб хватит?), определяю
  RB> частоту появления каждой буквы в процентах (с точностью до какого знака
  RB> достаточно?)
 
 Достаточно байта на букву, 255 для наиболее часто встречающейся.
 
  RB> и сохраняю этот хеш для каждой из кодировок. Далее, беру подопытный
  RB> текст неизвестной кодировки. Прогоняю через анализатор (весь? но не
  RB> ведь если он большой - очень длинная задержка на старте скрипта будет)
  RB> и определяю частоту появления каждого символа. Затем беру код самого
  RB> часто встречающегося символа и сравниваю с кодом самого встречающегося
  RB> в каждой кодировке. (К примеру, это буква "о"). Так можно несколько
  RB> раз, со следующим по частоте. Если коды совпали - кодировка такая-то.
  RB>     Верно мыслю?
 
 Возьми таблички от FARа, он вполне правильно распознает кучу кодировок.
 
 CYa!!!
 
 ЪДВїЪДВВВДДДщщъъ ЪДВВВДї ЪїЪДВДДДДДДДДщщъъ   ЪДДДД 2:5020/5609.69 ДДДї
 іВіАґДЕ ґBabanov іВі ґВі іАґВіST BERSERKER   і babanov@earthlink.net і
 ... Еще наше поколение будет жить при Виагре! [предп. из писем Ильича к HКК]
 ---
  * Origin: Our governor can beat up your governor! (2:5020/5609.69)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 кодировки и частотный анализ   Ruslan Bondarev   02 Feb 2001 13:38:55 
 Re: кодировки и частотный анализ   Alexander Babanov   02 Feb 2001 10:56:26 
 Re: кодировки и частотный анализ   Pavel Kurnosoff   02 Feb 2001 20:59:33 
 Re: кодировки и частотный анализ   RockMover   03 Feb 2001 02:39:45 
 Re: кодировки и частотный анализ   Ruslan Bondarev   03 Feb 2001 13:01:06 
 кодировки и частотный анализ   alexander smishlajev   03 Feb 2001 11:54:14 
Архивное /ru.perl/47303a7ad943.html, оценка 2 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional