Главная страница


ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Ruslan Bondarev                      2:4624/1.65    02 Feb 2001  13:38:55
 To : All
 Subject : кодировки и частотный анализ
 -------------------------------------------------------------------------------- 
 
     Эх, прийдется свой анализатор чтоль писать?
     Тут добрый человек мне нетмейлом посоветовал попробовать
 Lingua::RU::Charset... Hо там, несмотря на афиширование "detectiong of charset" 
 ничего такого нет - точнее есть, но рядом стоит комментарий "TODO". Смахивает на
 рекламу макдональдса...
     Может есть у кого информация об этом самом частотном распределении для
 русского алфавита? Или все же писать самому анализатор? Если так - хочу изложить
 алгоритм, а вы меня поправьте, если где заблуждаюсь, ась?
 
     Беру большой объем текста (сколько? 500Кб хватит?), определяю частоту
 появления каждой буквы в процентах (с точностью до какого знака достаточно?) и
 сохраняю этот хеш для каждой из кодировок. Далее, беру подопытный текст
 неизвестной кодировки. Прогоняю через анализатор (весь? но не ведь если он
 большой - очень длинная задержка на старте скрипта будет) и определяю частоту
 появления каждого символа. Затем беру код самого часто встречающегося символа и 
 сравниваю с кодом самого встречающегося в каждой кодировке. (К примеру, это
 буква "о"). Так можно несколько раз, со следующим по частоте. Если коды совпали 
 - кодировка такая-то.
     Верно мыслю?
 
 ... bye.
 --- What can change the nature of a man?..
  * Origin:  (2:4624/1.65)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 кодировки и частотный анализ   Ruslan Bondarev   02 Feb 2001 13:38:55 
 Re: кодировки и частотный анализ   Alexander Babanov   02 Feb 2001 10:56:26 
 Re: кодировки и частотный анализ   Pavel Kurnosoff   02 Feb 2001 20:59:33 
 Re: кодировки и частотный анализ   RockMover   03 Feb 2001 02:39:45 
 Re: кодировки и частотный анализ   Ruslan Bondarev   03 Feb 2001 13:01:06 
 кодировки и частотный анализ   alexander smishlajev   03 Feb 2001 11:54:14 
Архивное /ru.perl/27933a7ab8de.html, оценка 1 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional