Frozen Fido : RU.PERL : кодировки и частотный анализ

ru.perl

 
 - RU.PERL ----------------------------------------------------------------------
 From : Ruslan Bondarev                      2:4624/1.65    02 Feb 2001  13:38:55
 To : All
 Subject : кодировки и частотный анализ
 --------------------------------------------------------------------------------

Эх, прийдется свой анализатор чтоль писать?
Тут добрый человек мне нетмейлом посоветовал попробовать
Lingua::RU::Charset... Hо там, несмотря на афиширование "detectiong of charset"
ничего такого нет - точнее есть, но рядом стоит комментарий "TODO". Смахивает на
рекламу макдональдса...
Может есть у кого информация об этом самом частотном распределении для
русского алфавита? Или все же писать самому анализатор? Если так - хочу изложить
алгоритм, а вы меня поправьте, если где заблуждаюсь, ась?

Беру большой объем текста (сколько? 500Кб хватит?), определяю частоту
появления каждой буквы в процентах (с точностью до какого знака достаточно?) и
сохраняю этот хеш для каждой из кодировок. Далее, беру подопытный текст
неизвестной кодировки. Прогоняю через анализатор (весь? но не ведь если он
большой - очень длинная задержка на старте скрипта будет) и определяю частоту
появления каждого символа. Затем беру код самого часто встречающегося символа и
сравниваю с кодом самого встречающегося в каждой кодировке. (К примеру, это
буква "о"). Так можно несколько раз, со следующим по частоте. Если коды совпали
- кодировка такая-то.
Верно мыслю?

... bye.
--- What can change the nature of a man?..
* Origin: (2:4624/1.65)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
кодировки и частотный анализ	Ruslan Bondarev	02 Feb 2001 13:38:55
Re: кодировки и частотный анализ	Alexander Babanov	02 Feb 2001 10:56:26
Re: кодировки и частотный анализ	Pavel Kurnosoff	02 Feb 2001 20:59:33
Re: кодировки и частотный анализ	RockMover	03 Feb 2001 02:39:45
Re: кодировки и частотный анализ	Ruslan Bondarev	03 Feb 2001 13:01:06
кодировки и частотный анализ	alexander smishlajev	03 Feb 2001 11:54:14

Архивное /ru.perl/27933a7ab8de.html, оценка 1 из 5, голосов 10