|
ru.perl- RU.PERL ---------------------------------------------------------------------- From : Ruslan Bondarev 2:4624/1.65 02 Feb 2001 13:38:55 To : All Subject : кодировки и частотный анализ -------------------------------------------------------------------------------- Эх, прийдется свой анализатор чтоль писать? Тут добрый человек мне нетмейлом посоветовал попробовать Lingua::RU::Charset... Hо там, несмотря на афиширование "detectiong of charset" ничего такого нет - точнее есть, но рядом стоит комментарий "TODO". Смахивает на рекламу макдональдса... Может есть у кого информация об этом самом частотном распределении для русского алфавита? Или все же писать самому анализатор? Если так - хочу изложить алгоритм, а вы меня поправьте, если где заблуждаюсь, ась? Беру большой объем текста (сколько? 500Кб хватит?), определяю частоту появления каждой буквы в процентах (с точностью до какого знака достаточно?) и сохраняю этот хеш для каждой из кодировок. Далее, беру подопытный текст неизвестной кодировки. Прогоняю через анализатор (весь? но не ведь если он большой - очень длинная задержка на старте скрипта будет) и определяю частоту появления каждого символа. Затем беру код самого часто встречающегося символа и сравниваю с кодом самого встречающегося в каждой кодировке. (К примеру, это буква "о"). Так можно несколько раз, со следующим по частоте. Если коды совпали - кодировка такая-то. Верно мыслю? ... bye. --- What can change the nature of a man?.. * Origin: (2:4624/1.65) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.perl/27933a7ab8de.html, оценка из 5, голосов 10
|