|
ru.unix.bsd- RU.UNIX.BSD ------------------------------------------------------------------ From : Valentin Davydov 2:5020/400 01 Dec 2006 10:23:18 To : Slawa Olhovchenkov Subject : awk vs sql vs sort: промежуточные результаты --------------------------------------------------------------------------------
> From: Slawa Olhovchenkov <Slawa.Olhovchenkov@f500.n5030.z2.fidonet.org>
> Date: Thu, 30 Nov 2006 17:19:52 +0300
>
> >> VD> Когда (и если - мало ли на какие ограничения он может наткнуться) awk
> >> VD> закончит свою работу, я, надеюсь, опубликую более подробные данные.
> >>
> >> А программу на awk оптимизировать пробовал? Hаписать на нем сначала
> >> внешнюю ленточную сортировку, потом результать в один проход агрегировать.
>
> VD> Я, пока писал вышеотквоченное, ещё решил sort | awk попробовать. Только
> VD> ведь сортируй - не сортируй, всё равно промежуточные данные на диск
> VD> должны
> VD> лезть. Правда, с sortом всё не так чисто: при том количестве
> VD> промежуточных
> VD> файлов в $TMPDIR, которые он создаёт, ещё нормально работает dirhash. Hо
> VD> чтобы и это проверить, надо не просто много данных, а экспоненциально
> VD> много, а у меня такого количества дисков и времени нету.
>
>Т.е. sort|awk всех порвал?
Вот, ночью сосчиталось. Да, порвал в хлам. sort отработал как раз во столько
раз быстрее sql-селекта, во сколько раз доступ к диску большими кусками
эффективнее случайного. То есть часы вместо суток. В общем, sort очень
хорошо заточен под аппаратно-программные особенности реализации файловых
систем, и слава Богу, что у него нету доступных юзру для кручения ручек
на тему того, что и как делать в $TMPDIR.
Вал. Дав.
--- ifmail v.2.15dev5.3
* Origin: Demos online service (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.unix.bsd/657767a5c34c.html, оценка из 5, голосов 10
|