gns_ua | (no subject)

Похоже, в архитектуре я немного лажанулся.

Когда речь заходит о монотонно растущих каунтерах, можно в принципе реализовать дельты прямо в коллекторе, но производные будут получаться слишком "мгновенные".

Беда в том, что цикл сэмплирования меньше цикла обмена примерно в два раза (примерно.... не менее чем в два). Это так и задумано, по ряду причин, и это не проблема когда мы берём циферки как таковые. Но когда мы считаем дельту/время - с одной стороны, ловятся короткие пики, которые на бОльшем интервале усреднения смазались бы. Это бы хорошо, но, с другой стороны, дельты 60/0/60/0 на вдвое бОльшем интервале дали бы 30/30, а реально сервер может выхватить из них 0/0. Или вообще один сэмпл 60, тут вам не риалтайм и не очереди.

Переносить всю эту обработку в центр не хочется: и в транспорт непонятно как засовывать сырые данные (то есть понятно, но криво всё это получается), да и пределы конфигурируются на коллекторе - их тоже придётся передавать, потому что раскидывать конфигурацию по компонентам этосюда-этотуда-атутярыбузаворачивал будет совсем уж глупо.

Можно вот что, можно в коллекторе взвешенное скользящее среднее сделать. Так даже прикольнее получится.

Flat | Top-Level Comments Only

Вабще, я для таких вещей давно юзаю rrd, и как бы не заморачиваюсь. Особенная приятственность - фиксированый размер баз.

То что я делаю, происходит в сильно распределённой системе задолго до попадания в data warehouse :)

А rrd в качестве вейрхауза сосёт и было почти год назад выпилено. У него данные ресэмплятся и усредняются многократно, то, чего категорически нельзя делать.

Ну вот есть такая теорема Котельникова, которая гласит, что частота квантования для сэмплирования без потерь должна быть минимум вдвое выше самой высокочастотной гармоники сигнала. От этой печки и плясать. Если у тебя существенные события имеют минимальную длительность в пять минут, значит семплировать надо не реже, чем раз в 2.5 минуты. Иначе - как ни крути, а кина не будет.

Не-не, с rrd не в том беда. Он _многократно ресэмплит скользяще-средне-взвешенным _уже_, _им_же_ усреднённые значения. На графиках cacti, подсунутых в аналитику, все тренды загибаются круто вверх. А потому что десятимесячной давности цифры уже несколько раз усреднены и сглажены из усреднённых, и чем свежее данные тем больше локальных подъёмов видно, притом непропорционально видно - если пик случается раз в год (а такое бывало, да), то на rrd его не видно, только более-менее последние торчат.

Ресэмплить только сырую дату, юнити ультрахардкор!

Edited 2011-12-26 21:39 (UTC)

(deleted comment)

Да сам в шоке, полгода сушил мозг над аккуратностью и как огня избежанием ресэмплинга - и тут, на тебе, напоролся. Всё-таки надо было заканчивать гуманитарный ВУЗ. Gender & racial studies, вся фигня.