gns_ua: (Default)
gns_ua ([personal profile] gns_ua) wrote2011-12-26 09:01 pm

(no subject)

Похоже, в архитектуре я немного лажанулся.

Когда речь заходит о монотонно растущих каунтерах, можно в принципе реализовать дельты прямо в коллекторе, но производные будут получаться слишком "мгновенные".

Беда в том, что цикл сэмплирования меньше цикла обмена примерно в два раза (примерно.... не менее чем в два). Это так и задумано, по ряду причин, и это не проблема когда мы берём циферки как таковые. Но когда мы считаем дельту/время - с одной стороны, ловятся короткие пики, которые на бОльшем интервале усреднения смазались бы. Это бы хорошо, но, с другой стороны, дельты 60/0/60/0 на вдвое бОльшем интервале дали бы 30/30, а реально сервер может выхватить из них 0/0. Или вообще один сэмпл 60, тут вам не риалтайм и не очереди.

Переносить всю эту обработку в центр не хочется: и в транспорт непонятно как засовывать сырые данные (то есть понятно, но криво всё это получается), да и пределы конфигурируются на коллекторе - их тоже придётся передавать, потому что раскидывать конфигурацию по компонентам этосюда-этотуда-атутярыбузаворачивал будет совсем уж глупо.

Можно вот что, можно в коллекторе взвешенное скользящее среднее сделать. Так даже прикольнее получится.

[identity profile] kondybas.livejournal.com 2011-12-26 07:44 pm (UTC)(link)
Вабще, я для таких вещей давно юзаю rrd, и как бы не заморачиваюсь. Особенная приятственность - фиксированый размер баз.

[identity profile] gns-ua.livejournal.com 2011-12-26 07:56 pm (UTC)(link)
То что я делаю, происходит в сильно распределённой системе задолго до попадания в data warehouse :)

А rrd в качестве вейрхауза сосёт и было почти год назад выпилено. У него данные ресэмплятся и усредняются многократно, то, чего категорически нельзя делать.

[identity profile] kondybas.livejournal.com 2011-12-26 09:24 pm (UTC)(link)
Ну вот есть такая теорема Котельникова, которая гласит, что частота квантования для сэмплирования без потерь должна быть минимум вдвое выше самой высокочастотной гармоники сигнала. От этой печки и плясать. Если у тебя существенные события имеют минимальную длительность в пять минут, значит семплировать надо не реже, чем раз в 2.5 минуты. Иначе - как ни крути, а кина не будет.

[identity profile] gns-ua.livejournal.com 2011-12-26 09:29 pm (UTC)(link)
Не-не, с rrd не в том беда. Он _многократно ресэмплит скользяще-средне-взвешенным _уже_, _им_же_ усреднённые значения. На графиках cacti, подсунутых в аналитику, все тренды загибаются круто вверх. А потому что десятимесячной давности цифры уже несколько раз усреднены и сглажены из усреднённых, и чем свежее данные тем больше локальных подъёмов видно, притом непропорционально видно - если пик случается раз в год (а такое бывало, да), то на rrd его не видно, только более-менее последние торчат.

Ресэмплить только сырую дату, юнити ультрахардкор!
Edited 2011-12-26 21:39 (UTC)
(deleted comment)

[identity profile] gns-ua.livejournal.com 2011-12-26 08:52 pm (UTC)(link)
Да сам в шоке, полгода сушил мозг над аккуратностью и как огня избежанием ресэмплинга - и тут, на тебе, напоролся. Всё-таки надо было заканчивать гуманитарный ВУЗ. Gender & racial studies, вся фигня.