?

Log in

No account? Create an account
easy

фигвам

индейское жилище.

Previous Entry Share Flag Next Entry
паника по RAID
easy
easyjohn
Последние пару недель целая пачка знакомых повылезала в IM, с переживаниями, что мол пятый рейд совсем отстой, и все плохо.
Приводились в основном следующие ссылки:

habrahabr.ru Почему RAID-5 — «mustdie»? и "Документации по Гедымин:" Почему нельзя использовать RAID 5 для сервера базы данных
Вторая - со страницы ру.вики про RAID. (причем явно реклама - ведет на вики про какую-то софтину)

Меня, как человека 11 лет эксплуатирующего разные рейды, ситуация немного задевает.

Разберем ситуацию подробнее.
Во первых - на лицо обычная примитивная паника.
Почему-то ни кто из написавших не кричит про то, что raid0 отстой, потому что не обеспечивает избыточности. Ибо для того он и предназначен - массив без избыточности.
Со всеми уровнями raid ситуация точно такая же - каждый из уровней предназначен для своих нужд, и обладает как преимуществами, так и недостатками. И выбор конкретного применения raid должен выбираться исходя из имеющегося в наличии железа и задач, которые будут решаться.
Так что любой из рейдов, в том числе и пятый и нулевой имеет свои области применения, и нельзя говорить в общем случае что тот или иной рейд применять не стоит.

Теперь по выводам первой статье:
- "Время восстановления рейда" действительно больше некоторых других. Оно разное у всех рейдов и этот фактор просто надо учесть при проектировании массива.
- "Отсутствие средств контроля областей cold data" - это актуально пожалуй только для недорогих аппаратных рейдов. Дорогие устройства осуществляет такую проверку сами постоянно, а в софтварном рейде можно (нужно!) делать такие проверки с помощью smart команд, об этом подробно написано у amarao_san в его вики статье про SMART
- "Повышенная нагрузка на диски в период восстановления потенциально еще повышает вероятность сбоя". То, что режим, выхода одного из дисков и потери избыточности нештатен самоочевидно. То что при этом есть вероятность выхода из строя всего рейда то же. Причем это справедливо почти для любого другого уровня так же.
- "Современные диски приблизились по объемам к показателям BER (Bit Error Rate)". Это так, и это действительно может _потенциально_ создать проблему выдачи диском ошибки при восстановлении из дегрейда, но более-менее актуально это будет только если вы не проверяете cold-data, а это можно решить.
(кстати, обо всех этих особенностях было известно, во всяком случае мне, еще года 3-4 назад. никаких "открытий" тут нет.)

По второй статье:
- Почти все выводы о "плохом" пятом рейде сделаны на основании того, что пятый рейд плохо себя ведет в дегрейд режиме и как много пустых действий он при этом делает. Аргументация выглядит достаточно технически слабой.

В общем вся истерика свелась к тому, что как плохо ведет себя пятый рейд в дегрейде и потенциально рейд может развалиться.

Объясняю подробно - в пятом (как, кстати, и во всех других, особенно в 3-4-6) рейдах никогда дегрейд режим не считается штатным режимом работы! Это всегда режим аварии, при котором у вас все еще доступны данные, но при котором вам нужно немедленно заменить вышедший из строя диск!
По этому рассматривать ситуацию о том, что рейд в аварийном режиме работает хуже - ну как-то глупо. Особенно для рейдов N+1, N+2. Вам нужна нормальная работоспособность при отказе диска? Ну очень просто - платите за raid1 (0+1, 5+1, 6+1, и т.д.).

Второе - отказ второго диска во время rebuild. Да, с приближением объема дисков к BER, вероятность этого события повышается. Однако все почему-то забывают, что при такой ошибке, raid хоть и "развалится" и данные перестанут быть доступны, но достаточно одной команды на принудительный возврат диска в raid, как он опять продолжит функционирование в дегрейде и заново начнет rebuild. А т.к. речь идет именно о софтовом сбое (BER) ни о какой потере данных речи не идет. Да это неприятно, в какой-то момент данные могут оказаться недоступны. Но не потеряны.
---
Итоговые выводы: Каждый raid имеет свои границы применимости, плюсы и недостатки. Никакой из них нельзя назвать "плохим". (По моему это было самоочевидно и до того)
Ну и на всякий случай напомню, что никакой рейд не отменяет бэккапа.

Единственная полезная информация из статей - заявленные производителями BER. Очевидно, что даже для десктопов имеет смысл использовать диски WD и Samsung.
Tags:


  • 1
У первого рейда есть один важный плюс: данные с него можно восстановить руками, имея в руках лишь один винт из рейда. Без особых раздумий и сложностей.

Относительно ребилда - на нормальных рейдах с hotspare он начинается автоматом по первому же попугаю на одном из винтов рейда. Все разы, когда винты сыпались у меня на работе, я подключался к системе уже в момент, когда она либо закончила ребилд, либо была близка к завершению.

Ну всем очевидны плюсы и минусы всех рейдов. нет смысла их тут отдельно расписывать.
Первый рейд в голом виде сейчас почти не используется (ну разве что под системный диск), под данные он довольно плохо подходит. Или он используется в комбинациях с другими (0+1, 5+1 и т.п.).

Понимаешь, суть в том, что наличие или отсутствие hot spare не влияет на вероятности сбоя при ребилде (а именно это так вселяет панику в народ).

То есть у тебя всего два варианта: или сбойнёт ребилд, или нет.
При этом периодическая проверка cold data сводит случай сбоя почти на ноль.
Но все равно лично я бы больше предпочел ручную замену, когда я буду готов к любым вариантам (в нерабочее время).

Я вроде говорил: у меня был случай, когда фейл второго винта в рейде отстоял от окончания ребилда после фейла первого примерно на 2-3 часа.

аппаратный? винт полностью не читался?

Аппаратный. LSI. Что там с винтом было - я хз. Как отребилдился, я испорченный вынул и оттащил в гарантию.

ну так не гарантия что он словил аппаратный сбой. может софтовый.
аппаратные дешевые рейды в этом случае ведут себя слишком пессимистично.
по этому лучше использовать софт. хотя бы видно что произошло.

Очевидно, что даже для десктопов имеет смысл использо

jfui:

про десктопы.

у меня 3 диска сигейт, 1 вд
ПОКА НЕ ПОСЫПАЛОСЬ НИЧЕГО, сигейты 2003 года выпуска
потому что заявленные производителем цифры имеют мало общего с реальностью

Re: Очевидно, что даже для десктопов имеет смысл исполь

зы один из дисков - 1999 года

Re: Очевидно, что даже для десктопов имеет смысл исполь

ну и при чем тут это?
у меня есть диски 80-х годов.
или скажем у меня есть живой фуджик мпг, а из всей серии порядка 80% мпг умерло.
разве этот единичный винт что-то доказывает?
разговор то вовсе не о том.

Угу. Все всегда забывают, что RAID это не какая не панацея. Бекап, двойной, на два разных носителя.

а можешь подтвердить, что ты человек?

А какое подтверждение ты хочешь?

вполне. спасибо.
а то сам жж уж больно ботовый. хоть тема и одна, но сплошные фото.

Фотографировать люблю. Очень люблю, просто обожад!!! )))

Жара, на кондей пожадначали, на вентели в сервак то же, винтам плохо. Доки не читали, бекапы не делали. И вот сидит админ и нервно смотрит 10 часов на процент ребилда, понимая, что если он не дойдет до конца или чего нибудь случится, то данным кирдык. А потом после суточного нервного напряжения садиться писать статью, типа той, что на хабре, научно обосновывая свое собственное распиздяйство или жадность.

Вот и все выводы.

рейд никогда не было панацей. по этому нет смысла переубеждать меня, что он не панацея. :)
в статье я лишь обратил внимание, что паника именно про ненадежность и бессмысленность пятого рейда была слишком надутая.

Да я понял, меня просто поразило куча коментов на хабре, народ бросился обсуждать вероятности и прочую лабудень и не кто не написал, что автор просто или больной на всю голову или не в теме вообще.

1. бэкап
2. еще один бэкап
3. хорошее безглючное железо, включая рейд
4. упс на подольше, ну все таки лениво востанавливать из бекапа, проще ребилда дождаться.
5. Батарею на кэш рейда.
6. Кэш дисков выключить.
7. Винт в запас, что бы в магазин не бежать.

Вероятность потери данных близка к нулю, простоя очень незначительная. Нервы не тратятся, по поводу ненадежности рейда слюной не брызгаем.

  • 1