Как алсековцы СХД выбирали

27.12.2019
Как алсековцы СХД выбирали

После семи лет бесперебойной работы алсековская СХД недовольно проворчала "Ну у вас и запросы!" 

Вы знаете, что такое СХД? Wiki определяет ее как «Система Хранения Данных - комплексное программно-аппаратное решение по организации надёжного хранения инфоресурсов и предоставления гарантированного доступа к ним. СХД могут быть основой Центра Обработки Данных (ЦОД).» Это в нескольких словах. А на деле - та еще наука. Иными словами, СХД очень важна для хранения данных и обеспечения скорости работы ПО. 

Перед специалистами компании поставили задачу обновить СХД, чтобы увеличить производительность и расширить дисковое место для хранения информации. В приоритете -  оптимизация работы с дисковым пространством, быстродействие, цена в разумном соотношении с качеством, масштабируемость и быстрая синхронизация данных.  

Тщательно сравнив все параметры решений от Fujitsu, DELL и Huawei, выбор был сделан в пользу СХД Huawei Dorado 3000 (8x3.84TB SSD). При выборе СХД существенно помог опыт, приобретенный в сотрудничестве с «Астана-ЕРЦ», которая на тот момент почти год использовала СХД Huawei. Успехи китайских производителей в последнее время часто упоминаются в IT-индустрии, но этого недостаточно для принятия решения купить дорогостоящую технологичную систему.  К чести Huawei, их системы хранения достаточно документированы, а местное представительство подготовило убедительную презентацию и помогло с выбором системы хранения из достаточно широкого спектра продуктов.

Рассказывает начальник Отдела информационных технологий АЛСЕКО Сергей Недобитко: - Мы изучили документацию и убедились, что сможем с помощью этой системы хранения решить ключевые задачи – обеспечить быструю синхронизацию (в этом было очень много сомнений), и возможности масштабировать систему в дальнейшем. Качество продукции мы оценили по опыту ТОО «Астана ЕРЦ»: около года работы, ни одного гарантийного случая. Далее мы попробовали оценить соответствие заявленной производительности системы хранения нашим ожиданиям. На продуктовом сайте производитель может заявить что угодно, а после покупки вполне реален риск остаться с дорогой «игрушкой», которая просто не тянет нагрузки. Снова помог опыт сотрудничества со специалистами «Астана ЕРЦ». Мы сопоставили данные о производительности, заявленные в технической документации производителя, с синтетическими тестами системы хранения, которую они эксплуатируют. После того, как убедились, что данные верны, сопоставили с результатами синтетических тестов (средствами ПО SQLIO) на имеющемся у нас оборудовании. Результаты тестирования прогнозировали добротный прирост производительности. Проработав вопрос цены с местным представительством продавца, алсековцы получили коммерческое предложение, которое окончательно ставило точку в решении, какую систему хранения выбрать.

Заявленное количество IOPS 112 тыс. при конфигурации: 8 SSD, объемом 3,84 Тб, по результатам нагрузочного тестирования получилось создать пиковую нагрузку в 72 тыс IOPS.

Скорость копирования – 2 Гб/с

Дополнительным плюсом в пользу Huawei послужила бесплатная 3-летняя гарантия на оборудование в режиме 9x5xNBD onsite.

«В результате мы получили систему, которая в десятки раз превышает предыдущую по производительности, - прокомментировал приобретение Сергей Недобитко. - При этом СХД Fujitsu DX90 S2 с SAS дисками занимает в нашем ЦОД целую стойку, а новое решение от Huawei разместилось на полке 2U. В дальнейшем, чтобы полноценно заменить старую СХД, нам достаточно наполнить дисками приобретенную систему от Huawei и докупить еще одну полку 2U». 

После настройки новой системы было проведено комплексное тестирование на отказоустойчивость, возможности онлайн-обновления контроллеров СХД и другие параметры, понятные узким специалистам. 

Немного о тестировании отказоустойчивости

  1. Отключение оптических кабелей

После последовательного отключения оптических кабелей на сервере, подключенном к СХД, виртуальный сервер терминал не выключался. В журнале событий есть сообщения о недоступности диска MPIO по одному из путей, но процесс копирования на СХД не прерывался (копировался файл объемом 40Гб).

  1. Перезагрузка контроллеров СХД (установлено 2)

Попытавшись последовательно перегрузить контроллеры (с разницей в 2 минуты), СХД отключила диски и стала недоступна. При попытке перезагрузить контроллер система запросила пароль и перезагрузила второй контроллер, несмотря на то, что первый еще не перегрузился. Примерно семь минут ушло на загрузку контроллера.

Важно: только пользователь administrator может перезагружать контроллер после ввода команды change user_mode current_mode user_mode=developer.

Далее reboot controller controller=0A для первого контроллера, reboot controller controller=0B для второго.

Последовательность перезагрузки контроллеров следующая: вводим команду перезагрузки первого контроллера, ждем, когда контроллер загрузится, и после чего перегружаем второй. После выполнения команды перезагрузки через 30 секунд виртуальный сервер не отвечает на действия мыши-клавиатуры в течение 20 секунд, несмотря на то, что ping не пропадает ни с него, ни на него. Смена активного контроллера ситуацию не меняет.

  1. Обновление прошивки (firmware)

Прошивка обновлена; во время обновления прошивки СХД ее диски и виртуальный сервер были доступны. Протестирован откат прошивки на предыдущую версию, затем повторно накатили новую.

  1. Отключение электропитания

При отключении электропитания одного из блоков питания контроллеры запитываются со второго блока, сбоев в работе СХД не происходит.

  1. Отключение дисков SSD

После отключения одного диска задействовался диск Hotspare. После отключения второго диска СХД система выдала ошибку, и диски на серверах стали недоступны. После установки дисков назад работа СХД полностью восстановилась.

  1. Проверка производительности

Данные перенесены, резервное копирование одной из БД (объемом 1,5 Тб) выполняется вдвое быстрее, при этом быстродействие БД и TempDB не снизилось. Синхронизация дисков отрабатывает в штатном режиме, тестовые серверы восстанавливаются по настроенному расписанию. 

Таким образом, тестирование СХД Huawei Dorado было завершено.

Теперь архитекторы АЛСЕКО ждут от новой СХД отдачу, которая выражается в параметрах:

  • Повышение быстродействия ПО, что позволяет оперативно обрабатывать большие объемы данных без зависания системы
  • Экономия места за счет дедупликации (чтобы накапливать и хранить больше данных)
  • Сокращение времени выполнения обслуживающих мероприятий (резервного копирования, оптимизации БД и т.д.). Объем кэша позволяет повысить скорость выполнения операций чтения/записи, а также влияет на количество одновременно запущенных операций (синхронизации, дедупликации и т.д.)
  • Высвобождение физического пространства в ЦОД

Дополнительно в плюсы выбранной СХД можно добавить сокращение тепловыделения (за счет сокращения количества дисков и полок) и энергопотребления (в отличие от SAS, диски SSD потребляют меньше энергии).

Установленная система Huawei Dorado 3000 интеллектуально управляет выходом из строя дисков – сначала равномерно изнашивает диски, а при достижении определенного порога нагрузка распределяется таким образом, что диски выходят из строя по очереди. Это исключает одновременный выход из строя нескольких дисков и сокращает риски потери данных.

Алсековские специалисты по СХД прогнозируют, что новая система позволит значительно повысить скорость обработки информации.

* Записала М. Григорьева