Ок m ru: Купить Кабель силовой ВБШвнг(А)-LS 4х10,0 ок (N)-0,66 ТРТС

OK Autrodur 56 G M (старое название OK Autrod 13.91)

Canada

México (Mexico)

United States of America (USA)

Antigua and Barbuda

Argentina

Bahamas

Barbados

Belize

Bolivia — Plurinational State of

Brasil (Brazil)

Brasil (Brazil — Condor)

Chile

Colombia

Costa Rica

Cuba

Dominica

Dominican Republic

Ecuador

Grenada

Guatemala

Guyana

Haïti, Ayiti (Haiti)

Honduras

Jamaica

Nicaragua

Panamá

Perú (Peru — Soldexa)

Paraguái (Paraguay)

Saint Kitts and Nevis

Saint Lucia

El Salvador

Suriname

Trinidad and Tobago

Uruguay

Saint Vincent and the Grenadines

Venezuela — Bolivarian Republic of

Andorra (Andorra)

België (Belgium)

Bielaruś, Беларусь (Belarus)

Босна и Херцеговина (Bosnia and Herzegovina)

Bulgariya, България (Bulgaria)

Κύπρος Kıbrıs (Cyprus)

Česko (Czechia)

Crna Gora Црна Гора (Montenegro)

Danmark (Denmark)

Deutschland (Germany)

Eesti (Estonia)

Éire (Ireland)

España (Spain)

France (France)

Hellas Ελλάς (Greece)

Hrvatska (Croatia)

Ísland (Iceland)

Italia (Italy)

Latvija (Latvia)

Lietuva (Lithuania)

Liechtenstein

Lëtezebuerg (Luxembourg)

Magyarország (Hungary)

Malta

Monaca, Múnegu (Monaco)

Netherlands

Norge (Norway)

Österreich (Austria)

Polska (Poland)

Portugal

Republica Moldova (Moldova)

România (Romania)

Россия (Russia)

Северна Македонија (North Macedonia)

Shqipëria (Albania)

Slovenija (Slovenia)

Slovensko (Slovakia)

Srbija Србија (Serbia)

Schweiz (Switzerland)

Suomi (Finland)

Sverige (Sweden)

Türkiye (Turkey)

Ukraїna Україна (Ukraine)

United Kingdom

افغانستانAfghanestan (Afghanistan)

Al-‘Arabiyyah as Sa‘ūdiyyah المملكة العربية السعودية (Saudi Arabia)

Al-’Imārat Al-‘Arabiyyah Al-Muttaḥidah الإمارات العربيّة المتّحدة (United Arab Emirates)

Al-‘Iraq العراق (Iraq)

Al-‘Urdun الأردن (Jordan)

Al-Yaman اليمن (Yemen)

البحرينAl-Bahrayn (Bahrain)

Dawlat ul-Kuwayt دولة الكويت (Kuwait)

Iran (Islamic Republic of)

Israʼiyl إسرائيل, Yisra’el ישראל (Israel)

Lubnān لبنان, Liban (Lebanon)

Qaṭar قطر (Qatar)

Syrian Arab Republic

Türkiye (Turkey)

‘Umān عُمان (Oman)

Al-maɣréb المغرب, Amerruk / Elmeɣrib (Morocco)

Angola (Angola)

As-Sudan السودان (Sudan)

Bénin (Benin)

Botswana

Burkina Faso

Cabo Verde

Cameroun (Cameroon)

Congo

Congo, Democratic Republic of

Côte d’Ivoire

Djibouti

Dzayer (Algeria)

مصرMisr (Egypt)

eSwatini (Eswatini)

Gaana (Ghana)

Gambia

Guinea Ecuatorial (Equatorial Guinea)

Guinea-Bissau

Guinée (Guinea)

Iritriya إرتريا Ertra (Eritrea)

Ityop’ia ኢትዮጵያ (Ethiopia)

Kenya

Lesotho

Liberia

Lībiyā ليبيا (Libya)

Madagasikara (Madagascar)

Malaŵi, Malawi (Malawi)

Mali

Moçambique (Mozambique)

Moris (Mauritius)

Muritan / Agawec, Mūrītānyā موريتانيا (Mauritania)

Namibia

Niger

Nigeria, Nàìjíríà (Nigeria)

République Centrafricaine, Ködörösêse tî Bêafrîka (Central African Republic)

République Gabonaise (Gabon)

Rwanda

Sao Tome and Principe

Sénégal (Senegal)

Seychelles, Sesel (Seychelles)

Sierra Leone

Soomaaliya aş-Şūmāl, الصومال (Somalia)

South Africa

Tanzania, United Republic of

Tchad, تشاد (Chad)

Togo

Tunes, تونس (Tunisia)

Uburundi (Burundi)

Uganda

Western Sahara

Zambia

Zimbabwe

جزر القمر Comores Koromi (Comoros)

Aorōkin M̧ajeļ (Marshall Islands)

Aotearoa (New Zealand)

Australia

Azərbaycan (Azerbaijan)

Bangladesh বাংলাদেশ (Bangladesh)

Belau (Palau)

Brunei Darussalam

Druk Yul, འབྲུག་ཡུལ (Bhutan)

Dhivehi Raajje (Maldives)

Fiji, Viti, फ़िजी (Fiji)

Hayastán (Armenia)

Kampuchea កម្ពុជា (Cambodia)

Kyrgyzstan Кыргызстан (Kyrgyzstan)

India

Indonesia

South Korea

Mǎláixīyà 马来西亚, Malaysia, மலேசியா (Malaysia)

Micronesia (Federated States of)

Mongol Uls Монгол Улс (Mongolia)

Mueang Thai เมืองไทย (Thailand)

Myanma မြန်မာ (Myanmar)

  • Продукция и решения
  • Сварочные материалы
  • Проволока для сварки MIG/MAG (GMAW)
  • Упрочняющая наплавка

x

x

Loading. .

Из-за чего ОК не работали три дня в 2013 и как боролись с аварией → Roem.ru

Из официального заявления о причинах сбоя в работе проекта:

В результате технического сбоя во время выкладки конфигурационного файла на все сервера ОК произошли необратимые изменения. В течение 10 минут произошел рост использования ресурсов серверов до 100%. От нас потребовался принудительный рестарт и ручное переконфигурирование значительной части из более чем 5 000 серверов. Это повлекло за собой восстановление работы систем хранения данных и запуск сервисов с нуля.

4 апреля 2013 года произошла самая серьезная авария за всю историю Одноклассников — портал не работал более суток, а потом еще в течение двух дней был доступен в ограниченном режиме. У десятков миллионов пользователей пропала возможность писать сообщения своим друзьям и близким, слушать музыку, смотреть видео и играть в любимые игры на портале. Экспертами и людьми, не обладающими техническими знаниями, выдвигались всевозможные предположения: от взлома хакерами и потери всех данных, до “они поднимают свой MS SQL”. Отношение к произошедшему тоже было разное: от пожеланий скорейшего решения проблем и добрых писем в отдел поддержки пользователей до злорадных комментариев и обвинения сотрудников ОК в некомпетентности.

На самом деле ситуация выглядит несколько иначе. Важно понимать, что современные интернет-проекты с миллионами пользователей в онлайне — это очень сложные системы. Если мы говорим про социальные сети, то эти системы могут насчитывать десятки и сотни тысяч серверов, а также компонентов: фотографии, видео, сообщения, графы друзей, рекомендации, лента. Все это состоит из множества баз данных, систем кеширования, серверов раздачи, систем мониторинга и статистики и многого другого.

К примеру, Одноклассники на сегодня — это более 7000 серверов, которые в совокупности обслуживают около 150 различных подсистем.

В любом крупном проекте, разработчики принимают ряд мер для того, чтобы обезопасить себя от аварий, сбоев, отказов и пр. Типичный пример такой проблемы — выход из строя какого-то оборудования (от жесткого диска до аварии на интернет-магистрали, к которой подключен датацентр).

Другой пример — ошибка в программном обеспечении. Это может быть неправильно работающий драйвер операционной системы сервера или даже простая ошибка программиста из конкретного подпроекта. Наши решения умеют моментально переключаться с одного оборудования на другое в случае, если автоматика распознает, что с текущим оборудованием что-то не так.

Как все было. Что-то пошло не так или “давай с твоей консоли поправим, будет быстрее, у меня уже закрыто”

К сожалению, мы не можем быть застрахованы от человеческого и технического фактора. В нашем случае, в 2013 году это был человеческий фактор. Системный администратор должен был совершить простое, обычное изменение конфигурации, направленное на починку уже случившейся поломки и на обеспечение безопасности системы. Минутное дело — очевидные изменения. Ничего бы и не произошло, если бы не различия в рабочем окружении сотрудников, из-за которого в конфигурацию пробрался один лишний символ.

Баг в системе централизованого управления из-за лишнего символа испортил конфигурацию еще больше и привел к мгновенному ее распространению на все тысячи серверов. И все бы даже ничего, если бы не баг в системном компоненте Linux, который вместо того, чтобы отказаться читать такую конфигурацию, в течение 10 минут вызвал 100% нагрузку на все сервера. Скорость обслуживания запросов пользователей упала на порядки и из-за слишком большой нагрузки все сервера стали полностью недоступны для управления администраторами.

Как чинили и какие были сложности

Первые 20 минут еще была надежда, что удастся починить так, как и сломали, но быстро пришло понимание, что этого сделать не получится. Для людей, не сталкивавшихся с авариями подобного масштаба, сложно осознать всю глубину проблемы. Представьте себе: творение ваших многодневных трудов на глазах стирается в пыль. Чинить нужно было срочно, но непонятно как, с чего начать и что лучше сделать в первую очередь. То, что было очевидно: для полной починки потребуются дни. Дни сначала ручных, а потом полуавтоматических и автоматических действий со всеми серверами для их «оживления», а потом запуск и восстановление работоспособности всех систем и полной функциональности.

Началась ликвидация аварии: информирование, мобилизация, ручная работа и параллельная автоматизация починки, распределение задач и ролей, дополнительная мобилизация, решение ожидаемых и неожиданных проблем, постоянный контроль, расстановка приоритетов  и корректировка действий вплоть до полного восстановления, документирование действий и возникающих проблем для последующего анализа.

Что мешало

В первую очередь, отсутствие плана действий и опыта решения настолько серьезной проблемы. Неожиданные циклические зависимости между сервисами и правка кода “на лету”, хаос в статистике и мониторинге, не готовых к такой аварии, неадекватное поведение служебных систем и сети, вызванное массовыми перезапусками оборудования, поломки уже починенного, запуск сервисов в определенной последовательности с урезанным функционалом из-за недоступности части серверов и сервисов, наличие большого количества систем хранения данных, требующих сложных и продолжительных ручных манипуляций для запуска и, наконец, физические возможности человеческого организма.

Что вдохновляло

Рабочая и продуктивная атмосфера, полная самоотдача сотрудников, поддержка коллег и руководства несмотря на очень большое давление. Многие коллеги не спали сутками, а ребята из других отделов поддерживали как могли: кто едой, кто просто бодростью духа.

Какие выводы мы сделали и что решили изменить

Мы проанализировали информацию, полученную по результатам аварии и ее решения, и полностью избавились от ненадежных систем хранения данных. Помимо этого, внедрили централизованную систему автономного управления серверами, улучшили системы мониторинга и сделали физически невозможным изменение конфигурации на всех серверах за короткий период.

А также:

  • Поменяли процедуры изменений на production (сервера, находящиеся в промышленной эксплуатации, то есть непосредственно обрабатывающие запросы пользователей) и ввели review (обязательную проверку еще одним сотрудником) этих изменений
  • Поменяли процедуры тестирования служебных систем
  • Повысили надежность служебных систем и сети
  • Подготовили и постоянно тестируем план действий при аварии
  • Несмотря на произошедшее, команда была полностью сохранена.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Закрыть
Menu