Site Reliability Engineering

Site Reliability Engineering یا SRE دانشی است که عملیات و مهندسی نرم‌افزار را ترکیب می‌کند و مهندسی نرم‌افزار را به‌طور خاص روی مسائل زیرساخت و عملیات اعمال می‌کند. یعنی Site Reliability Engineerها به‌جای ساخت قابلیت محصول، سیستم‌هایی می‌سازند که Applicationها را اجرا کنند. این رویکرد شباهت‌هایی با DevOps دارد، اما در حالی که DevOps روی رساندن کد به Production تمرکز می‌کند، SRE اطمینان می‌دهد کدی که در Production اجرا می‌شود درست کار کند.

مسئله‌ای که حل می‌کند

اطمینان از این‌که Applicationها به‌صورت Reliable اجرا می‌شوند، به مجموعه‌ای از قابلیت‌ها نیاز دارد؛ از Monitoring عملکرد، Alerting و Debugging گرفته تا Troubleshooting. بدون این موارد، اپراتورهای سیستم تنها می‌توانند واکنشی عمل کنند و توان پیشگیری ندارند ـ Downtime فقط مسئله زمان خواهد بود.

چگونه کمک می‌کند

رویکرد SRE با بهبود مستمر سیستم زیربنایی، هزینه، زمان و تلاش فرایند توسعه نرم‌افزار را کاهش می‌دهد. سیستم به‌طور مداوم زیرساخت و اجزای Application را اندازه‌گیری و پایش می‌کند. وقتی مشکلی رخ دهد، سیستم به Site Reliability Engineerها نشان می‌دهد چه زمانی، کجا و چگونه باید آن را رفع کنند. این رویکرد با خودکارسازی وظایف عملیاتی به ساخت سیستم‌های نرم‌افزاری بسیار Scalable و Reliable کمک می‌کند.


آخرین ویرایش September 26, 2025: [fa] Add Persian to the list of localized languages (6511f5f)