Meta membagikan cara mendeteksi kerusakan data senyap di pusat datanya
Data Centers

Meta membagikan cara mendeteksi kerusakan data senyap di pusat datanya

meta-data-center.jpg

Salah satu pusat data Facebook di Prineville, Oregon.

Gambar: Meta

Setelah bertahun-tahun menguji berbagai pendekatan untuk mendeteksi silent data corruption (SDC), Meta telah menguraikan pendekatannya untuk menyelesaikan masalah perangkat keras.

SDC adalah kesalahan data yang tidak meninggalkan catatan atau jejak apa pun di log sistem. Sumber SDC termasuk dependensi jalur data, varian suhu, dan usia, di antara faktor silikon lainnya. Karena kesalahan data ini tidak bersuara, kesalahan tersebut dapat tetap tidak terdeteksi dalam beban kerja dan menyebar ke beberapa layanan.

Kesalahan data dapat memengaruhi memori, penyimpanan, jaringan, serta CPU komputer dan menyebabkan hilangnya dan rusaknya data.

Insinyur meta mulai menguji tiga tahun lalu karena mereka kesulitan mendeteksi SDC setelah komponen sudah masuk ke salah satu armada pusat data produksinya.

“Kita [needed] pendekatan deteksi baru untuk menjaga kesehatan aplikasi dan ketahanan armada dengan mendeteksi SDC dan menguranginya dalam skala besar,” kata insinyur Meta Harish Dattatraya Dixit dalam sebuah posting blog.

Menurut pengujian, Meta menemukan cara yang paling disukai untuk mendeteksi SDC adalah menggunakan pengujian di luar produksi dan riak.

Pengujian di luar produksi adalah metode deteksi SDC yang terjadi ketika mesin melalui acara pemeliharaan seperti reboot sistem, peningkatan kernel, dan penyediaan host. Jenis pengujian ini mendukung peristiwa ini untuk memungkinkan pengujian memiliki runtime yang lebih lama sehingga memungkinkan “sifat deteksi yang lebih mengganggu”.

Pengujian riak, sementara itu, terjadi dengan menjalankan deteksi kesalahan senyap bersamaan dengan beban kerja yang aktif. Hal ini dilakukan melalui pengujian bayangan dengan beban kerja dan pola bit injeksi dengan hasil yang diharapkan secara berkala dalam armada dan beban kerja, yang menurut Meta memungkinkan deteksi SDC yang lebih cepat daripada pengujian di luar produksi.

Jenis pengujian “riak” yang lebih cepat ini melalui infrastruktur Meta, memungkinkan waktu pengujian yang 1.000x lebih rendah daripada runtime pengujian di luar produksi.

Insinyur Meta mengamati, bagaimanapun, pengujian riak hanya dapat mendeteksi 70% kerusakan data armada, meskipun mampu mendeteksinya dalam 15 hari. Sebagai perbandingan, pengujian di luar produksi membutuhkan waktu enam bulan untuk mendeteksi korupsi yang sama dengan yang lain.

Dalam menjelaskan manfaat dan pengorbanan ini, Dattatraya Dixit merekomendasikan bahwa organisasi dengan infrastruktur skala besar harus menggunakan kedua pendekatan untuk mendeteksi SDC.

“Kami merekomendasikan untuk menggunakan dan menyebarkan keduanya dalam armada skala besar,” kata Dattatraya Dixit.

“Meskipun mendeteksi SDC adalah masalah yang menantang untuk infrastruktur skala besar, pengujian bertahun-tahun telah menunjukkan kepada kita bahwa [out-of-production] dan pengujian riak dapat memberikan solusi baru untuk mendeteksi SDC dalam skala secepat mungkin.”

Ketika insinyur Meta menggunakan kedua tes untuk mendeteksi SDC, mereka menemukan bahwa semua SDC pada akhirnya dapat dideteksi. Meta mengatakan 70% SDC berasal dari pengujian riak setelah 15 hari, pengujian di luar produksi menangkap hingga 23% dari SDC yang tersisa dalam enam bulan, sedangkan 7% sisanya ditemukan melalui instans riak berulang dalam armada pusat datanya.

Untuk mendorong inovasi lebih lanjut dalam mendeteksi SDC, Meta juga telah mengumumkan akan memberikan lima hibah, masing-masing senilai sekitar $50.000, bagi akademisi untuk membuat proposal penelitian di bidang penelitian ini.

Liputan Terkait

Posted By : togel hongkonģ