Advanced Data Reduction

شرکت پردازش و ذخیره‌سازی سریع داده

خلاصه

سامانه‌های مبتنی بر دیسک حالت جامد (SSD) شرکت پردازش و ذخیره سازی سریع داده (پرسا)، در چند سال اخیر مورد اقبال عموم قرار گرفته و برای کاربردهایی که نیاز به کارآیی بالا و تاخیرپایین در درخواست‌های IO بوده‌اند به جای سامانه‌های مبتنی بر HDD مورد استفاده قرار گرفته است. اما، قیمت بالای دیسک حالت جامد SSD در مقایسه با دیسک سخت (HDD)، خرید سامانه‌های تمام SSD برای برخی مشتریان، مشکل بوده است. در این راستا، شرکت پرسا، پس از انجام تحقیق و توسعه در زمینه کاهش هزینه‌های ذخیر‌ه‌سازی داده، طراحی قابلیت جدیدی به نام «کاهش داده‌ی پیشرفته» یا «Advanced Data Reduction» را در دستور کار خود قرار داده و در حال حاضر، مراحل آخر پیاده‌سازی و تست برروی محصولات سری SAB-AF را می‌گذراند.

قابلیت «کاهش داده‌ی پیشرفته» محصولات SAB-AF شرکت پرسا این امکان را فراهم می‌کند که به صورت «برخط» درخواست‌های IO دریافت، محتوای آن‌ها را در چند لایه تحلیل و الگوهای تکراری داده را حذف کند. این روش برپایه‌ی دو تکنیک با نام deduplication و compression قرار دارد. در مرحله deduplication، بلوک‌های داده‌ی دریافتی با بلوک‌های داده که از قبل در سامانه ذخیره شده است مقایسه می‌شود و در صورت یافتن محتوای یکسان (در آدرس‌های گوناگون)، داده‌ی دریافتی در سامانه نوشته نمی‌شود و فقط یک اشاره‌گر (چندبایتی) به داده‌ی موجود درسامانه به جای یک بلوک (چند کیلوبایتی) نوشته می‌شود. در مواردی که محتوا عینا در سامانه وجود ندارد، الگوهای تکراری داخل بلوک مربوطه تحلیل می‌شود و داده به صورت خلاصه‌تر و فشرده تولید می‌شود که با حجم کم در سامانه ذخیره شود. با ترکیب این دو تکنیک و انتخاب پارامترهای مناسب طراحی، قابلیت کاهش داده‌ی پیشرفته محصولات SAB-AF می‌تواند در کاربردهای واقعی، 50% تا90% حجم داده‌ها را کم (فضای موثر 2 تا 10 برابر) کرده و هزینه‌ی سامانه را به شدت کاهش دهد. به طور مثال، اگر سامانه‌ی خریداری شده دارای 50 ترابایت فضای ذخیره‌سازی خام باشد، با فعا‌ل‌سازی قابلیت جدید محصول، با کاهش حجم میانگین 75%، در عمل 200 ترابایت قابل استفاده می‌شود. این افزایش حجم بدون خریداری دیسک‌های بیشتر صورت می‌گیرد که همین سبب می‌شود هزینه‌ی تمام شده سامانه برای مشتریان بسیار کم و مناسب‌تر شود.

* لازم به ذکر است، دراینجا هیچ داده‌ای از بین نمی‌رود و فقط نحوه ذخیره‌سازی آن داده بهینه می‌شود. به همین دلیل، درهنگام درخواست سرور میزبان، داده‌ی مذکور قابلیت ساخت و نمایش به فرم اولیه است.


شکل 1: تصویر ساده شد‌ه‌ی تاثیر deduplication و compression موجود در قابلیت «Advanced Data Reduction» محصولات سری SAB-AF شرکت پرسا

تاثیر قابلیت  Advanced Data Reductionبرروی چند کاربرد واقعی

جدول 1 نتیجه‌ی چند تست کاربردی در زمان فعال بودن Advanced Data Reduction در محصول SAB-AF شرکت پرسا را نشان می‌دهد.

** تست‌های جدول 1 نشان می‌دهد که درکاربری مهم به ویژه در سامانه‌های دارای ماشین‌های مجازی، میزان کاهش داده بسیار بالا و مفید خواهد بود. به طور مثال، داده‌های سرور FTP تیم‌های توسعه‌دهنده‌ی نرم‌افزار که به طور طبیعی ورژن‌های مختلف از یک نرم‌افزار‌ پایه را نگه‌داری می‌کنند، حدود 73% کاهش حجم داده (معادل 3.7x افزایش فضای موثر قابل استفاده) به وسیله Advanced Data Reduction  فراهم می‌شود. در کاربری‌های ذخیر‌ه‌سازی لاگ‌های سامانه‌های مختلف نیز، حدود 80% کاهش داده بدست می‌آید. در کاربری بسیار رایج استفاده از ماشین‌های مجازی، کاهش داده بسیار بارز است. این کاهش داده به دلیل شباهت‌های زیادی است که سیستم عامل و نرم‌افزارهای پایه در ماشین‌های مجازی مختلف دارا هستند. در تست‌های ما، یک ماشین مجازی به تنهایی حدودا 50% قابلیت کاهش داده دارد. هر چه تعداد ماشین‌های مجازی بیشتر شود، میزان کاهش داده بسیار بهتر عمل می‌کند و به راحتی بالای 75% کاهش داده نیز ممکن می‌شود.

درصد کاهش حجم داده

مدت زمان تست

نوع تست

شماره تست

73%

2 ماه

FTP سرور داخلی شرکت جهت تولید نرم افزار با حجم بالای 100 گیگابایت

1

80%

2 ماه

یک لاگ سرور (جمع آوری لاگ های 15 سامانه ذخیره سازی و سوییچ)

2

45%

بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی

یک ماشین مجازی با سیستم عامل centos 8

3

48%

بلافاصله پس از نصب سیستم عامل ها در ماشین های مجازی

سه ماشین مجازی با Centos8، Windows server و vCenter

4

63%

بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی

دو ماشین مجازی با سیستم عامل CentOS 8

5

** برای تست‌‌های مذکور، سامانه‌ی SAN storage به یک یا چند سرور به عنوان نودهای پردازشی متصل است. درتست‌های 1 و 2، سامانه‌ی ذخیره‌سازی از طریق پورت Ethernet و به واسطه‌ی سوییچ به تعدادی سرور متصل بوده است که داده‌های تغییریافته در نودهای مذکور را دریافت می‌کرده است. مثلا در تست 1، بلوک‌های تغییریافته‌ی یک FTP سرور هر 30 دقیقه به سامانه‌ی ذخیره‌سازی ارسال شده است. در تست های 3و4و5 ، سامانه ذخیره‌سازی از طریق کابل FC به یک نود که نرم‌افزار VMware ESXi را اجرا می‌کرد متصل بوده است. در سمت سامانه‌ی ذخیره‌سازی، آرایه‌ای از SSDهای 2 ترابایتی SM863a سامسونگ و پیکربندی RAID-1 و RAID-5 استفاده شده است. در تمامی تستها، قابلیت Advanced Data Reduction در سامانه‌ی ذخیره‌سازی فعال بوده است.


کاربردهای کلی از تکنیک‌های کاهش داده (تحلیل کارهای تجاری-تحقیقاتی بین‌المللی)

جدول 2 میزان کاهش داده (ناشی از deduplication و compression) در کاربردهای مختلف تست شده در شرکت‌های مختلف و مراکز داده‌ی بین‌المللی را نشان می‌دهد. همان طور که دیده می‌شود، داده‌های حوزه‌ی HPC (هواشناسی، عکس‌های ماهواره‌ای و...) با وجود حجم‌های بسیار بالا معمولا قابلیت کاهش داده‌ی چندانی ندارد و حداکثر 50% کاهش حجم وجود دارد. داده‌های موجود در پایگاه‌های داده معمولا کاهش داده کمی بیشتر است. کاربرد‌های داده‌های ترکیبی کاربرهای مختلف در cloud (شامل فایل‌های آفیس، عکس، موسیقی، نرم‌افزار و...) حدود 60%  قابلیت کاهش داده دارد. بهترین کاربردهای کاهش داده مربوط به استفاده در محیط‌های دارای ماشین‌های مجازی فراوان مانند VDI است. در این کاربردها تا 90%  کاهش داده قابل انجام است.

***لازم به ذکر است که عملیات کاهش داده کاملا به محتوای داده‌ها وابسته است. به همین دلیل یک اپلیکیشن در محیط‌های مختلف و نحوه‌ی استفاده‌ی متفاوت درصد کاهش داده متفاوتی ایجاد می‌کند.

درصد کاهش داده

نوع داده های مورد بررسی

محل ذخیره سازی داده ها یا گروه تحلیل کننده

30%-50%

داده‌های HPC (هواشناسی، عکس‌های ماهواره‌ای و ....)  ]1و2[

چند مرکز داده در اتحادیه اروپا

50%-80%

پایگاه‌های داده SQL/Oracle  ]5[

شرکت PureStorage

~60%

فایل‌های ترکیبی در cloud یا سامانه‌های داخلی شرکتی ]3و4[

چند مرکز داده شرکت Microsoft و داده‌های داخلی شرکت IBM

90%

زیرساخت مجازی دسکتاپ ( VDI)   ]5[

شرکت PureStorage

مراجع:

[1] A study on data deduplication in HPC storage systems, D Meister, et al,  SC 2012
[2] Data Reduction analysis for Climate Data Sets: S. Liu et. al, International journal of parallel programming, 2015
[3] Primary Data Deduplication –Large Scale Study and System Design: A. El-shimi et. al, Usenix ATC 2011
[4]Insights for data reduction in primary storage: a practical analysis: M. Lu et. al, Systor 2012
[5] https://blog.purestorage.com/modeling-io-size-mixes-with-vdbench/, PureStorage blog, published in 2015, accessed 2020

Copyright © 2022 HPDS Co