جادوی فشرده سازی؛ ریاضیات چگونه فیلم های با وضوح بالا را در یک تا چند گیگ فشرده می نماید؟

به گزارش اهدا بلاگ، تصور کنید بخواهید یک اقیانوس را در یک لیوان جا دهید؛ این دقیقاً همان کاری است که مهندسان نرم افزار و ریاضی دانان هر ثانیه در گوشی هوشمند شما انجام می دهند. وقتی به تماشای یک فیلم با کیفیت بالا (4K) می نشینید، در حقیقت در حال تماشای جریانی از داده ها هستید که در حالت عادی، پهنای باند کل محله شما را در یک چشم به هم زدن می بلعد. بدون جادوی ریاضیاتِ فشرده سازی، نه نتفلیکسی وجود داشت، نه یوتیوبی و نه حتی امکان ارسال یک ویدیوی کوتاه در واتس اپ. یک فیلم دو ساعته خام و فشرده نشده، فضایی در حدود چندین ترابایت اشغال می نماید؛ یعنی حجمی معادل کل ظرفیت هارد دیسک یک لپ تاپ گران قیمت! اما چطور این غولِ داده، به یک فایل دو گیگابایتی تبدیل می گردد بدون اینکه چشم ما متوجه افت کیفیت فاحشی گردد؟

جادوی فشرده سازی؛ ریاضیات چگونه فیلم های با وضوح بالا را در یک تا چند گیگ فشرده می نماید؟

پاسخ این معما در هنرِ حذف کردن نهفته است. فشرده سازی داده ها ترکیبی از هوش ریاضی، احتمالات و درک عمیق از محدودیت های بیولوژیکی چشم انسان است. ریاضی دانان آموخته اند که اطلاعات تکراری را شناسایی نمایند، الگوهای قابل پیش بینی را با فرمول های کوتاه جایگزین نمایند و مهم تر از همه، بخش هایی از تصویر را که مغز انسان اصولاً قادر به دیدن آن ها نیست، دور بریزند. در این مقاله، ما لایه های پنهان کدک های ویدیویی را ورق می زنیم تا بفهمیم چگونه الگوریتم هایی مانند هافمن و تبدیل های کسینوسی، دنیای دیجیتال ما را از انفجار اطلاعات نجات داده اند. این سفری است به دنیای صفر و یک هایی که یاد گرفته اند چطور با فضای کمتر، حرف بیشتری برای گفتن داشته باشند.

1- غولِ نهفته در پیکسل ها؛ چرا ویدئوی خام غیرممکن است؟

برای درک عظمت کار، باید ابتدا با ابعاد واقعی یک ویدئوی فشرده نشده (Uncompressed) روبرو شویم. یک فریم از یک فیلم با کیفیت Full HD، شامل بیش از دو میلیون پیکسل است. هر پیکسل برای نمایش رنگ های دقیق، به 24 بیت داده احتیاج دارد. حالا اگر این عدد را در 24 یا 30 فریم در هر ثانیه ضرب کنید و سپس در طول 120 دقیقه فیلم پخش کنید، به رقمی نجومی می رسید. یک محاسبه ساده نشان می دهد که یک فیلم معمولی بدون فشرده سازی به حجمی بیش از 800 گیگابایت تا 1 ترابایت احتیاج دارد. در واقع، دیسک های بلو-ری (Blu-ray) یا استریم های آنلاین، تنها به این علت ممکن شده اند که ما یاد گرفته ایم 99 درصد از این داده ها را حذف کنیم.

شاید نشنیده باشید:

اگر می خواستید یک فیلم دو ساعته را بدون فشرده سازی و با سرعت اینترنت معمولی دانلود کنید، این فرایند بیش از سه ماه زمان می برد و هزینه ترافیک مصرفی آن معادل قیمت یک خودروی مالی بود!

تکنولوژی فشرده سازی در حقیقت یک رژیمِ سخت گیرانه برای داده هاست. این فرایند با شناسایی افزونگی (Redundancy) آغاز می شود. در دنیای دیجیتال، افزونگی یعنی اطلاعاتی که تکرار می شوند یا حضورشان تأثیری در درک نهایی ما ندارد. ریاضی دانان از دو روش اصلی برای مقابله با این حجم استفاده می نمایند: فشرده سازی بدون اتلاف (Lossless) برای فایل های متنی و حساس و فشرده سازی بااتلاف (Lossy) برای صوت و تصویر. در فیلم ها، ما از روش دوم استفاده می کنیم؛ یعنی بخشی از اطلاعات را برای همواره قربانی می کنیم تا حجم فایل به طرز معجزه آسایی کاهش یابد.

2- کدگذاری هافمن؛ زبانِ میان برِ اتم های دیجیتال

یکی از پایه های ریاضی فشرده سازی، الگوریتم هافمن (Huffman Coding) است که در دهه 1950 میلادی به وسیله دیوید هافمن ابداع شد. منطق این روش بسیار ساده و در عین حال نبوغ آمیز است: چرا باید برای همه کاراکترها یا رنگ ها از کدهای هم مقدار استفاده کنیم؟ در یک زبان معمولی، حرف الف بسیار بیشتر از حرف ژ تکرار می شود. هافمن پیشنهاد داد که برای موارد پرتکرار، کدهای کوتاه تر و برای موارد نادر، کدهای بلندتر اختصاص دهیم. این کار باعث می شود میانگین طول داده ها به شدت کاهش یابد بدون اینکه ذره ای از اطلاعات اصلی از بین برود.

در یک فریم ویدئویی، بعضی رنگ ها یا الگوها به کرات تکرار می شوند. الگوریتم هافمن با تحلیل آماریِ هر فریم، یک فرهنگ لغتِ بهینه می سازد. طبق پژوهش های نوین در حوزه نظریه اطلاعات، این روش می تواند حجم داده های متنی یا کدهای پایه تصویر را تا 50 درصد کاهش دهد. این دقیقاً همان علتی است که فایل های ZIP کار می نمایند؛ آن ها در پی الگوهای تکراری می گردند و به جای نوشتن ده باره کلمه سلام، یک بار آن را می نویسند و در دفعات بعدی فقط به آدرس اول اشاره می نمایند. این اولین لایه از جادوی ریاضی است که در هر فایل MP4 نهفته است.

3- فشرده سازیِ بااتلاف؛ هنرِ قربانی کردنِ نامرئی ها

اگر فقط به روش های بدون اتلاف بسنده می کردیم، باز هم فیلم ها بیش از حد بزرگ بودند. اینجاست که فشرده سازی بااتلاف (Lossy Compression) وارد عمل می شود. در این روش، ریاضیات از ضعف های بیولوژیکی ما سوءاستفاده می نماید. مغز انسان در تشخیص تفاوت های بسیار ریزِ رنگی ضعیف است، اما به تغییرات روشنایی (Luminance) بسیار حساس است. مهندسان با استفاده از این واقعیت، بخشی از داده های مربوط به جزئیاتِ رنگیِ غیرضروری را حذف می نمایند. وقتی شما یک فیلم را فشرده می کنید، در حقیقت در حال پاک کردنِ پیکسل هایی هستید که چشمتان حتی اگر می خواست، نمی توانست آن ها را ببیند.

این فرآیند مانند خلاصه کردن یک کتاب است. شما تمام کلمات را نگه نمی دارید، اما معنای داستان را کاملاً حفظ می کنید. در ویدئو، پیکسل هایی که در لبه های تیز نیستند یا در سایه های بسیار تیره قرار دارند، اولین قربانیان هستند. ریاضیاتِ حاکم بر این بخش، سعی می نماید تعادلی میان نرخ بیت (Bitrate) و کیفیت بصری ایجاد کند. چالش اصلی اینجاست که چقدر می توانیم حذف کنیم قبل از اینکه تصویر شطرنجی یا پیکسلی به نظر برسد؟ این مرزِ باریک، محل رقابت کدک های مدرنی مثل H.264 و H.265 است که با فرمول های پیچیده تر، حذفیاتِ بی رحمانه تری انجام می دهند.

4- تصویر به مثابهِ موج؛ ورود به دنیای فرکانس

قلب تپنده فشرده سازی مدرن، پدیده ای به نام تبدیل کسینوسی گسسته (Discrete Cosine Transform) یا به اختصار DCT است. در این مرحله، ریاضیاتِ محض وارد میدان می شود تا تصویر را از دنیای پیکسل ها به دنیای فرکانس ها ببرد. یک تصویر در حقیقت مجموعه ای از تغییرات نوری است. DCT تصویر را به بلوک های کوچک 8 در 8 پیکسل تقسیم نموده و هر بلوک را به صورت ترکیبی از موج های کسینوسی بازنویسی می نماید. چرا این کار مفید است؟ چون در بیشتر تصاویر طبیعی، اطلاعاتِ مهم در فرکانس های پایین (تغییرات نرم نوری) نهفته اند و فرکانس های بالا (جزئیات بسیار ریز و نویزها) چندان اهمیتی ندارند.

با انتقال تصویر به حوزه فرکانس، ما می توانیم فرکانس های بالا را با دقت کمتری ذخیره کنیم یا حتی آن ها را کلاً حذف کنیم. این کار باعث می شود حجم داده های هر بلوک تصویر به شدت سقوط کند. این همان تکنیکی است که در فرمت JPEG برای عکس ها و در استانداردهای MPEG برای فیلم ها استفاده می شود. طبق پژوهش های نوین، بدون این تبدیلِ ریاضیِ درخشان، استریم کردنِ ویدئو روی شبکه های موبایلی (4G/5G) عملاً غیرممکن بود. ما یاد گرفته ایم که به جای ذخیره کردنِ خودِ تصویر، فرمولِ ساختِ تصویر را ذخیره کنیم؛ فرمولی که بسیار سبک تر از اصلِ جنس است.

5- پیش بینی حرکت؛ وقتی ریاضیات فریم بعدی را حدس می زند

بزرگ ترین راز فشرده سازی ویدئو در این حقیقت نهفته است: در یک فیلم، بین فریمِ اول و فریمِ دوم، تفاوت بسیار کمی وجود دارد. وقتی یک بازیگر در حال حرکت است، پس زمینه ثابت می ماند و فقط چند پیکسل مربوط به چهره یا بدن او جابجا می شوند. چرا باید تمامِ پیکسل های پس زمینه را در هر فریم دوباره ذخیره کنیم؟ مهندسان از تکنیکی به نام تخمین حرکت (Motion Estimation) استفاده می نمایند. در این روش، الگوریتم به جای ذخیره تصویر نو، فقط یک بردار حرکت (Motion Vector) ذخیره می نماید که می گوید: آن بلوکِ پیکسلی که در فریم قبل در مختصات الف بود، حالا به مختصات ب رفته است.

یک نکته کنجکاوی برانگیز:

در یک سکانس ثابت که فقط یک نفر در حال صحبت است، بیش از 95 درصد از داده های هر فریم تکراری است. کدک های مدرن با حذف این تکرارها، حجم داده را به کمتر از یک صدمِ حالت اولیه می رسانند بدون اینکه شما متوجه شوید.

این فرآیند باعث می شود که حجم عظیمی از پهنای باند صرفه جویی شود. ریاضیاتِ حاکم بر این بخش، در پی یافتنِ برترین تطابق میان بلوک های فریم فعلی و فریم های قبلی می شود. اگر تطابق پیدا نشود (مثلاً در یک صحنه انفجار که همه چیز به هم می ریزد)، کدک ناچار می شود یک فریم کامل (I-Frame) ذخیره کند؛ به همین علت است که در صحنه های پرتحرک و اکشن، ناگهان حجم داده های مصرفی استریم بالا می رود یا کیفیت تصویر کمی افت می نماید. در واقع، ویدئو مجموعه ای از تفاوت ها است، نه مجموعه ای از تصاویر کامل.

6- سلسله مراتب فریم ها؛ مثلثِ جادویی I و P و B

در ساختار یک فایل ویدئویی، همه فریم ها ارزش برابری ندارند. ریاضیاتِ فشرده سازی ویدئو را به سه نوع فریم تقسیم می نماید: فریم های مستقل (I-Frames) که مانند یک عکس کامل هستند، فریم های پیش بینی شده (P-Frames) که فقط تغییرات نسبت به فریم قبلی را ذخیره می نمایند، و فریم های پیش بینی شده دوجانبه (B-Frames) که از اطلاعاتِ هم فریم های قبل و هم فریم های بعد استفاده می نمایند! بله، درست شنیدید؛ کدک برای بازسازی یک صحنه، گاهی از آینده هم قرض می گیرد.

این چیدمان هوشمندانه باعث می شود که جریان ویدئو بهینه ترین حالت ممکن را داشته باشد. فریم های B شاهکارِ ریاضیاتِ فشرده سازی هستند؛ آن ها با تحلیلِ حرکت در دو جهتِ زمان، خلاءهای تصویری را با کمترین حجمِ ممکن پر می نمایند. طبق پژوهش های نوین، استفاده از فریم های B در استانداردهایی مثل HEVC، کارایی فشرده سازی را تا 50 درصد نسبت به روش های قدیمی بهبود بخشیده است. این یعنی شما می توانید همان کیفیتِ تصویر قبلی را با نیمی از حجمِ مصرفیِ اینترنت دیدن کنید.

7- کوانتیزاسیون؛ جایی که دقت قربانیِ فضا می شود

بعد از اینکه تصویر به فرکانس تبدیل شد (DCT)، نوبت به مرحله ای بی رحمانه به نام کوانتیزاسیون (Quantization) می رسد. در این مرحله، مقادیرِ دقیقِ ریاضی به اعدادِ رُند تبدیل می شوند. برای مثال، به جای ذخیره عددی مثل 43.7، عدد 40 ذخیره می شود. این کار باعث می شود که بسیاری از اعداد به صفر تبدیل شوند. در دنیای کامپیوتر، ذخیره کردنِ صفرها بسیار کم هزینه تر از ذخیره کردنِ اعدادِ دقیق و فرق دارد. هرچه اندازهِ کوانتیزاسیون بیشتر باشد، فایل کوچک تر می شود، اما جزئیات بیشتری از دست می رود.

این فرآیند دقیقاً همان علتی است که در ویدئوهای با کیفیت پایین، در نواحیِ تاریک تصویر، پله پلگی (Banding) مشاهده می کنید. ریاضیات در اینجا آگاهانه دقت را فدای حجم می نماید. چالشِ مهندسی در این مرحله، طراحیِ ماتریس های کوانتیزاسیون است؛ یعنی فرمول هایی که بدانند کدام بخش های تصویر را می توان با بی دقتی ذخیره کرد و کدام بخش ها (مانند چهره انسان) باید با حدبیشتر دقت باقی بمانند. این توازن ظریف، مرز بین یک فیلم شفاف و یک تصویرِ محو و بی کیفیت است.

8- مدل سازیِ روان شناختیِ صدا؛ نشنیدن برای سبک تر شدن

یک فیلم فقط تصویر نیست؛ بخش بزرگی از تجربه ما به صدا وابسته است. اما جالب است بدانید که فشرده سازی صدا (مانند فرمت MP3 یا AAC) حتی از تصویر هم بی رحمانه تر است. در اینجا از مدل سازیِ آکوستیکِ روانی (Psychoacoustic Modeling) استفاده می شود. گوش انسان دارای محدودیت هایی است؛ مثلاً اگر یک صدای بسیار بلند (مثل طبل) و یک صدای بسیار نازک (مثل جیرجیرک) همزمان پخش شوند، مغز صدای ضعیف تر را حذف می نماید. ریاضیاتِ فشرده سازی صدا، این صداهای ماسک شده را شناسایی و از فایل حذف می نماید.

علاوه بر این، فرکانس های بالاتر از 20 کیلوهرتز که برای بیشتر انسان ها غیرقابل شنیدن است، به طور کامل حذف می شوند. نتیجه این کار شگفت آور است: شما می توانید حجم داده های صوتی را تا 10 برابر کاهش دهید بدون اینکه متوجه شوید بخشی از صداها دیگر وجود ندارند. در استریم های مدرن، صدا و تصویر با هم هماهنگ می شوند تا در پهنای باندهای متغیر، تعادل حفظ شود. این یک مهندسیِ دقیق بر اساس محدودیت های حواسِ پنج گانه ماست؛ ما فقط چیزی را ذخیره می کنیم که مغز بتواند آن را تجربه کند.

9- کدگذاری درونی؛ پیش بینی پیکسل ها در دلِ یک فریم

علاوه بر پیش بینی حرکت بین فریم ها، ریاضیاتِ فشرده سازی از تکنیکی به نام پیش بینی درون فریمی (Intra-prediction) استفاده می نماید. در این روش، الگوریتم حتی در لایه های یک عکسِ ثابت هم در پی الگو می شود. اگر بخش بزرگی از تصویر شامل آسمان آبی باشد، کدک به جای ذخیره تک تک پیکسل های آبی، فقط رنگ چند پیکسلِ لبه را ذخیره نموده و به بقیه دستور می دهد: از همسایه سمت چپ خود تقلید کن!. این مدل سازیِ ریاضی باعث می شود که بافت های یکنواخت تصویر با کمترین حجمِ ممکن بازسازی شوند.

دانستنی نایاب:

در استانداردهای نوی مثل AV1، الگوریتم ها می توانند جهتِ خطوط و بافت های پیچیده را شناسایی نموده و آن ها را با فرمول های هندسی بازسازی نمایند. این یعنی فایل ویدیویی عملاً شبیه به یک تابلوی نقاشیِ دیجیتال است که دستورالعملِ کشیده شدن را در خود دارد، نه فقط رنگ نهایی را.

این فرآیند در بلوک های کوچک تصویر انجام می شود. هرچه قدرت پردازنده دستگاه شما بیشتر باشد، کدک می تواند از الگوهای پیچیده تری برای پیش بینی استفاده کند. طبق پژوهش های نوین، این لایه از فشرده سازی به تنهایی می تواند تا 20 درصد به کاراییِ کلیِ ذخیره سازی بیفزاید. در واقع، ریاضیات در اینجا به جای تکرارِ داده ها، از منطقِ مجاورت استفاده می نماید تا با کمترین کلمات، بیشترین توصیف را از صحنه ارائه دهد.

10- استریمینگ تطبیقی؛ پایکوبیِ پهنای باند و کیفیت

تا به حال متوجه شده اید که وقتی سرعت اینترنت شما افت می نماید، کیفیت فیلم ناگهان پایین می آید اما پخش آن متوقف نمی شود؟ این جادوی استریمینگ تطبیقی (Adaptive Bitrate Streaming) است. سرورهای خدماتی مانند نتفلیکس، هر فیلم را در چندین نسخه با کیفیت های مختلف (از 240p تا 4K) به صورت همزمان ذخیره می نمایند. ریاضیاتِ پشت این سیستم، هر چند ثانیه یک بار سرعت اتصال شما را می سنجد و تصمیم می گیرد که پارتِ بعدیِ فیلم را از کدام نسخه برای شما بفرستد.

این فرآیند با تقسیم فیلم به قطعات کوچک (Segments) 2 تا 10 ثانیه ای انجام می شود. هر قطعه با یک فریمِ کلیدی (I-Frame) آغاز می شود تا سوئیچ کردن بین کیفیت های مختلف بدون پرش و قطع شدنِ ویدئو انجام شود. الگوریتم های مدیریتِ بافر، با استفاده از نظریه صف ها و احتمالات، پیش بینی می نمایند که آیا در ثانیه های آینده اتصال شما پایدار خواهد بود یا خیر. این مهندسیِ پویا باعث شده است که مفهوم بارگذاری (Buffering) که زمانی کابوس کاربران اینترنت بود، تقریباً از بین برود.

11- بازسازی با هوش مصنوعی؛ فراتر از مرزهای کلاسیک

ما در حال ورود به دورانی هستیم که در آن ریاضیاتِ فشرده سازی با هوش مصنوعی (AI) ادغام شده است. تکنولوژی هایی مانند DLSS یا Super Resolution، به جای فشرده سازیِ صرف، از فراوری مجدد استفاده می نمایند. در این روش، ویدیویی با کیفیت بسیار پایین ارسال می شود و هوش مصنوعی در دستگاه مقصد، پیکسل های گمشده را بر اساس آموخته های قبلی خود از میلیون ها تصویر مشابه، نقاشی می نماید. این کار اجازه می دهد تا یک ویدیوی 720p با حجمی بسیار ناچیز ارسال شده و در تلویزیونِ کاربر به صورت 4K نمایش داده شود.

این رویکرد کاملاً متفاوت از ریاضیاتِ کلاسیک است. در اینجا ما دیگر فقط اطلاعات را حذف نمی کنیم، بلکه به دستگاه مقصد اجازه می دهیم که حقیقت را حدس بزند. طبق تحقیقات در دست انجام، این روش می تواند فشرده سازی را تا 10 برابرِ استانداردهای فعلی قدرتمندتر کند. آینده فیلم های باکیفیت، نه در کابل های فیبر نوری ضخیم تر، بلکه در الگوریتم های هوشمندتری نهفته است که می دانند یک چهره یا یک چشم انداز در حالتِ ایده آل باید چه شکلی باشد.

12- کدک های نسل بعد؛ نبردِ H.266 و رقبا

در دنیای تکنولوژی، نبرد بر سرِ هر بیت از داده ها ادامه دارد. استاندارد نو VVC (H.266) طراحی شده است تا همان کیفیتِ H.265 را با 50 درصد حجم کمتر ارائه دهد. این دستاورد با استفاده از توابعِ ریاضیِ پیچیده تر و الگوریتم های پیش بینیِ دقیق تر ممکن شده است. با ظهور ویدیوهای 8 بعدی و واقعیتِ مجازی (VR)، احتیاج به فشرده سازیِ شدیدتر بیش از هر زمان دیگری احساس می شود. هر نسل از کدک ها، سقفِ تواناییِ ریاضیات را برای مدیریتِ آشوبِ داده ها جابجا می نماید.

توسعه این کدک ها سال ها زمان می برد، زیرا باید تعادلی بین زمان فشرده سازی و کیفیت نهایی برقرار شود. اگر فرمولی بیش از حد پیچیده باشد، گوشی شما هنگام پخش فیلم به شدت داغ شده و باتری آن به سرعت تمام می شود. بنابراین، ریاضیاتِ فشرده سازی همواره باید با بهینگیِ سخت افزاری همگام باشد. ما امروز در دورانی زندگی می کنیم که پیچیده ترین محاسباتِ ریاضیِ تاریخِ بشر، در هر ثانیه از دیدنی یک کلیپِ ساده در دستان ما در حال اجراست.

سوالات متداول (Smart FAQ)

1. چرا گاهی اوقات در صحنه های تاریک فیلم، لکه های بزرگ و زشت (Color Banding) می بینیم؟

این پدیده به علت کوانتیزاسیون شدید رخ می دهد؛ زمانی که الگوریتم برای کاهش حجم، طیف های نزدیکِ رنگ مشکی و خاکستری را یکی فرض نموده و آن ها را به یک عددِ واحد رُند می نماید. در نتیجه، شیبِ ملایمِ رنگ ها از بین رفته و به صورت پله پلگی های آزاردهنده دیده می شود. این مشکل معمولاً در ویدئوهایی با نرخ بیت پایین که بیش از حد فشرده شده اند، شایع است.

2. آیا فشرده سازی مکرر یک ویدئو باعث نابودی کامل آن می شود؟

بله، این پدیده نسل کشی دیجیتال نام دارد؛ هر بار که یک ویدئوی فشرده شده را دوباره خروجی می گیرید، الگوریتم دوباره بخش هایی از جزئیات را حذف نموده و خطاهای محاسباتی قبلی را تشدید می نماید. پس از چندین بار تکرار، تصویر دچار نویزهای شدید (Artifacts) شده و ساختار هندسی آن کاملاً فرو می پاشد. برای جلوگیری از این اتفاق، همواره باید ویرایش ها را روی فایل اصلی و با فرمت های بدون اتلاف انجام داد.

3. چرا با وجود پیشرفت تکنولوژی، باز هم فیلم های باکیفیت حجم زیادی دارند؟

علت اصلی این است که هم زمان با قوی تر شدن الگوریتم های فشرده سازی، استانداردهای نمایشی هم ارتقا یافته اند؛ مثلاً حرکت از Full HD به 4K و حالا 8K، تعداد پیکسل ها را چندین برابر نموده است. بعلاوه تکنولوژی هایی مثل HDR که عمق رنگ را از 8 بیت به 10 یا 12 بیت می رسانند، حجم داده های خام را به شدت افزایش می دهند. در واقع، ریاضیاتِ فشرده سازی در یک رقابت دائمی با عطشِ ما برای کیفیتِ بصریِ بالاتر قرار گرفته است.

4. تفاوت اصلی بین فرمت های MP4 و MKV در فشرده سازی چیست؟

این دو در واقع کانتینر (Container) هستند و به خودیِ خود روش فشرده سازی نیستند؛ تفاوت آن ها در این است که چه نوع داده هایی را می توانند درون خود جا دهند. MKV انعطاف پذیری بیشتری برای نگهداری چندین ترک صوتی، زیرنویس و فصل بندی دارد، در حالی که MP4 برای سازگاری حدبیشتری با تمام دستگاه ها و استریمینگ طراحی شده است. کیفیت و حجم فیلم نهایتاً به وسیله کدک (مانند H.264) مشخص می شود که داخل این کانتینرها قرار می گیرد.

5. آیا هوش مصنوعی می تواند فیلم های قدیمی و بی کیفیت را به 4K واقعی تبدیل کند؟

هوش مصنوعی می تواند تصویر را بازسازی کند، اما نمی تواند داده های اصلی که در زمان فیلم برداری ثبت نشده اند را بازیابی کند. سیستم های مبتنی بر شبکه های عصبی، با حدس زدنِ بافت ها و لبه ها، تصویر را شفاف تر می نمایند و جزئیاتِ مصنوعیِ باورپذیری به آن می افزایند. این فرآیند که Upscaling نامیده می شود، تصویر را زیباتر می نماید اما از نظر علمی، لزوماً همان واقعیتی نیست که لنز دوربین ثبت نموده بود.

6. چرا حجمِ مصرفیِ اینترنت هنگام دیدنی مسابقات ورزشی زنده بیشتر است؟

در مسابقات ورزشی، دوربین مدام در حال حرکت سریع است و پیکسل های کل صفحه در هر فریم تغییر می نمایند، بنابراین الگوریتمِ پیش بینی حرکت کارایی کمتری دارد. در مقابل، در یک فیلمِ درام که دو نفر در یک اتاق ثابت نشسته اند، بیشتر فریم ها تکراری هستند و حجم بسیار کمی اشغال می نمایند. هرچه صحنه بی نظم تر و پرتکاپوتر باشد، ریاضیاتِ فشرده سازی فشار بیشتری را برای پایین نگه داشتن حجم تحمل می نماید.

7. مفهوم نرخ بیت متغیر (VBR) چه کمکی به کیفیت فیلم می نماید؟

در حالت VBR، الگوریتم به جای اختصاص دادن حجم ثابت به تمام ثانیه های فیلم، هوشمندانه عمل می نماید؛ یعنی به صحنه های ساده حجم کمتر و به صحنه های پیچیده و شلوغ حجم بیشتری اختصاص می دهد. این کار باعث می شود که کیفیت نهایی فیلم در صحنه های اکشن افت نکند و در عین حال، میانگین حجم کل فایل در بهینه ترین حالت ممکن باقی بماند. این یکی از کلیدی ترین تکنیک ها در انکودینگ حرفه ای فیلم های سینمایی است.

8. آیا فشرده سازی صدا روی کیفیت موسیقی متن فیلم تأثیر می گذارد؟

بله، اما در استانداردهای مدرن مثل DTS یا Dolby Digital، این افت کیفیت برای 99٪ مخاطبین غیرقابل تشخیص است. الگوریتم های صوتی با حذف فرکانس های هم پوشان و صداهایی که به وسیله گوش انسان ماسک می شوند، حجم صدا را کاهش می دهند. با این حال، در سیستم های صوتی بسیار گران قیمت و حرفه ای، ممکن است کمبود عمق و جزئیات در صداهای فشرده شده حس شود.

9. نقش سخت افزار در سرعت فشرده سازی چیست؟

بسیاری از پردازنده های مدرن و کارت های گرافیک دارای بخش های اختصاصی برای انکودینگ و دیکودینگ (مانند NVENC) هستند که فرمول های ریاضیِ فشرده سازی را مستقیماً در سطح مدار اجرا می نمایند. بدون این شتاب دهنده های سخت افزاری، پخش یک فیلم 4K باعث می شد دمای لپ تاپ شما به شدت بالا برود و تصویر با تپق (Lags) پخش شود. قدرت پردازشی مشخص می نماید که چقدر می توانیم از الگوریتم های پیچیده تر و بهینه تر بدون افت کارایی استفاده کنیم.

10. آینده فشرده سازی ویدئو به کدام سمت می رود؟

آینده در دستان کدگذاری عصبی است؛ جایی که هوش مصنوعی به جای فرستادن پیکسل، توصیفِ صحنه را می فرستد. مثلاً به جای فرستادن ویدیوی صورت شما، فقط مختصاتِ حرکت لب ها و چشم ها را می فرستد و گوشی مقصد، چهره شما را از نو می سازد. این روش می تواند حجم تماس های تصویری را تا هزار برابر کاهش دهد و انقلابی در دنیای ارتباطاتِ ماهواره ای و دوربرد ایجاد کند.

11. چرا بعضی فیلم های قدیمی در نسخه های نو بسیار شفاف تر به نظر می رسند؟

این به علت فرآیند ریمسترینگ (Remastering) است که در آن نگاتیوهای اصلی فیلم دوباره با اسکنرهای بسیار پیشرفته و الگوریتم های فشرده سازی نسل نو (مانند HEVC) اسکن می شوند. از آنجا که نگاتیوهای آنالوگ رزولوشن بسیار بالایی دارند، استفاده از ریاضیاتِ مدرن اجازه می دهد تا جزئیاتی که در نسخه های قدیمیِ تلویزیونی یا DVD گم شده بودند، دوباره با وضوح خیره نماینده بازیابی و ذخیره شوند.

12. آیا فشرده سازی باعث تغییر در رنگ های واقعی فیلم می شود؟

بله، تکنیکی به نام Chroma Subsampling وجود دارد که در آن دقتِ رنگی نیمی از پیکسل ها حذف می شود تا حجم فایل کاهش یابد. از آنجا که چشم ما به روشنایی بسیار حساس تر از رنگ است، ما معمولاً متوجه این تغییر نمی شویم. اما در کارهای حرفه ایِ گرافیکی و تدوین، این موضوع می تواند باعث دشواری در اصلاح رنگ یا کروماکی (حذف پرده سبز) شود.

13. فشرده سازی بی اتلاف (Lossless) در کجا کاربرد دارد؟

این روش فقط در آرشیوهای بسیار حساس ملی، پزشکی (مثل عکس های MRI) و استودیوهای هالیوودی برای مراحل میانیِ ساخت فیلم استفاده می شود. در این حالت، ریاضیات فقط در پی الگوهای تکراری می شود و هیچ داده ای را حذف نمی نماید. حجم این فایل ها بسیار زیاد است و برای پخشِ خانگی یا استریمینگ به هیچ عنوان صرفه مالی و فنی ندارند.

14. چگونه می توان فهمید که یک فایل ویدئویی بیش از حد فشرده شده است؟

به سایه های تصویر و نواحیِ دارای حرکتِ سریع نگاه کنید؛ اگر در اطراف لبه های اشیاء، هاله هایی شبیه به گرد و غبار پیکسلی (Mosquito Noise) دیدید یا نواحیِ تیره به صورت بلوک های مربعی درآمدند، یعنی الگوریتم برای جا دادن فیلم در آن حجم، بخش های حیاتی را قربانی نموده است. بعلاوه، محو شدنِ بافتِ پوستِ انسان و شبیه شدن آن به پلاستیک، نشانه دیگری از فشرده سازیِ تهاجمی است.

نتیجه گیری؛ وقتی ریاضیات نامرئی می شود

فشرده سازی ویدئو شاهکاری از نبوغ بشر است که در آن، ریاضیاتِ محض با روان شناسیِ ادراک گره می خورد تا غیرممکن را ممکن کند. ما آموخته ایم که چگونه ترابایت ها داده را با حذفِ ناشنیدنی ها و نامرئی ها به چند گیگابایت اطلاعاتِ ارزشمند تبدیل کنیم. هر بار که دکمه پخش را در گوشی خود فشار می دهید، میلیاردها محاسبه در صدم ثانیه انجام می شود تا توازنی میان حجم، سرعت و کیفیت برقرار شود. این دنیای پنهان، یادآور آن است که قدرتِ واقعیِ تکنولوژی، نه در انبار کردنِ اطلاعات، بلکه در هوشمندیِ حذفِ اضافات برای رسیدن به جوهره حقیقتِ بصری نهفته است.

دنیای دیجیتال شما چقدر فشرده است؟

آیا تا به حال به تفاوت کیفیتِ یک فیلم در یوتیوب با نسخه بلوری آن دقت نموده اید؟ به نظر شما با پیشرفت هوش مصنوعی، روزی می رسد که دیگر احتیاجی به اینترنت های پرسرعت نداشته باشیم و همه چیز در مقصد بازسازی شود؟ نظرات و کنجکاوی های خود را در خصوص این جادوی عددی با ما در میان بگذارید تا در کنار هم به درک عمیق تری از دنیای صفر و یک ها برسیم.

دکتر علیرضا مجیدی

پزشک، نویسنده و بنیان گذار وبلاگ خبرنگاران

دکتر علیرضا مجیدی، نویسنده و بنیان گذار وبلاگ خبرنگاران .

با بیش از 20 سال نویسندگی ترکیبی مستمر در زمینهٔ پزشکی، فناوری، سینما، کتاب و فرهنگ.

باشد که با هم متفاوت بیاندیشیم!

دربارهٔ علیرضا مجیدی در خبرنگاران

مطالب مرتبط

گوگل از یک اپلیکیشن تحت وب برای فشرده سازی و بهینه سازی سریع تصاویر رونمایی کرد

سرویس ابری هندی DIGIBOXX بیست گیگ فضای رایگان به شما می دهد، پنچ گیگ بیشتر از گوگل!

با تکنیک مغزخوانی نو می توان به صورت تقریبی گفت که شما اخیرا چه داستانی شنیده اید یا به چه…

ویدئو: گرفتن عکس های با وضوح بالا از بازیکنان از بازی های جام جهانی با استفاده از دوربین های رباتیک برای…

رادار با وضوح بالا که از یک مایلی یک قطره باران را رصد می نماید!

شرکت RED از نیکون به علت نقض پتنت های فشرده سازی ویدیو شکایت کرد

منبع: یک پزشک
انتشار: 23 بهمن 1404 بروزرسانی: 23 بهمن 1404 گردآورنده: ehdablog.ir شناسه مطلب: 1649

به "جادوی فشرده سازی؛ ریاضیات چگونه فیلم های با وضوح بالا را در یک تا چند گیگ فشرده می نماید؟" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "جادوی فشرده سازی؛ ریاضیات چگونه فیلم های با وضوح بالا را در یک تا چند گیگ فشرده می نماید؟"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید