লিখিত প্রম্পট থেকে বাস্তবধর্মী ভিডিও তৈরিতে গুগল ও ওপেনএআই যেমন অগ্রণী, তেমনি দৌড়ে শামিল হয়েছে চীনের প্রযুক্তি জায়ান্টরাও। এই প্রতিযোগিতায় সবচেয়ে সাম্প্রতিক সংযোজন হলো চীনা সার্চ ইঞ্জিন বাইদুর এআই ভিডিও মডেল ‘মিউজস্টিমার’।
কী করতে পারে মিউজস্টিমার?
মিউজস্টিমার একটি ভিশন-ল্যাঙ্গুয়েজ মডেল (VLM), যা কম্পিউটার ভিশন ও প্রাকৃতিক ভাষা প্রক্রিয়াকরণকে একত্রে ব্যবহার করে। এই মডেলের অন্যতম বৈশিষ্ট্য হলো-একইসঙ্গে চিত্র, সাউন্ড ইফেক্ট ও সংলাপ তৈরি করার সক্ষমতা, এবং সেগুলোর একসঙ্গে সিঙ্কড আউটপুট দেওয়া। ফলে মাত্র ১০ সেকেন্ডের ফুল এইচডি (1080p) ভিডিও তৈরি করেই মডেলটি ব্যবহারকারীদের চমকে দিচ্ছে।
কোন কোন খাতে ব্যবহার উপযোগী?
বিশেষজ্ঞদের মতে, এই প্রযুক্তি বিজ্ঞাপন, কনটেন্ট মার্কেটিং ও করপোরেট ভিডিও নির্মাণে সময় ও খরচ-দুটোই বাঁচাতে পারে। মূলত এন্টারপ্রাইজ বা ব্যবসায়িক ব্যবহারকারীদের লক্ষ্য করেই এটি তৈরি করা হয়েছে। এ জন্য মিউজস্টিমার তিনটি স্তরে চালু করা হয়েছে:
>> টার্বো
>> প্রো
>> লাইট
প্রত্যেকটি ভ্যারিয়েন্ট আলাদা প্রয়োজন অনুযায়ী ভিডিও আউটপুট দিতে সক্ষম।
সোশ্যাল মিডিয়ায় প্রতিক্রিয়া
সম্প্রতি এক্স (সাবেক টুইটার)-এ মিউজস্টিমার দিয়ে তৈরি কিছু ভিডিও শেয়ার করা হয়, যেখানে এর ভিজ্যুয়াল ও অডিও সিঙ্ক্রোনাইজেশনের দক্ষতা প্রশংসিত হয়েছে। প্রাথমিক ব্যবহারকারীদের মতে, মডেলটির আউটপুট সত্যিই "চোখ ধাঁধানো"।
প্রতিদ্বন্দ্বীদের অবস্থান
মিউজস্টিমার আসায় চীনের জেনারেটিভ এআই খাতে প্রতিযোগিতা আরও তীব্র হয়েছে। ইতিমধ্যে বাইটড্যান্স, টেনসেন্ট ও আলিবাবা এই খাতে সক্রিয়ভাবে কাজ করছে। অন্যদিকে ওপেনএআইয়ের ‘Sora’ এবং গুগলের ‘Veo 3’ মূলত সাধারণ ব্যবহারকারীদের জন্য তৈরি হলেও, বাইদুর মডেলটি স্পষ্টতই করপোরেট ফোকাসড।
মিউজস্টিমারের আবির্ভাব চীনের প্রযুক্তি খাতকে গ্লোবাল জেনারেটিভ এআই দৌড়ে নতুন মাত্রা দিয়েছে। এ প্রযুক্তির মাধ্যমে ভিডিও প্রোডাকশন আরও সহজ, দ্রুত ও দক্ষ হওয়ার সম্ভাবনা তৈরি হলো, বিশেষত যেসব ক্ষেত্রে মাল্টিমোডাল কনটেন্ট দরকার। সূত্র: ইন্ডিয়ান এক্সপ্রেস