گوگل با معرفی مدل جدید Gemini 2.5 Computer Use بار دیگر مرزهای تعامل هوش مصنوعی با دنیای واقعی را جابهجا کرده است. این نسخه از خانواده Gemini به شکلی طراحی شده که میتواند مانند یک کاربر واقعی، درون مرورگر وب حرکت کند، فرمها را پر کند، متن تایپ کند و حتی کارهایی مانند افزودن محصول به سبد خرید یا مرور صفحات خبری را انجام دهد.
این قابلیت جدید، نهتنها آیندهی اتوماسیون را متحول میکند، بلکه آغازگر نسلی تازه از عاملهای هوشمند مبتنی بر مرورگر است که بدون نیاز به API یا دسترسی سیستمی، مستقیماً با رابطهای کاربری انسانی تعامل دارند. در ادامه، نگاهی دقیقتر به تواناییها و اهمیت استراتژیک این مدل میاندازیم.
Gemini 2.5 Computer Use چیست؟
Gemini 2.5 Computer Use نسخهای پیشرفته از مدلهای هوش مصنوعی گوگل است که برای کار در محیط مرورگر توسعه یافته. این مدل با استفاده از درک بصری و استدلال چندمرحلهای، قادر است درخواست کاربر را تحلیل و در رابطهای واقعی انسانی اجرا کند.
بهعنوان مثال، میتواند فرمهای ثبتنام را پر کند، متنی در فیلدها وارد کرده و حتی دکمه ارسال را بفشارد — درست مثل یک انسان.
تفاوت کلیدی Gemini 2.5 Computer Use با مدلهای قبلی
برخلاف مدلهای سنتی هوش مصنوعی که برای تعامل به API نیاز دارند، Gemini 2.5 Computer Use در محیطهای بدون API هم کار میکند.
این ویژگی به آن اجازه میدهد مستقیماً با وبسایتها یا اپلیکیشنهای تحتوبی که برای انسان طراحی شدهاند تعامل کند. گوگل از این فناوری در پروژههای آزمایشی خود مانند AI Mode و Project Mariner نیز بهره گرفته است.
کاربردهای عملی Gemini 2.5 Computer Use در دنیای واقعی
گوگل میگوید این مدل میتواند برای تست رابط کاربری (UI Testing)، اجرای وظایف مرورگرمحور، و حتی انجام فعالیتهایی مانند مرور سایتهای خبری یا انجام بازیهایی مثل 2048 مورد استفاده قرار گیرد.
کاربران توسعهدهنده میتوانند عملکرد این مدل را از طریق Google AI Studio و Vertex AI تجربه کنند. همچنین، دموهای آن در پلتفرم Browserbase در دسترس است که کاربران میتوانند رفتار هوش مصنوعی را بهصورت زنده تماشا کنند.
برتری Gemini 2.5 Computer Use نسبت به رقبا
گوگل اعلام کرده است که Gemini 2.5 Computer Use در تستهای وب و موبایل عملکرد بهتری نسبت به مدلهای مشابه از OpenAI (با ChatGPT Agent) و Anthropic (Claude Computer Use) داشته است.
با این حال، این مدل فعلا فقط به مرورگر دسترسی دارد و کنترل سیستمعامل دسکتاپ را در اختیار ندارد.
در حال حاضر از 13 اکشن اصلی مانند باز کردن مرورگر، تایپ متن، و کشیدن و رها کردن (Drag & Drop) پشتیبانی میکند.
دموی رسمی و عملکرد واقعی Gemini 2.5 Computer Use
گوگل برای نمایش تواناییهای مدل جدید، ویدیوهایی منتشر کرده که در آن Gemini 2.5 Computer Use در حال اجرای وظایف مختلف دیده میشود.
این ویدیوها 3 برابر سریعتر از حالت واقعی نمایش داده شدهاند تا فرایند اجرای دستورها در زمان کوتاهتری قابل مشاهده باشد.
عملکرد نرم، تصمیمگیری منطقی و هماهنگی دقیق میان بینایی و عمل، از مهمترین نقاط قوت این مدل هستند.
ویژگیهای کلیدی Gemini 2.5 Computer Use
ویژگی |
توضیحات |
نوع مدل |
مدل هوش مصنوعی مرورگرمحور از خانواده Gemini |
قابلیتها |
درک بصری، استدلال، تعامل با رابطهای انسانی |
دسترسی |
از طریق Google AI Studio و Vertex AI |
تعداد اکشنهای پشتیبانیشده |
13 اکشن اصلی |
نمونه پروژهها |
AI Mode، Project Mariner |
محدودیت فعلی |
فقط دسترسی مرورگر (نه محیط دسکتاپ) |
نسخه دمو |
قابل مشاهده در Browserbase |
عملکرد در تستها |
برتر از ChatGPT Agent و Claude Computer Use |
تحلیلگران هوش مصنوعی معتقدند معرفی Gemini 2.5 Computer Use نقطه عطفی در مسیر توسعه عاملهای خودکار (AI Agents) است.
این مدل میتواند نحوه تعامل ماشینها با اینترنت را تغییر دهد و به شکل هوشمندانهتری از واسطههای انسانی عبور کند.
در آینده نزدیک، گوگل احتمالاً کنترل سطح سیستمعامل و تعاملهای چندابزاره را نیز به آن اضافه خواهد کرد.
پیشبینی میشود در 6 ماه آینده، نسخهای از این فناوری به محصولات مصرفی گوگل مانند مرورگر Chrome و Google Assistant نیز راه پیدا کند.
جمعبندی
مدل Gemini 2.5 Computer Use نهتنها نشاندهندهی قدرت روزافزون هوش مصنوعی در درک محیطهای انسانی است، بلکه پایهگذار عصری تازه از تعامل میان انسان و ماشین محسوب میشود.
گوگل با این حرکت، رقابت را برای OpenAI و Anthropic دشوارتر کرده و یک گام بزرگ در مسیر «هوش مصنوعی تعاملی واقعی» برداشته است.
سوالات متداول (FAQ)
- مدل Gemini 2.5 Computer Use چه تفاوتی با ChatGPT Agent دارد؟
این مدل فقط از طریق مرورگر عمل میکند و به سیستمعامل یا فایلهای محلی دسترسی ندارد، درحالیکه ChatGPT Agent کنترل گستردهتری دارد. - آیا Gemini 2.5 Computer Use برای عموم کاربران در دسترس است؟
فعلاً خیر؛ فقط توسعهدهندگان از طریق Google AI Studio و Vertex AI میتوانند به آن دسترسی داشته باشند. - گوگل چه زمانی نسخه عمومی مدل Gemini 2.5 Computer Use را عرضه میکند؟
هنوز زمان مشخصی اعلام نشده، اما انتظار میرود در نیمه اول سال 2026 عرضهی عمومی انجام شود. - آیا Gemini 2.5 Computer Use میتواند جایگزین تستهای دستی UI شود؟
تا حد زیادی بله. این مدل میتواند بخش بزرگی از تستهای تکراری رابط کاربری را بهصورت خودکار انجام دهد.