Google ra mắt Gemini Omni: Mô hình AI “tạo bất cứ thứ gì từ bất cứ thứ gì”, mở đầu bằng video đa phương thức

Công nghệ•15:49 21/05/2026

Tại Google I/O 2026, Google DeepMind chính thức giới thiệu Gemini Omni – dòng mô hình AI đa phương thức (multimodal) thế hệ mới, có khả năng “tạo bất cứ thứ gì từ bất cứ input nào”. Phiên bản đầu tiên Gemini Omni Flash đã bắt đầu triển khai từ ngày 19-20/5/2026 cho người dùng trả phí Gemini AI Plus, Pro và Ultra. Mô hình này cho phép kết hợp văn bản, hình ảnh, video và âm thanh làm đầu vào để sinh ra video chất lượng cao, hiểu biết vật lý thực tế và chỉnh sửa hội thoại tự nhiên. Đây được xem là bước tiến lớn hướng tới “world model” – mô hình hiểu và mô phỏng thế giới thực một cách toàn diện.

Gemini Omni được xây dựng như một mô hình “native multimodal” từ nền tảng, khác biệt với các hệ thống trước đây phải ghép nối nhiều mô hình riêng lẻ. Người dùng có thể:

Tạo video từ đa input: Kết hợp hình ảnh + âm thanh + văn bản + video hiện có để sinh ra clip mới mạch lạc, hiểu ngữ cảnh và vật lý (ví dụ: chuyển động tự nhiên, tương tác vật thể).
Chỉnh sửa video qua hội thoại: Sử dụng ngôn ngữ tự nhiên để chỉnh sửa từng bước (thay đổi góc quay, phong cách, nhân vật, ánh sáng) giống như đang nói chuyện với một biên tập viên AI.
Hiểu biết thế giới thực: Kết hợp kiến thức Gemini về khoa học, lịch sử, văn hóa với mô phỏng vật lý chính xác, tạo nội dung không chỉ đẹp mà còn “có lý”.
Độ dài hiện tại: Gemini Omni Flash tạo clip tối đa 10 giây (dự kiến sẽ tăng dần).

Google Gemini Omni: Features, Pricing & Google Flow Guide

Giao diện quảng bá Gemini Omni với khẩu hiệu “Create anything from any input – starting with video”.

Triển khai và tiếp cận

Hiện đã có: Gemini Omni Flash khả dụng ngay trong ứng dụng Gemini, Google Flow (công cụ sáng tạo AI), YouTube Shorts và YouTube Create (miễn phí một phần cho người dùng Shorts).
Đối tượng: Người dùng Google AI Plus, Pro, Ultra (có gói Ultra mới 100 USD/tháng).
Tương lai: Sắp có API cho developer và doanh nghiệp qua Vertex AI; mở rộng sang sinh hình ảnh, âm thanh và các output khác.

Gemini Omni: Google's Multimodal Model That Creates Video From Any Input

Minh họa kỹ thuật: Gemini Omni xử lý đa input (hình ảnh, âm thanh, prompt) để sinh video native.

Gemini Omni đánh dấu bước chuyển mình quan trọng của Google trong cuộc đua AI sinh tạo. Trong khi OpenAI có Sora (chủ yếu text-to-video), Google tập trung vào mô hình “any-to-any” thống nhất, giúp giảm artifact, tăng tính mạch lạc và dễ sử dụng hơn cho người sáng tạo.

Ưu điểm nổi bật:

Tăng tốc độ sản xuất nội dung: Nhà làm phim, marketer, YouTuber có thể prototype ý tưởng nhanh chóng mà không cần phần mềm chỉnh sửa phức tạp.
Ứng dụng thực tế: Giáo dục (tái hiện lịch sử), giải trí, quảng cáo, thậm chí hỗ trợ y tế (mô phỏng quy trình).

Thách thức:

An toàn & minh bạch: Google tích hợp SynthID watermark và C2PA Content Credentials để nhận diện nội dung AI, giúp chống deepfake. Tuy nhiên, rủi ro lạm dụng vẫn tồn tại.
Hạn chế ban đầu: Chỉ 10 giây/video, chất lượng phụ thuộc prompt và vẫn cần kiểm soát để tránh bias hoặc nội dung sai lệch.
Cạnh tranh: Đặt Google vào vị thế mạnh hơn trong lĩnh vực video AI, cạnh tranh trực tiếp với các mô hình của OpenAI, Meta và các startup video generation.

Tổng thể, Gemini Omni không chỉ là công cụ tạo video mà còn là nền tảng hướng tới AI thông minh hơn, hiểu thế giới sâu sắc hơn. Đây là minh chứng rõ nét cho chiến lược “Gemini everywhere” của Google, đưa AI trở thành lớp nền cho mọi sản phẩm.

Với Gemini Omni, ranh giới giữa ý tưởng và sản phẩm sáng tạo đang thu hẹp đáng kể. Người dùng quan tâm có thể trải nghiệm ngay trên ứng dụng Gemini (dành cho tài khoản trả phí). Công nghệ này hứa hẹn thay đổi ngành sáng tạo nội dung trong năm 2026 và những năm tiếp theo.

Bình luận (0)

Vui lòng đăng nhập để bình luận