Ep.1065 Alibabaが放つ“究極の万能AI”──「Qwen3.5-Omni」が塗り替えるオープンソースの常識(2026年4月2日配信)
Failed to add items
Add to Cart failed.
Add to Wish List failed.
Remove from wishlist failed.
Adding to library failed
Follow podcast failed
Unfollow podcast failed
-
Narrated by:
-
By:
2026年3月30日、中国のテクノロジー大手AlibabaのAI研究チームが、最新の大規模言語モデル「Qwen3.5-Omni」を公式ブログにて発表しました。現在、テキストだけでなく音声や画像、さらには動画までをリアルタイムに理解して応答する「マルチモーダルAI」の開発競争が世界中で激化していますが、今回の発表はその競争の基準をまた一段引き上げる、非常にインパクトの大きなものとなっています。
このQwen3.5-Omniの最大の驚きは、その圧倒的なデータ処理能力のスケールにあります。一度に処理できる情報の長さを示すコンテキストウィンドウが25万6千トークンにまで拡張されており、なんと10時間分を超える長大な音声データや、720pの高画質動画を400秒以上も丸ごと入力してAIに理解させることができます。例えば、一日がかりで行われた複数人の会議録音をすべて読み込ませて詳細な議事録を作らせたり、長い解説動画の文脈を深く理解させて特定のシーンについて質問したりといったことが、このモデルひとつで完結してしまいます。さらに、1億時間以上という天文学的な量の音声・動画データを使って基礎から学習されているため、複数の専門AIを無理やり繋ぎ合わせたような遅延がなく、非常に滑らかな処理が可能です。リアルタイムの音声会話では、言葉の文脈を理解して途中で相槌を打ったり、声のトーンを柔軟に変えたりと、まるで人間と話しているかのような自然な対話を実現しています。
この発表に対する市場や開発者コミュニティの反応も非常に熱を帯びています。今回提供されるモデルには、処理能力や用途に応じた「Plus」「Flash」「Light」という3つのサイズが用意されており、企業が自社のシステム規模に合わせて柔軟に導入できる点が広く評価されています。また、技術的なベンチマークテストにおいては、Googleの「Gemini 3.1 Pro」などの強力な競合モデルを、音声や動画の総合的な理解度で上回るスコアを記録したとも報じられています。海外の専門メディアや研究者たちは、オープンソースの世界でここまでの高性能な万能モデルが無償に近い形で提供されることは、AI業界全体の勢力図を揺るがす出来事だと指摘しています。欧米の巨大テクノロジー企業が自社のクローズドな環境にAIを囲い込もうとする中、Alibabaは高品質なモデルを世界中に惜しげもなく開放する「オープンソース戦略」によって、圧倒的な規模のエコシステムを築き上げようとしているのですね。
私たちの普段のビジネスの現場でも、会議の音声や現場の映像、そして膨大なテキスト資料が日々生み出されていますが、これまではそれらをバラバラのツールで管理するしかありませんでした。しかし、今回のQwen3.5-Omniのような技術が普及すれば、あらゆる形式のデータをひとつのAIがまとめて理解し、私たちの仕事をシームレスにサポートしてくれるようになります。最先端のAI技術が一部の企業だけの専売特許ではなく、世界中の誰もが自由にアクセスできる「開かれたインフラ」として進化していく過程を、今後もワクワクしながら見守っていきたいですね。