生成AIの進化が止まらない。
GPT-4o、発表
OpenAIが従来よりも処理が高速化され画像や音声認識にも優れた新モデル「GPT-4o」を発表した。
テキストと画像処理関しては既にChatGPTやAPIを通して利用可能になっており、音声とVideoに関しては今後数週間で実装する予定のようだ。
GPT-4oはテキスト、音声、画像といったあらゆる組合せを入力する事ができ、生成出力もテキスト、音声、画像で行う事ができる。従来のモデルと比較して、特に音声と画像の理解に優れているとの事。
特に音声入力に関しては応答時間はわずか232msで、平均でも320msと、人間の応答時間とほぼ同じレベルに達しているという。ちなみにGPT-3.5では平均2.8秒、GPT-4では5.4秒だった事を考えれば、相当な進化といえる。
おもしろいのは、笑い声や歌唱力、感情表現も出力できるという。これは以前のバージョンと大きく事なる部分であり、以前では音声を介したChatGPTとの会話は、音声をテキストに変換して処理し、出力されたテキストを音声に変換する、というプロセスを執るため、複数の話者がいたり、それによって音調がおかしかったり、ノイズが多く必要な情報を検知するのが難しかった。
GPT-4oでは、テキスト、音声、画像にわたって単一のモデルをエンドツーエンドでトレーニングし、全ての入力と出力をニューラルネットワークで行うようにしたという。この方法、まだ表面的に行っただけなので、今後どのように進化をするかはまだまだこれからだという。
英語以外の言語テキスト処理も大幅に改善されており、API利用価格はより高速でありながら50%安価に設定された。それに伴い、従来無償だったGPT-3.5などもできる事が拡大しているようだが、もちろんGPT-4oとの差別化は図られている。
全体的な底上げはされつつも、より進化したAIである事はまちがいないようである。
競争
OpenAIのChatGPTという言葉が広まるキッカケだったかもしれないが、その後、GAFAなども含めて生成AIの競争が激化している。
Amazonも独自の生成AIの立上げに向かい、AWSで展開を始めているし、GoogleもGeminiを稼働させた。MicrosoftもCopilotを稼働させ、一部はEdgeで利用できるようにし始めているが、正直、普通の一般人が利用するにはまだ価格的にどうなのか? と思う事がある。
特にMicrosoftのMicrosoft365で活用できるCopilotは、Microsoft365のプレミアム的な追加要素として料金も追加されるサービスだが、その追加料金が結構エグイ。ま、Officeソフトをプロフェッショナル的に利用する人であれば受容できる価格なのかもしれないが、自宅でとりあえずWordとExcelとPowerPointが使いたいぐらいに考えている人が導入するには結構ハードルが高い価格だ。
開発にも相当な資金が使われているだろうから、価格が高めになるのは解らなくもないが、今の価格では普及は一部に留まってしまう事は間違いないだろう。
GoogleのGeminiは無料で利用できるが、コイツにもGemini Advancedという上位版が存在する。いわゆる有償版である。月額2,900円とこちらも結構なお値段。
こういった、有償による生成AIは、まだ一般人が何となく使うというレベルではなく、ある程度理解している人が開発するくらいの感覚で利用するというイメージではないかと思う。
だが、そうした理解している人が世間から一歩も二歩もリードしていく状況にあるので、IT関連の知識に明るい人とそうでない人で、結構な差がついてくる時代になったのかな、という感じがする。
…ま、私は未だ理解している側ではないと思うが。
そして気になるのはAppleの動きである。
GAFAの中で唯一生成AIに遅れをとっているのがAppleである。
Appleは今までも新しいサービスにおいて一番乗りしてくるケースは少ないのだが、あまりにも参入してくるタイミングが遅いのである。
おそらく表面的には出てきていなくても、内部では開発を進めている事は間違いないだろうが、どのような形で表に出してくるのかが、今は一番きになるところである。
本当の幕開け
ただ、私とは今の生成AIサービスはまだ序章に過ぎないと思っている。
そこで前述したAppleが登場するのではないか、と私は思っている。
この生成AIがもっともユーザーと結びつき、いろんな方向性で活用されるプラットフォームになるのでないかと思っているのが、スマートフォンだと思われるので、何となくAppleが生成AIを大々的に持ち出すのは、iPhoneでローカル利用できる生成AIとして登場させてくるのではないか? と。
今の生成AIは、クライアント側でローカルで稼働させるにはまだ規模が大きすぎるが、Appleはその規模をスマートフォンで稼働できるレベルにして持ち込んでくるので田舎と私は予想している。
それがApple SiliconのNPUの最大の利用ポイントになるのではないかと思う。
元々、機械学習でNPUを使う事を想定してAシリーズやMシリーズにNeural Engineを搭載していたので、生成AIをiPhoneの上で、しかもローカルで動作させる事でユーザビリティ向上を狙うような事を考えているのではないだろうか?
Appleはインターフェースに拘る企業なので、可能性としてはあり得ると思うのだが、ある意味、こうした誰もが扱う上での操作性に生成AIが使われ始める事が、生成AIの本当の幕開けなのではないかと思う。
今のままでは扱える人とそうでない人が出来てしまっているし、それはAppleが望んでいる事ではないだろう。
生成AIによって、人のできる事とAIのできる事の垣根がどんどんとなくなってきた。
人が苦手とする部分を補うには、まだまだ進化は必要だろうが、そうした進化の過程で生成AIを利用しているという感覚そのものが亡くなるような進化の仕方を今後はしていくのではないかと思う。