アリババクラウド、大規模言語モデル「通義千問」をAIアシスタントに統合

2023年6月1日、中国・杭州発 – アリババグループのデータ・インテリジェンスの中枢であるアリババクラウドは本日、同社の大規模言語モデルである「通義千問(Tongyi Qianwen)」を、インテリジェント・アシスタント「聴悟(Tingwu)」に統合したことを発表しました。聴悟は、音声や動画をリアルタイムでテキストに変換する能力に優れており、個人と職場の生産性向上を目指します。

今年4月に発表された通義千問は、動画や音声ファイルからの要約テキストを生成したり、会話の主要な論点を抽出したり、マルチメディアファイルからタイムラインを作成したり、各セクションを要約したりするなど、マルチメディア・コンテンツを高精度かつ効率的に理解し、分析することが可能です。

大規模言語モデルを搭載した聴悟は、「通義聴悟(Tongyi Tingwu)」と呼ばれ、現在パブリックベータテストが行われています。通義聴悟は、アリババのデジタル・コラボレーション・ワークプレイスであるDingTalk(ディントーク)にも統合され、ユーザーの職場におけるAIニーズをサポートします。通義聴悟は、職場の効率化だけでなく、オンライン教育、トレーニング、インタビュー、ライブストリーミング、ポッドキャスト、短編動画など、さまざまなマルチメディア・プラットフォームで迅速かつ簡単に知識を共有したいというニーズにも応えます。

アリババクラウド・インテリジェンスの最高技術責任者(CTO)の周 靖人(Jingren Zhou)は次のように述べています。
「現代、人々は、ビデオやオーディオコンテンツをさまざまなフォーマットで日々消費しています。通義聴悟は、大規模な言語モデルを使用することで、マルチメディア・コンテンツを素早く正確に理解し、簡単に共有できるサービスの提供を目指しています。通義千問モデルは段階的に当社の他の製品やサービスに統合される予定です。ユーザーが仕事、学習、娯楽、交流などの場においてこれらの魅力的なAIイノベーションからメリットを享受できることを願っています。」

アリババの研究機関であるDAMOアカデミー(中国語:達摩院)は、独自の音声・動画モデルを開発しました。このモデルは、自社開発の音声認識モデルParaformerや話者検証モデルCAM++に加え、最新の大規模言語モデルである通義千問が含まれます。これにより、聴悟はさまざまなAI搭載機能を使用しながら、音声・動画ファイルの高精度な文字起こしを実現できます。さらに今年後半には、追加のAI機能が提供される予定です。追加機能は、音声・動画ファイルに関するユーザーからの問い合わせに自動でテキスト回答を生成する機能や、動画から抽出したパワーポイントスライドに基づく要約の生成、さらにはクロームブラウザのプラグインとして使用できる聴悟による英語と中国語間のリアルタイム翻訳などが含まれます。

本日より、一般ユーザーは、アップグレードされたAI搭載アシスタントをオンライン(tingwu.aliyun.com)で入手し、アリババクラウド・アカウントを介してその機能を体験することができます。また、無料の文字起こしサービスもオープントライアルの一環として提供されます。

今後、通義千問はアリババのさまざまなビジネスに統合され、ユーザー体験を向上させる予定です。顧客や開発者に同モデルへのアクセスを提供し、コスト効率の高い方法でカスタマイズされたAI機能を作成できるようにする予定です。

また、アリババクラウドは「通義千問パートナーシップ・プログラム(Tongyi Qianwen Partnership Program)」を展開しています。このプログラムを通じて、さまざまな業界のパートナーと協力し、石油化学、電力、輸送、ホスピタリティ、エンタープライズサービス、通信、金融などの分野に適した大型言語モデルの共創を目指しています。

 

 

DAMO DingTalk アリババクラウド 生成AI 通義聴悟