クラウド図鑑 Vol.68

概要

Microsoft Cognitive Services は、2016年3月に発表された Azure のサービスで、画像や音声の認識、自然言語の理解といった人間の認知機能をアプリに取り込めるようにするためのAPI群として提供される。これは Microsoft が以前から取り組んできた「Project Oxford」の成果であり、現在は「 Cortana Intelligent Suite 」の中の「Intelligence」として位置づけられ、Microsoft のナデラCEOの掲げる3つの野心のひとつである「インテリジェントクラウド」を具現化し、Azureを他クラウドと差別化する機能だといえる。2015年以前に「Cognitive」すなわち「認知」という新しい領域のITソリューションを推進してきたのは、周知のようにIBMおよびWatsonであるが、2016年になって Azure が「Cognitive」を本格的に取り入れたことで、今後は他クラウドの「Cognitive」への取り組みが注目される。なお、IBMのWatsonも含めて「Cognitive」を「人工知能/AI」あるいは「機械学習」の技術としていることも多いが、そもそもコンセプトが違い、自然言語や画像、音声のデータをコンピュータが理解し、人間を支援するのが「コグニティブ・コンピューティング・システム(Cognitive Computing System)」であり、「機械学習/AI」は、その中の要素技術のひとつである。2016年8月時点で、Microsoft Cognitive Services はプレビューとしての提供である。

Cognitive Services の画像認識のデモ画面(クリックでデモサイトへ)
Microsoft Cognitive Services

URL  https://azure.microsoft.com/ja-jp/services/cognitive-services/
2016年8月3日 株式会社クラウディット 中井雅也
参考 IBM Bluemix の Watson サービス

機能

2016年8月の時点では、プレビューとしての提供であるが、Azureポータルから、視覚(Vision)、 音声(Speech)、言語(Language)、知識(Knowledge)、検索(Search)のカテゴリーの21種類のAPIを提供している。今後Microsoftによって、さらに多くのAPIが追加されていくと考えられる。

  • 視覚 Vision
    • Computer Vision API
      • 画像の説明、画像の趣旨に沿ったサムネイル画像の作成、画像から文字データの読み取り (OCR)を行う
    • Emotion API
      • 顔写真からの感情 (喜怒哀楽など)を判定する
    • Face API
      • 顔からの情報 (表情、性別、年齢など) を読み取り、顔認識 (本人識別、類似検出)を行う
    • Video API
      • 動画のブレ矯正、顔とその表示位置の検出、動きが発生しているフレームの検知を行う
  • 音声 Speech
    • (Bing) Speech API
      • Speech-to-Text (音声からテキスト)、Text-to-Speech (テキストから音声)の変換を行う
    • Custom Recognition Intelligent Service (CRIS)
      • 話し方や音声ノイズに影響されない音声認識を可能にする
    • Speaker Recognition API
      • スピーカー(話者)の認証と推定を行う
  • 言語 Language
    • Bing Spell Check API
      • スペルチェックを行う
    • Language Understanding Intelligent Service (LUIS)
      • 自然言語からの文意、キーワードの抽出を行う
    • Linguistic Analysis API
      • 自然言語の文章構造解析を行う
    • Text Analytics API
      • ポジネガ分析、キーフレーズ抽出、トピック抽出、言語判定を行う
    • Web Language Model (WebLM) API *
      • 関連性の高いキーワードの抽出、ある単語に続く単語の推測を行う
  • 知識 Knowledge
    • Academic Knowledge API
      • 学術文献や著者検索を行い、統計的情報を取得する
    • Entity Linking Intelligence Service
      • Entity Linking: 文章中のキーワードを解析 する
    • Knowledge Exploration Service
      • 自然言語入力を介して、構造化データに対するインタラクティブな検索を行う
    • Recommendations API
      • 関連性の高いアイテム および ユーザーの嗜好に沿ったアイテムを推定しレコメンドする
  • 検索 Search
    • Bing Autosuggest API
      • 検索におけるキーワードの自動入力と関連ワードを推定する
    • Bing Web Search API
      • Webの検索を行う
    • Bing Image Search API
      • 画像の検索を行う
    • Bing Video Search API
      • 動画の検索を行う
    • Bing News Search API
      • ニュースの検索を行う

使いやすさ

Microsoft の他のサービスと同様に Azure ポータル から設定が可能。APIはPHPやPython、Rubyなど一般的なプログラミング言語から使えるが、いまのところ「Free(無料)」の枠があるため、開発者が試しやすい。たとえば、Face APIやEmotion APIは月間30000イメージトランザクションまでは無料、Bing Speech APIは月間5000トランザクションまでは無料だ。

マニュアルや書籍など

Microsoftによって、さまざまなWebページやチュートリアルなどのドキュメントが提供されているし、日本語のものも多い。コミュニティによるサンプルプログラムはGithubで公開されている。ネット上の情報も比較的多いと思われる。

拡張性

2016年8月時点ではプレビューのサービスであり、拡張性に関するアーキテクチャなどは明らかでないが、Azureの他サービスと同様の高い拡張性を提供すると考えられる

可用性

2016年8月時点ではプレビューのサービスであり、可用性に関するアーキテクチャなどは明らかでないが、Azureの他サービスと同様の高い可用性を提供すると考えられる

SLA

月間99.9%のアップタイムをSLAで規定する。

自動化機能

利用者からは全てのサービスはAPIであり、インフラの設定や運用、ソフトウェアのメンテナンスなどを意識することはない。

セキュリティ

2016年8月時点ではプレビューのサービスであり、セキュリティに関するアーキテクチャなどは明らかでないが、Azureの他サービスと同様の高いセキュリティを実現すると考えられる

データセンターの場所

2016年8月時点ではプレビューのサービスであり、多くのサービスは米国西部リージョンからの提供となっている。

実績・シェアなど

2016年8月時点ではプレビューのサービスであり、実績やシェアなどは明らかでない

エコシステム

MicrosoftおよびAzureのエコシステムを踏襲する

価格および支払い方法

いまのところ「Free(無料)」の枠があるため、開発者が試しやすい。たとえば、Face APIやEmotion APIは月間30000イメージトランザクションまでは無料、Bing Speech APIは月間5000トランザクションまでは無料。有料のプランは現在はプレビュー割引が適用されており、価格は後に変更される可能性が高いが、Emotion APIのBasicの場合で1000 トランザクションあたり 10.2円、Face APIの場合で1000 トランザクションあたり 153円、Language Understanding Intelligent Services (LUIS)の場合で1000 トランザクションあたり 76.5円 など。