クラウド図鑑 Vol.83

概要

 Amazon AI は、2016年11月30日(米国)に発表された AWS のAI系のクラウドサービスである。これまで提供していた機械学習「Amazon Machine Learning」に加えて、会話型インタフェース「Lex」、画像認識「Rekognition」、音声変換「Polly」によって、自然言語や画像・音声などの認知機能を提供した。これはIBM の Watson 、Microsoft の Cognitive Services、Google の Vision APIやSpeech APIなどに相当するものだ。   「Cognitive」すなわち「認知」という新しい領域のITソリューションで先行したのは、IBMのWatsonであったが、MicrosoftやGoogleが続き、Amazon/AWSもこれを急追している。
特に、500万台以上を販売したスマートスピーカー「Amazon Echo」に搭載する音声アシスタン卜「Alexa」によって、新たなエコシステムが急拡大しており、2017年のCES(コンシューマーエレクトロニクスショー)では、Alexaを搭載する車、洗濯機、冷蔵庫などが多数出展され、また、Alexa対応アプリも4000以上に及び、Domino Pizzaの注文やUberのタクシー配車などが可能になっている。
Amazon EchoおよびAlexaで何ができるかは下方にあるビデオをご覧いただきたい(
注:現在Echoは日本では未発売でAlexaも日本語には対応していない)。Amazon AIの会話型インタフェース「Lex」は、このAlexaのテクノロジーを使っており(注:AlexaとLexは同一ではない)、また、 画像認識の「Rekognition」はAmazonのPrime Photoサービスのテクノロジーを使っている。Amazonの膨大なユーザーがリアルに生み出す巨大なデータを学習させて認識・分析の精度を高められることは大きな強みであり、上述のエコシステムとともにAmazon/AWSのAI技術の急速な普及を後押ししていることは間違いない。

Amazon EchoおよびAlexa のビデオ(英語:ccボタンで字幕表示)

https://aws.amazon.com/jp/amazon-ai/
2016年1月18日 株式会社クラウディット 中井雅也

機能

2017年1月の時点では、Amazon AI を構成するのは、会話型インタフェース「Lex」、画像認識「Rekognition」、音声変換「Polly」、機械学習「Amazon Machine Learning」である。Amazon AI により、自然言語理解 (NLU)、自動音声認識 (ASR)、視覚検索およびイメージ認識、音声変換 (TTS)、機械学習 (ML) などのテクノロジーがクラウドから利用できるようになる。

  • Amazon Lex
    • 音声やテキストを使用した会話型インターフェイスをさまざまなアプリケーションに構築するためのサービス
    • Alexaと同じ深層学習テクノロジー
    • 音声のテキスト変換に自動音声認識 (ASR)、テキストの意図認識に自然言語理解 (NLU)といった 深層学習機能によりリアルな会話を実現
    • 高度で自然な言語で会話できるボット (「チャットボット」) をすばやく簡単に開発
    • AIやディープラーニングの知識不要のグラフィカルなインタフェースによる操作
    • AWS Lambda、MobileHub、Amazon CloudWatch、Amazon Cognito や Amazon DynamoDBとの連携
    • Facebook Messengerとの連携 (Slack と Twilio とは近日中に統合予定)
    • 完全マネージド型のサービス
    • 自動的なスケール
    • 従量課金
    • 2017年1月時点ではプレビュー
  • Amazon Rekognition
    • 深層学習に基づくイメージ認識サービス
    • 画像内の物体、シーン、および顔を検索および比較
    • 一日あたり数十億もの画像を分析する Prime Photos のために開発したスケーラブルな深層学習テクノロジーを使用
    • APIによりイメージ認識機能をアプリへの組み込み
    • Amazon S3、AWS Lambda、IAMなどのAWSのサービスとの統合
    • 完全マネージド型のサービス
    • 自動的なスケール
    • 従量課金
  • Amazon Polly
    • 深層学習を使用して文章をリアルな音声に変換するサービス
    • 日本語を含む24 の言語と 47 の音声を使用可能
    • テキストを Polly API に送るとオーディオストリームがアプリケーションに返され、アプリケーションからの直接再生、または、MP3 などのオーディオファイルとして保存が可能
    • 完全マネージド型のサービス
    • 自動的なスケール
    • 従量課金
  • Amazon Machine Learning

使いやすさ

AWS の他のサービスと同様に Amazon AI もコンソールに各サービスが統合されている。Lexはグラフィカルなインタフェース「 Amazon Lex コンソール」で操作が可能。ただし現在は英語の画面となる。RekognitionおよびPollyもGUIから簡単に操作することができるとともに、APIで呼び出すことも可能。
Amazon AI は、Lambda、S3、IAMなどAWSの定番のサービスとの連携がよく考えられており、S3のストレージに画像がアップロードされたらLambdaの関数から画像認識機能を呼び出す、といった一連の処理をAWSのいつものやり方でできることがAWSに親しんでいる技術者から支持されるだろう。

マニュアルや書籍など

AWSによって主要な情報は日本語で提供されている。開発者ガイドやAPIのドキュメントは英語での提供となっている。AWSのエコシステムの技術者から日本語の情報がネット上に多く発信されている。

拡張性

LexはプレビューのサービスだがAWSによれば「完全マネージド型のサービスで自動的にスケールされるため、インフラストラクチャの管理について心配する必要はありません。」としている。RekognitionやPollyに関しても拡張性に関するアーキテクチャなどは明らかでないが、AWSの他サービスが持つ高い拡張性を提供すると考えられる

可用性

Amazon AI はマネージドサービスとして提供され、可用性に関するアーキテクチャなどは明らかでないが、AWSの他のマネージドサービスと同様の可用性を提供すると考えられる

SLA

2017年1月の時点でAmazon AIのSLAはない。

自動化機能

他のAWSのサービス同様にAPIによってプログラムからコントトロールが可能。

セキュリティ

LexにおいてはHTTPSによる暗号化とキーによる認証でセキュリティを高めている。Rekognition、PollyにおいてはAWSのIAMのアクセスポリシーを適用できる。

データセンターの場所

2017年1月時点ではAmazon AIのサービスを提供するリージョンは限定され、現在は北米が中心となっており、東京リージョンからは提供されていない。しかしながら、過去の実績から、いずれ東京リージョンからも提供されると予想される。

実績・シェアなど

Lexは、Hubspot、NASA、Capital One、OhioHealthなどが、Rekognitionは、PollyはGoAnimate、Duolingo、Wizkids、RNIBなどが使用している

エコシステム

Lexと同じテクノロジーを使うAlexaのエコシステムが急拡大している。2017年のCES(コンシューマーエレクトロニクスショー)では、Alexaを搭載する自動車、洗濯機、冷蔵庫などが多数出展され、また、Alexa対応アプリも4000以上に及び、Domino Pizzaの注文やUberのタクシー配車などが可能になっている。従来のAWSのエコシステムも踏襲し、急速にエコシステムを拡大している

価格および支払い方法

AWSの他サービス同様にAmazon AIも従量課金。Lex では、音声リクエスト1 件あたりの料金が 0.004 USドル、テキストリクエスト 1 件あたりの料金が 0.00075 USドル。1,000 回の音声リクエストにかかる料金は 4.00 USドル、1000 回のテキストリクエストにかかる料金は 0.75 USドル。Pollyは、100 万文字あたり 4.00 USドル。Rekognitionは、1 か月あたり画像処理* 100 万枚まで1.00USドルから。