データ分析プラットフォームの選び方

ソフトウェア開発、DevOps、システム、クラウド、テスト自動化、サイトの信頼性、主要なスクラムチーム、infosec、またはその他の情報技術分野の責任があるかどうかにかかわらず、データ、分析、機械学習を扱う機会と要件が増えます。 。

Tech Spotlight:分析

  • データ分析プラットフォームの選び方()
  • ビジネスデータの視覚化に関する6つのベストプラクティス(Computerworld)
  • ヘルスケア分析:4つのサクセスストーリー(CIO)
  • SD-WANと分析:新しい通常の結婚(ネットワークワールド)
  • アルゴリズムを知的財産(CSO)として保護する方法

分析への露出は、アジャイル、DevOps、またはWebサイトのメトリックからのメトリックや洞察の開発などのITデータを通じてもたらされる可能性があります。データ、分析、機械学習に関する基本的なスキルとツールを学ぶには、知っているデータに適用し、アクションを推進するための洞察を得るためにマイニングできる方法があります。

ITデータの世界から分岐し、データサイエンティストチーム、市民データサイエンティスト、およびデータの視覚化、分析、機械学習を実行するその他のビジネスアナリストにサービスを提供すると、事態は少し複雑になります。

まず、データをロードしてクレンジングする必要があります。次に、データの量、種類、速度によっては、複数のバックエンドデータベースとクラウドデータテクノロジーに遭遇する可能性があります。最後に、過去数年間で、ビジネスインテリジェンスツールとデータ視覚化ツールのどちらかを選択していたものが、ライフサイクル全体の分析と機械学習プラットフォームの複雑なマトリックスに膨れ上がってきました。

分析と機械学習の重要性は、いくつかの分野でITの責任を増大させます。例えば:

  • ITは多くの場合、すべてのデータ統合、バックエンドデータベース、および分析プラットフォームに関するサービスを提供します。
  • Devopsチームは、多くの場合、データインフラストラクチャをデプロイおよびスケーリングして、機械学習モデルでの実験を可能にし、本番データ処理をサポートします。
  • ネットワーク運用チームは、SaaS分析ツール、マルチクラウド、およびデータセンター間の安全な接続を確立します。
  • ITサービス管理チームは、データおよび分析サービスの要求とインシデントに対応します。
  • Infosecは、データセキュリティのガバナンスと実装を監督しています。
  • 開発者は、分析モデルと機械学習モデルをアプリケーションに統合します。

分析、クラウドデータプラットフォーム、機械学習機能の爆発的な増加を踏まえ、ここでは、データの統合とクリーニングから、データ操作とモデル操作、データベース、データプラットフォーム、分析サービス自体に至るまで、分析のライフサイクルをよりよく理解するための入門書を紹介します。

分析は、データ統合とデータクリーニングから始まります

アナリスト、市民データサイエンティスト、またはデータサイエンスチームが分析を実行する前に、必要なデータソースにデータ視覚化および分析プラットフォームでアクセスできる必要があります。

まず、複数のエンタープライズシステムからのデータを統合したり、SaaSアプリケーションからデータを抽出したり、IoTセンサーやその他のリアルタイムデータソースからデータをストリーミングしたりするビジネス要件がある場合があります。

これらは、分析と機械学習のためにデータを収集、読み込み、統合するためのすべてのステップです。データの複雑さとデータ品質の問題に応じて、データ操作、データカタログ作成、マスターデータ管理、およびその他のデータガバナンスイニシアチブに参加する機会があります。

「ガベージイン、ガベージアウト」というフレーズは誰もが知っています。アナリストはデータの品質に注意を払う必要があり、データサイエンティストは機械学習モデルのバイアスに注意を払う必要があります。また、新しいデータを統合する適時性は、よりリアルタイムのデータ駆動型になりたいと考えている企業にとって重要です。これらの理由から、データをロードして処理するパイプラインは、分析と機械学習において非常に重要です。

あらゆる種類のデータ管理の課題に対応するデータベースとデータプラットフォーム

データのロードと処理は必要な最初のステップですが、最適なデータベースを選択すると、事態はさらに複雑になります。今日の選択肢には、エンタープライズデータウェアハウス、データレイク、ビッグデータ処理プラットフォーム、および特殊なNoSQL、グラフ、Key-Value、ドキュメント、および列型データベースが含まれます。大規模なデータウェアハウジングと分析をサポートするために、Snowflake、Redshift、BigQuery、Vertica、Greenplumなどのプラットフォームがあります。最後に、SparkやHadoopなどのビッグデータプラットフォームがあります。

大企業は、複数のデータリポジトリを持ち、Cloudera DataPlatformやMapRData Platformなどのクラウドデータプラットフォーム、またはInfoWorks DataFoundyなどのデータオーケストレーションプラットフォームを使用して、これらすべてのリポジトリに分析のためにアクセスできるようにする可能性があります。

AWS、GCP、Azureなどの主要なパブリッククラウドにはすべて、ふるいにかけるためのデータ管理プラットフォームとサービスがあります。たとえば、Azure Synapse Analyticsはクラウド内のMicrosoftのSQLデータウェアハウスですが、Azure Cosmos DBは、Cassandra(列データ)、MongoDB(キー値とドキュメントデータ)、Gremlin(グラフデータ)など、多くのNoSQLデータストアへのインターフェイスを提供します。 。

データレイクは、非構造化データを一元化して迅速に分析するための一般的な読み込みドックであり、Azure Data Lake、Amazon S3、またはGoogle CloudStorageから選択してその目的を果たすことができます。ビッグデータを処理するために、AWS、GCP、AzureクラウドにはすべてSparkとHadoopのサービスもあります。

分析プラットフォームは、機械学習とコラボレーションを対象としています

データが読み込まれ、クレンジングされ、保存されると、データサイエンティストとアナリストは、分析と機械学習の実行を開始できます。組織には、分析のタイプ、作業を実行する分析チームのスキル、および基礎となるデータの構造に応じて、多くのオプションがあります。

分析は、TableauやMicrosoft PowerBIなどのセルフサービスデータ視覚化ツールで実行できます。これらのツールは両方とも、市民データサイエンティストを対象とし、視覚化、計算、および基本的な分析を公開します。これらのツールは、基本的なデータ統合とデータ再構築をサポートしますが、分析手順の前に、より複雑なデータラングリングが発生することがよくあります。Tableau DataPrepとAzureData Factoryは、データの統合と変換を支援するコンパニオンツールです。

データの統合と準備以上のものを自動化したい分析チームは、Alteryx Analytics ProcessAutomationのようなプラットフォームに目を向けることができます。このエンドツーエンドのコラボレーションプラットフォームは、開発者、アナリスト、市民データサイエンティスト、データサイエンティストを、ワークフローの自動化とセルフサービスのデータ処理、分析、機械学習処理機能で接続します。

AlteryxのチーフアナリティクスおよびデータオフィサーであるAlanJacobsonは、次のように説明しています。「カテゴリとしての分析プロセス自動化(APA)の出現は、組織内のすべてのワーカーがデータワーカーになるという新たな期待を強調しています。IT開発者も例外ではなく、Alteryx APAプラットフォームの拡張性は、これらのナレッジワーカーにとって特に役立ちます。」

データサイエンティストを対象としたツールとプラットフォームがいくつかあり、PythonやRなどのテクノロジーで生産性を高めながら、運用とインフラストラクチャの手順の多くを簡素化することを目的としています。たとえば、Databricksは、AWSまたはAzureクラウド上のコンピューティングクラスターを自己管理しながら、ApacheSparkおよびTensorFlowにアルゴリズムをデプロイできるようにするデータサイエンス運用プラットフォームです。 

現在、SAS Viyaなどの一部のプラットフォームは、データ準備、分析、予測、機械学習、テキスト分析、機械学習モデル管理を1つのmodelopsプラットフォームに統合しています。SASは分析を運用化しており、エンドツーエンドのコラボレーションプラットフォームを使用して、データサイエンティスト、ビジネスアナリスト、開発者、および経営幹部を対象としています。

SASの意思決定管理の研究開発ディレクターであるDavidDuling氏は、次のように述べています。modelopsの一部として、コード管理、テスト、および監視に最新のdevopsプラクティスを使用できます。これにより、モデル展開の頻度と信頼性が向上し、これらのモデルに基づいて構築されたビジネスプロセスの俊敏性が向上します。」

Dataikuは、成長を続けるデータサイエンスチームとその協力者にデータ準備、分析、機械学習を提供することを目的としたもう1つのプラットフォームです。Dataikuには、より高度なSQLおよびPython開発者向けのコラボレーションおよびコードノートブックを可能にするビジュアルプログラミングモデルがあります。

主要なエンタープライズソフトウェアベンダーが提供する他の分析および機械学習プラットフォームは、データセンターおよびクラウドデータソースに分析機能を提供することを目的としています。たとえば、Oracle AnalyticsCloudとSAPAnalytics Cloudはどちらも、インテリジェンスを一元化し、洞察を自動化してエンドツーエンドの意思決定を可能にすることを目的としています。

データ分析プラットフォームの選択

ビッグデータ、機械学習、データガバナンスが登場する前は、データ統合、ウェアハウジング、分析ツールの選択がより簡単でした。今日、特に多くのベンダーが複数の使用パラダイムをサポートしているため、用語、プラットフォーム機能、運用要件、ガバナンスニーズ、および対象ユーザーのペルソナが混ざり合って、プラットフォームの選択がより複雑になっています。 

ビジネスは分析の要件とニーズが異なりますが、すでに実施されているものの観点から新しいプラットフォームを探す必要があります。例えば:

  • 市民データサイエンスプログラムで成功を収め、すでにデータ視覚化ツールを導入している企業は、分析プロセスの自動化またはデータ準備テクノロジーを使用してこのプログラムを拡張することをお勧めします。
  • ビジネスのさまざまな部分で作業するデータサイエンティストを可能にするツールチェーンが必要な企業は、modelops機能を備えたエンドツーエンドの分析プラットフォームを検討できます。
  • 複数の異なるバックエンドデータプラットフォームを使用している組織は、クラウドデータプラットフォームを利用して、それらをカタログ化し、一元管理することができます。
  • 単一のパブリッククラウドベンダーですべてまたはほとんどのデータ機能を標準化する企業は、提供されるデータ統合、データ管理、およびデータ分析プラットフォームを調査する必要があります。

分析と機械学習が重要なコアコンピテンシーになるにつれ、技術者は利用可能なプラットフォームとその機能についての理解を深めることを検討する必要があります。分析プラットフォームの能力と価値は、企業全体への影響と同様に、増加するだけです。