今日のデータサイエンスの役割は10年後には存在しません

今後10年間で、データサイエンティストの役割は、現在とは大きく異なるように見えることがわかっています。しかし、心配、誰もが、ちょうど失われた雇用を予測していないしていない変更されたジョブを。

データサイエンティストは大丈夫です—労働統計局によると、役割は2029年まで平均よりも高いクリップで成長すると予測されています。しかし、テクノロジーの進歩は、データサイエンティストの責任と企業が全体として分析にアプローチする方法。また、生データから使用可能なモデルへの機械学習パイプラインの自動化を支援するAutoMLツールが、この革命をリードします。

10年後、データサイエンティストはまったく異なるスキルとツールのセットを持ちますが、その機能は同じままです。ビジネス上の問題を解決するために複雑なデータを理解できる、自信を持って有能なテクノロジーガイドとして機能します。

AutoMLはデータサイエンスを民主化します

最近まで、機械学習のアルゴリズムとプロセスは、ほぼ独占的に、より伝統的なデータサイエンスの役割の領域でした。つまり、正式な教育と高度な学位を持っているか、大規模なテクノロジー企業で働いていました。データサイエンティストは、機械学習開発スペクトルのあらゆる部分で非常に重要な役割を果たしてきました。しかし、やがて、彼らの役割はより協調的かつ戦略的になるでしょう。AutoMLのようなツールを使用して、より学術的なスキルの一部を自動化することで、データサイエンティストは、データを介してビジネス上の問題の解決に向けて組織を導くことに集中できます。

多くの点で、これはAutoMLが機械学習を実践する取り組みを民主化するためです。新興企業からクラウドハイパースケーラーまでのベンダーは、開発者が参入障壁を大きくすることなく使用および実験できるほど簡単なソリューションを立ち上げました。同様に、一部のAutoMLアプリケーションは直感的でシンプルなので、技術者以外の作業者も自分の部門の問題の解決策を作成して、組織内にある種の「市民データサイエンティスト」を作成できます。

これらのタイプのツールが開発者とデータサイエンティストの両方にもたらす可能性を探るには、まず、機械学習の開発に関連するデータサイエンスの現状を理解する必要があります。成熟度スケールに配置すると、理解するのが最も簡単です。

デジタルトランスフォーメーションを担当する従来の役割を持つ小規模な組織や企業(つまり、古典的な訓練を受けたデータサイエンティストではない)は、通常、この規模のこの端に該当します。現在、彼らはすぐに使える機械学習アプリケーションの最大の顧客であり、機械学習の複雑さに慣れていない視聴者を対象としています。

  • 長所:これらのターンキーアプリケーションは、実装が簡単で、比較的安価で展開が簡単な傾向があります。自動化または改善するための非常に特殊なプロセスを持つ中小企業の場合、市場にはいくつかの実行可能なオプションがある可能性があります。参入障壁が低いため、これらのアプリケーションは、初めて機械学習に取り組むデータサイエンティストに最適です。一部のアプリケーションは非常に直感的であるため、技術者以外の従業員も自動化と高度なデータ機能を試すことができ、組織に貴重なサンドボックスを導入できる可能性があります。
  • 短所:このクラスの機械学習アプリケーションは、柔軟性がないことで有名です。実装は簡単ですが、簡単にカスタマイズすることはできません。そのため、特定のアプリケーションでは、特定のレベルの精度が不可能な場合があります。さらに、これらのアプリケーションは、事前にトレーニングされたモデルとデータに依存しているため、厳しく制限される可能性があります。 

これらのアプリケーションの例には、Amazon WebServicesのAmazonComprehend、Amazon Lex、Amazon Forecast、MicrosoftAzureのAzureSpeechServicesおよびAzureLanguageUnderstanding(LUIS)が含まれます。多くの場合、これらのツールは、急成長しているデータサイエンティストが機械学習の最初の一歩を踏み出し、組織を成熟度の範囲のさらに下に導くのに十分です。

AutoMLによるカスタマイズ可能なソリューション

大規模でありながら比較的一般的なデータセット(顧客のトランザクションデータやマーケティングメールの指標など)を使用している組織では、機械学習を使用して問題を解決する際に、より柔軟性が必要です。AutoMLを入力します。AutoMLは、手動の機械学習ワークフロー(データ検出、探索的データ分析、ハイパーパラメーター調整など)の手順を実行し、それらを構成可能なスタックに凝縮します。

  • 長所: AutoMLアプリケーションを使用すると、より広いスペースのデータに対してより多くの実験を実行できます。しかし、AutoMLの真の超能力はアクセシビリティです。カスタム構成を構築でき、入力を比較的簡単に調整できます。さらに、AutoMLは、データサイエンティストだけを対象に作成されているわけではありません。開発者は、サンドボックス内を簡単にいじって、機械学習要素を独自の製品やプロジェクトに組み込むこともできます。
  • 短所:近づいていますが、AutoMLの制限により、出力の精度を完璧にするのは困難です。このため、学位を保持しているカードを運ぶデータサイエンティストは、AutoMLを使用して構築されたアプリケーションを軽視することがよくあります。たとえ、結果が目前の問題を解決するのに十分正確であってもです。

これらのアプリケーションの例には、Amazon SageMakerAutoPilotまたはGoogleCloudAutoMLが含まれます。10年後のデータサイエンティストは、間違いなくこのようなツールに精通している必要があります。複数のプログラミング言語に精通している開発者のように、データサイエンティストは、最高の才能と見なされるために、複数のAutoML環境に習熟している必要があります。

「手巻き」の自家製機械学習ソリューション 

最大の企業規模の企業とフォーチュン500企業は、現在、高度で独自の機械学習アプリケーションのほとんどが開発されている場所です。これらの組織のデータサイエンティストは、企業の過去のデータの山を使用して機械学習アルゴリズムを完成させ、これらのアプリケーションをゼロから構築する大規模なチームの一員です。このようなカスタムアプリケーションは、かなりのリソースと才能がなければ不可能です。そのため、見返りとリスクは非常に大きくなります。

  • 長所:ゼロから構築された他のアプリケーションと同様に、カスタム機械学習は「最先端」であり、目前の問題に対する深い理解に基づいて構築されています。また、AutoMLやすぐに使用できる機械学習ソリューションよりも正確です。
  • 短所:カスタムの機械学習アプリケーションを特定の精度のしきい値に到達させることは非常に困難な場合があり、データサイエンティストのチームによる手間のかかる作業が必要になることがよくあります。さらに、カスタム機械学習オプションは、開発に最も時間と費用がかかります。

手巻きの機械学習ソリューションの例は、空のJupyterノートブックから始めて、手動でデータをインポートし、探索的データ分析からモデルの調整までの各ステップを手動で実行することです。これは、Scikit-learn、TensorFlow、PyTorchなどのオープンソースの機械学習フレームワークを使用してカスタムコードを作成することで実現されることがよくあります。このアプローチには、高度な経験と直感の両方が必要ですが、ターンキー機械学習サービスとAutoMLの両方を上回る結果を生み出す可能性があります。

AutoMLのようなツールは、今後10年間でデータサイエンスの役割と責任をシフトします。 AutoMLは、データサイエンティストから機械学習をゼロから開発する負担を負い、代わりに機械学習テクノロジーの可能性を他の問題解決者の手に直接委ねます。データと入力自体など、自分が知っていることに集中できる時間があれば、10年後のデータサイエンティストは、組織にとってさらに価値のあるガイドとして機能します。

Eric Millerは、Rackspaceで技術戦略のシニアディレクターを務め、Amazon Partner Network(APN)エコシステムでの実践構築の確かな実績を持つ戦略的コンサルティングリーダーシップを提供しています。 エリックは、エンタープライズITで20年の実績を持つ技術リーダーであり、AWS Well Architected Framework(WAF)アセスメントパートナープログラム、Amazon EC2 for Windows Server AWSサービスデリバリープログラム、および幅広い範囲を含む、いくつかのAWSおよびソリューションアーキテクチャイニシアチブを主導してきました。 AWSは、数十億ドル規模の組織向けに書き直しています。

New Tech Forumは、前例のない深さと幅で新しいエンタープライズテクノロジーを探索して議論する場を提供します。選択は主観的であり、読者にとって重要で最も興味深いと思われるテクノロジーの選択に基づいています。出版用のマーケティング資料を受け入れず、寄稿されたすべてのコンテンツを編集する権利を留保します。すべてのお問い合わせは[email protected]までお送りください。