データサイエンススキルの審査方法

公開されました。 最終更新日
スクリーンデータサイエンスのスキル

データサイエンス。現代の流行語。現代のデジタル世界では、まだ普遍的に定義され、受け入れられていない役割や分野に割り当てられた称号を発見することはよくあることです。データサイエンスとそれに起因するデータサイエンティストのスキルほど多産なものはありません。

この記事では、データサイエンスの意味、データサイエンティストのスキルを分解して、データサイエンスのポジションに最適なスクリーニングの方法をアドバイスします。

データサイエンスのダウンロー

市場調査会社フォレスターによると、2021年までに、インサイト主導型のビジネスは、以下のように総称されるようになります。 $1.8兆円の価値これは2015年の$3330億から増加しています。これらの「インサイト」はデータから得られるものであり、世界で最も成功している企業が収益性を高める上で極めて重要な役割を果たしています。同じレポートでは、データ駆動型の組織が世界のGDPの8倍の速度で成長していることがわかりました。思考の糧となる。

データを解釈し、その有用性を活用する能力は、明らかにかなりシビアな仕事です。しかし、多かれ少なかれコンセンサスは 不協和音について データサイエンスの明確な定義について

現場の定義が難しいにもかかわらず、新卒採用の動きを鈍らせていない 名前に「データサイエンス」がついている.それを確認するために 近時調査分析 KDNuggets によって大学院の学位を示している名前 'データ サイエンス' 2007 年には、2012 年の入学の巨大なスパイクと出現し始めた。

データサイエンスのポジションが、その寿命の危機的な軌道に乗っていることは明らかです。この分野はその拡張性の高さから、注目を集めています。しかし、データサイエンスとは何かを正しく理解できないまま、どのようにして採用すればよいのでしょうか?

DevSkillerは両方の面であなたをカバーしています。

データサイエンスとは

データサイエンスとは?

最もシンプルな形で言えば、データサイエンスはデータを有用なものにするための学問です。の概念は データサイエンスとは「統計、データ分析、機械学習を統合すること実際の現象をデータを用いて「理解・分析」するためには、「実際の現象を理解し、分析するための方法」と「それに関連する方法」が必要です。

従来は、評価できるデータはほとんどが構造化されていてサイズが小さく、簡単なBIツールを使って分析できるものでした。ほとんどが構造化されていた従来のシステムのデータとは異なります。 今日、データのほとんどは非構造化または半構造化されています。 この需要がデータサイエンティストの役割を加速させている。

1.1 データサイエンティストの役割とは?

データサイエンティストは、データ収集やロギングのためのエンジニアリングやインフラからプライバシーの問題まで、すべてを設定する会社のデータ戦略を設定する必要があります。彼らはどのようなデータ はユーザーに向けたものになります。また、データをどのように使用して意思決定を行うのか、そしてそれをどのように製品に組み込むのかということにも関心があります。また、革新的なソリューションを特許化したり、研究目標を設定したりすることもあります。彼らの基本的な責任のリストには、以下が含まれます。

  • 組織の利用可能なすべての情報、統計、データを統合する。
  • 組織に必要なAIの情報をまとめています。
  • データを分析し、AI(探索的データ分析と呼ばれることもあります)を使って潜在的な用途を見つけることができます。
  • ビジネス志向の同僚やクライアントにデータパターンを説明する(データのストーリーテリングと呼ばれるプロセス)。
  • 機械学習モデルの設計・作成
  • 本番環境でのモデルの有効性を評価する。

ご存知ないかもしれませんが、機械学習モデルというのは、プログラムが 識別能力が高い.データの集合に対してモデルを訓練することが可能であり、それらのデータに対して推論したり、それらのデータから学習したりするために使用できるアルゴリズムを提供することができます。

チーフデータサイエンティストは、エンジニア、科学者、アナリストのチームを管理し、CEO、CTO、プロダクトリーダーを含む全社のリーダーシップとコミュニケーションを取る必要があります。また、革新的なソリューションの特許取得や研究目標の設定にも携わります。

人気のある ツイッター 定義では、データサイエンティストを「どんなソフトウェアエンジニアよりも統計学が得意で、どんな統計学者よりもソフトウェアエンジニアリングが得意な人」と表現しています。

1.2 データサイエンティストは他の職種と似ている?

データエンジニアから、データを「使えるようにする」ことができるアナリストには、さまざまな種類があります。 質的専門家.これらの役割はすべてデータサイエンスに関与していますが、データサイエンティストと呼ぶには、3つの分野(アナリティクス、統計、ML/IA)すべての専門知識を持っている必要があります。

例を挙げると、機械学習開発者はデータサイエンティストのタスクのサブセットを行うが、機械学習モデルにのみ焦点を当てている。データサイエンティストのポジションは、役職名が人の責任を正確に反映したものではないにもかかわらず、本当に包括的な用語である。

データサイエンス。IT採用担当者にとって重要なこと

IT系採用担当者がデータサイエンスについて知っておくべき重要なこととは?

2.1 環境/課題に直面する頻度は?

ITリクルーターが注意しなければならないことの一つに、業界の状況は常に変化しているということがあります。データは常に大きくなり、問題はより難しくなっています。

2.2 多くのリソース/ツール/技術(ライブラリ、フレームワークなど)が利用できるか?

特定のリソースやツールに精通していることは、確かに大きな利点になります。現在、多くのツールがPython言語で利用可能ですが、R(別のプログラミング言語)で利用できるものは非常に少ないです。深層学習フレームワークの中には、Pythonよりも高速でメモリ効率が良いため、C++で利用できるものもあります。Pythonでは、pandas、Seaborn、plotly、scikit-learn、PyTorch、TensorFlowなどが代表的なライブラリです。

2.3 データサイエンティストが知っておくべきこと、最も重要なデータサイエンティストのスキルとは?

データサイエンティストは、機械学習、コンピュータサイエンス、統計学、数学、データの可視化、コミュニケーション、ディープラーニングなど、多くの知識が求められています。これらの分野では、データサイエンティストが学べる言語、フレームワーク、テクノロジーが数多く存在します。

データサイエンスには統計学とコンピュータサイエンスのスキルが必要です。でコミュニケーションについて言及されているのは興味深いことです。 データサイエンスの求人情報の半分近くを占める 最近ではデータサイエンティストは洞察力を伝え、他の人と協力して仕事をする能力が必要です。何が良いデータサイエンティストになるのか、基本的なリストは以下の通りです。

  • データ分析能力
  • 機械学習に長けている
  • コミュニケーション能力が高い
  • ディープラーニングのフレームワークを習得している
  • PythonやRが流暢である

2.4.データサイエンティストに求めるべき経験の種類(商用、オープンソース、科学的、学術的)は?

研究のためには、プロジェクトのみ - 学術的または科学的な経験が最も重要であり、十分に充実したものになるでしょう。しかし、生産モデルを作成するという点では、他の生産モデルでの作業経験があれば、最高の見識を得ることができます。

スキルを確認する

スクリーニングの段階でデータサイエンティストのスキルを検証するには?

データが増えるということは、チャンスが増えるということです。スクリーニングの段階でスキルを確認するのは難しいことですが ソフトスキル重視 はまた、ユニークな方法で人材を選別するのにも役立ちます。すでに優れた意思決定能力を持つデータサイエンティストを見つける

メーカーはあなたのビジネスのために多くの手間を節約することができます。

3.1 履歴書の審査で注意すべき点は?

考慮すべき最も重要なことは、候補者が最も関連性の高い分野の詳細なバックグラウンドを持っているかどうかです。ここでは、数学、統計学、コンピュータサイエンス、プログラミング、機械学習ライブラリに触れた経験が絶対的に重要です。データサイエンスのアナリティクスやプログラミングの経験も不可欠です。

優れたデータサイエンティストと優れたデータサイエンティストを分けるのは、対人コミュニケーション能力、つまり、様々な人との会話や協力ができる能力です。候補者はまた、優れたビジネス洞察力、またはビジネスの基礎と原則を十分に理解している必要があります。

候補者が自分の仕事が売上の増加やROIなどにどのようにプラスの影響を与えたかを示しているかどうかを必ず確認しましょう。一流候補者の場合は、自分の業績を定量的に示すことが重要です。

あなたが探している候補者が新卒の場合は、彼らの知識の幅を評価するために彼らが行ったかもしれない彼らのスキルと関連するコースワークやインターンシップに焦点を当ててください。

3.2 知っておきたい用語集とは?

  • 探索的データ分析 - これは、データのクリーンアップ、データパターンの探索、およびデータのパターンの手動発見で構成されています。
  • データのストーリーテリング - これは、技術的な知識のない人のためのデータパターンの記述と可視化を指します。
  • 古典的な機械学習 - 線形またはロジスティック回帰、決定木、ランダムフォレスト、ブースティング、サポートベクターマシン、非負行列因数分解、K平均、k-nearest neighborsなどのモデルを使用してタスクを解く
  • ディープラーニング - ニューラルネットワークを使ってタスクを解くこと。ニューラルネットワークの種類には、畳み込みニューラルネットワークやリカレントニューラルネットワークなどがあります。
データ分析および操作ライブラリPythonではRでは: dyplr, tidyr
分散データ解析および操作ライブラリPythonで。Scala、Java、PythonでのDask。Spark
データ可視化ライブラリPythonではSeaborn, Plotly, Matplotlib Rでは: ggplot2
一般的な機械学習ライブラリPythonでは: scikit-learn Rでは: caret, e1071
ディープラーニングライブラリPythonで。RでのKeras、Tensorflow、PyTorch。C++で: NnetCaffe

3.3 利用可能で尊敬されている資格は?データサイエンティストのスキルを判断する上で、それらはどの程度有用か?

データサイエンスの仕事に就くには、データサイエンスの資格は必要ありません。データサイエンスの仕事に就くためには、データサイエンスの証明書は必要ありません。

しかし、機械学習の知識の半分程度は理論的なものなので、この分野の資格は適用性が高いです。残りの50%は経験から来るものなので、作成した生産モデルの種類は問わないし、Kaggleの競技会での使用も可能です。資格は通常、ビジネス分析スキルや一般的な人々のスキルをチェックしません。私たちが見つけたトップコースは以下のとおりです。

  • 認定アナリティクス・プロフェッショナル(CAP
  • Cloudera認定アソシエイト。データアナリスト
  • Cloudera認定プロフェッショナル。CCPデータエンジニア
  • データサイエンスカウンシルオブアメリカ(DASCA) シニアデータサイエンティスト(SDS)
  • データサイエンスカウンシルオブアメリカ(DASCA) プリンシプルデータサイエンティスト(PDS)
  • Dell EMCデータサイエンス・トラック
  • グーグル認定プロフェッショナルデータエンジニア
  • グーグルデータと機械学習
  • IBMデータサイエンスプロフェッショナル認定証
  • Microsoft MCSE: データ管理と分析
  • マイクロソフト認定Azureデータサイエンティスト・アソシエイト
  • オープン認定データサイエンティスト(オープンCDS
  • SAS認定アドバンスドアナリティクスプロフェッショナル
  • SAS認定ビッグデータプロフェッショナル
  • SAS認定データサイエンティスト

Coursera、edX、Udacityで取得した資格も高く評価されています。

3.4 履歴書の他の行でデータサイエンティストのスキルを示すことができるのは?

候補者が講演者としてカンファレンスに参加していることを考慮すると、データサイエンスにおいて重要な要件である十分なストーリーテラーとしてのスキルが必要とされていることがわかります。技術的な面での専門家であることはもちろんですが、技術的な知識がなくても自分の発見を説明できる能力があることも重要です。

機械学習のコンテストに参加することも大きな利点になる。 Kaggle.com、topcoder.com、cloudai.org、および knowledgepit.ml などのプラットフォームはすべて、この分野の賞を競う機会を提供しています。

今日の世界では、良い履歴書を持っているだけでは、面接の電話を受けるには十分ではないかもしれません。特にデータサイエンティストの仕事に応募する場合はなおさらです。私たちはデジタル革命の真っ只中に生きているのですから、採用プロセスにもそれが反映されるのは当然のことです。

候補者のLinkedInやGitHubのアカウントを閲覧することは、候補者の概要を把握するのに役立つだけでなく、オープンソースのプロジェクトに精通しているかどうかを見るのにも役立ちます。プロジェクトが現在の役割に関連しているかどうかを判断することができます。これは候補者のプロフィールを可視化するのに役立つので、質問を一定の方法で構成することができます。また、候補者の履歴書に記載されているデータサイエンティストのスキルがGitHubのプロフィールに反映されているかどうかを判断することもできます。

電話/ビデオ技術面接でのデータサイエンススキルの技術審査

履歴書の言葉だけに頼るのは難しい。やはり、候補者が主張するスキルを本当に持っているかどうかを見極めるためにも、挑戦することが大切です。電話インタビューだけでも、候補者がどのように考え、どのように問題を解決しようとしているのかを知ることができます。

4.1 データサイエンティストに聞くべき質問 経験.なぜ、それぞれの質問をする必要があるのですか?

  • どのようなDSプロジェクトをされていたのか、また、そのプロジェクトにどの程度関与されていたのかを教えてください。
    理由データサイエンスは非常に幅広い職種であり、責任の所在が異なることが多いため、データ分析やストーリーテリングのみを担当する場合もあれば、要件の収集や機械学習モデルの作成のみを担当する場合もあります。候補者の経験は、あなたが募集しているポジションの責任と一致している必要があります。この質問は、本当に候補者のスキルの範囲を確認することを目的としています。
  • あなたの仕事は、あなたが参加したプロジェクトで、組織にどのようなプラスの財務的影響を与えましたか?理由です。データサイエンティストの役割は、ビジネスの要件や条件をよく理解している必要があるポジションです。例えば、「マーケティングチームは当社の成果により10%のコスト削減ができた」、「当社の新しいリテンション機能により5%の顧客回転率を低下させた」など、具体的な測定値を示す回答を探してください。
  • どのようなライブラリやプログラミング技術を使っていたのでしょうか?
    理由です。データサイエンティストは、同じ結果を得るために様々なツールを使うことができる。これらのツールは、選択するプログラミング言語、社内のインフラ、候補者が扱ったことのあるデータセットのサイズなどに依存します。候補者は、これまでに使用した経験のあるツールを使用することで、最高のパフォーマンスを発揮することができるでしょう。

4.2 データサイエンティストに聞くべき質問 識見.なぜ、それぞれの質問をする必要があるのですか?

  • 機種が正常に機能しているかどうかは、どのように確認するのでしょうか?
    理由です。理想的な方法論は、データセットを次のセクションに分割することである: トレーニングセット、バリデーションセット、テストセット。トレーニングセットはモデルが利用できる唯一のものであり、トレーニングプロセスの基礎となる。モデルのパラメータは検証セットを使って設定され、モデルの効率はテストセットでテストされる。
  • データセットに入っているデータの品質が良いかどうか、どうやってチェックしますか?
    理由。データサイエンティストは、ほとんどの場合、社内で収集したデータセットに欠落した値やエラー、矛盾が含まれている可能性があり、これらは厄介なデータの兆候です。このような問題を見つけるために、データサイエンティストは探索的データ分析を行い、その主な特徴をまとめる必要があります。
  • ブーストとは何か、その効果や使い方は?
    理由:ブースティングモデルは、順次学習される木のグループからなる木ベースのモデルである。ブースティングモデルは、現在最も効率的なモデルであり、精度が高く、トレーニング時間が比較的短く、メモリ使用量が少なく、必要とされるトレーニングデータセットのサイズが中程度である(ディープラーニング技術と比較して)。

専門家からのヒントは、現在募集しているビジネス上の問題に関連した質問をすることです。誰もがそうであるように、データサイエンティストは、彼らがよく知っている分野で最高の働きをするでしょう。

例えば、工場設備の内部の仕組み(予知保全の問題)、医療用語(医療業界のためのAIの作成)、クライアントの嗜好(電子商取引のためのレコメンドシステム)などについて、すべての候補者が「感じ」を持っている(または興味を持っている、学ぶ意欲がある)わけではありません。

4.3 行動 データサイエンティストに聞くべき質問を紹介します。なぜ、それぞれの質問をする必要があるのでしょうか?

  • 同僚との意見の相違にどう対処するか?
    理由。データサイエンティストは、その役割が同僚からのデータをコンパイルし、組織や社会の中で改善のための領域を見つけることに基づいているので、良好なコミュニケーションと対人スキル(すなわち共感)を持っている必要があります。
  • 新しいデータサイエンスの技術や事例の情報はどこにありますか?
    理由です。データサイエンスの分野は常に進化・成長を続けているため、最新のアップデートに対応し、最も効率的な方法で問題を解決するためには、常に研究する必要がある役割です。カンファレンスペーパー、ワークショップペーパー、MOOC、DSを扱う企業のブログ、DSコミュニティのミートアップ、DSをテーマにしたFacebookやメールグループ、メンターからの学びなど、いずれかのソースが価値があります。
  • DSの分野での最大の成功と最大の失敗は何だと思いますか?
    理由です。これはかなり一般的な質問ですが、候補者の自己認識と自己反省のスキルを示しています。この2つは学習プロセスにおいて必要なものであり、これは偉大なデータサイエンティストになるための主要な部分です。
コーディングテスト

オンラインコーディングテストを利用したデータサイエンティストの技術的なスクリーニング

データサイエンティストを雇用することは、トリッキーなプロセスである可能性があります。データサイエンティストの実際の定義は曖昧であり、「データサイエンティスト」という肩書きを持つ人の日々の仕事は組織によって大きく異なります。また、この分野には様々なバックグラウンドを持った人が集まってきます。データサイエンティスト候補者の過去を調べることは、それ自体が科学であり、それ自体がブログ記事に値するものです。ここでは、データサイエンティストのスクリーニング方法を紹介していきたいと思います。

5.1 データサイエンティストスキルのオンラインテストはどれを選ぶべき?

正しいものを探すとき データサイエンス技能検定 以下の条件に合致していることを確認してください。

  • このテストは、実施されているプロの仕事の質を反映しています。
  • 持続時間は長すぎず、最大で1~2時間です。
  • テストは自動的に送信することができ、自然の中で簡単です。
  • 候補者の能力に合わせた難易度
  • このテストは、ソリューションが動作するかどうかのチェックにとどまらず、コードの品質やエッジケースでの動作をチェックします。
  • 限りなく自然なプログラミング環境に近く、候補者は関連するリソースにアクセスすることができます。
  • これは、候補者が定期的に遭遇するすべてのライブラリ、フレームワーク、およびその他のツールを使用する機会を提供します。

5.2 DevSkillerのすぐに使えるオンラインデータサイエンススキルテスト

DevSkiller コーディングテストでは、RealLifeTesting™ の手法を使用して、受験者が実際に作業しているコーディング環境を反映させています。DevSkiller テストでは、不明瞭なアルゴリズムを使用するのではなく、受験者はアプリケーションや機能を構築する必要があります。これらのテストは完全に自動的に採点され、世界中どこでも受験することができます。同時に、受験者は、ライブラリ、フレームワーク、StackOverflow、Google を含む、通常使用するすべてのリソースにアクセスすることができます。

企業はDevSkillerを利用して、世界中のどこからでも独自のコードベースを使って受験者をテストしています。また、DevSkillerでは、簡単にできるように、ここで紹介したようなデータサイエンスのスキルテストも数多く用意されています。

パイソン
ミドル
テストされたスキル
持続時間
70 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン, スパーク

プログラミングタスク - レベル。中程度

Python|PySpark|顧客嗜好モデル - マーケティングデータを前処理するためのデータエンジニアリングアプリケーションを実装します。

パイソン
ジュニア
テストされたスキル
持続時間
65 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン

プログラミングタスク - レベル。簡単

Python | PySpark | ML Logs Transformer - ログ変換パイプラインの実装を完了します。

スカラ
ジュニア
テストされたスキル
持続時間
66 分以内
評価
自動
テストの概要

選択問題

知識評価 スカラ

プログラミングタスク - レベル。簡単

Scala|Spark|ML Logs Transformer - ログの変換パイプラインの実装を完了します。

データサイエンス
ジュニア
テストされたスキル
持続時間
45 分以内
評価
自動
テストの概要

タスク - レベル。簡単

SQL|切手カタログ|最高価格の3つの切手 - 最高価格の3つの切手(価格と名前)を選択します。

プログラミングタスク - レベル。簡単

Python|Pandas|HTML table parser - HTMLのテーブルをCSV形式のファイルに変換する機能を実装します。

パイソン
ジュニア
テストされたスキル
持続時間
35 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン

プログラミングタスク - レベル。簡単

Python|Pandas|HTML table parser - HTMLのテーブルをCSV形式のファイルに変換する機能を実装します。

パイソン
ミドル
テストされたスキル
持続時間
120 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン

プログラミングタスク - レベル。中程度

Python|車両販売レポート - 車両販売データウェアハウスに基づいてレポートを作成するアプリケーションを実装します。

パイソン
ミドル
テストされたスキル
持続時間
96 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン

プログラミングタスク - レベル。中程度

Python|Pandas|フードデリバリーのスタートアップ - 注文のデータベースを次元を下げて分析テーブルを追加作成することで変換します。

パイソン
ジュニア
テストされたスキル
持続時間
45 分以内
評価
自動
テストの概要

選択問題

知識評価 パイソン

プログラミングタスク - レベル。簡単

Python | Client Base Creator - チャットメッセージから顧客の連絡先データを取得するアプリケーションを実装します。

パイソン
ミドル
テストされたスキル
持続時間
70 分以内
評価
自動
テストの概要

選択問題

知識評価 機械学習, パイソン

プログラミングタスク - レベル。中程度

Python|DNA Analyzer|DNA鎖を作成してきれいにする - DNA鎖を作成してきれいにする2つのメソッドをPythonで実装します。

パイソン
ジュニア
テストされたスキル
持続時間
49 分以内
評価
自動
テストの概要

選択問題

知識評価 機械学習

プログラミングタスク - レベル。簡単

Python | DNA Analyzer - DNA統計レポートを生成するメソッドを Python で実装したもの。

シェアポスト

トマシュ・ヌルキェヴィッチ より多くの記事をチェックする トマシュ

技術者の採用についてはこちら

ラーニングハブに登録すると、有益な情報をメールで受け取ることができます。

シームレスにコーディングスキルを検証&開発

DevSkillerの製品をご覧ください。

セキュリティ認証とコンプライアンス。お客様のデータの安全性を確認します。

DevSkillerのロゴ タレントブーストのロゴ タレントスコアのロゴ