コラム データサイエンティストとは?仕事内容や需要、年収などを解説
近年、IT関連でAIエンジニアと並んで、「データサイエンティスト」という職業が注目されていますが、なぜ、ここまで注目度が高まっているのでしょうか。データサイエンティストへの注目は、機械学習のブームとともに広まっており、その過程でAIエンジニアとの違いについても議論されています。この記事では、データサイエンスの概要やデータサイエンティスト誕生の背景、仕事内容、AIエンジニアとの違い、市場需要や注目度について詳しく解説します。データサイエンティストの平均年収も調べましたので参考にしてください。
そもそもデータサイエンスとは?
データサイエンスは、多岐にわたる分野で蓄積された大量の情報(ビッグデータ)を収集し、科学的に解析して、問題の原因を特定し、より正確な予測を行う手法です。この分野では、統計学、数学、プログラミングの知識が必要です。近年では、AIを活用した研究も増えており、情報通信技術(ICT)の急速な進化によって、医療、ビジネス、行政、教育、スポーツなどさまざまな分野で蓄積された情報を効率的に処理し、必要な情報を選別して分析することがスムーズに行えるようになっています。そのため、データサイエンスへの関心が急速に高まっています。
関連リンク:データサイエンスとは一体何?用途やメリットなどを徹底解説!
https://www.juntendo.ac.jp/academics/faculty/hds/folder/3/
データサイエンティストとは一体何?
データサイエンティストは、主にビッグデータを分析し、経営に有益な情報を抽出する専門家です。データサイエンティストは、新たな示唆や気づきにつながる事象を発見し、多様なデータを分析する能力を持っています。具体的な例として、日々のSNSやブログ記事を収集し、その内容を分析することで社会のトレンドや自社製品の評判や評価を分析します。この分析作業は、単にキーワード検索で統計情報を作成するだけでなく、AIを活用して投稿の文脈や意図(ネガティブかポジティブかなど)を判断することも含まれます。
ビッグデータは、膨大なデータの集まりです。厳密な定義はありませんが、通常、量(Volume)・多様性(Variety)・速度(Velocity)の「3V」を高い水準で持っていることが特徴です。たとえば、SNSで共有される情報、スマホから得られる位置情報、監視カメラの映像などが挙げられます。今後、IoTの普及により、さまざまな製品のセンサーが収集した情報も蓄積されるでしょう。
データサイエンティストが誕生した背景
データサイエンスという概念が広く認知されるようになったのは、2010年代以降ですが、その始まりは50年以上前にさかのぼります。統計解析を職場で活用する人々は以前から存在し、一般的にリサーチャーと呼ばれていました。特に2000年代以降、データの活用手法は急速に進化し、現在は多くの分野で人材不足が深刻な問題となっています。2000年代に入ってから、以下のような出来事が、現代のデータサイエンスの発展に大きく寄与しています。
2000年代初頭 |
WindowsやSaaS(Software-as-a-Service)の普及により、個人のパソコン所有が一般的になり、データのやり取りが急増しました。 |
2006年 |
オートエンコーダ(自己符号化器)を使用したディープラーニングが登場し、人工知能の進化が飛躍的に加速しました。 ※ディープラーニングとは、人工知能の一部で機械学習技術の一つです。人間の介入なしにコンピューターが大量のデータから目的の特徴を抽出する能力を指します。 |
2008年 | Googleなどで、データサイエンティストと自称する人々が登場し、そのスキルや職務内容が議論されました。 |
2010年 | データ転送量が大幅に増加し、それに伴い「ビッグデータ」という言葉が提唱されました。 |
2012年 | 画像認識精度を競う大会で、ディープラーニングを使用したチームが目覚ましい成果を上げ、優勝しました。 |
データサイエンティストの仕事内容とは?
データサイエンティストの仕事の流れを大まかに3つに分け、具体的な仕事内容をご紹介します。
【手順1:データ収集~仮説立案】
まず、データ収集と仮説の立案が行われます。データの分析は、企業の運営や経営戦略において客観的な情報や指標を得るために欠かせません。データ収集と仮説の立案を行う動機は、主に以下の2つの状況が考えられます。
まず、自社の業務システムやサービスがIT化されており、すでにビッグデータを保有しているケースです。この場合、埋もれている情報や分析不能な事象を理解するため、AI、最新の統計、分析の手法を使って、戦略的な意思決定を行います。
一方、課題や調査テーマを解決するため に、データ分析が必要なケースもあります。データを活用しようという動機から、課題やテーマがあり、そのソリューションを検討するプロセスでデータ分析が不可欠です。ただし、必要なデータを持っていない可能性もあります。その場合、データ収集作業は企画や仮説の立案の後に行われます。データ収集はさまざまな方法がありますが、Webのクローリング(Webページの情報収集の手法)、調査会社への委託、他社からの購入やライセンス取得、アンケートや市場調査などです。
データサイエンティストは、こうした企業経営の調査・分析ニーズに応えるため、分析計画を立て、商品の売り上げなどの要因に関する仮説を検証する役割を果たします。
【手順2:データ前処理】
データが集まったからといって、すぐに解析できるわけではありません。通常、特定のテーマに基づいた分析を行うためには、データの前処理が必要です。これには、関係のないデータを取り除いたり、データのフォーマットや項目、単位を統一したりする作業が含まれます。また、ソートやマージといった処理、さらには簡単な集計処理や統計処理が必要になる場合もあります。
データには、プライバシーや個人情報の保護のために、「仮名化(他の情報と組み合わさると特定の個人を識別できる状態にする)」または「匿名化(特定の個人を識別できない状態にする)」により、個人を特定したり、関連付けたりできる情報は削除する必要があるかもしれません。
通常、この種の情報は個人情報保護法によって制約されており、収集、販売、ライセンス供与、外部提供が規制されています。そのため、自社ユーザーのデータを使用する場合でも、ユーザーが明示的に許可した目的にのみ使用する必要があります。第三者から提供されるデータについても同様の配慮が必要です。手間がかかるかもしれませんが、これはデータ収集プロセスにおいて不可欠な要件です。
【手順3:データの分析~レポーティング】
データの準備が整った段階で、分析と解析作業に取り掛かります。このプロセスでは、得られた解析結果を熟考し、選定したテーマや目的に応じて結果を要約したレポートを作成します。
例えば、以下の項目は、テーマや目的の一例です。
・季節や天候による売上の変動 ・高精度のレコメンデーションや与信判断 ・自社株価の変動の予測 ・故障や予防的なメンテナンスの予測 ・選挙における候補者や政党の得票予測 ・顧客属性に基づく成約率や解約率の分析 |
実際には、企業ごとの課題と戦略によって、データサイエンティストの役割は変化します。データサイエンティストの仕事は、単に特定のデータを分析するという狭い視点ではなく、「課題を解決するために、データやデータ分析を応用できないかを考える仕事」と言うべきでしょう。
企業経営者が求めるのは、データそのものではなく、課題解決や新しい知見をもたらす情報です。データサイエンティストは、分析結果を評価し、考察して、具体的に課題解決にどのように貢献できるか、また必要なデータが得られているかをレポートとしてまとめる役割が求められます。
データアナリスト・AIエンジニア・データサイエンティストの違い
データアナリストは、データの収集と分析に特化した専門家です。一方、データサイエンティストは統計学とコンピュータサイエンスを基に、課題の洗い出し、優先順位付け、課題設定、達成目標の明確化、仮説立案などの作業を行います。かつては事業企画部門やコンサルタントが行っていた仕事は、ビッグデータの普及により、データサイエンティストの領域に取り込まれました。主にデータの収集と分析を行うデータアナリストに対し、データサイエンティストは担当領域が広いことが大きな違いです。
また、AIエンジニアは、主にAIを活用したアプリケーション開発や、AIに組み込むデータの解析と整理が仕事です。一方、データサイエンティストはデータ分析を中心に据え、AIなどの技術を用いて得られたデータを活用し、ビジネスをサポートする役割を担います。データサイエンティストは、顧客のニーズに応じて改善策を提案する点で、コンサルタント業に近いと言えるでしょう。このように、両者はデータ分析に関わる点は共通していますが、活用方法や専門分野に違いがあります。
データサイエンティストの需要・注目度は?
AIは特定の分野で人間を凌駕し始め、AI時代の幕開けが予想されています。ディープラーニングという基盤技術だけでなく、それを活用するデータサイエンティストへの関心も高まっています。2012年以降には、データサイエンス学部を開設する大学が現れ、修士号や博士号の取得が可能な大学院も増えてきました。これはデータサイエンスの重要性と人材の価値が認識されていることを示していると言えるでしょう。
一方で、AIが将来的に人間の役割を取って代わる可能性についての議論も存在します。確かに、計算処理において高速かつ高精度な識別や予測が求められる分野ではAIが適用されると考えられます。しかし、社会を変革し、価値を創造するためには、データを活用し、議論し、デザインし、実行する能力が不可欠です。AIは計算資源やパートナーとして存在するに過ぎません。ここでデータサイエンティストの価値が浮き彫りになります。データサイエンティストは現場と連携し、データから洞察を得て改善提案をし、成果を生み出す役割を果たす人材であり、その需要は今後一層拡大していくでしょう。
データサイエンティストの平均年収はいくら?
調査年度 | 2020年 | 2021年 | 2022年 |
データサイエンティスト | 516万円 | 512万円 | 513万円 |
ITエンジニア | 452万円 | 438万円 | 442万円 |
全職種平均 | 409万円 | 403万円 | 403万円 |
出典 :日本のビジネスパーソンの平均年収は?平均年収ランキング(平均年収/生涯賃金)【最新版】 |転職ならdoda(デューダ)
2022年12月にdodaが発表した「平均年収ランキング」によると、データサイエンティストの平均年収は513万円でした。また、同調査では全体の平均年収が403万円で、ITエンジニアの平均年収が442万円でした。この情報から、データサイエンティストの年収は他の職種よりも高いことがわかります。なお、この傾向は過去3年間にわたり変わらず続いています。
年収帯 |
ITエンジニア |
データサイエンティスト |
300万円未満 |
15.4% |
5.5% |
300~400万円未満 |
31.3% |
20.0% |
400~500万円未満 |
23.2% |
28.3% |
500~600万円未満 |
13.1% |
20.3% |
600~700万円未満 |
7.5% |
11.3% |
700~800万円未満 |
3.9% |
5.3% |
800~900万円未満 |
2.4% |
3.5% |
900~1000万円未満 |
1.2% |
2.7% |
1000万円以上 |
2.1% |
3.2% |
出典 :日本のビジネスパーソンの平均年収は?平均年収ランキング(平均年収/生涯賃金)【最新版】 |転職ならdoda(デューダ)
ITエンジニア全体と比較しても、データサイエンティストの年収分布は興味深い違いを示しています。ITエンジニアの年収分布が主に300〜400万円の範囲に集中しているのに対し、データサイエンティストの年収分布は400〜500万円の範囲に広がっています。さらに、データサイエンティストは400万円以上の年収帯においても比較的高い割合を持っており、ITエンジニア職の中でも特に高水準の年収を得ていることが明らかです。
ただし、高年収での採用の場合、実務経験のあるデータサイエンティストを対象としている場合が多い傾向があります。したがって、他の職種から転職を検討している場合、未経験の人は年収が下がる可能性がある点を理解しておきましょう。
データサイエンティストになるにはどうしたらいいの?
データサイエンティストになる方法は、別のIT職種からの転職です。プログラミング、統計学、数学、機械学習、データベースなど、多岐にわたるスキルが求められますが、関連するIT職種で経験を積んだ人であれば、学習の負担が軽減されます。
また、大学でデータサイエンスを学ぶことも選択肢の一つです。最近では、データサイエンスに特化した学部や学科を提供する大学が増えており、必要な知識を体系的に学ぶことができ、就職に有利なスキルを身につけることが可能です。
もちろん、未経験者が独学でデータサイエンティストのスキルを身につけ、仕事を得る可能性はゼロではありません。しかし、IT企業や大学、専門学校のような環境でスキルを高めることができない分、ハードルは非常に高くなります。
データサイエンティストになると、通常はデータアナリストとしての経験を積んだ後、データエンジニア、機械学習エンジニア、リサーチサイエンティストなどにキャリアを発展させます。
関連リンク:
データサイエンティストになるにはどうしたらいい?必要なスキルなど
https://www.juntendo.ac.jp/academics/faculty/hds/folder/4/
データサイエンティストにおすすめの資格とは?勉強方法なども解説!
https://www.juntendo.ac.jp/academics/faculty/hds/folder/2/
データサイエンティストを目指すなら”順天堂大学”
順天堂大学は、8つの学部、4つの研究科、そして6つの附属病院から成る、健康総合大学および大学院大学です。教育、研究、診療・実践という三つの柱を通じて、国際的なレベルで社会貢献と人材育成を推進しています。
順天堂大学の歴史は、天保9年(1838年)に遡ります。医学、医療、スポーツの分野において、「仁」を学びの基盤とし、長い間にわたり社会への貢献を実践してきました。現在、医学、医療、スポーツを取り巻く環境は急速に変化しており、テクノロジーの進化に伴い、新たな解決策を提供するためにデータ分析が求められています。
このような状況を踏まえ、日本で歴史のある医療系の教育機関として、順天堂大学は国内で先駆的な健康データサイエンス学部を開設しました。長い歴史に裏打ちされた豊富な実績と専門知識、蓄積されたデータを活用して、健康とデータサイエンスの領域において、高品質な教育を目指しています。
健康データサイエンス学部|順天堂大学 https://www.juntendo.ac.jp/academics/faculty/hds/ 順天堂大学健康データサイエンス学部 資料請求 |
まとめ
日本では、ビッグデータやAIの分野はまだ歴史が浅く、発展している途中です。将来的には、企業内でのビッグデータの有効活用がますます普及し、データ分析の研究が進展すれば、企業は収集したデータを分析し、事業活動に生かすための戦略を立てることが重要となります。したがって、データ分析のスキルを持つ人材がますます求められることになるでしょう。しかし、現時点ではデータサイエンティストを含む先端IT人材は不足しています。そのため、今後データサイエンティストを目指して学ぶことで、さまざまな企業で必要とされる非常に需要の高い人材となるチャンスがあると言えます。
参考サイト:
https://atmarkit.itmedia.co.jp/ait/articles/2303/20/news023.html
https://aws.amazon.com/jp/what-is/data-science/
https://schoo.jp/matome/article/1397
https://www.nec-solutioninnovators.co.jp/sp/contents/column/20220318_big-data.html
https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html
https://datamix.co.jp/media/careerenhancement/blog-the-future-of-data_scientist/
https://x-tech.pasona.co.jp/media/detail.html?p=2231
https://www.sejuku.net/blog/167158#index_id0