数学が苦手な人でも「データ分析」はできるのか。麗澤大学工学部教授で『文系のためのデータリテラシー』(共著)を執筆している宗健さんは「基礎的なデータ分析では、数式は意外と使われないため、数学の得意不得意はあまり関係がない。
それよりもエクセルがちゃんと使えるかが重要だ」という――。
■この原稿を書くのにもAIを活用している
ここ数年で、AI、ビッグデータ、データサイエンスといった言葉はすっかり社会に組み込まれた感がある。
AIについては、2022年11月のChatGPTのリリース以降、急激に社会に定着しつつある(この原稿も、生成系AIで参照先を探したりしながら書いている。ものすごく便利になったものだ)。
ビッグデータ、データサイエンスについては、様々な分野でデータの利活用が進められており、専門のデータサイエンティスト以外でもデータが扱えるようにするための一歩として、ニトリのように全社員の8割がITパスポート資格を目指すという会社もある。
■若者の相当数が「データサイエンス」を学ぶ時代
教育分野でも文科省が大学と高専の理系分野の拡充を促す事業を進めており、2017年ころから、滋賀大学、横浜市立大学、武蔵野大学、立正大学、一橋大学、名古屋市立大学などでデータサイエンス系の学部新設が相次いでいる。
また、データサイエンス学部のような専門課程だけではなく、一般の大学生を対象としたMDASHという数理・データサイエンス・AI教育プログラム認定制度もあり、日本の全大学約800校のうち600校近くが認定を受けている
MDASHの認定は2021年からなので、これから大学を卒業して社会に出てくる若者のうち、相当数はある程度のデータサイエンスの素養を持っていることになる。
■数学よりも「エクセルが使えること」が重要
とはいえ、いまさらデータサイエンス、とか言われても数学は苦手だから無理だよ、と思う人も多いだろう。しかし、イメージと違って実務で行われる基礎的なデータ分析では、数式は意外と使われないから、数学の得意不得意はあまり関係がない。
それよりもまずはエクセルがちゃんと使えるかどうかのほうがよほど重要だ。
エクセルをなんとなく使っている人も多いとは思うが、実はエクセルは奥が深く、平均や中央値、最小、最大、標準偏差などが計算できフィルターの結果も反映できるAGGREGATE関数や、データの突合によく使うXLOOKUP関数が使えたり、ピボット集計を日常的に使っている人はあまり多くないだろう。

■データ件数が数万件までならエクセルでできる
そして、実際のデータ分析は、以下のように進んでいく。不動産会社を想定した例とともに紹介しよう。
① 調べたいことを決める

例:不動産会社であれば、「地域の家賃の値上げ率を調べる」など
② そのためのデータを集める

例:「業務システムから地域別の家賃データを集める」「ポータルサイトに掲載されている募集情報をクローリングする」など
③ データを分析する

例:「地域別に1年前と今月で家賃が上がっている件数の比率を求める」など
④ 結果を解釈する

例:「やっぱり首都圏は上がっているけど、地方ではそうでもないなあ」「やっぱり○○支店長のエリアは上がっているなあ」など
⑤ 結果を報告・プレゼン用に綺麗にまとめる(この時、どれだけ綺麗な図表を作れるかは重要だ)。

これらの作業は、データ件数が数万位までなら、エクセルでもなんとかなる。
そして、この作業くらいでは計算はエクセルが処理してくれるから、数学の知識があまりなくてもなんとかなってしまう。
一部の人が、データサイエンスでは数学が重要だ、と強調することがあり、それは確かに間違いではないのだが、40年前と違って、データ分析のために自分で数式をプログラミングすることはほぼ無くなっているから、どのように計算されているのかを細かく理解しておく必要はあまりない。
■数式は「説明されればわかる」でOK
以下の数式を見てほしい(図表1)。

※編集部注:外部配信先では図表などの画像を全部閲覧できない場合があります。その際はPRESIDENT Online内でご確認ください。
この二つの数式を見て、あー(算術)平均と(母集団)標準偏差ね、とわかった人は少ないと思う。
最初の式は、算術平均を定義している式で、「n個のデータを全て足して、データ個数nで割った値」を表している。このくらいは説明されれば誰もわかると思う。


実は、式を見てもよく分からないが、文章で説明されればわかる、というのが大事なところだ。
数学でもそうだが、データサイエンスで使う統計学では、数式自体を覚えていることよりも、その意味を覚えていることが重要になる。
例えば、算術平均の「n個のデータを全て足して、データ個数nで割った値」というのは、計算方法を説明しているだけで、意味を説明しているわけではない。
算術平均の意味とは、「複数の数値があるとき、その偏差の平均がゼロになる値」すなわち「全体のズレ(偏差)がちょうど打ち消しあう中心の値」ということだ。
そして、平均値には、「はずれ値に弱い(極端に大きな数字や小さな数字によって平均は大きく変動する)」という特徴があり、「外れ値の影響を受けにくい中央値」というものもある、ということも覚えておく必要がある。
これが、意味を理解する、ということだ。
■標準偏差の意味
データ分析でよく使われる標準偏差についても、数式や計算方法を覚える必要はない。
標準偏差の計算方法を文章で説明すると、「まず平均値を計算し、各データの偏差(各データが平均値からどのくらい離れているか)を計算して、偏差の二乗の平均を計算し(これが分散だが、偏差二乗平均とでも言ってくれた方が分かりやすいと思う)、その正の平方根が標準偏差」だが、さすがにこれをすぐに理解できる人はあまり多くはない。
しかし、計算方法よりも大事なのは、以下のような標準偏差の意味だ。
・標準偏差とは、データが平均のまわりにどれくらい散らばっているかを表す指標
・標準偏差が小さいと平均の近くにデータが集まっていることを、標準偏差が大きいと平均から広くデータが散らばっていることを示す
・データが正規分布(説明は省略)の場合は、平均±1標準偏差の範囲にデータの約68%が含まれる
・ただし、標準偏差は平均を中心に平均よりも高い方と低い方の両方にデータが均等に散らばっている場合にのみ適用できる。均等に散らばっていない場合は、データの散らばりの指標として、標準偏差ではなく、四分位範囲(パーセンタイル)を使う

■「意味の理解」が重要
こうした意味が分かっていれば、受験の時に使われる偏差値が平均を50、標準偏差を10とした指標であり、偏差値60とは上位約16%の位置にいることを表す、ということが分かってくる。
そして、こうした意味を理解していることが、データ分析では重要になる。

言葉の意味を覚える、ということは文系でも同じようにある。
例えば、「間接民主制」を説明した「国民によって選ばれた代表者を通じて間接的にその意思の実現を図る民主制の形態。その具体的形態が議会政治。代表民主性」(コトバンク)という文章を覚えることは、標準偏差の言葉の意味を覚えることと大差はない。
■「データ分析は常識」になってもおかしくない
文部科学省の学校基本調査によれば、2025年3月卒業者の4年制大学進学率は59.5%だが、30年前の1995年は23.6%と半分以下だった。
今は、4年制大学を卒業しているのが、半ば当たり前になっているが、30年前は4年制大学を卒業しているのは少数派だった、ということだ。

※実は一般に言われている大学進学率には短大への進学者が含まれている。1995年時点では、女性の4年制大学進学者数は約15.6万人だったが、短大進学者は約20.3万人で、短大進学者を含めると、大学等進学率は37.3%になる。
データサイエンスの分野でも、パソコンが出始めたのが1995年くらいで、当時はパソコンが使える中高年は少なかったが、いまではパソコンを使えることは当たり前になっている。
だとすれば、あと10年もすれば基本的なデータ分析ができることが当たり前になってもおかしくない。
そして、学び方も大きく変わっている。生成系AIに聞けばなんでも分かりやすく答えてくれるし(試しに、生成系AIに「標準偏差を説明して」と入力してみてほしい。

かなり分かりやすく文章で説明してくれることが分かるだろう)、YouTubeで「偏差値の説明」と検索すれば、分かりやすい動画がいくらでもでてくる(正直、学校の授業よりも分かりやすいものが多い)。
ただ、どのような内容を学べばいいかは、ネットやYouTubeでは分かりにくいため、書籍を併用することも十分アリだ。
手前味噌で恐縮だが、筆者も執筆に参加した『文系のためのデータリテラシー』や、高橋信氏の『文系の私に超わかりやすく統計学を教えてください』といったものも参考にしてほしい。
また、ITパスポートの資格は、データサイエンスだけではないIT全般の知識を学ぶには良い資格だと思うし、少し統計学が分かってきたなと思えば、日本統計学会の統計検定といった資格に挑戦してみるのも良いと思う。
新しい年が始まって少し経ったが、今年は統計学に挑戦してみるのはいかがだろう。

----------

宗 健(そう・たけし)

麗澤大学工学部教授

博士(社会工学・筑波大学)・ITストラテジスト。1965年北九州市生まれ。九州工業大学機械工学科卒業後、リクルート入社。通信事業のエンジニア・マネジャ、ISIZE住宅情報・FoRent.jp編集長等を経て、リクルートフォレントインシュアを設立し代表取締役社長に就任。リクルート住まい研究所長、大東建託賃貸未来研究所長・AI-DXラボ所長を経て、23年4月より麗澤大学教授、AI・ビジネス研究センター長。専門分野は都市計画・組織マネジメント・システム開発。

----------

(麗澤大学工学部教授 宗 健)
編集部おすすめ