リレーエッセイ

ゼミ探訪「横内ゼミ紹介」

横内大介 准教授

少人数ゼミは本プログラムの特色であり、学生は、2年間必ずどこかのゼミに所属します。ゼミの規模は、通常では5-6人です。ゼミは毎週月曜日に行わ れ、学生の問題意識を深めるために文献を輪読したり自身の学位論文研究について報告した上で、ゼミ教員や他のメンバーと活発な議論を重ねながら、 最終的に学位論文を仕上げていきます。

2021年11月05日

 最近の横内ゼミの学生の研究テーマは主に「データサイエンス」の実践になります.のちに話す「データエンジニアリング」の考えで研究を行う学生ももちろんいますが,今はあまり多くありません.

データサイエンスは別名「データに語らせる科学」

データサイエンスは別名「データに語らせる科学」とも言われます.これはデータサイエンスの目的が「データはある現象を観察した記録の集まりであり,その現象がどのようなメカニズムで発生しているのかをデータから探り出すこと」だからです.昨今ではデータサイエンスを「数学,統計学をバックグラウンドとしたAI やデータ分析に関するプログラミング技術の総称」だと思っている方もいらっしゃるようですが,それは厳密に言えば「データを語らせるための道具」です.また,ディープラーニングに代表される機械学習によるデータ分析やAI開発自体をデータサイエンスとみなしている方もいますが,これは正しくはデータエンジニアリングです.yokouchi1.jpg一般に,エンジニアリングは実用に供するためのシステムを研究開発する学問ですが,機械学習によるAI開発の目的は,メカニズムの解明ではなく正答率の向上に主眼があり,これはまさにエンジニアリングの姿勢そのものです.

 現象の解明や説明可能性という側面から考えると,データエンジニアリングで行われるデータ分析やAI開発はブラックボックスということになります.一方,データサイエンスでは,「探索的データ解析」というアプローチを用いてデータ分析者が丹念にデータの変量(変数)間の関係を可視化します.そして,可視化を通じて得られた結果を勘案して,統計モデルやアルゴリズムとして再整理し,現象の発生メカニズムをモデルの係数の妥当性やモデル自体の説明力の指標を通じて明らかにします.なお,このようにして得られた統計モデルやアルゴリズムは当然AIの頭脳としても転用できますので,このような転用を行ったAIを説明可能なAI(XAI, eXplainable AI)と呼ぶことがあります(日本ではホワイトボックスAIと呼ぶこともあります).

 最近の横内ゼミでは,データサイエンスの考えを重視して研究したいという学生が集まる傾向があるように思います.金融機関に務める学生は,顧客に対して説明責任を果たせる資産運用,投資戦略を,ビッグデータ分析を通じて発見することに興味があることが多いです.また,IT企業や事業会社に勤める学生は,とりあげるデータの種類はバラバラですが,端的に言えば,金融機関に採用されるAIやシステムを開発したい,上司や投資家に説明できる形で社内のビッグデータを分析して事業化したいという要望が多くみられます.いずれにしても,実務への応用を意識した研究したいという点,そして説明責任を重視したデータ分析を実現したいという点ではすべて共通していると思います.

OBOGで最新のデータサイエンス関連トピックの勉強会も

yokouchizemi2.jpg

横内ゼミの学生の重要な特徴としては,入学年度にかかわらず学生同士のつながりが強い点も見逃せません.コロナ禍になるまでは,卒業生を中心として最新のデータサイエンス関連のトピックに関する勉強会が毎月のように開かれていました.また,現役,OBを交えたゼミの食事会なども年に数回開かれており,学年問わず卒業生同士で研究やビジネスの話をしていました.新型コロナの流行が落ち着けばこれらの会は復活すると伺っています(なお,教員はこれらの会に寄付要員として参加することがあります).

データサイエンティストのための統合的な統計ソフトウェア環境の開発

 私の研究活動についても簡単に紹介します.chart4.pngのサムネイル画像自身の研究の興味は「データサイエンス実践のためのインフラストラクチャの開発」です.言い換えれば,データサイエンティストのための統合的な統計ソフトウェア環境だとおもっていただいても構いません.ソフトウェア開発というと一般にはIT関連の研究になりがちですが,私自身はそもそも本格的なデータ分析やAI開発ができない人間が統計やデータサイエンスのソフトウェアをいくら設計しても,決してデータ解析者が満足するソフトウェアは開発できないと考えています.そのため,私自身は分野を問わずいろいろな種類のデータに実際に触れて,そのデータ分析やAI開発を実践(ただしくは修行)することで,いつもインフラストラクチャ開発の設計を検討しています(なお,一部のアイデアはすでにクラウド上の統計ソフトウェア https://ds-engine.jp/ として公開しています).

オルタナティブデータとデータサイエンスの研究会を立ち上げる

 データ修行の一環として扱ってきたデータの種類は数多くありますが,最近では,中古車売買データ,不動産売買データ,POSデータ,特許データ,ECデータなど,いわゆる非財務のデータ(金融業界ではオルタナティブデータと呼ばれます)を持つ企業からの依頼で,AIや指標開発の共同研究や技術指導を行うことが多くなりました.また,このような多様な分野のデータに触れる環境を一般にも開放すべく,オルタナティブデータとデータサイエンスの研究会(https://adsra.jp/)も立ち上げています.

 徒然なるままにゼミ紹介をさせていただきましたが,もし皆さんのお手元に従来の方法では簡単に解決しないデータに関する問題があるようでしたら,HUB-FSに入ればご自身の手で解決することができるかもしれません.

過去のリレーエッセエイはこちら