吉野貴晶のクオンツトピックス
No.8
AIによるテキスト情報の解析(テキストデータの特徴を掴む)
2018年12月20日号
投資工学開発室
吉野 貴晶
金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。
投資工学開発室
髙野 幸太
ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。
AIによる大量テキストデータの自動分類とネットワーク構造の可視化
- 連載形式でAI(人工知能)と投資手法の関係性を紹介。
- AIを活用してテキストデータをグループ化、さらに可視化に挑戦。
最近、AI(人工知能、以下AI )に関連するニュースが増えています。投資の分野でも研究開発が盛んに行われており、実際に投資手法として利用可能な段階まで進展しています。本レポートでは、AIと投資手法の関係性をご紹介したいと思います。
今回のテーマは経済テキストの特徴を掴むための様々な手法になります。
1. 大量のテキストデータから特徴を掴む
AI技術の発展により、様々な場面でテキスト情報を活用しようとする試みが増えています。テキストデータの例では、アンケート結果やwebニュース記事、web掲示板情報、twitter等のSNSなどが考えられますが、これらのテキスト情報を活用しようとする場合、まずデータの特徴を掴む必要があります。このテキストデータはどこから取得され、何について記述されているか。加えて、どのようなグループ分け、ラベル付けが出来るかが重要な特徴になります。このようなデータの特徴は、従来は人がデータ全体を俯瞰した上で考えていました。しかし、昨今では扱うデータ量も膨大になったため、人手では全てを俯瞰するのは困難です。
このような状況の中、AIを利用して、自動でテキストデータの特徴を把握できないか?というニーズが提起されます。今回はこのニーズを意識した上で、AIによるテキストの分類を実施します。また、実際に分類されたデータの特徴を人間が掴むための可視化にも挑戦します。
単語と文書のベクトル化
2. ベクトル化とは?
昨今のAI領域においては、ベクトル化という技術が頻繁に使われています。簡単に言うと、単語や文章を数字情報に置き換える処理になります。そもそも機械であるAIは日本語の文字をそのまま扱うのは難しいので、扱いやすいようにベクトル(数字情報)に変換する必要があります。
2_1. Word2Vec、Doc2Vec
単語や文書をベクトル化をする手法として、Word2VecとDoc2Vecがあります。これは、機械学習を利用して、単語や文書をn次元の数字情報に変換する手法です。このn次元の数値情報に変換する際に、AIが単語または文書の特徴が表せるように数字を決定します。
2_2. 類似単語の確認
今回は文書のベクトル化としてDoc2Vecを利用します。この過程で単語のベクトル表現もWord2Vecと同様に取得されています。今回のベクトル化において、単語の特徴が上手く表現されているか確認したいと思います。具体的には、単語を指定した際に、ベクトルが類似※している単語を上位いくつか表示し、人間の感覚とずれていないかを確認します。実際の結果が図3です。感じ方は人によるところがありますが、概ね対象の単語に関連している単語が上位に位置しているかと思います。あえて経済寄りの単語を対象に選びましたが、政治と為替は似た単語が上位に来ています。
- コサイン類似度による類似度確認をしています。この説明は後述になります。
図3. 単語のベクトル表現から分かる類似単語
対象:政治
類似度順位 | 該当単語 |
---|---|
1 | 北朝鮮 |
2 | 離脱 |
3 | EU |
4 | 英国 |
5 | 大統領 |
対象:求人
類似度順位 | 該当単語 |
---|---|
1 | 労働 |
2 | 正規 |
3 | 転職 |
4 | 正社員 |
5 | 就業 |
対象:経済
類似度順位 | 該当単語 |
---|---|
1 | 政治 |
2 | 政策 |
3 | 米国 |
4 | 情勢 |
5 | 世界 |
対象:為替
類似度順位 | 該当単語 |
---|---|
1 | 円高 |
2 | 米国 |
3 | 大統領 |
4 | 乱効果 |
5 | 離脱 |
対象:石油
類似度順位 | 該当単語 |
---|---|
1 | 軽油 |
2 | 鋼材 |
3 | 原料 |
4 | 原材料 |
5 | 値下がり |
文書ベクトルのクラスタリング
3. クラスタリングとは?
Doc2Vecを適用し、景気ウォッチャー調査を1回答ずつ100次元の文書ベクトルに変換します。総回答数が数万もの大量データになります。この文書ベクトルが、上手く文書の特徴を捉えていると仮定し、文書を特徴毎にグループ分けしたいと思います。
3_1. k-means法によるクラスタリング
グループ分けについて、今回はk-means法によるクラスタリングを利用します。クラスタリングとは、任意の数のグループ(クラスター)に分類することであり、その分類手法がk-means法になります。K-means法とは、AI(教師無し機械学習)の一種として考えられます。
3_2. 全ての文書ベクトルを30個のクラスターに分類
今回はクラスター数30で分析を行いましたが、その結果が図5です。AIが文書ベクトルから判断した基準により、各文書が各クラスターに特徴毎に分類されたことになります。結果を見ると、各クラスターにおいて含まれる文書(回答)の数に偏りが見られます。1クラスター当たり、含まれる文書数は大体2000前後が多いですが、クラスター17番は10000以上の文書を含み、やや突出しています。
平均ベクトルとコサイン類似度
4. 各クラスター内でのベクトル分布を確認する
クラスター内の文書がどの程度確からしく分類されているか確認したいと思います。
4_1. 平均ベクトル
各クラスターは先述のようにk-means法で分類されています。この分類の過程で重心(平均)ベクトルが使われることから、各クラスターの特徴を表すベクトルは、各クラスター内文書ベクトルの平均ベクトルといえます。各クラスター内の文書ベクトルとこの平均ベクトルとの類似度を考えます。
4_2. コサイン類似度
ベクトル間の類似度を測る方法は複数考えられますが、今回はコサイン類似度を利用します。コサイン類似度とは、二つのベクトルの為す角度のコサイン値であり、結果の数値は-1から+1までの範囲となります。「数字が大きいほど類似している」、と解釈されます。ここで、K-means法では類似度に重心(平均)ベクトルからのユークリッド距離を活用しており、コサイン類似度と尺度が違うことに違和感を覚える方もいるかもしれません。しかし、今回はクラスタリングする前に各文書ベクトルを単位ベクトル化しており、ユークリッド距離とコサイン類似度の順序関係は同じになります。
4_3. クラスター内のコサイン類似度分布
あるクラスター内における、平均ベクトルと文書ベクトルとのコサイン類似度を実際に計算し、分布を図示したのが図7になります。分布が+1側に偏っており、概ね平均ベクトルの特徴に沿ってクラスタリングが行われていることが分かります。一方、コサイン類似度が小さい(1から離れている)文書ベクトルもある程度存在します。これは、今回計算された30個のクラスターでは分類が難しく、半ば無理やりに分類された文書と推測されます。
吉野貴晶のクオンツトピックス
関連記事
- 2022年03月15日号
- 仮想レバレッジNASDAQを用いたFIREシミュレーション part1
- 2022年02月15日号
- “マジックフォーミュラ”を使った銘柄選別効果
- 2022年01月13日号
- 外国人投資家の売買動向の季節性
- 2021年12月22日号
- PBRとROEの関係から株価水準を考える
- 2021年12月15日号
- 非ユークリッド距離空間の見える化
「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点
当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。
【当資料に関する留意点】
- 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
- 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
- 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
- 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
- 投資する有価証券の価格の変動等により損失を生じるおそれがあります。