データの前処理

本記事ではChatGPT上でのデータの前処理について解説します。

前処理は、データ分析の鍵を握る重要なステップです。今回は、ChatGPTを用いてデータの前処理をどのように行うかを解説します。まずは、例として使用するデータをアップロードしましょう。

1. データのアップロード

前処理を実行するためのサンプルデータをアップロードします。実データが手元にある場合は、この作業は不要です。今回はデータ前処理の具体例として、「図書館の支出データ」を準備しました。下記リンクからダウンロードしてください。

（図書館の支出データ.csvのダウンロードリンク）

データセットの前提条件として、以下のデータの情報・状態を以下の通りとします。

区分: 都道府県
総額: 図書館に関する費用の総額
欠損値：あり

図1 サンプルデータ

2. ChatGPT上での前処理の実行例

このデータの総額には欠損値が含まれています。データの前処理の一つとして欠損値への対応があります。
まずは欠損値の個数をカウントしましょう。

図2 欠損値の個数のカウント

このデータには「総額」の列に欠損値が３つ含まれていることがわかりました。

分析の目的によって、この欠損値の処理には様々な方法が考えられますが、今回は平均値で欠損値を埋める「平均値補完」を実行しましょう。

図3 欠損値を平均値で補完

これで欠損値を平均値で補完できました。

前処理はデータの状態を確認しながら、分析の目的に沿った手法を取る必要があります。どのような状況でどのような前処理を選ぶかについては、下記書籍などを参考にしてください。

【参考記事】

改訂新版前処理大全〜SQL/pandas/Polars実践テクニック

次のページへ

この記事の著者

データサイエンティスト

市川太祐

医師・医学博士。名古屋市立大学客員准教授。データサイエンティスト。データを用いた意思決定に長年取り組む。予防医療から電子カルテデータ、ライフログデータまで幅広い分析経験を持つ。「R言語徹底解説」（共立出版）、「データ分析プロジェクトの手引き」（共立出版）等、データ分析関連の著書・訳書多数。

｢ChatGPT導入・活用支援｣はNOB DATAにご相談ください

ChatGPTの導入・活用に課題を感じていませんか？
NOB DATAでは、ChatGPT開発およびデータ分析・AI開発のプロフェッショナルが、多種多様な業界・課題解決に取り組んだ実績を踏まえ、ChatGPTの導入・活用を支援しています。社員向けのChatGPT研修も実施しており、お気軽にお問い合わせください。

ChatGPT導入・活用支援の詳細を見る

生成AI活用ガイド一覧へ戻る

ChatGPTを使ったデータ分析の基本