ChatGPTから3年:LLMの進化を振り返る【2022-2025 年表】
2022年11月30日、OpenAIがChatGPTを公開。それから3年。ググる回数が減った代わりに、AIに伝える「最適な言い回し」を延々と推敲する時間が増えました。これが進化か退化かはさておき、生産性は上がりました(たぶん)。
本記事は、ChatGPT公開を「LLM元年(仮)」と定義し、2025年12月時点での主要LLMとAI開発ツールの進化を振り返ります。
なぜ今、振り返るのか
転換点は2025年5月。AnthropicがClaude Codeを公開したことでした。X(旧Twitter)での異様といえる盛り上がりに釣られて触ってみたところ、開発スタイルが一変したのです。
それまでのLLMは、あくまで「面倒な作業の一部を肩代わりさせる便利ツール」という認識でした。筆者も2023年からChatGPT Plusを愛用していましたが、基本は「ブラウザにコードを貼り付け → 回答をIDEにコピペ → テスト → エラーならまた最初から」という手動ループ。当時はそれでも十分効率化できていると感じていました。
しかし、Claude CodeのようなCLIツールと、それを支えるモデル(当時だと Claude 4 Opusなど)の圧倒的な推論能力は、その工程を過去のものにしました。 ターミナルからプロジェクト全体を読み取り、ファイルを直接編集し、エラー修正まで自律的に試みる。かつてのモデルなら破綻していたような複雑な指示も、的確に意図を汲み取って実行してくれる。 気づけば、コードを書く時間よりも「どう伝えれば意図通りに動くか」というディレクションに費やす時間の方が長くなっていました。
開発体験が根本から書き換わっていく渦中にいる今だからこそ、一度立ち止まって整理したい。本記事は2025年12月25日時点での定点観測としての記録です。
2022年11月 - ChatGPT登場
ChatGPT公開 - LLM時代の幕開け
2022年11月30日、OpenAIがGPT-3.5ベースのChatGPTを無料公開。[※]
それまでのAIアシスタントとは一線を画す自然な対話能力で、世界中に衝撃を与えた。公開からわずか2ヶ月で1億ユーザー突破。TikTokが同マイルストーンに9ヶ月、Instagramは2年半かかったことを考えると、爆発的な普及速度。[※]
この時点での技術水準
- コンテキスト長: 約4,096トークン
- マルチモーダル: テキストのみ
- 推論能力: 基本的な質問応答、コード生成
2023年 - 競争激化の1年
2023年は、ChatGPTの成功を受け各社がLLM市場に一斉参入した年。
主要イベント年表
| 日付 | イベント | 詳細 |
|---|---|---|
| 2月1日 | ChatGPT Plus発表 | 月額$20のプレミアムプラン |
| 2月6日 | Google Bard発表 | Geminiの前身 |
| 2月7日 | Bing Chat発表 | Microsoft参入、後のCopilotに |
| 3月14日 | GPT-4公開 | マルチモーダル対応、大幅な性能向上 |
| 4月 | Anthropic Claude登場 | GPT-4の対抗馬として注目 |
| 7月18日 | Llama 2公開 | Perplexity AI等で採用。ローカル実行も可能 |
| 9月 | Mistral 7B | Cursorで選択可能。小型ながら高性能 |
| 11月6日 | GPT-4 Turbo / DevDay | 128Kコンテキスト、GPTs発表 |
| 12月 | Mixtral 8x7B | 複数モデルを組み合わせるMoE方式 |
| 12月6日 | Gemini 1.0発表 | Google DeepMindの次世代モデル |
GPT-4の衝撃
2023年3月14日公開のGPT-4は、ChatGPT(GPT-3.5)から大幅な性能向上を実現。[※]
- 画像入力対応(マルチモーダル)
- 司法試験で上位10%相当のスコア
- コーディング能力の飛躍的向上
Anthropic Claude - OpenAI出身者の挑戦
2023年4月、AnthropicがClaude(クロード)を一般公開。AnthropicはOpenAI元VPのDario Amodeiらが2021年に設立した企業で、「AIの安全性」重視のアプローチで注目を集めた。[※]
GPT-4公開の翌月という絶妙なタイミングで登場。長文処理能力の高さから「GPT-4の対抗馬」として認知された。
Llama 2 - オープンソースの転換点
2023年7月、MetaがLlama 2をオープンソースで公開。商用利用も可能で、Perplexity AIやGroqなど多くのサービスで採用された。Ollamaを使えばローカルPCでも動作可能で、「自分でLLMを動かす」選択肢が広まった。[※]
Mistral AI - 欧州からの挑戦者
フランス発のMistral AIは、小型ながら高性能なモデルで注目を集めた。CursorなどのAI IDEでも選択肢として提供されており、開発者には馴染みのある名前。[※]
2024年 - 性能競争から実用へ
2024年は各社のモデルが急速に性能向上し、実用ツールとして定着した年。
主要イベント年表
| 日付 | イベント | 詳細 |
|---|---|---|
| 1月10日 | GPT Store公開 | カスタムGPTのマーケットプレイス |
| 2月 | Mistral Large | GPT-3.5〜GPT-4レベルの性能 |
| 2月 | Copilot Enterprise | 月額$39/ユーザー |
| 2月21日 | Gemma公開 | Google AI StudioやOllamaで利用可能 |
| 3月4日 | Claude 3ファミリー | Haiku/Sonnet/Opus、GPT-4超えを主張 |
| 4月18日 | Llama 3公開 | 8B/70Bパラメータ |
| 5月13日 | GPT-4o公開 | マルチモーダル統合、高速化 |
| 6月20日 | Claude 3.5 Sonnet | Claude 3 Opusを上回る性能 |
| 7月 | Mistral Large 2 | 123Bパラメータ、128Kコンテキスト |
| 7月18日 | GPT-4o mini | GPT-3.5 Turboの後継 |
| 7月23日 | Llama 3.1 | 8B/70B/405Bパラメータ |
| 9月 | o1発表 | 推論特化モデル |
| 10月 | Llama 3.2 | マルチモーダル対応 |
| 10月 | Claude 3.5 Sonnet更新 | コーディング性能大幅向上 |
| 10月 | Claude 3.5 Haiku | Claude 3 Opus相当の高速モデル |
| 12月 | ChatGPT Pro | 月額$200、o1無制限アクセス |
| 12月11日 | Gemini 2.0 Flash | 速度と性能の両立 |
| 12月 | Llama 3.3 | 70Bで405B相当の性能 |
Claude 3ファミリー - GPT-4の牙城を崩す
2024年3月4日、AnthropicがClaude 3ファミリーを発表。最上位のOpusは複数のベンチマークでGPT-4を上回り、大きな注目を集めた。[※]
さらに6月20日公開のClaude 3.5 Sonnetは、自社最上位のClaude 3 Opusを上回る性能を低コストで実現。[※]
o1 - 推論の新時代
2024年9月、OpenAIが推論特化モデル「o1」を発表。「考える」時間を使って複雑な問題を解決するアプローチで、LLMの新たな方向性を示した。[※]
2025年 - 開発者体験の革命
2025年は、LLMが単なるチャットツールから開発者の実質的なパートナーへと進化した年。各社から次々とメジャーアップデートがリリースされた。
主要イベント年表
| 日付 | イベント | 詳細 |
|---|---|---|
| 1月30日 | Gemini 2.0 Flash正式版 | デフォルトモデルに |
| 3月25日 | Gemini 2.5 Pro Experimental | 推論・コーディング強化 |
| 4月5日 | Llama 4公開 | Scout/Maverick、マルチモーダル |
| 5月1日 | Claude Max | 月額$100/$200プラン |
| 5月 | Claude Code公開 | AIエージェント型CLI |
| 5月22日 | Claude Sonnet 4 / Opus 4 | Claude 4ファミリー発表 |
| 6月17日 | Gemini 2.5 Pro/Flash GA | 一般提供開始、Flash-Lite追加 |
| 6月25日 | Gemini CLI | オープンソースターミナルツール |
| 7月15日 | Kiro発表 | AWS製AI IDE |
| 8月 | GPT-5公開 | ChatGPT Plus標準モデルに |
| 8月5日 | Claude Opus 4.1 | エージェント・コーディング強化 |
| 9月29日 | Claude Sonnet 4.5 | SWE-bench 77.2% |
| 10月 | Claude Haiku 4.5 | Sonnet 4相当の高速モデル |
| 10月 | Claude Code for Web | 非同期コーディングエージェント |
| 11月12日 | GPT-5.1 | 動的思考時間、SWE-bench 76.3% |
| 11月18日 | Antigravity発表 | Google製AI IDE |
| 11月18日 | Gemini 3 Pro | LMArena 1位、推論特化 |
| 11月19日 | GPT-5.1-Codex-Max | 24時間超タスク対応 |
| 11月24日 | Claude Opus 4.5 | SWE-bench 80.9%、シンキング標準搭載 |
| 12月11日 | GPT-5.2 | Instant/Thinking/Pro、GDPval SOTA |
| 12月17日 | Gemini 3 Flash | 2.5 Pro超えの性能を低価格で |
Claude 4シリーズの進化
2025年、Anthropicは急速なイテレーションでClaudeを進化させた。
| モデル | リリース日 | SWE-bench | 特徴 |
|---|---|---|---|
| Opus 4 | 5月22日 | - | Claude 4ファミリー初代 |
| Sonnet 4 | 5月22日 | - | バランス型 |
| Opus 4.1 | 8月5日 | 74.5% | エージェント・推論強化 |
| Sonnet 4.5 | 9月29日 | 77.2% | コスパ最強 |
| Haiku 4.5 | 10月 | - | Sonnet 4相当の高速版 |
| Opus 4.5 | 11月24日 | 80.9% | シンキングモード標準、コーディング世界最高水準 |
GPT-5シリーズの展開
OpenAIは8月のGPT-5公開後、11月〜12月にかけて急速にアップデートを重ねた。
| モデル | リリース日 | 特徴 |
|---|---|---|
| GPT-5 | 8月 | AIME 94.6%、ハルシネーション45%減 |
| GPT-5.1 | 11月12日 | 動的思考時間、SWE-bench 76.3% |
| GPT-5.1-Codex-Max | 11月19日 | 24時間超のエージェントタスク対応 |
| GPT-5.2 | 12月11日 | Instant/Thinking/Pro、GDPvalでエキスパート超え |
| GPT-5.2-Codex | 12月11日 | SWE-Bench Pro・Terminal-Bench 2.0でSOTA |
GPT-5.2では、44職種の知識労働タスクを評価するGDPvalベンチマークで、業界トップ専門家と比較して70.9%で同等以上のパフォーマンスを記録。[※]
Gemini 3シリーズ
Googleは3月のGemini 2.5から11月のGemini 3へと、1年で2世代の進化を遂げた。
| モデル | リリース日 | 特徴 |
|---|---|---|
| 2.5 Pro Experimental | 3月25日 | 推論・コーディング強化 |
| 2.5 Pro/Flash GA | 6月17日 | 一般提供、Flash-Lite追加 |
| 3 Pro | 11月18日 | LMArena 1501 Elo(1位)、GPQA 91.9% |
| 3 Deep Think | 11月18日 | 複雑タスク向け深層推論 |
| 3 Flash | 12月17日 | 2.5 Pro超えを低価格で実現 |
Gemini 3 Proは20のベンチマーク中19でトップ、Humanity’s Last Examでは41%を記録しGPT-5 Proの31.64%を上回る。[※]
Claude Code - 開発スタイルの転換点
2025年5月、AnthropicがClaude Codeを公開。ターミナルから直接コーディングタスクを委任できるエージェント型ツールで、開発者の働き方を根本から変えた。[※]
8月時点で、Claude 4発表以降Claude Codeの収益は5.5倍に増加したとAnthropicが報告。[※]
Kiro - AWSの参入
2025年7月15日、AWSはKiroを発表。VS Codeベースでありながら、「スペック駆動開発」という新しいアプローチを提唱した。自然言語で要件を記述すると、ユーザーストーリー、技術設計書、タスクリストが自動生成される。[※]
Amazonは社内開発者をKiroに標準化し、ある30人・18ヶ月規模のプロジェクトが6人・76日で完了したと発表。[※]
Antigravity - Googleの回答
2025年11月18日、Google DeepMindはGemini 3と同時にAntigravityを発表。Windsurf開発チームを雇用し、$24億でライセンスを取得して開発された。[※]
「エージェントファースト」を掲げ、複数のエージェントが並列で非同期にタスクを実行できる「マネージャービュー」が特徴となっている。[※]
MCP(Model Context Protocol)
2024年11月、AnthropicはLLMと外部ツール・データソースを接続するオープンプロトコル「MCP」を発表。[※]
MCPは「AIアプリケーションのためのUSB-Cポート」と例えられ、さまざまなデータソースやツールにAIモデルを接続する標準化された方法を提供。2025年3月にはOpenAIも公式採用し、同年12月にはLinux Foundation傘下のAgentic AI Foundationに寄贈された。[※]
現在、GitHub、Slack、PostgreSQL、Puppeteer、ファイルシステムなど多数のMCPサーバーが公開されており、Claude CodeやCursorなどの開発ツールから利用可能。[※]
ベンチマークで見る進化
主要ベンチマークにおける各モデルの性能を比較。
ベンチマーク解説
| ベンチマーク | 評価対象 | 具体例 |
|---|---|---|
| MMLU | 一般知識・推論(57分野) | 法律問題、医学診断、歴史、数学など |
| HumanEval | コード生成(Python) | 「素数判定関数を実装せよ」などの関数実装 |
| SWE-bench Verified | 実バグ修正(Python) | GitHubの実際のissue/PRを解決できるか |
| SWE-bench Pro | 実バグ修正(多言語) | 4言語対応、より実務的で汚染耐性あり |
| GPQA Diamond | 博士レベル科学問題 | 量子力学、有機化学、分子生物学の専門問題 |
| AIME | 数学オリンピック予選 | 米国数学オリンピック予選(15問中の正答数) |
| ARC-AGI-2 | 新規問題解決能力 | 未知のパターン認識・抽象推論 |
| GDPval | 知識労働タスク | 44職種のプロフェッショナルタスク |
スコアの歴史的推移
2022年から2025年にかけて、LLMの性能は急速に向上した。
| 年 | 代表モデル | MMLU | HumanEval | SWE-bench |
|---|---|---|---|---|
| 2022 | GPT-3.5 | 70% | 48% | - |
| 2023 | GPT-4 | 86% | 67% | 12% |
| 2024 | Claude 3.5 Sonnet | 88% | 92% | 49% |
| 2025 | Claude Opus 4.5 / GPT-5.2 | 90%+ | 95%+ | 81% |
特にSWE-benchは2023年の12%から2025年には81%へと劇的に向上しており、実務レベルのコーディング能力が急速に進化していることがわかる。
2025年12月時点の最新モデル比較
| モデル | SWE-bench Verified | GPQA Diamond | AIME 2025 | 備考 |
|---|---|---|---|---|
| Claude Opus 4.5 | 80.9% | - | - | コーディング最高水準 |
| GPT-5.2 Thinking | 80.0% | - | - | OpenAI最新 |
| Claude Sonnet 4.5 | 77.2% | - | - | コスパ優秀 |
| Gemini 3 Pro | 76.2% | 91.9% | 100%(ツール使用時) | 推論トップ |
| GPT-5.1 | 76.3% | - | - | 動的思考時間 |
| GPT-5 | 74.9% | 88.4% | 94.6% | 数学で高水準 |
| Claude Opus 4.1 | 74.5% | - | - | エージェント強化 |
出典: Anthropic公式、OpenAI公式、Google DeepMind公式
各モデルの特徴
Claude Opus 4.5(2025年11月24日発表)
Anthropicが「コーディング、エージェント、コンピュータ操作において世界最高のモデル」と位置づけている。[※]
- SWE-bench Verified: 80.9%(Sonnet 4.5の77.2%、Opus 4.1の74.5%を上回る)
- ARC-AGI-2(新規問題解決能力): 37.6%(Sonnet 4.5の13.6%の約3倍)
- プロンプトインジェクション攻撃成功率: 4.7%(Gemini 3 Pro 12.5%、GPT-5.1 21.9%より堅牢)
- Artificial Analysis Intelligence Index: 70(GPT-5.1と同点、Gemini 3 Pro 73に次ぐ2位)
GPT-5(2025年8月発表)
OpenAIの第5世代フラグシップモデル。数学と推論で特に高いスコアを記録。[※]
- AIME 2025(数学): 94.6%(ツールなし)
- GPQA(博士レベル科学問題): 88.4%(Pro、ツールなし)
- MMMU(マルチモーダル理解): 84.2%
- ハルシネーション: GPT-4oより約45%減少(検索有効時)
GPT-5.1(2025年11月12日発表)
動的思考時間を導入し、タスクの複雑さに応じて思考時間を自動調整。[※]
- SWE-bench Verified: 76.3%
- 簡単なタスクでは高速・トークン効率的に動作
- GPT-5.1-Codex-Max: 24時間超のエージェントタスク対応
GPT-5.2(2025年12月11日発表)
OpenAIの最新フラグシップモデル。Instant/Thinking/Proの3バリエーションで提供されている。[※]
- SWE-bench Verified: 80.0%(Thinking)
- GDPval: 業界トップ専門家と比較して70.9%で同等以上(SOTA)
- Instant: 高速な執筆・情報検索向け
- Thinking: コーディング・計画などの構造化タスク向け
- Pro: 最高精度の回答
GPT-5.2-Codex(2025年12月発表)
GPT-5.2をエージェントコーディング向けに最適化したモデル。[※]
- SWE-Bench Pro: 56.4%(GPT-5.2の55.6%、GPT-5.1の50.8%を上回る)
- Terminal-Bench 2.0: 64.0%(GPT-5.2の62.2%を上回る)
- 大規模リファクタ・マイグレーション、Windows環境での改善
Gemini 3 Pro(2025年11月18日発表)
Google DeepMindの最新推論モデル。LMArena Leaderboardで1501 Eloを記録しトップとなっている。[※]
- GPQA Diamond: 91.9%
- AIME 2025: 100%(コード実行時)、95.0%(ツールなし)
- Humanity’s Last Exam: 41%(GPT-5 Proの31.64%を上回る)
- SimpleQA Verified(事実精度): 72.1%(SOTA)
- 20ベンチマーク中19でトップを記録
オープンソース vs クローズドモデル
オープンソースモデルも急速に進化しており、一部の指標ではクローズドモデルに迫る性能を発揮している。
| モデル | 種別 | SWE-bench | MMLU | 特徴 |
|---|---|---|---|---|
| Claude Opus 4.5 | クローズド | 80.9% | - | コーディング最高水準 |
| GPT-5.2 Thinking | クローズド | 80.0% | - | 知識労働でSOTA |
| Gemini 3 Pro | クローズド | 76.2% | - | 推論・事実精度トップ |
| Llama 4 Maverick | オープン | 52.5% | 90.8% | Meta製、商用利用可 |
| Qwen 3 235B | オープン | - | 86% | Alibaba製、多言語対応 |
| DeepSeek R1 | オープン | 49.2% | 90.8% | 中国発、推論特化 |
オープンソースモデルはローカル実行やカスタマイズが可能なため、プライバシー要件が厳しい用途や、ファインチューニングが必要なケースで選択されている。
注意点
- ベンチマークスコアは各社発表値です。第三者評価と異なる場合があります
- MMLUやHumanEvalなどの従来ベンチマークは飽和しており、最新モデルの評価には新しいベンチマーク(SWE-bench、GPQA、ARC-AGI-2、GDPval等)が使用される傾向があります
- 実際の業務での有用性とベンチマークスコアは必ずしも一致しません
料金体系の比較
消費者向けサブスクリプション
| サービス | 無料 | Pro | 最上位 |
|---|---|---|---|
| ChatGPT | GPT-4o mini制限付き | $20/月(Plus) | $200/月(Pro) |
| Claude | 制限付き | $20/月(Pro) | $100-200/月(Max) |
| Gemini | 無料版あり | $20/月(Advanced) | - |
ChatGPT料金プラン
- Free: GPT-4o mini、制限付きGPT-4oアクセス
- Plus($20/月): GPT-4o 80メッセージ/3時間、o1アクセス
- Pro($200/月): o1無制限、最大計算リソース
- Team($25-30/ユーザー/月): 高い制限、データプライバシー
Claude料金プラン
- Free: 制限付きアクセス
- Pro($20/月): 5倍以上のメッセージ容量、Opusへの優先アクセス
- Max($100/月): Proの5倍の使用量、Claude Codeを含む
- Max($200/月): Proの20倍の使用量、最優先アクセス
API料金(100万トークンあたり)
| モデル | 入力 | 出力 | 備考 |
|---|---|---|---|
| Claude Opus 4.5 | $5.00 | $25.00 | 最高性能、Opus 4.1の1/3の価格 |
| Claude Sonnet 4.5 | $3.00 | $15.00 | コスパ良好 |
| Claude Haiku 3.5 | $1.00 | $5.00 | 高速・低コスト |
| GPT-4o | $5.00 | $15.00 | 標準的 |
| Gemini 2.5 Pro | $1.25 | $10.00 | 中価格帯 |
| Grok 4.1 | $0.20 | $0.50 | 最安値帯 |
開発ツール料金
| ツール | 無料 | Pro | 備考 |
|---|---|---|---|
| GitHub Copilot | - | $10/月(Individual) | Enterprise $39/月 |
| Cursor | 制限あり | $20/月 | Ultra $200/月 |
| Kiro | プレビュー無料 | TBD | AWS製 |
| Antigravity | プレビュー無料 | TBD | Google製 |
開発ツール・デザインツールのAI連携
AI統合IDE・コーディングツール
| ツール | 提供元 | 種別 | 特徴 | 価格 |
|---|---|---|---|---|
| Cursor | Cursor Inc. | IDE | エディタネイティブAI、Composerモード | $20-200/月 |
| Windsurf | Codeium | IDE | Cascadeエージェント、無料枠充実 | 無料〜$15/月 |
| GitHub Copilot | Microsoft | 拡張 | 最も普及、マルチモデル対応 | $10-39/月 |
| Kiro | AWS | IDE | スペック駆動開発、VS Codeベース | プレビュー無料 |
| Antigravity | IDE | エージェントファースト、並列実行 | プレビュー無料 | |
| Claude Code | Anthropic | CLI | ターミナル特化、API従量課金 | API課金 |
| Aider | OSS | CLI | オープンソース、Git統合 | 無料(API課金) |
| Cline | OSS | 拡張 | VS Code拡張、旧Claude Dev | 無料(API課金) |
| Cody | Sourcegraph | 拡張 | コードベース理解、検索連携 | 無料〜$19/月 |
GitHub Copilot
2021年6月のテクニカルプレビューから始まり、2022年6月に商用版がリリース。2024年にはマルチモデル対応となり、Claude 3.5 Sonnet、Gemini 1.5 Pro、OpenAI o1なども選択可能に。[※]
Cursor
2024〜2025年にかけて急速に普及したAI IDE。2025年6月の価格改定で、リクエスト制限からコンピュート制限へ移行。月額$20で$20分のモデル推論が使える仕組みに変更された。[※]
Windsurf
Codeiumが開発したAI IDE。Cursorの主要な競合として2024年後半から急成長。「Cascade」と呼ばれるエージェント機能が特徴で、無料枠が充実している。2025年11月、GoogleがWindsurfチームを雇用しAntigravityを開発。[※]
Claude Code
2025年5月、Anthropicが公開したCLI型のコーディングエージェント。ターミナルから直接コーディングタスクを委任でき、開発者の働き方を根本から変えた。[※]
デザインツールのAI連携
| ツール | AI機能 | 価格 |
|---|---|---|
| Adobe Firefly | Photoshop/Illustrator生成塗りつぶし、テキストエフェクト | Creative Cloud込み |
| Canva Magic Studio | Magic Design、画像生成、背景除去 | Free〜$12.99/月 |
| Figma AI | Make(UI生成)、レイヤー自動リネーム | 有料プラン必須 |
| Microsoft Designer | DALL-E 3画像生成、テンプレート生成 | 無料〜 |
| Midjourney | 高品質画像生成、スタイル一貫性 | $10〜$60/月 |
まとめ
2022年11月30日のChatGPT公開から約3年。振り返ると、想像を超える速度で進化が起きました。
- 2022年: ChatGPT公開
- 2023年: GPT-4、Llama 2、競争激化
- 2024年: Claude 3、GPT-4o、o1、実用フェーズへ
- 2025年: Claude Code、Kiro、Antigravity、開発者体験の革命
2025年が革命の年だったとすれば、2026年以降はどんな年になるのか……それに関しては、GPT-5.2にでも聞いてみてください。
この記事が、激動の3年間を振り返る一つの記録になれば幸いです。