技術

ChatGPTから3年:LLMの進化を振り返る【2022-2025 年表】

2022年11月30日、OpenAIがChatGPTを公開。それから3年。ググる回数が減った代わりに、AIに伝える「最適な言い回し」を延々と推敲する時間が増えました。これが進化か退化かはさておき、生産性は上がりました(たぶん)。

本記事は、ChatGPT公開を「LLM元年(仮)」と定義し、2025年12月時点での主要LLMとAI開発ツールの進化を振り返ります。

なぜ今、振り返るのか

転換点は2025年5月。AnthropicClaude Codeを公開したことでした。X(旧Twitter)での異様といえる盛り上がりに釣られて触ってみたところ、開発スタイルが一変したのです。

それまでのLLMは、あくまで「面倒な作業の一部を肩代わりさせる便利ツール」という認識でした。筆者も2023年からChatGPT Plusを愛用していましたが、基本は「ブラウザにコードを貼り付け → 回答をIDEにコピペ → テスト → エラーならまた最初から」という手動ループ。当時はそれでも十分効率化できていると感じていました。

しかし、Claude CodeのようなCLIツールと、それを支えるモデル(当時だと Claude 4 Opusなど)の圧倒的な推論能力は、その工程を過去のものにしました。 ターミナルからプロジェクト全体を読み取り、ファイルを直接編集し、エラー修正まで自律的に試みる。かつてのモデルなら破綻していたような複雑な指示も、的確に意図を汲み取って実行してくれる。 気づけば、コードを書く時間よりも「どう伝えれば意図通りに動くか」というディレクションに費やす時間の方が長くなっていました。

開発体験が根本から書き換わっていく渦中にいる今だからこそ、一度立ち止まって整理したい。本記事は2025年12月25日時点での定点観測としての記録です。


2022年11月 - ChatGPT登場

ChatGPT公開 - LLM時代の幕開け

2022年11月30日、OpenAIがGPT-3.5ベースのChatGPTを無料公開。[※]

それまでのAIアシスタントとは一線を画す自然な対話能力で、世界中に衝撃を与えた。公開からわずか2ヶ月で1億ユーザー突破。TikTokが同マイルストーンに9ヶ月、Instagramは2年半かかったことを考えると、爆発的な普及速度。[※]

この時点での技術水準

  • コンテキスト長: 約4,096トークン
  • マルチモーダル: テキストのみ
  • 推論能力: 基本的な質問応答、コード生成

2023年 - 競争激化の1年

2023年は、ChatGPTの成功を受け各社がLLM市場に一斉参入した年。

主要イベント年表

日付イベント詳細
2月1日ChatGPT Plus発表月額$20のプレミアムプラン
2月6日Google Bard発表Geminiの前身
2月7日Bing Chat発表Microsoft参入、後のCopilotに
3月14日GPT-4公開マルチモーダル対応、大幅な性能向上
4月Anthropic Claude登場GPT-4の対抗馬として注目
7月18日Llama 2公開Perplexity AI等で採用。ローカル実行も可能
9月Mistral 7BCursorで選択可能。小型ながら高性能
11月6日GPT-4 Turbo / DevDay128Kコンテキスト、GPTs発表
12月Mixtral 8x7B複数モデルを組み合わせるMoE方式
12月6日Gemini 1.0発表Google DeepMindの次世代モデル

GPT-4の衝撃

2023年3月14日公開のGPT-4は、ChatGPT(GPT-3.5)から大幅な性能向上を実現。[※]

  • 画像入力対応(マルチモーダル)
  • 司法試験で上位10%相当のスコア
  • コーディング能力の飛躍的向上

Anthropic Claude - OpenAI出身者の挑戦

2023年4月、AnthropicがClaude(クロード)を一般公開。AnthropicはOpenAI元VPのDario Amodeiらが2021年に設立した企業で、「AIの安全性」重視のアプローチで注目を集めた。[※]

GPT-4公開の翌月という絶妙なタイミングで登場。長文処理能力の高さから「GPT-4の対抗馬」として認知された。

Llama 2 - オープンソースの転換点

2023年7月、MetaLlama 2をオープンソースで公開。商用利用も可能で、Perplexity AIやGroqなど多くのサービスで採用された。Ollamaを使えばローカルPCでも動作可能で、「自分でLLMを動かす」選択肢が広まった。[※]

Mistral AI - 欧州からの挑戦者

フランス発のMistral AIは、小型ながら高性能なモデルで注目を集めた。CursorなどのAI IDEでも選択肢として提供されており、開発者には馴染みのある名前。[※]


2024年 - 性能競争から実用へ

2024年は各社のモデルが急速に性能向上し、実用ツールとして定着した年。

主要イベント年表

日付イベント詳細
1月10日GPT Store公開カスタムGPTのマーケットプレイス
2月Mistral LargeGPT-3.5〜GPT-4レベルの性能
2月Copilot Enterprise月額$39/ユーザー
2月21日Gemma公開Google AI StudioやOllamaで利用可能
3月4日Claude 3ファミリーHaiku/Sonnet/Opus、GPT-4超えを主張
4月18日Llama 3公開8B/70Bパラメータ
5月13日GPT-4o公開マルチモーダル統合、高速化
6月20日Claude 3.5 SonnetClaude 3 Opusを上回る性能
7月Mistral Large 2123Bパラメータ、128Kコンテキスト
7月18日GPT-4o miniGPT-3.5 Turboの後継
7月23日Llama 3.18B/70B/405Bパラメータ
9月o1発表推論特化モデル
10月Llama 3.2マルチモーダル対応
10月Claude 3.5 Sonnet更新コーディング性能大幅向上
10月Claude 3.5 HaikuClaude 3 Opus相当の高速モデル
12月ChatGPT Pro月額$200、o1無制限アクセス
12月11日Gemini 2.0 Flash速度と性能の両立
12月Llama 3.370Bで405B相当の性能

Claude 3ファミリー - GPT-4の牙城を崩す

2024年3月4日、AnthropicがClaude 3ファミリーを発表。最上位のOpusは複数のベンチマークでGPT-4を上回り、大きな注目を集めた。[※]

さらに6月20日公開のClaude 3.5 Sonnetは、自社最上位のClaude 3 Opusを上回る性能を低コストで実現。[※]

o1 - 推論の新時代

2024年9月、OpenAIが推論特化モデル「o1」を発表。「考える」時間を使って複雑な問題を解決するアプローチで、LLMの新たな方向性を示した。[※]


2025年 - 開発者体験の革命

2025年は、LLMが単なるチャットツールから開発者の実質的なパートナーへと進化した年。各社から次々とメジャーアップデートがリリースされた。

主要イベント年表

日付イベント詳細
1月30日Gemini 2.0 Flash正式版デフォルトモデルに
3月25日Gemini 2.5 Pro Experimental推論・コーディング強化
4月5日Llama 4公開Scout/Maverick、マルチモーダル
5月1日Claude Max月額$100/$200プラン
5月Claude Code公開AIエージェント型CLI
5月22日Claude Sonnet 4 / Opus 4Claude 4ファミリー発表
6月17日Gemini 2.5 Pro/Flash GA一般提供開始、Flash-Lite追加
6月25日Gemini CLIオープンソースターミナルツール
7月15日Kiro発表AWS製AI IDE
8月GPT-5公開ChatGPT Plus標準モデルに
8月5日Claude Opus 4.1エージェント・コーディング強化
9月29日Claude Sonnet 4.5SWE-bench 77.2%
10月Claude Haiku 4.5Sonnet 4相当の高速モデル
10月Claude Code for Web非同期コーディングエージェント
11月12日GPT-5.1動的思考時間、SWE-bench 76.3%
11月18日Antigravity発表Google製AI IDE
11月18日Gemini 3 ProLMArena 1位、推論特化
11月19日GPT-5.1-Codex-Max24時間超タスク対応
11月24日Claude Opus 4.5SWE-bench 80.9%、シンキング標準搭載
12月11日GPT-5.2Instant/Thinking/Pro、GDPval SOTA
12月17日Gemini 3 Flash2.5 Pro超えの性能を低価格で

Claude 4シリーズの進化

2025年、Anthropicは急速なイテレーションでClaudeを進化させた。

モデルリリース日SWE-bench特徴
Opus 45月22日-Claude 4ファミリー初代
Sonnet 45月22日-バランス型
Opus 4.18月5日74.5%エージェント・推論強化
Sonnet 4.59月29日77.2%コスパ最強
Haiku 4.510月-Sonnet 4相当の高速版
Opus 4.511月24日80.9%シンキングモード標準、コーディング世界最高水準

GPT-5シリーズの展開

OpenAIは8月のGPT-5公開後、11月〜12月にかけて急速にアップデートを重ねた。

モデルリリース日特徴
GPT-58月AIME 94.6%、ハルシネーション45%減
GPT-5.111月12日動的思考時間、SWE-bench 76.3%
GPT-5.1-Codex-Max11月19日24時間超のエージェントタスク対応
GPT-5.212月11日Instant/Thinking/Pro、GDPvalでエキスパート超え
GPT-5.2-Codex12月11日SWE-Bench Pro・Terminal-Bench 2.0でSOTA

GPT-5.2では、44職種の知識労働タスクを評価するGDPvalベンチマークで、業界トップ専門家と比較して70.9%で同等以上のパフォーマンスを記録。[※]

Gemini 3シリーズ

Googleは3月のGemini 2.5から11月のGemini 3へと、1年で2世代の進化を遂げた。

モデルリリース日特徴
2.5 Pro Experimental3月25日推論・コーディング強化
2.5 Pro/Flash GA6月17日一般提供、Flash-Lite追加
3 Pro11月18日LMArena 1501 Elo(1位)、GPQA 91.9%
3 Deep Think11月18日複雑タスク向け深層推論
3 Flash12月17日2.5 Pro超えを低価格で実現

Gemini 3 Proは20のベンチマーク中19でトップ、Humanity’s Last Examでは41%を記録しGPT-5 Proの31.64%を上回る。[※]

Claude Code - 開発スタイルの転換点

2025年5月、AnthropicがClaude Codeを公開。ターミナルから直接コーディングタスクを委任できるエージェント型ツールで、開発者の働き方を根本から変えた。[※]

8月時点で、Claude 4発表以降Claude Codeの収益は5.5倍に増加したとAnthropicが報告。[※]

Kiro - AWSの参入

2025年7月15日、AWSKiroを発表。VS Codeベースでありながら、「スペック駆動開発」という新しいアプローチを提唱した。自然言語で要件を記述すると、ユーザーストーリー、技術設計書、タスクリストが自動生成される。[※]

Amazonは社内開発者をKiroに標準化し、ある30人・18ヶ月規模のプロジェクトが6人・76日で完了したと発表。[※]

Antigravity - Googleの回答

2025年11月18日、Google DeepMindはGemini 3と同時にAntigravityを発表。Windsurf開発チームを雇用し、$24億でライセンスを取得して開発された。[※]

「エージェントファースト」を掲げ、複数のエージェントが並列で非同期にタスクを実行できる「マネージャービュー」が特徴となっている。[※]

MCP(Model Context Protocol)

2024年11月、AnthropicはLLMと外部ツール・データソースを接続するオープンプロトコル「MCP」を発表。[※]

MCPは「AIアプリケーションのためのUSB-Cポート」と例えられ、さまざまなデータソースやツールにAIモデルを接続する標準化された方法を提供。2025年3月にはOpenAIも公式採用し、同年12月にはLinux Foundation傘下のAgentic AI Foundationに寄贈された。[※]

現在、GitHub、Slack、PostgreSQL、Puppeteer、ファイルシステムなど多数のMCPサーバーが公開されており、Claude CodeやCursorなどの開発ツールから利用可能。[※]


ベンチマークで見る進化

主要ベンチマークにおける各モデルの性能を比較。

ベンチマーク解説

ベンチマーク評価対象具体例
MMLU一般知識・推論(57分野)法律問題、医学診断、歴史、数学など
HumanEvalコード生成(Python)「素数判定関数を実装せよ」などの関数実装
SWE-bench Verified実バグ修正(Python)GitHubの実際のissue/PRを解決できるか
SWE-bench Pro実バグ修正(多言語)4言語対応、より実務的で汚染耐性あり
GPQA Diamond博士レベル科学問題量子力学、有機化学、分子生物学の専門問題
AIME数学オリンピック予選米国数学オリンピック予選(15問中の正答数)
ARC-AGI-2新規問題解決能力未知のパターン認識・抽象推論
GDPval知識労働タスク44職種のプロフェッショナルタスク

スコアの歴史的推移

2022年から2025年にかけて、LLMの性能は急速に向上した。

代表モデルMMLUHumanEvalSWE-bench
2022GPT-3.570%48%-
2023GPT-486%67%12%
2024Claude 3.5 Sonnet88%92%49%
2025Claude Opus 4.5 / GPT-5.290%+95%+81%

特にSWE-benchは2023年の12%から2025年には81%へと劇的に向上しており、実務レベルのコーディング能力が急速に進化していることがわかる。

2025年12月時点の最新モデル比較

モデルSWE-bench VerifiedGPQA DiamondAIME 2025備考
Claude Opus 4.580.9%--コーディング最高水準
GPT-5.2 Thinking80.0%--OpenAI最新
Claude Sonnet 4.577.2%--コスパ優秀
Gemini 3 Pro76.2%91.9%100%(ツール使用時)推論トップ
GPT-5.176.3%--動的思考時間
GPT-574.9%88.4%94.6%数学で高水準
Claude Opus 4.174.5%--エージェント強化

出典: Anthropic公式OpenAI公式Google DeepMind公式

各モデルの特徴

Claude Opus 4.5(2025年11月24日発表)

Anthropicが「コーディング、エージェント、コンピュータ操作において世界最高のモデル」と位置づけている。[※]

  • SWE-bench Verified: 80.9%(Sonnet 4.5の77.2%、Opus 4.1の74.5%を上回る)
  • ARC-AGI-2(新規問題解決能力): 37.6%(Sonnet 4.5の13.6%の約3倍)
  • プロンプトインジェクション攻撃成功率: 4.7%(Gemini 3 Pro 12.5%、GPT-5.1 21.9%より堅牢)
  • Artificial Analysis Intelligence Index: 70(GPT-5.1と同点、Gemini 3 Pro 73に次ぐ2位)

GPT-5(2025年8月発表)

OpenAIの第5世代フラグシップモデル。数学と推論で特に高いスコアを記録。[※]

  • AIME 2025(数学): 94.6%(ツールなし)
  • GPQA(博士レベル科学問題): 88.4%(Pro、ツールなし)
  • MMMU(マルチモーダル理解): 84.2%
  • ハルシネーション: GPT-4oより約45%減少(検索有効時)

GPT-5.1(2025年11月12日発表)

動的思考時間を導入し、タスクの複雑さに応じて思考時間を自動調整。[※]

  • SWE-bench Verified: 76.3%
  • 簡単なタスクでは高速・トークン効率的に動作
  • GPT-5.1-Codex-Max: 24時間超のエージェントタスク対応

GPT-5.2(2025年12月11日発表)

OpenAIの最新フラグシップモデル。Instant/Thinking/Proの3バリエーションで提供されている。[※]

  • SWE-bench Verified: 80.0%(Thinking)
  • GDPval: 業界トップ専門家と比較して70.9%で同等以上(SOTA)
  • Instant: 高速な執筆・情報検索向け
  • Thinking: コーディング・計画などの構造化タスク向け
  • Pro: 最高精度の回答

GPT-5.2-Codex(2025年12月発表)

GPT-5.2をエージェントコーディング向けに最適化したモデル。[※]

  • SWE-Bench Pro: 56.4%(GPT-5.2の55.6%、GPT-5.1の50.8%を上回る)
  • Terminal-Bench 2.0: 64.0%(GPT-5.2の62.2%を上回る)
  • 大規模リファクタ・マイグレーション、Windows環境での改善

Gemini 3 Pro(2025年11月18日発表)

Google DeepMindの最新推論モデル。LMArena Leaderboardで1501 Eloを記録しトップとなっている。[※]

  • GPQA Diamond: 91.9%
  • AIME 2025: 100%(コード実行時)、95.0%(ツールなし)
  • Humanity’s Last Exam: 41%(GPT-5 Proの31.64%を上回る)
  • SimpleQA Verified(事実精度): 72.1%(SOTA)
  • 20ベンチマーク中19でトップを記録

オープンソース vs クローズドモデル

オープンソースモデルも急速に進化しており、一部の指標ではクローズドモデルに迫る性能を発揮している。

モデル種別SWE-benchMMLU特徴
Claude Opus 4.5クローズド80.9%-コーディング最高水準
GPT-5.2 Thinkingクローズド80.0%-知識労働でSOTA
Gemini 3 Proクローズド76.2%-推論・事実精度トップ
Llama 4 Maverickオープン52.5%90.8%Meta製、商用利用可
Qwen 3 235Bオープン-86%Alibaba製、多言語対応
DeepSeek R1オープン49.2%90.8%中国発、推論特化

オープンソースモデルはローカル実行やカスタマイズが可能なため、プライバシー要件が厳しい用途や、ファインチューニングが必要なケースで選択されている。

注意点

  • ベンチマークスコアは各社発表値です。第三者評価と異なる場合があります
  • MMLUやHumanEvalなどの従来ベンチマークは飽和しており、最新モデルの評価には新しいベンチマーク(SWE-bench、GPQA、ARC-AGI-2、GDPval等)が使用される傾向があります
  • 実際の業務での有用性とベンチマークスコアは必ずしも一致しません

料金体系の比較

消費者向けサブスクリプション

サービス無料Pro最上位
ChatGPTGPT-4o mini制限付き$20/月(Plus)$200/月(Pro)
Claude制限付き$20/月(Pro)$100-200/月(Max)
Gemini無料版あり$20/月(Advanced)-

ChatGPT料金プラン

[※]

  • Free: GPT-4o mini、制限付きGPT-4oアクセス
  • Plus($20/月): GPT-4o 80メッセージ/3時間、o1アクセス
  • Pro($200/月): o1無制限、最大計算リソース
  • Team($25-30/ユーザー/月): 高い制限、データプライバシー

Claude料金プラン

[※][※]

  • Free: 制限付きアクセス
  • Pro($20/月): 5倍以上のメッセージ容量、Opusへの優先アクセス
  • Max($100/月): Proの5倍の使用量、Claude Codeを含む
  • Max($200/月): Proの20倍の使用量、最優先アクセス

API料金(100万トークンあたり)

[※][※]

モデル入力出力備考
Claude Opus 4.5$5.00$25.00最高性能、Opus 4.1の1/3の価格
Claude Sonnet 4.5$3.00$15.00コスパ良好
Claude Haiku 3.5$1.00$5.00高速・低コスト
GPT-4o$5.00$15.00標準的
Gemini 2.5 Pro$1.25$10.00中価格帯
Grok 4.1$0.20$0.50最安値帯

開発ツール料金

ツール無料Pro備考
GitHub Copilot-$10/月(Individual)Enterprise $39/月
Cursor制限あり$20/月Ultra $200/月
Kiroプレビュー無料TBDAWS製
Antigravityプレビュー無料TBDGoogle製

[※][※]


開発ツール・デザインツールのAI連携

AI統合IDE・コーディングツール

ツール提供元種別特徴価格
CursorCursor Inc.IDEエディタネイティブAI、Composerモード$20-200/月
WindsurfCodeiumIDECascadeエージェント、無料枠充実無料〜$15/月
GitHub CopilotMicrosoft拡張最も普及、マルチモデル対応$10-39/月
KiroAWSIDEスペック駆動開発、VS Codeベースプレビュー無料
AntigravityGoogleIDEエージェントファースト、並列実行プレビュー無料
Claude CodeAnthropicCLIターミナル特化、API従量課金API課金
AiderOSSCLIオープンソース、Git統合無料(API課金)
ClineOSS拡張VS Code拡張、旧Claude Dev無料(API課金)
CodySourcegraph拡張コードベース理解、検索連携無料〜$19/月

GitHub Copilot

2021年6月のテクニカルプレビューから始まり、2022年6月に商用版がリリース。2024年にはマルチモデル対応となり、Claude 3.5 Sonnet、Gemini 1.5 Pro、OpenAI o1なども選択可能に。[※]

Cursor

2024〜2025年にかけて急速に普及したAI IDE。2025年6月の価格改定で、リクエスト制限からコンピュート制限へ移行。月額$20で$20分のモデル推論が使える仕組みに変更された。[※]

Windsurf

Codeiumが開発したAI IDE。Cursorの主要な競合として2024年後半から急成長。「Cascade」と呼ばれるエージェント機能が特徴で、無料枠が充実している。2025年11月、GoogleがWindsurfチームを雇用しAntigravityを開発。[※]

Claude Code

2025年5月、Anthropicが公開したCLI型のコーディングエージェント。ターミナルから直接コーディングタスクを委任でき、開発者の働き方を根本から変えた。[※]

デザインツールのAI連携

ツールAI機能価格
Adobe FireflyPhotoshop/Illustrator生成塗りつぶし、テキストエフェクトCreative Cloud込み
Canva Magic StudioMagic Design、画像生成、背景除去Free〜$12.99/月
Figma AIMake(UI生成)、レイヤー自動リネーム有料プラン必須
Microsoft DesignerDALL-E 3画像生成、テンプレート生成無料〜
Midjourney高品質画像生成、スタイル一貫性$10〜$60/月

まとめ

2022年11月30日のChatGPT公開から約3年。振り返ると、想像を超える速度で進化が起きました。

  • 2022年: ChatGPT公開
  • 2023年: GPT-4、Llama 2、競争激化
  • 2024年: Claude 3、GPT-4o、o1、実用フェーズへ
  • 2025年: Claude Code、Kiro、Antigravity、開発者体験の革命

2025年が革命の年だったとすれば、2026年以降はどんな年になるのか……それに関しては、GPT-5.2にでも聞いてみてください。

この記事が、激動の3年間を振り返る一つの記録になれば幸いです。


参考資料

公式ソース

モデル情報

開発ツール

ベンチマーク