ChatGPTから3年：LLMの進化を振り返る【2022-2025 年表】

2022年11月30日、OpenAIがChatGPTを公開。それから3年。ググる回数が減った代わりに、AIに伝える「最適な言い回し」を延々と推敲する時間が増えました。これが進化か退化かはさておき、生産性は上がりました（たぶん）。

本記事は、ChatGPT公開を「LLM元年（仮）」と定義し、2025年12月時点での主要LLMとAI開発ツールの進化を振り返ります。

なぜ今、振り返るのか

転換点は2025年5月。AnthropicがClaude Codeを公開したことでした。X（旧Twitter）での異様といえる盛り上がりに釣られて触ってみたところ、開発スタイルが一変したのです。

それまでのLLMは、あくまで「面倒な作業の一部を肩代わりさせる便利ツール」という認識でした。筆者も2023年からChatGPT Plusを愛用していましたが、基本は「ブラウザにコードを貼り付け → 回答をIDEにコピペ → テスト → エラーならまた最初から」という手動ループ。当時はそれでも十分効率化できていると感じていました。

しかし、Claude CodeのようなCLIツールと、それを支えるモデル（当時だと Claude 4 Opusなど）の圧倒的な推論能力は、その工程を過去のものにしました。ターミナルからプロジェクト全体を読み取り、ファイルを直接編集し、エラー修正まで自律的に試みる。かつてのモデルなら破綻していたような複雑な指示も、的確に意図を汲み取って実行してくれる。気づけば、コードを書く時間よりも「どう伝えれば意図通りに動くか」というディレクションに費やす時間の方が長くなっていました。

開発体験が根本から書き換わっていく渦中にいる今だからこそ、一度立ち止まって整理したい。本記事は2025年12月25日時点での定点観測としての記録です。

LLM年表 2022-2025（総覧）

2022年

日付	イベント	概要
11月30日	ChatGPT公開	GPT-3.5ベース、LLM時代の幕開け

2023年

日付	イベント	概要
2月1日	ChatGPT Plus発表	月額$20のプレミアムプラン
2月6日	Google Bard発表	Geminiの前身
2月7日	Bing Chat発表	Microsoft参入、後のCopilotに
3月14日	GPT-4公開	マルチモーダル対応、大幅な性能向上
4月	Anthropic Claude登場	GPT-4の対抗馬として注目
7月18日	Llama 2公開	オープンソース、ローカル実行可能
9月	Mistral 7B	小型ながら高性能
11月6日	GPT-4 Turbo / DevDay	128Kコンテキスト、GPTs発表
12月	Mixtral 8x7B	MoE方式
12月6日	Gemini 1.0発表	Google DeepMindの次世代モデル

2024年

日付	イベント	概要
1月10日	GPT Store公開	カスタムGPTのマーケットプレイス
2月	Mistral Large	GPT-3.5〜GPT-4レベルの性能
2月	Copilot Enterprise	月額$39/ユーザー
2月21日	Gemma公開	Googleのオープンモデル
3月4日	Claude 3ファミリー	Haiku/Sonnet/Opus、GPT-4超えを主張
4月18日	Llama 3公開	8B/70Bパラメータ
5月13日	GPT-4o公開	マルチモーダル統合、高速化
6月20日	Claude 3.5 Sonnet	Claude 3 Opusを上回る性能
7月	Mistral Large 2	123Bパラメータ、128Kコンテキスト
7月18日	GPT-4o mini	GPT-3.5 Turboの後継
7月23日	Llama 3.1	8B/70B/405Bパラメータ
9月	o1発表	推論特化モデル
10月	Llama 3.2	マルチモーダル対応
10月	Claude 3.5 Sonnet更新	コーディング性能大幅向上
10月	Claude 3.5 Haiku	Claude 3 Opus相当の高速モデル
12月	ChatGPT Pro	月額$200、o1無制限アクセス
12月11日	Gemini 2.0 Flash	速度と性能の両立
12月	Llama 3.3	70Bで405B相当の性能

2025年

日付	イベント	概要
1月30日	Gemini 2.0 Flash正式版	デフォルトモデルに
3月25日	Gemini 2.5 Pro Experimental	推論・コーディング強化
4月5日	Llama 4公開	Scout/Maverick、マルチモーダル
5月1日	Claude Max	月額$100/$200プラン
5月	Claude Code公開	AIエージェント型CLI
5月22日	Claude Sonnet 4 / Opus 4	Claude 4ファミリー発表
6月17日	Gemini 2.5 Pro/Flash GA	一般提供開始
6月25日	Gemini CLI	オープンソースターミナルツール
7月15日	Kiro発表	AWS製AI IDE
8月	GPT-5公開	ChatGPT Plus標準モデルに
8月5日	Claude Opus 4.1	エージェント・コーディング強化
9月29日	Claude Sonnet 4.5	SWE-bench 77.2%
10月	Claude Haiku 4.5	Sonnet 4相当の高速モデル
10月	Claude Code for Web	非同期コーディングエージェント
11月12日	GPT-5.1	動的思考時間、SWE-bench 76.3%
11月18日	Antigravity発表	Google製AI IDE
11月18日	Gemini 3 Pro	LMArena 1位、推論特化
11月19日	GPT-5.1-Codex-Max	24時間超タスク対応
11月24日	Claude Opus 4.5	SWE-bench 80.9%、シンキング標準搭載
12月11日	GPT-5.2	Instant/Thinking/Pro、GDPval SOTA
12月17日	Gemini 3 Flash	2.5 Pro超えの性能を低価格で

2022年11月 - ChatGPT登場

ChatGPT公開 - LLM時代の幕開け

2022年11月30日、OpenAIがGPT-3.5ベースのChatGPTを無料公開。^[※]

それまでのAIアシスタントとは一線を画す自然な対話能力で、世界中に衝撃を与えた。公開からわずか2ヶ月で1億ユーザー突破。TikTokが同マイルストーンに9ヶ月、Instagramは2年半かかったことを考えると、爆発的な普及速度。^[※]

この時点での技術水準

コンテキスト長: 約4,096トークン
マルチモーダル: テキストのみ
推論能力: 基本的な質問応答、コード生成

2023年 - 競争激化の1年

2023年は、ChatGPTの成功を受け各社がLLM市場に一斉参入した年。

主要イベント年表

日付	イベント	詳細
2月1日	ChatGPT Plus発表	月額$20のプレミアムプラン
2月6日	Google Bard発表	Geminiの前身
2月7日	Bing Chat発表	Microsoft参入、後のCopilotに
3月14日	GPT-4公開	マルチモーダル対応、大幅な性能向上
4月	Anthropic Claude登場	GPT-4の対抗馬として注目
7月18日	Llama 2公開	Perplexity AI等で採用。ローカル実行も可能
9月	Mistral 7B	Cursorで選択可能。小型ながら高性能
11月6日	GPT-4 Turbo / DevDay	128Kコンテキスト、GPTs発表
12月	Mixtral 8x7B	複数モデルを組み合わせるMoE方式
12月6日	Gemini 1.0発表	Google DeepMindの次世代モデル

GPT-4の衝撃

2023年3月14日公開のGPT-4は、ChatGPT（GPT-3.5）から大幅な性能向上を実現。^[※]

画像入力対応（マルチモーダル）
司法試験で上位10%相当のスコア
コーディング能力の飛躍的向上

Anthropic Claude - OpenAI出身者の挑戦

2023年4月、AnthropicがClaude（クロード）を一般公開。AnthropicはOpenAI元VPのDario Amodeiらが2021年に設立した企業で、「AIの安全性」重視のアプローチで注目を集めた。^[※]

GPT-4公開の翌月という絶妙なタイミングで登場。長文処理能力の高さから「GPT-4の対抗馬」として認知された。

Llama 2 - オープンソースの転換点

2023年7月、MetaがLlama 2をオープンソースで公開。商用利用も可能で、Perplexity AIやGroqなど多くのサービスで採用された。Ollamaを使えばローカルPCでも動作可能で、「自分でLLMを動かす」選択肢が広まった。^[※]

Mistral AI - 欧州からの挑戦者

フランス発のMistral AIは、小型ながら高性能なモデルで注目を集めた。CursorなどのAI IDEでも選択肢として提供されており、開発者には馴染みのある名前。^[※]

2024年 - 性能競争から実用へ

2024年は各社のモデルが急速に性能向上し、実用ツールとして定着した年。

主要イベント年表

日付	イベント	詳細
1月10日	GPT Store公開	カスタムGPTのマーケットプレイス
2月	Mistral Large	GPT-3.5〜GPT-4レベルの性能
2月	Copilot Enterprise	月額$39/ユーザー
2月21日	Gemma公開	Google AI StudioやOllamaで利用可能
3月4日	Claude 3ファミリー	Haiku/Sonnet/Opus、GPT-4超えを主張
4月18日	Llama 3公開	8B/70Bパラメータ
5月13日	GPT-4o公開	マルチモーダル統合、高速化
6月20日	Claude 3.5 Sonnet	Claude 3 Opusを上回る性能
7月	Mistral Large 2	123Bパラメータ、128Kコンテキスト
7月18日	GPT-4o mini	GPT-3.5 Turboの後継
7月23日	Llama 3.1	8B/70B/405Bパラメータ
9月	o1発表	推論特化モデル
10月	Llama 3.2	マルチモーダル対応
10月	Claude 3.5 Sonnet更新	コーディング性能大幅向上
10月	Claude 3.5 Haiku	Claude 3 Opus相当の高速モデル
12月	ChatGPT Pro	月額$200、o1無制限アクセス
12月11日	Gemini 2.0 Flash	速度と性能の両立
12月	Llama 3.3	70Bで405B相当の性能

Claude 3ファミリー - GPT-4の牙城を崩す

2024年3月4日、AnthropicがClaude 3ファミリーを発表。最上位のOpusは複数のベンチマークでGPT-4を上回り、大きな注目を集めた。^[※]

さらに6月20日公開のClaude 3.5 Sonnetは、自社最上位のClaude 3 Opusを上回る性能を低コストで実現。^[※]

o1 - 推論の新時代

2024年9月、OpenAIが推論特化モデル「o1」を発表。「考える」時間を使って複雑な問題を解決するアプローチで、LLMの新たな方向性を示した。^[※]

2025年 - 開発者体験の革命

2025年は、LLMが単なるチャットツールから開発者の実質的なパートナーへと進化した年。各社から次々とメジャーアップデートがリリースされた。

主要イベント年表

日付	イベント	詳細
1月30日	Gemini 2.0 Flash正式版	デフォルトモデルに
3月25日	Gemini 2.5 Pro Experimental	推論・コーディング強化
4月5日	Llama 4公開	Scout/Maverick、マルチモーダル
5月1日	Claude Max	月額$100/$200プラン
5月	Claude Code公開	AIエージェント型CLI
5月22日	Claude Sonnet 4 / Opus 4	Claude 4ファミリー発表
6月17日	Gemini 2.5 Pro/Flash GA	一般提供開始、Flash-Lite追加
6月25日	Gemini CLI	オープンソースターミナルツール
7月15日	Kiro発表	AWS製AI IDE
8月	GPT-5公開	ChatGPT Plus標準モデルに
8月5日	Claude Opus 4.1	エージェント・コーディング強化
9月29日	Claude Sonnet 4.5	SWE-bench 77.2%
10月	Claude Haiku 4.5	Sonnet 4相当の高速モデル
10月	Claude Code for Web	非同期コーディングエージェント
11月12日	GPT-5.1	動的思考時間、SWE-bench 76.3%
11月18日	Antigravity発表	Google製AI IDE
11月18日	Gemini 3 Pro	LMArena 1位、推論特化
11月19日	GPT-5.1-Codex-Max	24時間超タスク対応
11月24日	Claude Opus 4.5	SWE-bench 80.9%、シンキング標準搭載
12月11日	GPT-5.2	Instant/Thinking/Pro、GDPval SOTA
12月17日	Gemini 3 Flash	2.5 Pro超えの性能を低価格で

Claude 4シリーズの進化

2025年、Anthropicは急速なイテレーションでClaudeを進化させた。

モデル	リリース日	SWE-bench	特徴
Opus 4	5月22日	-	Claude 4ファミリー初代
Sonnet 4	5月22日	-	バランス型
Opus 4.1	8月5日	74.5%	エージェント・推論強化
Sonnet 4.5	9月29日	77.2%	コスパ最強
Haiku 4.5	10月	-	Sonnet 4相当の高速版
Opus 4.5	11月24日	80.9%	シンキングモード標準、コーディング世界最高水準

GPT-5シリーズの展開

OpenAIは8月のGPT-5公開後、11月〜12月にかけて急速にアップデートを重ねた。

モデル	リリース日	特徴
GPT-5	8月	AIME 94.6%、ハルシネーション45%減
GPT-5.1	11月12日	動的思考時間、SWE-bench 76.3%
GPT-5.1-Codex-Max	11月19日	24時間超のエージェントタスク対応
GPT-5.2	12月11日	Instant/Thinking/Pro、GDPvalでエキスパート超え
GPT-5.2-Codex	12月11日	SWE-Bench Pro・Terminal-Bench 2.0でSOTA

GPT-5.2では、44職種の知識労働タスクを評価するGDPvalベンチマークで、業界トップ専門家と比較して70.9%で同等以上のパフォーマンスを記録。^[※]

Gemini 3シリーズ

Googleは3月のGemini 2.5から11月のGemini 3へと、1年で2世代の進化を遂げた。

モデル	リリース日	特徴
2.5 Pro Experimental	3月25日	推論・コーディング強化
2.5 Pro/Flash GA	6月17日	一般提供、Flash-Lite追加
3 Pro	11月18日	LMArena 1501 Elo（1位）、GPQA 91.9%
3 Deep Think	11月18日	複雑タスク向け深層推論
3 Flash	12月17日	2.5 Pro超えを低価格で実現

Gemini 3 Proは20のベンチマーク中19でトップ、Humanity’s Last Examでは41%を記録しGPT-5 Proの31.64%を上回る。^[※]

Claude Code - 開発スタイルの転換点

2025年5月、AnthropicがClaude Codeを公開。ターミナルから直接コーディングタスクを委任できるエージェント型ツールで、開発者の働き方を根本から変えた。^[※]

8月時点で、Claude 4発表以降Claude Codeの収益は5.5倍に増加したとAnthropicが報告。^[※]

Kiro - AWSの参入

2025年7月15日、AWSはKiroを発表。VS Codeベースでありながら、「スペック駆動開発」という新しいアプローチを提唱した。自然言語で要件を記述すると、ユーザーストーリー、技術設計書、タスクリストが自動生成される。^[※]

Amazonは社内開発者をKiroに標準化し、ある30人・18ヶ月規模のプロジェクトが6人・76日で完了したと発表。^[※]

Antigravity - Googleの回答

2025年11月18日、Google DeepMindはGemini 3と同時にAntigravityを発表。Windsurf開発チームを雇用し、$24億でライセンスを取得して開発された。^[※]

「エージェントファースト」を掲げ、複数のエージェントが並列で非同期にタスクを実行できる「マネージャービュー」が特徴となっている。^[※]

MCP（Model Context Protocol）

2024年11月、AnthropicはLLMと外部ツール・データソースを接続するオープンプロトコル「MCP」を発表。^[※]

MCPは「AIアプリケーションのためのUSB-Cポート」と例えられ、さまざまなデータソースやツールにAIモデルを接続する標準化された方法を提供。2025年3月にはOpenAIも公式採用し、同年12月にはLinux Foundation傘下のAgentic AI Foundationに寄贈された。^[※]

現在、GitHub、Slack、PostgreSQL、Puppeteer、ファイルシステムなど多数のMCPサーバーが公開されており、Claude CodeやCursorなどの開発ツールから利用可能。^[※]

ベンチマークで見る進化

主要ベンチマークにおける各モデルの性能を比較。

ベンチマーク解説

ベンチマーク	評価対象	具体例
MMLU	一般知識・推論（57分野）	法律問題、医学診断、歴史、数学など
HumanEval	コード生成（Python）	「素数判定関数を実装せよ」などの関数実装
SWE-bench Verified	実バグ修正（Python）	GitHubの実際のissue/PRを解決できるか
SWE-bench Pro	実バグ修正（多言語）	4言語対応、より実務的で汚染耐性あり
GPQA Diamond	博士レベル科学問題	量子力学、有機化学、分子生物学の専門問題
AIME	数学オリンピック予選	米国数学オリンピック予選（15問中の正答数）
ARC-AGI-2	新規問題解決能力	未知のパターン認識・抽象推論
GDPval	知識労働タスク	44職種のプロフェッショナルタスク

スコアの歴史的推移

2022年から2025年にかけて、LLMの性能は急速に向上した。

年	代表モデル	MMLU	HumanEval	SWE-bench
2022	GPT-3.5	70%	48%	-
2023	GPT-4	86%	67%	12%
2024	Claude 3.5 Sonnet	88%	92%	49%
2025	Claude Opus 4.5 / GPT-5.2	90%+	95%+	81%

特にSWE-benchは2023年の12%から2025年には81%へと劇的に向上しており、実務レベルのコーディング能力が急速に進化していることがわかる。

2025年12月時点の最新モデル比較

モデル	SWE-bench Verified	GPQA Diamond	AIME 2025	備考
Claude Opus 4.5	80.9%	-	-	コーディング最高水準
GPT-5.2 Thinking	80.0%	-	-	OpenAI最新
Claude Sonnet 4.5	77.2%	-	-	コスパ優秀
Gemini 3 Pro	76.2%	91.9%	100%（ツール使用時）	推論トップ
GPT-5.1	76.3%	-	-	動的思考時間
GPT-5	74.9%	88.4%	94.6%	数学で高水準
Claude Opus 4.1	74.5%	-	-	エージェント強化

出典: Anthropic公式、OpenAI公式、Google DeepMind公式

各モデルの特徴

Claude Opus 4.5（2025年11月24日発表）

Anthropicが「コーディング、エージェント、コンピュータ操作において世界最高のモデル」と位置づけている。^[※]

SWE-bench Verified: 80.9%（Sonnet 4.5の77.2%、Opus 4.1の74.5%を上回る）
ARC-AGI-2（新規問題解決能力）: 37.6%（Sonnet 4.5の13.6%の約3倍）
プロンプトインジェクション攻撃成功率: 4.7%（Gemini 3 Pro 12.5%、GPT-5.1 21.9%より堅牢）
Artificial Analysis Intelligence Index: 70（GPT-5.1と同点、Gemini 3 Pro 73に次ぐ2位）

GPT-5（2025年8月発表）

OpenAIの第5世代フラグシップモデル。数学と推論で特に高いスコアを記録。^[※]

AIME 2025（数学）: 94.6%（ツールなし）
GPQA（博士レベル科学問題）: 88.4%（Pro、ツールなし）
MMMU（マルチモーダル理解）: 84.2%
ハルシネーション: GPT-4oより約45%減少（検索有効時）

GPT-5.1（2025年11月12日発表）

動的思考時間を導入し、タスクの複雑さに応じて思考時間を自動調整。^[※]

SWE-bench Verified: 76.3%
簡単なタスクでは高速・トークン効率的に動作
GPT-5.1-Codex-Max: 24時間超のエージェントタスク対応

GPT-5.2（2025年12月11日発表）

OpenAIの最新フラグシップモデル。Instant/Thinking/Proの3バリエーションで提供されている。^[※]

SWE-bench Verified: 80.0%（Thinking）
GDPval: 業界トップ専門家と比較して70.9%で同等以上（SOTA）
Instant: 高速な執筆・情報検索向け
Thinking: コーディング・計画などの構造化タスク向け
Pro: 最高精度の回答

GPT-5.2-Codex（2025年12月発表）

GPT-5.2をエージェントコーディング向けに最適化したモデル。^[※]

SWE-Bench Pro: 56.4%（GPT-5.2の55.6%、GPT-5.1の50.8%を上回る）
Terminal-Bench 2.0: 64.0%（GPT-5.2の62.2%を上回る）
大規模リファクタ・マイグレーション、Windows環境での改善

Gemini 3 Pro（2025年11月18日発表）

Google DeepMindの最新推論モデル。LMArena Leaderboardで1501 Eloを記録しトップとなっている。^[※]

GPQA Diamond: 91.9%
AIME 2025: 100%（コード実行時）、95.0%（ツールなし）
Humanity’s Last Exam: 41%（GPT-5 Proの31.64%を上回る）
SimpleQA Verified（事実精度）: 72.1%（SOTA）
20ベンチマーク中19でトップを記録

オープンソース vs クローズドモデル

オープンソースモデルも急速に進化しており、一部の指標ではクローズドモデルに迫る性能を発揮している。

モデル	種別	SWE-bench	MMLU	特徴
Claude Opus 4.5	クローズド	80.9%	-	コーディング最高水準
GPT-5.2 Thinking	クローズド	80.0%	-	知識労働でSOTA
Gemini 3 Pro	クローズド	76.2%	-	推論・事実精度トップ
Llama 4 Maverick	オープン	52.5%	90.8%	Meta製、商用利用可
Qwen 3 235B	オープン	-	86%	Alibaba製、多言語対応
DeepSeek R1	オープン	49.2%	90.8%	中国発、推論特化

オープンソースモデルはローカル実行やカスタマイズが可能なため、プライバシー要件が厳しい用途や、ファインチューニングが必要なケースで選択されている。

注意点

ベンチマークスコアは各社発表値です。第三者評価と異なる場合があります
MMLUやHumanEvalなどの従来ベンチマークは飽和しており、最新モデルの評価には新しいベンチマーク（SWE-bench、GPQA、ARC-AGI-2、GDPval等）が使用される傾向があります
実際の業務での有用性とベンチマークスコアは必ずしも一致しません

料金体系の比較

消費者向けサブスクリプション

サービス	無料	Pro	最上位
ChatGPT	GPT-4o mini制限付き	$20/月（Plus）	$200/月（Pro）
Claude	制限付き	$20/月（Pro）	$100-200/月（Max）
Gemini	無料版あり	$20/月（Advanced）	-

ChatGPT料金プラン

^[※]

Free: GPT-4o mini、制限付きGPT-4oアクセス
Plus（$20/月）: GPT-4o 80メッセージ/3時間、o1アクセス
Pro（$200/月）: o1無制限、最大計算リソース
Team（$25-30/ユーザー/月）: 高い制限、データプライバシー

Claude料金プラン

^[※]^[※]

Free: 制限付きアクセス
Pro（$20/月）: 5倍以上のメッセージ容量、Opusへの優先アクセス
Max（$100/月）: Proの5倍の使用量、Claude Codeを含む
Max（$200/月）: Proの20倍の使用量、最優先アクセス

API料金（100万トークンあたり）

^[※]^[※]

モデル	入力	出力	備考
Claude Opus 4.5	$5.00	$25.00	最高性能、Opus 4.1の1/3の価格
Claude Sonnet 4.5	$3.00	$15.00	コスパ良好
Claude Haiku 3.5	$1.00	$5.00	高速・低コスト
GPT-4o	$5.00	$15.00	標準的
Gemini 2.5 Pro	$1.25	$10.00	中価格帯
Grok 4.1	$0.20	$0.50	最安値帯

開発ツール料金

ツール	無料	Pro	備考
GitHub Copilot	-	$10/月（Individual）	Enterprise $39/月
Cursor	制限あり	$20/月	Ultra $200/月
Kiro	プレビュー無料	TBD	AWS製
Antigravity	プレビュー無料	TBD	Google製

^[※]^[※]

開発ツール・デザインツールのAI連携

AI統合IDE・コーディングツール

ツール	提供元	種別	特徴	価格
Cursor	Cursor Inc.	IDE	エディタネイティブAI、Composerモード	$20-200/月
Windsurf	Codeium	IDE	Cascadeエージェント、無料枠充実	無料〜$15/月
GitHub Copilot	Microsoft	拡張	最も普及、マルチモデル対応	$10-39/月
Kiro	AWS	IDE	スペック駆動開発、VS Codeベース	プレビュー無料
Antigravity	Google	IDE	エージェントファースト、並列実行	プレビュー無料
Claude Code	Anthropic	CLI	ターミナル特化、API従量課金	API課金
Aider	OSS	CLI	オープンソース、Git統合	無料（API課金）
Cline	OSS	拡張	VS Code拡張、旧Claude Dev	無料（API課金）
Cody	Sourcegraph	拡張	コードベース理解、検索連携	無料〜$19/月

GitHub Copilot

2021年6月のテクニカルプレビューから始まり、2022年6月に商用版がリリース。2024年にはマルチモデル対応となり、Claude 3.5 Sonnet、Gemini 1.5 Pro、OpenAI o1なども選択可能に。^[※]

Cursor

2024〜2025年にかけて急速に普及したAI IDE。2025年6月の価格改定で、リクエスト制限からコンピュート制限へ移行。月額$20で$20分のモデル推論が使える仕組みに変更された。^[※]

Windsurf

Codeiumが開発したAI IDE。Cursorの主要な競合として2024年後半から急成長。「Cascade」と呼ばれるエージェント機能が特徴で、無料枠が充実している。2025年11月、GoogleがWindsurfチームを雇用しAntigravityを開発。^[※]

Claude Code

2025年5月、Anthropicが公開したCLI型のコーディングエージェント。ターミナルから直接コーディングタスクを委任でき、開発者の働き方を根本から変えた。^[※]

デザインツールのAI連携

ツール	AI機能	価格
Adobe Firefly	Photoshop/Illustrator生成塗りつぶし、テキストエフェクト	Creative Cloud込み
Canva Magic Studio	Magic Design、画像生成、背景除去	Free〜$12.99/月
Figma AI	Make（UI生成）、レイヤー自動リネーム	有料プラン必須
Microsoft Designer	DALL-E 3画像生成、テンプレート生成	無料〜
Midjourney	高品質画像生成、スタイル一貫性	$10〜$60/月

まとめ

2022年11月30日のChatGPT公開から約3年。振り返ると、想像を超える速度で進化が起きました。

2022年: ChatGPT公開
2023年: GPT-4、Llama 2、競争激化
2024年: Claude 3、GPT-4o、o1、実用フェーズへ
2025年: Claude Code、Kiro、Antigravity、開発者体験の革命

2025年が革命の年だったとすれば、2026年以降はどんな年になるのか……それに関しては、GPT-5.2にでも聞いてみてください。

この記事が、激動の3年間を振り返る一つの記録になれば幸いです。

なぜ今、振り返るのか

LLM年表 2022-2025（総覧）

2022年

2023年

2024年

2025年

2022年11月 - ChatGPT登場

ChatGPT公開 - LLM時代の幕開け

この時点での技術水準

2023年 - 競争激化の1年

主要イベント年表

GPT-4の衝撃

Anthropic Claude - OpenAI出身者の挑戦

Llama 2 - オープンソースの転換点

Mistral AI - 欧州からの挑戦者

2024年 - 性能競争から実用へ

主要イベント年表

Claude 3ファミリー - GPT-4の牙城を崩す

o1 - 推論の新時代

2025年 - 開発者体験の革命

主要イベント年表

Claude 4シリーズの進化

GPT-5シリーズの展開

Gemini 3シリーズ

Claude Code - 開発スタイルの転換点

Kiro - AWSの参入

Antigravity - Googleの回答

MCP（Model Context Protocol）

ベンチマークで見る進化

ベンチマーク解説

スコアの歴史的推移

2025年12月時点の最新モデル比較

各モデルの特徴

Claude Opus 4.5（2025年11月24日発表）

GPT-5（2025年8月発表）

GPT-5.1（2025年11月12日発表）

GPT-5.2（2025年12月11日発表）

GPT-5.2-Codex（2025年12月発表）

Gemini 3 Pro（2025年11月18日発表）

オープンソース vs クローズドモデル

注意点

料金体系の比較

消費者向けサブスクリプション

ChatGPT料金プラン

Claude料金プラン

API料金（100万トークンあたり）

開発ツール料金

開発ツール・デザインツールのAI連携

AI統合IDE・コーディングツール

GitHub Copilot

Cursor

Windsurf

Claude Code

デザインツールのAI連携

まとめ

参考資料

公式ソース

モデル情報

開発ツール

ベンチマーク