Anthropic Claude4を発表

Anthropic が開発者会議「Code with Claude」で 推論能力と深い思考能力が大きく向上した新しいモデル Claude 4を発表しました。

By Toshiyuki Yoshida

Claude 4 の内容

Anthropic は 2 月に前世代の「Claude Sonnet 3.7」をリリースしてばかりですが、 OpenAI が 4 月にコンテキストウィンドウを拡大した「GPT-4.1」や、新しい推論モデル「o3」「o4-mini」を公開するなど 競合の AI 開発企業も性能を引き上げているのに対抗して早期に新しいモデル投入して きたのだと思います。

まずは Claude Sonnet 3.7 を基に改良を加えたClaude Sonnet 4です。 Sonnet3.7 では過度に積極的な回答をする場合があったようですが、 今回 Sonnet 4 では適度に軽量化されているようです。

Claude Opus 4はより大規模で計算資源を要するモデルで、 特に難易度の高い課題を処理できるよう設計されているようです。 人間であれば数時間かかる作業を同モデルが短時間でこなす性能を示しているそうで す。

Claude 4の検証

中島聡氏がWorkd Models として公開している課題でいくつかテストしてみました。

「綿菓子の高さは8センチ、レンガの高さは7センチ。綿菓子の上にレンガを置くと 、高さは何センチ?」という課題に対して、それぞれの回答を確認してみましょう。

# Sonnet 3.7
この問題を解決するために、それぞれの高さを足し合わせます。
綿菓子の高さ: 8センチ
レンガの高さ: 7センチ
綿菓子の上にレンガを置いた場合の全体の高さ:
8センチ + 7センチ = 15センチ
したがって、綿菓子の上にレンガを置くと、高さは15センチになります。

# Opus 3
では、綿菓子の高さとレンガの高さを足し算して、全体の高さを求めましょう。
綿菓子の高さ: 8センチ
レンガの高さ: 7センチ
8センチ + 7センチ = 15センチ
したがって、綿菓子の上にレンガを置くと、高さは15センチになります。

# Sonnet 4
綿菓子の高さ8センチの上にレンガの高さ7センチを置くと、合計の高さは
15センチになります。
8 + 7 = 15センチです。

# Opus 4
綿菓子の上にレンガを置いた場合、綿菓子は軽くてふわふわしているため、
レンガの重さで押しつぶされてしまいます。綿菓子はほぼ完全に圧縮されて
しまうので、実質的な高さはレンガの高さである7センチになると考えられ
ます。

# ChatGPT
綿菓子の上にレンガを置くと、綿菓子はつぶれてしまう可能性があります。
そのため、綿菓子の高さ8センチとレンガの高さ7センチを単純に足して15
センチとは限りません。

綿菓子は非常に柔らかく、重いレンガを置くとほとんど潰れてしまうこと
が多いです。もし綿菓子が完全につぶれたと仮定すると、高さはレンガの
高さだけの7センチになります。

よって、実際の高さは7センチより少し上程度(綿菓子がどれだけ潰れるか
による)と考えられます。

まとめ

Claude 4 の登場は、LLM の技術進化がもはや年単位ではなく「月単位」で進む時代に突入していることを改めて印象づけました。Sonnet 4 は従来モデルの過剰応答傾向を抑制し、応答の一貫性・安定性を向上。一方、Opus 4 は汎用的な知識応答を超え、タスクに応じた状況推論や人間的な判断に近づいています。

特に、綿菓子の課題のような「文脈理解」と「物理的直感」が求められるケースで、 Opus 4 は従来の加算的な計算ではなく素材特性を踏まえた判断を下しています。 これは今後のエージェント系アプリケーションにも直結する進化です。

競合の ChatGPT(GPT-4.1)も同様に高い水準にあり、両者はもはや単純な精度比較ではなく、「推論スタイル」や「コンテキスト処理のアプローチ」の差をどうプロダクトに活かすかが焦点になります。

Claude 4 は「回答の速さ」や「正確さ」だけでは語りきれない次のフェーズに入りつつあり、開発者としては、タスクの性質や求める出力の粒度に応じたモデル選定の重要性が今後ますます増していくと感じました。