OpenAI o1-preview
OpenAIのo1-previewを現在評価しています。
By Toshiyuki Yoshida
Currently evaluating OpenAI's o1-preview. Although it is said that it is not always more accurate than GPT-4o, when checked with the "[World Model](https: //github.com/SingularitySociety/WorldModels/)". It collects problems that LLMs struggle with, o1-preview correctly solves questions like the following that GPT-4o gets wrong.
- Q1. What happens if you push a door labeled "Pull" from the opposite side?
- Q2. A cotton candy is 8 centimeters tall, and a brick is 7 centimeters tall. If you place the brick on top of the cotton candy, what is the total height?
- Q3. I left a wallet on a park bench near Shibuya Station for three hours. On that day, the temperature exceeded 39 degrees Celsius, and the wallet was exposed to direct sunlight. What happens to the wallet?
- Q4. Do man-eating tigers live in unexplored jungles?
OpenAI の o1-preview を現在評価しています。GPT-4o より常に精度が高いわけではないと言われていますが、LLM が苦手な問題を集めた「World Model」で確認すると、GPT-4o で不正解となる次のような問題を o1-preview では正確に解いてしまいます。
- Q1.「引く」と書かれたドアを反対側から押すとどうるか?
- Q2. 綿菓子の高さは 8 センチ、レンガの高さは 7 センチである。綿菓子の上にレ ンガを置くと、全体の高さは何センチになるか?
- Q3. 渋谷駅近くの公園のベンチに財布を 3 時間置き忘れた。 その日は気温が 39 度を超え、財布は直射日光にさらされていた。 財布はどうなるか?
- Q4. 前人未到のジャングルに人喰い虎は生息しているか?