ネットショップ担当者フォーラム登壇レポート：SimGymで変わるCRO

この記事でわかること

→SimGymとABテストの役割の違いが分かる
→CRO検証を10分に圧縮する仕組みを理解できる
→精度を決める自店データの重要性を学べる
→自動QAとしての応用イメージが掴める
→当社の現場で見えた限界と運用上の注意点

イベント講演の振り返り

2026年5月26日、ネットショップ担当者フォーラム2026春のセッション「Shopify Plusで“運用が変わる”注目機能 SimGym で読み解くストア改善の第一歩」に、Shopify Japan様とご一緒に登壇しました。本記事は、その当日Flagshipパートでお話しした内容を、お越しいただけなかった方にも届くよう再構成したものです。

テーマはひとつ。Shopifyが新しく投入したAIシミュレーション機能 SimGym を、現場の運用にどう組み込むか。デモを交えた15分の中で、当社が触ってみて感じた価値と限界を率直にお伝えしました。

SimGymを一言でいうと

SimGymは、ストアデータと全Shopifyストアの購買データから生成したAI買い物客が、実際にあなたのストアフロントを回遊し、離脱した理由や改善案を自然言語で返してくれる機能です。

実行は驚くほどシンプルで、Shopify管理画面からSimGymアプリを開き、テーマを分析するか2つのテーマを比較するかを選び、ホーム・商品・コレクション・カートからフォーカスエリアを指定するだけ。10分ほどで結果が返ってきます。

ABテストの「代わり」ではなく「前工程」

当社が最も強調したかったのは、SimGymはABテストを置き換えるものではないという点です。両者を並べると、役割の違いがはっきり見えてきます。

観点	SimGym	ABテスト
準備時間	ほぼゼロ	仮説・実装・配信設定が必要
待ち時間	約10分	数日〜数週間
事業影響	公開前に叩けるためリスクが低い	外した側は機会損失となる
得られる示唆	定性コメントを取得できる	定量データのみ

つまりSimGymはABテストの前工程として、勝ち筋を事前に絞り込むための装置です。最終的な意思決定は本番のABテストで取り、それまでのリスクと累積コストを大きく下げる、という二段構えが現実的だと考えています。

実際の出力イメージ：個別と総合

言葉だけだとイメージしづらいので、当社ストアで実際に回した結果を例にお見せします。SimGymの出力は大きく2層構造です。1つ目はAIショッパーごとの「個別結果」、2つ目は複数のAIショッパーを束ねた「総合結果」です。

個別結果：1人のAIショッパーが何を考え、どこで詰まったか

SimGymの個別AIショッパー Shannon のセッション結果画面。総所要時間2分36秒・9クリック・9ページ閲覧と、AIセッションインサイト（商品の各種設定／うまくいったこと／うまくいかなかったこと／結果）が表示されている — 個別AIショッパー「Shannon」のセッション結果。総所要時間・クリック数・閲覧ページ数・カート金額に加え、AIセッションインサイトとして「商品の各種設定／うまくいったこと／うまくいかなかったこと／結果」が自然言語で並ぶ（当社ストアでの実行例）

このShannonというAIショッパーは「Tシャツを探しに来た、判断の速いミドル層」という設定で2分36秒、9クリック、9ページを回遊しました。Standard Logo T-shirtに着目した理由、ヘッダー検索が機能していた点、フッターのSHOP導線が分かりにくく感じた点までが、人間のテスターのレポートのような粒度で返ってきます。一人ひとりの行動ログとコメントが見えるので、改善仮説の解像度が一気に上がります。

総合結果：複数AIショッパーの声を4分類に集約

SimGymの総合結果画面。Recommendations、Site navigation、Product Discovery、Trust Signalsの4分類で改善提案が整理され、下部の買い物客のフィードバックに複数AIショッパーの定性コメントが並ぶ — 総合結果はRecommendations／Site navigation／Product Discovery／Trust Signalsの4分類に整理される。下部「買い物客のフィードバック」には複数AIショッパーの定性コメントが時系列で並ぶ（当社ストアでの実行例）

個別の声を束ねると、4つのカテゴリに整理された改善提案が並びます。Recommendationsは横断的な打ち手、Site navigationは導線、Product Discoveryは商品発見、Trust Signalsは信頼性です。当社ストアでは「ミニカートドロワーの導入」「コレクション上の絞り込み機能の有効化」「ポリシーや配送情報をCTA近くに配置」など、いきなり開発タスクに落とせるレベルの提案が返ってきました。下部の「買い物客のフィードバック」には複数のAIショッパー（Reginaなど）の定性コメントが並び、なぜそう感じたかの根拠もたどれます。

SimGymを支える4つの土台

触ってみるほど、これは単独のAI機能ではなく、Shopifyの全体戦略の延長線上にあるのだと感じました。当社の見立てでは、次の4つの要素が噛み合って初めて成立する仕事です。

要素	内容
経営思想	起業のハードルを下げてきた民主化の延長線上にSimGymがある
ビッグデータ	19年分・数百万マーチャント規模の「テーマ変更→売上変動」履歴
アカデミズム	オタワ拠点のトップティアMLリサーチャー20名超による論文公開と精度検証
AIインフラ	NVIDIA Blackwell B200を48枚（ハードだけで5億円規模）、CentML・Browserbase・Notteで2,000並列を実装するプラットフォーマー級の供給力

この4つが揃って初めて、10分でCRO検証を回すという体験が成立します。論文ベースでも裏付けがあり、Shopify自身がarXivに本体論文（arXiv:2602.01443）と続編のSimPersona論文（arXiv:2605.14205）を公開しています。3か月で続報を出すスピードからも、開発投資の本気度が伝わってきます。

自店データの有無で精度はこう変わる

本体論文のAblation実験（自店データを抜いた場合の検証）で示されている数字がとても象徴的です。

環境	Pearson相関	意味合い
新規ストア／非本番環境	0.27	AIショッパーがプロンプト通りに動くだけの状態
既存ストア（Shopifyを継続利用）	0.64	AIショッパーが自店の客層を「知っている」状態

つまりShopify Plusを長く運用しているストアほど、自店の顧客行動がペルソナに反映され、SimGymの示唆が現場の打ち手に直結しやすくなります。データを蓄積している事業者にとって、その応用価値が掛け算で大きくなっていくモデルだと言えます。

SimGymの“もう一つの顔”としての自動QA

当社が登壇でもう一段掘り下げたのは、同じ仕組みを自動QAとして使う発想です。

公式の建付けはCROやUXの評価ツールですが、見方を変えると2,000体規模の集団モンキーテスターでもあります。アプリ追加やテーマ更新のあとに、カートから決済までの動線が壊れていないか、サブスクやサイズチャートが想定通り動いているかを、本番リリース前に集団で検知できる。ゲーム業界における大規模モンキーテストに近い感覚で、CROの文脈外でも投資効率の高い使い方になり得ます。

限界と運用上の注意

良い面だけでなく、現時点の制約も率直にお伝えしました。1つ目は、複数言語対応のストアでAI買い物客のロケールが想定と異なる場合があること。L2ペルソナは行動パターンの学習が中心で、地域・言語を別軸として明示指定する仕組みは未整備のようです。2つ目は、サンドボックスや新規環境では自店データが乗らないため、本番ストアで実行する前提で組む必要があることです。

これらを最初に確認しておけば、定常運用に組み込んでいける段階にすでに来ています。

おわりに：Stop guessing.

カンと度胸で本番に出す時代は、そろそろ終わりにできるかもしれません。SimGymで仮説検証を1時間に圧縮し、ABテストで最終確認を取る。この二段構えを当たり前にすることが、Shopify Plus運用の次の標準になっていくと当社は考えています。

イベント当日にお越しいただいた皆様、ありがとうございました。本記事をきっかけに、自社ストアでの活用を検討される方は、お気軽にご相談ください。

Flagship Inc.