ネットショップ担当者フォーラム登壇レポート:SimGymで変わるCRO
この記事でわかること
- →SimGymとABテストの役割の違いが分かる
- →CRO検証を10分に圧縮する仕組みを理解できる
- →精度を決める自店データの重要性を学べる
- →自動QAとしての応用イメージが掴める
- →当社の現場で見えた限界と運用上の注意点
イベント講演の振り返り
2026年5月26日、ネットショップ担当者フォーラム2026春のセッション「Shopify Plusで“運用が変わる”注目機能 SimGym で読み解くストア改善の第一歩」に、Shopify Japan様とご一緒に登壇しました。本記事は、その当日Flagshipパートでお話しした内容を、お越しいただけなかった方にも届くよう再構成したものです。
テーマはひとつ。Shopifyが新しく投入したAIシミュレーション機能 SimGym を、現場の運用にどう組み込むか。デモを交えた15分の中で、当社が触ってみて感じた価値と限界を率直にお伝えしました。
SimGymを一言でいうと
SimGymは、ストアデータと全Shopifyストアの購買データから生成したAI買い物客が、実際にあなたのストアフロントを回遊し、離脱した理由や改善案を自然言語で返してくれる機能です。
実行は驚くほどシンプルで、Shopify管理画面からSimGymアプリを開き、テーマを分析するか2つのテーマを比較するかを選び、ホーム・商品・コレクション・カートからフォーカスエリアを指定するだけ。10分ほどで結果が返ってきます。
ABテストの「代わり」ではなく「前工程」
当社が最も強調したかったのは、SimGymはABテストを置き換えるものではないという点です。両者を並べると、役割の違いがはっきり見えてきます。
| 観点 | SimGym | ABテスト |
|---|---|---|
| 準備時間 | ほぼゼロ | 仮説・実装・配信設定が必要 |
| 待ち時間 | 約10分 | 数日〜数週間 |
| 事業影響 | 公開前に叩けるためリスクが低い | 外した側は機会損失となる |
| 得られる示唆 | 定性コメントを取得できる | 定量データのみ |
つまりSimGymはABテストの前工程として、勝ち筋を事前に絞り込むための装置です。最終的な意思決定は本番のABテストで取り、それまでのリスクと累積コストを大きく下げる、という二段構えが現実的だと考えています。
実際の出力イメージ:個別と総合
言葉だけだとイメージしづらいので、当社ストアで実際に回した結果を例にお見せします。SimGymの出力は大きく2層構造です。1つ目はAIショッパーごとの「個別結果」、2つ目は複数のAIショッパーを束ねた「総合結果」です。
個別結果:1人のAIショッパーが何を考え、どこで詰まったか
このShannonというAIショッパーは「Tシャツを探しに来た、判断の速いミドル層」という設定で2分36秒、9クリック、9ページを回遊しました。Standard Logo T-shirtに着目した理由、ヘッダー検索が機能していた点、フッターのSHOP導線が分かりにくく感じた点までが、人間のテスターのレポートのような粒度で返ってきます。一人ひとりの行動ログとコメントが見えるので、改善仮説の解像度が一気に上がります。
総合結果:複数AIショッパーの声を4分類に集約
個別の声を束ねると、4つのカテゴリに整理された改善提案が並びます。Recommendationsは横断的な打ち手、Site navigationは導線、Product Discoveryは商品発見、Trust Signalsは信頼性です。当社ストアでは「ミニカートドロワーの導入」「コレクション上の絞り込み機能の有効化」「ポリシーや配送情報をCTA近くに配置」など、いきなり開発タスクに落とせるレベルの提案が返ってきました。下部の「買い物客のフィードバック」には複数のAIショッパー(Reginaなど)の定性コメントが並び、なぜそう感じたかの根拠もたどれます。
SimGymを支える4つの土台
触ってみるほど、これは単独のAI機能ではなく、Shopifyの全体戦略の延長線上にあるのだと感じました。当社の見立てでは、次の4つの要素が噛み合って初めて成立する仕事です。
| 要素 | 内容 |
|---|---|
| 経営思想 | 起業のハードルを下げてきた民主化の延長線上にSimGymがある |
| ビッグデータ | 19年分・数百万マーチャント規模の「テーマ変更→売上変動」履歴 |
| アカデミズム | オタワ拠点のトップティアMLリサーチャー20名超による論文公開と精度検証 |
| AIインフラ | NVIDIA Blackwell B200を48枚(ハードだけで5億円規模)、CentML・Browserbase・Notteで2,000並列を実装するプラットフォーマー級の供給力 |
この4つが揃って初めて、10分でCRO検証を回すという体験が成立します。論文ベースでも裏付けがあり、Shopify自身がarXivに本体論文(arXiv:2602.01443)と続編のSimPersona論文(arXiv:2605.14205)を公開しています。3か月で続報を出すスピードからも、開発投資の本気度が伝わってきます。
自店データの有無で精度はこう変わる
本体論文のAblation実験(自店データを抜いた場合の検証)で示されている数字がとても象徴的です。
| 環境 | Pearson相関 | 意味合い |
|---|---|---|
| 新規ストア/非本番環境 | 0.27 | AIショッパーがプロンプト通りに動くだけの状態 |
| 既存ストア(Shopifyを継続利用) | 0.64 | AIショッパーが自店の客層を「知っている」状態 |
つまりShopify Plusを長く運用しているストアほど、自店の顧客行動がペルソナに反映され、SimGymの示唆が現場の打ち手に直結しやすくなります。データを蓄積している事業者にとって、その応用価値が掛け算で大きくなっていくモデルだと言えます。
SimGymの“もう一つの顔”としての自動QA
当社が登壇でもう一段掘り下げたのは、同じ仕組みを自動QAとして使う発想です。
公式の建付けはCROやUXの評価ツールですが、見方を変えると2,000体規模の集団モンキーテスターでもあります。アプリ追加やテーマ更新のあとに、カートから決済までの動線が壊れていないか、サブスクやサイズチャートが想定通り動いているかを、本番リリース前に集団で検知できる。ゲーム業界における大規模モンキーテストに近い感覚で、CROの文脈外でも投資効率の高い使い方になり得ます。
限界と運用上の注意
良い面だけでなく、現時点の制約も率直にお伝えしました。1つ目は、複数言語対応のストアでAI買い物客のロケールが想定と異なる場合があること。L2ペルソナは行動パターンの学習が中心で、地域・言語を別軸として明示指定する仕組みは未整備のようです。2つ目は、サンドボックスや新規環境では自店データが乗らないため、本番ストアで実行する前提で組む必要があることです。
これらを最初に確認しておけば、定常運用に組み込んでいける段階にすでに来ています。
おわりに:Stop guessing.
カンと度胸で本番に出す時代は、そろそろ終わりにできるかもしれません。SimGymで仮説検証を1時間に圧縮し、ABテストで最終確認を取る。この二段構えを当たり前にすることが、Shopify Plus運用の次の標準になっていくと当社は考えています。
イベント当日にお越しいただいた皆様、ありがとうございました。本記事をきっかけに、自社ストアでの活用を検討される方は、お気軽にご相談ください。