通过与领域专家构建评估循环，实现WEAR的时尚特征提取与提示词优化

ドメインエキスパートとの評価サイクル構築による、WEARのファッション特徴抽出とプロンプト改善

はじめに

前言

こんにちは、データ・AIシステム本部の冨田です。ファッションコーディネートアプリ「WEAR」において、ユーザーのコーディネート投稿データを分析し、「似合う」を届けるための機能開発を担当しています。

大家好，我是数据·AI系统本部的冥田。在时尚穿搭网应用“WEAR”中，我负责分析用户的穿搭投稿数据，并开发旨在为用户带来“合适”穿搭体验的功能。

WEARには日々膨大な数のコーディネートが投稿されています。それらを活用して、経営戦略でもある「ワクワクできる『似合う』を届ける」ためには、画像やテキストからファッションに関する特徴を抽出する必要があります。本記事では、リサーチャーとの協業による評価サイクルを構築しながら、プロンプトエンジニアリングのみで特徴抽出の精度目標を達成した事例を紹介します。

WEAR每天都有海量的穿搭投稿。为了利用这些资源，践行“传递令人心动的‘契合穿搭’”这一经营战略，需要从图像和文本中提取与时尚相关的特征。本文将介绍一个案例，在与研究员合作构建评估循环的同时，仅通过提示词工程便达成了特征提取的精度目标。

背景・課題

背景与课题

独自定義「似合う4大要素」の抽出

自定义“合适穿搭四大要素”的提取

現在私たちは、WEARのコーディネートデータから「似合う」を構成する4大要素を抽出するプロジェクトを進めています。本システムでは、まずLLMを用いてコーディネートの画像やテキストから言語化された特徴を抽出します。その後、説明可能なルールベースのロジックに入力して最終的な4大要素を判定するというハイブリッドな構成をとっています。この仕組みを正しく機能させるためには、まずは前段となるLLMが「オーバーサイズ」や「丈感」といったファッション特有の曖昧な特徴を正確に抽出する必要があります。

目前，我们正在推进一个项目，从WEAR的穿搭数据中提取构成“合适”穿搭的四大要素。在本系统中，首先使用LLM从穿搭图像和文本中提取语言化的特征。然后，将其输入到可解释的基于规则的逻辑中，从而判定最终的四大要素，这是一种混合架构。为了让这一机制正确发挥作用，首先作为前端的LLM需要准确提取“Oversize”或“长度感”等时尚特有的模糊特征。

似合う判定のシステム

一般的なプロンプトの限界

一般提示词的局限性

ファッションの言語化は非常に曖昧です。例えば「オーバーサイズ」といっても、少しゆとりがある程度を指すのか、極端にシルエットが大きいものを指すのか、人によって解釈が異なります。単純に「この画像はオーバーサイズですか？」とLLMに尋ねるだけでは、サービスが求める基準（ZOZOとしての正解）とLLMの出力が乖離してしまい、実用レベルの精度が得られないという課題がありました。

时尚的语义化非常模糊。例如，即使说“Oversize”，是指稍微有些宽松，还是指轮廓极端宽大的衣服，不同人的解释各不相同。如果仅仅简单地询问LLM“这张图片是Oversize吗？”，服务所要求的标准（作为ZOZO的正确答案）与LLM的输出就会产生偏差，从而面临无法获得实用级精度的问题。

アプローチ（技術選定）

方法（技术选型）

手法の比較検討

方法的比较探讨

LLMの回答精度を向上させる手法として、一般的に以下の3つが検討されます。私たちは開発コスト・運用コスト・データ準備の観点から比較しました。

作为提高LLM回答精度的方法，通常会探讨以下三种。我们从开发成本、运营成本、数据准备的角度进行了比较。

手法	概要	メリット	デメリット	今回の判断
プロンプトエンジニアリング	指示文（Prompt）の工夫のみで精度を上げる	開発・運用コストが最小。即時反映が可能。	モデルの知識外のことは回答できない。	採用
RAG	外部知識を検索してプロンプトに含める	最新情報や独自データに対応できる。	検索システムの構築・運用コストがかかる。	不採用
ファインチューニング	追加データでモデル自体を再学習させる	特定のタスクや出力形式に特化できる。	高品質な大量の学習データと計算コストが必要。	不採用

方法	概述	优点	缺点	本次判定
Prompt Engineering	仅通过优化指令（Prompt）来提高精度	开发与运维成本最小。可即时生效。	无法回答模型知识范围外的问题。	采用
RAG	检索外部知识并加入Prompt中	能够应对最新信息和独有数据。	需要承担检索系统的构建与运维成本。	不采用
fine-tuning	使用附加数据对模型本身进行再学习	能够针对特定任务或输出格式进行特化。	需要大量高质量的学习数据和计算成本。	不采用

選定理由

选定理由

近年、LoRA(Low-Rank Adaptation)[^1]などの効率的な手法の普及により、ファインチューニングのハードルは大きく下がりました。それでも、まずはプロンプトエンジニアリングで限界ま...