技ビス : 技術、ビジネス、スタートアップ

技術、ビジネス、スタートアップに関する情報と話題とアイディアと事例

機械学習用のデータを早く大量にラベルづけする方法

機械学習用のデータのラベル付けを行うscale.comの記事から。


 

要旨

  • Open AIプロジェクトのfine tuning GPT-2のデータラベル付にscale AIが使われている
  • 任意の人にラベル付をしてもらうとき、スケーラビリティの問題がある。「labelerがお互いの品質をチェックすることなしに、どうやって品質を高めるか」
  • さらに、従来はラベルとデータから学習してモデルを作っていた(オフライン)が、scaleではラベル付とモデル作りを繰り返し(オンライン)て、モデルのチューニングを行なっている
  • これを実現するために30分以内でのラベルづけと1時間5000ラベルづけという、低レイテンシ高スループットを実現した