機械学習用のデータのラベル付けを行うscale.comの記事から。
要旨
- Open AIプロジェクトのfine tuning GPT-2のデータラベル付にscale AIが使われている
- 任意の人にラベル付をしてもらうとき、スケーラビリティの問題がある。「labelerがお互いの品質をチェックすることなしに、どうやって品質を高めるか」
- さらに、従来はラベルとデータから学習してモデルを作っていた(オフライン)が、scaleではラベル付とモデル作りを繰り返し(オンライン)て、モデルのチューニングを行なっている
- これを実現するために30分以内でのラベルづけと1時間5000ラベルづけという、低レイテンシ高スループットを実現した