こんにちは、EdTech Labの齋藤です。
レアジョブテクノロジーズとなって1年が経ちます。1年度目最後の記事なのでもっと全社的な取り組みのまとめ記事とかがふさわしいのではとか考えつつ平常運転で記事を書いていこうと思います。
さて、丁度分社化くらいの時期にやりはじめた業務効率化アプリ作成からも1年, 本稼働させてから半年と少し経ったタイミングなので具体的に何をしたのか・実際どれくらい効果があったのかみたいなことを今回は話していこうかなと思います。
効率化したサービス
PROGOS手動採点版の業務効率化を行いました。
成果はタイトルの通りです。
PROGOSとは
PROGOS®(プロゴス)は実践的なビジネスシーンを踏まえた英語スピーキング能力を測定するシステムです。幅広く仕事で使えるスピーキング力を測定することができます。
[参考・引用] progos.ai
また、私たちの提供するPROGOSには自動採点版と手動採点版の2種類が存在しています。
その名の通り自動採点版では受験後AIが採点を行い結果を返すもので、手動採点は人間の採点官が採点を行い結果を返します。今回は採点フローの違う2種類のサービスがあるんだな〜くらいの認識で大丈夫です。
我々EdTech Labも業務としてPROGOSに関わっており、主に自動採点に関するモデルの開発や改善といった業務を行っています。
背景
手動採点は手動採点で担当チームが存在しており、私たちEdTech Labとお互いにコミュニケーションを取りながら業務に当たっています。 そんな中、ある日打ち合わせを行った際に「あれ?ここは効率化できそうだな」みたいな部分があったため、チームメンバーもう一人に協力していただきアプリを作成しました。
効率化した場所と概要
手動採点を行う際にももちろんCEFR に準拠して採点を行なっています。
詳細は省きますが、その採点フローの一部で単語やフレーズに関するあれこれをCEFRに照らし合わせて評価するという箇所が存在しています。この箇所の採点方法は採点すべき単語1つ1つを対応するCEFR レベルと照らし合わせて確認していくというものでした。
🤔 🤔 🤔 🤔 🤔 🤔 🤔 🤔 🤔 🤔 🤔
いくらトレーニングを積んだプロが採点を行うとはいえ人間は疲れやその日のコンディションによってパフォーマンスが変化するので、この運用では採点すべき単語やフレーズの取り逃がしリスクだけではなく時間効率も悪い状態でした。 また、明らかに技術的な部分で解決できるものだと思ったためこの部分を解消していこうという運びとなりました。
作成したもの
簡単に説明すると、文章を入力すると単語やフレーズに分解しそこにCEFRレベルに応じたハイライトをつけるというものです。
まず以下のような入力箇所があるので、今回は簡単な自己紹介の例文を与えてみます。
これで確定させると以下のような出力がされます。 採点基準となるCEFRレベルごとに色の違うハイライトをして一目で採点しやすいようになりました。またしっかりと固有名詞は除外されていることがわかります。
これは機能のごく一部で他にも手動採点を行う際に必要になりそうなものはある程度搭載しています。この画面外には、どのレベルの単語やフレーズがどれくらい含まれているか のような集計情報も表示されています。
導入結果
では実際に導入した結果はどうだったのか、実際に利用してもらっているチームへのインタビュー含めると以下のようなフィードバック・結果となりました。
導入前 | 導入後 |
---|---|
採点すべき単語に漏れがあるかもしれない | 採点すべき単語に漏れはほぼない |
1語ずつ確認するのでかなり時間がかかる | 全ての単語が一度でチェックできる |
採点時間は10 ~ 20分程度 | 採点時間は5 ~ 10分程度 |
とヒューマンエラーを回避しつつ、採点にかかる時間を半減させることができました。
また、トレーニング段階の採点担当者にも利用してもらっているらしく、実際の採点担当者とどの程度採点スコアが一致するかを確認してもらったところ
導入前 | 導入後 |
---|---|
約55% | 約70% |
とかなり向上しており、教育コストを軽減する面でも役に立っていそうで嬉しい副次効果でした。
最後に
使用している技術的には、Pythonでの自然言語処理+AWSで構成されています。 また別の機会にこのあたりのアプリを作る最中で得た知識もちまちまと吐き出していきたいな〜と思っています。
自分たちで発案したことをうまく着地させて、提供し、実際に良いフィードバックをもらうとなんとも言えない達成感が味わえますね。
2年目も頑張っていきます💪