株式会社 X-HACK(总公司:东京都品川区,代表董事:松田信介)提供专为工程师转职设计的 AI 面试练习 Web 应用程序「Mentai」,继日前服务发布后,将公开支持 Mentai 的技术架构,作为生成式 AI 实际应用案例。 通过结合 OpenAI Whisper API 的高精度语音辨识,以及 Anthropic Claude API 专为工程师面试设计的 AI 回馈生成,实现了仅靠「与 AI 聊天」无法达成的「AI 面试教练」体验。 服务网址:https://mentai.recruit-hub.ai/ ■ 仅靠 ChatGPT 说「请帮我练习面试」无法解决的课题 如今,只要对 ChatGPT 的语音模式说「请帮我练习面试」,就能轻松体验仿真面试。然而,若将其用于工程师的面试准备,仍存在以下课题: 评分标准模糊:只会得到「回答得很好」这类通用评论,无法评估工程师招聘中重视的技术说明能力和具体性等要点。 \n练习记录无法累积:无论练习多少次,都不会留下历史记录,无法得知自己是否有所进步。 难以察觉「说话能力」的课题:无法可视化文本输入时难以察觉的赘词(「嗯…」「那个…」)过多,或逻辑崩溃等问题。 Mentai 通过结合语音辨识 AI 和 Claude API 的技术架构,解决了这些课题。 ■ 为何坚持「语音」? 面试是「说话」的场合。即使在脑中思考好答案并以文本输入,也未必能在实际面试中流畅表达。说出口时逻辑崩溃、时间分配不当、赘词增多——这些都是不实际说出来就难以察觉的课题。 Mentai 坚持语音输入的原因就在于此。通过用户对着麦克风说话,提供无限接近实际面试的 AI 面试练习环境。 ■ 技术流程:从语音到 AI 回馈的实现 在 Mentai 中,用户以语音回答后,到收到回馈为止,会经过 3 个 AI 处理步骤。 【步骤 1:语音录制(浏览器)】 在用户的浏览器上使用 MediaRecorder API 录制语音。无需安装专用应用程序,仅在浏览器中即可运行。录制期间会显示波形动画,让用户感受到「正在说话」的实感。 【步骤 2:语音辨识(OpenAI Whisper API)】 录制的语音会发送至服务器,并由 OpenAI Whisper API 进行文本转录。 日语面试回答中频繁出现专业术语(例如「微服务」、「CI/CD」、「Scrum」等)。通用语音辨识容易误辨这些技术术语,而 Whisper API 能够以高精度辨识它们。 在开发初期,曾出现「CI/CD」被辨识为片假名「シーアイシーディー」的问题,但通过将技术术语列表传递给 Whisper API 的 prompt 参数解决了。由于辨识精度会影响回馈品质,因此在语音辨识引擎的选择上特别讲究。 【步骤 3:AI 回馈生成(Anthropic Claude API)】 文本转录后的文本,连同问题内容和用户的个人数据(职位、经验水平、行业),会发送至 Anthropic Claude API。 Claude API 承担的并非仅仅是「批改」。它会根据工程师面试专属的 5 个评估轴(技术说明能力、逻辑结构、具体性、表达能力、流畅度)进行评分,并生成优点和改进点的具体评论。 此外,它还会根据问题类别(技术课题类、自我介绍类、志愿动机类等)自动调整各轴的评估权重,实现符合问题意图的精确 AI 面试准备回馈。 ■ 开发中追求的 UX 与评估设计 【将等待时间转化为「面试间隔」的 UX 设计】 在 Mentai 中,AI 处理的等待时间被融入体验中,视为「面试官思考的时间」。 在实际面试中,面试官听完回答后也会有一段思考时间。Mentai 重现了这种「间隔」,通过显示 AI 面试官「思考中」的点头动画,将 Whisper API 的语音辨识(平均 2~3 秒)和 Claude API 的回馈生成(平均 5~8 秒)合计约 10 秒的处理时间,转化为自然的仿真面试体验。 【符合工程师招聘现场的 5 轴评估设计】 Mentai 的 5 轴评估(技术说明能力、逻辑结构、具体性、表达能力、流畅度)是根据工程师面试经验者的访谈设计的。 最初是 3 轴(技术能力、逻辑性、表达能力),但后来发现「结合数字和团队规模的具体性」以及「赘词少、回答节奏流畅」是决定录取与否的关键点,因此扩展为 5 轴。 此外,通过根据问题类型自动调整「应重视技术说明能力的问题」和「考验表达能力的问题」等评估权重,实现了非划一性的回馈。 ■ 技术堆栈 层次 技术 角色 前端 Next.js(TypeScript) UI、语音录制、回馈显示 后端 Ruby on Rails(API 模式) 业务逻辑、API 语音辨识 OpenAI Whisper API 语音→文本转换 AI 评估 Anthropic Claude