运用 Whisper × Claude API 打造面试官 AI。公开实现工程师专属 5 轴评分之技术流程

Q: What are the key facts in this article?

株式会社 X-HACK 推出 AI 面试练习 Web 应用程序「Mentai」，结合 OpenAI Whisper API 的高精度语音辨识与 Anthropic Claude API 的 AI 回馈生成，实现了工程师面试专属的 5 轴评分。Mentai 通过语音输入解决了传统仿真面试中评分标准模糊、练习记录无法累积以及难以察觉「说话能力」问题的痛点，并将 AI 处理的等待时间融入面试体验，未来将开发即时深度提问的「面试模式」。

Q: What is the direct answer?

株式会社 X-HACK 推出 AI 面试练习 Web 应用程序「Mentai」，结合 OpenAI Whisper API 的高精度语音辨识与 Anthropic Claude API 的 AI 回馈生成，实现了工程师面试专属的 5 轴评分。Mentai 通过语音输入解决了传统仿真面试中评分标准模糊、练习记录无法累积以及难以察觉「说话能力」问题的痛点，并将 AI 处理的等待时间融入面试体验，未来将开发即时深度提问的「面试模式」。

Q: What is the source and date?

Source: AI News by Washin Village | Date: Date unavailable

株式会社 X-HACK（总公司：东京都品川区，代表董事：松田信介）提供专为工程师转职设计的 AI 面试练习 Web 应用程序「Mentai」，继日前服务发布后，将公开支持 Mentai 的技术架构，作为生成式 AI 实际应用案例。 通过结合 OpenAI Whisper API 的高精度语音辨识，以及 Anthropic Claude API 专为工程师面试设计的 AI 回馈生成，实现了仅靠「与 AI 聊天」无法达成的「AI 面试教练」体验。 服务网址：https://mentai.recruit-hub.ai/ ■ 仅靠 ChatGPT 说「请帮我练习面试」无法解决的课题 如今，只要对 ChatGPT 的语音模式说「请帮我练习面试」，就能轻松体验仿真面试。然而，若将其用于工程师的面试准备，仍存在以下课题： 评分标准模糊：只会得到「回答得很好」这类通用评论，无法评估工程师招聘中重视的技术说明能力和具体性等要点。 \n练习记录无法累积：无论练习多少次，都不会留下历史记录，无法得知自己是否有所进步。 难以察觉「说话能力」的课题：无法可视化文本输入时难以察觉的赘词（「嗯…」「那个…」）过多，或逻辑崩溃等问题。 Mentai 通过结合语音辨识 AI 和 Claude API 的技术架构，解决了这些课题。 ■ 为何坚持「语音」？ 面试是「说话」的场合。即使在脑中思考好答案并以文本输入，也未必能在实际面试中流畅表达。说出口时逻辑崩溃、时间分配不当、赘词增多——这些都是不实际说出来就难以察觉的课题。 Mentai 坚持语音输入的原因就在于此。通过用户对着麦克风说话，提供无限接近实际面试的 AI 面试练习环境。 ■ 技术流程：从语音到 AI 回馈的实现 在 Mentai 中，用户以语音回答后，到收到回馈为止，会经过 3 个 AI 处理步骤。 【步骤 1：语音录制（浏览器）】 在用户的浏览器上使用 MediaRecorder API 录制语音。无需安装专用应用程序，仅在浏览器中即可运行。录制期间会显示波形动画，让用户感受到「正在说话」的实感。 【步骤 2：语音辨识（OpenAI Whisper API）】 录制的语音会发送至服务器，并由 OpenAI Whisper API 进行文本转录。 日语面试回答中频繁出现专业术语（例如「微服务」、「CI/CD」、「Scrum」等）。通用语音辨识容易误辨这些技术术语，而 Whisper API 能够以高精度辨识它们。 在开发初期，曾出现「CI/CD」被辨识为片假名「シーアイシーディー」的问题，但通过将技术术语列表传递给 Whisper API 的 prompt 参数解决了。由于辨识精度会影响回馈品质，因此在语音辨识引擎的选择上特别讲究。 【步骤 3：AI 回馈生成（Anthropic Claude API）】 文本转录后的文本，连同问题内容和用户的个人数据（职位、经验水平、行业），会发送至 Anthropic Claude API。 Claude API 承担的并非仅仅是「批改」。它会根据工程师面试专属的 5 个评估轴（技术说明能力、逻辑结构、具体性、表达能力、流畅度）进行评分，并生成优点和改进点的具体评论。 此外，它还会根据问题类别（技术课题类、自我介绍类、志愿动机类等）自动调整各轴的评估权重，实现符合问题意图的精确 AI 面试准备回馈。 ■ 开发中追求的 UX 与评估设计 【将等待时间转化为「面试间隔」的 UX 设计】 在 Mentai 中，AI 处理的等待时间被融入体验中，视为「面试官思考的时间」。 在实际面试中，面试官听完回答后也会有一段思考时间。Mentai 重现了这种「间隔」，通过显示 AI 面试官「思考中」的点头动画，将 Whisper API 的语音辨识（平均 2～3 秒）和 Claude API 的回馈生成（平均 5～8 秒）合计约 10 秒的处理时间，转化为自然的仿真面试体验。 【符合工程师招聘现场的 5 轴评估设计】 Mentai 的 5 轴评估（技术说明能力、逻辑结构、具体性、表达能力、流畅度）是根据工程师面试经验者的访谈设计的。 最初是 3 轴（技术能力、逻辑性、表达能力），但后来发现「结合数字和团队规模的具体性」以及「赘词少、回答节奏流畅」是决定录取与否的关键点，因此扩展为 5 轴。 此外，通过根据问题类型自动调整「应重视技术说明能力的问题」和「考验表达能力的问题」等评估权重，实现了非划一性的回馈。 ■ 技术堆栈 层次 技术 角色 前端 Next.js（TypeScript） UI、语音录制、回馈显示 后端 Ruby on Rails（API 模式） 业务逻辑、API 语音辨识 OpenAI Whisper API 语音→文本转换 AI 评估 Anthropic Claude