自分の学会発表を録音してChatGPTに質疑応答の内容をまとめてもらう
先日参加した研究会で質疑応答の質問とそれに対する回答をwhisper.cppとChatGPTを使ってまとめたお話です。

3/8 (土) に福岡県北九州市で開催された学会に参加しました。
卒業研究の一部の成果を発表してきたのですが、その際の発表と質疑応答の内容を録音しておき、文字起こしをして、質問内容と自分の回答をまとめてもらいました。
学内の発表だと自分の指導教員がまとめて、後からSlackに投げてくれるのですが、今回は自分の指導教員が参加できなかったので、自分でなんとかするしかなかったのです (実際には学会に参加してた同じ大学の別の先生がまとめて後から送ってくれました...)。
今さら新鮮味がないかもしれませんが、役に立ったエピソードとして書き留めておこうと思います。
使用したツール
ボイスメモアプリ
iPhoneやiPadにプリインストールされているApple純正のボイスメモアプリです。録音できればなんでもいいです。
whisper.cpp
録音した音声データを文字起こしするために使用します。
ChatGPT-4o
文字起こしデータから内容を要約するために使用します。
今回はChatGPTを使用しましたが、他のLLMサービスでも試してみるのも良いと思います。
手順
録音
まず、iPhoneのボイスメモアプリで録音します。必要に応じて発表前後の不要な部分をカットします。
自分は、iPad ProのStage Manager上で、Keynoteのプレゼンターノートと、タイマーと、ボイスメモを同時に動かしていました。
すなわち、マイクの位置は、割と自分に近い状況をイメージしてもらうといいと思います。
音声を聞いてみましたが、決してクリアな音声ではなかったです。
文字起こし
whisper.cppで文字起こしをします。
GUIで使用できるアプリもあるようですが、有料だったりするので、GitHubからクローンしてきて、READMEに書いてある通りに環境をセットアップします。
モデルは、medium
を使いました。
マシンはM4 Proが搭載されたMac miniを使用しました。
本体は大学に置いてあったもので、SFTPで音声ファイルを転送、SSHでwhisper.cppを実行しました。
そのとき持っていたM2 Proが搭載されたMacBook Proでも全然問題なかったと思います。
要約
ChatGPTで、文字起こしデータを要約、質疑応答での質問とそれに対する回答のまとめを行いました。
感想
かなりの精度で驚きました。
この記事の冒頭にも書きましたが、後で別の先生がメモしてくれていた内容と比べましたが、記録としては申し分ないレベルのまとめ力でした。
音声の質、モデルの貧弱さ (?) の割にwhisper.cppの文字起こし精度が高く、加えてGPT-40の要約精度が高いからこそ実現できたのだと思います。
まとめ
実データを見せながらの解説はできませんでしたが、想像力でなんとなくイメージはしてもらえたのではないかと思います。
機会があればぜひ試してみてください。