#476 AIエージェントのためのテスト手法とその考え方

2026/7/1 ·

エピソード概要

ふるまいが確率で分岐するAIエージェントだからこそ、テストをしっかりやって品質を担保するのが重要になります。

しかし、テストが難しい！

ユーザーからの入力パターン、ツールの呼び出し、返答のためのアウトプット生成など、無限の可能性の組み合わせみたいな存在に対してどのようにテストをしていくのかという話をしていきます！

【参考書籍】

実践AIエージェント開発

-----------------------------------------------------------------------------------

お便りはこちらにラジオネームをご記入の上お送りください！

[email protected]

質問内容はなんでもOK！

今困っていることや、キャリアについて、これからエンジニアを目指すにあたっての悩みなどどしどしご連絡ください

こちらのGoogleフォームへの回答でもOKです！(

Xで「#ひまじんプログラマー」をつけてツイートしてくれたらめちゃくちゃやる気出ます！

よろしくお願いします！

-----------------------------------------------------------------------------------

オンラインコミュニティ「ひまプロ談話室」のお知らせ

ひまプロ談話室では絶賛メンバー募集中です。

エンジニア友達を探したい！アウトプットの場が欲しい！他のエンジニアから刺激をもらいたい！など、日々のエンジニアリング業務をもっと楽しくしたい方や、もっと成長できる環境が欲しいという方向けのコミュニティです。

以下のフォームからお申し込みできます。

ひまプロ談話室参加申込みフォーム

-----------------------------------------------------------------------------------

Xのフォローもよろしくお願いいたします！

・かいち

・のり

・じゅんぺい

-----------------------------------------------------------------------------------

BGM: MusMus様

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

00:00

この番組はエンジニアの成長は楽しい学びからをモットーに、昨日より少しだけ成長できる学びをお届けするエンタメ系テックラジオでございます。
00:08

でございます。お願いします。
00:10

さあ、今日はですね。
00:12

はい。
00:13

AIエージェント。
00:14

ほう。
00:15

のテスト方法についてお話をしてこうかなと思います。
00:19

AIエージェントのテスト。
00:20

はい。
00:21

あー、えーと、作る側の話ですかね。
00:24

作る側の話ですね。
00:26

うん、うん。
00:27

で、こちら、あの、参照してる本はですね。
00:29

はい。
00:30

えー、『Orally』から出てます『実践AIエージェント開発』という本でございます。
00:35

えーと、『おさる熱』でしたっけ。
00:37

『おさるの熱』です。
00:38

ああ、はい、はい、はい。むずそう、実践シリーズ。
00:41

難易度はね、そんな高くないんじゃないかな。
00:45

うーん。
00:46

あのー、0からのディープラーニングとかのほうがはるかに難しい気がする。
00:50

ああ、そうなんすね。
00:52

うん。
00:52

なんか印象的には0からのディープラーニングぐらいのことやらされるのかと思ってたんですけど。
00:56

うん、うん、うん、うん。
00:57

あ、ちなみにちょっとのりさん、すいません、感想だけ聞きたいんですけど。
01:00

はい。
01:01

のりさん的ほしい5分の何ぐらいの本ですか、これ。
01:05

うーんとね、4ぐらいすね、僕は。
01:08

ああ、じゃあそこそこ。
01:09

うん。
01:10

そこそこいいですね。
01:11

ただ、えーと、ちょっと懸念点というか、少し難しいなと思ってるのは。
01:16

はい。
01:17

なんかこれ時間の経過によって結構変わりそうだなっていうのはやっぱりあるというか。
01:21

うん、うん、うん。
01:22

あと、まあ最近実感してることとしては、あの、LLMのベンダーたちいるじゃないですか。
01:28

はい。
01:29

あの人たちが出すサービスがあまりにもなんかエージェンティックすぎて。
01:34

はい。
01:34

これ我々がなんか作る余地って今後あるんだろうかみたいな。
01:38

あー、分かるかも。
01:41

気持ちが少しあるかもしれない。
01:43

うん、うん、うん。まあニッチなね。
01:46

うん。
01:47

ユースケースでは、まあ自分たちで作るみたいなことになるのかなと勝手に思ってるんですけど。
01:52

うん、うん、うん。
01:53

まあ本当になんか、ね、指示文打つのめんどくさいとか。
01:57

うん。
01:57

で、あとはなんか、向こうからこの順番で質問してほしいとか、なんかもうそういうとこぐらいですよね、なんか余地。
02:04

そうなのよ。
02:05

うん。
02:05

ニッチ、そう、ニッチが残るなっていう。
02:08

はい。
02:08

まあそもそものこの本、どういう本かっていうとですね、まあ本当にAIエージェントを作るときの、えー、いろはが書かれてる本でございますと。
02:17

はい、はい、はい。
02:18

で、それこそAIエージェントがどういうアーキテクチャで作られてるかとか、じゃあそれらをどうやってテストするのかとか、じゃあ本番環境を乗せるためにはどういうステップ踏んでって、えー、実際にこうデリバリーをしていくのかみたいな。結構包括的なものになっていて。多分これ単体読んだだけだとAIエージェント作りきるのむずいなと思ってて。
02:38

うん。
02:38

こっから1回ちょっと気合を入れて、あのー、1エージェント作るぐらいのね、なんだ、1歩が必要かもなっていう感覚はありますね。
02:46

うん、うん、うん。
02:48

うん。
02:48

なんか実際に運用してから出てくる知らんがなみたいなやつもありそうですよね。
02:53

ありそう。
02:54

なんか今までのものと違いすぎて。
02:57

うん、うん、うん、うん、うん。
02:58

そうだね。あとね、やっぱり出てくるソースコードがどうしてもね、シンプルなんすよね、結構。
03:04

ああ、そうなんすね。
03:05

うん。そんなにね、なんか分厚いわけでもなくて。
03:08

うん。
03:10

300ページちょいかな、これ。
03:12

うーん。
03:13

まあ薄くもないんですけど。
03:15

並みの『Orally』、『Bonson』ぐらいですか。
03:17

じゃないかな。
03:18

はい、はい。
03:19

なので、そのー、コードがあんまりこう複雑な事例では出てこない。
03:24

そんなに複雑になるんすかね、コードって。そこまんま分かってないです。
03:28

あんまならないのかもしれないなあ。
03:30

うん。
03:31

もしかすると。
03:32

うん、うん。
03:33

なんか基本的にあの、LangGraphっていうフレームワーク、エージェントフレームワーク使って書いてて。
03:37

はい。
03:38

で、えー、なんとなく、あ、こういうふうに使うんだみたいなのをイメージつかめるんですけど、ほんとにこんなシンプルなのかって思いながら書いてる自分がいたから。
03:47

うん、うん、うん。
03:48

まあもうちょい、うーん、自分でこう試行錯誤しながらやってかないと、実践で使えるようなものはちょっと難しそうっていう印象ですね。
03:57

うん、うん、うん。
03:58

うん。ただ、そのアーキテクチャとかがけ、結構分かりやすいので。
04:04

はい。
04:05

あー、こういうふうに作ってけば確かにちゃんと動きそうっていう感覚はつかめると思います。
04:10

うん。なるほど。
04:11

うん。で、その中でもね、ちょっと僕的にはね、テストのところが結構普通のシステム開発とちょっと毛色異なるなって感覚がありまして。
04:21

うん。
04:22

なのでちょっと今日はね、その話をしていくという回にしようかなと思います。
04:26

気になります。
04:27

個人的にはこのAIエージェントのテストって、通常のシステムより結構難しいなっていう印象なんですよ。
04:33

いわゆる決定論的じゃなさそうですよね。
04:36

まさにそのとおりで。もうユーザーの入力もさ、結構無限の可能性を秘めてるじゃないですか。
04:43

はい。
04:44

大体、あの、自然言語で指示出すと思うので。
04:47

うん。
04:48

もうまず入力のパターンが無限の可能性を秘めてると。
04:51

うん。
04:52

で、それに応じて、まあエージェントなんでいろんなツール使ったりとか、必要に応じてメモリ参照したりとか。
04:58

うん。
04:58

っていうようないろんなパスがあって、最終的に出てくる出力にも無限の可能性があるっていう。
05:04

なんか多段に、ね、LLM挟んでる時点で、なんか。
05:09

うん。
05:09

もう同じ入力しても同じ出力出るんかとかも、なんか怪しいんじゃないかと思ってしまう。
05:15

うん、そう、そうなんです。そうなんですよ。なんで品質担保するなら余計テスト重要だし、重要なのに難しいなと思って。
05:23

うん。
05:24

いますと。
05:25

はい。
05:26

ただこれも分解すると、あ、確かにこうしたらいけるのかもっていう気持ちが少し湧いてくるんで。
05:32

うん。
05:32

まあ今日は、あー、テストするならそうやればいいのかっていうような感覚をつかんでもらいたいなという気持ちですね。
05:38

気になりますね。お願いします。
05:40

はい。まずAIエージェントの、えー、簡単にモジュールというか、えー、大体AIエージェントってどうやって作ってんのよっていうところからね、お話しします。
05:49

はい。
05:50

まずモジュール。これはですね、えー、全部で一般的には5個のモジュールに分かれてます。
05:56

そんなあるんすね。
05:58

はい。で、1つこれ分かりやすいのはモデルですね。
06:01

分かりやすい。
06:02

うん。もうClaudeとかChatGPT 5.5とかそういうやつですね。
06:07

うん。
06:07

続いてツール。
06:09

あ、ツールね。
06:10

ツールもまあ最近はClaude Codeとか使ってたらバシバシ出てくると思うので、イメージつきやすい部分ではあるかなと思うんですけど。ツールに関して言うと、何個かあって。まあローカル関数の場合もあれば。
06:23

うん。
06:24

えー、シンプルにAPIのケースもあれば。
06:26

うん。
06:27

MCP作られてる場合もありますよねと。
06:29

うん。
06:30

まあそういった、えーと、モデルが使うためのプログラム。
06:34

うん。
06:34

のことをツールと呼びますよと。
06:36

うん。
06:37

で、これはモデル単体だとどうしても非決定論的になってしまう。確率に依存した形になってしまうっていうところを、こうなるべくプログラムによって、えーと、予測可能な形にしたいよねっていうところから、まあいろんなことができるようにツールがたくさん用意されてるというわけですね。
06:55

なんか分かりやすいのなんかないんすかね。やっぱ計算とかはそうなんでしょうけど。
06:59

ああ。
07:00

お金の計算とか。
07:01

はい、はい、はい。なんかプルリク作るとかもスキルな、スキルっていうか、まあツールに入るんじゃないですかね。
07:07

ああ、その文面はAI、モデルが考えるけど。
07:12

うん。
07:12

ギットハブのAPI叩いてうんぬんかんぬんはツールがやるってことっすね。
07:16

そう、そう、そう、そう、そう、そう。
07:18

確かに。
07:19

とか。あとは最新のドキュメント参照とかも、まあMCPあるじゃないですか、Context7みたいな。
07:25

うん。
07:26

ああいうのもまあツールですよね。
07:28

そうですね。
07:29

うん。で、あとは、えー、モジュールその3、メモリ。
07:33

メモリ。
07:34

はい。メモリはね、えー、長期のメモリと短期のメモリがあるんですけど。
07:39

うん。
07:40

例えばLLMと会話してるその、まさに会話の流れありますよね。
07:45

はい。
07:46

まあこれも短期的なメモリに入りますと。
07:48

うん、うん、うん。
07:50

あとは、えー、これまでのなんか記憶をこう保存する機能があったりとか。あとは別にその機能に関してじゃなくても、えーと、AIエージェントの場合だと、例えば過去にこういうやり取りあったよねみたいなところをこうデータベースに蓄積してったりとか。
08:04

うん。
08:05

まあそういうのをやってく、まあ部分がこうメモリですね。
08:08

なんかやっぱ聞けば聞くほど。
08:10

うん。
08:10

そのAIモデルとやり取りをするネイティブチャットアプリっていうんですか、あの。
08:14

うん、うん、うん。
08:15

あれ。
08:16

うん。
08:17

あれーですね。
08:19

もうね、あれはエージェントですよ。
08:21

本当に、完全に。
08:23

えっと、ツールもあって。
08:24

うん。
08:25

で、メモリも、まあ設定でオンオフできますけど、短期メモリはチャットの中で生きてるし。長期メモリは、あのー、なんかAIに学習させるようにしますかみたいな。
08:34

うん、うん、うん、うん。
08:35

ところに当たるイメージで合ってますか。学習っていうのはあの。
08:38

学習させますか。
08:38

覚えとくみたいな。そのキャラクターを。
08:40

はい。
08:41

名前覚えてもらえるとか。
08:42

うん、うん。
08:42

そういえば別のチャットでこういうこと言ってたからこういうの言おうみたいなことをしてくれるみたいなやつ。
08:48

そうね。あれもね、もちろんメモリですね。
08:50

うん、うん。
08:50

あと。
08:51

えー、例えばコード中にさ、あの、保存されてるドキュメント系とかも、まあメモリと言ってしまえばメモリなのかなって気がしますけどね。
08:59

うん、うん、うん、うん。
09:00

あの、AIの、まあAgent.mdとかClaude.mdとか。
09:04

はい、はい。
09:05

あれも言ってしまえばメモリだよねっていう。
09:07

確かに。まあほんとにモデルが処理するときに食わせる事前情報を。
09:12

うん。
09:13

セッション単位で持ってるか、セッション横断で持つかみたいな。
09:17

うん。
09:18

感じなんすね。
09:19

そう、そう。
09:19

はい。
09:19

そう、そう、そう、そう、そう。
09:21

で、えー、モジュールその4。
09:23

あと1個なんだ。今まで出てきてないの。UI。
09:28

UIではない。
09:29

えー、オーケストレーションです。
09:31

あー、なるほど。オーケストレーションか。
09:35

はい。プランニングとも呼ばれてるんですけど。えーと、要はどのタイミングでモデルを呼ぶかとか。
09:42

うん。
09:42

えーと、どのタイミングでツール呼ぶかとかメモリとか参照するかみたいなところの流れをコントロールしてる、えー、コントローラ的なブレインですね。
09:52

うん、うん、うん。そのブレインは。
09:55

うん。
09:56

モデルを使って実現されるものなのか。
09:59

うん。
09:59

はたまた別のなんかプログラムで実現されるものなのかで言うとどっちですか。
10:03

えーとね、これは双方関係してると思います。
10:07

ほう、どういうことですか。
10:09

まず、まあモデルってこう自分で考えて呼ぶツールとかメモリとかなんか選択してるじゃないですか。
10:14

はい。
10:15

なんですけど、実際になんかLangGraphとか書くとめっちゃ分かりやすいんですけど。あれってモデルに何のツール使わせるかを判定させて。
10:24

うん。
10:24

で、えー、戻ってきた、えーと、値を元になんか条件分岐させてツールを呼ぶみたいなことしてるんすね。
10:31

はい、はい、はい。
10:32

なんで、モデルも考えてるし、え、そのモデルの決定を実際に動かしてるのがオーケストレーションの部分っていうイメージかな。
10:40

AIエージェントの開発で言うと、そのオーケストレーションを作るっていうフェーズがあるんですよね。
10:46

ありますね。
10:48

で、そのオーケストレーションを作るっていうのは、なんか例えば具体的にどんな感じで作るんですか。
10:54

えーとですね、オーケストレーションに関して言うといろんなパターンがあって。
10:59

はい。
11:00

えーと、じゃあ例えばツールを呼び出すにしても、いろんな呼び出しのパターンあるんですよ。
11:06

ほう。
11:07

で、えー、これはなんか結構ね、デザインパターンに近い感じなんですけど。1つはシンプルなやつ、単一ツール実行。
11:15

うん。
11:16

って呼ばれてるものだと、まあほんとに単一のツールを実行してその結果を渡すだけのもう一直線。
11:21

うん、うん。
11:22

ほぼオーケストレーションしてる意味ないだろぐらいのやつですね。
11:25

うん、うん。
11:27

で、えっと、まあちょっとこれだけだと分かりにくいんですけど、えー、ほかのパターンでも並行ツール実行とかグラフっていうパターンがあって。
11:35

うん。
11:36

並行ツール実行は、まあ同時に一気に何個もツールを呼び出して、全部の結果を集めてから、えー、それを、え、モデルに渡して、えー、推論させるみたいな。
11:46

うん。
11:47

っていうようなことをやったりとか。あとグラフの場合だと、えーと、この条件のときはこのツールを呼び出すみたいなのがある、あらかじめそのコードで書かれていて。で、えーと、まあその判断をそもそも、えーと、モデルがやったりとか。まあそういう呼び出しの順番みたいなやつってなんかある程度こう書かれてるんすよね、コードで。
12:06

はい、はい。
12:07

そういういろんな呼び出しのツールのパターンがあって、それをあらかじめ定義しておくためのやつっていう感じっすね、オーケストレーション。
12:15

えっと、Claude Codeとかで言うと、まあどのAIコーディングエージェントでもあると思うんすけど、エージェントとサブエージェントみたいなのがあると思うんすけど。
12:23

うん、うん、うん。
12:24

なんかエージェントとサブエージェントでいうそのサブエージェントの親玉。
12:28

うん。
12:29

の、そのだからモデルからモデルを呼び出す親モデルって。
12:34

うん、うん。
12:34

オーケストレーションに入りますか。
12:37

入りますね。
12:38

ああ、じゃあそれも入るっすね。じゃあほんとにあのモデルの外側にある、まあまずなんか、えーとこのモデルを。
12:45

うん。
12:45

呼び出してこういう作業をさせますみたいなところも。
12:49

うん。
12:50

オーケストレーションだし。
12:52

うん。
12:52

その中でモデルがなんか最終的にどういう判断をする。例えばA、B、Cいずれかのツールを呼び出してくださいみたいなのをモデルに投げて、モデルが判断するのもオーケストレーションっていうCっていう。
13:04

ああ、そう、そう、そう、そう。
13:06

AIエージェント全体の作業を、まあオーケストレーションする。なんて言うんだ。えー、まあコントロールするところを。
13:15

そうっすね。
13:16

オーケストレーションと呼ぶ感じなんすね。
13:18

そうですね。
13:19

じゃあもうそうするとやっぱMeC警察が出てきますね。
13:22

あー、まあそれはあり得るかも。
13:24

はい。なんか全部ひっくるめてって感じがしますけど。なんかはい、感覚分かりました。
13:29

まあそれで言うとね、あのMeC警察はもうモデルとツールの時点から実はあって。
13:34

ほう。
13:35

さっきで言うサブエージェントは要はツールみたいなもんなんすよね。そのエージェント、別のエージェントから見たエージェントは。
13:42

ああ、そうなんですか。へー。
13:45

はい。
13:45

なるほど。
13:45

うん。
13:46

じゃあ警察ですね。
13:48

だからここはね、結構。ちなみに次もね、警察出てくると思います。
13:53

分かりました。ちょっと警察ちょっと構えときます。
13:56

警察構えといたほうがいいっす。
13:57

分かりました。
13:58

はい。で、次のモジュールが、まあ最後なんすけど、学習の仕組みっすね。
14:03

学習の仕組み。
14:04

はい。
14:05

はい、はい、はい。
14:06

これはエージェントがその活動を通じてどんどんレベルアップしていくための仕組みみたいな。
14:12

うん、うん、うん、うん。
14:14

で、えー、まあじゃあそれって何するのっていうので、まあ2パターンあるんすけど、パラメトリック手法とノンパラメトリック手法ってのがあって。
14:21

あ、MeCですね。
14:22

あそこはね。そこはMeC。
14:26

はい。
14:26

うん。MeC警察すぎるだろ。まあここのパラメトリックは、まあほんとにファインチューニングみたいなのが分かりやすいっすよね。
14:35

もうちょっと詳しくお願いします。
14:36

えーとね、パラメトリック手法ってのは要はそのモデルのパラメーターをいじって、えーと、エージェントの動きを調整しますよっていう学習手法ですと。
14:45

うん、うん。
14:46

で、これは1番分かりやすいのだとファインチューニング。例えば教師ありデータを、うん、教師ありデータ。
14:52

教師あり学習。
14:53

まあほんとにモデルを再学習させるみたいな感じっすね。
14:55

はい。もう出来上がってるやつに対して、めっちゃ優秀なやつに対して追加で。
15:00

うん。
15:00

やってっていう。
15:02

そう。
15:02

プリトレインドなモデルに対してみたいなやつですね。
15:05

ああ、そう、そう、そう、そう。で、それをやることによって例えばドメイン特化させたりとか。
15:09

うん。
15:09

っていうようなことをやったりとかしますよっていうのがパラメトリック手法で。ノンパラメトリック手法は、まあめっちゃ雑に言ってしまえばプロンプトをいじりますよっていうほうに近いかもしれない。
15:20

うーん。なんか一般的にはこっちのがやりそう。
15:23

まずはこっちをやってくださいって推奨されてます。
15:26

そうですよね。
15:27

うん。
15:28

モデルって超デリケートだからな。
15:30

モデル超デリケートだし、あとアップデートとかのことも考えないといけないんで。
15:35

確かに。
15:36

モデル自体の。
15:37

確かに。なんか1年持たなそう。
15:39

そう。だからね、パラメトリック手法はマジで最終奥義ですぐらいで念押しされますね。
15:44

ああ、でもいいですね、それは。すごい大事なことですね。
15:47

そう。で、この学習っていうのは、えー、いろんな方法あるんですけど、例えば毎回毎回こうAIに振り返らせて。
15:54

うん。
15:55

えー、プロンプト調整してくってこともできますし。
15:57

うん。
15:58

複数のデータをバーって蓄積して、その中から見つけたインサイトをこう反映させるっていう手法とかもありますし。
16:05

ふーん。
16:06

まあ今のはね、1回なのかバッチなのかの違いみたいなところはあるけど。
16:10

なんかその蓄積してったっていうのは、なんかいわゆるそのお客さんというかユーザーが実際に使ってる中で、なんかたまーにこのやり取りの日は1から5で評価してねみたいなのを食わせて。で、そのうちなんか1とか2つけられたやつ分析して。
16:26

うん。
16:27

その1から2が少し良くなるように、まあAI自身にちょっと振り返らせて改善するみたいなイメージですか。
16:34

もあるし、えっと単純に例えばツールの呼び出しとかでエラーが出たときに。
16:39

ああ、なるほど。
16:40

えっとそれを振り返らせるみたいなこともありえますね。
16:42

それは確かに分かりやすいな。
16:44

とかあとあのーChatGPTとかさ、なんか2択の回答出してきてさ、どっちがいいですかみたいな聞いてくるやつあるじゃないですか。
16:51

はい。
16:52

あれとかもあのーその学習に使ってると思われますね。
16:56

うーん、なるほどね。
16:57

で、これはそういう学習内容とかをメモリに保存してるので、まあそのへんはまあMeCではないなっていう感じですね。
17:05

うん、うん、うん、うん。
17:06

うん。
17:06

なんかオーケストレーションとツールの一部と。
17:11

うん。
17:12

えーと、なんだっけ、学習するための仕組み。
17:16

うん。
17:16

っていうのがまずあって。
17:18

うん。
17:18

オーケストレーションの下になんかモデルやら。
17:21

うん、うん。
17:22

なんなのか。ほかになん、ほかに何ありましたっけ。
17:25

えー、モデル、ツール、メモリ、オーケストレーション、学習っすね。
17:29

みたいななんかイメージをしました。
17:31

うん。
17:32

まあはい。でもだいぶ、だいぶ、だいぶ解像度が上がりました。
17:36

はい。で、これらの、えっと、まあモジュールがあって、それをテストしていけますよと。
17:42

うん。
17:43

いう話なんですよ。ちょ、テストの前段階でめちゃくちゃ時間使ってるんですけど。
17:48

はい。まあでもこのぐらい必要かなと思います。
17:52

で、単体テストとE2Eテスト。
17:54

うん。
17:55

どっちも大事です。
17:56

はい。
17:57

ただ、なんかこれシステムテスト、システム、ん？ソフトウェアのテスト？いや、でもこれもソフトウェアだからなんと言うんだろう。これまでのプログラムのテスト。
18:06

はい。
18:06

の単体テストとかとちょっとイメージ違うかも。
18:09

へー。
18:10

まあ関数単体ではないというか。
18:12

あー、まあじゃあなんか内部結合テストみたいになってるんですね、その。
18:17

うん。
18:18

一部のモジュールをバコッと取り出してそれの単位でやるみたいな。
18:21

うん。てかなんならまあこれちょっとE2Eの中でやってんじゃないかなぐらいの気持ちもあるんですけど。
18:26

ほう。
18:27

まずモデルは、あのー、まあ基本モデルベンダーがやってるんであんまここはテストできないはず。
18:34

うん。
18:34

てかまあこの本には書かれてなかったっすね。
18:37

うん、うん、うん。
18:37

まあできるとしたらなんだろうね。まあ自分たちのタスクがどれくらいこれに向いてるかみたいなのをなんか質問投げまくってテストとかはできるかもしんないけど。
18:45

うん。
18:46

まあテストしたとて、あの改善というか、まあモデル差し替えみたいなことしかできないしねっていう。
18:52

まあでも差し替えはまあ大事なんじゃないですかね。
18:55

まあ確かに。
18:56

うん。
18:56

うん。なんでまあモデルはまあベンダーがやってくれよっていう範囲かなと。
19:02

うん。
19:03

で、えーとツール。ツールはこれテストしやすいっすね。あのツール単体がまあ、あのある程度こう動作が決定論的なものが多いので。
19:12

うん。
19:13

これはほんとに入力に対して出力が期待値どおりかっていうのをまあテストできるはずですと。
19:19

そうですね。もうツールに関しては。
19:22

うん。
19:23

もうそっちはそっちの領域でユニットテストやらE2Eテストがされる感じですね。
19:29

そうだね。だからそっちのE2Eテストがこのモジュールの単体テストに近いかもしんない、イメージ。
19:34

うん、うん。MCPとかテスト超簡単だろうな、多分。
19:38

あー、えっと。
19:39

ほぼないんじゃないか、テストパス。
19:41

あー、そのレイヤーでってことか。
19:42

はい。
19:43

うん。
19:43

てか、ど、ん？テスト、そうだよな。
19:47

うん。
19:47

なんか実際に何呼ぶかはモデルがやるから。
19:50

まあそうだね。
19:51

まああんまりなんかMCPも単体で、まあテストしないわけ、絶対入れないとは言わないっすけど、そんなに価値なさそうだな。
19:58

うん。で、続いてオーケストレーションのテスト。
20:01

単体？
20:02

はい。
20:03

オーケストレーション単体？
20:05

単体。
20:06

え、モデルが中には入ってますよね？
20:09

えー、入ってます。
20:10

なんかオーケストレーションのテストとE2Eのテストの違いがちょっとあんまりイメージつかないっすね。
20:15

うーん、それで言うと、プラン、えー、このオーケストレーションのテストに関して言うと、モデルとオーケストレーションをテストしてるに近いかもしんない。
20:24

ほう。
20:25

だからまあさっきのあの、まあ要は結局これMeCじゃないよねっていうところがめちゃくちゃ影響してると思うんだけど。
20:30

はい。
20:31

オーケストレーションって単体だと、あのー、そんなに何もないから。
20:35

はい。そのイメージ。
20:37

だから結局、うーん、モデルは使う。
20:41

うん。はい。
20:42

で、ここでは何をテストするかというと、ツールの呼び出しをテストするんすよ。
20:47

まあ、なんか処理が流れるかなみたいなことですか、ちゃんとその意図したとおりに。
20:51

えっとそう。で、えー、もうちょい具体的に言うと、正しいツールを無駄なく適切、適切なパラメーターで呼び出せたかどうかをテストするっていう。
21:00

あー、なるほど。じゃあ、あの動かしたあとの間のここの処理、なんの引数、引数っていうかパラメーターを。
21:07

うん。
21:08

渡してるかなみたいな目まで。
21:10

うん。
21:11

見るってことですね？
21:12

そう。で、えーとあとはその正しいツール全部呼び出せてるかどうかとか。あと逆に無駄なツールを呼び出してないかとか。
21:21

うん。
21:22

そういうのも含めて、えー、ツール呼び出しのところをテストしていく感じになりますね。
21:26

すいません、なんのフレームワーク使ってるって言いましたっけ？ラングチェーン？
21:29

えーとね、ランググラフ。
21:30

ランググラフ？
21:31

うん。
21:31

ランググラフ、Pythonですか？
21:33

Python。てかあのー、ラングチェーンの発展バージョンみたいなやつ。
21:37

だからPythonもあれですよね、なんかそのパラメーター見るテストかけるんでPytestって。
21:43

うん、うん、うん。
21:44

そういうのでなんか見ていく感じなんですかね？
21:46

ログの取り方はどうなるんだろうな。
21:49

Mockとかするのかな。Mockとかしないのかな、それ。パラメーター見るのは多分Mockしなきゃいけないから。Mockとかはしないのかな。
21:57

そこまではね、書いてなかったな、でも。
22:00

でもMockしないとパラメーター見れないよな、多分。
22:04

スパイとかねじ込むのかな。
22:06

ね。とかは思いますけど。まあでもそこまでするんかっていう。なんか結果良ければすべて良しにするのか。
22:12

うん。
22:13

そこまで見るかっていうところですね。
22:15

うん、うん、うん、うん。
22:16

まあなんかモデル挟むならなんか見といてもいい気がするけどな。
22:19

うん。
22:21

なんか今後多分新しいモデル出たり、あとはなんかコストダウンのために、じゃあちょっとClaudeからGPTに変えましょうみたいなのがあったときに。
22:28

うん。
22:29

やっぱなんか細かいとこ見たいはずなんで、多分。
22:32

うん、うん、うん、うん、うん。
22:34

そういうことはやっとくのかなって素人は思いました。
22:39

うーん。まあちょっと具体的な手法はちょっと煮え切らない感じになってるんですけど。
22:44

はい。
22:44

チェックしたい項目はそのへんっていう感じですね。
22:47

うん、うん。
22:48

で、あとメモリのテスト。
22:50

メモリのテスト？
22:52

うん。
22:52

残ってるかをテストするのか？
22:56

あ、そういうこと、そういうこと。
22:57

あー、なるほど。
22:58

だから書き込んだデータがちゃんとそこから正しく取得できるかとか。
23:02

うん。
23:03

あと、えーっと、こ、これはどうやってテストするんだろうなっていう疑問はやや残ってるんですけど。あのデータ量が増大したりとか、あと状況が複雑になったときにも適切にほしい情報を取り出せるかっていう。
23:16

へー。えー。なんかこのモデルはこの情報まで取れるけど、このモデルはこの情報まで取れないみたいなのがあると思ってて。
23:27

あー。
23:28

多分コンテキストが増えると。
23:29

いや、えっとね、これモデルというか、これはね、多分データベースとかになると思うよ。
23:35

あ、そうなんですか。
23:37

うん。
23:39

あんまりちょ、データベースって言ってるのって。
23:42

うん。
23:43

NoSQLのなんかのデータベースですか。
23:45

えっとね、ベクトルデータベースっぽいことは書かれてる。
23:51

で、そのベクトルデータベースからデータを参照するのって。
23:55

うん。
23:55

モデルがツールを経由して参照するんすよね、なんか。
23:59

あー、てか待って、これね、えーとデータベースで言うと、まず複数あるわ。
24:05

はい、はい、はい、はい。
24:06

あの普通に、あのなんだ、ナレッジとして保存しておきたい情報とかもあるだろうから。
24:11

そうですね。
24:12

うん。あれ、ちょっと待って、今なんだっけ、質問なんだっけ。
24:16

データベースってNoSQLか何か？
24:19

あー、まあそれは場合によるんじゃないかな。多分、えー、RDBの場合もあるだろうし。
24:25

はい。
24:27

NoSQLのケースもあると思う。
24:29

はい、はい。まあでもデータベースエンジンがある何かのことをやっぱ指すんですよね？
24:33

うん。
24:33

で、そこにアクセスするのはモデルが直接行ってるわけじゃなくて、ツール経由でモデルがデータを見に行くってことですよね？
24:41

そうなる。
24:42

で、つまりデータベースにはなんかデータは多分とにかく蓄積されていって。
24:47

うん。
24:48

で、そこから適切なデータが参照できるかってモデルのさじ加減ってことで合ってますか。
24:55

モデルのさじ加減なのかな。いや、でもセマンティック検索とかした結果正しい情報が取れてるかとかなんじゃないかな。
25:03

セマンティック検索とは？
25:05

えーと、あれですね、あのーベクトルデータベースとかにまず情報を埋め込むじゃないですか。
25:13

はい。
25:14

で、えーそれを取り出すときの検索手法というか。
25:19

はい。
25:20

要は意味的に近いものが取られるみたいな。
25:22

うん、うん、うん。
25:23

ベクトル検索っすね。
25:26

あー、じゃあそれはなんか何かしらの距離計算がプログラム的にされて。
25:31

うん。
25:31

で、それで近いものの上位何件か未伝数を。
25:34

うん。
25:34

バコッと渡すみたいな。
25:36

あー、そう、そうだと思う。
25:37

あー、それは確かにモデル関係ないかもしんないっすね。
25:41

そう、そっちの取り出し側の、えーテストと思われる。っていうのも、えーとじゃあそのなんだ、データ量が増大したりとか状況が複雑になったりしても正常に動くかっていうのを試すためにいろんなことをするらしいんすけど。
25:54

うん。
25:54

書き込んですぐ取得するみたいなことをやったりとか。あと時間、時間を置いて取得するみたいなことやったりとか。
26:03

それで変わるんすね？変わる可能性があるからやるんすね、そんなこと。
26:07

まあ忘却されないようにみたいなことなんじゃないかな。
26:09

あー、データベースはなんか永続的に残るものではなくて。
26:13

うん。
26:14

なんか永続的じゃないし、なんなら鮮度も何かしらの優先順位に関わるってことなんすね？
26:20

えーとね。
26:21

その可能性があるというか。
26:22

多分それ、これも使ってるデータベースによるんじゃないかなって気がするんだけど。
26:26

あ、でもエンジニアがそういう情報をキャッシュに残しておくみたいな仕組みになってる場合とかだったら。
26:31

はい。
26:31

ほかの処理挟んだことによってそのキャッシュが吹き飛ばないかどうかみたいなこともテストするだろうしっていうイメージかな。
26:37

へー、めんどくさ。
26:39

うん。めんどくさいね、それは。めんどくさいっすね。
26:43

そう。で、あとなんか、うーん、検索の精度みたいなところもテストするんですけど。
26:49

はい。
26:50

えーっと、例えばじゃあなんか同じような情報が時系列順にいろいろ入ってたとして。
26:55

うん。
26:55

古い情報を取ってしまわないかとか。
26:58

うん。
26:59

あとは言い回しとか意味が似てるけど関係ないデータとかが引っ張ってこられないかとか。
27:04

うん、うん、うん、うん。
27:06

そういう検索精度の部分をテストすることもあるし。あとは大量に情報が入ったときに、あのー検索時間がかかりすぎて、あの性能が落ちないかどうかみたいな。なんかこれはまあ普通に性能テストみたいな。
27:19

はい、はい。
27:20

のをやることもあるしっていう。
27:22

へー、おもろ。
27:25

で、あとあれだね、あのーデータベースとかが例えば止まってて、えー、あーちょっとこれは単体と言えるのかどうか微妙なんだけど。データベース、データベースが利用できない状況になってるときに、えーとエージェントが変な動きしないかとか。
27:43

あー、まあ異常系の。
27:45

うん。
27:45

テストですね。
27:46

そう、そう、そう、そう。へー、あーでもなんか、なるほど。
27:51

うん。
27:51

なるほどね。なんか、ま、モデルっていう不確実なやつが入り込んでるせいで、なんかやっぱユニットテストというよりは、なんだろうな、なんか非機能試験味があるというか。
28:03

あるね、そう。だからなんかユニット、ユニット、まあ単体テストとは呼ばれてたんだけど、あんまりこれまでのシステムどおりのなんか単体テストとは考えないほうが良いかなっていう。
28:13

うん、うん。そうですね。
28:15

うん。やっぱなんかデータ量が多いときにどうなるかとかってね。
28:19

うん、うん。
28:20

機能試験じゃ絶対やんないから。
28:22

これあれかもね、NotebookLMをテストしようと思ったときになんか想像すると分かりやすいかもしれないな。
28:29

あ、そうなんだ。なんかNotebook...
28:31

面白くないっすか。
28:32

ね、NotebookLMってさ、結構その保存したさ。
28:36

はい。
28:36

あのソースに対して忠実に回答するみたいな。
28:39

はい、はい。
28:39

守られてるじゃないっすか。
28:41

はい。
28:41

だから多分これって、えーとメモリ機能としてはその保存されたファイルに対してのアクセスだと思うんすよ。
28:47

うん。
28:48

で、一方例えばじゃあこの障害に対するロバスト性みたいなのをテストしないといけないってなったときは、例えばそのファイルにアクセスできなかったときに、モデルが持ってる知識で回答しちゃわないかどうかのテストをしてるみたいな。
29:01

うん。
29:02

まあきっとそういうことをしてるんだろうなっていう。
29:04

うん、うん、うん。
29:05

なるほど。
29:06

うん。
29:07

いや、おもしろいですね。
29:09

奥深いっすよね、これ。
29:11

これなんかまだどうなんだろう、ちょっと手探り感あるんで。
29:15

うん、うん、うん。
29:16

今後もうちょっと整備されてくんじゃないかな。
29:19

うーん。いや、絶対まだ発展段階でしょうね、このへんは。
29:24

そうですね。
29:26

で、あとラスト、あの学習に対しても単体テストあるんですけど。
29:31

ん？学習に対するテスト？
29:34

学習に対するテスト？
29:35

どういうこと？
29:37

えっと、これはまあ、うーん、まあパラメトリックもノンパラメトリックもそうなんだけど、学習したことによって。
29:44

はい。
29:44

まあソースとかパラメーターがちゃんと更新されてるかどうかのテストとか。
29:48

うん。
29:49

あとは、えーそれをやったことによって一般化性能が落ちてないかの検証とか。
29:55

へー。このぐらいの授業をしたんだから、こいつはこのぐらい算数の点数が上がるだろう。そして国語の点数は下がんねえだろうっていうテストするんすね？
30:08

そう、そう、そう、そう、そう、そう。
30:11

いいですね。
30:12

シビアな世界ですね。
30:12

そう。まあっていうのを、まあ単体としてはまず積み上げていきますよと。
30:18

だから結構意味あんのかな、それ。なんか算数の点数、このぐらい上がるかもしんないですけど。
30:24

うん、うん、うん。
30:25

それでもなんか別の算数のテストしたら下がってるかもしんないし。
30:28

うん。
30:29

だから別の国語のテストしたら、あとなんだ、だから、えー数歩の白い馬のテストの点数は下がんないけど。
30:36

うん。
30:37

権吉野の点数下がるみたいなことありそうじゃないですか。
30:40

ありますね。
30:41

ってことは。
30:42

うん。
30:43

それはテストとして機能してるのかという。
30:45

まあでも全部テストしきるのはそもそも無理なんじゃないかなっていうスタンスでやんなきゃいけない気がする。
30:51

うん、うん。
30:52

うん。
30:53

まあやんないよりはいいよねみたいな考え方なんすかね？
30:56

と思うよ。
30:57

うん、まあ確かに派手にぶっ壊れたときはちょっと気づきたいっすね、さすがに。
31:00

そう、そう、そう、そう、そう、そう。
31:02

うん。まあそれはあるか。
31:03

で、その上で単体やった上でE2Eやる必要がありますよと。
31:08

うん。
31:10

結局それぞれのモジュールが全部確率論的に動くので、モデルが関わってくることによって。
31:16

はい。
31:17

ってなったときにE2Eテストで一貫性をまずテストしましょうと。
31:22

うわー、大変そうだなー。
31:24

で、ここで言う一貫性は、あのー入力が多少ぶれても、同じようなことを言ってるなら同じような回答をしてほしいっていう一貫性ですね。
31:35

うん、うん。
31:37

へー、じゃあ何回かやるんすね。
31:39

そう。
31:41

このへんはまあ、あのベクトル検索に近いような手法で一致してるかどうかをチェックしてったりとかするらしいっすね。
31:48

これずれてたらどうすんだろう。ユニットテストは通ってるけどE2Eでやってみたら一貫性がない、どうしようってなってどうしようってなりそう。
31:57

いやー、まああとそうなると、でもあれじゃない？結局その単体、単体の部分のさ、ログとかは残してるだろうから。
32:05

どこでずれたかを、が分かるか。
32:08

気合いで探すんじゃない？
32:10

はい、はい。
32:10

え、Diffyとか触ったことある？
32:12

ありますよ、はい。
32:13

あのーDiffyってなんかワークフローをこう、なんだ、ノーコードでつないでって。
32:18

フローズみたいな感じで。
32:20

うん。で、それでまあ自分でAIエージェントっぽい動き作れますよみたいなツールですと。で、えーと、あれって入力に対してレスポンス返ってくるチャットボット作れるんすけど。
32:32

うん。
32:32

えー各ノードで何を入力されて何を出力したかっていうログが事細かに残るんすね。
32:38

なんかね、クリックすると出るんすよね？そのパートを。
32:42

あ、そう、そう、そう、そう、そう、そう、そう。だから、なんか出力にな、なんか入力に対して出力変だなってなったとき、1個1個のノードが何の入力を受けて何を出力してるかをこうチェックしてって、あ、ここがおかしいんじゃいってなって直すみたいな。
32:56

うん、うん、うん。
32:57

そういうことをするんですけど、まあ結構それに近いことが今回だったら単体テストを積み上げてることによってできるんじゃないかなという。
33:04

まあ確かに。
33:05

うん。
33:06

あんまり作ったことないからだ、なんのかもしんないですけど、納期読みづらそうだな。なんかどっ、変なとこで詰まったりしそうだな。
33:13

うーん、納期ね、確かに。
33:15

はい。いや、おもしろい。
33:17

うーん。で、あとコヒーレンス。
33:22

ちょっと、あの聞いたことあるけどよく分かんないワードですね、コヒーレンス。
33:27

コヒーレンスも、あのー個人的にはコヒーレンスのほうが一貫性っぽいなって感じの意味だったんすけど。
33:34

はい。
33:34

これは会話のラリーの中で整合性整ってるかどうかっすね。
33:40

いや、評価もむずそうだな。どうやって評価するんだろう、それ。AIがやるのかな。
33:45

ああ、そう、AIがやる。
33:46

ああ、やっぱそうですよね。
33:47

あまあ人がやるケースもあるけど。
33:48

はい。
33:49

まあAIでやったほうがいいよねって言ってたね。
33:52

まあなんか人間はちょっとね。
33:54

うん。
33:55

職人じゃないとできないっすね。
33:57

し、あのー量やれないよね。
34:00

はい。ほんとに。
34:01

うん。
34:01

一貫、一貫性の鉄人じゃないと。
34:04

うん。
34:04

なんでこのコヒーレンスもチェックしていく必要があると。
34:07

うん。
34:08

で、あとハルシネーションチェック。
34:10

えー、それどうやるの？
34:13

これもAIでチェックするのと人力チェックしかないんじゃないって気するけどね。
34:19

まあそうですよね。
34:21

で、これはなるべくAIをだますような文言入れたりとか。
34:25

ほう、どういうことっすか。
34:27

じゃあちょっと飲食店の予約みたいなイメージでいいっすか。
34:31

はい。
34:32

例えば、うーんと7月1日の19時に食べ放題コースを予約したいんですが、いくらですかっていう質問を投げるとするじゃないっすか。
34:44

うん。
34:44

で、これってちょっと難しいポイントとしては、料金を聞いてるのか予約したいのかが分からないっていう。
34:51

あー、そうなんですね。なるほど。
34:54

分からないというか、えー、やる可能性がある。
34:58

はい、はい。うわ、なんか結構職人技ですね、それも。
35:03

そうだよね。
35:04

はい。そういうことなんすね。
35:06

で、こういう絶妙な質問したときにAIが、えー相手の意図をちゃんと汲み取れてるかどうかとか。
35:13

うわー。うわ、なんかセンスだな、それ。
35:18

あとこれなんかモデルの性能にもめっちゃ依存するなと思ってて。
35:21

そうですね。
35:22

昔のモデルだとさ、例えば、あのハルシネーションを起こさせたいときに。
35:27

はい。
35:28

あ、もう1回僕あのClaude本気であのだまそうとして。
35:32

え、何やってんすか。
35:33

あのいろんなこうハルシネーション起きやすい文章みたいなやつをこうChatGPTに作ってもらったんすよ。
35:39

はい。
35:40

そしたら例えば、その100年前にあのニュースになったあの空飛ぶ座布団の事例について教えてくださいっていう質問すると。
35:47

あー、なるほど。
35:48

あった前提で回答を作ろうとするみたいな。
35:51

うん、うん、うん、うん、うん。
35:52

ま、そういう系のやつをいろいろ試すとかだよね、多分このへんは。
35:56

うーん。
35:57

とかあとエイ、エージェントだったら、うーん目的があるじゃないっすか。
36:03

はい。
36:03

あ、汎用すぎなければ。
36:05

うん。
36:05

だからその目的と全然関係ないやつ。例えばなんか医療のサポートのためのAIエージェントに、えーおすすめのラーメン屋さん教えてくださいっつって。
36:14

うん。
36:15

どう回答してほしいかみたいな。
36:17

あー、なるほど。
36:19

ちょっとハルシネーションとは違ったかもしんないけど。
36:21

まあでも必要ですよね。
36:23

そう、そういうなんか一筋縄じゃいかない質問に対してちゃんとあの一貫性を持って期待した回答をしてくれるかどうかのテストをしなきゃいけない。
36:33

うーん、なんか一般的には何々以外は答えられませんって言ってよねっていうことになってるんですかね？
36:40

まあそうじゃないかな。
36:42

うん。
36:42

特に目的が明確なエージェントは。
36:45

はい。まあだからなんかいろんな角度の質問に対する、なんか、てかそういう作りのほうがテストしやすいですよね。
36:52

そう思う。そうだよね。
36:53

だから関係ないことを言ってきたものに対して、えーすごくウィットに、とん、飛んだ感じでうまくかわしてくださいみたいな。
37:01

うーん、うん、うん。
37:02

そういうことを意図してる場合すごくテストむずそうですもんね。
37:05

確かにね。それむずいな、確かに。
37:08

はい。
37:08

まあていうのを、まあE2Eのテストのときはチェックしていきますよと。
37:12

うわー、大変だ。
37:15

大変なんですよ。で、えーもっと言うと、えーここで結局全部をテストすることはできないと。まあこれ別に普通のプログラムも同じじゃないっすか。全パターンをテストするのはちょっと現実的じゃないっていう問題あるじゃないっすか。
37:28

はい。
37:29

で、えーそこで、えーそれがより顕著なのがこのまあAIエージェントなんですけど。
37:34

うん。
37:35

えーそうなったときに、えー監視が超重要になってきますよと。
37:40

ほう。
37:40

要はリアルタイムでAIエージェントがどう振る舞ったかをしっかり監視していって、変な動きしてないかっていうのをチェックするのが結局1番大事だよねっていう。
37:49

うん、うん、うん、うん。
37:51

で、そのためにログを取って可視化できるようにして、みたいな体制を築いて、えーAIエージェントの動きを常に監視していきましょうっていうのが、まあ1番安全な方法というかすごい重要になってきますよ。
38:04

うん。
38:05

っていうふうに言われてましたね。
38:07

エーアイエージェントがなんか商用で動いてるときに1番やっちゃいけないことってなんですか。
38:13

えー？
38:14

エラーが起きるってこと？それともなんか本当に不適切なこと言うとかってこと？
38:18

うーん、それはサービスの性質によりそうじゃない、なんか。
38:22

はい。なんか監視をしていきましょうっていうのはなんか一体何を監視するんだろうという。
38:26

あー、そういうことか。
38:28

エラー率？
38:29

エラー率とかもじゃない？とか。あとはまあなんか、うーん。結局このE2Eテストでやってたことを監視でやってくんじゃないかなって気するけどね。
38:44

うーん。
38:44

一貫性とか。ハルシネーションとか。
38:48

リリース後に一貫性を監視し続ける必要があるのは。
38:52

うん。
38:53

リリースしたあとに勝手に学習するからですか。
38:57

いや、あれじゃない？あの結局確率論だから。
39:00

はい。
39:02

変なこと言うときあるよねっていう。
39:05

あー。
39:05

あ、まあもちろん学習も関係あると思うよ。あの学習した結果、なんだ、本番で動いてる環境の中で学習続けてった結果、変な動きするようになるみたいなこともあり得ると思う。
39:17

あー、なるほど。なんかバグ、エラーバジェットだ。エラーバジェットの考え方みたいな感じで。
39:25

うん。
39:25

まあなんか100回に1回やべえ動きしてるけどまあいっかみたいな。
39:29

うん、うん、うん、うん。
39:30

そういう考え方もありつつ、なんか閾値超えないか見るみたいなイメージなんすかね？
39:36

あ、そうそうそうそうそうそうそう。
39:38

はいはいはい。まあでもそうですよね。なんか全部潰すのは多分絶対無理だから。
39:42

そう。
39:43

なんかまあ自分たちなりにサービス品質考えて。
39:46

うん。
39:47

で、それを満たすような動きをしてるかを監視していくような感じなんすね？
39:51

そうなりますね。
39:52

うーん。外形監視とかやんのかな？
39:55

うーん、どうなんだ。そういうところやるんじゃないか、もしかしたら。
40:00

大変そうだけどな。まあやってたらおもしろいな。はい、ありがとうございます、すごい。
40:06

まあていう。
40:07

勉強になった。
40:07

あらゆるパーツで不確実な動きをするっていう特徴があるんで、特、特性か。特性があるんで。えー結構テストも大変なんですけど。まあこういうふうに分解してテスト積み上げて、E2Eで。えー、まあ最終的な動きをチェックして、でそれを本番で監視し続けましょうっていうのがね、このAIエージェントにおけるテストのポイントになってます。
40:31

うーん。ありがとうございます。いやなんか、そのAIエージェント、Diffy使ったことありますけど、あんまり作ったことがなくて。
40:40

うん、うん、うん。
40:41

で、今ののりさんの話を聞いて非常に解像度が上がったんですけど。
40:44

はい。
40:45

やっぱりなんか自分では使うことはいっぱいあるんで。
40:47

うん。
40:48

それこそね、Claude Codeとかもそうだと思うんすけど。
40:51

うん、うん、うん。
40:51

あのへんをなんかうまく使いこなすためにも、やっぱ1回自分で作ってみるの大事だなってやっぱ思いましたね、話を聞いてて。
40:59

あー、確かにね。
41:00

うん。いや、かっこよくない？
41:02

ハックしやすくねそう。
41:04

まだ作ってないからなー。
41:05

え、でもこれからなんすよね？
41:07

これからね。あー、まあDiffyとかでは作ってるけど。あれは。
41:11

でもDiffyとかで使、作ってれば十分じゃないんすかね、概念。
41:15

十分か。
41:16

うん。
41:17

個人的にはなんかあのー、アンソ、アンソロピックのさー、えーなんだっけ、エージェントビルダーみたいなやつ。
41:24

あ、作ったことない。はい。
41:26

なんだっけ、エージェントビルダーはOpenAIだっけ？
41:31

ググりましょうか。
41:34

ちょっと特に名前ついてなさそうでした。
41:36

はい。
41:38

Claude Consoleって書いてます、左上に。
41:41

特に名前ついてなさそうですね。
41:44

で、多分OpenAIがエージェントビルダーだわ。まあなんかそういうのを使って作ってみたいもんですね。
41:51

やりましょう。
41:53

社内のプロジェクトマネジメントできるやつ作りたいわ。
41:56

社内のプロジェクトマネジメントなー。切実ですね。
42:00

弊社には明らかに欠落してるから。
42:03

じゃあまあ、見えてる課題でいいですね。
42:08

まあというAIエージェントのテストのお話でございました。
42:11

ありがとうございます。
42:13

いや、だいぶいったね。
42:14

なかなか守備範囲じゃなくて。ありがたい。
42:18

あー、まあ、な、まあ、なかなかまだやらんよな、このへん多分。
42:22

やってる人はいるんですけどね。社内でもね、そのAIエージェントを開発してる案件はいくつかあるんで。
42:28

あー、そうなんだ。
42:29

はい。やってる人はいるんですけど。
42:31

うん、うん、うん。
42:33

ありがたい。
42:34

まあちょっと。
42:35

あと息継ぎ入ったら下がろうという気持ちだけ。
42:38

いいね。
42:39

あれやろうかな。えっと親族だけがアクセスできるアプリをホスティングしてるので。
42:46

うん、うん、うん、うん。
42:47

我が家の近況を聞いたらなんでも教えてくれるAIエージェントとか作ってみようかな。
42:55

大丈夫かな、それ。コミュニケーション減らないかな。
42:59

良くないかな。まあ良くないかもしんないっすね、確かに。ビデオ通話つなげばいいのにね。
43:08

さあ、アフタートークいいっすか。
43:09

いいですよ。さくっと。ここまで来たらすごい尺で。
43:15

ね。
43:15

はい。
43:16

最近？
43:17

はい。
43:19

朝？
43:20

はいはいはい。
43:21

ジムに行ってるんですよ。
43:23

あ、はい。なんか最近言ってますね。
43:25

超人になろうの続きで。
43:27

はい。
43:28

マジ筋トレをさあ、1人でさあ、追い込む方法知りたいっす。
43:34

はい。あー。
43:36

マジです。心が、心が頑張れない。
43:40

うわー、わかる。めっちゃわかる。
43:43

追い込めねーってなる、なんか。
43:45

実はめっちゃわかります。
43:47

マジ？
43:48

なんかやっぱアドレナリン出てないといけないっすよね、その限界。
43:53

あー、なんかダンスは結構さあ、なんだろうな、うーん、この動きをしようと思ってやってたら、ありえないぐらい力を使ってるみたいなことがあり得るんだけど。
44:03

はい。
44:04

筋トレってなんか、その集中、なんだろうな、その追い込みとさあ、やることがリンクしすぎてて。
44:15

はいはいはいはいはいはい。
44:16

頑張れないんだよなって感覚あるんだよね。
44:18

えっと、これはじゃあちょっと教科書的なことを1つ言ってみていいですか。
44:25

あるんだ、理論が。
44:26

あー、あります。
44:27

ほう。
44:28

筋トレにおいて、えー、追い込むには負荷を軽くしていく。終盤にかけて。
44:37

うーん。
44:38

まあその負荷を軽くした上でどこまで追い込めるかはまああれなんすけど。
44:42

うん、うん、うん。
44:43

なんでしょうね、その使い切るイメージっていうんですかね。
44:47

うーん、うん、うん、うん。
44:49

なんかやっぱ負荷を軽くして、で、や、やり切るというか出し切ると追い込めるっていうのが、まあ教、教科書的によく言われるものですね。
45:00

そうなんだ。
45:01

はい。僕もあのハードな腕立てするときとかは。
45:04

うん。
45:05

腕立てって普通足と手ついてやるじゃないですか。
45:08

足と手ついてやりますよ。
45:10

はい。けど僕はハードな腕立てをするときは。
45:15

うん。
45:15

もう上がんなくなるんで膝ついてやるとか。
45:20

ハードな腕立てが何？
45:21

えっと1つ、あの音声ではなかなか伝わりづらいんですけど、結構アクロバットの腕立てがあるんですけど。
45:27

そうなんだ。
45:28

はい。
45:29

え、足ついてないとかそういうこと？
45:31

いや、いや、足はついてます、はい。
45:32

足ついてんだ。
45:33

ついてるんですけど。
45:34

はいはい。
45:35

でもそれだと負荷が高いとやっぱり追い込みきれないんで。
45:39

うーん。
45:39

で、膝ついて、で上がんなくなるまでやると、もう大変なことになります。
45:45

あ、無事？
45:46

はい、無事。
45:47

無事大変なことになる？
45:48

はい。
45:48

そうなんだ。
45:49

でウェイトとかも結局そうっていうんで。まあ自重取ればなかなか難しいんですけど、フォーム変えないと負荷は変えれないんですけど、ウェイトもやっぱり、あの本気マッチョのYouTube見てると。
46:00

うん。
46:01

やっぱウェイトを軽くしてってますよね。
46:05

あー、そうなんだ。
46:06

3セット目とか。
46:07

いやー、そっか。ちょっとやってみます、明日。
46:11

ちょっと、あのー、数時間後トライしてみてください。
46:16

ほんとだね。また睡眠不足になりそうだ。
46:21

いやー、素晴らしすぎる。いいっすね。ちょっと僕も。
46:26

うん。
46:28

行く気は入ったらジム契約するんで。
46:30

マジで？
46:32

はい。ちょっと今、本当にやろうという気持ちを持たないまま宣言したんでやろうと思います。
46:37

あー、マジか。
46:38

はい。そういうの大事だよね。
46:41

大事。
46:41

俺も今のジムに乗り換えた瞬間、結構ノリで行ったんだよな。
46:45

うわ、素晴らしいっすね。
46:47

駅前でティッシュ配ってて。
46:50

まんまと？
46:52

そう。
46:52

もらってそのまま行って。
46:54

あー、意味あるんだ、あのティッシュ。俺、ティッシュ絶対意味ねーだろって思ってたんすよ、世の中のティッシュ。
46:59

はい。あー、まあ、えっと、それで言うと、もう元々、もう駅前に超目立つ形で、これからオープンします、ドーンみたいになってたから。
47:07

はい。
47:08

えっとね、別にそのティッシュが、あー、まあ決め手ではあったか。
47:13

はい、だから意味あるね。
47:14

認知には関係なかった。あー、でもそうね。
47:17

うん。
47:17

そのまま行く人あんまりいないんじゃないかな。
47:20

まあでもそのちょっとのね、一押しをができればね。
47:24

うん。
47:25

ひとつ、一押しでが1人だけだったら多分割り合わないけど。それは何人、何人、10人ぐらいいるわ。
47:30

いや、でもだいぶあれじゃない？ライフタイムバリュー高いんじゃない？
47:33

あ、そうか、確かにジムはそうか。
47:35

うん。
47:37

1人でも回収できんのか、確かに。できそう。
47:40

ね。まあというので、ちょっとじゃあ軽くして追い込んでいきます。
47:45

ちょっと追い込んでみてください。これでだめだったらちょっとまた相談してください。
47:48

わかりました。え、やっぱ1パーツずつのがいいのかな？
47:52

いや、別になんでしょうね、そのメニューによって聞く場所違うじゃないですか。
47:58

違う。
47:59

で、複数箇所に聞くやつもあるじゃないですか。
48:02

うん、うん。スクワットとか。
48:04

あー、そうそうそう。それはそれでいいんじゃないですか。
48:06

いいのかな。
48:07

1パーツずつってどういう意味ですか。
48:08

あ、いや、なんかさ、筋肉痛の場所があまりに多すぎたらさ。
48:12

あ、そういうこと。
48:13

なんか回復効果下がるとかないかなと思って。
48:15

あー、どうなんだろう。確かになんか栄養分散するはずですよね、普通に考えてね。
48:21

そうだよね。
48:23

え、でも疲労感の問題ぐらいなんじゃないですかね？
48:26

あー、疲労感、まあそうな。
48:29

まあ一部とは言わないっすけど、まあなんか体をね、4分割ぐらいして1/4ずつぐらいがいいんじゃないですか。
48:36

4分割。あー、なるほどね。
48:38

はい。
48:38

腕、胴、足、ケツ。
48:42

みたいな？
48:43

はい。
48:43

みたいな。まあちょっと僕ジム、ね、順平のりさんに比べたら行ってる回数だいぶ少ないんで。
48:51

でも理論知ってるから。
48:52

まあ理論は。
48:53

うん。
48:54

社会人1年目から3年目まで行ってましたね、ジム。
48:58

あ、そうなんだ。
48:58

はい。朝起きて。行ってたな、偉。
49:02

へー、そんな時期が。
49:04

あー、いや、やめましたけどね、はい。
49:06

やめたんだ。
49:07

引っ越しをして、はい。
49:08

あー、そういうことね。
49:09

そう。
49:10

あー、まあそれはあるあるだな。
49:12

うん。
49:12

引っ越しでジムなくなる説。
49:14

そう。通える場所じゃないとね。
49:17

うーん、うん、うん。
49:19

ちょっとぜひ、あの、筋トレがちでリスナーにいると思うので、たくさん。
49:23

いそうだね。
49:25

のりさんに、追い込めないのりさんにちょっとアドバイスお願いします。
49:28

もしくは応援の声をよろしくお願いします。
49:30

確かに。
49:31

はい。では締めていきます。
49:33

はい。
49:34

はい、この番組は皆様からの感想をSNSのXで募集しております。ハッシュタグ、ひまじんプログラマーを付けて投稿していただくと、僕らがそれを探して、えー、読み込んでいきますので、ぜひともよろしくお願いします。
49:45

AIエージェント運用してる人のノウハウ教えてください。
49:49

生の声聞きたいっすね、確かに。
49:51

うん。
49:51

あるあるとか聞きたい。なんかAIエージェントあるあるみたいな。
49:54

あるあるね。
49:55

おもしろあるあるいっぱいありそうだけどな。
49:57

なんかそういうさ、あのー、なんて言うんだろうな、知らないけど近いあたりのさ、あるあるっておもしろいもんな。
50:03

おもしろい。
50:04

えー、あとは我々に直接こう質問をしたいとか感想を届けたいという方は、番組のエピソードの説明欄にあるGoogleフォームから投稿していただくと、我々がくまなくチェックをして、えー、そちらに対していいねという気持ちを持っていきますので、こちらもぜひともよろしくお願いいたします。
50:25

全部読んでできる限り回答します。
50:27

はい、努力します。
50:29

またSlackでオンラインコミュニティ、ひまプロ談話室というものを運用しております。こちらですね、今現在300人ぐらいのエンジニアが、エンジニアとか、エンジニアになりたい人とか、もしくはエンジニアに近しいけどエンジニアではない方々とかが集まり。
50:45

そうっすね。
50:46

えー、日々こういうのをやりましたっていう報告に刺激を受け、受けつつ、受けられつつ。ん？受けつ与えつ。
50:57

うん。
50:58

持ちつ持たれつの関係で続けているコミュニティでございます。こちらもご興味ある方は番組の説明欄のGoogleフォームからお申し込みいただくと、サンクスページに参加用のリンクが貼られておりますので、そちらからご参加いただけると幸いです。入ったらぜひ自己紹介してみてください。
51:16

バイバイしましょう。
51:17

はい。えー、最後にこの番組は各種ポッドキャストプラットフォームで配信しております。参考になったという方がいらっしゃいましたら、ぜひとも星を付けて評価していただけると、番組配信の励みになっていきますので、こちらもご協力よろしくお願いします。
51:33

お願いします。
51:35

それではまた次回。
51:36

バイバイ。
51:38

初めて触ったMacBook。思い出がいっぱいのチーム開発。再起動したら直った謎のバグ。僕たち。
51:53

私たちは卒業します。
51:57

駆け出しエンジニアを卒業したあなたへ。ひまじんプログラマーの週末エンジニアリングレッスン、各種ポッドキャストで配信中。

0:00 52:06

#476 AIエージェントのためのテスト手法とその考え方