Github
https://github.com/browser-use/web-ui
ほんとうは、最新バージョン(0.1.48)で過去に作成したスクリプトを動かし、どのくらい改善されているかを試したかったのですが、
最新バージョンでブラウザを閉じずに処理を継続させる方法がわからず、
ドキュメントに WEB-UI を使いましょうと書かれていたので試してみました。
継続処理のさせ方は、別途調べることにしました。
ハマりどころ – API-KEYの設定
ちょっとしたハマりどころがあります。
どこかに私の勘違いがあると思うのですが、現状は以下のような状態です。
.env ファイルに、
OPENAI_API_KEY=AAAAA
GOOGLE_API_KEY=BBBBB
と書いた場合、OPEN AI GPT は正常に動くが、Google Gemini は API KEY が Invalid だと言われて動かない。
ところが、Agent Settings の API Key の箇所にいれると正常に動きます。

なぜなんでしょうか。
皆目見当がつきません。
外部からアクセス
webui.py
外部からアクセスしたかったので webui.py
の demo.queue().launch
の箇所を下記にします。
demo.queue().launch(server_name=args.ip, server_port=args.port, share=True)
起動コマンド
$ python webui.py --ip 0.0.0.0 --port 7788
試してみる – url を指定する
まずはWEBサイトを開いてもらいます。
https://ban.com/
と、urlをそっけなく渡しました。
サーバーの挙動

3 steps で完了しています。
そして、完了後もブラウザは維持されています。
自動操作されているブラウザの画面
ヘッドレスモードにはしていないので、Ubuntu上で普通に画面が表示されています。

web ui の画面
コマン ドを実行している webui では以下のような画面になります。

問題なく動いています。
使用している LLM Model は Gemini-2.5-Flush なので、かなり安いです。
ゴリゴリ動かすのであれば、APIコストは重要です。
試してみる – フォームに入力させる
スクショ撮影の都合もあるので、一旦フォームにダミーデータを入力させてみました。
指示としては
- 問い合わせフォームへ移動してください
- フォームにテストデータを入れてください。
- キャプチャをクリックし、送信してみてください。
フォームへのテストデータの入力

送信テスト

あれ?処理が終わってしましました。
サーバーのログを見てみる。
{
"current_state": {
"evaluation_previous_goal": "Success - Successfully filled the contact form with test data. However, I could not find an interactive element for the captcha checkbox.",
"memory": "Successfully navigated to the contact page and filled the form. I was unable to click the captcha checkbox as there was no interactive element for it. The next step is to click the submit button.",
"next_goal": "Click the submit button."
},
"action": [
{
"click_element_by_index": {
"index": 14
}
}
]
}
キャプチャのチェックボックスを探せなかったようです。
ちなみに、browser-use が開いたブラウザで Google recaptcha を手動でクリックしてみましたが、ロボットチャレンジが出ました。
UAその他で怪しいと判定されているのでしょう。