Browser-use Web-ui を試す

Github

ほんとうは、最新バージョン（0.1.48）で過去に作成したスクリプトを動かし、どのくらい改善されているかを試したかったのですが、
最新バージョンでブラウザを閉じずに処理を継続させる方法がわからず、
ドキュメントに WEB-UI を使いましょうと書かれていたので試してみました。

継続処理のさせ方は、別途調べることにしました。

ハマりどころ – API-KEYの設定

ちょっとしたハマりどころがあります。

どこかに私の勘違いがあると思うのですが、現状は以下のような状態です。

.env ファイルに、
OPENAI_API_KEY=AAAAA
GOOGLE_API_KEY=BBBBB
と書いた場合、OPEN AI GPT は正常に動くが、Google Gemini は API KEY が Invalid だと言われて動かない。

ところが、Agent Settings の API Key の箇所にいれると正常に動きます。

なぜなんでしょうか。
皆目見当がつきません。

外部からアクセス

webui.py

外部からアクセスしたかったので webui.py の demo.queue().launch の箇所を下記にします。

demo.queue().launch(server_name=args.ip, server_port=args.port, share=True)

起動コマンド

$ python webui.py --ip 0.0.0.0 --port 7788

試してみる – url を指定する

まずはWEBサイトを開いてもらいます。

https://ban.com/

と、urlをそっけなく渡しました。

サーバーの挙動

3 steps で完了しています。

そして、完了後もブラウザは維持されています。

自動操作されているブラウザの画面

ヘッドレスモードにはしていないので、Ubuntu上で普通に画面が表示されています。

web ui の画面

コマンドを実行している webui では以下のような画面になります。

問題なく動いています。

使用している LLM Model は Gemini-2.5-Flush なので、かなり安いです。

ゴリゴリ動かすのであれば、APIコストは重要です。

試してみる – フォームに入力させる

スクショ撮影の都合もあるので、一旦フォームにダミーデータを入力させてみました。

指示としては

問い合わせフォームへ移動してください
フォームにテストデータを入れてください。
キャプチャをクリックし、送信してみてください。

フォームへのテストデータの入力

送信テスト

あれ？処理が終わってしましました。

サーバーのログを見てみる。

{
    "current_state": {
        "evaluation_previous_goal": "Success - Successfully filled the contact form with test data. However, I could not find an interactive element for the captcha checkbox.",
        "memory": "Successfully navigated to the contact page and filled the form. I was unable to click the captcha checkbox as there was no interactive element for it. The next step is to click the submit button.",
        "next_goal": "Click the submit button."
    },
    "action": [
        {
            "click_element_by_index": {
                "index": 14
            }
        }
    ]
}

キャプチャのチェックボックスを探せなかったようです。

ちなみに、browser-use が開いたブラウザで Google recaptcha を手動でクリックしてみましたが、ロボットチャレンジが出ました。

UAその他で怪しいと判定されているのでしょう。