Trong bối cảnh công nghệ AI phát triển vượt bậc, khả năng các AI Agent tự điều khiển trình duyệt và thực hiện các tác vụ phức tạp như con người đã không còn là khái niệm xa vời. Những công cụ như ChatGPT Operator mang lại sức mạnh đáng kinh ngạc, nhưng đi kèm với một mức giá không hề nhỏ. Thay vì bỏ ra một khoản chi phí lớn, chúng tôi đã tìm kiếm một giải pháp thay thế miễn phí hoặc tiết kiệm hơn và đã khám phá ra một công cụ hoạt động hiệu quả đến bất ngờ. Bài viết này sẽ chia sẻ chi tiết trải nghiệm cài đặt và đánh giá hiệu năng của giải pháp đó.
Browser Use: Giải Pháp AI Agent Mã Nguồn Mở Nổi Bật
ChatGPT Operator nổi bật với khả năng điều khiển trình duyệt web, tự động thực hiện các hành động như nhấp chuột, cuộn trang. Người dùng chỉ cần ra lệnh cho ChatGPT về những gì cần làm, ví dụ như đặt vé máy bay hay nhập văn bản vào Google Docs, và nó sẽ tự thực hiện. Tuy nhiên, để tiếp cận công cụ này, người dùng phải trả một mức phí khá cao, lên tới 200 USD mỗi tháng cho gói Pro của ChatGPT. Với mục tiêu tìm kiếm một lựa chọn kinh tế hơn, chúng tôi đã tìm hiểu và phát hiện ra Browser Use.
Browser Use là một AI Agent mã nguồn mở có chức năng tương tự như ChatGPT Operator. Nó cũng có khả năng tương tác với trình duyệt web, điều hướng qua các trang web và thực hiện các tác vụ được chỉ định. Điều đáng chú ý là chi phí để sử dụng Browser Use chỉ bằng một phần nhỏ so với đề xuất của ChatGPT. Hơn nữa, người dùng có hai tùy chọn linh hoạt để lựa chọn:
- Tùy chọn 1: Đăng ký gói thuê bao 30 USD mỗi tháng để chạy AI Agent trên dịch vụ đám mây của nhà phát triển.
- Tùy chọn 2: Tự thiết lập Browser Use cục bộ trên máy tính cá nhân. Với tùy chọn này, bạn chỉ phải trả phí cho việc sử dụng API của các mô hình ngôn ngữ lớn (LLM), mang lại chi phí tối ưu nhất. Đây chính là lựa chọn mà chúng tôi đã ưu tiên và thử nghiệm.
Mặc dù việc thiết lập Browser Use không đơn giản như ChatGPT Operator, nhưng với một vài dòng lệnh cơ bản, chúng tôi đã có thể khởi chạy và sử dụng nó. Nếu chúng tôi có thể làm được, bạn cũng hoàn toàn có thể!
Browser Use: Giao diện website hiển thị các gói dịch vụ và mức giá
Hướng Dẫn Cài Đặt Browser Use Trên Máy Tính Cá Nhân
Để bắt đầu với Browser Use, bạn sẽ cần chuẩn bị hai yếu tố chính: cài đặt Python phiên bản 3.11 trở lên trên máy tính và truy cập API từ OpenAI (hoặc một LLM được lưu trữ cục bộ nếu bạn muốn).
Chuẩn Bị Cần Thiết
Là một AI Agent, Browser Use yêu cầu một mô hình ngôn ngữ lớn (LLM) để hoạt động. Bạn có thể lấy quyền truy cập API từ trang web của OpenAI hoặc bất kỳ nhà cung cấp API nào khác tương thích với Browser Use. Lợi ích của việc sử dụng API là bạn có sự linh hoạt để lựa chọn giữa các mô hình khác nhau (như GPT-3.5 và GPT-4) và chỉ phải trả tiền cho những gì bạn sử dụng, thay vì một khoản phí thuê bao trả trước.
Trong quá trình thử nghiệm, chúng tôi đã sử dụng mô hình ChatGPT 4o. Tổng chi phí cho bảy tác vụ mà chúng tôi yêu cầu Browser Use thực hiện là chưa đến 1 USD. Đáng chú ý, nếu bạn kết hợp Browser Use với DeepSeek API, chi phí có thể còn rẻ hơn nhiều lần.
Ngoài ra, bạn cũng có thể cân nhắc sử dụng một LLM cục bộ trên máy tính của mình. Tuy nhiên, việc chạy một LLM cục bộ có hiệu năng tương đương ChatGPT 4o đòi hỏi sức mạnh tính toán đáng kể, điều mà hầu hết người dùng thông thường khó có thể đáp ứng. Chúng tôi đã thử nghiệm mô hình LLM 7B của DeepSeek trên máy tính cá nhân và hiệu suất không được tốt như mong đợi. Do đó, khuyến nghị tốt nhất hiện tại là bạn nên ưu tiên sử dụng API.
Các Bước Cài Đặt Chi Tiết
Sau khi có được quyền truy cập API, bạn có thể tạo một môi trường ảo trong VS Code bằng cách vào View > Command Palette và gõ create environment. Sau đó, mở một terminal mới và cài đặt Browser Use bằng lệnh pip
:
pip install browser-use
Tiếp theo, hãy tạo một tệp .env
trong cùng thư mục và thêm khóa API của bạn vào đó:
OPENAI_API_KEY="Your API Here"
Cuối cùng, tạo một tệp Python mới với tên app.py
và dán đoạn mã sau vào:
from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio
from dotenv import load_dotenv
load_dotenv()
async def main():
agent = Agent(
task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
asyncio.run(main())
Bạn có thể thay thế đoạn prompt mẫu ("Go to Reddit, search for 'browser-use', click on the first post and return the first comment."
) bằng tác vụ mà bạn muốn, ví dụ: “Tìm kiếm Albert Einstein và mở trang Wikipedia của ông.” Cuối cùng, chạy tệp app.py
bằng lệnh trong terminal:
python app.py
Đánh Giá Hiệu Năng Thực Tế Của Browser Use
Chúng tôi bắt đầu quá trình thử nghiệm Browser Use với các tác vụ đơn giản để đánh giá khả năng cơ bản của nó.
Thử Nghiệm Ban Đầu: Các Tác Vụ Đơn Giản
Đầu tiên, chúng tôi yêu cầu AI Agent tìm kiếm “Albert Einstein” trên Google và mở trang Wikipedia của ông. Khi kịch bản được chạy, AI Agent đã tự động mở một cửa sổ trình duyệt mới và thực hiện tác vụ này một cách hoàn hảo, không gặp bất kỳ trở ngại nào.
Tiếp theo, chúng tôi ra lệnh cho nó tìm kiếm các mẫu laptop gaming trên Amazon và mở kết quả đầu tiên. Một lần nữa, AI Agent hoàn thành tác vụ thành công. Đến thời điểm này, chúng tôi đã khá tin tưởng vào khả năng điều hướng web thông minh của Browser Use.
Thử Nghiệm Nâng Cao: Xử Lý Nội Dung Phức Tạp
Để đẩy giới hạn của Browser Use xa hơn, chúng tôi hướng dẫn nó truy cập Yahoo News và tóm tắt năm bài báo hàng đầu. Điều đáng ngạc nhiên là Browser Use đã hoàn thành tác vụ này chỉ trong vài phút. Các bản tóm tắt đều ngắn gọn và đi thẳng vào vấn đề chính, cho thấy khả năng xử lý và chắt lọc thông tin đáng nể.
Tuy nhiên, mọi thứ trở nên phức tạp hơn đối với Browser Use khi chúng tôi yêu cầu nó tìm kiếm các chuyến bay từ London đến Paris trên Skyscanner.com. Ban đầu, trang web đã chặn truy cập do phát hiện bot, buộc chúng tôi phải can thiệp để vượt qua cơ chế bảo vệ. Dù vậy, Browser Use vẫn gặp khó khăn – nó đã nhấp vào nút tìm kiếm mà không nhập chính xác “London” và “Paris” vào các trường tương ứng.
Một tính năng tiềm năng khác là khả năng ghép nối Browser Use với trình duyệt chính của bạn, nơi tất cả các tài khoản đã được đăng nhập. Điều này cho phép AI Agent nhập dữ liệu vào Google Sheet hoặc dán các bản tóm tắt từ Yahoo News vào Google Doc. Tuy nhiên, chúng tôi đã gặp phải một số vấn đề trong việc thiết lập tính năng này với trình duyệt đang hoạt động của mình, nên tạm thời phải gác lại.
Kết Luận
Nhìn chung, đây là một thử nghiệm thú vị. Việc quan sát một AI Agent tự động điều hướng web và thực hiện các tác vụ thực sự hấp dẫn. Mặc dù Browser Use không hoàn hảo và vẫn còn một chặng đường dài để trở thành một AI Agent duyệt web hoàn chỉnh, nó đã thể hiện được tiềm năng đáng kể.
Công nghệ này vẫn còn ở giai đoạn sơ khai, vì vậy chúng ta hoàn toàn có thể kỳ vọng vào những cải tiến vượt bậc trong tương lai. Hiện tại, nếu bạn sẵn sàng mày mò với việc thiết lập và không quá bận tâm đến những trục trặc nhỏ đôi khi xảy ra, hãy khởi động máy tính và cài đặt Browser Use. Đừng ngần ngại chia sẻ kinh nghiệm của bạn trong phần bình luận nếu bạn gặp khó khăn và cần sự hỗ trợ.