N8N Web Scraping with FireCrawl, Google Sheets & Google Sheets (Advanced)

₫0

Workflow n8n này tự động hóa việc quét web bằng FireCrawl, xử lý nội dung bằng mô hình AI và sắp xếp dữ liệu trong Google Sheets và Google Docs. Đây là phiên bản nâng cấp (Advanced) từ phiên bản cơ bản (Basic).

Vui lòng đọc kĩ thông tin sản phẩm và FAQ trước khi mua.

Tự động hóa việc quét web với FireCrawl và lưu nội dung vào Google Docs

Template n8n này tự động hóa việc cào web (web scraping) bằng FireCrawl, xử lý nội dung bằng mô hình AI, và sắp xếp dữ liệu trong Google SheetsGoogle Docs.

Dành cho ai?

Template này dành cho bất kỳ ai cần tự động hóa quy trình trích xuất thông tin từ các trang web. Nó đặc biệt hữu ích cho:

  • Người sáng tạo nội dung thu thập nghiên cứu và nguồn cảm hứng.
  • Nhà phân tích dữ liệu thu thập dữ liệu để phân tích.
  • Nhà tiếp thị theo dõi các trang web của đối thủ cạnh tranh hoặc thu thập tin tức ngành.
  • Nhà nghiên cứu tổng hợp thông tin từ nhiều nguồn trực tuyến khác nhau.

Các tính năng chính

  • Nhiều chế độ quét: Quét một URL duy nhất, một danh sách các URL theo lô (batch), hoặc các URL trực tiếp từ một Google Sheet.
  • Quét mạnh mẽ với FireCrawl: Sử dụng FireCrawl để quét nội dung web một cách đáng tin cậy ở định dạng markdown hoặc HTML.
  • Xử lý nội dung bằng AI: Tích hợp với OpenRouter để sử dụng các mô hình ngôn ngữ lớn (LLM) (như Deepseek) để làm sạch và trích xuất nội dung cụ thể từ dữ liệu thô đã quét.
  • Tổ chức dữ liệu tự động: Lưu dữ liệu đã quét và xử lý một cách gọn gàng vào Google Sheets và tạo các file Google Docs riêng lẻ cho mỗi trang được quét.
  • Quản lý nội dung: Bao gồm các workflow để cập nhật các tài liệu hiện có với nội dung mới (quét lại) và để xóa tài liệu cũng như cập nhật trạng thái của chúng trong Google Sheets.

Cách hoạt động

Template được chia thành nhiều workflow độc lập mà bạn có thể kích hoạt thủ công:

  • Quét nhiều URL và lưu vào Google Sheets:
    • Đọc danh sách các URL từ một Google Sheet được chỉ định.
    • Quét từng URL bằng FireCrawl.
    • Cập nhật các hàng tương ứng trong Google Sheet với tiêu đề và nội dung đã quét. Luồng này có hai biến thể: một cho việc quét theo lô và một cho việc quét lặp lại.
  • Quét nâng cao với AI và Google Docs:
    • Truy xuất các URL từ một Google Sheet được đánh dấu để quét.
    • Đối với mỗi URL, nó sẽ quét nội dung bằng FireCrawl.
    • Một chuỗi LLM xử lý markdown đã quét để trích xuất nội dung cốt lõi.
    • Sau đó, nó kiểm tra xem đã có Google Doc cho URL này chưa.
      • Nếu có, nó sẽ cập nhật Google Doc hiện có với nội dung mới.
      • Nếu không, nó sẽ tạo một Google Doc mới với nội dung đã trích xuất.
    • Cuối cùng, nó cập nhật Google Sheet với ID và URL của Google Doc.
  • Xóa Google Docs:
    • Đọc danh sách các URL từ Google Sheet được đánh dấu để xóa.
    • Xóa Google Doc tương ứng khỏi Google Drive của bạn.
    • Cập nhật trạng thái trong Google Sheet để cho biết tệp đã được xóa.

Yêu cầu

  • n8n: Một phiên bản n8n đang hoạt động.
  • Tài khoản FireCrawl: Một API key của FireCrawl để quét web.
  • Tài khoản OpenRouter: Một API key của OpenRouter để xử lý nội dung bằng AI.
  • Tài khoản Google: Thông tin xác thực cho Google Sheets, Google Docs và Google Drive.
  • Google Sheet: Một Google Sheet có hai tab:
    • Một trang tính để quét cơ bản với các cột cho URL, Title (Tiêu đề), và Content (Nội dung).
    • Một trang tính cho workflow nâng cao với các cột như URL, Document ID, Document Url, Is Scraped (Đã quét), và Is Deleted (Đã xóa).

Hướng dẫn cài đặt từng bước

  1. Cấu hình thông tin xác thực (Credentials):
    • FireCrawl: Thêm API key FireCrawl của bạn vào mục xác thực httpHeaderAuth trong các node “Scrape an URL with FireCrawl”.
    • Google Suite: Xác thực tài khoản Google của bạn cho các node Google Sheets, Google Docs và Google Drive.
    • OpenRouter: Thêm API key OpenRouter của bạn vào mục xác thực của node “OpenRouter Chat Model”.
  2. Thiết lập Google Sheet của bạn:
    • Tạo một Google Sheet mới.
    • Trong tab đầu tiên (ví dụ: products), tạo các cột: URL, Title, Content. Điền vào cột URL các trang web bạn muốn quét.
    • Trong tab thứ hai (ví dụ: products_doc), tạo các cột: URL, Document ID, Document Url, Is Scraped, Is Deleted. Cũng điền vào cột URL ở đây.
  3. Cấu hình các Node:
    • Node Google Sheets: Trong tất cả các node Google Sheets, chọn bảng tính của bạn và trang tính chính xác (products hoặc products_doc) từ danh sách thả xuống.
    • Node Google Docs & Drive: Trong các node “Create Google Docs” và “Delete file in Google Drive”, chọn thư mục Google Drive nơi bạn muốn lưu trữ hoặc xóa tài liệu của mình.
  4. Chạy Workflow:
    • Chọn một trong các workflow được phác thảo bởi các ghi chú dán (sticky notes).
    • Nhấp vào nút ‘Execute workflow’ trên trình kích hoạt thủ công tương ứng để bắt đầu quy trình. Ví dụ, để chạy quy trình quét nâng cao, hãy sử dụng trình kích hoạt được kết nối với node “Get URLs to scrape4”.

Cách tùy chỉnh workflow

  • Thay đổi mô hình AI: Trong node “OpenRouter Chat Model”, bạn có thể chọn một LLM khác phù hợp hơn với nhu cầu và ngân sách của mình.
  • Tùy chỉnh câu lệnh AI (Prompt): Sửa đổi câu lệnh trong node “Basic LLM Chain” để thay đổi cách AI xử lý nội dung được quét. Ví dụ: bạn có thể yêu cầu nó tóm tắt văn bản, trích xuất các điểm dữ liệu cụ thể hoặc dịch nó.
  • Điều chỉnh kích thước lô (Batch Size): Trong các node “Loop Over Items”, bạn có thể thay đổi kích thước lô để xử lý nhiều hoặc ít mục hơn trong mỗi lần chạy, điều này có thể giúp quản lý giới hạn tỷ lệ API và thời gian thực thi.

Tự động hóa với Triggers: Thay thế các node “Manual Trigger” bằng một node “Cron” để chạy quy trình quét theo lịch trình (ví dụ: hàng ngày hoặc hàng tuần).

Thanh toán

Hiện shop hỗ trợ 4 phương thức thanh toán:
1) Chuyển khoản ngân hàng tại Việt Nam;
2) Bằng thẻ quốc tế;
3) Google Pay (hiện ra khi đăng nhập Google trên máy tính);
4) Apple Pay (hiện ra trên Safari, iPhone…);

Ba phương thức Googe Pay, Apple Pay, Card quốc tế sẽ hiển thị phụ thuộc vào trình duyệt/ điện thoại của bạn (Chrome hay Safari, Adroid hay iOS, desktop hay mobile…). Đơn hàng sẽ được tự động xử lý ngay lập tức và gửi link download file tới email của bạn.

Với phương thức chuyển khoản, bạn sẽ được giảm 30k trên tổng tiền bạn cần thanh toán (vì mình tiết kiệm được các loại phí trả cho Apple, Google, Stripe, chuyển đổi tỷ giá… và mình muốn chuyển trực tiếp phần tiết kiệm này cho bạn để bạn có giá tốt nhất). Ví dụ, đơn hàng trị giá 350k, nếu bạn thanh toán bằng thẻ hoặc Apple Pay/ Google Pay, bạn sẽ trả đúng giá 350k. Còn nếu bạn chuyển khoản thì bạn chỉ cần chuyển 350 – 30 = 320k. Bạn cần chuyển tiền vào tài khoản bên dưới trong 24 giờ, mình sẽ xử lý đơn thủ công:

Ngân hàng TMCP Tiên Phong – TPBank
0901 4069 303
NGUYEN MINH DUC

Nếu sau 24 giờ mình không nhận đủ chuyển khoản, đơn hàng sẽ bị huỷ.

FAQ – Câu Hỏi Thường Gặp

Nếu bạn còn thắc mắc hay cần thêm thông tin, vui lòng liên hệ với mình qua form liên hệ. Mình luôn cố gắng hỗ trợ bạn và lắng nghe các phản hồi để hoàn thiện sản phẩm tốt hơn.

1. Ai là đối tượng phù hợp sử dụng workflow này?


Workflow này được thiết kế dành cho những người có kiến thức cơ bản về n8n và có khả năng tự tìm hiểu, vọc vạch, xử lý các vấn đề phát sinh. Nếu bạn biết tối ưu prompt và khắc phục các lỗi nhỏ, sản phẩm này sẽ rất phù hợp với bạn.

Đầu tiên bạn phải import workflow này vào n8n, sau đó thêm đầy đủ các liên kết tài khoản, công cụ cần thiết được sử dụng trong workflow. Sau khi kết nối đủ các tài khoản, workflow sẽ chạy theo cài đặt mặc định.

Workflow mặc định sử dụng mô hình GPT-4o do khả năng xử lý và trả về dữ liệu dưới định dạng JSON theo cấu trúc yêu cầu rất tốt. Nếu mô hình bạn dùng gặp lỗi, bạn có thể chuyển sang sử dụng ChatGPT-4o. Lưu ý rằng một số mô hình khác (ví dụ: Gemini Flash) có thể không hỗ trợ trả kết quả ở định dạng JSON theo đúng cấu trúc yêu cầu hoặc không hỗ trợ gọi tool (ví dụ DeepSeek R1).

Trong quá trình thử nghiệm, bạn nên test mô hình LLM là OpenAI GPT-4o, và tạo ảnh với dung lượng thấp để tiết kiệm chi phí. Mục tiêu ban đầu là kiểm tra workflow có hoạt động ổn định trước khi đổi sang mô hình khác và tối ưu cho use case cụ thể của bạn.

Đầu tiên, bạn import file JSON vào n8n của bạn, kết nối các tài khoản cần thiết, và chạy thử theo cài đặc mặc định để kiểm tra workflow có hoạt động không. Sau đó bạn hãy tuỳ biến theo nhu cầu của bạn.

Nếu gặp lỗi, hãy thử các bước sau:

  • Chạy workflow trên cửa sổ ẩn danh (Incognito) và tắt các plugin mở rộng.
  • Thử sử dụng trình duyệt khác (ví dụ chuyển từ Chrome sang Safari).
  • Thử chạy trên một máy tính khác.
  • Thử chạy ở một địa điểm khác (nhà, công ty, quán cafe).
  • Thử chạy trên 1 host khác (local, cloud)

Lưu ý rằng lỗi có thể xuất phát từ nhiều nguyên nhân như hạn chế của AI model, server self-host n8n, phiên bản n8n (phiên bản cũ/ mới không tương thích), trình duyệt, máy tính của bạn, và trong hầu hết trường hợp là chính những thay đổi bạn áp dụng lên template. 

Để được hỗ trợ, bạn có thể mua gói hỗ trợ bổ sung: dịch vụ hỗ trợ kỹ thuật 1:1, và dịch vụ tùy biến theo nhu cầu.

Bạn có thể gửi feedback qua form liên hệ để gửi ý kiến đóng góp, phản hồi hoặc báo cáo lỗi liên quan đến workflow và tài liệu. Mọi phản hồi sẽ được xem xét cẩn thận để khắc phục bug hoặc thực hiện các cải tiến chất lượng (quality of life) cho phiên bản nâng cấp sau.

Lưu ý là những vấn đề bạn report có thể là bug hoặc không (do bạn cấu hình sai, do bạn thay đổi template, do mô hình AI bạn chọn không đáp ứng yêu cầu, do server bạn dùng bị hạn chế…). 

Sau khi nhận được thông báo của bạn, chúng tôi sẽ xem xét và điều tra đấy có phải lỗi từ chính workflow không. Nếu là lỗi từ workflow thì chúng tôi sẽ sửa trong bản cập nhật sau đó.

Nếu bạn có bất kỳ góp ý hay phản hồi nào về trải nghiệm mua hàng, vui lòng gửi feedback qua form liên hệ. Mọi ý kiến của bạn sẽ được ghi nhận và xem xét cẩn thận để giúp chúng tôi cải thiện dịch vụ và nâng cao chất lượng sản phẩm trong tương lai.

Khi bạn mua workflow, bạn sẽ nhận được file sản phẩm, và không bao gồm dịch vụ hỗ trợ kỹ thuật.

Để được hỗ trợ, bạn có thể mua gói hỗ trợ bổ sung như dịch vụ hỗ trợ kỹ thuật 1:1, và dịch vụ tùy biến theo nhu cầu của khách hàng.

Các gói bổ sung này là các sản phẩm/ dịch vụ tách biệt và sẽ có chi phí riêng cho khách hàng có nhu cầu.

Vui lòng không chia sẻ hoặc bán lại workflow cho người khác khi không sự đồng ý từ chúng tôi. Sản phẩm được bảo vệ bản quyền và việc này là điều cần thiết để đảm bảo quyền lợi cho tất cả mọi người.

Vì bản chất của sản phẩm workflow, hiện tại shop không hỗ trợ hoàn tiền (refund) cho các đơn hàng đã mua. Vui lòng cân nhắc kĩ trước khi mua hàng. Trong tương lai, chúng tôi có kế hoạch bán sản phẩm trên các nền tảng hỗ trợ tính năng refund. Tuy nhiên, hãy lưu ý rằng giá bán trên những nền tảng đó sẽ cao hơn so với mua trực tiếp tại shop của chúng tôi.

Review Your Cart
0
Add Coupon Code
Subtotal