N8N Web Scraping with FireCrawl & Google Sheets (Basic)

₫0

Workflow n8n này sẽ tự động hóa quy trình lấy dữ liệu (scrape) nội dung trang web bằng FireCrawl và lưu dữ liệu đã trích xuất vào Google Sheet một cách có cấu trúc.

Vui lòng đọc kĩ thông tin sản phẩm và FAQ trước khi mua.

Workflow n8n này sẽ tự động hóa quy trình lấy dữ liệu (scrape) nội dung trang web bằng FireCrawl và lưu dữ liệu đã trích xuất vào Google Sheet một cách có cấu trúc.

Dành cho ai?

Template này lý tưởng cho các nhà tiếp thị (marketer), người sáng tạo nội dung, nhà nghiên cứu và nhà phát triển, những người cần trích xuất thông tin từ các trang web một cách nhanh chóng và dễ dàng mà không cần viết code. Nó hoàn hảo cho các công việc như tổng hợp nội dung, phân tích đối thủ cạnh tranh, thu thập dữ liệu để huấn luyện mô hình AI và nghiên cứu thị trường.

Các tính năng chính

  • Lấy dữ liệu bằng một cú nhấp chuột: Lấy dữ liệu từ bất kỳ URL nào chỉ với một lần thực thi.
  • Trích xuất bằng AI: Tận dụng FireCrawl để thu thập và trích xuất thông minh nội dung markdown sạch và siêu dữ liệu (metadata) từ các trang web, sẵn sàng cho các mô hình ngôn ngữ lớn (LLM).
  • Tổ chức dữ liệu tự động: Tự động định dạng và lưu nội dung đã lấy vào một Google Sheet mới.
  • Tích hợp Google Drive: Giữ cho dữ liệu của bạn được sắp xếp bằng cách lưu trữ các file Google Sheets được tạo ra trong một thư mục Google Drive cụ thể.

Cách hoạt động

  1. Kích hoạt thủ công: Workflow được bắt đầu thủ công khi bạn nhấp vào ‘Execute workflow’.
  2. Chỉ định URL: Một node “Set” giữ URL mục tiêu mà bạn muốn lấy dữ liệu.
  3. Lấy dữ liệu với FireCrawl: Một node HTTP Request gửi URL đến API của FireCrawl, API này sẽ lấy nội dung của trang web.
  4. Tạo bảng tính: Dữ liệu đã lấy, được định dạng theo kiểu markdown, được sử dụng để tạo một tệp bảng tính nhị phân.
  5. Tải lên Google Drive: Bảng tính vừa tạo sẽ được tải lên Google Drive của bạn.
  6. Cập nhật Google Sheet: Nội dung được ghi vào một Google Sheet cụ thể bằng cách sử dụng ID tệp từ bước trước, giúp dữ liệu có thể truy cập và dễ sử dụng.

Yêu cầu

  • Phiên bản n8n: Bạn cần có một phiên bản n8n đang hoạt động.
  • Tài khoản FireCrawl: Cần có tài khoản và khóa API của FireCrawl. Bạn có thể đăng ký tại firecrawl.dev.
  • Thông tin xác thực Google: Bạn cần thiết lập thông tin xác thực n8n cho cả Google Drive và Google Sheets.

Thiết lập từng bước

  1. Import template: Import template vào canvas n8n của bạn.
  2. Cấu hình FireCrawl:
    • Chọn node Scrape an URL.
    • Trong mục ‘Authentication’, chọn ‘Header Auth’.
    • Nhấp vào ‘Create New Credential’ cho ‘Generic Credential’.
    • Nhập ‘Credential Name’ (ví dụ: “FireCrawl API Key”).
    • Đặt ‘Header Auth Name’ thành Authorization.
    • Trong trường ‘Header Auth Value’, nhập Bearer YOUR_FIRECRAWL_API_KEY, thay thế YOUR_FIRECRAWL_API_KEY bằng khóa API thực của bạn.
    • Lưu thông tin xác thực.
  3. Cấu hình Google Drive:
    • Chọn node Upload spreadsheet to Google Drive.
    • Chọn tài khoản Google của bạn từ menu thả xuống ‘Credential’ hoặc tạo một tài khoản mới.
    • Chỉ định ‘Parent Folder ID’ trong Google Drive nơi bạn muốn lưu các bảng tính.
  4. Cấu hình Google Sheets:
    • Chọn node Update Google Sheets.
    • Chọn cùng thông tin xác thực tài khoản Google.
    • Nhập ‘Sheet ID’ của Google Sheet mà bạn muốn điền dữ liệu đã lấy vào.
  5. Đặt URL mục tiêu của bạn:
    • Chọn node Input an URL.
    • Trong trường ‘Value’ cho biến URL, hãy thay thế URL mặc định bằng trang web bạn muốn lấy dữ liệu.
  6. Kích hoạt và thực thi:
    • Kích hoạt workflow bằng cách sử dụng nút gạt ở góc trên bên phải.
    • Nhấp vào ‘Execute workflow’ để chạy nó. Dữ liệu bạn lấy sẽ xuất hiện trong Google Sheet đã chỉ định.

Cách tùy chỉnh workflow

  • Lấy dữ liệu hàng loạt (Batch Scraping): Để lấy dữ liệu từ nhiều URL cùng một lúc, hãy thay thế node Input an URL bằng một node Code hoặc node Google Sheets có đầu ra là danh sách các URL. Sau đó, kết nối nó với node Scrape an URL để xử lý chúng tuần tự.
  • Các điểm dữ liệu khác: FireCrawl có thể trích xuất nhiều thứ hơn là chỉ nội dung markdown (ví dụ: siêu dữ liệu, HTML). Sửa đổi node Create spreadsheet để bao gồm các điểm dữ liệu khác từ đầu ra của FireCrawl nếu cần. Bạn có thể kiểm tra đầu ra của node Scrape an URL để xem tất cả dữ liệu có sẵn.
  • Xử lý lỗi (Error Handling): Thêm một ‘Error Trigger’ vào workflow để bắt bất kỳ sự cố tiềm ẩn nào trong quá trình lấy dữ liệu (ví dụ: một trang web chặn việc lấy dữ liệu) và gửi thông báo qua Slack hoặc email.

Thanh toán

Hiện shop hỗ trợ 4 phương thức thanh toán:
1) Chuyển khoản ngân hàng tại Việt Nam;
2) Bằng thẻ quốc tế;
3) Google Pay (hiện ra khi đăng nhập Google trên máy tính);
4) Apple Pay (hiện ra trên Safari, iPhone…);

Ba phương thức Googe Pay, Apple Pay, Card quốc tế sẽ hiển thị phụ thuộc vào trình duyệt/ điện thoại của bạn (Chrome hay Safari, Adroid hay iOS, desktop hay mobile…). Đơn hàng sẽ được tự động xử lý ngay lập tức và gửi link download file tới email của bạn.

Với phương thức chuyển khoản, bạn sẽ được giảm 30k trên tổng tiền bạn cần thanh toán (vì mình tiết kiệm được các loại phí trả cho Apple, Google, Stripe, chuyển đổi tỷ giá… và mình muốn chuyển trực tiếp phần tiết kiệm này cho bạn để bạn có giá tốt nhất). Ví dụ, đơn hàng trị giá 350k, nếu bạn thanh toán bằng thẻ hoặc Apple Pay/ Google Pay, bạn sẽ trả đúng giá 350k. Còn nếu bạn chuyển khoản thì bạn chỉ cần chuyển 350 – 30 = 320k. Bạn cần chuyển tiền vào tài khoản bên dưới trong 24 giờ, mình sẽ xử lý đơn thủ công:

Ngân hàng TMCP Tiên Phong – TPBank
0901 4069 303
NGUYEN MINH DUC

Nếu sau 24 giờ mình không nhận đủ chuyển khoản, đơn hàng sẽ bị huỷ.

FAQ – Câu Hỏi Thường Gặp

Nếu bạn còn thắc mắc hay cần thêm thông tin, vui lòng liên hệ với mình qua form liên hệ. Mình luôn cố gắng hỗ trợ bạn và lắng nghe các phản hồi để hoàn thiện sản phẩm tốt hơn.

1. Ai là đối tượng phù hợp sử dụng workflow này?


Workflow này được thiết kế dành cho những người có kiến thức cơ bản về n8n và có khả năng tự tìm hiểu, vọc vạch, xử lý các vấn đề phát sinh. Nếu bạn biết tối ưu prompt và khắc phục các lỗi nhỏ, sản phẩm này sẽ rất phù hợp với bạn.

Đầu tiên bạn phải import workflow này vào n8n, sau đó thêm đầy đủ các liên kết tài khoản, công cụ cần thiết được sử dụng trong workflow. Sau khi kết nối đủ các tài khoản, workflow sẽ chạy theo cài đặt mặc định.

Workflow mặc định sử dụng mô hình GPT-4o do khả năng xử lý và trả về dữ liệu dưới định dạng JSON theo cấu trúc yêu cầu rất tốt. Nếu mô hình bạn dùng gặp lỗi, bạn có thể chuyển sang sử dụng ChatGPT-4o. Lưu ý rằng một số mô hình khác (ví dụ: Gemini Flash) có thể không hỗ trợ trả kết quả ở định dạng JSON theo đúng cấu trúc yêu cầu hoặc không hỗ trợ gọi tool (ví dụ DeepSeek R1).

Trong quá trình thử nghiệm, bạn nên test mô hình LLM là OpenAI GPT-4o, và tạo ảnh với dung lượng thấp để tiết kiệm chi phí. Mục tiêu ban đầu là kiểm tra workflow có hoạt động ổn định trước khi đổi sang mô hình khác và tối ưu cho use case cụ thể của bạn.

Đầu tiên, bạn import file JSON vào n8n của bạn, kết nối các tài khoản cần thiết, và chạy thử theo cài đặc mặc định để kiểm tra workflow có hoạt động không. Sau đó bạn hãy tuỳ biến theo nhu cầu của bạn.

Nếu gặp lỗi, hãy thử các bước sau:

  • Chạy workflow trên cửa sổ ẩn danh (Incognito) và tắt các plugin mở rộng.
  • Thử sử dụng trình duyệt khác (ví dụ chuyển từ Chrome sang Safari).
  • Thử chạy trên một máy tính khác.
  • Thử chạy ở một địa điểm khác (nhà, công ty, quán cafe).
  • Thử chạy trên 1 host khác (local, cloud)

Lưu ý rằng lỗi có thể xuất phát từ nhiều nguyên nhân như hạn chế của AI model, server self-host n8n, phiên bản n8n (phiên bản cũ/ mới không tương thích), trình duyệt, máy tính của bạn, và trong hầu hết trường hợp là chính những thay đổi bạn áp dụng lên template. 

Để được hỗ trợ, bạn có thể mua gói hỗ trợ bổ sung: dịch vụ hỗ trợ kỹ thuật 1:1, và dịch vụ tùy biến theo nhu cầu.

Bạn có thể gửi feedback qua form liên hệ để gửi ý kiến đóng góp, phản hồi hoặc báo cáo lỗi liên quan đến workflow và tài liệu. Mọi phản hồi sẽ được xem xét cẩn thận để khắc phục bug hoặc thực hiện các cải tiến chất lượng (quality of life) cho phiên bản nâng cấp sau.

Lưu ý là những vấn đề bạn report có thể là bug hoặc không (do bạn cấu hình sai, do bạn thay đổi template, do mô hình AI bạn chọn không đáp ứng yêu cầu, do server bạn dùng bị hạn chế…). 

Sau khi nhận được thông báo của bạn, chúng tôi sẽ xem xét và điều tra đấy có phải lỗi từ chính workflow không. Nếu là lỗi từ workflow thì chúng tôi sẽ sửa trong bản cập nhật sau đó.

Nếu bạn có bất kỳ góp ý hay phản hồi nào về trải nghiệm mua hàng, vui lòng gửi feedback qua form liên hệ. Mọi ý kiến của bạn sẽ được ghi nhận và xem xét cẩn thận để giúp chúng tôi cải thiện dịch vụ và nâng cao chất lượng sản phẩm trong tương lai.

Khi bạn mua workflow, bạn sẽ nhận được file sản phẩm, và không bao gồm dịch vụ hỗ trợ kỹ thuật.

Để được hỗ trợ, bạn có thể mua gói hỗ trợ bổ sung như dịch vụ hỗ trợ kỹ thuật 1:1, và dịch vụ tùy biến theo nhu cầu của khách hàng.

Các gói bổ sung này là các sản phẩm/ dịch vụ tách biệt và sẽ có chi phí riêng cho khách hàng có nhu cầu.

Vui lòng không chia sẻ hoặc bán lại workflow cho người khác khi không sự đồng ý từ chúng tôi. Sản phẩm được bảo vệ bản quyền và việc này là điều cần thiết để đảm bảo quyền lợi cho tất cả mọi người.

Vì bản chất của sản phẩm workflow, hiện tại shop không hỗ trợ hoàn tiền (refund) cho các đơn hàng đã mua. Vui lòng cân nhắc kĩ trước khi mua hàng. Trong tương lai, chúng tôi có kế hoạch bán sản phẩm trên các nền tảng hỗ trợ tính năng refund. Tuy nhiên, hãy lưu ý rằng giá bán trên những nền tảng đó sẽ cao hơn so với mua trực tiếp tại shop của chúng tôi.

Review Your Cart
0
Add Coupon Code
Subtotal