Tranh cãi quanh web scraping, nhất là khi AI ngày càng phụ thuộc vào dữ liệu này

Rumi

Intern Writer
Trong thế giới của việc thu thập dữ liệu trên web, hay còn được gọi là web scraping, có rất nhiều điều thú vị mà có thể nhiều bạn chưa từng biết đến. Vậy web scraping là gì? Đơn giản mà nói, đây là hoạt động trích xuất dữ liệu từ các trang web mà người dùng có thể truy cập khi ghé thăm một trang. Tuy nhiên, việc này khác với việc lấy dữ liệu thông qua các API mà các nhà cung cấp trang web cung cấp, hay từ các cơ sở dữ liệu mà có thể tải xuống.

Hãy cùng mình xem qua một ví dụ. Giả sử bạn là một nhà buôn bán trực tuyến với 200 sản phẩm. Những sản phẩm của bạn có giá nhạy cảm, nghĩa là nếu một đối thủ cạnh tranh hạ giá sản phẩm tương tự xuống thấp hơn, bạn cũng cần phải điều chỉnh giá của mình ngay lập tức. Việc yêu cầu nhân viên liên tục làm mới hàng trăm trang web và ghi chép thông tin vào bảng tính sẽ không khả thi, vì vậy bạn sẽ cần đến một quy trình tự động. Trong trường hợp này, web scraping chính là giải pháp.
1759458476363.png

Không chỉ dừng lại ở việc điều chỉnh giá, web scraping còn rất hữu ích cho nhiều mục đích khác nhau. Ví dụ, các công ty có thể sử dụng công nghệ này để theo dõi hàng tồn kho, xem các sản phẩm mới của đối thủ, hoặc theo dõi các đánh giá và xu hướng thị trường. Nếu bạn đã từng sử dụng các công cụ giám sát SEO hoặc công cụ xếp hạng từ khóa, có thể bạn đã tiếp cận những dữ liệu đã được thu thập qua web scraping.

Tuy nhiên, cũng cần lưu ý rằng web scraping còn có các ứng dụng liên quan đến bảo vệ tài sản trí tuệ và an ninh. Đối với các thương hiệu có giá trị, việc theo dõi các trang web thương mại để phát hiện việc sử dụng thương hiệu trái phép là rất quan trọng. Thực tế, các ước tính cho thấy hàng hóa bị giả mạo có giá trị lên tới hàng ngàn tỷ đô la mỗi năm, và việc bảo vệ thương hiệu là trách nhiệm của từng chủ sở hữu.

Khi nói về web scraping, không thể không nhắc tới vai trò của các công cụ tìm kiếm. Các công cụ như Google thực chất là những "kẻ ký sinh có lợi", chúng thu thập dữ liệu từ các trang web và gửi lượng truy cập trở lại cho những trang web đó. Ngược lại, AI lại giống như các "kẻ ký sinh" thực sự, "ăn cắp" thông tin mà không tạo ra giá trị cho các trang web gốc, điều này gây tổn hại đến lưu lượng truy cập của họ.

Một thách thức lớn trong việc thực hiện web scraping ở quy mô công nghiệp là việc các máy chủ web thường phát hiện và chặn các truy cập lặp lại. Để thực hiện việc thu thập dữ liệu này một cách hiệu quả, nhiều công ty đã phát triển các dịch vụ web scraping, sử dụng hàng ngàn máy tính cá nhân trong một mạng lưới rộng lớn để thu thập dữ liệu. Mặc dù không phải tất cả các dịch vụ này đều hoạt động hợp pháp hay đạo đức, nhưng có vài công ty đã thực hiện web scraping một cách đúng đắn và có trách nhiệm.

Ngoài việc thu thập dữ liệu, một số công ty cũng đã chọn cách cung cấp dữ liệu của mình một cách chính thức thông qua các thỏa thuận cấp phép. Ví dụ, Reddit đã quyết định cho phép OpenAI truy cập vào dữ liệu của mình thông qua một API, thay vì để AI thu thập thông tin mà không có sự đồng ý.

Cũng không thể không nhắc đến việc công ty Cloudflare, hiện đang chặn các bot web AI theo mặc định, nhằm bảo vệ các trang web khỏi sự xâm phạm dữ liệu. Cuộc chiến xung quanh web scraping rõ ràng chủ yếu xoay quanh vấn đề tài chính. Dù là việc chi tiền để vượt qua các hạn chế, hay để bảo vệ dữ liệu của chính mình, hoặc cho sự đồng ý để thu thập thông tin, tất cả đều liên quan đến việc tạo ra hoặc mất đi giá trị.

Cuối cùng, mình muốn biết các bạn nghĩ gì về việc các công ty AI ngày càng sử dụng web scraping so với các công cụ tìm kiếm? Liệu các thỏa thuận cấp phép như của Reddit có phải là giải pháp công bằng hay không, hay chúng chỉ hợp pháp hóa việc mất lưu lượng truy cập? Hãy chia sẻ suy nghĩ của bạn nhé!

Nguồn tham khảo: Zdnet
 
Sửa lần cuối bởi điều hành viên:

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

  • 10,786
  • 0
Một kho dữ liệu khổng lồ vừa bị tung lên web "đen", làm dấy lên cảnh báo về nguy cơ đột nhập tài khoản trên phạm vi toàn cầu. Quy mô rò rỉ lần này...

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

  • 10,684
  • 0
Các chuyên gia an ninh mạng vừa phát hiện một loại phần mềm gián điệp cực kỳ tinh vi có tên LANDFALL, đang âm thầm tấn công người dùng điện thoại...

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

  • 14,272
  • 0
Một “liên minh” mới của giới tội phạm mạng đang khiến các chuyên gia bảo mật lo ngại. Ba nhóm hacker khét tiếng: Scattered Spider, LAPSUS$ và...

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

  • 11,744
  • 0
Các chuyên gia vừa cảnh báo về một chiến dịch mã độc trên Android, giả mạo ứng dụng Telegram X, có khả năng chiếm quyền kiểm soát gần như toàn bộ...

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

  • 10,821
  • 0
Cisco đang gặp cảnh báo an ninh mạng nghiêm trọng khi ba lỗ hổng mới được phát hiện trên các sản phẩm cốt lõi của hãng. Hai lỗ hổng ảnh hưởng đến...

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

  • 12,486
  • 0
Một vụ cháy nghiêm trọng tại Trung tâm Dữ liệu Quốc gia ở thành phố Daejeon đã khiến hơn 600 hệ thống CNTT của chính phủ Hàn Quốc đồng loạt ngừng...

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

  • 14,367
  • 1
Các vụ tấn công mạng gần đây cho thấy sự hoạt động của tin tặc đã và đang gia tăng trở lại, đe dọa đến an ninh dữ liệu của người dùng số. Đặt tình...

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

  • 15,534
  • 0
Apple vừa phát hành bản vá bảo mật để khắc phục lỗ hổng nguy hiểm CVE-2025-43300 trong hệ thống xử lý hình ảnh. Lỗ hổng này cho phép tin tặc chiếm...

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

  • 16,256
  • 0
Sự xuất hiện của dòng laptop chuẩn Copilot+ PC đang tạo nên làn sóng mới trong thị trường máy tính, nơi AI trở thành lõi công nghệ mang lại hiệu...

Những hiểu nhầm với quy định mới về xác nhận SIM chính chủ

  • 350
  • 0
Nhiều người hiểu chưa đúng về quy định mới liên quan đến xác thực thông tin thuê bao di động, có hiệu lực từ 15/4, khiến lo ngại bị khóa SIM...
Back