《Commoncrawl数据提取助手》是一款根据Common Crawl人工智能语料库的原始网页数据(WARC)的warc.paths网址列表,自动下载文件、解压缩文件和读取文件自动提取全球网址域名的工具。
Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过2008年-2024年的网络爬虫数据集,包含原始网页数据(WARC)、元数据(WAT)和文本提取(WET),拥有PB级规模,可从 Amazon S3 上免费获取。
索引网址下载地址:https://commoncrawl.org/get-started#WARC-Format
如有进一步的产品功能需求也可以联系我们定制开发!
购买软件请联系客服QQ:189879691 / 微信:hznetnewpower
软件预览: