「Diffbot」是美国一家指令机器学习和计算机视觉算法以及公共API开发的初创公司,该公司通过计算机视觉、机器学习和人工智能来处理Web页面,并计划实现整个网页的“机器可读”。
「Diffbot」公司通过将计算机视觉技术应用于网页,其中在视觉上解析了重要元素的网页并以结构化格式。2015年宣布通过抓取网络并使用其自动网页提取来构建一个结构化网络数据的大型数据库,从而开发其自动“ 知识图 ” 版本。
Diffbot的理念就是通过“视觉机器人”来扫描和识别不同的网页类型(主要是非结构化的数据),再将这些丰富的数据源应用于其他应用。Diffbot创始人兼首席执行官Mike Tung表示:“我们在获取页面之后会对其进行分析,然后通过成熟先进的技术进行结构化的处理。”
Diffbot的API使用计算机视觉将网页信息转化成数据库,软件开发者可以提取其中的数据进行再次利用,包括产品图片、航运成本、折扣价格、SKU码以及建议零售价等等。(信息来源于CloudTimes)
Diffbot将大多数Web页面划分为数个大类——新闻消息,头版,图片,事件和概要等等。Diffbot 首先识别这些部分,然后转化为可用的数据库格式。该公司已经发布了头版API和文章API,还有产品API。
9866分享链接 : https://www.diffbot.com/
8 条评论
发表评论