互联网采集数据有哪几种常见的方法?

如题所述

通过日志获取数据的,一般是服务器,工程类的,这类型数据一般是人为制定数据协议的,对接非常简单,然后通过日志数据结构化,来分析或监测一些工程类的项目通过JS跟踪代码的,就像GA,百度统计,就属于这一类,网页页尾放一段JS,用户打开浏览网页的时候,就会触发,他会把浏览器的一些信息送到服务器,基于此类数据做分析,帮助网站运营,APP优化。通过API,就像一些天气接口,国内这方面的平台有很多,聚合就是其中一个,上面有非常多的接口。此类的,一般是实时,更新型的数据,按需付费通过爬虫的,就像百度蜘蛛,或类似我们八爪鱼采集器,只要是互联网公开数据均可采集,这类型的产品有好几款,面向不同的人群,各有特色吧。而说能做到智能的,一般来说,也就只有我们这块的智能算法做得还可以一点。(利益相关)比如自动帮你识别网页上的元素,自动帮你加速等。埋点的,其实跟JS那个很像,一般是指APP上的,像神策,GROWINGIO之类的,这种的原理是嵌套一个SDK在APP里面。如果对某项采集需要了解更深再说吧,说白就是通过前端,或自动化的技术,收集数据。
温馨提示:内容为网友见解,仅供参考
第1个回答  2019-05-30
目前我国主要采用数字化仪法、航测法和大地测量仪器法采集数据。前两者主要是室内作业采集数据,大地测量仪器法是野外采集数据。本回答被网友采纳
第2个回答  2019-05-30
hi, 您好。
首先,数据获取分两大类,数据交换购买以及数据采集
数据采集主要又分两大类:
自产(SDK采集、埋点
API采集

SDK采集,核心是提供服务,在基于服务顺带采集部分数据。例如MobTech的ShareSDK,初衷是为了解决分享以及授权登录的功能,然后才是采集数据。这里的难点是思维上的转变以及数据获取上的壁垒攻克。
埋点其实和SDK采集类似,当前其实更趋向无埋点。

爬虫,也即是API采集。根据自己数据仓库需要去请求外部的API。例如基站定位查询、IP查询、微博舆情等等。爬虫的学问也挺多,爬虫Robots协议、反爬虫、投毒等等。

个人建议根据最小可行性方案,然后再去考虑是数据采集还是数据交换购买,再以此制定一些方案等。
Thx本回答被提问者采纳
第3个回答  2019-05-30
大圣王无上西天
相似回答