江山

注册

 

发新话题 回复该主题

江山代有才人出大数据抓嫖我看笑了新浪 [复制链接]

1#

来源:周密金融

密金融,一切只为您,从来无二心!

版权:来源半佛仙人(ID:banfoSB)

1

昨天朋友圈被一个小道消息刷屏了,大家可以看一看这个内容,先自己感受一下。

这个案例一出来,很多人都在哀嚎大数据让人无所遁形之类的云云,还有人在讲嫖这个行业的种种。

但是作为一个风控从业者,并且真的和多地公安合作过各种神奇项目(包括抓逃)的人,我看到这个新闻的第一反应是离谱。

很多人对于大数据的理解是数据无所不能,没错,但是大数据发挥威力是有很多前提条件的。

套用到这个场景里面,大数据可以做到,但是实现不了。

再感受下这句话,可以做到,但是实现不了。

我先举个简单的例子,核弹牛逼不牛逼?牛逼炸了对不对。

但是想让核弹产生威力,你得先有办法把核弹丢到该丢的地方去,这就要求你有特别强的运载能力,以及定位能力和导航能力。

同时,你还得有非常强的防干扰,防击落,防伪装能力,不然你的东西会被拦下来。

然后,想让核弹爆炸,引爆也是一个非常复杂的专业领域,你以为是拿个锤子砸两下就能把核弹砸爆的?

最后,你以为核弹炸完就完事儿了?事后要怎么处理烂摊子,更考验综合实力。

所以你看,核弹非常牛逼,但是牛逼也是有条件的。

同样的道理,大数据的威力很牛逼,但这个牛逼也是有很多前提条件在里面的。

为啥我说这个案例特别离谱?

因为这里面透露出来的要素都是非常离谱的,因为我自己做过很多公安的数据项目。

你用大数据做任何事情,天字第一件事儿一定是你的数据从哪来。

没数据你做个屁大数据。

那问题来了,数据从哪来,有4个问题。

1-数据源选择问题

2-数据源获取问题

3-数据应用(清洗)问题

4-数据源合法性问题

大家这时候再看这个截图,你对照一看,就觉得离谱。

数据源选择问题,说的很明白,爬TM和JD的数据。

这时候看数据源获取。

爬数据,也就是爬虫工程,这里分2种。

一种是外部爬取,就是你自己写一堆爬虫,去爬对方暴露在外的界面,一般电商大战的时候,各家都会实时去爬对手的爆品的单价,自己也会有策略动态跟着调价,这块儿数据是暴露在网页端orAPP端的,很容易爬,只要有IP池就行,这种内容都是暴露在所有公共视野里面的。

一种是内部爬取,就是不暴露在公众视野里面,但是有授权就可以爬取。

例如你JD和TM的交易记录,只要你愿意授权给他们,他们就爬取你登录后的页面,爬你私人的历史订单,以及收货地址,以及浏览记录的这种信息。

这种内部爬取是必须你自己授权,而且只能授权你自己看到的你自己的信息,这不是公开信息。

那么问题来了,大家自己打开TM和JD的商品页面,自己看看销售记录,你能看到的所有数据都是脱敏or加盐的,还有大量匿名的,你根本看不到这些人的手机号,地址以及邮箱信息,就连ID信息都不全,一堆星号,抓一堆这种数据出来,有啥用?你知道谁是谁?

有人说可以用模糊匹配,例如半****佛,可以直接匹配库里的半****佛,这俩大概率是一个人。

那问题来了,你库里的数据哪里来的?合法吗?

就算合法,谁告诉你半***佛就一定等于半***佛?

不同电商平台的数据加盐规则都是不同的,一个空格算一个*还是两个*?字母算几个*?汉字算几个*?我们都知道汉字在电脑里是2个字符,字母是一个字符。而且,允不允许标点符号的存在?

你有本事破解TM和JD的规则,你还创个屁业。

就算这个你搞定了,你怎么搞定*的具体内容?

两个半***佛,脱敏之后,完全可以是半小胖子佛和半大帅比佛,你能说这俩是一个人?这不闹吗?

就算这俩半***佛,脱敏后都是半大帅比佛,也不能代表是一个人。

为啥?

因为网络又不是ID独占的,别人完全可以申请一样的ID,同理,一个人在不同的平台ID本身就不同。

为啥我在知乎叫半佛仙人,在B站叫硬核的半佛仙人,在微博叫半佛仙人正在装。

不是我有创意,而是ID被别人用了好不好。

同样的,我为啥要在不同平台叫一个ID呢?

在淘宝可以叫半淘宝,在拼多多可以叫半拼多多,在京东可以叫半京东,顺丰发件我叫半顺丰,谁把我数据卖了我可以溯源到问题平台。

在这种情况下,你怎么做逻辑匹配呀?这东西根本就不准呀。

还是模糊的逻辑匹配,逻辑网的Key如何设计?谁要是能把这个都搞定,建议直接去币圈,还创个屁业,直接去币圈当中本聪的爷爷。

知道为什么我只说了TM和JD,没有去说通话记录么,明明截图里还有说通话记录的事情。

因为如果做不到TM和JD的身份锁定,你有一堆通话记录你也不知道要咋匹配。

这就和万事俱备,就差一个程序员一样搞笑。

好了,假如现在有个技术天才,真的搞定了这一切。

甚至可以直接从TM和JD拿到精准的脱敏数据。

那么他将面临的可能是法律的制裁。

你这么去爬大平台的数据,做自己的应用,你在找死吗?

过去两年多少大数据精英因为这个进去捡肥皂了?

而且这里面还有通话记录,运营商让你爬了吗?知道因为这个事情,多少爬虫公司进去了?

还是说这是运营商or公安给你的数据?他们给你数据的时候,用户授权了吗?主动授权了吗?

这可和绿码之类的东西不一样,总不能我买东西还授权一个验嫖功能吧。

而且你能不能告诉我,一个TX投资(还不是控股)的小公司,会不会被TM和JD弄死?

TX自己都不敢做这种事情,南山必胜客真不是浪得虚名。

头条和

分享 转发
TOP
发新话题 回复该主题