包括各种东西,基础数据全国最好懂的电路基础是100+的

100+有趣的统计数据集 - 推酷
100+有趣的统计数据集
在寻找数据集?这里给你准备了100多个最有趣的,从柏拉图式的爱情到政治竞选再到死刑囚犯,应有尽有。
个人对“信息时代”这个名词非常不感冒,就好像随便来了个人,往过一坐,然后说:“当下的信息已经非常多了,我们该如何形容?我觉得‘信息时代’这个词不错。”个人认为这是极度不负责的,没有创意,命名者太懒了;其次,如此多的数据带来更多的是处理上的无助和绝望,用“drinking from the firehose” 比喻起来或许更贴切一点。因此,与其叫“信息时代”,我们不妨称之为“饱和时代”,或者是“泛滥时代”。然而,不管称之为什么,毫无疑问的是,我们已经被数据淹没了。这里为大家分享100+最有意思的数据集。无他,在提供数据分析材料的同时,给大家增加一点乐趣。
100+ Most Interesting Data Sets
1.& 如果你是智力竞赛节目Jeopardy的参赛选手,你该如何准备?你可以下载这个数据集----&
。把这个数据集放到记忆系统中,你就是下一个赢家。
2.& 想知道被判死刑是什么样的感受?看看这个数据集----&
放到了网上。借助这些数据,我们可以进行临刑者的情感分析。
,如“犯罪史,家庭背景和个人性格,药物史、酗酒史、治疗方案,***支所有权和使用史、监狱活动,项目,服务”。
4.& 想读他人的邮件么?即使你想,你也没有那个技术,更没有哪个胆量去。来看看安然公司的文集数据库吧。这个数据库包括来自&
,大部分邮件来自Enron公司的管理层,以文件夹的形式呈现。
5.& 想了解互联网用户都关心什么?这个问题不好回答,我们可以先回答一个更简单的问题:Reddit(新闻网站)用户都关心什么。有人将&
进行了分析,公布到了GitHub上。通过这些数据,我们可以了解用户对猫的喜爱程度,一个数据是否支持r/circlejerk。
6.& 谈到猫,还有一个数据集上&
。当我们想训练机器人消灭除了猫以外的所有生物时,这个数据集会非常有用。
7. 如果你对构建金融算法有兴趣,或者只是对预测美国最大经济作物的套利机会感兴趣,那你应该看看&
,该数据集包含了从日到现在的所有大麻价格数据。
9. 有关象棋比赛的记录最早可追溯到10世纪,产生于巴格达的历史学家和一位学者之间博弈。从那以后,记录象棋比赛中的每一步成为一种传统----尤其是对于那些有重大意义的比赛,比如两个强劲的对手之间的胜负之战。因此,今天的象棋学生们可以借助包含这些比赛记录的丰富数据集进行象棋学习。“Million Base”或许是世界上最大的象棋比赛数据集,声称有220万条比赛记录,你可以通过&
下载该数据集。
10.& 说起比赛这个主题,少不了足球,我已经找到了&
。如果这些还不够,你还可以利用S&
获取更多的数据。我想只要教练们想要战胜对手,这些数据迟早会发挥作用。通常我们说:极客和赌徒区别,就在于极客们通过构建分析模型获得胜利。
11.& Google已经开放了所有的Google Book字串数据(n-gram)。每个字串实际上是由n个单词组成的短语,开放的数据集中包括了1-gram到5-gram等不同长度的字串数据。该数据集的建立是“基于1500年到2008年之间出版的520万册书籍”。我们可以通过这一数据集来判断哪些短语被过度使用,哪些短语已经过时,哪些短语面临被淘汰的危险(友情提醒:有些人甚至已经抢先注册了域名)。
12. 亚马逊有大量&
(虽说是免费的,但免费只是针对AWS的用户),该数据集包括了从超过280万个网页上抓取的数据。分析抓取的数据,买下有升值空间的网址后,你可以再卖给那些需要做SEO的人,或者你也可以自己用来创建下一个Google。
13. 少数民族的计算机科学跳级考试成绩如何?&
14.& 有一个百万歌曲(Million Song)数据集,包含了一百多首不同的歌曲,包括“舞曲”。如果配备一个晚会专用的媒体播放机可能会更好,这些数据还适用于聚类算法(比如,自动类型检测),但我不太确定能起到多大的作用。许多人试过基于这些数据构建推荐算法,包括&
。一种做法是:按照时间,比如按年分析音乐----70年代、80年代或者90年代(或者找出“模仿-领导“效应,比如一首歌因为风格独特而流行,还会有很多模仿者)。
15. 说道音乐的数据集,last.fm有大量可用的音乐数据。last.fm从它的36万用户那里收集数据,这些数据可能是以“用户,艺术家,以及歌曲的播放信息”这样的形式呈现,这时候用聚类算法自动给音乐分类或者构建推荐系统会更好。
16.& 我一想起极客,总会联想到数学和计算机黑客,但是极客远不止这么简单。CescRossell&、Ricardo Alberich和Joe Miro描绘出了一个神奇宇宙的“社交网络图”,使用&
,还可以做一个新的“什么是超级英雄?”测验。
,包括餐馆排名和评论数据。通过挖掘Twitter来获取你需要的数据,可以让你拥有可以匹敌Yelp的竞争力。
18. 如果你对数据(元数据)中的数据感兴趣,你或许也会对J&rgen Schw&rzler感兴趣,J&rgen Schw&rzler是Google公共数据团队中的一名统计学家,他整理出一个排名,记录下&
据。前5位分别是学校对比、失业、人口、营业税和工资。
19.& 我的读者中无疑有一些邪恶的天才,当然也存在一些想要拯救世界的英雄。这两类人可能都会对超级智能机器人感兴趣,但是要建造这样的一个机器人,你必须教会它事实,然而,手动输入1千万条事实是一件痛苦的事情。还好,&
,它为我们免费开放的数据集包含了19亿条事实。
20.& 你或许没有打算建造一个超级机器人,只要比一般的数学家聪明一点就行。如果是这种情况的话,那你就需要教你的机器人许多数学知识(定义和定理),因此,你可能需要了解一下&
,该项目为我们提供了9400条定义和49000条定理。
21.& 那我们假设你建造出了这样的机器“数学家”,它能在证明上为你提供帮助,但那又能怎样?你还需要一个能和你在更深层次交流的人,一个能对某些抽象的主题进行概括的人。这样,你就需要给你的机器人“喂”维基百科的数据了,所有&
都是免费开放的。
22. 当你对数学和维基百科都厌倦时(事实上,这些是挣不到钱的),你会决定成为一名软件工程师。这时,你面临让一个对编程没有基本概念的机器来教你编程的尴尬,在哪能找到相关的数据呢?你可以下载&
(这些都是免费的),所以你可以从StackOverflow和StackExchange两处得到信息来“喂”你的机器(另外还有来自Cross Validated的数据,等等)。
23.& 你想过研究一下正真的友谊吗?(试一下吧,实现你成为社会科学家的愿望)。你了解正真的、柏拉图式的爱情(像海豚之间的那种感情)吗?即使暂时还不了解,你也完全可以做到,这要感谢谦虚的作者本人,当然还得感谢Mark Newman,他构建了一个由6&
----New Zealand,远离伪装和不信任。
24.& 是不是左倾的博客通常会链接到其他左倾的博客,而不是右倾的博客?好吧,其实我也不知道,但是这听起来还是很合理的。要特别感谢LadaAdamic的许可,你可以下&
25.& 谁更友好一些:是爵士乐音乐家还是海豚?你会发现我们应该将之前提到的海豚数据集和Pablo M. Gleiser、Leon Danon的&
集结合起来分析。
26. 那20世纪30年代的南方妇女和囚犯呢?谁更友好?兄弟会成员和HAM无线***务员,谁又更友好呢?这些问题都可以用&
,结果又会怎么样呢?
28. Web2.0网站(比如Reddit)有时候会被用“投票环”这种方式***,很多人故意互相投票,而不在乎内容质量。我们经常会想在学术界会不会也出现这样的情况。Stanford大学有一个在线&
文献引用网,你会从中发现类似的现象。
29.& 我假设读者们都非常聪明,但也许你们还想变得更加富有,这样你就能创建下一个Bill and Melinda Gates基金会,然后拯救世界。那也许你应该开发一些新奇的交易算法。但是,在这种情况下,依据市场历史数据检验一样你的策略会更好,你可以通过此链接获取市场数据。
( Open Product Data)网站旨在为每个品牌提供免费的条形码数据。经营理念是:建立一个特别的纹身店,只纹条形码,但允许客户选择他们想要的产品,想想看:“你的条形码表达的意义是什么?”“这样的条形码就像是一种信仰。”
31.& 做中期天气预测的European Center对收集天气数据情有独钟。如果你要问这和天气有关吗?其实我主要想谈一些我认识到的&
:金融行业。我很尊敬金融,主要是因为有些人做了一些疯狂的事情。我听说过中微子的应用实际上是&
”。你的算法可以解决购买印尼芝麻种子期货问题吗?有了天气数据,也许就可以。
32.& 如果你想了解&
,美国农业部可以为你提供数据。你可以开发一个判断用户是否类食物过敏的手机APP。然后说服学校给每个学生购买这个APP。
33.& 想精通语言,字典必不可少,但谈到&
。WordNet侧重于语言的结构,这点其它字典无法比拟。
34.& NASA公布了&
。买一个飞船,你可以飞到那里建一个秘密基地。
35.& 联邦铁路管理局有“&
”。一些组织(如纽约时报)可以通过这些数据判断贫穷地区的人们是否更容易发生火车事故等。
36.& 如果你需要关于&
,你可以到Open Library下载免费的数据集。
37.& 美国的无人机杀害了谁?如果你&
38.& 如果你想通过自动导入引用数据构建Papers2的竞争对手,你可以使&
39.& Mnemosyne是一个虚拟卡片应用,通过间隔重复辅助记忆。几年来,这个项目一直在搜索用户数据,现在&
。研究者们可以在这些数据上运行机器学习算法,了解更多关于人类记忆的信息。
40.& 婚礼上邀请贾斯丁o比伯要花多少钱?&
。你可以借助这些数据计算流行度和价格的比率。
41. 有些数据集可以更好的预测股市。2011年,&
:他们分析与上市&
,然后计算一个“情绪得分”,通过这个得分预测股市。
42.& 2014年,Clifford Winston和Fred Mannering指出,美国在车辆交通上每年花费千亿。我们可以通过数据集提高交通效率。例如,我们可以通过对历史交通数据进行算法分析,预测交通拥挤时段、路段。&
43.& 如果你想开发一个跟踪实时路况的app,你需要&
44.& 如果你想开发反垃圾软件服务,或者只是分析通常垃圾邮件的内容,你需要数据。&
45.& 如果你想做反垃圾短信服务,你依旧可以找到&
46.& 有大量的数据可被R操作,你所需的只是***一个包。&
。我还见到过对数学水平和抽烟量关系的分析。
47.& 有没有想过一个人会参加多个公司的董事会,比如:Condoleezza Rice(美国前国务卿赖斯)加上和她密切相关的政府监控,或许这对于Dropbox来说不能算是最好的选择。好吧,有了&
,你也可以做到,但这只针对挪威----因为该数据集是由挪威的上市公司组成的网络数据。
48.& 有没有看过:地方政府会根据一个人的社会关系来判断某人是不是恐怖分子?实际上,&
,分析出恐怖分子的社交网络。
49.& 围绕维基百科的官僚机构一直存在很大的争论。如何才能成为一个真正的维基百科大人物?谁才是维基百科最理想的管理者?当然,可以通过投票,&
50.& 哈佛大学开放了哈佛大学图书馆持有的“&
,包括了书籍、期刊、电子资源、手稿、档案材料、音频、视频等各种形式的资料。
51.& 如果你需要为学生提供一个小型数据集,可以看一下&
。比如解决这样一个问题:&
52.& GET-Evidence已经提供了可下载的&
。我怀疑Steven Pinker的个人数据也在其中,或许你也可以克隆一个自己。
53.& 说到基因组,已经有1000个基因组项目提供了大约260TB可供下载的数据。
54. 在列出的这些数据集中要说什么是最小数据集,&
,女乘客幸存率是男乘客的四倍。
55.& 你想过对食物进行具体细分吗?如果是,那就恭喜你了,你可以在此处下载&
(感谢加拿大)。
57.& 有一个与前者类似的数据库,不过记录是&
。我不确定你可以用这些数据做什么,但也许有人可以用这个来进行病毒式营销----xxx营养之道。
58.& 参考能量解集数据集包括大概&
。我们可以利用这些数据提高家庭能量效率,或者对家庭能量费用消耗进行可视化展示。
59.& 开发了一个新的图像压缩算法,需要数据进行测试?试试&
60.& 如果觉得这些图像太小了,试试&
。如果你想训练一个算法识别独角鲸,可以先用这些数据训练。
61.& 还不够?试试&
62.& 假设你在&
,你希望段落可以自动与相应的维基百科文章相关联。怎么做?斯坦福大学和谷歌研究中心已经搭建了&
,你可以下载他们的&
63.& 俄罗斯搜索引擎Yandex提供了一系列&
。也就是,如果一个人搜索了关键词,他们会点击哪些内容?不过,提供的都是俄罗斯人的搜索结果。
64.& 人们通常在维基百科上做哪些编辑修订?&
65.& 谷歌有一个&
,你造么?
66.& Pew研究机构有很多免费的数据集,其中包括他们的&
。通过这个数据集我们可以了解:世界是否变得越来越进步?随着时间的推移,人们对宗教的态度是如何变化的?
67.& 谈到公众态度随时间的变化,你可以下载从&
,这个数据集也可以回答这两个问题。
68.& 有一个有趣的数学问题叫名人问题,你需要找出一个每个人都认识,但是不认识任何人的人。但生活中真的有名人问题么?试试&
69.& 需要2009年以来的十亿个网页?需要训练一个从不停止的语言学习者NELL?&
70.& 你知不知道你可以&
一旦我们可以教会机器自然语言,我们就可以让计算机阅读所有文档为我们提取重点。
71.& 如果你需要任何&
,试试census.gov的行业统计信息。如果经济状况不好,你会在数据中找到证据。
72.& 你可以下载大量&
。这些数据对某些文本分析项目或机器学习算法(如拼写检查)很有用。
73.& Nick Bostrom有一篇很有意思的文章&
。该文章提出,考虑到人类灭绝的危害,再小的灭绝危险都是需要警惕的。通过分析从&
,我们可以更好的应对这个问题。
74.& 性别和精神疾病对犯罪影响有多大?&
75.& 谈到精神疾病,如果你想了解精神疾病是如何影响少数民族的,&
76.& 现在有很多孤男寡女,其中不乏一些具备卓越分析的人。&
,美国人是如何遇到他们另一半的”,寻找遇到另一半的最好办法。
77. 你可以通过此链接下载大量所谓的&
,而且还包括了大量关系数据和生物指标数据。
78.& 我有一个问题:现代工作与过去工作相比,哪个更糟糕?&
,我已经看到了这样一篇文章----“我们可以告诉你:昨天是不是比今天更好?”
79.& 斯坦福大学有&
可供下载。你可以用这个做很多事情:使用它来改善推荐系统的算法,找出评论中是否存在“模仿-领袖”效应(比如:早期的积极评价能否带来更多的积极评价?)
80.& 基于我过去的一些研究,搜索关键字&
时发现两个特点:1)很具体;2)很流行,但我希望这和人的品味没有太大关系。当然,我找到了相关的数据集,在此特别感谢连环杀手信息中心。
81.& 这确实是一个让人有些毛骨悚然的名字,Maryland大学还有个“全球恐怖主义数据库”,这是一组由&
。你可以在填完表后下载它。可视化这些数据,对一些易受影响的地区进行预测,可以防止恐怖袭击,建立提前预警系统。
是机器学习领域的一个经典。它是由一组带标签的手写字符组成,这对OCR算法来说是必不可少的。如今,一些算法的判断能力甚至比人类法官还要准确!在将来,我们会要求让机器来做判决。
83.& UCI为我们提供了&
。我不擅长玩扑克,但我敢肯定关于扑克一定会有一些有趣的分析可做。我听说在扑克界人类仍然比机器更有优势,但我觉得这种说法不太可靠。
:其中,图像被简单的分为广告和非广告两种。基于该数据集可以自动拦截广告或进行垃圾邮件的检测,也许还能应用到Google Glass中,过滤掉现实生活中的广告,那一定是一件很酷的事情。我们看到的将不再是一个广告牌,而是自然景观的虚拟扩展。
85.& 还记得Star Wars Kid崩溃事件吗?Attack of the Show将它评为了史上第一病毒视屏。Andy Baio策划了这一事件,还杜撰了“Star Wars Kid”这一词,并将他的&
86. 怎样知道在Wordpress上谁链接到了谁(或者是某物)?可视化网络是件很了不起的事情,但如果它能揭示一些关于“超节点”的信息,或许会更好,“超节点”是指被许多节点连接或者连接到许多节点的节点(也许两者都有)。如果你有兴趣,&
87.& Obama是更喜欢石油大亨?还是极端环保主义者?或是玉米游说团体?是谁在背后支持Herman Cain?我们已经可以下载到&
,用来分析哪些行业偏向于哪位候选人想必是也极好的。
肯塔基州抽的最多,西弗吉尼亚州第二。&
,一个不错的分析也许可以挽救很多人的生命。
(或换个说法会更好----你觉得把那些愚蠢却流行的意见过滤掉怎么样?)不错,用Redditor完全可以做到这一点,Redditor会是个不错的推荐引擎。
用这些数据来确定改善世界健康的方法会很有效,像血吸虫病控制倡议一样,这一项目被GiveWell列为评价最高的慈善机构之一。
谈论犯罪虽然在道德上令人反感,但在电视上节目开个玩笑还是无伤大雅的。
96.& 你知道在加拿大,杂货店的畅销品是卡夫晚餐(aka通心粉和奶酪)吗?我想知道它在比利时或者台湾销售的怎么样,这里为我们提供了&
记录比如选项卡的使用数量,活跃状态的时间,隐私标签打开的数目。虽然隐私标签这一词或许会让一些人浮想联翩,但用来比较互联网与实际数据之间准确度还是很不错的。
98.& 非常强大的一个数据:Mozilla将Mozilla和Eclipse中发现的&
。我很想看看哪些bug导致的奔溃最常见,以及如何预防这些奔溃,当然也只有参考这些数据,才能设计出更好的编程语言。
99.& 如果你对设计调度算法感兴趣的话,你会对这一消息感兴趣:&
。开发针对数据集的算法可能会帮助未来验证你的发现。毕竟,明天的桌面系统很可能会像今天数据中心一样强大。
,此外还有45,000轮投资记录,这或许是一个逆向发现市场需求和投资者的投资倾向的好方法。
你可能想知道一些国家是否接受信用卡,或者哪些公司接受大部分的信用卡消费。
105.& 这里有&
。将这些数据“喂”给一个神经网络,也许能看到一些关于地震的预测。
106.& 我常常想会不会有人做在线人格测试发现比大多数人更神经质?从很多在线性格测试项目中可以得到&
,将性格测试的***与大众的***进行比较,就可以找出那些比较神经质的人。
原文连接:
(翻译/蔡仁君、毛梦琪 责编/仲浩)
本文转载自:
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致更多公众号:gh_b4efa9fb9992用数据解读生活,大数据文摘,随时随地,想淘就淘。最新文章相关推荐搜狗:感谢您阅读数据|100 +有趣的数据集的统计数据,本文可能来自网络,如果侵犯了您的相关权益,请联系管理员。QQ:创客100开放日第三期:8年大数据创业路,范晓忻从九死一生到资本竞逐
【IT时代网 IT时代周刊独家报导】金融大数据,一个听起来就让人畏惧的专业话题,第一次被范晓忻深入浅出地讲得如此通俗易懂。在场的每一位听众,都入了迷。与会人数严重超过预计,座椅一把接一把的递进来,但还有人只能站在走道门边。开放日时间也已经远远超出,大家依旧津津有味,没有去意。从大家沉醉的眼神,和提问环节对话筒的争抢中,创客100君再一次品出了创客100开放日的成功韵味。活动开始还早,听众已经络绎赶到创业并未让美眉走开创客100董事长曹健在会客室欢迎嘉宾们的到来曹健介绍嘉宾们相互认识大家侃侃而谈、热切畅谈本次开放日特邀嘉宾范晓忻参观创客100孵化器会场一瞥趁活动还未开始,创业者抓紧时间交流11月13日,创客100开放日第三期如期举行,这一期的主题是“隐形冠军的创业故事”。作为特邀嘉宾,金电联行创始人兼董事长、全国中小企业信用融资平台总裁范晓忻面对台下充满渴望的灼灼目光,回忆了自己的创业经历,并围绕 “大数据时代的金融创新与挑战”的主题,就如何把握大数据金融创新的切入点和商机、下一个千亿蓝海带来的机遇和挑战等话题,和在座听众做了热烈互动。范晓忻,清华大学毕业的高材生,校羽毛球队的高手。作为一个老牌创业者,他在前人没有走过的创业道路上,经历过九死一生,几度走到尽头,又几度柳暗花明,最终8年磨成一剑,率领金电联行成为中国大数据金融领域的“隐形冠军”,公司受到资本的疯狂追逐。所以,谈隐形冠军的创业故事,范晓忻是绝佳人选。下午2点,开放日第三期准时开讲,同时宏福集团董事长黄福水也特邀前来。受邀前来的宏福集团董事长黄福水(右一)本期开放日由创客100副总裁刘燕主持在创客100副总裁刘燕做了简短开场白后,创客100开放日第三期在创客100董事长曹健热情洋溢的致辞中拉开序幕。创客100董事长曹健饶有趣味地回忆了和范晓忻的认识经历在致辞中,曹健首度公开介绍了创客100未来三年的发展目标:投资200个移动互联网的创业项目,打造一个为创业者和投资人服务的新媒体平台创客100,做一个5000人的创客全球创业论坛,打造一个互联网视频的股权众筹平台。在曹健回忆了和范晓忻从相识到相熟到相知的故事后,创客100开放日第三期进入高潮。金电联行银行创始人、董事长范晓忻把枯燥的大数据讲得通俗易懂结合极具极富传奇的创业历程,范晓忻首先告诉听众,创业一定要坚持最初的信念,一定要沿着最初认准了的道路前行,相信自己,做好自己,不要怕磨难,只有坚持才会迎来最后的胜利。他还告诫创业者们,虽然努力不一定有机会,但不努力就一定没机会。所有的听众都沉醉在范晓忻的故事中第二,要找准机会,注重与各方的合作,从而发现新的衍生商机。同时,要特别注意从刚需中发现新商机,开拓新业务,要有一个对时代经济形势的把握。第三,不要照搬外国模式,而是针对本国国情进行创新,特别是当大家都去做一件事的时候,一定要找到有特色的点切入进去,要注重核心技术的研发。听众记下了受教益的地方最后,范晓忻呼吁创业者们要做好迎接数据资产化美好未来的准备。他认为,数据就像深藏地底的石油,一定要应用起来才有价值。但是,要让各种类型的数据产生价值,就一定要解决数据的标准化、格式等非常重要的工作,否则,数据即使再少量,意义也不大。听众踊跃提问范晓忻在回答问题时依旧澎湃激昂全场听众都被范晓忻的激情演讲撩拨得兴趣盎然,开放日时间已经远远超出,但在结束提问环节后,听众还意犹未尽的围着范晓忻进行交流,对创业的困惑和问题向他请教咨询。最后, 大家又共同兴致勃勃地见证了7个路演项目。路演点评人、创客100董事长曹健在认真倾听路演项目介绍BigOne: 时尚社交APP,运用大数据给不同人群分类,然后根据人群给用户提供专业的服饰搭配服务,作为用户和商家之间增加独立搭配服饰环节的第三方。BigOne 创始人CEO王子瑜旭农网:畜牧预售的B2B平台,从养殖户采购种苗环节切入,在育肥期即可对接下游企业从而避免滞销,是协助养殖户实现从生存到产生规模品牌的平台。旭农网创始人杨光一原一品:通过发展村官及社会人士作为当地农特产品的微代理,搭建农特产品移动电商平台,实现农特产品立体化、网格化从乡村到餐桌的渠道。一原一品创始人张民姐优科技:给中国有法律需求的用户提供相关服务的O2O平台,致力于为每个用户提供私人律师服务。姐优科技创始人CEO张朝栋完美旅行:以社交为基因的O2O户外旅游文化传播平台,通过线上平台和线下体验馆形成社群效应来吸引用户。完美旅行创始人CEO刘相烈91拼团:作为第三方,依托于微信公众号,为企业提供营销拼团软件SAAS的公司。主要面向本地生活消费服务业和提供新的营销解决方案。91拼团创始人CEO周磊【责任编辑/闫红玉、于德浩】以下为开放日全程记录:主持人:大家下午好,今天是我们创客100第三期开放日的活动,我们希望为创业者搭建一个投资人、企业家,以及在创业中已经取得了一定成就的创业前辈们,进行交流和分享的平台。首先我代表创客100的同仁热烈地欢迎大家的到来。今天我们的分享嘉宾是金电联行董事长范晓忻。我们首先请到的是IT时代周刊、创客100基金的创始人曹健先生致辞。曹健:大家好,感谢大家百忙之中来。创客100是由IT时代周刊和中关村管委会一起创办的一个专门为创业者服务的创业平台。未来的三年我们要做四件事情:第一:我们要投资200个移动互联网的创业项目。第二:我们要在IT时代周刊网络读者的基础上,重新打造一个为创业者和投资人服务的新媒体平台,叫创客100。第三:我们要在北京做一个创客全球创业论坛,每年大约5000人,我们将会把全球最顶级的创业家、投资人、学者,带到中国来,同台展望未来。第四:我们要打造一个互联网股权众筹平台,把已经拿到天使、A轮或者B轮的项目,通过我们的挖掘和包装,找到下一轮领投的投资人,其中还有一半的钱,我们放在网络来进行众筹。为了做好这个事情,我们最近准备成立系列的线下投资人的聚会,包括主题高尔夫俱乐部,我们要打造一个中国投资人高尔夫俱乐部。我们要举行投资人的创新论坛等等,我们要想办法把北京、硅谷、上海、深圳等等,把这些投资人聚合在一起,包括他们基金的规模、喜欢投资的领域,以及他们所投资的阶段,把它做成档案。在未来的3年我们要做四件事情,我也很高兴地告诉大家创客100这个平台,在未来三年也会登陆资本市场,这是我们的希望。我们自身也要借助当前的这个资本市场,不断地发展壮大,这些是我们创客100的展望。今天我们请来金电联行董事长创始人范晓忻先生,我跟把我跟范总认识的故事给大家讲讲。他的投资人是我多年的朋友,原来IDG的陈洪武。陈洪武后来从IDG出来以后,自己做了一个基金。有一次他愁眉苦脸地跟我说,曹总,钱到了,我投不出去怎么办?他说你有什么好项目帮我推荐一些。我琢磨半天也想不到好的项目,又过了一段时间,他说他已经投了3000万。我问是什么公司,他就跟我讲了这个公司,他说你无论如何一定要关注它,我说没有问题。可能又过了一两个月,我跟范总见面了。结果我跟范总一见如故,本来是谈40分钟,最后谈了好几个小时,谈了价值观、思想,对产业的认识,以及对整个互联网未来的发展的趋势的认识,我们俩从此成为好朋友。所以,这次的嘉宾访谈,我就把范总请了过来,给我们讲讲,把他的创业理念、经验、以及对互联网、金融的理解,和我们创业者、读者来分享一下。我在考察了这么多互联网金融的项目,我觉得有最深入的对互联网、金融和互联网+金融的理解就是金电联行,其他很多的P2P,都是摸到了一个皮毛,只是做一些民间的借贷的一些东西,甚至有很多已经跑路了的。走到今天外人只看范总的风光,真正的朋友、家人看到的是他每走一步的心血和不容易。下面我把时间留给范总。范晓忻:谢谢曹总、各位嘉宾,我觉得刚才还是曹总过奖了,我们只是一个普通的企业,说是创业企业可能时间也长了一点,我们到现在有8年的时间了,但是一直还坚持一个信念,这点我觉得我跟曹总是有共识的,就是一定的要走自己的道路,今天给大家做一个简单的分享。这是在媒体出现比较多的一句话,就是说老范你的机会来了。既然今天分享创新创业,我先讲讲我创业的道路,后面我再跟大家一起交流大数据金融到底做了些什么事。刚才曹总也讲了,我们开始实际上做汽车产业链,做了4、5年的时间,帮助北京现代、福田,还有其他汽车产业,做生产制造系统,包括和供应商、4S店沟通的系统。当时我们系统应该还算比较先进,为什么先进呢?在这跟大家分享一下,我们那时候就帮着北京现代做系统集成,韩国人自己开发了一套系统,这套系统就是他的核心企业和他的4S店、供应商、物流中心沟通的一个系统,现代刚刚在北京设厂了,销售非常好。用传统打***、发传真的方式已经很难交流了,通过电子化方式,往各地方下订单、派车、维修,他们有一套自己的系统。当时我的团队就帮助北京现代在全国布点,做它整个的全国网络。做着做着我们就发现有点问题,因为我们给他总包以后,它的系统有一些问题,那时候(大概2003年)中国的基础网络还不是特别好,各种问题他们都认为是技术问题,就都打到我们这来,我们没有办法就建了一个东西,专门去回答各种问题。其实,很多问题不是我们的问题,是系统的问题,那时候系统刚推出前两代。当时,我们有一个想法,也是我现在做这个事的雏形,因为我是清华毕业的,应该算是行家,知道他的系统是什么情况。我就想我们跟韩国人也说不清,还得帮他担很多责任,我不如自己慢慢地做。我做这个系统不是从主力场的出发点出发,我是从第三方的出发点出发,有利于核心企业,也有利于它的上下游,这样的话,一个第三方的系统能不能效率更高?经过大概半年到一年的开发,我们的开发能力还是比较强的。我们做出了一套还比较好的一套供应链系统,在一些国内的企业进行推广,推广的效果不错。当时,还没有云计算概念,我就提出了一套基于互联网的技术传递的系统,而不是当时非常流行的那种,我当时认为基础建设的速度会远远快于软件发展的速度,基础建设以后应该不是问题,我们才做了那么一套结构的系统。有了这个平台以后,我们也卖得不错,当时做了以后我很开心,一些汽车企业就开始用了我们的系统,还有一些批发零售的企业也用了我们的系统,用的还不错,我们比韩国人反应要快一些,本土化做得还比较好,符合中国人的一些生产经营和消费的习惯。拿到这些项目之后,我很开心,因为做IT能做到按月收钱、按年收钱,上我们平台的企业要给我付费,核心企业每年还给我几百万建设费,在当时来说这就是大钱,自己也很开心,同时也完成了一定程度的积累。有一天我的一个同学,后来也成为我这个企业的创始人之一,他是美籍华人,学物理的,杜克的博士毕业生。当时他在华尔街工作,是某著名投行东亚区的负责人。他对我做的供应链很感兴趣,看了我做的系统的DEMO(演示),看完他就跟我说:说老范你有机会了,我问他我有什么机会了?他说你可以做金融了,我问的特别直接,什么是金融?他跟我说,你知道现在中美之间最大的差异是什么?从银行的基础建设上来讲,中美差别不大。整个中国的工业发展其实都很快,从银行体系来讲,中美之间最大的差异就在信贷。美国大部分的中小企业贷款都是信用,中国银行是典当,你得拿东西(房产、地产其他的物质设备)去典当,中国明清以来都在用这种方式。那时候是要房契,现在要房本,没有什么本质差别,原因就在于中国没有一套完善的信用体系。这些中小企业没有办法通过信用来获得资金,不能做到一张纸或订单就能换钱。我说那关我什么事?当时一点都不懂,略微有一点点烦燥,后来他跟我讲,他说你有这么多数据,你们除了写程序,还能写算法,只要能找到这些数据中的规律,就能把这个企业研究透,只要把这个企业分析地很透彻就可以放信用贷款。我就有点动心,后来他大概在3个月的时间,往返北京多次,就是想让我干这件事情,想来想去我就做了,再加上当时我收入也不错,也想寻求一些其他的突破,反正这些数据放着也是放着,开始搞科研。我简单地说说怎么干的这件事,就是通过对企业分析、计算,找到企业之间数据的相关性规律,通过这些相关性规律,为企业做一个深度地体检,或者叫透视,而不是企业的画像。画像是征信的范畴,而给企业做透视是一个评级的范畴。通过大数据来把企业的各种问题量化,我们现在可以通过2000多个不同的指标对一个企业进行分析测算,为它带来金融服务,以及其他各种衍生服务。这是我们做的最基本的事情。刚开始时我们不知道什么是大数据,一做这个算法就是三年。中间遇到的挫折就不跟大家讲了,总之我把自己看高了,把研究企业之间的相关性规律看得简单了,另外把数据也看得简单了,数据的复杂度远超过我的想象。我们头三年干了三件事:第一:搞科研,我也是科研团队中的一员,当时还能跟我们的博士讨论讨论,现在就不一定了,没有那个时候的激情了。第二:走访,这是我主要做的事,带着我们的团队走访中小企业,我个人带着团队走访的中小企业超过300个。跟他们聊,你们觉得什么数据重要?营收账款是多了好,还是少了好,你们进核心企业之间的帐期,什么区间是更合理的,为什么?开始的指标项配置一定是人工的,不是机器的,我到现在都不信有机器可以直接做这个事,一个小孩出生的时候,你一定要教他,什么是冷、你怎么走路等等,慢慢地等他上了小学、初中,他才可以学习更深入的东西。开始是以教为主,以自学为辅的,所以一定要调查,我们当时做了大量地走访。你是不是融资难,这个是伪命题的话,这事就不要干了,这也是清华的传统,实践是检验真理的唯一标准。第三:马拉松式的跟中国众多有追求的金融机构进行无止境地磋商,我们用了很多非金融、非IT的方法,用中国的传统的方法跟银行的这些领导做沟通,开始我们还走了很多弯路。我们跟一些分支行接触起来比较方便,就开始跟一个支行聊这个事,聊了之后发现对方根本没有权限,你跟他聊半天根本没用,后来我们才开始走向总行。我们第一单跟总行开了200多个会,用了大量的时间跟金融机构做交流。当时也是无知者无畏,让我去上金融的课我都不去,因为我怕我受到影响,我就觉得我能给你算地很清楚这个企业到底是不是好、坏,未来发展是一个什么空间,你怎么就不信我呢?我们跟金融机构做了大量的工作,终于有些银行开始相信我们计算的结果,而且他们参与了大量计算的过程、挖掘数据的过程、数据分析的过程,我建模的过程,他们觉得这个是他们想找的团队。一些从事一线的评审,对我们这个事特别有兴趣,所以开了很长时间的会。终于在2010年的时候,放了第一贷。现在很多做大数据的可能还不做到这一点,还存在差距。我们第一单就1500万,纯信用放款,征信之前也做了不少,但是一点抵押都没有。虽然说后续有很多麻烦,但是我们觉得这事搞定了。曙光在前的时候,你心里总是充满期望。当时做这个事很熟了,我就不信我都干了三年了,这事干不成。我的主业都快放弃了,当时什么IT、供应链系统,对我来讲都不重要了,一定要让银行把这事给我干了。我也提醒各位创业者,有的时候最需要坚持的是第二个阶段。当时觉得这事挺好了,就开始复制吧,但银行实际上不是这么认为,他们当时是一个实验,我以为他是一个实践,就差一个字。我认为这事可复制,银行说再看看,虽然给放了一贷,但后面报的都没有批复,当时我们也不了解情况,还以为是我们报的企业不够优质,考虑算法要不要再改进,但是在当时的数据情况下,我们的算法已经很完美了,而且企业也非常优质。后来有一次一个评审会,我们报了三家企业上去,这三家企业都是9分以上的企业, 我当时想一旦这三个放款了,这个模式就是可复制的,商业模式也成了。结果下午四五点告诉我,一个评审之前没有沟通,他刚从外地回来不了解情况,就一票否决了,我问说否决了哪个?他说都给你否了,没抵押、没担保,银行还是不踏实。我想是不是回到我们原点了,没抵押、没担保确实不踏实,我也认为不踏实,所以才需要大数据支撑。当时就非常沮丧,我认为看来这件事情对我来讲是一个理想,不是一个现实,理想和现实是需要复制的,复制不了就是理想,能复制的就是现实。我当时本来想在当天晚上跟两个创始人商量,准备跟大家散伙,结果晚上不敢告诉他们,怕他们会崩溃。我的神情很沮丧,他们也没看出来,因为他们一直在讨论这几家的数据哪个好,咱们哪个地方还能改进,讨论的特别热烈,弄得我们也没说出口,等于这顿散伙饭没吃成。第二天我们去银行,既然跟我们同事不好说,那我们跟银行去说,咱们这事不玩了,未来你能购买我的服务,我帮你算一下,但是不是非得靠它信用贷款,这事往后放放,我们现在也折腾不起。我们就去了银行,结果一上楼一开电梯们,银行的老总就在电梯门口等着我们,一上来把我手握住,说范总你要坚持,所有的错都是我们的,你们没错,我们工作没有做到位,根本不是你们产品的问题、客户的问题。他说请我们重新做申报,一个月之内这三家客户就全都批了。其中有两笔都是2000万。我们在国内银行业的声誉一下就起来了,我们不是做100-200万的小生意的,100万、200万对国内很多做信用融资的都是超级大单了。我们上来就解决了1000万以上的项目,银行肯通过数据的分析计算放款,某种程度上将是拿数据做抵押,这在当时是一个重大突破。通过这个细节跟大家说说,我们最难的是在复制阶段。一旦我们从一家复制到四家,从四家到十家,从十家到一百家就非常快。我们在一些行业是领军,包括:第一:大数据金融,现在能做到我们这个程度的确实不太多,尤其是在没有隐性抵押的情况下。第二:数据资产化,数据一定要资产化,不然它就没有价值。数据资产是一个伪命题,我们前两天刚签了一个协议,一会儿给大家分享一下。这个领军也不容易,其实做了领军的压力是非常大的。最大的问题是信用体系的严重缺失,你现在到任何一家去,如果你是中小企业,想融资,没有任何抵押物就拿到钱,或者没有人替你担保的话,这个难度是相当大的。原因在于我们的诚信机制,中国用了几十年的时间,走了很多西方国家几百年经济发展的道路,但是诚信或者信用体系还是需要积累的,这个不是说短短几十年我们就能够见效很好,可能随着今后的发展,有些东西还会倒退。我们国内开始重视信用体系建设,尤其是最近这五年。当年我们刚开始做这个事的时候,跟央行去聊信用体系,央行说这个事情不着急,整合数据、整合资源、社会诚信都是很难的事情。由于信用缺失,所以企业不能通过信用来换钱。那么西方是怎么做的?我的师弟从外资银行拿了很多成功案例过来,我们就看到外资银行可以通过一些订单换钱,怎么换?比如说,你是一个供应商,给一个核心企业供货,核心企业还是不错的,你给他供1000万美金,现在是11中旬,12月15号给你送到什么位置,你就拿这张订单去银行取,就一张纸,这个纸上有双方授权的签字,拿这个到银行就能换800万美金回来。现在可能更快了,因为电子化了。很多银行家在跟我交流的时候说,要没有你这个指标体系的话,你别说给我一张纸,他把他公司所有的纸都拿过来,我也不会他一分钱。信用体系不是那么简单的事情。你看西方是商业信用、个人信用、政治信用和司法信用体系,相互绑定数据互联网,不像咱们,就算这个企业有商业信用,各方面都不错,但是如果它想违约的话,就很有可能把这个企业注销了,最后换一个名字照样还是生产这个货,这种情况是非常普遍的,银行的保权能力实际上是非常弱的。很多金融机构说保权能力要取决于跟当地政府的关系,为什么城商行有时候比股份制银行更容易保权,在于他们跟当地政府的关系会更好。所以,我们说金融机构有时候不愿意做中小企业信贷,其实是有很多内在的原因,我们也不能简单地拷贝西方的东西。那有没有什么可以借鉴的?还是可以借鉴它信用的概念,而不是它信用的体系。比如说国内有很多信用评级的公司,几乎都只在债权评级这么一个小的市场里面。没有信用体系,只给一个的评级,银行不会认也不会放款,还不如自己去企业调研。所以要学习的还是西方的理念,但是不是去沿袭他的做法。我们的三个创新就来了,怎么解决这个问题?上大学时,辅导员老师跟我们说,你们既然学计算机就要把计算机的计算能力用起来,把所有都可以量化的东西尽量量化。只要你的指标项合理都很多事情是可以量化的。这个思想一直指导着我们。这就是我们的理念创新,算法大家都可以做,只是说你可能做得更快、更好,但更关键的在于你的理念。明细数据是非常重要的,这是我们强的地方。刚才说了,我是偶然进入到这个行业的。我们研究数据的时候,通过最明细的数据去分析其中的相关性的规律。数据越多、量越大,真实性越强,能产生的结果就越值得信赖。这就是我们说的理念创新,既然国内没有一个扛得住的信用体系,如果你基于一些信息度不高,颗粒度不深、颗粒度不细,又不一定准确的数据去研究的话,你得不到非常值得信赖的信用。我们有三个著名的轴线。纵轴叫财富创造的过程。一个企业只要不是搞基金会的,你一定要挣钱的,企业创造财富有一个过程,就是你接收的订单、物流、生产、销售等等,所有跟你创造财富有关系的,叫创造财富的过程。同时我们有横轴,就是你财富创造的结果。这个也很重要。而且随着企业类型的不同,这两个轴线的比例是不一样的。什么叫财富创造结果呢?就是你忙了半天得到了什么,假设你是一个企业,忙了一年,接收了5000万的订单,销售了4000多万的货,每天很忙碌。结果发现这个企业不太顺,进出项目一减是零。照理说你有这么大的生产经营活动了,从大数据来看你应该有200人,可你只有20人,而且你的工资这几年没有变化,人家的工资都随着CPI涨多少钱了,你这儿一个人2000块钱不合理,就说明你创造财富的能力不足。所以你财富创造的结果跟你的过程,也就是你财富创造的效率。最近一段时间,我们观测中国经济能够透过微观来看,大家可能都是科技创新的企业,我们做了大量的中小微的生产性、流通性的观察,通过观察,拿这个过程和结果除一下,或者拿结果除以过程,就会发现有一个指标项,那就是你财富创造的效率现在越来越低了,逐年走低。我们的中小企业仍然很辛苦、很忙碌,但是这几年创造财富的效率越来越低,我们也欣喜地观察到在最近几个月,从我们掌握的企业数据来看有触底反弹的迹象,因为好像也没什么可降低的空间了,已经非常低了,我们还观察到美国的一些数据,美国科技型性企业创造财富的效率非常高的。另外一个轴线是时间轴线。任何一个企业的信用,都不是一天形成的,你说你把企业今天的这些数据给我了,我也分析不了,为什么?我需要一个时间轴,你要把最近两年、三年甚至更长时间的数据给我,就好比你想知道你心脏的情况,我光给你做心电图是不够的,我要干嘛呢?我要观察你一天心脏的变化,这样才能够更准确地了解你心脏的情况。这就是我们的三个轴线。我们做的事跟什么事一样?其实跟你到医院体检是很接近的,到医院以后,说你的血、心脏怎么样等等,它给你出一个报告,我们也是一样。从各个角度去看,特别好理解,其实体验报告、体验的那些指标也是大数据,要不然它怎么知道你的白细胞是5000还是8000,什么范围会比较健康。其实体检是一个大数据,我们做的也相当于是给企业体检。这是我们的三个大模型:模型一:看历史。模型二:看现状。模型三:看未来。这个是国内某著名通信设备给我们总结的。第一:看历史建立信用。所有信用都是历史积累的。比如刚毕业的大学生,如果你在大学期间消费不多的话,就你很难能拿到一张很好的信用卡,可如果你大学毕业以后马上就土豪了、创业了,每个月都刷几十万的话,我相信你的额度会马上调整过来。就是说信用是积累起来的。第二:看现状计算额度。你的信用值多少钱?信用高了你的钱就多了吗?当然不是这样,假如一个银行想给两家企业贷款,两家企业都拿了一千万房产过来,按照我们现在的标准就打个六折吧,都贷你600万,但是银行非常想知道你实际的还款能力是多少。他的房地产抵押的是他的第二还款来源,他的第一还款来源一定不是卖房子还钱。就像大家车贷一样,一定不是把车卖了还钱,应该是你们每个月给银行把这个钱还上,这就是我们说银行是非常谨慎的,因为一旦动了这个房产还钱,就是不良,什么是不良?只要动了抵押物就是不良了,因为你还不上了,银行非常想知道这两家都有一千万的房产,谁到底有多么强的还款能力,在我们内部叫做耐受力,就是你这个企业什么样的耐受力,你能耐受什么样的贷款,在你的承受范围之内。第三,看未来。金电联行能够成为我们行业的一个领头企业,一个重要的点就是我们不仅能够监管金融风险、量化金融风险,还能预测金融风险。说到看未来,当时国内著名的一家非常有见地的报纸----南方周末的记者到我们这儿采访一个月,登了一篇文章《小公司引发的信贷大革命》,那时候我们公司还不到100人,文章里面重点说了我们的贷后,可当时贷后不是我们的主业。他说金电联行贷后非常好,意思是说一个中小企业出问题是一个温水煮青蛙的过程,他不可能昨天很好,今天一下子就倒闭了,它有一个挣扎到死亡的过程,金电联行能告诉金融机构两件事儿。第一件事儿:现在水温多少,可能30度的时候青蛙在感觉上还不错,稍微有点儿热,还挺开心的。第二件事儿:告诉你未来三个月之后水温会到60度,青蛙就算不死,也很难有活力,这就是大数据的预测、预警的能力。这个在后来我们做的整个金融的中小企业信贷的风险管理、风险预警方面起到很大的作用。大家可能会问,大数据有没有这么神奇,我也看在有些场合,我跟大家做互动的时候,也有人问这个问题。我就直接说了,大数据的预测、预警能力,绝对是大数据的一个非常好的特性,如果大家能够深入到里面,你会发现很多数据之间的规律是如此的有意思。假设我有1000家企业,这1000家企业跟真实的企业非常像,数据的这个相关性各方面都非常好,不论什么订单或者什么情况也好,这1000家企业未来三个月,基本都不亏,你如何独善其身。大数据是统计出的规律,虽然历史不能完全来显示未来,但是至少是一个趋势,我们说历史唯物主义,朝代的更替,包括很多事情,其实历史上都有例可考的。虽然说经济发展变化很快,但是它的规律性仍然是有的,微观企业的变化,是很难逃出的命运,当资金到了一个什么程度,回款到了一个什么程度,你这个企业未来一定是走多了三步。今年虽然说干得好,但是未来可能会被订单压垮,很多企业都会被订单压垮,而企业自己可能完全没有意识到。当他没有钱去做新的订单的时候,他就要借钱,借钱借不来,就会借高利贷,一旦借了高利贷他的成本就会急剧上升,而随着他供货量的增大,核心企业、下游企业会进一步压榨他的空间,企业就变成很难挣钱,变得非常难以挣钱,最后可能就崩溃了,可能被人收购了或者就死掉了,这是一种数据苦难,有关这是为什么今天就不展开讲了。我们的指标项很多都很有意思。比如说订单响应时间,这是一个非常重要的指标,有机会可以跟大家分享。大数据不神秘,我认为说得简单一点儿,虽然我上大学的时候学过十几门儿课,但是我觉得它就是数据统计加人工智能,也就这点儿事儿。第三个是我们的模式创新,模式创新我们大概能做哪些事儿?我们能做金融,同时我们能做一些社会管理,这是我们的图表,还是挺有意思的,大家看这是一个企业的分数,7.5,红字都是我们现在看到它有问题的指标项,我们把它放到最前面,这家金融机构能看到的这个图,不是一般企业能看到的,这是我们指标项的图,你点开任何一个指标项,就能再向下延展他其他的指标项,一个指标是由数十个指标构成。一个一级指标,有四个二级指标项,点开就可以看到,点任何一个都会展开一个圆,这是我们跟大量的金融机构磨合了不知道多少次的结果。金融实践比什么都重要。这是我们的监管资金(500亿),为什么大于我们做的这个信用融资,是因为很多金融机构拿了已有的贷款让我们帮他监管,有抵质押的、有联保互保的,我们帮他分析,我们争取年底能超过1000亿,我们再努努力。当然现在早就不止这个数了,帮助金融机构去量化已有的风险,并去帮他追踪以及预警风险,这是我们重点做的事儿,还是很有意思的。我们自己通过帮金融机构量化风险,对我们整个指标项也有调节,当然不是自己调,是机器来调的。这是我们的合作金融机构说的,不是我说的。国内现在排名前三十或者前四十的银行,没有跟我们联系过,进行过深入讨论的银行目前还没有,基本上都来过了,而且我们现在对银行的这个态度也是跟以前不太一样,就是我们也蛮甲方的。现在来讲,只要你拥有核心技术还是比较甲方的,尤其现在主要是什么问题?就是中国经济进入新常态,新常态的意思是很多行业、区域会出现明显的经济下滑,很多企业本来很好,在银行贷了款小日子过得不错,可现在他还不上出现了不良。尤其是在一些沿海地区出现了大面积的不良,这个不良的比例也应该是远超在座诸位(包括我)的想象,当我们进去做的时候,发现银行为什么这么积极找我们做呢?我们进去做,发现一个不良接着一个不良,这些企业都还不上贷款。当然银行当时并不知道这个情况,银行是让我们来预测他未来能不能还钱,我们一看这个企业不大可能,不动他的抵押物还不了的,有的企业分数才3点几,甚至我们给一个银行的支行去做,平均分都不到5(好恐怖),我们的标准是7.5才有信用(按照我们的指标项来看)。这是非常恐怖的,所以大量的金融机构找我们来做风险预测。我有时候跟金融机构来开玩笑,我说我是膝盖血肉模糊走到今天的,终于能站起来跟你们谈了,这说明什么?还是刚需,当你说金融机构的这个,说银行业好,什么也好,他的利润怎么来,实际上我们简单的说是息差减成本减不良,挣的终究是息差嘛,钱是有成本的,不是白来的,息差可能两三个点、三四个点,五大行会多一点、股份制的会少一点。要投入的成本,为什么不爱做中小企业信贷啊?成本太高了,200万的比2亿的可能成本还要高,但是如果不良再起来,覆盖不了了,每做一单就亏一单。现在绝大部分我们是银行做中小企业信贷的不良问题,如果不通过大数据迅速扭转这个局面的话,中国中小企业信贷会更加困难(在经济新常态的情况下),一会儿详细的我再跟大家交流。大数据除了做金融还能做社会管理,怎么做到这儿呢?我们低头做事儿,抬头看路,这是我们的一个技术性公司。我跟大家提个醒,有时候需要抬头看路。大数据可以介入到社会治理,我简单地说一说,因为今天跟创业相关,所以我就把我们的产品罗列一下。第一,我们可以做企业体检和优选。企业体检和优选是两件事儿,体检是看你能不能来,你的身体健康状况怎么样,优选是把一堆企业放在一起,看看谁是更好的,有机会可以跟大家分享我们在全国很多地区的合作。这是我们的图表,很好玩儿,政府领导非常喜欢,因为坐在办公室里,就可以对他区域内的企业,做一个清晰的了解,而政府需要做的工作变得非常少。第二,数据驱动的投融资平台。很多地方的中小企业也想解决就业、也想对接金融资源,但是银行同质化的竞争。另外的银行来了也不知道这个企业怎么样,还得进行大量的调研,一旦有一个数据化的,这个企业各种分层分级,那个企业又是什么情况,既有征信又有评级,就可以跟金融机构很好地对接,和投资机构进行对接。有些企业确实没法贷款给他,你投给他,他肯定还不了,但是你给他投钱以后他能够迅速增长,可他仍然投不了你的钱,还需要下一轮进一步融资才行,这些企业的数据特点是不一样的。第三,我们叫大数据征信。我拿我著名的苹果理论跟大家说一下,假设我去批发市场批一筐苹果到楼下卖,我把最好的苹果挑出来20块钱一斤,一般的苹果10块钱一斤,比较小的搁在这儿。刚才我讲的就是把这些好苹果分门别类拿出来,但是这一筐苹果里有烂的,这怎么办?我们去年拿了央行的征信牌照对我们是一个巨大的鼓舞,某种程度上是唯一的一家大数据公司拿到了央行的征信牌照。我们当时就区分一下好人和坏人,好苹果还是坏苹果,20块钱的苹果可以贷1块,10块钱的可以征信,5块钱的再说吧。但是它至少还是一个好苹果。但是如果你是一个不好的苹果怎么办?就是你摆在那儿20块钱,但实际上你的芯都烂了,所以我们说可以通过征信来做,征信我们打通了国内是20几个部委,100多个数据源,这是静态数据,跟我刚才讲的是不一样的,这是我们的一个小产品,这个产品的风靡跟天津的爆炸案是有一定的关系的,我们的产品马上被用起来。我们画了一个族谱,就是上下五级,你到底跟谁是什么样的关系,谁跟谁是你的兄弟,你投过谁、谁投过你,两家企业之间有没有血缘关系马上能查出来,不仅我能知道你的供应商、税务、司法、准入资质等等信息,我们在某种程度上曾有人形容我们这个产品是一个用淘宝的思路做百度,我们是做了一个征信的引擎,你随便输一个企业进去,我们马上给你出一份儿征信报告,大量的数据源现在愿意进驻进来,因为单独用他查也查不出来什么东西来,数据只有相关性它才有大量的价值,那么很多数据不要钱就愿意到我这儿来,不像以前我为了弄点儿数据到处化缘非常困难,现在变得相对容易了,大数据征信是未来国家信用体系的基础(绝对是基础),现在你看个人征信牌照央行正在准备发放,现在央行经过了快一年的酝酿期,就是因为个人征信也很重要。最后跟大家聊一句,就是迎接数据资产化的美好未来,我们说数据是资产(这是一个伪命题),数据本身的价值一定要应用起来才有价值,我们看到其实数据的存储,而且数据还在不断地出现,那么它的存储、分析各方面还是需要消费很多资源的,如果它不能产生价值,数据资产是一个伪命题,数据像什么,我们说最像的,我们自己来看是像石油,石油在地底下存了那么多年了,我们是最近一百多年才把它开采上来才能够用起来,以前也能开采,但是不知道怎么用,数据是一样的,是一个开采难题。石油在地下很深,数据也不是那么好弄的,我们弄了这么多年的数据,你不知道有些小问题已经困扰我们很久了,数据的标准化、格式等等很多的问题,如何把这些石油变成汽油、煤油、柴油以及化工原料?这是非常重要的工作,要不然石油没有价值,数据也是一样的。我今年演讲不多,因为事情太多了,但是反正有几次演讲都被人围住,围住的人都是懂数据的,团团围住,有一次在深圳动用了保安才把我解救出来。都是有各种类型的数据,希望我们能够让它产生价值,要不然数据在他们手里也用处不大,他们也不愿意交易,因为他们希望能够在自己手里产生价值,所以数据一定要资产化才有真正的意义。这个就是我今天跟大家交流的,谢谢!主持人:范总请留步,我们接下来还有一个简短的问答环节。主持人:金电联行为1000家的中小微企业提供了信用融资的服务,他们有什么样的共性、或者有什么样的特性?中小企业或者创业者,是通过什么样的途径找到金电联行进行融资、贷款,具体的操作方法是什么?范晓忻:问题一,我非常开心地告诉大家都是好企业,为什么?当时我为了做业绩,我一定是在我的指标项目里面,挑出其中最好的来给银行,想都不用想,我们一开始做的那批企业,分数都在9分以上,后来慢慢地我们过渡到8,现在我们过渡到7点多,但是都是非常非常优质的企业。问题二:企业怎么到我这,怎么找到我。说来也很痛心,开始都是我们找企业,企业哪找到我这来。虽然说我们也是金融,但是我们跟一般地普惠金融还是不太一样,企业贷款是门槛的,很多企业生命周期确实不长。不是说我经常会回答这样的问题,说那太好了,你们是不是能帮扶很多企业。我说确实能,但是你要符合要求。主持人:国内银行贷款还是要抵押贷款和保证贷款,咱们金电联行是如何看待这个问题的?如何完善大数据的风控?范晓忻:大数据还是很奇妙,但是它也不能涵盖所有的事情。大数据和传统银行的风控是互相配合的,数据不是完美的。是不是可以透过过去看未来的?一定程度是这样的,凡事都有其发展规律。我现在挺好,可过了时间我突然就想杀人,为什么?这是有过程的,中间你一定是受了什么刺激。这就是大数据的跟踪,首先我们把这个人先分类,先进行体检,你是个健康人,或者你是个亚健康的人,你可能有毛病,你的病相对重一些,等等,我们把人还是要做区分的。但是健康的,如果你经常不运动,你也可能会有问题。所以,大数据的跟踪、监管、预测,是非常重要的。如果你不跟住这个企业,我们也帮合作的金融机构追回了一定的不良,有些企业开始我们给他算的时候是很好,但是受到了市场条件制约,大环境的变化、小环境的变化,甚至面临着两口子吵架,他们合办的一个企业,最后要分家,这个企业就迅速出现衰落的情况。今天我们跟大家分享指标,像我刚才随便说的一个指标,叫做订单响应时间,这是我特别偶然跟我们的博士们提的,我说你把时间也都放在里面一起分析,发现这是一个非常非常重要的指标,正常情况下,你接受订单,订单下来一个小时或者几分钟你就想一想,很多老板他有订单的时候都在电脑上盯着看,人家给我下订单500万人民币,我得赶紧把这个单接了。更重要的是他没有准备足够的现金,当订单上来以后,他发现他买不起原材料,他就需要赊账,赊账成本就会变高,各种有问题。还有一个就是企业缺乏前瞻性,他没有对这个产品的生产有足够的认识,对今年可能会有一个大的提升做出明确地预判,没有储备,原材料这个东西不是说你想买就有,比如说某种钢材你都是要预定的,某些材料你可能从定货到到货,这个周期可能要几个月,核心企业等不了你的,那谁准备的好,就用谁。原因会有很多种,但是你只要捕捉到类似于订单响应时间慢,和它的订单分析,它的数据项目之间的关联,那么这个企业就有可能出问题。所以,对于风险的监管是更重要的。主持人:刚才您说互联网的金融现在是乱象横飞的,一般的P2P现在进来已经晚了,最好是有特点的P2P,那么什么是有特点呢?范晓忻:我不认为P2P有什么不好,一个行业当他发展的比较着急的时候,自然它会有它的问题,那么核心问题在于什么呢?金融有两个入口:流量入口和风险入口。但互联网金融企业只关注了流量入口,因为流量会给它带来估值、现金,未来对市场的进一步占有,这也没什么错滴滴打车他们也是这么干的,京东也是这么干的,但是金融的本质还是存在差异,金融的本质还是有效地控制,你的那点存贷差能不能有效地覆盖风险,如果大家不关注风险,只是跑马圈地的话,那么互联网金融未来的发展恐怕会出现问题。互联网金融有一个好处,就是它的融资速度很快,但是它又有一个不好,风险扩散不好,我们假设大的金融机构、银行它哪个地方一个支行出现了挤兑,恐怕不会影响到全国,但是如果你这个平台被发现你有关门的可能了,马上很多人会向里面汇集,风险会马上蔓延,你连防范风险都来不及,那时候你也许还能借点钱,能还上一部分。另外,你的资金一定要第三方的托管平台,你不能自己用、不能做刚性资金池,这个媒体上写得比我清楚。但是,风险是金融的主体,你忽略了风险做金融,未来一定会吃到苦头。其实风险某种程度会被抑制,P2P未来走的还是专业系统,我真的没觉得有什么风险,而且他们这个还激活了整个文物兑现的事,还是挺有意思的。主持人:如今总理提出了万众创新、全民创业,在这个大环境中非常红火,今天范总谈的非常的好,能不能用一句话来总结您的创新创业的感悟。范晓忻:其实我也有一句话想跟大家分享一下。我经常对自己讲要相信自己,然后做好自己,这是我经常对自己讲的。我对我们同事讲,我们几乎公司每一个人都知道。如果大家有机会去我们那指导,会看到我们公司的氛围是相当活跃的,我们很热闹,大家有非常好的进取心、凝聚力,我们那8、9点钟都是灯火通明,为什么?要做一件创新的事,就要把自己推向极限,反正我自己是这么做到的。如果你努力了也不见得机会很大,可如果你不努力确实没有什么机会,谢谢。主持人:这个感悟也送给我们在座所有的创业者,我们进入下一个环节,听众给范总提问题。Q&A创业者:您是解决了中小企业借钱的问题,但作为一个国家的四项金融企业比较支柱的,像银行、信托、风险、股票市场,您有没有想过释放一部分风险给互联网保险这个市场?范晓忻:这是一个非常好的问题,我们现在这个领域正在做相应地工作,其实不光是互联网保险,实际上我们说传统保险也希望能够在这个领域有所发展。因为国外其实担保公司并不是主体,保险可能起到很大作用。我们能够把资产分析地比较透彻,分成不同的类型,这个到时候我们可以深聊,我们有在保险方面的一些解决方案,但是在国内做这个,保险公司(包括互联网保险)还是在摸索,国内风险确实比较多,而保险在这个领域不是一个大数据可以覆盖的,担心银行或者金融机构把不良向他们方向去转,这属于信息不对称,专业知识也不对称。所以现在都是保险公司找我们跟银行谈,是这么一个状态。创业者:我是一名互联网创业者,对于今天的创业者来说,不得不提BAT的位置,因为BAT手里面有大量的数据,包括马云也在谈的DT时代,他们等于是控制你的上游数据,很多他们数据的质量比政府的数据质量高。未来您面对BAT怎么考虑跟他们之间的关系?范晓忻: BAT强大,也确实控制了一些数据,却也同时带来了一些问题,就是数据孤岛的存在,互相之间很难数据互通。其实,BAT的分析能力也比较强,但是他们跟我们分析是的类型不一样。那么,银行为什么更愿意找我们,因为我们做得大,BAT相对来讲做的是小额信贷。我们也许把多家的数据全都拿到来分析,但是阿里想拿京东(数据)可能会有一定地困难。这就是独立第三方在信用评级计算领域,它的独有性。所以,我觉得应该能够尽量地和BAT共成长。而且BAT有一家曾经跟我们提出过邀约,最后我们也没有同意,我们担心会失去第三方的公正性。包括多家银行很重要的银行,都想对我们进行投资,但是最终我们也没有合作成。原因也在于我们一旦打上了某一个银行的标签,我们做另外一个银行风险的时候,可能也会失去第三方公正性,好在现在钱还是多的。创业者:最后我有两个问题:问题一:如果这家企业它一开始的经营方向是一个小的行业,或者是一个没有那么多匹配行业数据上的对比,是不是会影响到它评估的准确性和具体性?问题二:刚才您提到的有6000个数据,这个会不会有一些过度挖掘的情况?比如说其实判断一家企业,某种意义上不需要这么多数据。范晓忻:非常非常好。能够去银行的那些企业,已经有一定地历史,这些企业从数据上来看,已经能看出一些端倪来。未来它的发展,其实随着我们对他的数据监控,它还是有它的特性。但电商是一个例外。我们做对于投资机构跟他们进行合作、服务,我们往往做的不是大数据分析,对它进行对比的数据量太少,而且它本身的数据也少,怎么办?我们可以帮助机构做大数据的尽职调查,可数据量太小我做不了。当数据量有一定地积累的时候,它是有一定地规律的,这是第一个问题。第二个人问题是挺核心的问题,我们在跟金融机构合作做贷钱的时候,最多也就700-800指标,其他的很多数据是没有意义的,但是如果我不做一个全数据集,我就会有遗漏,可能那是一个很重要的指标向。因此,我一定要把所有指标都找到,如果你不能做一个数据全集,你做大数据肯定是有缺憾的。我们当年犯过这种错误,真的是刻骨铭心,我们自己做得第一套算法,最后完全被摧毁,就是因为我们忽略的重要指标。有些大型企业为什么它的分析银行不能认,也是在于它没有主体评价,只有交易评价。到了贷后,我们跟一些金融机构合作贷后往往只用400个指标,甚至更少,为什么?银行只要认为你在某一个区间之内,银行不怕麻烦,你多给他报一下它也挺开心的,你说这家我们也不一定确定,但是他可能会有风险,你给我的数据上也没有那么充分,另外一个我给你提供的指标项目也没有那么充分,但是我知道你大概好,还是坏,会往哪个趋向发展,比如说有80%的概率它会出问题,是一个概率的数据,那么我们就用400个指标项目区覆盖它的80%,也基本上足够。实际应用的时候,一定不要把所有的数据都用上,你做那么多也没有意义,那些数据还要存储、分析计算,它只有零点几全都用不不到。但是,这些权重是和变化协同调整的,我们的实验室一直在跟踪权重的变化。主持人:因为时间关系,我们这个提问的环节就到这里。大家有问题在我们的群里留给我们,然后我们会把这些问题转给范先生,到时候他会给大家解答的。
IT时代网(微信:ITtime2000)和创客100网(微信:TMT100Bj)所有原创文章版权所有,未经授权,转载必究。IT时代网为创客100集团旗下媒体,寻求报道及合作、找融资、找项目、分享创业故事、文章转载加小编微信(pinkleopard)与我们取得联系,转载文章若涉及版权请联系我们。
创客100创投基金是基于互联网的天使阶段的专业投资机构,承诺所投BP,跑通审核流程的项目24小时决定投资。请将你的商业计划书提交至或者加基金经理微信
微信号:tmt100jj
TA的最新文章

参考资料

 

随机推荐