本篇文章3227字,读完约8分钟
以前的庖丁解牛的秘诀是“依靠天理,批判大英,指引大英,出于其本来的理由”,但今天的“庖丁”遵循“解文”,手中的刀也已经被“人工智能”取代。 庖丁科技首席科学家罗平教授满怀信心地举起“刀”站起来,四顾它,对此犹豫不决。” 这个自信不仅仅是因为他领导的整个科研团队的研发能力,也不仅仅是因为他们选择了近年来最火热的人工智能课程,尤丁科技打出的路数是“组合拳”。 ai真是未来的技术,近两年来,全球科技巨头已经向人工智能行业投入了超过300亿美元,向中国公司和投资界投入了80亿美元。 对于庖丁科技而言,可以说迅速确立自己的技术和领域壁垒,精准选择金融这个垂直应用行业,在异常激烈的竞争中抢先。
罗平教授是典型的狮子座,喜欢把自己塑造成“约80后”,对科学研究充满无限热情,以“继续努力,做到最好”为人生信条。 博士毕业后,他选择加入惠普实验室,回到中国科学院计算技术研究院博士生导师,担任过微信人工智能科学顾问。 人工智能行业几十年的深耕,使罗平成为人工智能基础算法行业首屈一指的科学家,学术圈和工业界的双重经验对他的创业更有帮助。 对废丁科技的研发,他最有发言权。
如果ai企业的人都做ai的话,这个企业肯定会垮台
研究ai技术和开办ai企业之间有很大的差距——在工业界呆了很久的罗平教授对此深有体会。 他特别用生动形象的比喻说明学术研究和产业应用的不同:前者就像走在未知的森林里一样,偶然扒开芦苇,发现宝石般美丽的湖泊,在湖边振臂一呼,追随者立刻聚集起来反应,从事这项研究 学术界发现了新的问题,如果实验数据的精度提高,即使只有1%的变化也是学术进步。 但是,要通过这些数据使一种技术产业化,还存在很多问题。 罗平认为,即使利用新的方法,使某个性能指标比原来提高了50%,从绝对数量来看,准确率也只有80%,对科学研究来说,这可能是一个很大的进步,但对一个产品来说,顾客体验是绝对能够达到的 企业只有科研和产业化并重,才能稳步前进。
事实上,这是废丁科技努力的方向,也是市场竞争特点的罗平将其总结为“三位一体”的打法。 其一是ai技术研究的能力,这是以罗平为首的人工智能行业最优秀的人才二是工程化落地的能力,废丁科技拥有大量的工程人员,他们的首要任务是构建内部的数据平台,保证数据的质量和数量,ai技术, 第二份工作由理事长林得苗担任,清华大学计算机系毕业的他,不仅拥有前惠普中国实验室顶级工程师、前腾讯研究院研究员等一系列知名头脑,更是让世界尖端技术真正落地产品,这就是他的“独门秘技”。 “所以我们宣传的产品可以直接导入到各种金融机构内部,让他们很好地利用。 ’对于这位工作多年的老朋友,罗平褒贬不一。 林得苗是成功的连续创业者,赶上了第一波移动网络浪潮,制作的app服务客户过亿,利润达上千万元。 “我们认识很久了。 彼此有很好的信任。 这次的共同创业,也可以说是一发不可收拾。 ”。
废丁科技的第三大支柱是在垂直行业场景中应用的能力。 另一位联合创始人大块头光是金融出身,对整个中国的金融体系、监管、投票、投资都很了解,他在海外的经历给予了他难得的全球视野。 能瞄准金融业痛点,是废丁科技的另一个特长。 罗平认为,目前移动网络结构基本清晰,不太容易发展,但作为百业之母的金融领域与全社会存在巨大交错的互联网,记录了各种金融活动的文件(各种新闻披露、金融交易、客户新闻、市场分析、风险管理、投资等)
智能迁移:允许计算机“阅读”人类语言
500页的招股书,投票人至少需要一周进行全面审查,而庖丁发布的金融文件智能产品只需5分钟就能生成准确率99.9%的纠错报告。 庖丁科技技术和产品为众多金融机构增添了力量,迈出了ai大规模工业化的重要一步。
那么,庖丁科技的创新依赖于什么样的核心技术呢,罗平教授用简洁朴素的语言向我们介绍了他所做的工作。 总结一下吧。 他想实现的目标是让计算机将文档的非结构化副本(包括大量自然语言和可供读者阅读的表格等)转换成结构化的、计算机可以解决的知识。
具体来说,自然语言的语义理解和文档表的语义分析是废丁科学技术现在掌握的“核心技术”。 金融文件大多为pdf格式,与word文件、html页面等相比,pdf中缺乏视觉新闻和文案新闻以外的风格新闻,“只能告诉大家各个文字是什么、位置是什么,无法识别其意义。 pdf表示的是人容易阅览的2维以上的布局形式,但对计算机来说特别难以识别。 ”。 人类容易理解的表的属性、单位,如果不将其制成计算机能够解决的数据库,计算机就无法理解。 罗平强调说,表格排版多种多样,其中包含各种复杂的计算关系,“用ai来理解表格的含义,是一项非常具有挑战性的工作”。 技术革新一旦实现,之后的应用场景就会层出不穷。 他对这个过程充满热情——这种类型的研究在纯粹的学术行业很难遇到,投身创业可以说是罗平对自我的尝试。
在所有文档都统一为pdf格式并且表的语义理解也完成之后,智能迁移的下一步是“理解自然语言的语义”。 “首先要切分句子,进行一句一句的识别。 ”罗平教授说,比如“企业第一位顾客年至年的销售额分别为x、y、z”,需要将时间(年等)、财务指标(销售额)、值( x、y、z )等新闻变为计算机可以解决的语言。 “销售额所占比例”等新闻可以让计算机理解背后的计算公式,用公式表达意思,使之成为计算机语言的过程称为“自然语言理解”。 此外,ai还会全方位审查文档质量,如识别常见的“同音异字”错误等。 从技术到产品,庖丁科技所从事的这项ai事业都具有划时代的意义。
重视技术落地,结合金融场景,用ai替代人的基本感知能力
“光靠这些技术是做不出产品的。 ”罗平教授明确表示:“还必须结合金融业的专业信息。” 技术是基础性的,文档结构化后如何应用于投资、监管等具体场景,需要产品设计者的用心。 从创立之初就将技术放在关键位置的废丁科技,与国内外大型金融机构、金融监管机构等的合作正在稳步展开。
年5月10日,庖丁科技在微信公共平台“债务所有者”上发布副本,为所有投行债券的发行提供免费to c产品。 文案一出,立刻达到了3万以上的浏览量,在整个投行圈形成了“刷屏”的势头。 产品的采用方法非常简单,只要扫描代码进行注册,入驻债券募集证书,ai就可以自动复核,用红色表示其中数字之间的关系错误等,生成新的文档。 “在发布当天有人制作了‘迷你’招募证书,测试了我们产品的性能,非常完美。 ”罗平教授说,在金融领域支付能力强,但对信用要求极高的形式,可以在圈子内很好地宣传庖丁科技。
将来,罗平希望将该技术进军海外,进军广阔的英语市场。 在金融体系内,国内外诉求相似,目前海外市场尚未出现类似产品,废丁科技希望探索其蓝海。 在可行性方面,与逻辑性弱、规范性差的中文文档相比,许多英文金融文档非常简单规范,“国外金融监管机构要求征集证书等文件,是最平坦的英文,必须让普通民众了解。 ”。 这意味着对自然语言解决的要求会低一点。
从短期来看,废丁科技将致力于提高客户对产品的认识,培育和扩大市场,使金融机构逐渐了解废丁科技。 通常的模式是与各类金融机构进行深入的合作,将产品配置到对方的私有化事业中,然后再销售给对方。 对罗平教授来说,更重要的是继续在技术上取得突破。
披着创始人身份的罗平教授,还是有明显的科学家气质的。 与人工智能打交道十几年的他,并不认为ai的迅速扩大会压迫人类的存在价值。 他指出,目前搞ai的企业,代替了人类最基本的读写等感知能力,包括面部识别、自动驾驶等。 人类的这些能力逐渐被取代是大势所趋,但机器实际拥有的智慧还非常有限,缺乏创造性,缺乏专业性。 “没有必要感到恐慌。 我们让计算机解决繁杂的机械工作,不需要清华大学毕业的高材生来探讨金融文件,也不能代替投资者和银行家的核心工作,只是越来越多的时间花在创造性劳动上。 ”。 罗平教授的话更加不期待人工智能时代的到来。