对不确定模型的认知

阅读更多
无意中又浏览了一篇《数学之美》的章节
里面一段话很有共鸣
1. 一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。)
2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。)
3. 大量准确的数据对研发很重要。
4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法来弥补它,而是要找到噪音的根源,这也许能通往重大发现。

想起了以前看过的这篇文章
http://grunt1223.iteye.com/blog/994816

道理浅显明了,难度在于实践
正确的模型也许是简单的,但简单的未必正确,比如链接所给的例子
上面的2和4其实认知上存在悖论
我们如果能确定模型的正确性就表示已经接近真理
可对于不可知模型,我们判断自己是否接近真理往往是依赖数据
可我们在没绝对确认模型的正确性之前,我们其实无法绝对判断出模式外的数据是否为噪音数据
而根据2,即使对匹配的数据我们也仍然不能确定模型的准确性
这就导致我们无法用模型来验证数据的准确性
也无法用数据的阶段准确性来确认模型的正确性

大量准确的数据这其实是有些虚幻的条件
一些实际的问题,我们并不能严格判断它们是否能看作“准确”或者“错误”
因为这个数据可能不是独立无关的,必须结合上下文中才能判断
而更复杂的情况是,我们对于上下文的判断可能也不准确,从而导致对数据的“准确”或者“错误”的判断也有问题

比如股票操作
你在某个点位买了股票挣钱了却不能证明你的操作方式是对的
相反亏钱了,却不能证明操作是错的
即使拉开时间区间,你的操作方式被验证是高盈利的
但如何确定你的方式不是一个范围的阶段拟合的错误模型
在遇到条件A或条件B可能利润会全部吐出
那些被可能阶段低盈利的操作模型可能在更大范围是盈利更高的
而一旦A,B这种对结果冲击的拐点很多,那么理论上即使凭借大量数据也是很难覆盖所有的数据空间
举个例子,对于分段函数:
f(x)=x x>1
f(x)=0 x<=1
即使给你天量的(1,n)的验证数据,你永远只能部分逼近这个函数的全貌

所以除了能理论上去确认模型,靠数据其实永远是只能接近而无法达到真理

我们怎么用有限的数据确定模型,从而预测其他数据?
只有3个采样2,4,8,后面一个数字应该是16,还是14?

我们怎么能确定数据是噪声而不是模型

我们怎么确定模型是需要修正而不是需要推翻

人工智能的难度应该也在于此,我们既不能确认数据集的合理性,也不能确认模型的合理性
所以我们多数时候只能盲人摸象,领域内实现部分拟合,但其实模型一开始也许就已经偏了
即使我们努力修正也只是粉饰

数据与模型,我们至少必须确定一端的正确性,才有能力追求另一端的准确性

你可能感兴趣的:(领域模型,ITeye,F#,Blog)