24小时热门版块排行榜    

查看: 1277  |  回复: 0

新手已上路

木虫 (职业作家)

[交流] 优雅的数学--浅谈熵与不确定风险

“不要把所有鸡蛋放到一个篮子里。” 这是在投资时常常讲到的一个原理,目的是降低风险。在数学上,这个原理称为最大熵原理(The Maximum Entropy Principle)。

1988年,达拉皮垂兄弟和很多 IBM 做语音识别的同事,开了一家对冲基金公司——文艺复兴技术公司(Renaissance Technologies)。用最大熵模型和一些其他先进的数学工具,对股票进行预测,取得巨大成功。该基金在创立至今,它的净回报率高达平均每年34%。这个业绩远超股神巴菲特的旗舰公司伯克希尔哈撒韦(Berkshire Hathaway)。即使在金融危机的 2008年,全球股市暴跌,文艺复兴技术公司的回报却高达 80%。

优雅的数学--浅谈熵与不确定风险

下面简单介绍下熵及其相关的一些基本概念。

1. 什么是熵

物理熵

熵(entropy)原本是一个热力学概念,源自希腊语 “转换” 一词。用来衡量能量的不可用程度。

优雅的数学--浅谈熵与不确定风险

熵 S = -∑Pi * log Pi

λ热力学第一定律:宇宙的能量守恒
λ热力学第二定律:宇宙的熵恒增
简单解释:一杯热水倒入一杯冷水中,有一定温差,这个温差可以转化成机械能之类的,被我们利用,但随着温差越来越小,能量不可用的程度越来越大,所以熵不断增大。熵恒增可视为一种无限接近但不可到达的状态,跟绝对零度,差不多一个意思。

(关于熵,还有一只妖精的传说,有兴趣的小伙伴可以查查看)

信息熵——如何衡量一条信息的信息量?

举个栗子,16 只有标号的球队,要询问多少次才能知道那支球队是冠军(消除不确定性的过程)?通过二分原理来询问是最有效的(最差情况下的最优解):

1.是在 1-8号里吗? 是

2.是在 1-4号里吗? 否 (说明在 5-8号里)

3.是在 5-6号里吗? 是

4.是 5号吗? 否 (不确定性完全消除,6号球队是冠军)

信息学里,用 “比特”(Bit)来度量信息量,可以看出来,信息量的比特数和所有可能情况的对数函数 log 有关。

再进一步,可能不需要猜四次(但不会比四次多),因为西班牙、巴西、德国、意大利这样的球队,比日本、南非、韩国、中国这样的球队,得冠军的可能性高。所以,权重需要修正一下。

信息熵 H (X) = -∑P (x) * log P (x)

其中 P 表示概率(下面的介绍也是一样)

一条信息的信息量和它的不确定性有着直接的关系,而信息熵就是用来衡量不确定性的程度。

优雅的数学--浅谈熵与不确定风险

香农没关注过物理学杂志,他从头构建了熵的数学理论,向信息论的鼻祖致敬!

其他相关概念:条件熵,互信息

下图符号定义,熵为 H (X),条件熵为 H (X|Y),互信息为 I (X ; Y)。

优雅的数学--浅谈熵与不确定风险

熵的概念上面已说,条件熵也不难理解,只不过把概率替换为条件概率即可。互信息有点长,其实也不难理解,下面的推导会得到:I (X ; Y) = H (X) - H (X|Y),即了解 Y 的前提下,对消除 X 不确定性所提供的信息量。

优雅的数学--浅谈熵与不确定风险

可以推导出 H (X) >= H (X|Y),有兴趣的小伙伴可以自己试下。这说明,引入其他真实条件后,有助于降低对事件的不确定性,这与直觉相符。如果引入的事件毫无用处,H (X) = H (X|Y) 成立,即对分析事情毫无帮助。

当一个事件有了上下文,条件熵就会很有用;判断条件 Y 对 X 提供的信息量,互信息很有用。

还有一些其他概念,比如相对熵,也很有趣,这里不再多说。

2. 最大熵模型

最大熵原理:保留全部的不确定性,将风险降到最小。保留了最大的不确定性,也就是说,让熵达到最大。

对任何一组不相矛盾的信息,最大熵模型不仅存在,而且唯一,形式是指数函数。

例如,有 20 种需要考虑的因素,对应的最大熵模型为

P (d|x1,x2,...,x20) =λ0* eλ1 (x1,d) +λ2 (x2,d)+。。。+λ20 (x20,d)

其中,λ0 是归一系数,λi 是需要通过模型训练来获得的。

最原始的最大熵模型的训练算法,是一种期望值最大化算法:

1.假设第 0 次迭代的初始模型为等概率的均匀分布。

2.用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的,就把相应的模型参数变小;否则,变大。

3.重复 2,直至收敛。

这种算法复杂度太高,一般只用来了解这个模型,实际中很少用。

达拉皮垂兄弟在 IBM 对这个算法进行了两方面改进,提出了 IIS(Improved Iterative Scaling)算法,提升了一到两个数量级,才使得有可能实用。

这个模型形式优美,是唯一一种既能满足各个信息源的限制条件,同时又能保证平滑性的模型。比简单组合特征的模型,效果可以提升几个百分点,对投资收益来讲,提升哪怕是 1%,利润也是以亿计的。

但这个模型的计算量依旧特别大,在工程上实现方法的好坏决定了模型的实用与否。

3. 信息的整合

如何将各种各样但又不确定的信息综合起来,是一门很大的学问,单靠算法和模型还不够。业务知识,以及如何将业务知识量化,都是很有挑战性的工作。

比如说,对于一个期货模型,如果气象显示秘鲁沿岸的海潮向外移动,那么应该买进或卖出黄豆吗?

如果把类似的问题抛给我,我只能说,这两者有半毛钱关系!

但实际情况确实这样:当海潮向外移动时,秘鲁沿岸的鳀鱼会随着海潮移往太平洋的外海,鳀鱼的捕获量会减少。鳀鱼主要是供日本人饲养牛的,鳀鱼的产量减少时,日本人会以黄豆作为饲料。当黄豆的需求增加,黄豆和黄豆粉期货的价格也会上涨,所以应该买进黄豆。这条信息对消除不确定性,应该有很大权重,但这已经不是工程方面的范畴。

一些看似不相关的信息,也可能有千丝万缕的关联,信息整合需要业务人员和技术人员一起合作,缺一不可。控制风险,任重而道远,一起努力。
回复此楼
文武行
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 新手已上路 的主题更新
普通表情 高级回复 (可上传附件)
最具人气热帖推荐 [查看全部] 作者 回/看 最后发表
[公派出国] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 5lbyq5wrhb 2026-02-07 4/200 2026-02-08 08:47 by vs90ilomwc
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 5lbyq5wrhb 2026-02-07 4/200 2026-02-08 08:46 by vs90ilomwc
[论文投稿] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 3rkserf6qr 2026-02-07 5/250 2026-02-08 08:32 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +3 3rkserf6qr 2026-02-07 4/200 2026-02-08 08:27 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +5 2h7du0nuhk 2026-02-07 6/300 2026-02-08 08:26 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 6/300 2026-02-08 08:07 by vs90ilomwc
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 7/350 2026-02-08 08:06 by vs90ilomwc
[教师之家] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 7/350 2026-02-08 07:52 by vs90ilomwc
[找工作] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 7/350 2026-02-08 07:46 by vs90ilomwc
[公派出国] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:32 by vs90ilomwc
[考博] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:27 by vs90ilomwc
[硕博家园] 售SCI一区文章,我:8 O5 51O 54,科目齐全 +4 2h7du0nuhk 2026-02-07 8/400 2026-02-08 07:07 by vs90ilomwc
[硕博家园] 博士延得我,科研能力直往上蹿 +8 偏振片 2026-02-02 8/400 2026-02-08 06:52 by liyeqik
[有机交流] 酰胺脱乙酰基 10+5 chibby 2026-02-03 12/600 2026-02-07 19:29 by 江东闲人
[基金申请] 同年申请2项不同项目,第1个项目里不写第2个项目的信息,可以吗 +4 hitsdu 2026-02-06 4/200 2026-02-07 13:07 by jurkat.1640
[基金申请] 有时候真觉得大城市人没有县城人甚至个体户幸福 +9 苏东坡二世 2026-02-04 10/500 2026-02-07 12:37 by 小毛球
[考博] 天津大学招2026.09的博士生,欢迎大家推荐交流(博导是本人) +4 a793625982 2026-02-05 5/250 2026-02-07 10:57 by a793625982
[公派出国] CSC & MSCA 博洛尼亚大学能源材料课题组博士/博士后招生|MSCA经费充足、排名优 +4 雨念 2026-02-01 6/300 2026-02-06 23:32 by MelissaPon
[基金申请] 面上项目申报 +3 Tide man 2026-02-01 3/150 2026-02-05 22:56 by god_tian
[教师之家] 遇见不省心的家人很难过 +18 otani 2026-02-03 22/1100 2026-02-04 11:06 by tangmnt
信息提示
请填处理意见