Blog


BERT 与 Attention – 深度学习

BERT与语义理解发展史 最初,有了word embedding思想。它是想把词映射到onehot vector,再把onehot vector映射到一个向量空间。类似于feature提取。 如何训练Word embedding 起初,人们用语言模型来训练word embedding。语言模型,说白了,就是给出上文,让你预测当前的词是什么。 最简单的训练方法,就是把word映射到onehot vector,再把onehot vector映射到向量空间,再加一些neural networks,最后softmax输出一个onehot vector,作为当前值的预测。 后来有了word2vector,它用当前词的上下文,来预测当前词,也即CBOW(continuous Bag-of-words model)。 但是word2vector无法解决多义词的问题,它没有语境信息。 ELMO ELMO给出了语境问题的解决方案。它用了两层双向向的LSTM。不仅能输出一个单词embedding,还能输出单词在句子中的句法特征,和语义特征。 ELMO的缺点,LSTM抽取信息能力弱于Transformer GPT 用Transformer做单向信息抽取。 GPT的缺点:没有用双向(正向、反向)抽取   BERT 双向,transformer抽取语义。 Transformer很可能在未来取代RNN与CNN成为信息抽取的利器。 zhuanlan.zhihu.com/p/49271699   Attention注意力模型的强大应用 起初,我们用encoder,decoder来encode语句到语义上, 在decode语义到下游任务中。 比如:输入是中文,输出是英文,这就是翻译系统。 输入是文章,输出时摘要,这就是摘要系统。 输入是问题,输出是答案,这就是QA问答系统,对话机器人。 输入是图片,输出是文字,这就是图片自动描述系统。 输入是语音,输出是文字,这就是ASR系统。   Encoder-decoder的缺陷:所有的输入词的权重都是一样的,没有区别。 Attention模型 Soft Attention 以自动翻译为例,在翻译到目标文本的每个词时,encoder出来的语义Ci都会跟着变化,因为source里的每个单词对当前要翻译的词的贡献度不同 先举个例子说明什么是。以“汤姆追逐杰瑞” “Tom chase Jerry”为例。 在翻译“chase”时,chase所占的注意力(0.6)自然比其他的单词”tom – […]


记第一次跳伞

13000英尺(四千米),两个人,一顶伞。 最吓人的不是跳出舱门的那一瞬,而是签免责协议的时候。 “跳伞是一项高风险运动,你理解并同意放弃以下法律权限:发生任何意外,不起诉这里的工作人员、公司本身、飞机制造商、降落伞制造商、叠伞人……同时,你明白任何保险都不担保你跳伞所产生的意外。”总之是把生产线上各个环节的人都免除责任了。 大晴天,无风。对跳伞来说,这是绝佳的天气。 排队的过程中,我看到十几顶降落伞在天上盘旋,那感觉像极了吃鸡的开场。 我们中午也吃的泰国鸡,一天整个一个吃鸡之旅。 跳伞的场地叫Skydive California,在Tracy。小镇很平静祥和,物价也比硅谷便宜许多。 场地很小,只有一个简易跑道,用来起飞,和一片草地,用来着陆。周围就是果树林。 飞机很小,机舱里两条板凳。坐满了跳伞的人。爬升到一万三千英尺,教练绑在我后面。自己什么也不用做,他刷的一下就带我跳了下去。 自由加速带来的不适感很快就消除,甚至没感觉到,就进入了匀速下落阶段。最感觉不适的是呼吸的困难。我必须大口大口喘气。手臂也都麻木了,可能是紧张。 看着远处不会害怕,看着脚下就吓人了。会跳伞的人说,低空跳伞是最难的,一是开伞时间短,二是离地面近,那种地面撞上来的感觉,很有压迫感。 感觉跳伞和滑雪有点像。费了大劲上去,不一会儿就下来了。人生中有一次这种体验还是很值得的,就是我很不喜欢把命拴在单点故障上,比如那个伞包。   了解得知,伞包是有两个伞的,一个主伞,一个副伞。主伞失效的话,开副伞。副伞失效的话,还有一个自动开伞装置,降落到一定高度自动开伞。跳伞者胳膊上绑着高度计,看着高度开伞。不能目视,因为很难,且不准。 跳伞者很多戴着头盔,其实不是为了保护头部,而是为了挡风。因为自由落体时,噪声和风很大,吹着很难受。毕竟如果出现意外的话,头盔也没什么保护作用。    


Big Debt Crises

我是怎样看待信贷的(credit and debt) 借贷创造了信用与负债。信用是给出的当下的购买力。负债是给出的未来会连本带利地返还的承诺。 社会过少的信贷与过多的信贷都不好。前者无法激发社会的生产潜力,后者产生坏账。 评判一笔贷款的好坏在于,这笔贷款所创造的生产力,或者说收入,能否支付贷款的本金与利息。 巨额负债的风险大小取决于执政者能否把坏账的损失平摊到社会中的每个人身上(通过货币政策与财政政策),并且分散到多个年头(比如15年)中。这又进一步取决于两点。1. 负债是否是用本国货币计价的。2.执政者是否有影响借出者与贷款者行为的能力。 美元是国际货币,负债均以美元结算。 为什么债务危机不可避免? 人性的短视(也有政府任期的缘故),人们心理的弱点。 为什么债务危机具有周期性? 每个人在借钱时,就创造了一个债务周期。你现在花的钱比你挣得钱多,当你还钱时,你花的钱一定得小于你挣的钱,因为你要还债。这就是一个周期。 当债务扩张时(可以理解为美联储扩表),资产价格上升。 当政府举债,大兴土木,修建fixed investments,real estate 和infrastructure时,就业向好,资产价格升值。但当这些工程建完之后,没有项目了,工人失业,经济下滑。出路在哪里?一带一路,去非洲搞基建。或者发动战争,战争消耗物资。 这种工程建完,经济下滑的情况在新兴市场很普遍。此外,新兴市场往往劳动力便宜,有出口竞争力。然而,新兴市场的劳动力工资会不断增加,导致他们的产品价格上涨,逐渐失去国际竞争力。参考中国与日本。 当债务曲线达到顶端时,欠债人无法偿还所有债务,不得不违约或债务重组,并且危机过后,之前借债的企业和个人也不会像危机之前那样大手大脚花钱了。  


载歌在谷 摄像组 培训

如何创造电影感 冯淦 摄像组组长,主讲人 – 沈阳 – palo alto – houzz 郑又齐 – 宣传组组长 刘冰 – 技术组 达生 – 技术组 负责大屏幕,录吉他 黄世阳 – 宣传组,摄影 崔yi4然 = 彩排花絮 俊颍 – 设计师 – 技术组、宣传组 – 天津 什么是电影感 展示一张电影截图,电影是2.35:1 尺寸,单反16:9,叙事感。光线,布灯,这与自然光不同,给人以陌生感。 电影感就是观众习惯了的电影体验。 怎么创造电影感 参数(帧数,快门) 如果以60帧每秒的速度拍视频的话,快门速度只能是1/120或1/100,每帧的进光量就少了。(因为各行扫描,无法做到1/60的快门速度) Photography is truth,the cinema is truth 24 times per second. […]


《社会学的邀请》读后感

知乎上有人问,”命运是什么?“。最高赞的答案写道”命乃弱者借口,运乃强者谦辞。“意思是,失败者把自己的失败归咎于外因,命中注定;成功者把自己的成功解释成好运气。它暗示人们要自我奋斗,不能怨天尤人。 我曾无比认同这个答案。但《社会学的邀请》让我对这个问题有了完全不同的解读:一个人的出身极大影响了他一生所能到达的高度。父母给了你先天的经济资源、社会资源和文化资源。成功者运气好,投胎在上层阶级,平步青云。失败者命运糟,出身卑微,寒门难出贵子。 人的一生中通过后天奋斗实现阶级跃迁是可能的,但是是极其困难的。每个人仍应该奋斗,努力向上。但在努力的同时,也要对阶级固化的现象有客观清晰的认识。 《乌合之众》通篇只讲了一件事”群体无意识,领袖带节奏“。但这本书内容庞杂,包罗万象。我无法用一篇结构严谨的文章把所有的知识点都流畅地串起来。在此仅就几个社会热点话题,结合书中的知识与自身经历,谈谈看法。 经济 生产力和生产关系决定上层建筑 马克思的论述,翻译成英文是”The substructure (base) determines the superstructure. The way we organize production, or the way we organize our labor power, provides the foundation for all else in society”. (Economy Determines Society, p70)而不是简单的”经济基础决定上层建筑”。它并不是指人们应该先闷声发大财,再发展文化、教育等其他社会结构。它是说,生产力和生产关系决定了上层建筑(法律,文化)的形成,这些上层建筑会反过来强化目前的生产力和生产关系。(维基百科)这里只讲关系,没有先后之别。 为什么要扶贫? 为了社会稳定。否则底层人民揭竿而起,王侯将相宁有种乎。社会贫富差距带来价值观的撕裂,中国、美国、巴西的贫富差距已经很大了(知乎链接) 为什么资本主义仍然存在,并且发展良好? 资本主义在不断改良,比如员工持股的股份制,比如反垄断法。马克思批判的是他那个时代的资本主义。现在的资本主义已经和当时很不一样了。 教育 素质教育客观上对穷人孩子有利还是有弊? 素质教育对穷人有弊。富人孩子和穷人孩子能接触到的教育资源不同。(详见北京精华学校的李永乐与石国鹏老师)发展素质教育后,富人的孩子有资源去参加更多的兴趣班与社会实践。穷人的孩子只能放养。富人孩子更优秀,穷人孩子更平庸。寒门再难出贵子。(Unequal Resource Distribution, p164) 一个解决办法是允许私人办学,对富人进行精英教育。但这带来的是教育资源分配的更大的不公平。 为什么社会重理轻文? 国家需要大量的掌握基础科学技术,服从命令,能从事生产的工程师;而不是思考制度、反思历史、想着变革的思想家。以经济建设为中心的大旗挥舞着,说得极端一点,教育是统治者维护统治的工具。(Education […]


载歌载谷 技术组 培训

音响培训 Xingyuan Lai – Master of Music Technology Different Kinds of Audio Engineering Studio Recording, Mixing, Mastering(母带,把各个乐器的音轨合到一起后,再调左右声道的过程) Sound Editing Post-production HiFi高保真 Live Sound Engineering Objectives of Live Sound Engineering There is sound – 有声音 No feedback – 没有啸叫,啸叫的频率与系统的谐振频率有关,跟环境也有关。 good quality – 音质好 (什么是不好的音质?) Sound Reinforcement System Inputs microphone instrument computer […]


你的境遇,并不代表中国

同龄人中,有多少人读了大学?同龄人中,有多少人上了985、211? 由国家统计局第六次人口普查数据知,2010年,20-24岁共有127,412,518人,本科学历(在读)人数为13,973,662人,占同龄人的比例为10.9%。 也就是说,如果你成功进入大学本科,你就碾压了全国90%的同龄人。   那么全国有多少学生能进入985大学呢? 2015年,38所985高校的招生人数一共185,436人。我们乘以四估算出在校本科生人数,为741,744人,占同龄人的比例为1.46%。进入985大学,你就把全国将近99%的同龄人踩在脚下。   那我们大多数的同龄人都去哪里了呢? 2010年普查中,20-24岁人中,有46.6%的人初中辍学,没有继续念高中。有20.7%的人高中辍学,没有继续念大学。   那你出生在城市,比你出生在农村,进入大学的概率会大多少呢? 还是2010年普查,20-24岁人中,有47,547,510人居住在城市,其中10,448,221人进入大学,占比22.0%;有56,354,000人居住在农村,其中1,395,775人进入大学,占比2.48%.   985毕业的你,并不代表大部分中国人的境遇。   数据来源:国家统计局 搜狐:985高校2015年本科录取人数


塞尔达传说 – 玩后感

我曾以为自己不会再沉迷游戏,直到老大送了我们switch,而我们又手贱地买了塞尔达传说。 Switch不请自来进我家之后,xbox就再也没被打开过。最大的原因是switch的便捷性,这让游戏成为一个轻任务的活儿。而xbox还要漫长的开机,连电视,再拿起手柄坐在沙发前,这个任务很重,启动成本高,像是在举行朝圣。 冷启动成本会降低用户的开机频率,switch用了很多优化和细节来减少冷启动成本。比如当你把主机从充电插口上拔下时,它会自动点亮屏幕。屏幕上显示着你上次玩的游戏进度。仿佛在召唤你再来一盘;进入游戏后,不用再重新载入,似乎一直把进度放在了内存里,这进一步降低了启动成本。 15v的充电插口充电很快,5v也能充,提高了旅行时的续航能力。 switch的游戏可以大致分两类,一类是party游戏,特点是上手快,多人玩,单盘费时短。比如赛车,1&2switch,拉面兄弟,arms 另一类是单人游戏,学习难度大,沉浸感强,剧情丰富。比如塞尔达,马里奥奥德赛。 分手厨房处在这两类之间。 次要原因是塞尔达的游戏性。 关于塞尔达传说的可玩性,我引用主创人员的总结:引力、三角形、三把尺子。再加上自己的总结:互动、合乎逻辑、超短周期的回报激励。 引力 引力就是游戏中吸引玩家前往的各个地点。它可以是高塔,可以是神庙,可以是冒烟的地点,可以是驿站村庄。是这些引力点给玩家以指引。而且在一个高塔处,往往能眺望到多个引力点,这给玩家以选择,让玩家觉得是自己的自由意识在主导游戏。 但是,如果玩家从一个引力点能直接到达另一个引力点的话,游戏就又变成线性的了。这就引入了三角形的概念。 三角形 海拉鲁大地上的山是三角形的,神庙是三角形的,树木等等都是三角形的。三角形给人以稳定性。而且,当玩家从一个高塔,一个神庙飞向下一个引力点时,往往会被这些三角形的景物所挡住。此时玩家就面临选择,是爬山?还是绕道?在路上,往往玩家就会看到更多的引力点。这让游戏进程更多样,更丰富。 三把尺子 密度:神庙的密度,主创人员参考京都的便利店的密度,让神庙的密度在游戏中刚刚好。 长度:地图的长度,主创人员参考京都(老城区?)的大小,用步行和自行车分别丈量。 时间(?) 互动 游戏把人与环境的互动发挥到了极致。比如人与狗的苹果进食互动;下雨了NPC会跑回家;火可以点燃炸药,金属武器会引雷。 合乎逻辑 游戏里浮力的设定。高山上温度会低,火山里温度高。烹饪系统,神庙系统,装备系统,装备升级系统……合乎逻辑 超短周期的回报激励 爬到高山山顶,就会给你一个呀哈哈。打死怪物,就会给你怪物材料。回报周期超短,让你不断受激励。 不足之处 switch两三个小时的续航时间还是有点短,可以考虑再开发外置电池。


《乌合之众》 – 慎独与从众

儒家的“慎独”,指一个人独处时,要严于律己,谨慎不苟。勒庞的《乌合之众》指出,个人在群体中时,更要时刻反思、控制自己的行为,甚至要避免参与群情激昂的活动。因为当你身处群体中时,你就丧失了独立思考的能力,转而被群体意志所挟持,做出与你独处时截然不同的行为。 群体的无意识 当一群人聚集在一起,形成一个群体后,他们的智力水平就会下降到同一个水平,整个群体便获得了一些新的品质:鲁莽、冲动,丧失推理能力。 记得钓鱼岛事件时,人们群情激昂,上街游行,砸丰田,摔尼康,抢资生堂。当这些人聚在一起之前,他们是老实的快递小哥、外卖员、白领、农民。个人是断不会做出如此违法乱纪的事情,且个人也应有完整的推理能力,知道他们毁坏的是同胞的财产,而不是他们的敌人。 图:2012年反日游行,西安市民举起告示牌“前方砸车,日系调头”。 个人在群体中会变得胆大妄为,因为人数的众多给予了他们力量,和一种法不责众的幻觉。 以上是勒庞的观点。我想就群体犯罪时的不计后果加以补充。群体犯罪时,群体中的每个人只完成犯罪过程的一小部分,于是每个人在道德上所受到的谴责会小得多。 试想上面抗日游行的例子。大家群情激昂,口号响亮,旌旗招展,一股势不可挡的力量在街头汹涌向前。无巧不巧,前方的路口停着一辆没来得及开走的丰田。 接下来的剧情会朝两个方向发展。 一是游行中的一个人,朝大家大喊,“看,哪个兔崽子买了日本车!”他朝着周围的人挥舞手臂,“砸了!”群众轰然响应。他跑向路边,捡起砖头,冲向汽车,踩上引擎盖,一下一下把车窗砸碎。群众欢呼着,“砸!砸!砸!”。 另一种情况是,游行中的眼尖的A大喊,“看,哪个兔崽子买了日本车!”B接话道,“砸了!”C把D推到车前,E把不知从哪里递来的砖头塞到D的手里,FGH在身边大喊,“砸!”于是D仿佛成了众人期盼的英雄,正在顺应民意执行一项崇高的任务。于是他和着口号,抡圆胳膊,一砖头下去,治安拘留。 第一种情况是断不可能发生在群情激昂的群体里的,只可能发生在剧院。因为执行者与群众脱离,群众只是在一旁叫好的看客。第二种情况更容易发生在群体中。每个人都是砸车的帮凶,但每个人都只执行其中一个环节。此时个人的道德已经被群体的正义感所淹没,每个人都认为自己执行的环节不是犯罪的决定因素而免于内心的谴责。 我有印象的,自己参与的群体事件,并且我在其中表现出低智商的,是林建华即将调任浙江大学校长时,浙大校友会和在校师生掀起的反对他调任的口诛笔伐。我仍清楚记得我当时浏览着人人网上的认识的不认识的同学的各种转发。我觉得自己被某种力量推动着,有种不吐不快的冲动。于是我酣畅淋漓地写下了自己的想法,马不停蹄地点了转发,心满意足地收获赞与评论。但其实,我是丧失了推理能力的。我并没有认真研究过林建华校长的履历与能力,只知道他不是浙大校友,仅此而已。 勒庞说,这种群体的无意识与种族无关。法国夺冠后,球迷上街庆祝,并演变成打砸抢。 图:2018世界杯法国夺冠后,巴黎的庆祝活动。 作为个人,要时刻警惕群体的无意识行为。尝试把自己与群体隔离,冷静思考,再做判断。 能做到以上几点,并且能引导群体意识的,皆为领袖。 日本首相参拜靖国神社,浙大学生群情激昂,上街游行一触即发。郑强教授站了出来,呼吁大家冷静思考。日本人参拜靖国神社,我们浙大的同学参拜了你们的学长,于子三墓了吗? 众人哑口无言。 图:于子三墓。杭州 其实,于子三反对的是国民党。百度百科并没有显示他有抗日的经历(那时他在读高中)。 群体的力量 究竟是特朗普当选,让美国走向孤立主义。还是说美国民众的孤立主义情绪高涨,推选出了特朗普?根据勒庞的理论,答案是后者。英雄只是台上的演员,群众则是幕后的推手。 勒庞指出,各个国家的制度是由民族的品性决定的。美国与墨西哥都是资本主义,都是联邦共和制,但繁荣程度却天上地下。民族品性决定了国家的繁荣程度。是中华民族的品性决定了他们在半个多世纪前选择了社会主义,是中华民族的任劳任怨让社会长治久安,是他们的吃苦耐劳让中国繁荣富强。勒庞说,是民族几百年,上千年沉淀下来的基因决定了民族品性。那是什么决定了一个民族的基因呢?他的第一驱动力是什么? 勒庞没有给出答案,我的观点是地理决定论。是各个国家所在的地理环境决定了他们最初的生活方式,是游牧还是农耕,是小国寡民还是氏族部落。并由此选择了最适合他们生存的社会制度。千百年积淀下来,成就了民族的基因与品性。 这像极了《天道》里所讲的文化属性。透视社会有三个层次,技术,制度,文化,依次递进。 勒庞认为,社会基本观念的改变,会导致社会动荡,爆发革命。新文化运动,把民主的思想植入人心;欧洲的文艺复兴,把神权推翻,重新以人为本;就连陈胜吴广起义前,也要扮狐狸喊出“大楚兴,陈胜王”。个人自由主义、孤立主义的爆发,推选出了特朗普。 打天下是否就能合法地坐天下?我爷爷认同你的统治,到了我这一辈,我是否还依然认同?改革开放和90年代国企下岗潮以来,个体被推向社会。当国家管得越来越少,个人管得越来越多时,带来的是个人权力意识的觉醒,也即“个体化”思潮。群众观念的转变,所带来的力量是无穷的。当局者是顺应思潮,还是钳制思想,是一个艰难的选择。 领袖与群体的关系 领袖的影响力来自于他的名望,而不是他的论证。名望来自于成功,成功的一种表现形式是财富。 当一个人的财富散尽,名望扫地后,虽然他的性格、信念、演讲能力仍在,但他也会被群众所抛弃。勒庞指出了拿破仑的例子。在中国,我没想到合适的类比。 勒庞指出,领袖在演讲时不会用严谨的论证,只会用断言、反复、传染等手段,来影响大众。这实际上也非常奏效,因为群众的智商已经低到无法进行任何推理,只能宣泄情绪的程度。 我想起2016年在纽黑文参加的桑德斯老爷子的竞选集会。会上他确实是用了大量的没有经过论证的断言,反复渲染。“你们都是Yale的优秀学生,但在离这里XX英里的XX郡,还有XX万上不起学的孩童。”让人们认为,把投票给他,就可以让所有人都上得起学,并提高最低工资标准。 图:2016年,民主党候选人桑德斯在纽黑文的集会演讲。 小学时所学的爱国歌曲。“社会主义好,社会主义好,社会主义国家人民地位高”,以及街头所拉的横幅“光荣、伟大、正确”,确乎全是断言,没有论证。当然可能是因为歌词或横幅的字数有限。 群体对领袖会产生崇拜,这种崇拜是容不得论证和质疑的。即使是无神论者,也能产生类似宗教性质的对个人的狂热崇拜。领袖往往具有,或者表现具有常人所没有的优秀品质。这让领袖成为群众的感情寄托。 比如拿破仑、希特勒、斯大林的个人崇拜。粉丝对明星的崇拜也与此类似。 民主与独裁 议会由群体构成,有缺陷,但却是现在所能想到的非独裁的较为理想的统治方式。陪审团由群体构成,同样有缺陷。“一群受过高等教育的专家与一群泥瓦匠、下水管道工所组成的陪审团做出的判决没什么两样。” 民主还是独裁?我不知道答案。 本书的不足 书中出现了大量的反复、断言、暗示,而没有论证、实验、统计数据。讽刺的是,这正是勒庞在书中所鄙视的领袖在群体中的演讲技俩。这本书可以作为一个出色的集会演讲,但很难说服处于独处的阅读状态的读者。其实它也很难在集会上说服群众,除非个人聚集成群众时的智力已经下降得如此之低,低到他们要为骂他们都是智商低下,冲动,行动不计后果的乌合之众的观点叫好。 书中也充斥着对女性和儿童的歧视。 勒庞用大量断言阐述了群体低智商这样一个现象,但没能追求其成因,以及提出解决办法。 我想成因可能是千百年来流传下来的动物的生存本能:在群体里从众,能够提高自己的生存几率。 而根据进化论,这些从众的个体的基因被一代代传递了下来。人的感性思维是反应极快的,是从众的。感性思维可以让你对外部环境的变化迅速作出反应,从而导致“不会太坏”的结果。理性思维是需要时间整理的,是需要个人冷静思考的。理性思维的决策往往是最优的,但却往往是有违直觉,并且滞后的。 作为个人,在做出重大决策时,更不能任由感性思维主导自己,在人群中做决策。