一个月前硬件供货商送来一台工控机进行产品的压力测试,因为我之前一直忘了要测它,所以到了要还回去的那天才想起来要测试,结果发现没有视频接口。这种急急忙忙的情况下,没法太麻烦人家加班和我们沟通,只能在最需要的情况下,询问一两个问题。(诸葛亮锦囊是吧?)

问题1:视频接口

在硬件的周围找了一圈:网口、USB口、电源,总共就这三种接口,确定没有视频接口。

思考了一会之后,突然想起来有USB转HDMI的转接器,美团买一个30分钟送过来尝试,发现没用(商家宣称无需驱动),只能放弃连接显示器的方式,尝试直接SSH。

问题2:不知道IP

以往接触的机器是可以用视频接口连个显示器,然后插键盘到设备上进行IP配置的。但是这次并没有视频接口,所以无法配置IP也没法使用ifconfig来查看当前IP,更别提SSH了。

想了一个蠢办法,把机器用网线连接到路由器,登录路由器的后台,查看新增的IP,但由于办公室里面有两台硬件服务器,开了几十个虚拟机,所以路由器后台里有几十个IP被占用。好在路由上有个IP总数,用网线连上设备之后可以确认是多了一个IP的。接下来的任务就是一个个看新冒出来的IP是哪个了。

TP-LINK的这个管理界面真的很难用,没法筛选没法直接查看IP,只能点开设备进行管理才能看到IP,再返回之后列表又会重置。而且大多数设备都叫匿名设备,裂开。

只能点击管理才能看到IP

大约过了15分钟,终于定位到了工控机的IP。

问题3:用户名密码

通过telnet连接工控机22端口,得知了使用的是Ubuntu,Ubuntu默认不是用的root,无法猜测用户名和密码两项组合。

在尝试了有限的几个常用组合之后放弃,只能使用锦囊(询问厂商),获取到用户名密码。

问题4:netplan配置失误

在SSH到工控机之后,第一件事就是固定工控机的IP,不然不小心重新DHCP要再经历一次15分钟寻找IP。这个步骤非常顺利。

中间有一小段时间的产品安装和压力测试,一切顺利。

产品中有一个功能:和硬件的bypass网卡进行对接,在断电或者程序挂掉的时候自动启动硬件的bypass。这个功能需要配置网桥,在配置网桥的时候配置写的有问题,在敲下netplan apply的那一刻,终端直接定住了……

可以肯定的是,机器没有死机,如果有视频接口,是可以很轻易的恢复配置的。思考半响后只有一个方法:盲操。

首先需要确定机器是否可操作,接上键盘后尝试先重启机器,分别进行:输入用户名,回车,输入密码,回车,输入reboot,回车。等待机器查看是否重启。

确认机器可以重启之后就好办了,等2-3分钟,确保机器启动完毕重置一下netplan,再次执行:输入用户名,回车,输入密码,回车,输入sudo su,回车,输入密码,回车。现在已经是root用户,所以cd /etc/netplan/,然后删除文件 rm (tab),然后netplan apply或者reboot。

问题5:bypass之后网口无法获取到IP

这也是netplan配置错误导致的问题,在netplan配置中指定了开启的网口和网桥之后,其他网口就无法自动获取到IP了。当我们进行了物理bypass之后,两个网口相当于一根网线,也失去了获取IP的功能。

只能再次祭出盲操大法,这次恢复了之后我们决定为这种需要盲操的情况添加一个快速恢复的脚本,放在根目录到时候可以方便执行。(现在想来创建一个alias,添加一个直接能够执行的命令比如netreset应该会更方便)

总结

没想到产品和测试高度自动化的情况下(安装和测试只需要花10分钟不到),还是会碰到各种情况(还是要多见见世面)。


0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注